近日,我院翟黎明副教授的三篇论文分别被相关领域顶级会议ICLR 2024, IJCAI 2024, ACM MM 2023录用。
论文1:VBH-GNN: Variational Bayesian Heterogeneous Graph Neural Networks for Cross-subject Emotion Recognition
该论文被ICLR 2024录用,由我院翟黎明副教授与南洋理工大学、北京交通大学、中科院自动化所的研究者合作完成。翟黎明副教授是通讯作者,华中师范大学为第一通讯单位,该论文是国际合作交流的成果。ICLR的全称是International Conference on Learning Representations(国际表征学习会议),属于机器学习领域的三大顶级会议之一,位列2023年谷歌学术指标全球刊物影响力第10名。
论文摘要:基于脑电信号(Electroencephalogram, EEG) 的情绪识别是一种通过分析和解读脑电波的活动来识别个体情绪状态的技术。脑电信号具有客观性强(脑电信号直接反映大脑的活动状态,难以伪装)、穿透性好(探测大脑皮层下更深层次的神经活动信息,获取隐藏状态下的情绪信号)和识别精度高的优点,广泛应用于医疗健康(情绪障碍治疗,抑郁症和焦虑症检测)、教育(学生心理健康监测,智能教学系统)、娱乐(虚拟现实,沉浸式游戏体验)、人机交互(智能设备个性化服务,虚拟助手情感交流)等场景。然而,由于个体间的生理差异较大,使用脑电信号实现跨个体的情绪识别具有较大的难度。为此,该论文提出使用多模态生理信号来捕获更丰富的情绪信息,利用多模态生理信号之间的互补性来缓解个体差异影响,从而实现跨个体的情绪识别。该论文首先设计了一种变分贝叶斯异构图神经网络,从脑电和心电(ECG)等多模态信号中学习异质性特征;其次提出一种关系分布自适应机制来解决多模态生理信号在时空域上的特征对齐问题。大量实验表明,该方法在跨个体的情绪识别任务上具有较高的泛化能力,并且同时达到较高的识别精度。
论文2:Variational Spatial and Gaussian Temporal Graph Models for EEG-based Emotion Recognition
该论文被IJCAI 2024录用,由我院翟黎明副教授与南洋理工大学、北京交通大学、中科院自动化所的研究者合作完成。翟黎明副教授是通讯作者,华中师范大学为第一通讯单位,该论文也是国际合作交流的成果。IJCAI的全称是International Joint Conference on Artificial Intelligence(国际人工智能联合会议),是人工智能领域的国际顶级会议,也是中国计算机学会(CCF)推荐的A类会议。
论文摘要:基于脑电信号的情绪识别是一种通过分析和解读脑电波的活动来识别个体情绪状态的技术。脑电信号记录的是特定脑部区域在连续时间内的大脑活动信号,因此脑电信号的时间关联性对于情绪识别至关重要。然而,现有研究只考虑同一脑部区域的时间关联性,却忽略了不同脑部区域的交叉时间关联性,后者在神经科学的研究中已经被证实对于情绪表达具有重要作用。此外,现有研究只依赖机器学习方法从脑电信号本身去学习情绪信息,同样忽略了生理学领域的先验知识对于情绪表征学习的指引作用。针对这些问题,该论文提出了一个时空图模型来实现情绪识别。时空图模型包含两个新颖的网络结构:高斯时间编码器和变分空间编码器。其中,时空图模型中的高斯时间编码器用于学习不同脑部区域的交叉时间关联性,变分空间编码器则利用先验分布来指导模型的特征学习。实验证明,该模型在脑电信号的情绪识别精度上优于现有的研究方法。
论文3:Who is speaking actually? Robust and versatile speaker traceability for voice conversion
该论文被ACM MM 2023录用,由我院翟黎明副教授与武汉大学的研究者合作完成。翟黎明副教授是通讯作者,华中师范大学为唯一通讯单位。ACM MM的全称是ACM International Conference on Multimedia(国际多媒体会议),是多媒体领域的国际顶级会议,也是中国计算机学会(CCF)推荐的A类会议。
论文摘要:声音克隆或音色转换是一种将源声音的音色特征转换为目标声音的音色特征的技术,在语音合成、音乐制作、影视配音、游戏娱乐等领域得到广泛应用。近年来随着人工智能的发展,许多网络平台和移动应用都提供声音克隆服务,让声音克隆工具变得触手可及。然而声音克隆也存在被滥用于非法活动的风险,例如传冒充名人进行政治攻击、假冒亲友实施电话诈骗、声音匿名散布虚假言论等。为了规范声音克隆工具的使用,有必要对克隆的声音进行溯源,即识别克隆的声音来自于哪个使用者的真实声音,这种主动追溯虚假语音源头(说话人溯源)的技术比被动检测(仅识别声音的真假)更为重要。针对这个需求,该论文首次提出一种名为VoxTracer的说话人声音溯源模型,它提前在语音转换的过程中把源说话人身份信息以不可察觉的方式隐藏于克隆的声音中而不影响声音质量,在需要时可以从克隆的语音中准确恢复出隐藏的身份信息以实现身份溯源。该模型最大的特点是具有极强的鲁棒性和极广的通用性,能够抵御压缩、加噪、重采样、重量化、滤波等多种攻击,并能应用于AAC、MP3、Opus和Silk等主流音频压缩标准。
翟黎明副教授所在的研究团队始终秉承以社会实际问题和国家重大需求为导向的理念来开展科研工作,以人工智能安全和多媒体安全作为核心研究方向。近年来,该团队在国内外权威学术期刊和重要学术会议上发表了20余篇论文,这些成果反映了该研究团队在推动学科发展和服务国家重大战略需求方面的不懈努力。