远鉴两篇论文入选IEEE SLT2024并作报告分享 - 公司新闻

新闻动态 > 公司新闻

远鉴两篇论文入选IEEE SLT2024并作报告分享

2024/12/06

12月2日至5日，由IEEE信号处理学会（IEEE Signal Processing Society）语音与语言处理技术委员会（Speech and Language Processing Technical Committee）主办的旗舰活动，2024年IEEE口语技术研讨会（Spoken Language Technology Workshop，SLT2024）在中国澳门召开。

SLT作为语音与语言处理研究领域的国际顶尖会议，每两年举办一次，为来自学术界和工业界的研究人员提供了一个平台，以讨论自动语音识别与理解领域的共同挑战，交流内容涵盖自动语音识别、对话/多说话人自动语音识别、说话人和语言识别、自动语音识别的新应用、视听/多模态语音处理等众多领域。

IEEE SLT2024口语技术研讨会开幕

远鉴信息是歌声深度伪造检测挑战赛（Singing Voice Deepfake Detection Challenge，SVDD）冠军、口吃事件检测和语音识别挑战赛（Stuttering Speech Challenge，SSC）冠军、源说话人溯源挑战赛（Source Speaker Tracing Challenge，SSTC）亚军，发表的两篇论文通过严格的评审，被国际会议SLT2024收录并在本届会议上宣读。

《Integrating Self-Supervised Pre-training with Adversarial Learning for Synthesized Song Detection》论文介绍了远鉴提交给SLT2024歌声深度伪造检测挑战赛的系统。现有的欺骗检测系统在高逼真度的合成歌曲数据集上应用时，往往表现不佳。为了解决这一问题，远鉴研究团队提出了一种将自监督预训练与对抗学习相结合的方法。首先，使用预训练模型来提取音频表征，然后将其输入到后端分类器中。采用基于残差块的网络来捕捉精细的音频特征。此外，还通过引入梯度反转层并应用对抗训练来增强基于原始语音网络模型，以提高模型对未知算法的泛化能力。最后，在得分层面将各种模型的输出进行组合。实验结果表明，我们的方法在受控歌唱声音深度伪造检测（Controlled Singing Voice Deepfake Detection，CtrSVDD）赛道的测试集上实现了1.57%的等错误率，与基线B02相比，相对降低了84.92%。

远鉴研究人员做SVDD技术分享

《Enhanced ASR for Stuttering Speech Combining Adversarial and Signal-Based Data Augmentation》论文介绍了远鉴提交给SLT2024口吃事件检测和语音识别挑战赛的系统。该挑战赛聚焦于通过实施多种直接且有效的多阶段数据增强技术来解决口吃的特征症状，旨在提高口吃人士的自动语音识别性能。通过模拟口吃者的节奏、语速和频谱包络的变化来提高性能。数据增强策略包括在正常音频中插入静音段、重复口吃的语音段以及调整语速和节奏。此外，还使用基于生成对抗网络的数据增强方法来获取与口吃语音相关的更精细的时频域特征。远鉴研究团队进行了详细的对比实验，评估每种方法在口吃语音识别系统中的有效性。结果表明，提出系统在口吃语音挑战赛的口吃自动语音识别赛道中达到了12.30%的字符错误率，相比官方基线实现了35.87%的相对改进。