新闻动态 > 公司新闻

远鉴信息参加全球信号处理顶会ICASSP 2024并作论文报告

2024/05/09

2024年4月14日至19日,国际声学、语音与信号处理领域的旗舰会议ICASSP 2024(International Conference on Acoustics,Speech and Signal Processing)在韩国首尔召开,本届会议以“信号处理技术:迈向真正智能的基石”为主题,涵盖了语音识别、语音合成、语音增强、自然语言处理、机器学习等多个前沿领域。

0.jpg

ICASSP 2024会议现场(图源网络)


作为IEEE信号处理学会的年度学术盛会,ICASSP不仅是全球规模最大、覆盖最全面的声学、语音和信号处理及其应用方面的国际会议,更是语音技术领域最具影响力的顶级论坛。远鉴信息受邀参加并同全球各地的高校、科研机构、企业界等,近4000位专家学者共同交流产业发展的前沿趋势,分享最新的科研成果,探索科学技术的最新动态。会上,远鉴信息被授予车载多通道自动语音识别挑战赛(ICMC-ASR)赛道亚军荣誉证书。


微信截图_20240509153044.png

ICMC-ASR赛道荣誉证书

微信截图_20240509153008.jpg

远鉴信息参赛团队现场领取荣誉证书


作为ICASSP 2024的一部分,车载多通道自动语音识别挑战赛(ICMC-ASR)针对复杂驾驶条件下的语音识别领域提出了挑战。本次挑战赛发布了超过1000小时的真实录制、多通道、多说话人、车载普通话会话语音数据。挑战赛由自动语音识别和自动语音记录与识别两个赛道组成,旨在推动车载自动语音识别研究的深入发展,并探索解决相应挑战性问题的新途径。远鉴信息就ICASSP 2024车载多通道自动语音识别挑战赛(ICMC-ASR)比赛技术方案进行了口头(Oral)报告交流。该技术方案针对多通道车载场景下的语音识别问题,从前后端两个角度进行了深入探索,相关论文被ICASSP 2024收录。


微信截图_20240509153029.jpg

远鉴信息获奖团队现场作Oral报告


在前端算法方面,远鉴信息提出了一种基于能量投票的通道选择方法。该方法首先对四个远场通道进行降噪处理,然后利用聚类技术为每个说话人选取三个音频片段,并测试这些片段在四个远场音频通道上的能量大小。通过投票机制,选择出能量最大的通道,即距离该说话人最近的通道。此外,远鉴信息还引入了多种数据增强策略,如波束成形(Beamforming)、自动回声消除+独立矢量分析(AEC+IVA)等,以丰富训练数据,为后续的说话人分离和语音识别模块奠定了坚实的基础。


微信截图_20240509153059.jpg

数据增强处理流程图


在后端算法方面,远鉴信息采用了多声学特征、多系统融合的策略。除了常见的Fbank声学特征外,还利用大规模无监督自监督学习提取表征特征。同时,将采用不同声学特征、不同训练数据集的模型解码结果进行融合。为了优化性能,远鉴信息还采用了多模块联合训练方法,特别关注语音增强模块与语音识别模块之间的协同。通过联合训练,降低了语音增强模块对噪声的过度抑制,从而提升了语音识别模块在复杂场景下的效果。


远鉴信息的论文被ICASSP 2024选作口头报告论文,并在车载多通道自动语音识别挑战赛道(ICMC-ASR)中取得佳绩,这不仅展示了远鉴信息在声学、语音和信号处理领域的实力达到新的水平,更为整个行业的发展注入了新的活力。未来,远鉴信息将不断提升自身在语音技术领域的优势,积极探索前沿科技,推动人工智能技术在更多场景下实现更高层次的跨越与发展。


热门新闻