远鉴斩获FG2025普通话视听语音识别挑战赛赛道冠军

2025年6月18日

远鉴在普通话视听语音识别挑战赛（Mandarin Audio-Visual Speech Recognition Challenge，MAVSR2025）赛道二中表现

普通话视听语音识别挑战赛（MAVSR）赛道二第一名获奖证书

FG2025是人脸识别及手势识别领域极具权威性的旗舰会议，由IEEE主办，致力于为全球人脸识别与手势识别的研究人员提供一个高规格的交流平台。该会议议题广泛，包括基础计算机视觉、模式识别、计算机图形学的进展；与面部、手势和身体运动相关的机器学习技术；行为科学和情感计算中的新算法和应用。

推动VSR技术创新，应对复杂环境需求

近年来，计算机视觉领域的快速发展极大地推动了视觉语音识别技术（Visual Speech Recognition, VSR）的进步。视觉语音识别是一种通过分析说话者的面部动作、唇部运动、舌部姿态等视觉信息，实现语音内容理解的跨学科技术，不依赖于任何音频。VSR技术在公共安全、国家安全、辅助言语失能人士、活体检测等多领域具有广泛应用前景，当前许多研究主要集中在高质量数据集上，往往忽略了现实世界场景中诸多影响识别效果的关键因素，如低分辨率、大角度姿态、光线不足和图像模糊等实际挑战。

在此背景下，MAVSR2025通过设置低质量条件下的视觉语音识别（赛道一）和视觉关键词检测（赛道二）两个赛道，鼓励研究者探索在复杂、挑战性条件下拓展VSR技术的边界，促进更强大、更实用的解决方案。

聚焦

远鉴参与赛道二提供的数据集包含多种分辨率、光照条件和姿势变化，包含不同的性别、年龄分布的说话人，全面模拟了实际环境中视觉语音数据在质量和清晰度上的显著差异。

实验结果表明，

MAVSR2025挑战赛的视频样例

远鉴在MAVSR2025挑战赛中提出的技术解决方案，以论文形式在FG2025 Competition进行了宣讲和分享。在视觉语音识别技术地深度应用上，远鉴已经落地多个创新性产品。以远鉴打造的多维智能锁为例，该门锁融合“声纹+人脸+动态密码”复合识别技术，通过分析用户面部特征、声纹、唇动等多维度信息来进行精确的身份识别，实现精准高效的身份认证。该门锁能够在300ms内完成1:10000人脸认证和1:1声纹核验，显著提高了门锁认证的准确性和使用体验。

未来，远鉴将持续拓展视觉语音识别技术的边界，不断优化算法鲁棒性与适用性，依托在人工智能技术领域的丰富实践能力，打造更有效、更实用的解决方案，赋能行业应用。

远鉴在BME2025分享声学AI在医疗健康领域的新洞察

远鉴亮相安全识别技术展览会暨高峰论坛，分享新一代身份安全基础设施