这篇文章不错，转发给_老虎社区_美港股上老虎 - 老虎社区

1
评论
收藏

钞能力8888
09-16

这篇文章不错，转发给大家看看

刚刚！阿里发新模型，幻觉率爆降70%

作者 | 陈骏达编辑 | 李水青智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。为评估模型在高噪声情况下的表现，他们构建了一个包含28条易触发幻觉音频的测试集，经优化后，幻觉率从78.5%下降至10.7%。可以听到，模型基本准确识别了片段中男性说话者的声音，但在声音音量骤降后识别错误了。在FunAudio-ASR的Context增强模块中，CTC解码器经过高质量数据训练，本身发生串语种的概率极低。

刚刚！阿里发新模型，幻觉率爆降70%

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

1

举报

评论

推荐
最新

empty

暂无评论

热议股票

{"i18n":{"language":"zh_CN"},"data":{"magic":2,"id":479217686750000,"tweetId":"479217686750000","gmtCreate":1758031436618,"gmtModify":1758031438593,"author":{"id":3560382599811193,"idStr":"3560382599811193","authorId":3560382599811193,"authorIdStr":"3560382599811193","name":"钞能力8888","avatar":"https://static.tigerbbs.com/1b5bb9f989d900381679c454f99c1351","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"currentWearingBadge":{"badgeId":"e50ce593bb40487ebfb542ca54f6a561-2","templateUuid":"e50ce593bb40487ebfb542ca54f6a561","name":"资深虎友","description":"加入老虎社区1000天","bigImgUrl":"https://static.tigerbbs.com/0063fb68ea29c9ae6858c58630e182d5","smallImgUrl":"https://static.tigerbbs.com/96c699a93be4214d4b49aea6a5a5d1a4","grayImgUrl":"https://static.tigerbbs.com/35b0e542a9ff77046ed69ef602bc105d","redirectLinkEnabled":0,"hasAllocated":1,"isWearing":1,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2023.05.10","individualDisplayEnabled":0},"individualDisplayBadges":[],"fanSize":6,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>这篇文章不错，转发给大家看看</p></body></html>","htmlText":"<html><head></head><body><p>这篇文章不错，转发给大家看看</p></body></html>","text":"这篇文章不错，转发给大家看看","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/479217686750000","repostId":2567129588,"repostType":2,"repost":{"id":"2567129588","kind":"news","pubTimestamp":1757948434,"share":"https://www.laohu8.com/m/news/2567129588?lang=&edition=full","pubTime":"2025-09-15 23:00","market":"us","language":"zh","title":"刚刚！阿里发新模型，幻觉率爆降70%","url":"https://stock-news.laohu8.com/highlight/detail?id=2567129588","media":"智东西","summary":"作者 | 陈骏达编辑 | 李水青智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。为评估模型在高噪声情况下的表现，他们构建了一个包含28条易触发幻觉音频的测试集，经优化后，幻觉率从78.5%下降至10.7%。可以听到，模型基本准确识别了片段中男性说话者的声音，但在声音音量骤降后识别错误了。在FunAudio-ASR的Context增强模块中，CTC解码器经过高质量数据训练，本身发生串语种的概率极低。","content":"<html><body><p><img src=\"https://x0.ifengimg.com/res/2025/645CF5FF4C61532A4D07232D1A5ACE577E00B2A2_size470_w900_h384.png\"/></p><p><strong>作者 | 陈骏达</strong></p><p><strong>编辑 | 李水青</strong></p><p>智东西9月15日报道，今天，<a href=\"https://laohu8.com/S/BABA\">阿里巴巴</a>通义实验室推出了<strong>FunAudio-ASR端到端语音识别大模型</strong>。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，<strong>幻觉率从78.5%下降至10.7%，下降幅度接近70%。</strong></p><p>FunAudio-ASR使用了<strong>数千万小时的音频数据</strong>，融合了大语言模型的语义理解能力，从而提升语音识别的上下文一致性与跨语言切换能力。</p><p>通义实验室打造了5大类测试集，重点关注语音识别在远场、嘈杂背景等挑战性场景下的表现，并结合开源测试集评估了模型的性能。<strong>FunAudio-ASR实现了超越Seed-ASR、KimiAudio-8B等业内知名模型的表现。</strong></p><p><img src=\"https://x0.ifengimg.com/res/2025/8DB3C56A4673DCCF547E35F002DE00C35DBFA49C_size134_w1000_h733.png\"/></p><p>同时，FunAudio-ASR在实际落地方面也进行了全面优化，支持低延迟流式识别、跨<a href=\"https://laohu8.com/S/300936\">中英</a>文自然切换以及用户可自定义的热词识别，能够覆盖视频会议、实时字幕、智能终端等多样化应用场景。</p><p>FunAudio-ASR提供两个版本，满血版由0.7B参数量的编码器和7B参数量的大语言模型组成，追求最高精度；轻量的nano版本由0.2B参数量的编码器和0.6B参数量的大语言模型，平衡效率与精度。目前，FunAudio-ASR已在钉钉的<strong>“AI听记”、视频会议、DingTalk A1硬件</strong>等多个场景中应用。</p><p>FunAudio-ASR已上线<a href=\"https://laohu8.com/S/09988\">阿里</a>云百炼平台，API定价为0.00022元/秒，<strong>转录一段一小时的音频大约需要8毛钱。</strong>这款模型的技术报告已经发布，开发者也可在魔搭社区体验其效果。</p><p>魔搭社区体验：</p><p>https://modelscope.cn/studios/iic/FunAudio-ASR</p><p>阿里云百炼平台：</p><p>https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&amp;scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1</p><p>技术报告：</p><p>https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf</p><p><strong>一、幻觉、串语种问题获针对性优化，一手体验高噪声环境识别效果</strong></p><p>相比于文本大模型，语音大模型的“幻觉”问题尤为突出。这是因为声学特征与文本特征在向量空间上天然存在差异，<strong>导致模型在“听”完音频后，容易“脑补”出大量不存在的内容。</strong></p><p>尽管通过训练，可以将将声学特征对齐到文本特征空间，但声学特征Embedding与真实的文本Embedding仍然存在这一定的差距，这会导致大语言模型在生成文本时发生幻觉的现象。</p><p><img src=\"https://x0.ifengimg.com/res/2025/14C2026C03A3EC37FFEBF82F3CE8D00CCC09C008_size436_w1000_h516.png\"/></p><p>▲声学特征Embedding与真实的文本Embedding分布差异（图片来源：https://arxiv.org/pdf/2410.18908）</p><p>通义实验室发现，<strong>给语音大模提供必要的上下文，可以减少文本生产时候的幻觉现象。</strong>为此，他们设计了Context增强模块：该模块通过CTC解码器快速生成第一遍解码文本，并将该结果作为上下文信息输入大语言模型，辅助其理解音频内容。</p><p>由于CTC结构轻量且为非自回归模型，几乎不增加额外推理耗时。</p><p>例如，对于这段由AI生成、模仿海盗说话风格的音频，FunAudio-ASR做到了一字不差的识别。</p><p>（待插入）</p><p>此外，通义实验室还观察到幻觉问题在高噪声场景中更易发生，因此在训练数据中加入了大量仿真数据。</p><p>为评估模型在高噪声情况下的表现，他们构建了一个包含28条易触发幻觉音频的测试集，<strong>经优化后，幻觉率从78.5%下降至10.7%。</strong></p><p>智东西在实测中体验了FunAudio-ASR在嘈杂场景的识别能力。这段音频是在嘈杂的展会现场录制的。可以听到，模型基本准确识别了片段中男性说话者的声音，但在声音音量骤降后识别错误了。</p><p>（待插入）</p><p>同时，这段音频中有两位说话者，FunAudio-ASR在识别两人同时说话的部分时，遗漏了一些信息。</p><p>与OpenAI Whisper Large V3的识别结果对比，FunAudio-ASR识别出了更多正确的信息。</p><p><img src=\"https://x0.ifengimg.com/res/2025/E09AB64E3DC63E3D6359E8379B7C30844A6F1D6C_size19_w500_h211.png\"/></p><p>“串语种”是语音大模型落地中的另一类典型问题，例如，输入音频内容为英文，模型输出却为中文文本。</p><p>这是因为文本大模型本身具备翻译能力，<strong>在声学特征映射不够精确时，模型可能在推理过程中“自动启动”翻译功能</strong>，从而影响语音识别的准确性。</p><p>在FunAudio-ASR的Context增强模块中，CTC解码器经过高质量数据训练，本身发生串语种的概率极低。通过将CTC的第一遍解码结果作为提示词输入给大语言模型，可有效引导模型聚焦于语音识别任务，缓解“翻译”行为的发生。</p><p><strong>二、支持术语定制化识别，召回率提升明显</strong></p><p>在企业运用语音识别模型时，个性化定制是必不可少的技术。所谓定制化，是指在识别过程中对特定词/短语（如人名、地名、品牌、专业术语等）施加额外概率偏好，从而显著提高它们的识别召回率，同时尽量不损伤通用识别准确率。</p><p>当前行业的主流做法是将用户提供的领域词，直接作为提示词输入大语言模型。该方法虽简单有效，但随着词量增加，干扰也随之上升，导致召回率下降——即“定制化能力衰减”。</p><p>为缓解这一问题，<strong>通义实验室在Context增强结构中引入</strong><strong>RAG（检索增强生成）机制</strong>，这一机制的运作方式如下：</p><p>（1）构建知识库：将用户配置的定制词构建成专属RAG库；</p><p>（2）动态检索：依据CTC第一遍解码结果，从RAG库中抽取相关词汇；</p><p>（3）精准注入：仅将相关词汇注入大语言模型的提示词中，避免无关信息干扰。</p><p>该方案在不增加推理复杂度的前提下，将定制化上文数量扩充到上千个以上，并且保持较高的定制化识别效果。</p><p>为验证模型的定制化效果，通义实验室在微积分学、有机化学、物理学、哲学、人名等5个领域，选取了1000个专业词汇进行测试。<strong>FunAudio-ASR在关键词准确率上表现超越了支持同类功能的语音识别模型。</strong></p><p><img src=\"https://x0.ifengimg.com/res/2025/68B6F3EE9A8C2C2CE1A54D7C336F537AA5209E37_size359_w1000_h389.png\"/></p><p>例如，采用FunAudio-ASR模型的钉钉“AI听记”，拥有对互联网、科技、家装、畜牧、汽车等10+领域、200+细分行业术语的识别能力，并支持在企业授权前提下，结合通讯录、日程等上下文信息进行推理优化，进一步提升结果可靠性。</p><p><img src=\"https://x0.ifengimg.com/res/2025/B5F329CC747FA0E4480E067A5A02E5FA9DCA7DF6_size380_w1000_h320.png\"/></p><p><strong>三、预训练使用数千万小时数据，仅用8张A100完成强化学习</strong></p><p>技术报告中，通义实验室阐述了FunAudio-ASR的技术细节。这一模型包含四个核心组件：</p><p><strong>（1）音频编码器（Audio Encoder）</strong>：提取语音特征，使用多层Transformer Encoder。</p><p><strong>（2）音频适配器（Audio Adaptor）</strong>：连接编码器和LLM，使用两层Transformer Encoder。</p><p><strong>（3）CTC解码器</strong>：用于初步识别假设，支持热词定制。</p><p><strong>（4）基于大语言模型的解码器</strong>：结合音频特征和CTC预测生成最终输出。</p><p><img src=\"https://x0.ifengimg.com/res/2025/99B9AC210F95D96296E0EE4C08B1AC6EF6383AA1_size530_w1000_h601.png\"/></p><p>▲FunAudio-ASR模型架构</p><p>预训练阶段，FunAudio-ASR使用了数千万小时的音频数据，包括无标注音频和有标注的音频-文本数据，数据涵盖AI、<a href=\"https://laohu8.com/S/000504\">生物</a>、电商、教育等多个领域。</p><p>预训练分为自监督预训练和有监督预训练。在自监督阶段，FunAudio-ASR创新地使用Qwen3的权重初始化编码器，加速收敛并提升表示质量。</p><p>有监督预训练则在编码器-解码器架构（AED）下进行，使编码器能够从大规模标注数据中学习更丰富的声学-语言特征，为后续与大语言模型的整合奠定基础。</p><p><img src=\"https://x0.ifengimg.com/res/2025/112E83D9195F88CE43BECEF28438298CB98902F5_size84_w1000_h233.png\"/></p><p>▲FunAudio-ASR预训练管线</p><p>在此基础上，FunAudio-ASR进入有监督微调（SFT）阶段，<strong>该阶段进一步分为五个子阶段，逐步优化不同模块：</strong></p><p>（1）训练适配器以对齐音频表示与大语言模型的语义空间；</p><p>（2）优化编码器和适配器；</p><p>（3）使用LoRA微调大语言模型以防止灾难性遗忘；</p><p>（4）全参数微调阶段；</p><p>（5）引入CTC解码器用于后续的热词检索与增强生成（RAG）。</p><p>整个SFT过程使用了数百万小时的多源数据，包括人工标注语料、伪标注数据、合成语音和噪声增强数据等，确保了模型在多样化场景下的泛化能力。</p><p>为了进一步提升模型对长音频和上下文信息的理解能力，团队还构建了超过5万小时的上下文增强训练数据。</p><p>通过提取关键词、合成相关上下文并混合无关语境，模型学会了在保持高识别精度的同时，有效利用对话历史信息，显著提升了在复杂语境下的表现。</p><p>在强化学习（RL）阶段，团队提出了专为音频-语言模型设计的<strong>FunRL框架</strong>，支持多模块高效协同训练。</p><p><img src=\"https://x0.ifengimg.com/res/2025/B5D63E47BC2BCF2EB1EB9CB5735FAF9882C1E0A2_size65_w500_h493.png\"/></p><p>▲FunRL框架</p><p>该框架采用GRPO算法，并设计了多目标奖励函数，综合优化识别准确率、关键词召回、幻觉抑制和语言一致性。模型仅使用8张A100显卡，在一天内完成RL训练。</p><p>RL训练数据涵盖硬样本、长音频、幻觉样本、关键词样本和常规ASR数据，显著提升了模型在困难场景下的鲁棒性和用户体验。</p><p>最后，FunAudio-ASR还针对实际应用需求进行了全面优化，包括流式识别支持、噪声鲁棒性增强、中英代码切换处理、热词定制和幻觉抑制等。</p><p><strong>结语：生成式AI赋能新一代ASR系统，或成智能交互重要入口</strong></p><p>基于生成式AI的新一代语音识别模型，正在从“能听清”走向“能理解”，并在幻觉抑制、跨语种识别、上下文一致性等关键问题上展现出进展。</p><p>与传统以声学建模与统计学习为主的语音识别系统相比，这类模型不仅具备更强的语义理解与任务适配能力，还能在复杂噪声、多说话人、跨领域等场景中保持更高的鲁棒性和可控性。可以预见，未来语音识别有望告别单纯的“输入工具”，成为终端智能交互的重要入口。</p></body></html>","source":"fenghuang_stock","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>刚刚！阿里发新模型，幻觉率爆降70%</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n刚刚！阿里发新模型，幻觉率爆降70%\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-09-15 23:00 北京时间&nbsp;&nbsp;&nbsp;<a href=https://tech.ifeng.com/c/8mghacRQHl5><strong>智东西</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者 | 陈骏达编辑 | 李水青智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，幻觉率从78.5%下降至10.7%，下降幅度接近70%。FunAudio-ASR使用了数千万小时的音频数据，融合了大语言模型的语义理解能力，从而提升语音识别的上下文一致性...</p>\n\n<a href=\"https://tech.ifeng.com/c/8mghacRQHl5\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"","relate_stocks":{"LU0047713382.USD":"BGF EMERGING MARKETS \"A2\" ACC","LU0067412154.USD":"UBS (LUX) EQUITY FUND -  CHINA OPPORTUNITY \"P\" (USD) ACC","BK4504":"桥水持仓","LU0052756011.USD":"TEMPLETON GLOBAL BALANCED \"A\" (USD) INC","BK4538":"云计算","LU0310800965.SGD":"FTIF - Templeton Global Balanced A Acc SGD","LU0251143458.SGD":"Fidelity Emerging Markets A-SGD","BK4614":"Manus概念股","LU0348816934.USD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AT\" (USD)","BK4588":"碎股","LU1152091754.HKD":"UBS (LUX) EQUITY FUND - CHINA OPPORTUNITY (USD) \"PM\" (HKD) INC","LU1880383366.USD":"东方汇理中国股票基金 A2 (C)","LU0328353924.USD":"UBS (LUX) EQUITY SICAV - GLOBAL EMERGING MARKETS OPPORTUNITY (USD) \"P\" (USD) ACC","LU1048596156.SGD":"Blackrock Asian Growth Leaders A2 SGD-H","LU0501845795.SGD":"瑞银大中华区股票基金P Acc SGD","BK4607":"DeepSeek概念股","LU1105468828.SGD":"Allianz Total Return Asian Equity AM DIS H2-SGD","BABA":"阿里巴巴","LU0128525689.USD":"TEMPLETON GLOBAL BALANCED \"A\"(USD) ACC","BK4220":"综合零售","BK4524":"宅经济概念","LU1515016050.SGD":"Blackrock Emerging Markets Equity Income A6 SGD-H","BK4527":"明星科技股","LU1235294995.USD":"FIDELITY GLOBAL TECHNOLOGY \"A\" (USDHDG) ACC","LU0918141887.USD":"安联亚洲实际收益股票基金","LU1823568750.SGD":"Fidelity Global Technology A-ACC SGD","LU0072462343.USD":"贝莱德亚洲巨龙基金","BK4585":"ETF&股票定投概念","BK4526":"热门中概股","LU1769817096.USD":"UBS (LUX) EQUITY SICAV - GLOBAL EMERG MARKETS OPPO \"P\" (USD) INC","BK4534":"瑞士信贷持仓","LU0106959298.USD":"UBS (LUX) EQUITY FUND - EMERGING MARKETS SUSTAINABLE LEADERS (USD) \"P\" (USD) ACC","LU1051768304.USD":"贝莱德新兴市场股票收益A6","BK4503":"景林资产持仓","BK4505":"高瓴资本持仓","LU1769817179.HKD":"UBS (LUX) EQUITY SICAV - GLOBAL EMERG MARKETS OPPO \"P\" (HKD) INC","LU1267930227.SGD":"TEMPLETON GLOBAL BALANCED \"AS\" (SGD) ACC A","LU2226246903.HKD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AT4\" (HKD) ACC","BK4122":"互联网与直销零售","LU1282648689.USD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AMG\" (USD) INC","LU0651946864.USD":"贝莱德新兴市场股票收益A2","BK4533":"AQR资本管理(全球第二大对冲基金)","LU0821914370.USD":"贝莱德亚洲成长领袖A2","BK4502":"阿里概念","09988":"阿里巴巴-W","BK4587":"ChatGPT概念","LU1152091168.USD":"UBS (LUX) EQUITY FUND - CHINA OPPORTUNITY (USD) \"PM\" INC","LU0651947912.USD":"BGF EMERGING MARKETS EQUITY INCOME \"A5G\" (USD) INC","LU1046421795.USD":"富达环球科技A-ACC"},"source_url":"https://tech.ifeng.com/c/8mghacRQHl5","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2567129588","content_text":"作者 | 陈骏达编辑 | 李水青智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，幻觉率从78.5%下降至10.7%，下降幅度接近70%。FunAudio-ASR使用了数千万小时的音频数据，融合了大语言模型的语义理解能力，从而提升语音识别的上下文一致性与跨语言切换能力。通义实验室打造了5大类测试集，重点关注语音识别在远场、嘈杂背景等挑战性场景下的表现，并结合开源测试集评估了模型的性能。FunAudio-ASR实现了超越Seed-ASR、KimiAudio-8B等业内知名模型的表现。同时，FunAudio-ASR在实际落地方面也进行了全面优化，支持低延迟流式识别、跨中英文自然切换以及用户可自定义的热词识别，能够覆盖视频会议、实时字幕、智能终端等多样化应用场景。FunAudio-ASR提供两个版本，满血版由0.7B参数量的编码器和7B参数量的大语言模型组成，追求最高精度；轻量的nano版本由0.2B参数量的编码器和0.6B参数量的大语言模型，平衡效率与精度。目前，FunAudio-ASR已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中应用。FunAudio-ASR已上线阿里云百炼平台，API定价为0.00022元/秒，转录一段一小时的音频大约需要8毛钱。这款模型的技术报告已经发布，开发者也可在魔搭社区体验其效果。魔搭社区体验：https://modelscope.cn/studios/iic/FunAudio-ASR阿里云百炼平台：https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1技术报告：https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf一、幻觉、串语种问题获针对性优化，一手体验高噪声环境识别效果相比于文本大模型，语音大模型的“幻觉”问题尤为突出。这是因为声学特征与文本特征在向量空间上天然存在差异，导致模型在“听”完音频后，容易“脑补”出大量不存在的内容。尽管通过训练，可以将将声学特征对齐到文本特征空间，但声学特征Embedding与真实的文本Embedding仍然存在这一定的差距，这会导致大语言模型在生成文本时发生幻觉的现象。▲声学特征Embedding与真实的文本Embedding分布差异（图片来源：https://arxiv.org/pdf/2410.18908）通义实验室发现，给语音大模提供必要的上下文，可以减少文本生产时候的幻觉现象。为此，他们设计了Context增强模块：该模块通过CTC解码器快速生成第一遍解码文本，并将该结果作为上下文信息输入大语言模型，辅助其理解音频内容。由于CTC结构轻量且为非自回归模型，几乎不增加额外推理耗时。例如，对于这段由AI生成、模仿海盗说话风格的音频，FunAudio-ASR做到了一字不差的识别。（待插入）此外，通义实验室还观察到幻觉问题在高噪声场景中更易发生，因此在训练数据中加入了大量仿真数据。为评估模型在高噪声情况下的表现，他们构建了一个包含28条易触发幻觉音频的测试集，经优化后，幻觉率从78.5%下降至10.7%。智东西在实测中体验了FunAudio-ASR在嘈杂场景的识别能力。这段音频是在嘈杂的展会现场录制的。可以听到，模型基本准确识别了片段中男性说话者的声音，但在声音音量骤降后识别错误了。（待插入）同时，这段音频中有两位说话者，FunAudio-ASR在识别两人同时说话的部分时，遗漏了一些信息。与OpenAI Whisper Large V3的识别结果对比，FunAudio-ASR识别出了更多正确的信息。“串语种”是语音大模型落地中的另一类典型问题，例如，输入音频内容为英文，模型输出却为中文文本。这是因为文本大模型本身具备翻译能力，在声学特征映射不够精确时，模型可能在推理过程中“自动启动”翻译功能，从而影响语音识别的准确性。在FunAudio-ASR的Context增强模块中，CTC解码器经过高质量数据训练，本身发生串语种的概率极低。通过将CTC的第一遍解码结果作为提示词输入给大语言模型，可有效引导模型聚焦于语音识别任务，缓解“翻译”行为的发生。二、支持术语定制化识别，召回率提升明显在企业运用语音识别模型时，个性化定制是必不可少的技术。所谓定制化，是指在识别过程中对特定词/短语（如人名、地名、品牌、专业术语等）施加额外概率偏好，从而显著提高它们的识别召回率，同时尽量不损伤通用识别准确率。当前行业的主流做法是将用户提供的领域词，直接作为提示词输入大语言模型。该方法虽简单有效，但随着词量增加，干扰也随之上升，导致召回率下降——即“定制化能力衰减”。为缓解这一问题，通义实验室在Context增强结构中引入RAG（检索增强生成）机制，这一机制的运作方式如下：（1）构建知识库：将用户配置的定制词构建成专属RAG库；（2）动态检索：依据CTC第一遍解码结果，从RAG库中抽取相关词汇；（3）精准注入：仅将相关词汇注入大语言模型的提示词中，避免无关信息干扰。该方案在不增加推理复杂度的前提下，将定制化上文数量扩充到上千个以上，并且保持较高的定制化识别效果。为验证模型的定制化效果，通义实验室在微积分学、有机化学、物理学、哲学、人名等5个领域，选取了1000个专业词汇进行测试。FunAudio-ASR在关键词准确率上表现超越了支持同类功能的语音识别模型。例如，采用FunAudio-ASR模型的钉钉“AI听记”，拥有对互联网、科技、家装、畜牧、汽车等10+领域、200+细分行业术语的识别能力，并支持在企业授权前提下，结合通讯录、日程等上下文信息进行推理优化，进一步提升结果可靠性。三、预训练使用数千万小时数据，仅用8张A100完成强化学习技术报告中，通义实验室阐述了FunAudio-ASR的技术细节。这一模型包含四个核心组件：（1）音频编码器（Audio Encoder）：提取语音特征，使用多层Transformer Encoder。（2）音频适配器（Audio Adaptor）：连接编码器和LLM，使用两层Transformer Encoder。（3）CTC解码器：用于初步识别假设，支持热词定制。（4）基于大语言模型的解码器：结合音频特征和CTC预测生成最终输出。▲FunAudio-ASR模型架构预训练阶段，FunAudio-ASR使用了数千万小时的音频数据，包括无标注音频和有标注的音频-文本数据，数据涵盖AI、生物、电商、教育等多个领域。预训练分为自监督预训练和有监督预训练。在自监督阶段，FunAudio-ASR创新地使用Qwen3的权重初始化编码器，加速收敛并提升表示质量。有监督预训练则在编码器-解码器架构（AED）下进行，使编码器能够从大规模标注数据中学习更丰富的声学-语言特征，为后续与大语言模型的整合奠定基础。▲FunAudio-ASR预训练管线在此基础上，FunAudio-ASR进入有监督微调（SFT）阶段，该阶段进一步分为五个子阶段，逐步优化不同模块：（1）训练适配器以对齐音频表示与大语言模型的语义空间；（2）优化编码器和适配器；（3）使用LoRA微调大语言模型以防止灾难性遗忘；（4）全参数微调阶段；（5）引入CTC解码器用于后续的热词检索与增强生成（RAG）。整个SFT过程使用了数百万小时的多源数据，包括人工标注语料、伪标注数据、合成语音和噪声增强数据等，确保了模型在多样化场景下的泛化能力。为了进一步提升模型对长音频和上下文信息的理解能力，团队还构建了超过5万小时的上下文增强训练数据。通过提取关键词、合成相关上下文并混合无关语境，模型学会了在保持高识别精度的同时，有效利用对话历史信息，显著提升了在复杂语境下的表现。在强化学习（RL）阶段，团队提出了专为音频-语言模型设计的FunRL框架，支持多模块高效协同训练。▲FunRL框架该框架采用GRPO算法，并设计了多目标奖励函数，综合优化识别准确率、关键词召回、幻觉抑制和语言一致性。模型仅使用8张A100显卡，在一天内完成RL训练。RL训练数据涵盖硬样本、长音频、幻觉样本、关键词样本和常规ASR数据，显著提升了模型在困难场景下的鲁棒性和用户体验。最后，FunAudio-ASR还针对实际应用需求进行了全面优化，包括流式识别支持、噪声鲁棒性增强、中英代码切换处理、热词定制和幻觉抑制等。结语：生成式AI赋能新一代ASR系统，或成智能交互重要入口基于生成式AI的新一代语音识别模型，正在从“能听清”走向“能理解”，并在幻觉抑制、跨语种识别、上下文一致性等关键问题上展现出进展。与传统以声学建模与统计学习为主的语音识别系统相比，这类模型不仅具备更强的语义理解与任务适配能力，还能在复杂噪声、多说话人、跨领域等场景中保持更高的鲁棒性和可控性。可以预见，未来语音识别有望告别单纯的“输入工具”，成为终端智能交互的重要入口。","news_type":1,"symbols_score_info":{"09988":0.6,"BABA":1,"ALBmain":0.6}},"isVote":1,"tweetType":1,"viewCount":181,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":27,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"hasMoreComment":false,"orderType":2}