未来十年,AI 语音识别将朝着这五个方向发展


​作者 | Migüel Jetté

编译 | bluemin

编辑 | 陈彩娴

在过去的两年中,自动语音识别(Automatic Speech Recognition, ASR)在商用上取得了重要的发展,其中一个衡量指标就是:多个完全基于神经网络的企业级 ASR 模型成功上市,如 Alexa、Rev、AssemblyAI、ASAPP等。2016年,微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的“Switchboard”数据集上,达到了人类水平(通过单词错误率来衡量)。ASR 的准确性仍在不断提高,在更多的数据集和用例中逐渐达到人类水平。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图源:Awni Hannun 的博文 “Speech Recognition is not Solved”

随着 ASR 技术的识别准确度大幅提升,同时应用场景越来越丰富,我们相信:现在还不是 ASR 商用的巅峰,该领域的研究与市场应用还有待发掘。我们预计未来十年 AI 语音的相关研究和商业系统将重点攻克以下五个领域 :

1.多语言ASR模型

“在未来十年,我们将在生产环境中部署真正的多语言模型,使开发人员能够构建任何人都能理解任意语言的应用程序,从而真正向全世界释放语音识别的力量。”

图源:Alexis Conneau 等人在 2025 年发表的“Unsupervised cross-lingual representation learning for speech recognition”论文

如今的商用 ASR 模型主要使用英语数据集进行训练,因此对英语输入具有更高的准确性。由于数据可用性和市场需求,学术界和工业界对英语的长期关注度更高。法语、西班牙语、葡萄牙语和德语等商业流行语言的识别准确度虽然也较为合理,但显然存在一个训练数据有限且ASR输出质量相对较低的语言长尾。

此外,大多数商业系统都是基于单一语言,这无法适用于许多社会特有的多语言场景。多语言可以采用背靠背语言的形式,例如双语国家的媒体节目。亚马逊最近推出了一款集成语言识别(LID)和ASR的产品,在处理这一问题上取得了长足进步。相比之下,跨语言(也称为语码转换)是个人使用的一种语言系统,该系统可以将两种语言的单词和语法结合在同一个句子中。这是一个学术界继续取得有趣进展的领域。

正如自然语言处理领域采用多语言方法一样,我们将会看到ASR在未来十年也会效仿。随着我们学习如何利用新兴的端到端技术,我们将会训练可以在多种语言之间进行迁移学习的大规模多语言模型。Meta的XLS-R就是一个很好的例子:在一个演示中,体验者可以说21种语言中的任何一种,而不需要指定某种语言,模型最终都会翻译成英语。通过理解和应用语言之间的相似性,这些更智能的ASR系统将为低资源语言和混合语言用例提供高质量的ASR可用性,并将实现商业级别的应用。

2.丰富的标准化输出对象

“在未来十年,我们相信商业 ASR 系统将输出更丰富的转录对象,其中包含的内容将不止简单的单词。此外,我们预计,这种更丰富的输出将得到W3C等标准组织的认可,以便所有API都将返回类似构造的输出。这将进一步释放世界上每个人的语音应用潜力。

”尽管国家标准技术研究院(NIST)在探索“丰富转录”方面有着悠久传统,但在将其纳入ASR输出的标准化和可扩展格式方面仍是浅尝辄止。丰富转录的概念最初涉及大写、标点和日记化,但在某种程度上扩展到说话人角色和一系列非语言性言语事件。预期的创新包括转录来自不同说话者、不同情绪和其他副语言特征的重叠语音,以及一系列非语言甚至非人类的语音场景和事件,还可以转录基于文本或语言多样性的信息。Tanaka等人描绘了一个用户可能希望在不同丰富程度的转录选项中进行选择的场景,显然,我们预测的附加信息的数量和性质是可指定的,这取决于下游应用。

传统的ASR系统能够在识别口语单词的过程中生成多个假设的网格,这些已被证明在人工辅助转录、口语对话系统和信息检索中大有裨益。在丰富的输出格式中包含n-best信息将鼓励更多用户使用ASR系统,从而改善用户体验。虽然目前不存在用于构建或存储语音解码过程中当前生成或可能生成的附加信息的标准,但CallMiner的开放语音转录标准(OVTS)朝这个方向迈出了坚实的一步,使企业易于探索和选择多个ASR供应商。

我们预测,在未来,ASR系统将以标准格式产生更丰富的输出,从而支持更强大的下游应用程序。例如,ASR系统可能会输出全部可能网格,并且应用程序可以在编辑转录内容时使用这些附加数据进行智能自动转录。类似地,包括附加元数据(如检测到的区域方言、口音、环境噪声或情绪)的ASR转录可以实现更强大的搜索应用。

3.面向所有人的大规模 ASR

“在这十年中,大规模的 ASR(即私有化、可负担、可靠和快速)将成为每个人日常生活的一部分。这些系统将能够搜索视频,索引我们参与的所有媒体内容,并使世界各地的听力受损消费者能够访问每个视频。ASR将是对每一个音频和视频都实现可访问和可操作的关键。”

我们可能都在大量使用音视频软件:播客、社交媒体流、*、实时群聊、Zoom会议等等。然而相关的内容实际上很少被转录。如今,内容转录已经成为ASR API的最大市场之一,并将在未来十年呈指数级增长,特别是考虑到它们准确性和经济性。话虽如此,ASR转录目前仅用于特定应用程序(广播视频、某些会议和播客等)。因此,许多人无法访问此媒体内容,并且在广播或活动结束后很难找到相关信息。

在未来,这种情况将会改变。正如Matt Thompson在2010年预测的那样,在某种程度上,ASR价格廉价并被广泛普及,以至于我们将体验到他所谓的“演讲性”。我们预计,未来几乎所有音频和视频内容都将被转录,并且可立即访问、可存储、可大规模搜索。但ASR的发展不会到此停滞,我们还希望这些内容具有可操作性。我们希望消费或参与的每个音视频会提供额外的上下文,例如从播客或会议中自动生成的见解,或视频中关键时刻的自动总结等等,我们希望NLP系统可以将上述处理日常化。

4.人机协同

“到本世纪末,我们将拥有不断发展的ASR系统,它就像一个活的有机体,在人类的帮助或自我监督下不断学习。这些系统将从现实世界中的不同渠道学习, 以实时而非异步的方式理解新单词和语言变体,自我调试并自动监控不同的用法。”

随着ASR成为主流并涵盖越来越多的用例,人机协同将发挥关键作用。ASR模型的训练很好地体现了这一点。如今,开源数据集和预训练模型降低了ASR供应商的准入门槛。然而,训练过程仍然相当简单:收集数据、注释数据、训练模型、评估结果、改进模型。但这是一个缓慢的过程,并且在许多情况下,由于调整困难或数据不足而容易出错。Garnerin等人观察到,元数据缺失和跨语料库表示的不一致性使得在ASR性能方面难以保证同等的准确性,这也是Reid和Walker在开发元数据标准时试图解决的问题。

在未来,人类将通过智能手段高效地监督ASR训练,在加速机器学习方面发挥日益重要的作用。人在回路方法将人工审查员置于机器学习/反馈循环中,可以对模型结果进行持续审查和调整。这会使机器学习更快、更高效,从而产生更高质量的输出。今年早些时候,我们讨论了ASR的改进如何使Rev的人工转录员(称为“Revvers”)能够对ASR草案进行后期编辑,从而提高工作效率。Revver的转录可以直接输入到改进的ASR模型中,形成良性循环。

对于ASR,人类语言专家仍然不可或缺的一个领域是反向文本规范化(ITN),他们将识别的字符串(如“five dollars”)转换为预期的书面形式(如“$5”)。Pusateri等人提出了一种使用“手工语法和统计模型”的混合方法,Zhang等人继续沿用这些思路,用人工制作的FST约束RNN。

5.负责任的 ASR

“与所有人工智能系统一样,未来的ASR系统将坚持更严格的人工智能伦理原则,以便系统平等对待所有人,可解释性程度更高、对其决策负责、并尊重用户及其数据的隐私。”

未来的ASR系统将遵循人工智能伦理的四项原则:公平性、可解释性、尊重隐私和问责制。

公平性:无论说话者的背景、社会经济地位或其他特征如何,公平的ASR系统都能识别语音。值得注意的是,构建这样的系统需要识别并减少我们的模型和训练数据中的偏差。幸运的是,政府、非政府组织和企业已经着手创建识别和减轻偏见的基础设施。

可解释性:ASR系统将不再是“黑盒”:它们将根据要求对数据收集与分析、模型性能与输出过程进行解释。这种附加的透明度要求可以对模型训练和性能进行更好的人为监督。与Gerlings等人一样,我们从一系列利益相关者(包括研究人员、开发人员、客户,以及Rev案例中的转录学家)的角度来看待可解释性。研究人员可能想知道输出错误文本的原因,以便缓解问题;而转录学家可能需要一些证据来证明ASR为什么会这么认为,以帮助他们评估其有效性,特别是在嘈杂的情况下,ASR可能比人“听”得更好。Weitz等人在音频关键词识别的背景下,为终端用户实现可解释性采取了重要的初步措施。Laguarta和Subirana已将临床医生指导的解释纳入用于阿尔茨海默症检测的语音生物标记系统。

尊重隐私:根据各种美国和国际法律,“语音”被视为“个人数据”,因此,语音记录的收集和处理受到严格的个人隐私保护。在Rev,我们已经提供了数据安全和控制功能,未来的ASR系统将进一步尊重用户数据的隐私和模型的隐私。在许多情况下,这很可能涉及将ASR模型推向边缘(在设备或浏览器上)。语音隐私挑战正在推动这一领域的研究,许多司法管辖区,如欧盟,已经开展立法工作。隐私保护机器学习领域有望引起大家对技术这一关键方面的重视,使其能够被公众广泛接受和信任。

问责制:我们将对ASR系统进行监控,以确保其遵守前三项原则。反过来需要投入资源和基础设施,以设计和开发必要的监测系统,并针对调查结果采取措施。部署ASR系统的公司将对其技术的使用负责,并为遵守ASR伦理原则做出具体努力。值得一提的是,作为ASR系统的设计者、维护者和消费者,人类将负责实施和执行这些原则——这是人机协同的又一个示例。

参考链接:https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/​


# zoom  # 多个  # 这一  # 英语  # 在未来  # 更高  # 的是  # 多语言  # 等人  # 关键词  # 转录  # for  # https  # nlp  # rnn  # 人工智能  # github  # 异步  # 事件  # 对象  # 循环  # 字符串 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 如何用AI帮你分析用户评论?3步挖掘用户真实需求  AI一键生成原创SEO文章  通义千问网页版怎么清历史_通义千问历史清理方法【方法】  通义万相做小红书配图怎么用_通义万相做小红书配图使用方法详细指南【教程】  DeepSeek 在量化交易策略回测中的实战教程  Pictory AI视频制作平台深度评测:功能、价格与使用指南  百度ai助手工具栏怎么关 百度ai助手状态栏隐藏  Quizlet AI:学生提分神器,告别传统学习方式,效率倍增  银行经理写给银行经理的信:实用模板和关键要素  N8N工作流:自动化知识管理与智能问答解决方案  AI赋能营销:5分钟快速生成品牌营销素材全攻略  tofai怎么调整层级顺序 tofai图层上下移动方法【步骤】  CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量  微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】  探索心灵的音乐之旅:Kanwar Garewal的《Ishq Bulleh Nu》  如何通过 DeepSeek 优化分布式存储系统架构  GitHub Copilot终极指南:提升代码效率与质量  CanvaAI抠图怎么批量处理_CanvaAI批量抠图与团队协作功能【指南】  律师视角下的生成式AI:信息爆炸时代的法律实践与未来展望  AI威胁论:超人工智能ASI时代来临,人类如何应对?  如何利用AI优化简历关键词?轻松通过ATS筛选系统  教你用AI一键去除图片水印,操作简单效果惊人  豆包AI怎么评价回答的好坏_点赞与反馈功能使用教程  网络安全警钟:揭秘“美足”背后隐藏的危机与防范  OpenAI 播客精选:技术内幕、育儿经与AI未来  百度输入法智能预测怎么关 百度输入法ai联想词关闭  如何用 ChatGPT 快速生成短视频分镜脚本  DeepSeek分析Excel怎么用_DeepSeek分析Excel使用方法详细指南【教程】  去哪旅行ai抢票助手怎样提升抢票速度_去哪旅行ai抢票助手加速包与多通道使用【技巧】  Character AI深度解析:功能、用户反馈与替代方案全攻略  夸克AI能否查快递物流_夸克AI快递查询入口与单号输入【步骤】  AI 3D人像视频制作:零成本手机教程,引爆社交媒体  批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】  VoiceBrigade:AI 赋能,革新语音合成与内容创作  LTX Studio:AI电影制作平台深度评测与应用指南  百度APP的ai助手怎么关闭 百度APP ai功能取消方法  颠覆认知!《小丑回魂》幕后:用爆笑台词颠覆你的恐怖想象  微信AI数字人怎样创建_微信AI数字人创建流程与形象定制【教程】  壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】  Spin Rewriter AI:终极内容创作与SEO优化指南  AI虚拟网红打造指南:轻松制作专属社交媒体形象  P&ID图完全解析:符号、应用及绘制指南  AI无镜头相机Paragraphica:颠覆传统摄影的新方式  雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】  FeelinAI聊天网页版 Feelin官方网站地址  扣子AI怎样设置敏感词过滤_扣子AI过滤规则与自定义词库【技巧】  Straico团队案例研究:AI赋能,效率提升的秘诀  如何让ChatGPT模仿特定文风 创意写作与品牌话术生成教程  ChatGPT怎么写工作汇报 职场办公效率提升与周报生成方法  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机 

 2023-04-11

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.