多篇论文入选Interspeech 2025,火山语音有效解决多类实践问题


日前,火山语音团队多篇论文入选interspeech 2025,内容涵盖短视频语音识别、跨语言音色与风格以及口语流利度评估等多个应用方向的创新突破。interspeech作为国际语音通信协会isca组织的语音研究领域的顶级会议之一,也被称为全球最大的综合性语音信号处理盛会,受到全球语言领域人士的广泛关注。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Interspeech2025活动现场

基于随机语句串联的数据增强改进短视频语音识别(Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition

一般来说,端到端自动语音识别(ASR)框架的限制之一,就是如果训练和测试语句的长度不匹配,其性能可能会受到影响。在该论文中,火山语音团队提出了一种基于即时随机语句串联(RUC)的数据增强方法作为前端数据增强,以减轻短视频ASR任务中训练和测试语句长度不匹配的问题。
 

具体来说,团队发现以下观察结果对创新实践起到了主要作用:通常情况下,短视频自发语音的训练语句比人工转录的语句要短得多(平均约3秒),而从语音活动检测前端生成的测试语句要长得多(平均约10秒)。因此,这种不匹配可能会导致性能不佳

火山语音团队表示,为了进行实证,我们使用了来自15种语言的多类ASR模型。这些语言的数据集范围从1,000小时到30,000小时不等。在模型微调阶段,我们还即时加入了采样多条数据后并拼接的数据。相比于没有增强过的数据,这种方法在所有语言上平均达到了5.72%的相对词错误率降低

测试集上长句的 WER 通过 RUC 训练过后显著下降(蓝色 vs. 红色)

根据实验观察,RUC方法明显改善了长句的识别能力,而短句的性能没有下降。进一步分析发现,所提出的数据增强方法可以减少ASR模型对长度归一化变化的敏感性,这可能意味着ASR模型在多样环境下更具鲁棒性。综上所述,RUC数据增强方法虽然操作简单,但效果显著

基于语音和韵律自监督方法的流利度打分(Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring)

评价二语学习者语言能力的重要维度之一是口语的流利程度。流利的发音主要表现在说话时没有太多停顿、犹豫或自我纠正等异常现象,而是能够轻松、正常地发出语音。相比母语者,大多数二语学习者通常会说得较慢,并且会更频繁地停顿。为了评估口语流利度,火山语音团队提出了一种基于语音和韵律相关的自监督建模方法

具体来说,在预训练阶段,需要对模型的输入序列特征(声学特征、音素id、音素时长)进行掩码,将掩码后的特征送入模型,利用上下文相关的编码器根据时序信息来还原掩码部分的音素id和音素时长信息,从而模型具有更强大的语音和韵律表征能力。该方案将序列建模框架中原始时长、音素和声学信息这三种特征进行掩码重构,让机器自动去学习上下文的语音和时长表征,更好用于流利度打分。

这种基于语音和韵律的自监督学习方法超过了领域内其他方法,在内部测试集上机器预测结果和人类专家打分之间相关性达到了0.833,与专家和专家之间的相关性 0.831持平。在开源数据集上,机器预测结果和人类专家打分之间相关性达到了0.835,性能超越过去在该任务上提出的一些自监督方法。应用场景方面,该方法可被应用于有流利度自动评估的需求场景中,例如口语考试以及各种在线口语练习等。

解耦非母语语音在发音评估中的贡献(Disentangling the Contribution of Non-native Speech in Automated Pronunciation Assessment)

非母语发音评估的一个基本思想就是量化学习者发音与母语者发音的偏差,因此早期用于发音评测的声学模型通常仅仅使用目的语的数据进行训练,但最近的一些研究开始将非母语语音数据纳入模型训练。将非母语语音纳入二语ASR 与非母语评估或发音错误检测中的目的存在根本区别:前者的目标是尽可能使模型适应非母语数据以达到最优 ASR 性能;后者则需要平衡两个看似相悖的需求,即在非母语语音的较高识别精度以及对非母语发音的发音水平实现客观的评估。

火山语音团队旨在从两个不同的角度,即对齐精度和评估表现,研究非母语语音在发音评估中的贡献。为此,他们设计了不同的数据组合和训练声学模型时的文本转录形式,如上图所示

上述两个表格分别展现了不同组合的声学模型在对齐精度和评估中的性能。实验结果表明,在声学模型训练期间仅使用带有人工标注的音素序列的非母语数据,可以实现非母语语音的对齐以及发音评估的最高准确度。具体来说,在训练中将一半母语数据和一半非母语数据(人工标注的音素序列)混合可能会稍差,但可以媲美仅使用非母语数据与人工标注的音素序列。

此外,在对母语数据进行发音评估时,上述混合情况表现更出色。在资源有限的情况下,与仅使用母语数据进行声学模型训练相比,无论使用哪种文本转录类型,添加10小时的非母语数据都能显著提高对齐准确性和评估性能。这项研究对于语音评估领域的数据应用具有重要的指导意义

在端到端语音识别通过非尖峰的CTC优化帧分类器解决时间戳问题(Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition)

自动语音识别(ASR)领域的端到端系统已经展示出与混合系统相媲美的性能。作为ASR的附带产物,时间戳在许多应用中都是至关重要的,特别在字幕生成和计算辅助发音训练等场景,本论文旨在优化端到端系统中的帧级分类器来获取时间戳。对此团队引入使用CTC(connectionist temporal classification)损失来训练帧级分类器,并且引入标签先验的信息使得CTC的尖峰现象有所缓解,还将梅尔滤波器与ASR编码器的输出相结合,作为输入特征。

在内部的中文实验上,该方法在单词时间戳200ms准确性上达到了95.68%/94.18%,而传统混合系统仅为93.0%/90.22%。此外,相对于之前的端到端方法,团队在内部的7种语言上取得了4.80%/8.02%的绝对性能提升。通过逐帧的知识蒸馏方法,还进一步提高了单词定时的准确性,尽管此实验仅针对LibriSpeech进行。

这项研究结果表明,端到端语音识别系统中的时间戳性能可以通过引入标签先验和融合不同级别的特征进行有效优化。在内部中文实验上,该方法相较于混合系统和之前的端到端方法,都取得了显著的改进;此外对于多种语言,方法也展现出了明显的优势;通过知识蒸馏方法的应用进一步提高了单词定时的准确性。这些结果不仅对字幕生成和发音训练等应用具有重要意义,还为自动语音识别技术的发展提供了有益的探索方向。

基于语种区分声学边界学习的中英混语音识别(Language-specific Acoustic Boundary Learning for Mandarin-English Code-switching Speech Recognition 

重写后的内容:众所周知,代码切换(CS)的主要目标是促进不同语言或技术领域之间的有效交流。CS需要在一个句子中交替使用两种或多种语言,然而,合并来自多种语言的单词或短语可能会导致语音识别的错误和混淆,这使得代码切换语音识别(CSSR)成为一项更具挑战性的任务

通常的端到端ASR模型由编码器、解码器和对齐机制组成。现有的端到端CSASR模型大多只关注于优化编码器和解码器结构,很少讨论是否需要对对齐机制进行语种相关的设计。大部分已有的工作都是针对中英混合场景使用普通话字符和英语子词的混合作为建模单元。普通话字符通常表示普通话中的单个音节,并且具有清晰的声学边界;而英文子词是在不参考任何声学知识的情况下获得的,因此它们的声学边界可能是模糊的。为了在CSASR系统中获得普通话和英语的良好声学边界(对齐),进行语种相关的声学边界学习是非常必要的。因此,我们在CIF模型的基础上进行了改进,提出了一种语种区分的声学边界学习方法,用于CSASR任务。模型架构的详细信息请见下图

该模型由六个组件组成,分别是编码器、语种区分的权重估计器(LSWE)、CIF模块、自回归(AR)解码器、非自回归(NAR)解码器和语种变化检测(LCD)模块。编码器和自回归解码器以及CIF的计算过程与原始的CIF-based的ASR方法无异,语种区分的权重估计器负责完成语种独立的声学边界的建模,非自回归(NAR)解码器和语种变化检测(LCD)模块都是设计来辅助模型的训练,在解码阶段不再保留

实验结果显示,该方法在开源中英混数据集SEAME的两个测试集和上获得了新的SOTA效果,分别是16.29%和22.81%的MER。为了进一步验证该方法在更大数据量中的效果,团队在9000小时的内部数据集上进行了实验,最终也是获得了相对7.9%的MER收益。据了解,本论文也是第一篇在CSASR任务中进行语种区分的声学边界学习的工作内容。

USTR:基于统一的表征和纯文本进行 ASR 领域适应(Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer

众所周知,领域迁移一直是ASR中十分重要的任务,但在目标领域获取成对的语音数据非常耗时且成本很高,因此其中很多工作都是利用目标领域相关文本数据来提升识别效果。传统方法中,TTS 会增加训练的周期和相关数据的存储成本,ILME和Shallow fusion等方法会增加推理时的复杂度。

基于该任务,团队在 RNN-T的基础上,将Encoder拆分成Audio Encoder和Shared Encoder,同时引入Text Encoder用于学习和语音信号类似的表征;语音和文本的表征则通过Shared Encoder,使用RNN-T loss进行训练,被称为 USTR(Unified Speech-Text Representation)。“对于Text Encoder这部分,我们探究了不同类型的表征形式,包括Character序列,Phone序列和Sub-word 序列,最终结果表明Phone序列的效果最好。对于训练方式,本文探究了基于给定RNN-T模型的Multi-step训练方式和完全随机初始化的Single-step训练方式。”

具体来说,团队使用LibriSpeech数据集作为Source domain,并利用 SPGISpeech 的标注文本作为纯文本进行领域迁移实验。实验结果表明,该方法在目标领域的效果提升可以和 TTS 基本持平;Single-step训练效果更高,效果和 Multi-step基本持平;同时还发现USTR方法可以和ILME这种*语言模型的方法进一步结合,即便LM使用的是相同的文本训练语料。最终,在目标领域测试集上,不结合外部语言模型,本方法相对基线 WER 23.55% -> 13.25%,相对下降 43.7%。

基于知识蒸馏的高效内部语言模型估计方法 (Knowledge Distillation Approach for Efficient Internal Language Model Estimation)

尽管内部语言模型估计(ILME)已经证明其在端到端ASR语言模型融合中的有效性,但是与传统的Shallow fusion相比,ILME额外引入了内部语言模型的计算,增加了推理成本。为了估计内部语言模型,需要基于ASR解码器上做一次额外的前向计算,或者基于密度比率(Density Ratio)方法,用ASR训练集文本训练一个独立的语言模型(DR-LM),作为内部语言模型的近似。基于ASR解码器的ILME方法,由于直接利用ASR参数进行估计,通常可以取得优于密度比率方法的性能,但其计算量取决于ASR解码器的参数量;密度比率方法的优势则在于可以通过控制DR-LM的大小实现高效的内部语言模型估计。

为此火山语音团队提出在密度比率方法的框架下,用基于ASR解码器的ILME方法作为教师,蒸馏学习DR-LM,从而在保持ILME性能的同时,大幅降低ILME的计算成本。

实验结果显示,这种方法可以减少95%的内部语言模型参数,并且在性能上与基于ASR解码器的ILME方法相当。当采用性能更好的ILME方法作为教师时,相应的学生模型也能够取得更好的效果。与计算量相当的传统密度比率方法相比,在高资源场景下,这种方法的性能稍优,在低资源跨领域迁移场景下,CER收益可达8%,并且对于融合权重更加鲁棒

GenerTTS:跨语言语音合成中音色和风格与发音解耦和泛化(GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech

 

跨语言音色和风格可泛化的语音合成(TTS)旨在合成具有特定参考音色或风格的语音,该音色或风格并未在目标语言中进行过训练。它面临着这样的挑战,例如音色和发音之间难以分离,因为通常很难获取特定说话人的多语言语音数据;风格和发音混合在一起,因为语音风格包含语言无关和语言相关两部分。

为了应对这些挑战,火山语音团队提出了GenerTTS。他们仔细设计了基于HuBERT的信息瓶颈,以解除音色和发音/风格之间的联系。同时,他们还通过最小化风格和语言之间的互信息来消除风格中的语言特定信息

实验证明,GenerTTS在风格相似性和发音准确性方面优于基准系统,并实现了跨语言音色和风格的可泛化性。

一直以来,火山语音团队面向字节跳动内部各业务线,提供优质的语音AI技术能力以及全栈语音产品解决方案,并通过火山引擎对外提供服务。自 2017 年成立以来,团队专注研发行业领先的 AI 智能语音技术,不断探索AI 与业务场景的高效结合,以实现更大的用户价值。


# 端到  # 中英  # 掩码  # 在内部  # 达到了  # 时长  # 转录  # 提出了  # 都是  # 语音识别  # r语言  # word  # ar  # 重构  # rnn  # internal  # using  #   # for  # 架构 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 百度浏览器侧边栏ai怎么关 百度浏览器ai侧边栏隐藏  Depseek怎样写产品描述提示词_Depseek产品文案提示词技巧【技巧】  今日头条AI怎样推荐抢票工具_今日头条AI抢票工具推荐算法与筛选【技巧】  Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密  如何用豆包ai做SWOT分析_豆包ai快速生成个人或企业优劣势分析【指南】  AI猴子视频制作终极指南:从入门到网红,轻松上手!  2025年必备:顶级AI工具,赋能您的日常工作和业务流程  Vizeo AI视频生成器:无需技术,轻松打造营销利器  人工智能时代:你需要知道的真相和未来趋势  通义千问怎样优化提示词效果_通义千问提示词优化技巧【攻略】  Midjourney怎样加元素词丰富画面_Midjourney元素词技巧【方法】  Dr.Job AI:职场简历优化终极指南,提升求职成功率  快手本地生活AI如何预约景区火车票_快手AI本地生活抢票步骤【步骤】  使用AI配乐:ElevenLabs Music音乐生成器终极指南  韵律分析:为什么理解音乐歌词的韵式至关重要?  使用Go语言构建图像识别系统:完整指南  找不到百度AI助手入口 最新官网登录入口  AI如何一键生成PPT大纲_利用AI工具制作演示文稿方法【教程】  怎么用AI帮你写一份有说服力的加薪申请?  ChatGPT图像生成器完全指南:文化影响、伦理挑战与商业变革  斑马AI怎样设置专注模式_斑马AI专注时段与干扰屏蔽【指南】  Django与React构建AI音乐推荐:数据库集成实战指南  支付宝出行AI能否自动抢票_支付宝AI出行抢票设置与免密支付【方法】  Character AI深度解析:功能、用户反馈与替代方案全攻略  探索古希腊之美:AI打造的绝|美女|神形象赏析  标准渣打银行电子账单下载完全指南:轻松管理财务  唐库AI拆书工具如何批量导出笔记_唐库AI拆书工具批量导出与格式转换【方法】  海外留学资金证明:无银行流水也能成功申请签证的秘诀  冷邮件营销新策略:工作坊模式助力B2B销售增长  Midjourney怎样加参数调细节_Midjourney参数调整技巧【指南】  Google NotebookLM:AI赋能的智能笔记与思维导图工具  ChatGPT怎么生成短视频脚本_ChatGPT脚本生成方法【指南】  Roblox Studio AI 助手:创意构建与无限可能  使用 DeepSeek 进行网络协议栈分析与优化建议  AI威胁论:超人工智能ASI时代来临,人类如何应对?  5分钟搞定求职信:利用AI工具大幅提升求职效率的实操技巧  AI Excel公式生成工具有哪些_一键生成函数公式的AI工具推荐  Recall:打造你的AI知识库,提升记忆力与效率  如何利用AI优化简历关键词?轻松通过ATS筛选系统  利用 ChatGPT 进行复杂数学公式的推导教程  ClickUp AI Agents:项目管理的革命性突破  GitHub MCP Server:AI赋能代码管理的未来  《高龄母亲》:从日本民间故事中汲取的人生智慧与家庭真谛  百度AI助手官方入口 文心一言网页版登录入口  百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧  ChatGPT打造AI助手:10倍提升效率,掌控你的生活  Gemini怎么用新功能实时问答_Gemini实时问答使用【步骤】  Gemini 与 Google Drive 结合的文件智能检索  零成本AI营销机构:2025年自动化运营,颠覆传统营销模式  ChatGPT怎么设置中文界面_ChatGPT中文设置步骤【方法】 

 2023-09-18

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.