使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice-全球热闻
机器之心专栏
【资料图】
作者:董倩倩
近年来,大规模语言模型(LLMs)建模在 NLP 领域取得了许多突破,特别是 ChatGPT 的成功,正引领大家迈入一个新的 AI 时代。截止目前,基于 encoder-decoder 框架的模型在语音处理任务中仍占主导地位,而基于语言模型(LM)的方法还处于初期探索阶段。AudioLM 和 VALL-E 作为前期工作已经证明了利用离散语义单元(Semantic Units)和离散声学单元(Acoustic Units)联合语言模型建模在音频生成任务上的有效性。
基于此,字节跳动的研究者们提出了基于语音离散单元的语音到语音翻译(S2ST)框架 PolyVoice。PolyVoice 有两点突出贡献:
(1)decoder-only:使用 decoder-only 框架实现直接的语音翻译,同时能够容纳多源的训练数据。
(2)textless:构建了基于 units 的音频 LM 用于语音翻译,可以用于非书写语言。
论文地址:/abs/
demo 地址:/polyvoice/
语音到语音翻译(S2ST)是一项具有挑战性的任务,因为它需要同时解决自动语音识别(ASR),机器翻译(MT)和文本到语音合成(TTS)中的所有难题。与传统的级联方法不同,直接建模的方法具有低延迟和简化 pipeline 的优点。现有的 S2ST 直接建模的方法可以根据模型是预测连续的梅尔谱图特征还是离散单元进一步分类。近来,基于 units 的方法变得越来越受欢迎,有如下几点原因:
(1)基于 units 的方法可以将语音的离散单元视为一种 “伪语言”,可以适用现有的 NLP 技术;
(2)基于 units 的方法缓解了谱图的学习难度;
(3)基于 units 的方法可以通过无监督的方式获取离散单元,可以对非书写语言进行建模。
Semantic Units 和 Acoustic Units 是两种常用的语音离散单元。Semantic Units 主要用于捕获语音中的语义内容。Acoustic Units 也可以被称为 Codec Units,最初用于在有限的带宽下传输高质量的语音信号。
PolyVoice 介绍
PolyVoice 是一种基于语言模型的 S2ST 框架,能够处理书写和非书写语言。PolyVoice 使用通过自监督训练方法获得的离散单元作为源语音和目标语音之间的中间表示。PolyVoice 由两部分组成:
Speech-to-Unit(S2UT)翻译模块,将源语言语音的离散单元转换为目标语言语音的离散单元;
Unit-to-Speech(U2S)合成模块, 在保留源语言语音说话人风格的同时合成目标语言语音。
下图是 PolyVoice 的整体架构:
Speech-to-Unit(S2UT)翻译模块
通过使用通过自监督训练获得的离散单元,从连续语音表示中去除语义无关的信息。S2UT 利用语言模型学习基于语音离散单元的跨语言生成。
1. Semantic Unit Extractor:S2UT 通过 Semantic Unit Extractor 对原始语音进行处理。首先使用 k-means 聚类离散化 HuBERT 输出的连续表示,进而合并重复 units 的连续序列来压缩序列长度,这样可以减少计算成本,并有助于收敛。
2. 基于 units 的跨语言语言模型(U-XLM):U-XLM 将源语言 units “” 翻译为目标语言 units “”。U-XLM 的 prompt 形式可定义为:Translate [src lang] unit “” to [tgt lang] unit: “”。
3. S2UT 的训练:为了解决在现实场景下跨语言 units 平行数据稀缺的问题,如下表所示,PolyVoice 适配地修改了提示符,为各种类型的数据源(例如 ASR, MT 等)构建训练样本,然后通过参数共享的方式训练模型。
U-XLM 有几个突出特性,有处理书写和非书写语言的能力、多语言建模功能,以及通过利用大量无标注数据进行 zero-shot 预测的能力。这些特性使 U-XLM 成为推进语音到语音翻译研究的一个有潜力的框架。
Unit-to-Speech(U2S)合成模块
1. Unit-to-Speech 语言模型(U-SLM):与 VALL-E 一样,U-SLM 也包括一个自回归模型和一个非自回归模型。在 PolyVoice 中,输入为源语言和目标语言的 Semantic Units 以及包含源说话人说话风格的 Codec Units。
2. SoundStream codec:SoundStream 的 encoder 用于生成包含源说话人说话风格的 Codec Units,decoder 将 U-SLM 预测的 Acoustic Units 重构为语音波形。
3. Duration model:离散单元的时长信息对于合成语音的稳定性非常重要。PolyVoice 使用 LM 来预测时长信息。具体地,如上图右下角所示,合并后的源 Semantic Units、合并后的目标 Semantic Units 和源时长值序列(D)作为提示输入到 Duration LM 中。Duration LM 基于输入的提示信息预测目标时长值序列,并对每个目标 Semantic Units 进行相应次数的重复操作。
实验分析
作者在两个 S2ST 基准数据集 EMIME 和 CVSS 上验证了 PolyVoice 的性能。
S2ST 实验
ASV 评分用来评估在输出语音中保留源说话人音色的能力,ASR-BLEU 用来测评翻译质量。通过实验作者给出了一些结论:
1. 当真实的目标翻译序列可用时,PolyVoice 展示了更好的语音克隆能力。
2. PolyVoice 在翻译质量方面略有下降,但在语音质量方面有显著的提升。翻译质量下降可能是由于无监督的音频离散化会引入信息损失。语音自然度提升则可能是因为大规模语言模型的数据容纳能力可以带来更好的生成效果。
为了验证 PolyVoice 在非书写语言上的有效性,作者在不使用西班牙语的任何文本监督情况下,评估了一个英语→西班牙语 S2ST 系统,ASR-BLEU()的结果表明 PolyVoice 生成的西班牙语语音在语义上是可理解的。
分析和消融实验
1. Decoder-only 和 Encoder-Decoder 两种框架的对比
Decoder-only 模型带来了 个 BLEU 的显著改进,当用 U2S 代替声码器合成语音时,缩小了性能差距,证明了 U2S 后端的鲁棒性。
2. 多任务训练
U-XLM 在涉及的多个任务(包括 S2ST、ASR、ST、MT 和 TTS)上都取得了可观的性能,验证了 Decoder-only 框架的通用建模能力。
3. U2S 模块的优化
从实验结果发现从 U2S 中去掉时长模型,WER 会急剧增加,可能是由于 units 本身不包含与音素一样多的时长信息。因此,在使用无监督训练得到的离散单元时,时长模型是必不可少的。此外,作者额外训练了一个中英的多语言 HuBERT 模型(mHuBERT_zh_en)作为 Semantic Unit Extractor,实验对比发现更大的模型可能会生成更好的 Semantic Units。
结论
PolyVoice 是一个基于语音离散单元的 S2ST 框架。实验结果表明,基于 units 的 S2ST 系统在 ASR-BLEU、ASV 和自然度方面优于现有系统。此外,作者还证明了 PolyVoice 在不使用文本信息监督的情况下在非书写语言场景中的能力。由于 PolyVoice 性能与语音离散单元的质量高度相关,未来的工作将持续研究如何更好地进行语音离散化。
标签:
使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice-全球热闻
2023-06-23
全球关注:第31集 | 美业一姐赵民利50岁依旧年轻自信魅力秘密:附加篇,如何培育自...
2023-06-23
通讯连接器小巨人翻倍上涨,公司董监高减持卖飞了!海外机构调研股跑赢大盘,多股获外资加仓(附股)
2023-06-23
梦幻奇遇季 浪漫仲夏夜——日照海洋公园夜场开启
2023-06-23
高考成绩即将出炉!这场高考志愿填报讲座一定要听
2023-06-23
充分发挥毕业去向登记系统的积极作用_当前讯息
2023-06-23
中秋节习俗月饼作文_中秋节习俗月光马儿_每日头条
2023-06-23
cashmere什么意思啊_cashmere什么意思|全球观焦点
2023-06-23
全球短讯!银川:彻查事故原因,市委已启动问责程序!最新救治进展
2023-06-23
世界快资讯丨米勒还是汤普森?美记:开拓者近几日正考虑亨德森成榜眼后的选择
2023-06-23
全球关注:第31集 | 美业一姐赵民利50岁依旧年轻自信魅力秘密:附加篇,如何培育自...
通讯连接器小巨人翻倍上涨,公司董监高减持卖飞了!海外机构调研股跑赢大盘,多股获外资加仓(附股)
梦幻奇遇季 浪漫仲夏夜——日照海洋公园夜场开启
高考成绩即将出炉!这场高考志愿填报讲座一定要听
充分发挥毕业去向登记系统的积极作用_当前讯息
中秋节习俗月饼作文_中秋节习俗月光马儿_每日头条
cashmere什么意思啊_cashmere什么意思|全球观焦点
全球短讯!银川:彻查事故原因,市委已启动问责程序!最新救治进展
世界快资讯丨米勒还是汤普森?美记:开拓者近几日正考虑亨德森成榜眼后的选择
帝国总裁的逃妻雷御风听书_帝国总裁的逃妻txt
焦点速读:端午佳节,东湖听涛开展忆屈原传统民俗活动
视讯!银川:立即开展为期一个月的安全生产大排查大整治行动
天天播报:贾宝玉与林黛玉前世之缘的称呼_林黛玉贾宝玉的前世和后世分别是什么
日媒:8月或成岸田改组内阁备选时间 全球热资讯
submitted什么意思中文翻译_submitted什么意思 世界快讯
环球微头条丨粉色满天星送给什么人(粉色满天星送给什么人合适)
全球快讯:河南开展科学绿化试点示范省建设 布局“两区、三屏”
【光明网评】千年端午,让传承溯流而上|时快讯
纽约大学的英文_纽约大学相关内容简介介绍
天天快播:河北大学医学部分几个系(河北大学医学部分数线)
上海市第一届职业技能大赛闭幕 天天速读
倍轻松:6月21日融资买入181.53万元,融资融券余额4288.47万元
端午假期厦门连续三天维持高湿高热 午后热雷雨时至
2021立春说说大全心情短语_2023立春发的说说 适合23年立春的说说介绍-热闻
王不见王小说_王不见王 世界微头条
有模有样!库尔图瓦晒儿子与皇马少年队“续签合同”:Here we go-世界即时看
卡盟是什么东西(卡盟是什么)
股票行情快报:万方发展(000638)6月21日主力资金净买入228.17万元
本周盘点(6.12-6.16):双飞股份周涨6.65%,主力资金合计净流入247.37万元|环球要闻
- 环球讯息:航天发展(000547.SZ)拟10股派0.35元 于6月30日除权除息
- 焦点短讯!美股多空博弈加剧 家族办公室“各怀心思”火中取栗
- 急性冠状动脉综合征,开「硝苯地平」?这个坑千万别踩 每日视讯
- 2023全球数字经济大会7月4日在京开幕 五大亮点值得期待
- 有秋雨绵绵这个词语吗_“秋雨绵绵”是什么意思相关介绍简介
- 男子曝妻子与局长存在不正当关系,聊天记录辣眼睛
- 因部分员工违反禁止性规定,云南南华农商银行被罚款60万元 热闻
- 泡沫球有毒吗_球中泡沫
- 儿童数字内容市场空间巨大,叫叫运用科技助推行业创新
- 沐飒上市3天,要卖2个工厂,北京现代不坚持了? 环球微速讯
- 失业补助金最长可领取六个月 失业补助金一年只能领取一次|全球热推荐
- ?专供特卖会?切尔西股东与沙特主权基金PIF关系密切 环球今热点
- 国能龙岩发电:强化仿真机培训提升集控运行人员岗位技能
- 【焦点热闻】5月国家药监局批准注册医疗器械产品175个
- 全球微动态丨叮咚买菜不断撤城、每日优鲜或将摘牌,生鲜电商彻底没戏了?
- 警方预警提示!
- 也谈《中餐厅7》拦“路人”,粉丝群体缺行为规范,节目何错之有 每日看点
- 中国轮椅女篮获2023迪拜轮椅篮球世锦赛亚军
- 世界资讯:韩媒:韩国60多岁就业人口高出20多岁年龄段
- 国足2比0击败巴勒斯坦队,武磊解锁国家队第30球 快消息
- excel表格怎么加密不让别人改动_Excel表格怎么加密-环球关注
- 六库镇别墅楼盘_六库镇
- 最新消息:东南电子:不生产AGV智能机器人
- 热身赛-铁卫自摆乌龙+进球马内双响 巴西2-4塞内加尔
- 环球快看:2023年铜仁市碧江区政金企座谈会召开
- 央行年内首次下调LPR利率 进一步提振实体经济资金需求 世界速读
- 我的世界nei物品管理器怎么隐藏 我的世界nei物品管理器mod_全球热资讯
- 全球热推荐:多次打114电话直接被挂断
- 全球今日讯!三维天地(301159):该股换手率大于8%(06-21)
- 中国铝业将于8月18日派发末期股息每股0.0394港元 微头条
- 还完房贷银行说不用解押是真的吗?看完你就明白了
- 天天播报:2035年长沙高新区将形成1个万亿规模的世界级产业集群
- 双向八车道!这条大道贯通,德江更给力!
- 理想汽车首款纯电车型MEGA预计年底发布|天天速递
- 安徽省巢湖市中垾市场监管所开展端午节前食品安全专项检查_新消息
- 日媒:茨城县一购物中心停车场内3人死亡 初步认定为自杀 天天最新
- 注册会计师报名入口缴费2023-当前焦点
- 检察公益诉讼专项监督推动洗车行业违法问题整治
- 停息挂账申请的条件是什么?停息挂账的好处和危害有哪些?-天天快播 世界时快讯
- 房产购置税怎么计算_购置税如何计算2019 要闻
- 港股异动|海纳智能(01645)涨超9% 股价创历史新高 5月以来上涨38%
- 拜登积极回应布林肯访华 称美中关系走在正确道路上 全球最资讯
- 热记:只要利拉德申请交易热火就会出手 篮网会是有力的竞争者_世界关注
- 西媒:TikTok成西班牙中小企业绝佳展示窗口|世界讯息
- 湖北襄阳宜城火电首台机组首次并网一次成功!
- 丰富的旅游资源如何调动?上海援藏吸引更多游客来到日喀则|环球微头条
- 全球快资讯:中州期货:煤焦盘面回落,震荡偏弱运行
- 今日热搜:北京:今天有分散性雷阵雨 局地有风雹
- 浙江一家三口去世 冒出十多人争房产|世界最新
- 光大银行全国客服_光大银行电话 每日时讯