AudioPaLM 是一种多模式架构,它顺利地融合了两个强大的现有模型 PaLM-2 和 AudioLM,以利用 Google 创建的自身功能。PaLM-2 是一种基于文本的语言模型,能够全面理解文本内容特有的语言复杂性。
另一方面,AudioLM 擅长捕获副语言因素,例如说话者识别和语气。但 AudioPaLM 通过结合这些模型实现了对文本和语音的广泛理解和生成,为即将到来的人工智能系统设定了新的基准。
AudioPaLM 概述
AudioPaLM 背后的关键创新是,它使用有限数量的离散标记有效地表示语音和文本。这一突破允许将语音识别、文本到语音合成和语音到语音翻译等许多任务集成到单一架构和训练过程中。
广泛的测试和评估表明,AudioPaLM 的性能优于以前的语音翻译系统。令人惊讶的是,它还可以对以前从未遇到过的语言配对执行零样本语音到文本翻译。这种无与伦比的能力使用户能够跨越语言障碍顺利交谈,实现前所未有的全球连接。
AudioPaLM 还具有基于简短口头命令跨语言传输语音的独特功能。用户现在可以轻松地使用自己选择的语言进行交流,同时保留其独特的语音特征,即使在使用多种语言进行交流时也是如此。这一发现对于在各种语言环境中运作的多语言人员和组织具有深远的影响。
AudioPaLM的推出代表了人工智能技术的另一项关键进步。谷歌对人工智能的全部潜力的不懈追求已经产生了一种改变游戏规则的语言模型,有望改变日益互联的世界中的沟通、翻译和理解。
语音到语音转换
AudioPaLM 语言模型已证明其能够通过在翻译后的音频中保留原始说话者的声音来将语音转换为语音。这一发现是通过对 CVSS-T 数据集进行彻底测试而实现的,该数据集建立了语言翻译的新基准,并提高了跨越语言障碍的交流的真实性。
翻译音频输出对比分为几栏:
CVSS-T 示例中的原始音频:这反映了以指定语言传送的初始音频内容。
目标语言的 CVSS-T 音频示例:此列显示目标语言的 CVSS-T 数据集的音频输出。
目标语言中的英语口音音频: AudioPaLM 的输出,可将原始音频正确翻译为目标语言,同时保留说话者的英语口音。
不保留语音的目标语言音频:此列代表 Translatotron 2 的输出,如 Jia 等人的工作中详细介绍的。(2022),没有特定的语音保存功能。
语音到文本转换
AudioPaLM 对原始音频的英文翻译是一项伟大的成就。有必要强调的是,翻译经常涉及有效的阅读,从而可以更灵活地传达句子的含义。您还需要记住,可以采用几种有效的方法来翻译句子。
因此,不需要正确的翻译即可与 CVSS-T 数据集中提供的参考完美一致。目前,AudioPaLM 不会生成带有标点符号的输出,因为训练数据缺乏标点符号。将来 AudioPaLM 可能也会将标点符号集成到输出中。
母语转英语
如果能在 AudioPalLM 网站上制作一部影片,让每个人都说自己的母语,然后 AudioPalM 将其翻译成英语,展示单个模型如何理解和翻译所有这些不同的语言,那就太棒了。
印地语示例
德语示例
随着人工智能领域的发展,AudioPaLM 等技术的应用有望改变各个行业,包括教育、商业、医疗保健等。随着谷歌在这一变革之旅中的引领,人工智能通信和理解的未来似乎比以往任何时候都更加光明。
另请阅读:您可能还会发现我们的 Bark 指南很有用:文本转语音新 AI 工具
结论
Google 研究人员发明了 AudioPaLM,这是一种新的语言模型,可以以令人难以置信的准确度进行听、说和翻译。通过集成两种当前模型的优势,AudioPaLM 提供了文本和语音的全面理解和创建。这一突破带来了跨语言交流和理解的巨大潜力,改变了我们与人工智能技术互动的方式。
原创文章,作者:网贝WebBay,如若转载,请注明出处:https://www.webbay.cn/audiopalm-a-language-model-that-can-listen-speak-and-translate