AI赋能合成语音 NVIDIA讲述I AM AI背后的故事

贾桂鹏 | 2021-08-31

随着数字时代来临，人工智能技术在行业领域的应用也更加深入。很明显的一个例子就是，AI已将合成语音从单一的机器人呼叫、传统GPS导航系统转变成智能手机、智能音箱中动听的虚拟助手。

不过，由于人在说话时会有复杂的节奏、音调和音色变化，而AI很难在这些方面进行模仿。因此，AI合成语音与日常对话和媒体中听到的人类语音之间仍有差距。

日前，在INTERSPEECH 2021大会上，不少企业展示了在技术领域的发展，让我们看到AI与人的距离又一次拉近。

其中，NVIDIA研究人员在大会上展示他们一项最新的项目，其内部创意团队利用AI技术为一个关于AI力量的系列视频制作了动人的解说。

这背后少不了技术的支撑，NVIDIA研究人员创建了一个高质量、可控制的语音合成模型和工具，这些模型和工具能够捕捉人类语音的丰富性，并且不会出现音频杂音。

I AM AI背后的故事

INTERSPEECH 2021大会上，一则名为《I AM AI》的系列视频成为热点，该系列视频介绍了重塑各个行业的全球AI创新者。为了身体力行，我们听到了NVIDIA创意团队突破性地将语音合成模型应用于该系列视频中。

我们要知道，不久前这些视频还都是由人类配音的。因为，此前的语音合成模型对合成声音节奏和音调的控制十分有限，因此AI配音也一直无法唤起观众的情感反应，这也备受诟病。

在过去的一年时间里，NVIDIA文本/语音研究团队开发出更强大、更可控的语音合成模型(如RAD-TTS)，使得上述情况发生了变化。NVIDIA在SIGGRAPH Real-Time Live比赛中的获奖演示就采用了该模型。

通过使用人类语音音频来训练文本、语音模型，RAD-TTS可以将任何文本转换成说话人的声音。RAD-TTS界面的灵感来自将人的声音作为乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。

据了解，该模型的另一项强悍的功能是语音转换，即使用一名说话人的声音讲述另一名说话人的话语(甚至歌唱)。

通过这个接口，视频制作者可以在录制中自行阅读视频文本，然后使用AI模型使其声音可以进行男、女调换。并且，制作者可以使用这个基准叙述，像指导配音演员一样指示AI，比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气等。

该AI模型的能力已超出了配音工作的范围：文本、语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至还可以重现标志性歌手的表演，不仅能够匹配歌曲的旋律，还能匹配人声背后的情感表达。

AI赋能语音功能

我们都知道，AI赋能语音功能似乎成为了一个必然的选项，越来越成熟的AI技术，一定包围着我们的日常生活，也正是基于此，NVIDIA发布了用于加速语言和语言模型的开发的NVIDIA NeMo。

NVIDIA NeMo用于构建新型最先进的对话AI模型的工具箱， NeMo有独立的集合用于自动语音识别(ASR)、自然语言处理(NLP)和文本到语音(TTS)模型，便于开发者开箱即用，仅用几行代码便可以方便快速地完成对话式AI场景中的相关任务。

NVIDIA NeMo是一个带有PyTorch后端的开源套件，它能够进一步提高抽象层次。NeMo使用户可以使用可重用的组件轻松地建立复杂的神经网络架构。利用神经类型，这些组件之间会自动进行语义兼容性检查。

其中几个模型是在NVIDIA DGX系统上使用数万小时的音频数据训练而成。开发者可以根据自己的使用情况对任何模型进行微调，运用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。

NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型，该数据集拥有76种语言、近14000小时的众包语音数据。该项目的目标是在NVIDIA的支持下，通过全球最大的开源语音数据集实现语音技术的普及化。

写在最后

据悉，本次INTERSPEECH大会汇聚了一千多名研究人员，他们展示了语音技术方面的突破性进展。在本周的会议上，NVIDIA研究院将展示对话式AI模型架构以及供开发者使用的完全格式化语音数据集。