随着数字时代来临,人工智能技术在行业领域的应用也更加深入。很明显的一个例子就是,AI已将合成语音从单一的机器人呼叫、传统GPS导航系统转变成智能手机、智能音箱中动听的虚拟助手。
不过,由于人在说话时会有复杂的节奏、音调和音色变化,而AI很难在这些方面进行模仿。因此,AI合成语音与日常对话和媒体中听到的人类语音之间仍有差距。
日前,在INTERSPEECH 2021大会上,不少企业展示了在技术领域的发展,让我们看到AI与人的距离又一次拉近。
其中,NVIDIA研究人员在大会上展示他们一项最新的项目,其内部创意团队利用AI技术为一个关于AI力量的系列视频制作了动人的解说。
这背后少不了技术的支撑,NVIDIA研究人员创建了一个高质量、可控制的语音合成模型和工具,这些模型和工具能够捕捉人类语音的丰富性,并且不会出现音频杂音。
I AM AI背后的故事
INTERSPEECH 2021大会上,一则名为《I AM AI》的系列视频成为热点,该系列视频介绍了重塑各个行业的全球AI创新者。为了身体力行,我们听到了NVIDIA创意团队突破性地将语音合成模型应用于该系列视频中。
我们要知道,不久前这些视频还都是由人类配音的。因为,此前的语音合成模型对合成声音节奏和音调的控制十分有限,因此AI配音也一直无法唤起观众的情感反应,这也备受诟病。
在过去的一年时间里,NVIDIA文本/语音研究团队开发出更强大、更可控的语音合成模型(如RAD-TTS),使得上述情况发生了变化。NVIDIA在SIGGRAPH Real-Time Live比赛中的获奖演示就采用了该模型。
通过使用人类语音音频来训练文本、语音模型,RAD-TTS可以将任何文本转换成说话人的声音。RAD-TTS界面的灵感来自将人的声音作为乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。
据了解,该模型的另一项强悍的功能是语音转换,即使用一名说话人的声音讲述另一名说话人的话语(甚至歌唱)。
通过这个接口,视频制作者可以在录制中自行阅读视频文本,然后使用AI模型使其声音可以进行男、女调换。并且,制作者可以使用这个基准叙述,像指导配音演员一样指示AI,比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气等。
该AI模型的能力已超出了配音工作的范围:文本、语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至还可以重现标志性歌手的表演,不仅能够匹配歌曲的旋律,还能匹配人声背后的情感表达。
AI赋能语音功能
我们都知道,AI赋能语音功能似乎成为了一个必然的选项,越来越成熟的AI技术,一定包围着我们的日常生活,也正是基于此,NVIDIA发布了用于加速语言和语言模型的开发的NVIDIA NeMo。
NVIDIA NeMo用于构建新型最先进的对话AI模型的工具箱, NeMo有独立的集合用于自动语音识别(ASR)、自然语言处理(NLP)和文本到语音(TTS)模型,便于开发者开箱即用,仅用几行代码便可以方便快速地完成对话式AI场景中的相关任务。
NVIDIA NeMo是一个带有PyTorch后端的开源套件,它能够进一步提高抽象层次。NeMo使用户可以使用可重用的组件轻松地建立复杂的神经网络架构。利用神经类型,这些组件之间会自动进行语义兼容性检查。
其中几个模型是在NVIDIA DGX系统上使用数万小时的音频数据训练而成。开发者可以根据自己的使用情况对任何模型进行微调,运用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。
NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型,该数据集拥有76种语言、近14000小时的众包语音数据。该项目的目标是在NVIDIA的支持下,通过全球最大的开源语音数据集实现语音技术的普及化。
写在最后
据悉,本次INTERSPEECH大会汇聚了一千多名研究人员,他们展示了语音技术方面的突破性进展。在本周的会议上,NVIDIA研究院将展示对话式AI模型架构以及供开发者使用的完全格式化语音数据集。