亚马逊推出有史以来最大的文本转语音模型
中国基金网
亚马逊AGI的人工智能研究人员团队宣布开发他们所描述的有史以来最大的文本转语音模型。“最大”是指拥有最多的参数并使用最大的训练数据集。他们在arXiv预印本服务器上发表了一篇论文,描述了该模型是如何开发和训练的。
像 ChatGPT 这样的 LLM 因其类似人类的智能回答问题和创建高级文档的能力而受到关注。但人工智能仍在进入其他主流应用。在这项新的努力中,研究人员试图通过增加其参数数量和增加其训练基础来提高文本转语音应用程序的能力。
这个新模型被称为具有紧急能力的大型自适应可流式TTS(简称BASE TTS),有9.8亿个参数,并使用100000小时的录音语音(在公共网站上找到)进行训练,其中大部分是英语。该团队还为它提供了其他语言的口语单词和短语的示例,以使模型在遇到众所周知的短语时能够正确发音 - 例如“au contraire”或“adios,amigo”。
亚马逊的团队还在较小的数据集上测试了该模型,希望了解它在人工智能领域发展了一种新兴品质,其中人工智能应用程序,无论是LLM还是文本转语音应用程序,似乎突然突破到更高的智能水平。他们发现,对于他们的应用程序来说,一个中等规模的数据集是飞跃到更高层次的地方,有1.5亿个参数。
他们还指出,这一飞跃涉及许多语言属性,例如使用复合名词、表达情感、使用外来词、应用副语言学和标点符号以及提出问题的能力,重点是句子中的正确单词。
该团队表示,BASE TTS不会向公众发布 - 他们担心它可能会被不道德地使用- 相反,他们计划将其用作学习应用程序。他们希望应用他们迄今为止所学到的知识来提高文本转语音应用程序的人类声音质量。