新的生成引擎和三种声音现在在 Amazon Polly 上正式推出 新闻博客
亚马逊 Polly 发布新生成引擎及三种语音
关键信息
亚马逊 Polly 新推出的生成引擎及其三种新的语音Ruth 和 Matthew美式英语,以及 Amy英式英语现已全面上线。新的生成引擎在语音合成的精准度上有显著提升,支持不同的语言和风格。用户可以通过 AWS 管理控制台、CLI 或 SDK 迅速开始使用这些新语音功能。今天,我们很高兴地宣布,亚马逊 Polly 的生成引擎现已正式上线,包含三种新的语音选项:美式英语的 Ruth 和 Matthew,以及英式英语的 Amy。新的生成引擎经过公开和专有数据及多种语音、语言和风格的训练,具备更高的精准度,在演绎上下文依赖的韵律、停顿、拼写、方言属性、外语发音等方面表现出色。
亚马逊 Polly 是一个机器学习ML服务,能够将文本转换成逼真的语音,属于文本转语音TTS技术。如今,亚马逊 Polly 已经支持多种语言的高质量、自然听起来的人类语音,用户可以选择适合的声音并将其应用于多种地区或国家的语音启用应用程序中。
使用亚马逊 Polly,用户可以选择多种语音选项,包括神经语音、长形式语音和生成语音,这些选项提供了语音质量的突破性改善,并能生成既真实又富于表现力和情感的声音。用户可将语音输出存储为 MP3 或 OGG 等标准格式,通过 语音合成标记语言SSML标签调整语速、音高或音量,并快速交付生动的语音以及流畅的用户体验。
新的生成引擎是什么?
亚马逊 Polly 目前支持四种语音引擎:标准语音、神经语音、长形式语音和生成语音。
语音类型介绍标准 TTS 语音于2016年推出,使用传统的拼接合成技术,但由于语音的自然变化,合成的质量受到限制。神经 TTS (NTTS) 语音于2019年推出,利用顺序到顺序的神经网络技术,能产生更高质量的人声音色。长形式语音于2023年推出,采用先进的深度学习 TTS 技术,适合长篇内容,如新闻文章、培训材料或营销视频。生成语音结合最新研究的技术,能够模拟人类语音生成令人信服的声音。在2024年2月,亚马逊科学家推出了一种新的研究 TTS 模型,名为 大自适应可流式 TTS 模型BASE,该技术使得亚马逊 Polly 的生成引擎能够创造出人性化的合成生成功能,这些声音可以用作知识丰富的客户助手、虚拟培训师或经验丰富的市场推广者。
新的生成语音
姓名地区性别语言示例提示RuthenUS女性英语美国Selma正躺在台阶下的地面上。Selma! Selma!我们惊慌地喊道。MatthewenUS男性英语美国警卫与我们的邻居们站在外面,听着收音机。有什么好消息吗?我问。没有,我们在听昨天下列被杀的人名,布鲁诺回应道。AmyenGB女性英语英国他站在我上方说:你在看什么?他们下了公交车,开始搜寻行李舱。公交车上的紧张气氛像乌云般笼罩着我们。开始使用生成语音
您可以通过 AWS 管理控制台、AWS 命令行界面 (CLI) 或 AWS SDK 访问这些新语音。
要开始使用,请前往亚马逊 Polly 控制台在美国东部北弗吉尼亚地区,在左侧菜单中选择 文本到语音。如果选择美语的 Ruth 或 Matthew,或英语的 Amy,您可以选择 生成 引擎。输入您的文本,即可试听或下载生成的语音输出。

bash aws polly describevoices output json region useast1 jq r Voices[] select(SupportedEngines index(generative)) Name
您可以使用 CLI 列出支持新的生成引擎的语音: Matthew Amy Ruth
要生成语音文件hellomp3,请运行以下命令:
bash aws polly synthesizespeech outputformat mp3 region useast1 text Hello This is my first generative voices! voiceid Matthew engine generative hellomp3
要了解更多代码示例和应用,可以访问 AWS 文档中的代码和应用示例。
现已上线
亚马逊 Polly 的新 生成语音 已在美国东部北弗吉尼亚地区可以使用。费用根据您转换为语音的文本字符数而定。欲了解更多信息,请访问我们的 亚马逊 Polly 定价 页。
立即在 亚马逊 Polly 控制台 体验新的生成语音,并通过 AWS rePost for Amazon Polly 或您平常的 AWS 支持渠道发送反馈。
Channy
蜜蜂加速器软件优势