柏拉图数据智能。
垂直搜索和人工智能。

在 Amazon Polly 中使用词典自定义发音

日期:

亚马逊波莉 是一个 文字转语音 使用先进的深度学习技术合成听起来自然的人类语音的服务。 它用于各种用例,例如联络中心系统,通过类似人类的声音提供对话式用户体验,用于自动实时状态检查、自动帐户和账单查询,以及华盛顿邮报等新闻机构 让读者收听新闻文章.

截至今天,Amazon Polly 提供 超过 60 种声音,30 多种语言变体. Amazon Polly 还使用上下文根据动词时态和其他上下文信息以不同方式发音某些单词。 例如,“I read a book”(现在时)和“I will read a book”(将来时)中的“read”发音不同。

但是,在某些情况下,您可能希望自定义 Amazon Polly 发音的方式。 例如,您可能需要将发音与当地方言或白话相匹配。 事物的名称(例如,Tomato 可以发音为 汤姆阿托 or 今日份),人、街道或地点通常以多种不同的方式发音。

在这篇文章中,我们将演示如何利用词典创建自定义发音。 您可以将词典应用于出版、教育或呼叫中心等用例。

使用 SSML 标签自定义发音

假设您流式传输来自澳大利亚的流行播客,并使用 Amazon Polly 澳大利亚英语 (Olivia) 语音将您的脚本转换为类似人类的语音。 在您的一个脚本中,您想要使用 Amazon Polly 语音不知道的词。 例如,您想向新西兰听众发送 Mātariki(毛利新年)问候。 对于此类场景,Amazon Polly 支持拼音发音,您可以使用它来实现接近外语正确发音的发音。

您可以使用语音合成标记语言 (SMML) 标记以在 ph 属性中建议语音发音。 让我告诉你如何使用SSML 标签。

首先,登录您的 AWS 控制台 并在顶部的搜索栏中搜索 Amazon Polly。 选择 Amazon Polly,然后选择 Try Polly 按钮。

在 Amazon Polly 控制台中,从语言下拉列表中选择澳大利亚英语并在输入文本框中输入以下文本,然后单击收听以测试发音。

我祝愿你们所有人的 Mātariki 快乐。

未应用语音发音的示例语音:

如果您听到上面的示例语音,您会注意到 马塔里基 ——一个不属于澳大利亚英语的词——不是很准确。 现在,让我们看看在这种情况下我们如何使用语音发音用于自定义 Amazon Polly 生成的语音的 SSML 标签。

要使用 SSML 标签,请在 Amazon Polly 控制台中打开 SSML 选项。 然后复制并粘贴以下包含语音发音的 SSML 脚本 马塔里基 在 ph 属性中指定标签。

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

随着 标签, Amazon Polly 使用 ph 属性指定的发音,而不是默认情况下与所选语音使用的语言关联的标准发音。

应用语音发音后的示例语音:

如果您听到示例声音,您会注意到我们为某些元音(例如 ā)选择了不同的发音,以使 Amazon Polly 合成更接近正确发音的声音。 现在你可能有一个问题,我如何生成音标“mA:.tA:.ri.ki” 这个词 马塔里基?

您可以通过参考创建音标 支持语言的音素和视位表. 在上面的示例中,我们使用了 澳大利亚英语的音素.

Amazon Polly 提供两种拼音字母支持:IPA 和 X-Sampa。 X-Sampa 的好处是它们是标准的 ASCII 字符,因此使用普通键盘更容易输入音标。 您可以使用 IPA 或 X-Sampa 来生成转录,但请确保与您的选择保持一致,尤其是当您使用我们将在下一节中介绍的词典文件时。

音素表中的每个音素代表一个语音。 中的粗体字母 “例子” 上面链接的澳大利亚英语页面中Phoneme/Viseme 表的列代表“Phoneme”对应的单词部分。 例如,音素 /j/ 表示澳大利亚英语使用者在“yes”中发音字母“y”时发出的声音。

使用词典自定义发音

音素标签适合一次性的情况来定制孤立的情况,但这些是不可扩展的。 如果您处理由不同编辑和审阅者管理的大量文本,我们建议使用词典。 使用词典,您可以在添加自定义发音方面实现一致性,同时减少将音素标签插入脚本的手动工作。

一个好的做法是,在您在 Amazon Polly 控制台上测试自定义发音后,使用 标签,您可以使用创建自定义发音库 词典. 上传词典文件后,Amazon Polly 将自动应用词典文件中指定的拼音发音,无需手动提供标签。

创建词典文件

词典文件包含单词及其语音发音之间的映射。 发音词典规范 (PLS) 是用于指定可互操作的发音信息的 W3C 建议。 以下是一个示例 PLS 文档:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

确保您使用正确的值 xml:lang 场地。 用 en-AU 如果您要上传词典文件以用于 Amazon Polly 澳大利亚英语语音。 有关受支持语言的完整列表,请参阅 Amazon Polly 支持的语言.

要指定自定义发音,您需要添加 元素,它是具有一个或多个词条的容器 <grapheme> 元素和内部提供的一个或多个发音信息 <phoneme> 元件。

<grapheme> 元素包含描述 拼字 元素。 你可以使用一个 <grapheme> 元素来指​​定要自定义其发音的单词。 您可以添加多个 <grapheme> 指定所有单词变体的元素,例如有或没有宏。 这 <grapheme> 元素区分大小写,并且在语音合成过程中,Amazon Polly 字符串与您要转换为语音的脚本中的单词相匹配。 如果找到匹配项,则使用元素,它描述了如何发音为生成音标。

您还可以使用 <alias> 对于常用的缩写。 在前面的词典文件示例中, NZ 用作别名 新西兰. 这意味着,只要 Amazon Polly 在文本正文中遇到“NZ”(大小写匹配),它就会将这两个字母读作“New Zealand”。

有关词典文件格式的更多信息,请参阅 发音词典规范 (PLS) 版本 1.0 在 W3C 网站上。

在将词典文件上传到 Amazon Polly 之前,您可以将其保存为 .pls 或 .xml 文件。

上传并应用词典文件

使用以下说明将您的词典文件上传到 Amazon Polly:

  1. 在 Amazon Polly 控制台上,选择 词典 在导航窗格中。
  2. 上传词典.
  3. 输入词典的名称,然后选择 词典文件.
  4. 选择要上传的文件。
  5. 上传词典.

如果已存在同名词典(无论是 .pls 还是 .xml 文件),则上传词典会覆盖现有词典。

现在您可以应用词典来自定义发音。

  1. 文字转语音 在导航窗格中。
  2. 扩大 其他设置.
  3. 打开 自定义发音.
  4. 在下拉菜单中选择词典。

您也可以选择 上传词典 上传新的词典文件(或新版本)。

对源代码存储库中的词典文件进行版本控制是一种很好的做法。 将自定义发音保存在词典文件中可确保您可以一致地参考整个组织中某些单词的语音发音。 另外,请记住上面提到的发音词典限制 Amazon Polly 中的配额 页面上发布服务提醒。

应用词典后测试发音

让我们使用“Wishing my all listeners in NZ, a very Happy Mātariki”作为输入文本进行快速测试。

我们可以比较应用词典前后的音频文件。

在应用词典之前:

应用词典后:

结论

在这篇博文中,我们讨论了如何自定义 Amazon Polly 中所选语言中未找到的常用首字母缩略词或单词的发音。 您可以使用SSML 标签非常适合插入一次性定制或测试目的。 我们建议使用 Lexicon 为您组织中的常用词创建一组一致的发音。 这使您的内容作者能够将时间花在写作上,而不是重复在脚本中添加语音发音的繁琐任务。 您可以在 Amazon Polly 控制台上的 AWS 账户中尝试此操作。

资源摘要


作者简介

拉坦·库马尔(Ratan Kumar) 是新西兰奥克兰的解决方案架构师。 他与大型企业客户合作,帮助他们使用 AWS 云设计和构建安全、经济高效且可靠的互联网规模应用程序。 他对技术充满热情,喜欢通过博客文章和抽搐会议分享知识。

马切克泰吉 是 Polly Brand Voices 的首席音频设计师和产品经理。 他曾在科技行业、电影、广告和游戏本地化领域担任过专业职务。 2013 年,他成为 Alexa Text-To-Speech 团队聘用的第一位音频工程师。 Maciek 参与了在不同国家发布 12 个 Alexa TTS 语音、20 多个 Polly 语音和 4 个 Alexa 名人语音。 Maciek 是一名铁人三项运动员,也是一名狂热的原声吉他手。

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?