Amazon Polly テキストを音声に変換します 高度なディープラーニングテクノロジーを使用して、自然に聞こえる人間の音声を合成するサービス。 これは、コンタクトセンターシステム、自動化されたリアルタイムのステータスチェック、自動化されたアカウントと請求の問い合わせのための人間のような声での会話型ユーザーエクスペリエンスの提供、ワシントンポストなどの通信社などのさまざまなユースケースで使用されます。 読者がニュース記事を聞くことができるようにする.
今日の時点で、AmazonPollyは 60以上の言語バリアントで30以上の音声。 Amazon Pollyはまた、動詞の時制やその他のコンテキスト情報に基づいて、コンテキストを使用して特定の単語を異なる方法で発音します。 たとえば、「本を読む」(現在形)と「本を読む」(未来形)の「読む」の発音は異なります。
ただし、状況によっては、AmazonPollyが単語を発音する方法をカスタマイズしたい場合があります。 たとえば、発音を地元の方言や土語と一致させる必要がある場合があります。 物の名前(例:トマトは次のように発音できます) トム・アー・ト or トムエイト)、人、通り、または場所は、多くの場合、さまざまな方法で発音されます。
この投稿では、レキシコンを活用してカスタム発音を作成する方法を示します。 出版、教育、コールセンターなどのユースケースにレキシコンを適用できます。
SSMLタグを使用して発音をカスタマイズする
オーストラリアから人気のポッドキャストをストリーミングし、Amazon Pollyオーストラリア英語(オリビア)の音声を使用してスクリプトを人間のような音声に変換するとします。 スクリプトのXNUMXつで、AmazonPollyの音声に知られていない単語を使用したいとします。 たとえば、ニュージーランドのリスナーにマタリキ(マオリの新年)の挨拶を送りたいとします。 このようなシナリオでは、Amazon Pollyは音声発音をサポートしています。これを使用して、外国語の正しい発音に近い発音を実現できます。
あなたは使用することができます音声合成マークアップ言語(SSML)ph属性の音声発音を提案するタグ。 使い方をお見せしましょうSSMLタグ。
まず、 AWSコンソール 上部の検索バーでAmazonPollyを検索します。 Amazon Pollyを選択してから、TryPollyボタンを選択します。
Amazon Pollyコンソールで、言語ドロップダウンからオーストラリア英語を選択し、[入力]テキストボックスに次のテキストを入力してから、[聞く]をクリックして発音をテストします。
ふりがなを適用せずに音声をサンプリングする:
上記のサンプルスピーチを聞くと、 マタリキ –オーストラリア英語の一部ではない単語–は完全に正確ではありません。 それでは、このようなシナリオで、次を使用して音声発音を使用する方法を見てみましょう。 AmazonPollyによって生成された音声をカスタマイズするためのSSMLタグ。
SSMLタグを使用するには、AmazonPollyコンソールでSSMLオプションをオンにします。 次に、次の音声発音を含むSSMLスクリプトをコピーして貼り付けます。 マタリキ のph属性内で指定鬼ごっこ。
鬼ごっこ、Amazon Pollyは、選択した音声で使用される言語にデフォルトで関連付けられている標準の発音ではなく、ph属性で指定された発音を使用します。
ふりがなを適用した後のサンプルスピーチ:
サンプルサウンドを聞くと、Amazon Pollyに正しい発音に近いサウンドを合成させるために、一部の母音(たとえば、ā)に異なる発音を選択したことがわかります。 質問があるかもしれませんが、どのように発音表記を生成しますか?mA:.tA:.ri.ki」 一言 マタリキ?
を参照して発音表記を作成できます サポートされている言語の音素テーブルとVisemeテーブル。 上記の例では、 オーストラリア英語の音素.
Amazon Pollyは、IPAとX-SampaのXNUMXつの表音アルファベットでサポートを提供します。 X-Sampaの利点は、標準のASCII文字であるため、通常のキーボードで発音表記を入力するのが簡単なことです。 IPAまたはX-Sampaのいずれかを使用して文字起こしを生成できますが、特に次のセクションで説明するレキシコンファイルを使用する場合は、選択内容と一貫性を保つようにしてください。
音素テーブルの各音素は、音声を表します。 の太字は "例" 上にリンクされているオーストラリア英語ページのPhoneme/Visemeテーブルの列は、「Phoneme」が対応する単語の一部を表しています。 たとえば、音素/ j /は、オーストラリア英語を話す人が「はい」の文字「y」を発音するときに鳴る音を表します。
レキシコンを使用して発音をカスタマイズする
音素タグは、孤立したケースをカスタマイズするためのXNUMX回限りの状況に適していますが、これらはスケーラブルではありません。 さまざまな編集者やレビュー担当者が管理する大量のテキストを処理する場合は、レキシコンを使用することをお勧めします。 レキシコンを使用すると、カスタム発音を追加する際の一貫性を実現すると同時に、スクリプトに音素タグを挿入する手作業を減らすことができます。
良い習慣は、AmazonPollyコンソールでカスタム発音をテストした後に タグを使用して、カスタマイズされた発音のライブラリを作成します レキシコン。 レキシコンファイルがアップロードされると、Amazon Pollyはレキシコンファイルで指定された音声発音を自動的に適用し、手動で提供する必要をなくします。 鬼ごっこ。
レキシコンファイルを作成する
レキシコンファイルには、単語とその音声発音の間のマッピングが含まれています。 発音辞書仕様(PLS) 相互運用可能な発音情報を指定するためのW3C勧告です。 以下は、PLSドキュメントの例です。
に正しい値を使用していることを確認してください xml:lang
分野。 使用する en-AU
AmazonPollyオーストラリア英語の音声で使用するレキシコンファイルをアップロードする場合。 サポートされている言語の完全なリストについては、を参照してください。 AmazonPollyでサポートされている言語.
カスタム発音を指定するには、を追加する必要があります XNUMXつ以上の字句エントリのコンテナである要素 <grapheme>
要素とXNUMXつ以上の発音情報が内部で提供されます <phoneme>
要素。
<grapheme>
要素には、 正書法 エレメント。 あなたは使用することができます <grapheme>
発音をカスタマイズする単語を指定する要素。 複数追加できます <grapheme>
たとえば、マクロンの有無にかかわらず、すべての単語のバリエーションを指定する要素。 The <grapheme>
要素では大文字と小文字が区別され、音声合成中にAmazonPolly文字列が音声に変換するスクリプト内の単語と一致します。 一致するものが見つかった場合は、 要素、方法を説明します発音記号を生成すると発音されます。
使用することもできます <alias>
一般的に使用される略語。 前のレキシコンファイルの例では、 NZ のエイリアスとして使用されます ニュージーランド。 これは、Amazon Pollyがテキストの本文で「NZ」(大文字と小文字が一致する)に出くわすたびに、それらのXNUMX文字を「ニュージーランド」と読み取ることを意味します。
レキシコンファイル形式の詳細については、を参照してください。 発音辞書仕様(PLS)バージョン1.0 W3CWebサイトで。
レキシコンファイルは、Amazon Pollyにアップロードする前に、.plsまたは.xmlファイルとして保存できます。
レキシコンファイルをアップロードして適用します
次の手順を使用して、レキシコンファイルをAmazonPollyにアップロードします。
- Amazon Pollyコンソールで、 レキシコン ナビゲーションペインに表示されます。
- 選択する レキシコンをアップロードする.
- レキシコンの名前を入力して、 レキシコンファイル.
- アップロードするファイルを選択します。
- 選択する レキシコンをアップロードする.
同じ名前のレキシコン(.plsまたは.xmlファイル)がすでに存在する場合、レキシコンをアップロードすると、既存のレキシコンが上書きされます。
これで、レキシコンを適用して発音をカスタマイズできます。
- 選択する テキストを音声に変換する ナビゲーションペインに表示されます。
- 詳細 その他の設定.
- オンにする 発音をカスタマイズする.
- ドロップダウンメニューでレキシコンを選択します。
また選ぶことができます レキシコンをアップロードする 新しいレキシコンファイル(または新しいバージョン)をアップロードします。
ソースコードリポジトリ内のレキシコンファイルをバージョン管理することをお勧めします。 カスタム発音をレキシコンファイルに保持することで、組織全体の特定の単語の音声発音を一貫して参照できるようになります。 また、に記載されている発音レキシコンの制限に注意してください AmazonPollyの割り当て ページで見やすくするために変数を解析したりすることができます。
レキシコンを適用した後、発音をテストします
入力テキストとして「ニュージーランドのすべてのリスナー、とても幸せなマタリキを願っています」を使用して、簡単なテストを実行してみましょう。
レキシコンを適用する前後のオーディオファイルを比較できます。
レキシコンを適用する前に:
レキシコンを適用した後:
まとめ
この投稿では、AmazonPollyで選択した言語にない一般的に使用される頭字語や単語の発音をカスタマイズする方法について説明しました。 使用できますXNUMX回限りのカスタマイズやテスト目的の挿入に最適なSSMLタグ。 Lexiconを使用して、組織全体で頻繁に使用される単語の発音の一貫したセットを作成することをお勧めします。 これにより、コンテンツライターは、スクリプトに音声の発音を繰り返し追加するという面倒な作業を行う代わりに、時間をかけて書くことができます。 これは、AmazonPollyコンソールのAWSアカウントで試すことができます。
リソースの概要
著者について
ラタン・クマール はニュージーランドのオークランドを拠点とするソリューションアーキテクトです。 彼は大企業の顧客と協力して、AWSクラウドを使用した安全で費用効果が高く信頼性の高いインターネット規模のアプリケーションの設計と構築を支援しています。 彼はテクノロジーに情熱を持っており、ブログ投稿やトゥイッチセッションを通じて知識を共有するのが好きです。
マシエックテギ は、PollyBrandVoicesのプリンシパルオーディオデザイナーおよびプロダクトマネージャーです。 彼は、テクノロジー業界、映画、コマーシャル、ゲームのローカリゼーションで専門的な立場で働いてきました。 2013年、彼はAlexaText-To-Speechチームに採用された最初のオーディオエンジニアでした。 Maciekは、さまざまな国で12のAlexa TTS音声、20を超えるPolly音声、および4つのAlexa有名人音声のリリースに関与しました。 Maciekはトライアスリートであり、熱心なアコースティックギタープレーヤーです。