Інформація про дані Платона.
Вертикальний пошук і штучний інтелект.

Налаштуйте вимову, використовуючи лексикони в Amazon Polly

Дата:

Амазонка Поллі це текст до мовлення сервіс, який використовує передові технології глибокого навчання для синтезу природного звучання людської мови. Він використовується в різноманітних випадках використання, наприклад у системах контакт-центрів, що забезпечують розмову користувачів із людськими голосами для автоматизованої перевірки статусу в реальному часі, автоматизованих запитів щодо облікового запису та виставлення рахунків, а також інформаційними агентствами, як-от The Washington Post. дозволити читачам слухати новинні статті.

На сьогодні Amazon Polly надає понад 60 голосів у 30+ мовних варіантах. Amazon Polly також використовує контекст, щоб по-різному вимовляти певні слова на основі часу дієслова та іншої контекстної інформації. Наприклад, «читати» в «Я читаю книгу» (теперішній час) і «Я буду читати книгу» (майбутній час) вимовляється по-різному.

Однак у деяких ситуаціях ви можете налаштувати спосіб вимовляння слова Amazon Polly. Наприклад, вам може знадобитися узгодити вимову з місцевим діалектом або просторіччям. Назви предметів (наприклад, Помідор можна вимовляти як том-а-то or том-ай-то), люди, вулиці чи місця часто вимовляються різними способами.

У цій публікації ми демонструємо, як ви можете використовувати лексикони для створення власної вимови. Ви можете застосувати лексикони для таких випадків використання, як видавництво, освіта або кол-центри.

Налаштуйте вимову за допомогою тегу SSML

Припустімо, ви транслюєте популярний подкаст з Австралії та використовуєте голос Amazon Polly Australian English (Olivia), щоб перетворити свій сценарій на людське мовлення. В одному зі своїх сценаріїв ви хочете використовувати слова, невідомі голосу Amazon Polly. Наприклад, ви хочете надіслати вітання Mātariki (Новий рік маорі) своїм слухачам у Новій Зеландії. Для таких сценаріїв Amazon Polly підтримує фонетичну вимову, за допомогою якої ви можете отримати вимову, наближену до правильної вимови іноземною мовою.

Ви можете використовувати Мова розмітки синтезу мовлення (SSML), щоб запропонувати фонетичну вимову в атрибуті ph. Дозвольте мені показати вам, як ви можете використовувати тег SSML.

Спочатку увійдіть у свій Консоль AWS і знайдіть Amazon Polly у рядку пошуку вгорі. Виберіть Amazon Polly, а потім натисніть кнопку «Спробувати Polly».

У консолі Amazon Polly виберіть австралійську англійську зі спадного списку мов і введіть наступний текст у текстове поле введення, а потім натисніть «Слухати», щоб перевірити вимову.

Я бажаю всім вам щасливого Матарикі.

Зразок мовлення без фонетичної вимови:

Якщо ви почуєте зразок мови вище, ви можете помітити, що вимова Матарікі – слово, яке не є частиною австралійської англійської – не зовсім точне. Тепер давайте розглянемо, як у таких сценаріях ми можемо використовувати фонетичну вимову за допомогою Тег SSML для налаштування мовлення, створеного Amazon Polly.

Щоб використовувати теги SSML, УВІМКНІТЬ параметр SSML на консолі Amazon Polly. Потім скопіюйте та вставте наступний сценарій SSML, що містить фонетичну вимову для Матарікі вказано в атрибуті ph тег.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

З тег, Amazon Polly використовує вимову, визначену атрибутом ph, замість стандартної вимови, пов’язаної за умовчанням з мовою, яку використовує вибраний голос.

Зразок мовлення після застосування фонетичної вимови:

Якщо ви почуєте зразок звуку, ви помітите, що ми вибрали іншу вимову для деяких голосних (наприклад, ā), щоб змусити Amazon Polly синтезувати звуки, ближчі до правильної вимови. Тепер у вас може виникнути питання, як мені створити фонетичну транскрипцію "mA:.tA:.ri.ki” за слово Матарікі?

Ви можете створювати фонетичні транскрипції, звертаючись до Таблиці фонем і Viseme для підтримуваних мов. У прикладі вище ми використали фонеми для австралійської англійської мови.

Amazon Polly пропонує підтримку двох фонетичних алфавітів: IPA та X-Sampa. Перевага X-Sampa полягає в тому, що це стандартні символи ASCII, тому легше вводити фонетичну транскрипцію за допомогою звичайної клавіатури. Ви можете використовувати IPA або X-Sampa для створення своїх транскрипцій, але переконайтеся, що ви не змінюєте свій вибір, особливо коли ви використовуєте файл лексиконів, який ми розглянемо в наступному розділі.

Кожна фонема в таблиці фонем представляє звук мовлення. Напівжирні літери в «Приклад» стовпець таблиці Phoneme/Viseme на сторінці австралійської англійської мови, посилання на яку наведено вище, представляє частину слова, якій відповідає «Phoneme». Наприклад, фонема /j/ представляє звук, який вимовляє австралійський носій англійської мови, коли вимовляє літеру «y» у «yes».

Налаштуйте вимову за допомогою лексиконів

Теги фонем підходять для одноразових ситуацій, щоб налаштувати окремі випадки, але вони не масштабуються. Якщо ви обробляєте величезний обсяг тексту, яким керують різні редактори та рецензенти, рекомендуємо використовувати лексикони. Використовуючи лексикони, ви можете досягти узгодженості в додаванні користувацьких вимов і одночасно зменшити ручне вставлення тегів фонем у сценарій.

Хорошою практикою є те, що після того, як ви перевірите спеціальну вимову на консолі Amazon Polly за допомогою ви створюєте бібліотеку налаштованих вимов за допомогою лексикони. Після завантаження файлу лексиконів Amazon Polly автоматично застосує фонетичну вимову, указану у файлі лексиконів, і позбавить від необхідності вручну надавати тег.

Створіть файл лексиконів

Файл лексикону містить відображення між словами та їхньою фонетичною вимовою. Специфікація лексикону вимови (PLS) є рекомендацією W3C щодо визначення сумісної інформації про вимову. Нижче наведено приклад документа PLS:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

Переконайтеся, що ви використовуєте правильне значення для xml:lang поле. Використовуйте en-AU якщо ви завантажуєте файл лексикону для використання з голосом Amazon Polly Australian English. Повний список підтримуваних мов див Мови, які підтримує Amazon Polly.

Щоб указати спеціальну вимову, потрібно додати a елемент, який є контейнером для лексичного запису з одним або кількома <grapheme> елемент і одна або кілька відомостей про вимову, наданих усередині <phoneme> елемент.

Команда <grapheme> містить текст, що описує орфографія в елемент. Ви можете використовувати a <grapheme> елемент, щоб указати слово, вимову якого потрібно налаштувати. Ви можете додати кілька <grapheme> елементи для визначення всіх варіантів слів, наприклад, з макросами або без них. The <grapheme> елемент чутливий до регістру, і під час синтезу мовлення рядок Amazon Polly збігається зі словами у вашому сценарії, які ви перетворюєте на мовлення. Якщо збіг знайдено, використовується елемент, який описує, як вимовляється для створення фонетичної транскрипції.

Vous використання aussi можете оплатити <alias> для загальновживаних скорочень. У попередньому прикладі файлу лексикону NZ використовується як псевдонім для Нова Зеландія. Це означає, що всякий раз, коли Amazon Polly зустрічає «NZ» (з відповідним регістром) у тексті, вона читатиме ці дві літери як «Нова Зеландія».

Для отримання додаткової інформації про формат файлу лексиконів див Специфікація лексикону вимови (PLS), версія 1.0 на веб-сайті W3C.

Ви можете зберегти файл лексикону як файл .pls або .xml перед завантаженням його в Amazon Polly.

Завантажте та застосуйте файл лексикону

Завантажте свій файл лексикону в Amazon Polly, дотримуючись таких інструкцій:

  1. На консолі Amazon Polly виберіть Лексикони у навігаційній панелі.
  2. Вибирати Завантажити лексикон.
  3. Введіть назву лексикону, а потім виберіть файл лексикону.
  4. Виберіть файл для завантаження.
  5. Вибирати Завантажити лексикон.

Якщо лексикон із такою ж назвою (файл .pls чи .xml) уже існує, завантаження лексикону перезаписує наявний лексикон.

Тепер ви можете застосувати лексикон для налаштування вимови.

  1. Вибирати Перетворення тексту в мову у навігаційній панелі.
  2. Розширювати Додаткові налаштування.
  3. Включити Налаштувати вимову.
  4. Виберіть лексикон зі спадного меню.

Ви також можете вибрати Завантажити лексикон щоб завантажити новий файл словника (або нову версію).

Хорошою практикою є контроль версій файлу лексиконів у сховищі вихідного коду. Зберігання настроюваної вимови у файлі лексикону гарантує, що ви можете постійно посилатися на фонетичну вимову певних слів у всій організації. Крім того, пам’ятайте про обмеження лексикону вимови, згадані в Квоти в Amazon Polly стр.

Перевірте вимову після застосування лексикону

Давайте виконаємо швидкий тест, використовуючи як вхідний текст «Бажаю всім моїм слухачам у Новій Зеландії дуже щасливого Матарикі».

Ми можемо порівняти аудіофайли до і після застосування лексикону.

Перед застосуванням лексикону:

Після застосування лексикону:

Висновок

У цій публікації ми обговорили, як можна налаштувати вимову часто використовуваних абревіатур або слів, яких немає у вибраній мові в Amazon Polly. Ви можете використовувати Тег SSML, який чудово підходить для вставки одноразових налаштувань або тестування. Ми рекомендуємо використовувати Lexicon для створення узгодженого набору вимов для часто використовуваних слів у вашій організації. Це дає змогу авторам вашого вмісту витрачати час на написання замість виснажливого завдання повторного додавання фонетичної вимови в сценарій. Ви можете спробувати це у своєму обліковому записі AWS на консолі Amazon Polly.

Резюме ресурсів


Про авторів

Ратан Кумар є архітектором рішень з Окленда, Нова Зеландія. Він працює з великими корпоративними клієнтами, допомагаючи їм розробляти та створювати безпечні, економічно ефективні та надійні інтернет-додатки за допомогою хмари AWS. Він захоплений технологіями та любить ділитися знаннями через дописи в блогах і сеанси твічу.

Мацієк Тегі є головним аудіодизайнером і менеджером із продуктів Polly Brand Voices. Він професійно працював у технологічній індустрії, кіно, рекламі та локалізації ігор. У 2013 році він був першим аудіоінженером, найнятим до команди Alexa Text-To-Speech. Maciek брав участь у випуску 12 голосів Alexa TTS у різних країнах, понад 20 голосів Polly та 4 голосів знаменитостей Alexa. Maciek є тріатлоністом і завзятим гравцем на акустичній гітарі.

spot_img

Остання розвідка

spot_img

Зв'яжіться з нами!

Привіт! Чим я можу вам допомогти?