Inteligencia de datos de Platón.
Búsqueda vertical y Ai.

Personalice la pronunciación usando léxicos en Amazon Polly

Fecha:

Amazon Polly es un texto a voz servicio que utiliza tecnologías avanzadas de aprendizaje profundo para sintetizar el habla humana con un sonido natural. Se utiliza en una variedad de casos de uso, como sistemas de centros de contacto, brindando experiencias de usuario conversacionales con voces similares a las humanas para verificación de estado automatizada en tiempo real, consultas automatizadas de cuentas y facturación, y por agencias de noticias como The Washington Post. para permitir a los lectores escuchar artículos de noticias.

A partir de hoy, Amazon Polly proporciona más de 60 voces en más de 30 variantes de idioma. Amazon Polly también usa el contexto para pronunciar ciertas palabras de manera diferente según el tiempo verbal y otra información contextual. Por ejemplo, "leer" en "Leo un libro" (tiempo presente) y "Leeré un libro" (tiempo futuro) se pronuncia de manera diferente.

Sin embargo, en algunas situaciones es posible que desee personalizar la forma en que Amazon Polly pronuncia una palabra. Por ejemplo, es posible que deba hacer coincidir la pronunciación con el dialecto local o la lengua vernácula. Nombres de cosas (p. ej., tomate se puede pronunciar como tom-ah-a or tom-ay-to), las personas, las calles o los lugares a menudo se pronuncian de muchas maneras diferentes.

En esta publicación, demostramos cómo puede aprovechar los léxicos para crear pronunciaciones personalizadas. Puede aplicar léxicos para casos de uso como publicación, educación o centros de llamadas.

Personaliza la pronunciación usando la etiqueta SSML

Supongamos que transmite un podcast popular de Australia y utiliza la voz en inglés australiano (Olivia) de Amazon Polly para convertir su guión en un habla similar a la humana. En uno de sus guiones, desea utilizar palabras que son desconocidas para la voz de Amazon Polly. Por ejemplo, desea enviar saludos Mātariki (Año Nuevo maorí) a sus oyentes de Nueva Zelanda. Para tales escenarios, Amazon Polly admite la pronunciación fonética, que puede usar para lograr una pronunciación cercana a la pronunciación correcta en el idioma extranjero.

Puedes usar el Lenguaje de marcado de síntesis de voz (SSML) para sugerir una pronunciación fonética en el atributo ph. Déjame mostrarte cómo puedes usar etiqueta SSML.

Primero, inicie sesión en su Consola de AWS y busque Amazon Polly en la barra de búsqueda en la parte superior. Seleccione Amazon Polly y luego elija el botón Probar Polly.

En la consola de Amazon Polly, seleccione inglés australiano en el menú desplegable de idioma e ingrese el siguiente texto en el cuadro de texto de entrada y luego haga clic en Escuchar para probar la pronunciación.

Les deseo a todos un Mātariki muy feliz.

Ejemplo de discurso sin aplicar la pronunciación fonética:

Si escucha el discurso de muestra anterior, puede notar que la pronunciación de Matariki – una palabra que no forma parte del inglés australiano – no es del todo acertada. Ahora, veamos cómo en tales escenarios podemos usar la pronunciación fonética usando Etiqueta SSML para personalizar el discurso producido por Amazon Polly.

Para utilizar etiquetas SSML, active la opción SSML en la consola de Amazon Polly. Luego copie y pegue el siguiente script SSML que contiene la pronunciación fonética para Matariki especificado dentro del atributo ph del etiqueta.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

Con la etiqueta, Amazon Polly utiliza la pronunciación especificada por el atributo ph en lugar de la pronunciación estándar asociada de forma predeterminada con el idioma utilizado por la voz seleccionada.

Ejemplo de discurso después de aplicar la pronunciación fonética:

Si escucha el sonido de muestra, notará que optamos por una pronunciación diferente para algunas de las vocales (p. ej., ā) para que Amazon Polly sintetice los sonidos que están más cerca de la pronunciación correcta. Ahora es posible que tenga una pregunta, ¿cómo genero la transcripción fonética?mA:.tA:.ri.ki” por la palabra Matariki?

Puede crear transcripciones fonéticas consultando el Tablas de fonemas y visemas para los idiomas admitidos. En el ejemplo anterior hemos utilizado el fonemas para el inglés australiano.

Amazon Polly ofrece soporte en dos alfabetos fonéticos: IPA y X-Sampa. La ventaja de X-Sampa es que son caracteres ASCII estándar, por lo que es más fácil escribir la transcripción fonética con un teclado normal. Puede usar IPA o X-Sampa para generar sus transcripciones, pero asegúrese de mantener la coherencia con su elección, especialmente cuando use un archivo de léxico que trataremos en la siguiente sección.

Cada fonema de la tabla de fonemas representa un sonido del habla. Las letras en negrita en el "Ejemplo" La columna de la tabla Fonema/Visema en la página de inglés australiano vinculada anteriormente representa la parte de la palabra a la que corresponde el "Fonema". Por ejemplo, el fonema /j/ representa el sonido que hace un hablante de inglés australiano al pronunciar la letra "y" en "yes".

Personaliza la pronunciación usando léxicos

Las etiquetas de fonemas son adecuadas para situaciones puntuales para personalizar casos aislados, pero no son escalables. Si procesa un gran volumen de texto, gestionado por diferentes editores y revisores, le recomendamos que utilice léxicos. Usando léxicos, puede lograr coherencia al agregar pronunciaciones personalizadas y, al mismo tiempo, reducir el esfuerzo manual de insertar etiquetas de fonemas en el guión.

Una buena práctica es que después de probar la pronunciación personalizada en la consola de Amazon Polly mediante el etiqueta, crea una biblioteca de pronunciaciones personalizadas usando léxicos. Una vez que se cargue el archivo de léxicos, Amazon Polly aplicará automáticamente las pronunciaciones fonéticas especificadas en el archivo de léxicos y eliminará la necesidad de proporcionar manualmente un etiqueta.

Crear un archivo de léxico

Un archivo de léxico contiene el mapeo entre palabras y sus pronunciaciones fonéticas. Especificación de léxico de pronunciación (PLS) es una recomendación del W3C para especificar información de pronunciación interoperable. El siguiente es un ejemplo de documento PLS:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

Asegúrese de utilizar el valor correcto para el xml:lang campo. Usar en-AU si está cargando el archivo de léxico para usarlo con la voz en inglés australiano de Amazon Polly. Para obtener una lista completa de los idiomas admitidos, consulte Idiomas admitidos por Amazon Polly.

Para especificar una pronunciación personalizada, debe agregar un elemento que es un contenedor para una entrada léxica con uno o más <grapheme> elemento y una o más información de pronunciación proporcionada dentro <phoneme> .

La <grapheme> El elemento contiene el texto que describe el ortografía de la elemento. Puedes usar un <grapheme> elemento para especificar la palabra cuya pronunciación desea personalizar. Puede agregar múltiples <grapheme> elementos para especificar todas las variaciones de palabras, por ejemplo, con o sin macros. Él <grapheme> El elemento distingue entre mayúsculas y minúsculas y, durante la síntesis de voz, la cadena de Amazon Polly coincide con las palabras dentro de su secuencia de comandos que está convirtiendo a voz. Si se encuentra una coincidencia, utiliza el elemento, que describe cómo el se pronuncia para generar transcripción fonética.

También puedes usar <alias> para abreviaturas de uso común. En el ejemplo anterior de un archivo de léxico, NZ se utiliza como alias para Nueva Zelanda. Esto significa que siempre que Amazon Polly encuentre "NZ" (con mayúsculas y minúsculas) en el cuerpo del texto, leerá esas dos letras como "Nueva Zelanda".

Para obtener más información sobre el formato de archivo de léxico, consulte Pronunciation Lexicon Specification (PLS) Versión 1.0 en el sitio web del W3C.

Puede guardar un archivo de léxico como un archivo .pls o .xml antes de cargarlo en Amazon Polly.

Sube y aplica el archivo de léxico

Cargue su archivo de léxico en Amazon Polly siguiendo las siguientes instrucciones:

  1. En la consola de Amazon Polly, elija Léxicos en el panel de navegación.
  2. Elige Subir léxico.
  3. Ingrese un nombre para el léxico y luego elija un archivo de léxico.
  4. Elija el archivo para cargar.
  5. Elige Subir léxico.

Si ya existe un léxico con el mismo nombre (ya sea un archivo .pls o .xml), cargar el léxico sobrescribe el léxico existente.

Ahora puede aplicar el léxico para personalizar la pronunciación.

  1. Elige Texto a voz en el panel de navegación.
  2. Expandir Ajustes adicionales.
  3. "Permitir" Personalizar pronunciación.
  4. Elija el léxico en el menú desplegable.

También puedes elegir Subir léxico para cargar un nuevo archivo de léxico (o una nueva versión).

Es una buena práctica controlar la versión del archivo de léxico en un repositorio de código fuente. Mantener las pronunciaciones personalizadas en un archivo de léxico garantiza que pueda hacer referencia de manera constante a las pronunciaciones fonéticas de ciertas palabras en toda la organización. Además, tenga en cuenta los límites del léxico de pronunciación mencionados en Cuotas en Amazon Polly .

Prueba la pronunciación después de aplicar el léxico

Realicemos una prueba rápida usando "Deseando a todos mis oyentes en NZ, un Mātariki muy feliz" como texto de entrada.

Podemos comparar los archivos de audio antes y después de aplicar el léxico.

Antes de aplicar el léxico:

Después de aplicar el léxico:

Conclusión

En esta publicación, discutimos cómo puede personalizar las pronunciaciones de acrónimos o palabras de uso común que no se encuentran en el idioma seleccionado en Amazon Polly. Puedes usar Etiqueta SSML que es excelente para insertar personalizaciones únicas o fines de prueba. Recomendamos usar Lexicon para crear un conjunto consistente de pronunciaciones para palabras de uso frecuente en toda su organización. Esto permite que los escritores de contenido dediquen tiempo a escribir en lugar de la tediosa tarea de agregar pronunciaciones fonéticas en el guión de manera repetitiva. Puede probar esto en su cuenta de AWS en la consola de Amazon Polly.

Resumen de recursos


Acerca de los autores

ratán kumar es un arquitecto de soluciones con sede en Auckland, Nueva Zelanda. Trabaja con clientes de grandes empresas ayudándolos a diseñar y crear aplicaciones a escala de Internet seguras, rentables y confiables utilizando la nube de AWS. Le apasiona la tecnología y le gusta compartir conocimientos a través de publicaciones de blog y sesiones de twitch.

Maciek Tegui es diseñador principal de audio y gerente de producto de Polly Brand Voices. Ha trabajado en capacidad profesional en la industria de la tecnología, películas, comerciales y localización de juegos. En 2013, fue el primer ingeniero de audio contratado para el equipo de texto a voz de Alexa. Maciek participó en el lanzamiento de 12 voces de Alexa TTS en diferentes países, más de 20 voces de Polly y 4 voces de celebridades de Alexa. Maciek es triatleta y un ávido guitarrista acústico.

punto_img

Información más reciente

punto_img