Platon Data Intelligence.
Vertikal søgning & Ai.

Tilpas udtalen ved hjælp af leksikoner i Amazon Polly

Dato:

Amazon Polly er en tekst til tale tjeneste, der bruger avancerede deep learning-teknologier til at syntetisere naturligt klingende menneskelig tale. Det bruges i en række forskellige anvendelsessager, såsom kontaktcentersystemer, der leverer samtalebrugeroplevelser med menneskelignende stemmer til automatisk statuskontrol i realtid, automatiserede konto- og faktureringsforespørgsler og af nyhedsbureauer som The Washington Post for at give læserne mulighed for at lytte til nyhedsartikler.

Fra i dag leverer Amazon Polly over 60 stemmer i 30+ sprogvarianter. Amazon Polly bruger også kontekst til at udtale visse ord forskelligt baseret på verbets tid og anden kontekstuel information. For eksempel udtales "læs" i "Jeg læser en bog" (nutid) og "Jeg vil læse en bog" (fremtidigt) forskelligt.

Men i nogle situationer vil du måske tilpasse den måde, Amazon Polly udtaler et ord på. Det kan for eksempel være nødvendigt at matche udtalen med lokal dialekt eller sprog. Navne på ting (f.eks. Tomat kan udtales som tom-ah-to or tom-ay-to), mennesker, gader eller steder udtales ofte på mange forskellige måder.

I dette indlæg demonstrerer vi, hvordan du kan udnytte leksikon til at oprette tilpassede udtaler. Du kan anvende leksikon til brugstilfælde såsom udgivelse, uddannelse eller callcentre.

Tilpas udtalen ved hjælp af SSML-tag

Lad os sige, at du streamer en populær podcast fra Australien, og du bruger Amazon Polly Australian English (Olivia) stemme til at konvertere dit manuskript til menneskelignende tale. I et af dine scripts vil du bruge ord, der er ukendte for Amazon Polly Voice. For eksempel vil du sende Mātariki (Māori nytår) hilsener til dine newzealandske lyttere. Til sådanne scenarier understøtter Amazon Polly fonetisk udtale, som du kan bruge til at opnå en udtale, der er tæt på den korrekte udtale på fremmedsproget.

Du kan bruge Opmærkningssprog for talesyntese (SSML) tag for at foreslå en fonetisk udtale i ph-attributten. Lad mig vise dig, hvordan du kan bruge SSML tag.

Først skal du logge ind på din AWS konsol og søg efter Amazon Polly i søgefeltet øverst. Vælg Amazon Polly, og vælg derefter Prøv Polly-knappen.

I Amazon Polly-konsollen skal du vælge australsk engelsk fra sprogrullemenuen og indtaste følgende tekst i tekstfeltet Input og derefter klikke på Lyt for at teste udtalen.

Jeg ønsker jer alle en rigtig glad Mātariki.

Eksempel på tale uden anvendelse af fonetisk udtale:

Hvis du hører eksempeltalen ovenfor, kan du bemærke, at udtalen af Mātariki – et ord, der ikke er en del af australsk engelsk – er ikke helt spot-on. Lad os nu se på, hvordan vi i sådanne scenarier kan bruge fonetisk udtale vha SSML-tag for at tilpasse talen produceret af Amazon Polly.

For at bruge SSML-tags skal du slå SSML-indstillingen TIL i Amazon Polly-konsollen. Kopier og indsæt derefter følgende SSML-script, der indeholder fonetisk udtale for Mātariki angivet i ph-attributten for tag.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

Med tag, Amazon Polly bruger den udtale, der er angivet af ph-attributten i stedet for den standardudtale, der som standard er forbundet med det sprog, der bruges af den valgte stemme.

Eksempel på tale efter anvendelse af fonetisk udtale:

Hvis du hører prøvelyden, vil du bemærke, at vi har valgt en anden udtale for nogle af vokalerne (f.eks. ā) for at få Amazon Polly til at syntetisere de lyde, der er tættere på den korrekte udtale. Nu har du måske et spørgsmål, hvordan genererer jeg den fonetiske transskription "mA:.tA:.ri.ki" for ordet Mātariki?

Du kan oprette fonetiske transskriptioner ved at henvise til Foneme- og Viseme-tabeller for de understøttede sprog. I eksemplet ovenfor har vi brugt fonemer til australsk engelsk.

Amazon Polly tilbyder support i to fonetiske alfabeter: IPA og X-Sampa. Fordelen ved X-Sampa er, at de er standard ASCII-tegn, så det er nemmere at skrive den fonetiske transskription med et normalt tastatur. Du kan bruge enten IPA eller X-Sampa til at generere dine transskriptioner, men sørg for at forblive i overensstemmelse med dit valg, især når du bruger en leksikonfil, som vi vil dække i næste afsnit.

Hvert fonem i fonemtabellen repræsenterer en talelyd. De fede bogstaver i "Eksempel" kolonnen i Phoneme/Viseme-tabellen på den australske engelske side, der er linket til ovenfor, repræsenterer den del af ordet "Phoneme" svarer til. For eksempel repræsenterer fonemet /j/ den lyd, som en australsk engelsktalende laver, når han udtaler bogstavet "y" i "yes".

Tilpas udtalen ved hjælp af leksikon

Fonem-tags er velegnede til enkeltstående situationer for at tilpasse isolerede tilfælde, men disse er ikke skalerbare. Hvis du behandler store mængder tekst, administreret af forskellige redaktører og korrekturlæsere, anbefaler vi at bruge leksikon. Ved at bruge leksikoner kan du opnå ensartethed i at tilføje tilpassede udtaler og samtidig reducere den manuelle indsats for at indsætte fonemtags i scriptet.

En god praksis er, at efter at du har testet den tilpassede udtale på Amazon Polly-konsollen ved hjælp af tag, opretter du et bibliotek med tilpassede udtaler vha leksikon. Når leksikonfilen er uploadet, vil Amazon Polly automatisk anvende fonetiske udtaler specificeret i leksikonfilen og eliminere behovet for manuelt at angive en tag.

Opret en leksikonfil

En leksikonfil indeholder kortlægningen mellem ord og deres fonetiske udtale. Udtaleleksikonspecifikation (PLS) er en W3C-anbefaling til specificering af interoperable udtaleoplysninger. Følgende er et eksempel på PLS-dokument:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

Sørg for, at du bruger den korrekte værdi for xml:lang Mark. Brug en-AU hvis du uploader leksikonfilen til brug med Amazon Polly australske engelske stemme. Se en komplet liste over understøttede sprog Sprog understøttet af Amazon Polly.

For at angive en brugerdefineret udtale skal du tilføje en element, som er en beholder for en leksikalsk indgang med en eller flere <grapheme> element og en eller flere udtaleoplysninger angivet indeni <phoneme> element.

<grapheme> elementet indeholder teksten, der beskriver ortografi af element. Du kan bruge en <grapheme> element for at angive det ord, hvis udtale du vil tilpasse. Du kan tilføje flere <grapheme> elementer til at specificere alle ordvariationer, for eksempel med eller uden makroner. Det <grapheme> elementet skelner mellem store og små bogstaver, og under talesyntese matcher Amazon Polly-strengen ordene i dit script, som du konverterer til tale. Hvis der findes et match, bruger den element, som beskriver, hvordan udtales for at generere fonetisk transskription.

Du kan også bruge <alias> for almindeligt anvendte forkortelser. I det foregående eksempel på en leksikonfil, NZ bruges som alias for New Zealand. Det betyder, at når Amazon Polly støder på "NZ" (med matchende store og små bogstaver) i tekstens brødtekst, vil den læse de to bogstaver som "New Zealand".

For mere information om leksikon filformat, se Pronunciation Lexicon Specification (PLS) Version 1.0 på W3C's hjemmeside.

Du kan gemme en leksikonfil med som en .pls- eller .xml-fil, før du uploader den til Amazon Polly.

Upload og anvend leksikonfilen

Upload din leksikonfil til Amazon Polly ved at bruge følgende instruktioner:

  1. På Amazon Polly-konsollen skal du vælge Leksikoner i navigationsruden.
  2. Vælg Upload leksikon.
  3. Indtast et navn til leksikonet, og vælg derefter en leksikonfil.
  4. Vælg den fil, der skal uploades.
  5. Vælg Upload leksikon.

Hvis et leksikon med samme navn (uanset om det er en .pls- eller .xml-fil) allerede eksisterer, overskriver upload af leksikon det eksisterende leksikon.

Nu kan du anvende leksikonet til at tilpasse udtalen.

  1. Vælg Tekst-til-tale i navigationsruden.
  2. Udvid Yderligere indstillinger.
  3. Tænd Tilpas udtale.
  4. Vælg leksikonet i rullemenuen.

Du kan også vælge Upload leksikon for at uploade en ny leksikonfil (eller en ny version).

Det er en god praksis at versionskontrollere leksikonfilen i et kildekodelager. Ved at opbevare de tilpassede udtaler i en leksikonfil sikrer du, at du konsekvent kan henvise til fonetiske udtaler for bestemte ord på tværs af organisationen. Husk også de udtaleleksikongrænser, der er nævnt på Kvoter i Amazon Polly .

Test udtalen efter anvendelse af leksikonet

Lad os udføre en hurtig test ved at bruge "Wishing all my listeners in NZ, a very Happy Mātariki" som inputtekst.

Vi kan sammenligne lydfilerne før og efter anvendelse af leksikonet.

Før du anvender leksikonet:

Efter anvendelse af leksikonet:

Konklusion

I dette indlæg diskuterede vi, hvordan du kan tilpasse udtalen af ​​almindeligt anvendte akronymer eller ord, der ikke findes på det valgte sprog i Amazon Polly. Du kan bruge SSML tag, som er fantastisk til at indsætte engangstilpasninger eller testformål. Vi anbefaler at bruge Lexicon til at skabe et ensartet sæt udtaler for ofte brugte ord på tværs af din organisation. Dette gør det muligt for dine indholdsforfattere at bruge tid på at skrive i stedet for den kedelige opgave at tilføje fonetiske udtaler i scriptet gentagne gange. Du kan prøve dette på din AWS-konto på Amazon Polly-konsollen.

Sammenfatning af ressourcer


Om forfatterne

Ratan Kumar er en løsningsarkitekt baseret i Auckland, New Zealand. Han arbejder med store virksomhedskunder og hjælper dem med at designe og bygge sikre, omkostningseffektive og pålidelige internet-skalaapplikationer ved hjælp af AWS-skyen. Han brænder for teknologi og kan lide at dele viden gennem blogindlæg og twitch-sessioner.

Maciek Tegi er hovedlyddesigner og produktchef for Polly Brand Voices. Han har arbejdet professionelt inden for teknologiindustrien, film, reklamer og spillokalisering. I 2013 var han den første lydtekniker, der blev hyret til Alexa Text-To- Speech-teamet. Maciek var involveret i at udgive 12 Alexa TTS-stemmer på tværs af forskellige lande, over 20 Polly-stemmer og 4 Alexa-kendisstemmer. Maciek er en triatlet og en ivrig akustisk guitarspiller.

spot_img

Seneste efterretninger

spot_img