Platon Data Intelligence.
Vertikalt søk og Ai.

Tilpass uttalen ved å bruke leksikon i Amazon Polly

Dato:

Amazon Polly er en tekst til tale tjeneste som bruker avanserte dyplæringsteknologier for å syntetisere naturlig klingende menneskelig tale. Den brukes i en rekke bruksområder, for eksempel kontaktsentersystemer, og leverer samtalebrukeropplevelser med menneskelignende stemmer for automatisert sanntidsstatussjekk, automatiserte konto- og faktureringsforespørsler, og av nyhetsbyråer som The Washington Post slik at leserne kan lytte til nyhetsartikler.

Per i dag tilbyr Amazon Polly over 60 stemmer i 30+ språkvarianter. Amazon Polly bruker også kontekst for å uttale visse ord annerledes basert på verbets tid og annen kontekstuell informasjon. For eksempel, "les" i "Jeg leser en bok" (nåtid) og "Jeg vil lese en bok" (fremtidig tid) uttales annerledes.

Men i noen situasjoner vil du kanskje tilpasse måten Amazon Polly uttaler et ord på. Det kan for eksempel hende du må matche uttalen med lokal dialekt eller folkespråk. Navn på ting (f.eks. Tomat kan uttales som tom-ah-to or tom-ay-to), mennesker, gater eller steder uttales ofte på mange forskjellige måter.

I dette innlegget viser vi hvordan du kan utnytte leksikon for å lage tilpassede uttaler. Du kan bruke leksikon for brukstilfeller som publisering, utdanning eller kundesenter.

Tilpass uttale ved hjelp av SSML-tag

La oss si at du streamer en populær podcast fra Australia og at du bruker Amazon Polly Australian English (Olivia)-stemmen til å konvertere manuset ditt til menneskelignende tale. I et av skriptene dine vil du bruke ord som er ukjent for Amazon Polly Voice. Du vil for eksempel sende Mātariki (Māori nyttår) hilsener til dine New Zealand-lyttere. For slike scenarier støtter Amazon Polly fonetisk uttale, som du kan bruke for å oppnå en uttale som er nær korrekt uttale på fremmedspråket.

Du kan bruke Speech Synthesis Markup Language (SSML) tag for å foreslå en fonetisk uttale i ph-attributtet. La meg vise deg hvordan du kan bruke SSML-tag.

Først, logg inn på din AWS-konsoll og søk etter Amazon Polly i søkefeltet øverst. Velg Amazon Polly og velg deretter Prøv Polly-knappen.

I Amazon Polly-konsollen, velg australsk engelsk fra rullegardinmenyen for språk og skriv inn følgende tekst i Input-tekstboksen og klikk deretter på Lytt for å teste uttalen.

Jeg ønsker dere alle en veldig lykkelig Mātariki.

Eksempel på tale uten å bruke fonetisk uttale:

Hvis du hører eksempeltalen ovenfor, kan du legge merke til at uttalen av Mātariki – et ord som ikke er en del av australsk engelsk – er ikke helt spot-on. La oss nå se på hvordan vi i slike scenarier kan bruke fonetisk uttale ved å bruke SSML-tag for å tilpasse talen produsert av Amazon Polly.

For å bruke SSML-tagger, slå PÅ SSML-alternativet i Amazon Polly-konsollen. Kopier og lim deretter inn følgende SSML-skript som inneholder fonetisk uttale for Mātariki spesifisert i ph-attributtet til stikkord.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

Med stikkord, bruker Amazon Polly uttalen spesifisert av ph-attributtet i stedet for standarduttalen assosiert som standard med språket som brukes av den valgte stemmen.

Eksempel på tale etter bruk av fonetisk uttale:

Hvis du hører prøvelyden, vil du legge merke til at vi valgte en annen uttale for noen av vokalene (f.eks. ā) for å få Amazon Polly til å syntetisere lydene som er nærmere den korrekte uttalen. Nå har du kanskje et spørsmål, hvordan genererer jeg den fonetiske transkripsjonen "mA:.tA:.ri.ki" for ordet Mātariki?

Du kan lage fonetiske transkripsjoner ved å referere til Foneme- og Viseme-tabeller for de støttede språkene. I eksemplet ovenfor har vi brukt fonemer for australsk engelsk.

Amazon Polly tilbyr støtte i to fonetiske alfabeter: IPA og X-Sampa. Fordelen med X-Sampa er at de er standard ASCII-tegn, så det er lettere å skrive den fonetiske transkripsjonen med et vanlig tastatur. Du kan bruke enten IPA eller X-Sampa for å generere transkripsjonene dine, men sørg for å være konsistent med valget ditt, spesielt når du bruker en leksikonfil som vi skal dekke i neste avsnitt.

Hvert fonem i fonemtabellen representerer en talelyd. De uthevede bokstavene i "Eksempel" kolonnen i Phoneme/Viseme-tabellen på den australske engelske siden lenket ovenfor representerer den delen av ordet "Phoneme" tilsvarer. For eksempel representerer fonemet /j/ lyden som en australsk engelsktalende lager når han uttaler bokstaven "y" i "ja".

Tilpass uttalen ved hjelp av leksikon

Fonemen-tagger er egnet for engangssituasjoner for å tilpasse isolerte tilfeller, men disse er ikke skalerbare. Hvis du behandler store mengder tekst, administrert av forskjellige redaktører og anmeldere, anbefaler vi å bruke leksikon. Ved å bruke leksikon kan du oppnå konsistens i å legge til egendefinerte uttaler og samtidig redusere manuell innsats for å sette inn fonemkoder i skriptet.

En god praksis er at etter at du har testet den tilpassede uttalen på Amazon Polly-konsollen ved å bruke tag, oppretter du et bibliotek med tilpassede uttaler ved å bruke leksikon. Når leksikonfilen er lastet opp, vil Amazon Polly automatisk bruke fonetiske uttaler spesifisert i leksikonfilen og eliminere behovet for manuelt å gi en stikkord.

Lag en leksikonfil

En leksikonfil inneholder kartleggingen mellom ord og deres fonetiske uttale. Pronunciation Lexicon Specification (PLS) er en W3C-anbefaling for å spesifisere interoperabel uttaleinformasjon. Følgende er et eksempel på PLS-dokument:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

Pass på at du bruker riktig verdi for xml:lang felt. Bruk en-AU hvis du laster opp leksikonfilen for å bruke den med Amazon Polly australske engelske stemme. For en fullstendig liste over støttede språk, se Språk som støttes av Amazon Polly.

For å spesifisere en egendefinert uttale, må du legge til en element som er en beholder for en leksikalsk oppføring med en eller flere <grapheme> element og én eller flere uttaleinformasjon gitt inne <phoneme> element.

De <grapheme> elementet inneholder teksten som beskriver ortografi av element. Du kan bruke en <grapheme> element for å spesifisere ordet hvis uttale du vil tilpasse. Du kan legge til flere <grapheme> elementer for å spesifisere alle ordvariasjoner, for eksempel med eller uten makroner. De <grapheme> elementet skiller mellom store og små bokstaver, og under talesyntese samsvarer Amazon Polly-strengen med ordene i skriptet ditt som du konverterer til tale. Hvis en match blir funnet, bruker den element, som beskriver hvordan uttales for å generere fonetisk transkripsjon.

Du kan også bruke <alias> for vanlig brukte forkortelser. I det foregående eksempelet på en leksikonfil, NZ brukes som et alias for New Zealand. Dette betyr at når Amazon Polly kommer over "NZ" (med samsvarende store og små bokstaver) i brødteksten, vil den lese de to bokstavene som "New Zealand".

For mer informasjon om leksikonfilformat, se Pronunciation Lexicon Specification (PLS) versjon 1.0 på W3C-nettstedet.

Du kan lagre en leksikonfil med som en .pls- eller .xml-fil før du laster den opp til Amazon Polly.

Last opp og bruk leksikonfilen

Last opp leksikonfilen din til Amazon Polly ved å bruke følgende instruksjoner:

  1. På Amazon Polly-konsollen velger du Leksikoner i navigasjonsruten.
  2. Velg Last opp leksikon.
  3. Skriv inn et navn for leksikonet og velg en leksikonfil.
  4. Velg filen du vil laste opp.
  5. Velg Last opp leksikon.

Hvis et leksikon med samme navn (enten det er en .pls- eller .xml-fil) allerede eksisterer, vil opplasting av leksikonet overskrive det eksisterende leksikonet.

Nå kan du bruke leksikonet for å tilpasse uttalen.

  1. Velg Tekst-til-tale i navigasjonsruten.
  2. Expand Tilleggsinnstillinger.
  3. Slå på Tilpass uttalen.
  4. Velg leksikon på rullegardinmenyen.

Du kan også velge Last opp leksikon for å laste opp en ny leksikonfil (eller en ny versjon).

Det er en god praksis å versjonskontrollere leksikonfilen i et kildekodelager. Ved å beholde de egendefinerte uttalene i en leksikonfil sikrer du at du konsekvent kan referere til fonetiske uttaler for bestemte ord på tvers av organisasjonen. Husk også uttaleleksikonets grenser nevnt på Kvoter i Amazon Polly side.

Test uttalen etter å ha brukt leksikonet

La oss utføre en rask test ved å bruke "Wishing all my listeners in NZ, a very Happy Mātariki" som inndatatekst.

Vi kan sammenligne lydfilene før og etter bruk av leksikonet.

Før du bruker leksikonet:

Etter å ha brukt leksikonet:

konklusjonen

I dette innlegget diskuterte vi hvordan du kan tilpasse uttalen av ofte brukte akronymer eller ord som ikke finnes på det valgte språket i Amazon Polly. Du kan bruke SSML-tag som er flott for å sette inn engangstilpasninger eller testformål. Vi anbefaler å bruke Lexicon for å lage et konsistent sett med uttaler for ofte brukte ord på tvers av organisasjonen. Dette gjør at innholdsforfatterne dine kan bruke tid på å skrive i stedet for den kjedelige oppgaven med å legge til fonetiske uttaler i manuset gjentatte ganger. Du kan prøve dette i AWS-kontoen din på Amazon Polly-konsollen.

Oppsummering av ressurser


Om forfatterne

Ratan Kumar er en løsningsarkitekt basert i Auckland, New Zealand. Han jobber med store bedriftskunder og hjelper dem med å designe og bygge sikre, kostnadseffektive og pålitelige applikasjoner på internett ved å bruke AWS-skyen. Han brenner for teknologi og liker å dele kunnskap gjennom blogginnlegg og twitch-økter.

Maciek Tegi er hovedlyddesigner og produktsjef for Polly Brand Voices. Han har jobbet i profesjonell kapasitet innen teknologibransjen, filmer, reklamefilmer og spilllokalisering. I 2013 var han den første lydteknikeren som ble ansatt i Alexa Text-To- Speech-teamet. Maciek var involvert i å gi ut 12 Alexa TTS-stemmer på tvers av forskjellige land, over 20 Polly-stemmer og 4 Alexa-kjendisstemmer. Maciek er en triatlet og en ivrig akustisk gitarspiller.

spot_img

Siste etterretning

spot_img

Chat med oss

Hei der! Hvordan kan jeg hjelpe deg?