Platon Data Intelligence.
Pystyhaku ja Ai.

Mukauta ääntämistä Amazon Pollyn sanastojen avulla

Treffi:

Amazon Polly on teksti puheeksi palvelu, joka käyttää kehittyneitä syväoppimistekniikoita syntetisoimaan luonnolliselta kuulosta ihmispuhetta. Sitä käytetään useissa eri käyttötapauksissa, kuten yhteyskeskusjärjestelmissä, jotka tarjoavat keskustelullisia käyttäjäkokemuksia ihmisen kaltaisilla äänillä automaattista reaaliaikaista tilantarkistusta varten, automaattisissa tili- ja laskutuskyselyissä sekä uutistoimistoissa, kuten The Washington Post. jotta lukijat voivat kuunnella uutisartikkeleita.

Tästä päivästä lähtien Amazon Polly tarjoaa yli 60 ääntä yli 30 kieliversiossa. Amazon Polly käyttää myös kontekstia ääntääkseen tiettyjä sanoja eri tavalla verbiajan ja muun kontekstuaalisen tiedon perusteella. Esimerkiksi "lue" sanoissa "Luen kirjan" (nykyinen aika) ja "Luen kirjan" (tulevaisuus) lausutaan eri tavalla.

Joissakin tilanteissa saatat kuitenkin haluta mukauttaa tapaa, jolla Amazon Polly lausuu sanan. Sinun on esimerkiksi ehkä sovitettava ääntäminen paikalliseen murteeseen tai kansankieleen. Asioiden nimet (esim. Tomaatti voidaan lausua nimellä tom-ah-to or tom-ay-to), ihmiset, kadut tai paikat lausutaan usein monilla eri tavoilla.

Tässä viestissä näytämme, kuinka voit hyödyntää sanastoja luodessasi mukautettuja ääntämisiä. Voit käyttää sanastoja käyttötapauksiin, kuten julkaisuun, koulutukseen tai puhelinkeskusteluihin.

Muokkaa ääntämistä SSML-tunnisteen avulla

Oletetaan, että suoratoistat suosittua podcastia Australiasta ja käytät Amazon Polly Australian English (Olivia) -ääntä kääntääksesi käsikirjoituksesi ihmisen kaltaiseksi puheeksi. Yhdessä skriptissäsi haluat käyttää sanoja, joita Amazon Polly voice ei tunne. Esimerkiksi haluat lähettää Mātariki (Māori New Year) -terveisiä Uuden-Seelannin kuuntelijoillesi. Tällaisissa tilanteissa Amazon Polly tukee foneettista ääntämistä, jonka avulla voit saavuttaa ääntämisen, joka on lähellä vieraan kielen oikeaa ääntämistä.

Voit käyttää Puhesynteesin merkintäkieli (SSML) -tunniste ehdottaaksesi foneettista ääntämistä ph-attribuutissa. Anna minun näyttää sinulle, kuinka voit käyttää SSML-tunniste.

Kirjaudu ensin sisään AWS konsoli ja etsi Amazon Polly yläreunan hakupalkista. Valitse Amazon Polly ja valitse sitten Kokeile Polly -painiketta.

Valitse Amazon Polly -konsolin kielipudotusvalikosta Australian englanti ja kirjoita seuraava teksti Syötä teksti -ruutuun ja napsauta sitten Kuuntele testataksesi ääntämistä.

Toivotan teille kaikille oikein hyvää Matarikia.

Esimerkki puheesta ilman foneettista ääntämistä:

Jos kuulet yllä olevan esimerkkipuheen, voit huomata, että ääntäminen Matariki – sana, joka ei ole osa australian englantia – ei ole aivan paikallaan. Katsotaanpa nyt, kuinka tällaisissa skenaarioissa voimme käyttää foneettista ääntämistä käyttämällä SSML-tunniste mukauttaaksesi Amazon Pollyn tuottamaa puhetta.

Jos haluat käyttää SSML-tageja, ota SSML-vaihtoehto käyttöön Amazon Polly -konsolissa. Kopioi ja liitä sitten seuraava SSML-skripti, joka sisältää foneettisen ääntämisen for Matariki määritetty ph-attribuutin sisällä tag.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

Kanssa tag, Amazon Polly käyttää ph-attribuutin määrittämää ääntämistä vakioääntämisen sijaan, joka on oletusarvoisesti liitetty valitun äänen käyttämään kieleen.

Esimerkki puheesta foneettisen ääntämisen jälkeen:

Jos kuulet näyteäänen, huomaat, että olemme valinneet eri ääntämisen joillekin vokaaleille (esim. ā), jotta Amazon Polly syntetisoi äänet, jotka ovat lähempänä oikeaa ääntämistä. Nyt sinulla saattaa olla kysymys, kuinka luon foneettisen transkription "mA:.tA:.ri.ki” sanaan Matariki?

Voit luoda foneettisia transkriptioita viittaamalla Foneemi- ja Viseme-taulukot tuetuille kielille. Yllä olevassa esimerkissä olemme käyttäneet Australian englannin foneemit.

Amazon Polly tarjoaa tukea kahdessa foneettisessa aakkosessa: IPA ja X-Sampa. X-Sampan etuna on, että ne ovat tavallisia ASCII-merkkejä, joten foneettisen transkription kirjoittaminen on helpompaa tavallisella näppäimistöllä. Voit käyttää joko IPA:ta tai X-Sampaa transkriptioiden luomiseen, mutta varmista, että pysyt valinnassasi johdonmukaisena, varsinkin kun käytät sanastotiedostoa, jota käsittelemme seuraavassa osiossa.

Jokainen foneemi taulukossa edustaa puheääntä. Lihavoidut kirjaimet "Esimerkki" Yllä linkitetyn Australian englanninkielisen sivun Phoneme/Viseme-taulukon sarake edustaa sanan osaa, jota "Phoneme" vastaa. Esimerkiksi foneemi /j/ edustaa ääntä, jonka australialaisen englannin puhuja lausuu y-kirjaimen lausuttaessa "kyllä".

Muokkaa ääntämistä sanastojen avulla

Foneemitunnisteet sopivat yksittäisiin tilanteisiin yksittäisten tapausten mukauttamiseen, mutta ne eivät ole skaalattavissa. Jos käsittelet valtavaa määrää tekstiä, jota hallinnoivat eri toimittajat ja arvioijat, suosittelemme sanastojen käyttöä. Sanastoja käyttämällä voit lisätä mukautettuja ääntämyksiä yhdenmukaisesti ja samalla vähentää manuaalista foneemitunnisteiden lisäämistä skriptiin.

Hyvä käytäntö on, että kun olet testannut mukautetun ääntämisen Amazon Polly -konsolissa käyttämällä -tunnisteen avulla voit luoda mukautettujen ääntämiskirjaston sanastot. Kun sanastotiedosto on ladattu, Amazon Polly käyttää automaattisesti sanastotiedostossa määritettyjä foneettisia ääntämisiä ja poistaa tarpeen antaa manuaalisesti tag.

Luo sanastotiedosto

Sanastotiedosto sisältää sanojen ja niiden foneettisen ääntämisen yhdistämisen. Pronunciation Lexicon Specification (PLS) on W3C:n suositus yhteentoimivien ääntämistietojen määrittämiseksi. Seuraava on esimerkki PLS-asiakirjasta:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

Varmista, että käytät oikeaa arvoa xml:lang ala. Käyttää en-AU jos lataat sanastotiedoston käytettäväksi Amazon Polly Australian English -äänen kanssa. Täydellinen luettelo tuetuista kielistä on kohdassa Amazon Pollyn tukemat kielet.

Jos haluat määrittää mukautetun ääntämisen, sinun on lisättävä a elementti, joka on säiliö yhden tai useamman sanamerkinnälle <grapheme> elementti ja yksi tai useampi ääntämistieto <phoneme> elementti.

- <grapheme> elementti sisältää tekstiä kuvaavan tekstin ortografia että elementti. Voit käyttää a <grapheme> -elementti määrittääksesi sanan, jonka ääntämistä haluat muokata. Voit lisätä useita <grapheme> elementit määrittääksesi kaikki sanamuunnelmat, esimerkiksi makrojen kanssa tai ilman. The <grapheme> -elementissä kirjainkoolla on merkitystä, ja puhesynteesin aikana Amazon Polly -merkkijono vastaa skriptisi sisällä olevia sanoja, jotka muunnat puheeksi. Jos osuma löytyy, se käyttää elementti, joka kuvaa kuinka lausutaan tuottavan foneettisen transkription.

Voit myös käyttää <alias> yleisesti käytetyille lyhenteille. Edellisessä sanastotiedoston esimerkissä NZ käytetään aliaksena Uusi Seelanti. Tämä tarkoittaa, että aina kun Amazon Polly löytää tekstin "NZ" (sopiva kirjainkoko) tekstissä, se lukee nämä kaksi kirjainta "Uusi-Seelanti".

Lisätietoja leksikon tiedostomuodosta, katso Pronunciation Lexicon Specification (PLS) -versio 1.0 W3C:n verkkosivuilla.

Voit tallentaa sanastotiedoston .pls- tai .xml-tiedostona ennen kuin lataat sen Amazon Pollyyn.

Lataa ja käytä sanastotiedostoa

Lataa sanastotiedostosi Amazon Pollyyn seuraavien ohjeiden mukaan:

  1. Valitse Amazon Polly -konsolissa Lexicons navigointipaneelissa.
  2. Valita Lataa sanakirja.
  3. Anna sanaston nimi ja valitse sitten sanastotiedosto.
  4. Valitse ladattava tiedosto.
  5. Valita Lataa sanakirja.

Jos samanniminen sanasto (joko .pls- tai .xml-tiedosto) on jo olemassa, sanaston lataaminen korvaa olemassa olevan sanaston.

Nyt voit käyttää sanastoa mukauttaaksesi ääntämistä.

  1. Valita Teksti puheeksi navigointipaneelissa.
  2. Laajentaa Lisäasetukset.
  3. Turn on Muokkaa ääntämistä.
  4. Valitse sanasto avattavasta valikosta.

Voit myös valita Lataa sanakirja ladataksesi uuden sanastotiedoston (tai uuden version).

On hyvä käytäntö hallita sanastotiedoston versiota lähdekoodiarkistossa. Mukautetun ääntämisen säilyttäminen sanastotiedostossa varmistaa, että voit johdonmukaisesti viitata tiettyjen sanojen foneettisiin ääntämismuotoihin kaikkialla organisaatiossa. Muista myös mainitut ääntämissanaston rajoitukset Kiintiöt Amazon Pollyssa sivu.

Testaa ääntämistä sanaston käytön jälkeen

Suoritetaan pikatesti käyttämällä syöttötekstinä "Wishing all my listeners in NZ, a very Happy Matariki".

Voimme verrata äänitiedostoja ennen ja jälkeen sanaston soveltamisen.

Ennen sanaston soveltamista:

Sanaston soveltamisen jälkeen:

Yhteenveto

Tässä viestissä keskustelimme siitä, kuinka voit mukauttaa yleisesti käytettyjen lyhenteiden tai sanojen ääntämistä, joita ei löydy valitusta kielestä Amazon Pollyssa. Voit käyttää SSML-tunniste, joka sopii erinomaisesti kertaluonteisten mukautusten lisäämiseen tai testaustarkoituksiin. Suosittelemme, että käytät Lexiconia yhtenäisen ääntämisjoukon luomiseen usein käytetyille sanoille organisaatiossasi. Tämän ansiosta sisällöntuottajat voivat käyttää aikaa kirjoittamiseen sen sijaan, että lisäisit käsikirjoitukseen toistuvasti foneettisia ääntämisiä. Voit kokeilla tätä AWS-tililläsi Amazon Polly -konsolissa.

Yhteenveto resursseista


Tietoja Tekijät

Ratan Kumar on ratkaisuarkkitehti Aucklandista, Uudesta-Seelannista. Hän työskentelee suuryritysasiakkaiden kanssa auttaen heitä suunnittelemaan ja rakentamaan turvallisia, kustannustehokkaita ja luotettavia Internet-laajuisia sovelluksia AWS-pilven avulla. Hän on intohimoinen teknologiaan ja pitää tiedon jakamisesta blogitekstien ja twitch-istuntojen kautta.

Maciek Tegi on johtava äänisuunnittelija ja Polly Brand Voicesin tuotepäällikkö. Hän on työskennellyt ammattitehtävissä teknologia-alalla, elokuvissa, mainoksissa ja pelien lokalisoinnissa. Vuonna 2013 hän oli ensimmäinen ääniinsinööri, joka palkattiin Alexa Text-To-Speech -tiimiin. Maciek oli mukana julkaisemassa 12 Alexa TTS -ääntä eri maissa, yli 20 Polly-ääntä ja 4 Alexa-julkkisääntä. Maciek on triathlonisti ja innokas akustisen kitaran soittaja.

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?