20.1 C
Νέα Υόρκη

Προσαρμόστε την προφορά χρησιμοποιώντας λεξικά στο Amazon Polly

Ημερομηνία:

Amazon Polly είναι ένα κείμενο σε ομιλία υπηρεσία που χρησιμοποιεί προηγμένες τεχνολογίες βαθιάς εκμάθησης για τη σύνθεση ανθρώπινης ομιλίας με φυσικό ήχο. Χρησιμοποιείται σε διάφορες περιπτώσεις χρήσης, όπως συστήματα κέντρων επαφής, παροχή συνομιλιακών εμπειριών χρηστών με φωνές που μοιάζουν με ανθρώπους για αυτοματοποιημένο έλεγχο κατάστασης σε πραγματικό χρόνο, αυτοματοποιημένες ερωτήσεις λογαριασμού και χρέωσης και από πρακτορεία ειδήσεων όπως η Washington Post για να επιτρέψει στους αναγνώστες να ακούσουν άρθρα ειδήσεων.

Από σήμερα, η Amazon Polly παρέχει περισσότερες από 60 φωνές σε 30+ παραλλαγές γλώσσας. Το Amazon Polly χρησιμοποιεί επίσης το πλαίσιο για να προφέρει ορισμένες λέξεις διαφορετικά με βάση τον χρόνο του ρήματος και άλλες πληροφορίες συμφραζομένων. Για παράδειγμα, το «διαβάζω» στο «διάβασα ένα βιβλίο» (ενεστώτα) και το «θα διαβάσω ένα βιβλίο» (μελλοντικός χρόνος) προφέρεται διαφορετικά.

Ωστόσο, σε ορισμένες περιπτώσεις μπορεί να θέλετε να προσαρμόσετε τον τρόπο με τον οποίο το Amazon Polly προφέρει μια λέξη. Για παράδειγμα, μπορεί να χρειαστεί να ταιριάξετε την προφορά με την τοπική διάλεκτο ή τη δημοτική γλώσσα. Ονόματα πραγμάτων (π.χ. Τοματάκι μπορεί να προφερθεί ως tom-ah-to or tom-ay-to), οι άνθρωποι, οι δρόμοι ή τα μέρη προφέρονται συχνά με πολλούς διαφορετικούς τρόπους.

Σε αυτήν την ανάρτηση, δείχνουμε πώς μπορείτε να αξιοποιήσετε λεξικά για τη δημιουργία προσαρμοσμένων προφορών. Μπορείτε να εφαρμόσετε λεξικά για περιπτώσεις χρήσης όπως δημοσίευση, εκπαίδευση ή τηλεφωνικά κέντρα.

Προσαρμόστε την προφορά χρησιμοποιώντας την ετικέτα SSML

Ας υποθέσουμε ότι μεταδίδετε ένα δημοφιλές podcast από την Αυστραλία και χρησιμοποιείτε τη φωνή Amazon Polly Australian English (Olivia) για να μετατρέψετε το σενάριό σας σε ομιλία που μοιάζει με άνθρωπο. Σε ένα από τα σενάρια σας, θέλετε να χρησιμοποιήσετε λέξεις που είναι άγνωστες στη φωνή Amazon Polly. Για παράδειγμα, θέλετε να στείλετε χαιρετισμούς Matariki (Πρωτοχρονιά Μαορί) στους ακροατές σας από τη Νέα Ζηλανδία. Για τέτοια σενάρια, το Amazon Polly υποστηρίζει φωνητική προφορά, την οποία μπορείτε να χρησιμοποιήσετε για να επιτύχετε μια προφορά που είναι κοντά στη σωστή προφορά στην ξένη γλώσσα.

Μπορείτε να χρησιμοποιήσετε το Γλώσσα σήμανσης σύνθεσης ομιλίας (SSML) για να προτείνετε μια φωνητική προφορά στο χαρακτηριστικό ph. Επιτρέψτε μου να σας δείξω πώς μπορείτε να χρησιμοποιήσετε Ετικέτα SSML.

Πρώτα, συνδεθείτε στο δικό σας Κονσόλα AWS και αναζητήστε το Amazon Polly στη γραμμή αναζήτησης στο επάνω μέρος. Επιλέξτε Amazon Polly και, στη συνέχεια, επιλέξτε το κουμπί Try Polly.

Στην κονσόλα Amazon Polly, επιλέξτε Αυστραλιανά Αγγλικά από το αναπτυσσόμενο μενού γλώσσας και εισαγάγετε το ακόλουθο κείμενο στο πλαίσιο κειμένου Εισαγωγή και, στη συνέχεια, κάντε κλικ στο Ακρόαση για να δοκιμάσετε την προφορά.

Εύχομαι σε όλους σας ένα πολύ χαρούμενο Matariki.

Δείγμα ομιλίας χωρίς εφαρμογή φωνητικής προφοράς:

Αν ακούσετε το παραπάνω δείγμα ομιλίας, μπορείτε να παρατηρήσετε ότι η προφορά του Mātariki – μια λέξη που δεν είναι μέρος των Αυστραλιανών Αγγλικών – δεν είναι αρκετά επίκαιρη. Τώρα, ας δούμε πώς σε τέτοια σενάρια μπορούμε να χρησιμοποιήσουμε τη φωνητική προφορά χρησιμοποιώντας Ετικέτα SSML για την προσαρμογή της ομιλίας που παράγεται από το Amazon Polly.

Για να χρησιμοποιήσετε ετικέτες SSML, ενεργοποιήστε την επιλογή SSML στην κονσόλα Amazon Polly. Στη συνέχεια, αντιγράψτε και επικολλήστε το ακόλουθο σενάριο SSML που περιέχει φωνητική προφορά για Mātariki καθορίζεται μέσα στο χαρακτηριστικό ph του ετικέτα.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

Με την ετικέτα, το Amazon Polly χρησιμοποιεί την προφορά που καθορίζεται από το χαρακτηριστικό ph αντί για την τυπική προφορά που σχετίζεται από προεπιλογή με τη γλώσσα που χρησιμοποιείται από την επιλεγμένη φωνή.
Προσαρμόστε την προφορά χρησιμοποιώντας λεξικά στο Amazon Polly Artificial Intelligence PlatoBlockchain Data Intelligence | Κάθετη αναζήτηση AI

Δείγμα ομιλίας μετά την εφαρμογή φωνητικής προφοράς:

Αν ακούσετε το δείγμα ήχου, θα παρατηρήσετε ότι επιλέξαμε μια διαφορετική προφορά για ορισμένα φωνήεντα (π.χ. ā) για να κάνουμε το Amazon Polly να συνθέσει τους ήχους που είναι πιο κοντά στη σωστή προφορά. Τώρα μπορεί να έχετε μια ερώτηση, πώς μπορώ να δημιουργήσω τη φωνητική μεταγραφή "mA:.tA:.ri.ki" για τη λέξη Mātariki?

Μπορείτε να δημιουργήσετε φωνητικές μεταγραφές ανατρέχοντας στο Πίνακες Phoneme και Viseme για τις υποστηριζόμενες γλώσσες. Στο παραπάνω παράδειγμα χρησιμοποιήσαμε το φωνήματα για τα αγγλικά της Αυστραλίας.

Το Amazon Polly προσφέρει υποστήριξη σε δύο φωνητικά αλφάβητα: IPA και X-Sampa. Το πλεονέκτημα του X-Sampa είναι ότι είναι τυπικοί χαρακτήρες ASCII, επομένως είναι ευκολότερο να πληκτρολογήσετε τη φωνητική μεταγραφή με ένα κανονικό πληκτρολόγιο. Μπορείτε να χρησιμοποιήσετε είτε το IPA είτε το X-Sampa για να δημιουργήσετε τις μεταγραφές σας, αλλά φροντίστε να παραμείνετε συνεπείς με την επιλογή σας, ειδικά όταν χρησιμοποιείτε ένα αρχείο λεξικού που θα καλύψουμε στην επόμενη ενότητα.

Κάθε φώνημα στον πίνακα φωνημάτων αντιπροσωπεύει έναν ήχο ομιλίας. Τα έντονα γράμματα στο "Παράδειγμα" Η στήλη του πίνακα Phoneme/Viseme στη σελίδα Αυστραλιανών Αγγλικών που συνδέεται παραπάνω αντιπροσωπεύει το τμήμα της λέξης στο οποίο αντιστοιχεί το "Phoneme". Για παράδειγμα, το φώνημα /j/ αντιπροσωπεύει τον ήχο που κάνει ένας Αυστραλός ομιλητής της αγγλικής γλώσσας όταν προφέρει το γράμμα "y" σε "ναι".

Προσαρμόστε την προφορά χρησιμοποιώντας λεξικά

Οι ετικέτες Phoneme είναι κατάλληλες για μεμονωμένες καταστάσεις για την προσαρμογή μεμονωμένων περιπτώσεων, αλλά αυτές δεν είναι επεκτάσιμες. Εάν επεξεργάζεστε τεράστιο όγκο κειμένου, το οποίο διαχειρίζονται διαφορετικοί συντάκτες και κριτικοί, συνιστούμε να χρησιμοποιήσετε λεξικά. Χρησιμοποιώντας λεξικά, μπορείτε να επιτύχετε συνέπεια στην προσθήκη προσαρμοσμένων προφορών και ταυτόχρονα να μειώσετε τη μη αυτόματη προσπάθεια εισαγωγής ετικετών φωνήματος στο σενάριο.

Μια καλή πρακτική είναι ότι αφού δοκιμάσετε την προσαρμοσμένη προφορά στην κονσόλα Amazon Polly χρησιμοποιώντας το tag, δημιουργείτε μια βιβλιοθήκη προσαρμοσμένων προφορών χρησιμοποιώντας λεξικά. Μόλις μεταφορτωθεί το αρχείο λεξικών, το Amazon Polly θα εφαρμόσει αυτόματα τις φωνητικές προφορές που καθορίζονται στο αρχείο λεξικών και θα εξαλείψει την ανάγκη μη αυτόματης παροχής ετικέτα.

Δημιουργήστε ένα αρχείο λεξικού

Ένα αρχείο λεξικού περιέχει την αντιστοίχιση μεταξύ των λέξεων και των φωνητικών προφορών τους. Προδιαγραφές λεξικού προφοράς (PLS) είναι μια σύσταση του W3C για τον καθορισμό διαλειτουργικών πληροφοριών προφοράς. Ακολουθεί ένα παράδειγμα εγγράφου PLS:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

Βεβαιωθείτε ότι χρησιμοποιείτε τη σωστή τιμή για το xml:lang πεδίο. Χρήση en-AU εάν ανεβάζετε το αρχείο λεξικού για χρήση με τη φωνή Amazon Polly Αυστραλιανής Αγγλικής γλώσσας. Για μια πλήρη λίστα με τις υποστηριζόμενες γλώσσες, ανατρέξτε στο Γλώσσες που υποστηρίζονται από το Amazon Polly.

Για να καθορίσετε μια προσαρμοσμένη προφορά, πρέπει να προσθέσετε a στοιχείο που είναι ένα δοχείο για ένα λεξικό λήμμα με ένα ή περισσότερα <grapheme> στοιχείο και μία ή περισσότερες πληροφορίες προφοράς που παρέχονται μέσα <phoneme> στοιχείο.

Το σεμινάριο <grapheme> στοιχείο περιέχει το κείμενο που περιγράφει το ορθογραφία του στοιχείο. Μπορείτε να χρησιμοποιήσετε α <grapheme> στοιχείο για να καθορίσετε τη λέξη της οποίας την προφορά θέλετε να προσαρμόσετε. Μπορείτε να προσθέσετε πολλά <grapheme> στοιχεία για τον καθορισμό όλων των παραλλαγών λέξεων, για παράδειγμα με ή χωρίς μακροεντολές. ο <grapheme> Το στοιχείο κάνει διάκριση πεζών-κεφαλαίων και κατά τη διάρκεια της σύνθεσης ομιλίας, η συμβολοσειρά Amazon Polly ταιριάζει με τις λέξεις μέσα στο σενάριό σας που μετατρέπετε σε ομιλία. Εάν βρεθεί αντιστοιχία, χρησιμοποιεί το στοιχείο, το οποίο περιγράφει πώς το προφέρεται για να δημιουργήσει φωνητική μεταγραφή.

Μπορείτε επίσης να χρησιμοποιήσετε <alias> για συντομογραφίες που χρησιμοποιούνται συνήθως. Στο προηγούμενο παράδειγμα ενός αρχείου λεξικού, NZ χρησιμοποιείται ως ψευδώνυμο για New Zealand. Αυτό σημαίνει ότι κάθε φορά που η Amazon Polly συναντά το "NZ" (με αντίστοιχη κεφαλαία) στο σώμα του κειμένου, θα διαβάζει αυτά τα δύο γράμματα ως "New Zealand".

Για περισσότερες πληροφορίες σχετικά με τη μορφή αρχείου λεξικού, βλ Προδιαγραφές λεξικού προφοράς (PLS) Έκδοση 1.0 στον ιστότοπο του W3C.

Μπορείτε να αποθηκεύσετε ένα αρχείο λεξικού ως αρχείο .pls ή .xml πριν το ανεβάσετε στο Amazon Polly.

Ανεβάστε και εφαρμόστε το αρχείο λεξικού

Ανεβάστε το αρχείο λεξικού σας στο Amazon Polly χρησιμοποιώντας τις ακόλουθες οδηγίες:

  1. Στην κονσόλα Amazon Polly, επιλέξτε Λεξικά στο παράθυρο πλοήγησης.
  2. Επιλέξτε Μεταφόρτωση λεξικού.
  3. Εισαγάγετε ένα όνομα για το λεξικό και, στη συνέχεια, επιλέξτε ένα αρχείο λεξικού.
  4. Επιλέξτε το αρχείο που θέλετε να ανεβάσετε.
  5. Επιλέξτε Μεταφόρτωση λεξικού.

Εάν υπάρχει ήδη ένα λεξικό με το ίδιο όνομα (είτε αρχείο .pls είτε .xml), η μεταφόρτωση του λεξικού αντικαθιστά το υπάρχον λεξικό.

Τώρα μπορείτε να εφαρμόσετε το λεξικό για να προσαρμόσετε την προφορά.

  1. Επιλέξτε Κείμενο σε ομιλία στο παράθυρο πλοήγησης.
  2. Ανάπτυξη Επιπρόσθετες ρυθμίσεις.
  3. Ανάβω Προσαρμόστε την προφορά.
  4. Επιλέξτε το λεξικό στο αναπτυσσόμενο μενού.

Μπορείτε επίσης να επιλέξετε Μεταφόρτωση λεξικού για να ανεβάσετε ένα νέο αρχείο λεξικού (ή μια νέα έκδοση).

Είναι καλή πρακτική ο έλεγχος έκδοσης του αρχείου λεξικού σε ένα αποθετήριο πηγαίου κώδικα. Η διατήρηση των προσαρμοσμένων προφορών σε ένα αρχείο λεξικού διασφαλίζει ότι μπορείτε να ανατρέχετε με συνέπεια σε φωνητικές προφορές για ορισμένες λέξεις σε ολόκληρο τον οργανισμό. Επίσης, λάβετε υπόψη τα όρια του λεξικού προφοράς που αναφέρονται στο Ποσοστώσεις στο Amazon Polly και επωφεληθείτε άμεσα.

Δοκιμάστε την προφορά μετά την εφαρμογή του λεξικού

Ας κάνουμε μια γρήγορη δοκιμή χρησιμοποιώντας το "Wishing all my listeners in NZ, a very Happy Matariki" ως κείμενο εισαγωγής.

Μπορούμε να συγκρίνουμε τα αρχεία ήχου πριν και μετά την εφαρμογή του λεξικού.
Προσαρμόστε την προφορά χρησιμοποιώντας λεξικά στο Amazon Polly Artificial Intelligence PlatoBlockchain Data Intelligence | Κάθετη αναζήτηση AI

Πριν εφαρμόσετε το λεξικό:

Μετά την εφαρμογή του λεξικού:

Συμπέρασμα

Σε αυτήν την ανάρτηση, συζητήσαμε πώς μπορείτε να προσαρμόσετε τις προφορές των κοινώς χρησιμοποιούμενων ακρωνύμιων ή λέξεων που δεν βρίσκονται στην επιλεγμένη γλώσσα στο Amazon Polly. Μπορείς να χρησιμοποιήσεις Ετικέτα SSML που είναι εξαιρετική για την εισαγωγή μεμονωμένων προσαρμογών ή δοκιμών. Συνιστούμε να χρησιμοποιήσετε το Lexicon για να δημιουργήσετε ένα συνεπές σύνολο προφορών για λέξεις που χρησιμοποιούνται συχνά στον οργανισμό σας. Αυτό δίνει τη δυνατότητα στους συγγραφείς περιεχομένου σας να αφιερώνουν χρόνο στη συγγραφή αντί για το κουραστικό έργο της επαναλαμβανόμενης προσθήκης φωνητικών προφορών στο σενάριο. Μπορείτε να το δοκιμάσετε στον λογαριασμό σας AWS στην κονσόλα Amazon Polly.

Περίληψη των πόρων


Σχετικά με τους Συγγραφείς

Προσαρμόστε την προφορά χρησιμοποιώντας λεξικά στο Amazon Polly Artificial Intelligence PlatoBlockchain Data Intelligence | Κάθετη αναζήτηση AIΡατάν Κουμάρ είναι Αρχιτέκτονας Λύσεων με έδρα το Όκλαντ της Νέας Ζηλανδίας. Συνεργάζεται με πελάτες μεγάλων επιχειρήσεων βοηθώντας τους να σχεδιάσουν και να δημιουργήσουν ασφαλείς, οικονομικά αποδοτικές και αξιόπιστες εφαρμογές κλίμακας Διαδικτύου χρησιμοποιώντας το AWS cloud. Είναι παθιασμένος με την τεχνολογία και του αρέσει να μοιράζεται γνώσεις μέσω αναρτήσεων ιστολογίου και συνεδριών twitch.

Προσαρμόστε την προφορά χρησιμοποιώντας λεξικά στο Amazon Polly Artificial Intelligence PlatoBlockchain Data Intelligence | Κάθετη αναζήτηση AIΜάτσιεκ Τέγκι είναι κύριος σχεδιαστής ήχου και διευθυντής προϊόντων για την Polly Brand Voices. Έχει εργαστεί με επαγγελματική ιδιότητα στον κλάδο της τεχνολογίας, τις ταινίες, τις διαφημίσεις και την τοπική προσαρμογή παιχνιδιών. Το 2013, ήταν ο πρώτος μηχανικός ήχου που προσλήφθηκε στην ομάδα της Alexa Text-to-Speech. Ο Maciek συμμετείχε στην κυκλοφορία 12 φωνών Alexa TTS σε διαφορετικές χώρες, πάνω από 20 φωνές Polly και 4 φωνών διασημοτήτων Alexa. Ο Maciek είναι τριαθλητής και άπληστος ακουστικός κιθαρίστας.

  • Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.Click Here
  • Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
  • Πηγή: https://aws.amazon.com/blogs/machine-learning/customize-pronunciation-using-lexicons-in-amazon-polly/

Αυτό το Θέση δημοσιεύθηκε αρχικά στις Μηχανική εκμάθηση AWS

Σχετικά Άρθρα

spot_img

Πρόσφατα Άρθρα

spot_img