Plato Veri Zekası.
Dikey Arama ve Yapay Zeka.

Amazon Polly'de sözlükleri kullanarak telaffuzu özelleştirin

Tarih:

Amazon Polly bir konuşma metni Kulağa doğal gelen insan konuşmasını sentezlemek için gelişmiş derin öğrenme teknolojilerini kullanan hizmet. İletişim merkezi sistemleri, otomatik gerçek zamanlı durum kontrolü, otomatik hesap ve fatura sorgulamaları için insan benzeri seslerle konuşma kullanıcı deneyimleri sunan ve The Washington Post gibi haber ajansları gibi çeşitli kullanım durumlarında kullanılır. okuyucuların haber makalelerini dinlemelerine izin vermek.

Bugün itibariyle Amazon Polly, 60'dan fazla dil çeşidinde 30'tan fazla ses. Amazon Polly ayrıca belirli kelimeleri fiil zamanına ve diğer bağlamsal bilgilere göre farklı şekilde telaffuz etmek için bağlamı kullanır. Örneğin, “Kitap okudum” (şimdiki zaman) ve “Kitap okuyacağım” (gelecek zaman) içindeki “oku” farklı telaffuz edilir.

Ancak bazı durumlarda Amazon Polly'nin bir sözcüğü telaffuz etme şeklini özelleştirmek isteyebilirsiniz. Örneğin, telaffuzu yerel lehçe veya yerel lehçeyle eşleştirmeniz gerekebilir. Şeylerin adları (örneğin, Domates şu şekilde telaffuz edilebilir: tom-ah-to or tom-ay-to), insanlar, sokaklar veya yerler genellikle birçok farklı şekilde telaffuz edilir.

Bu gönderide, özel telaffuzlar oluşturmak için sözlüklerden nasıl yararlanabileceğinizi gösteriyoruz. Sözlükleri yayıncılık, eğitim veya çağrı merkezleri gibi kullanım durumları için uygulayabilirsiniz.

SSML etiketini kullanarak telaffuzu özelleştirin

Avustralya'dan popüler bir podcast yayınladığınızı ve senaryonuzu insan benzeri konuşmaya dönüştürmek için Amazon Polly Avustralya İngilizcesi (Olivia) sesini kullandığınızı varsayalım. Komut dosyalarınızdan birinde Amazon Polly sesinin bilmediği sözcükleri kullanmak istiyorsunuz. Örneğin, Yeni Zelanda dinleyicilerinize Mātariki (Māori Yeni Yılı) selamları göndermek istiyorsunuz. Bu tür senaryolar için Amazon Polly, yabancı dilde doğru telaffuza yakın bir telaffuz elde etmek için kullanabileceğiniz fonetik telaffuzu destekler.

kullanabilirsiniz Konuşma Sentezi İşaretleme Dili (SSML) etiketi, ph özelliğinde fonetik bir telaffuz önermek için. Sana nasıl kullanabileceğini göstereyim SSML etiketi.

İlk olarak, hesabınıza giriş yapın AWS konsolu ve üstteki arama çubuğunda Amazon Polly'yi arayın. Amazon Polly'yi seçin ve ardından Polly'yi Dene düğmesini seçin.

Amazon Polly konsolunda, dil açılır listesinden Avustralya İngilizcesi'ni seçin ve Giriş metin kutusuna aşağıdaki metni girin ve ardından telaffuzu test etmek için Dinle'ye tıklayın.

Hepinize çok mutlu bir Mātariki diliyorum.

Fonetik telaffuz uygulamadan örnek konuşma:

Yukarıdaki örnek konuşmayı duyarsanız, telaffuzunun ne olduğunu fark edebilirsiniz. Matariki – Avustralya İngilizcesinin bir parçası olmayan bir kelime – pek yerinde değil. Şimdi, bu tür senaryolarda fonetik telaffuzu kullanarak nasıl kullanabileceğimize bakalım. Amazon Polly tarafından üretilen konuşmayı özelleştirmek için SSML etiketi.

SSML etiketlerini kullanmak için Amazon Polly konsolunda SSML seçeneğini AÇIN. Ardından, fonetik telaffuz içeren aşağıdaki SSML betiğini kopyalayıp yapıştırın. Matariki ph özelliği içinde belirtilen etiket.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

İle etiket, Amazon Polly, varsayılan olarak seçilen ses tarafından kullanılan dille ilişkilendirilen standart telaffuz yerine ph özelliği tarafından belirtilen telaffuzu kullanır.

Fonetik telaffuz uygulandıktan sonra örnek konuşma:

Örnek sesi duyarsanız, Amazon Polly'nin doğru telaffuza daha yakın sesleri sentezlemesini sağlamak için bazı sesli harfler için (örneğin, ā) farklı bir telaffuz seçtiğimizi fark edeceksiniz. Şimdi bir sorunuz olabilir, fonetik transkripsiyonu nasıl oluştururum?mA:.tA:.ri.ki” kelime için Matariki?

Fonetik transkripsiyonları aşağıdakilere atıfta bulunarak oluşturabilirsiniz: Desteklenen diller için Fonem ve Visem tabloları. Yukarıdaki örnekte kullandık Avustralya İngilizcesi için fonemler.

Amazon Polly, iki fonetik alfabede destek sunar: IPA ve X-Sampa. X-Sampa'nın avantajı, standart ASCII karakterleri olmalarıdır, bu nedenle fonetik transkripsiyonu normal bir klavyeyle yazmak daha kolaydır. Çeviri yazılarınızı oluşturmak için IPA veya X-Sampa'dan birini kullanabilirsiniz, ancak özellikle bir sonraki bölümde ele alacağımız bir sözlük dosyası kullandığınızda, seçiminizin tutarlı olduğundan emin olun.

Fonem tablosundaki her bir fonem, bir konuşma sesini temsil eder. içindeki kalın harfler "Örnek" Yukarıda bağlantısı verilen Avustralya İngilizcesi sayfasındaki Fonem/Viseme tablosunun sütunu, “Foneme” kelimesinin karşılık geldiği kısmı temsil eder. Örneğin, /j/ fonemi, bir Avustralya İngilizcesi konuşmacısının “evet” de “y” harfini telaffuz ederken çıkardığı sesi temsil eder.

Sözlükleri kullanarak telaffuzu özelleştirin

Fonem etiketleri, izole vakaları özelleştirmek için tek seferlik durumlar için uygundur, ancak bunlar ölçeklenebilir değildir. Farklı editörler ve gözden geçirenler tarafından yönetilen büyük hacimli metinleri işliyorsanız, sözlükleri kullanmanızı öneririz. Sözlükleri kullanarak, özel telaffuzlar eklemede tutarlılık sağlayabilir ve aynı zamanda, komut dosyasına fonem etiketlerini manuel olarak ekleme çabasını azaltabilirsiniz.

Amazon Polly konsolunda özel telaffuzu test ettikten sonra etiketini kullanarak özelleştirilmiş telaffuzlardan oluşan bir kitaplık oluşturursunuz. sözlükler. Sözlükler dosyası yüklendikten sonra Amazon Polly, sözlükler dosyasında belirtilen fonetik telaffuzları otomatik olarak uygular ve manuel olarak bir sözlük sağlama ihtiyacını ortadan kaldırır. etiket.

Bir sözlük dosyası oluşturun

Bir sözlük dosyası, kelimeler ve fonetik telaffuzları arasındaki eşleştirmeyi içerir. Telaffuz Sözlüğü Spesifikasyonu (PLS) birlikte çalışabilir telaffuz bilgilerini belirtmek için bir W3C önerisidir. Aşağıda örnek bir PLS belgesi verilmiştir:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

için doğru değeri kullandığınızdan emin olun. xml:lang alan. Kullanmak en-AU Amazon Polly Avustralya İngilizcesi sesiyle kullanmak için sözlük dosyasını yüklüyorsanız. Desteklenen dillerin tam listesi için bkz. Amazon Polly Tarafından Desteklenen Diller.

Özel bir telaffuz belirtmek için bir bir veya daha fazla sözcük girişi içeren bir kapsayıcı olan öğe <grapheme> öğe ve içeride sağlanan bir veya daha fazla telaffuz bilgisi <phoneme> eleman.

The <grapheme> öğeyi açıklayan metni içerir. yazım arasında öğe. kullanabilirsiniz <grapheme> Telaffuzunu özelleştirmek istediğiniz sözcüğü belirtmek için öğe. birden fazla ekleyebilirsiniz <grapheme> örneğin makrolu veya makrosuz tüm kelime varyasyonlarını belirtmek için öğeler. bu <grapheme> öğesi büyük/küçük harf duyarlıdır ve konuşma sentezi sırasında Amazon Polly dizesi, komut dosyanızın içinde konuşmaya dönüştürdüğünüz sözcüklerle eşleşir. Bir eşleşme bulunursa, nasıl yapıldığını açıklayan eleman fonetik transkripsiyon oluşturmak için telaffuz edilir.

Ayrıca kullanabilirsiniz <alias> yaygın olarak kullanılan kısaltmalar için Bir sözlük dosyasının önceki örneğinde, NZ için bir takma ad olarak kullanılır Yeni Zelanda. Bu, Amazon Polly'nin metnin gövdesinde "NZ" (eşleşen büyük harfle) ile karşılaştığında, bu iki harfi "Yeni Zelanda" olarak okuyacağı anlamına gelir.

Sözlük dosya formatı hakkında daha fazla bilgi için, bkz. Telaffuz Sözlüğü Spesifikasyonu (PLS) Sürüm 1.0 W3C web sitesinde.

Bir sözlük dosyasını Amazon Polly'ye yüklemeden önce .pls veya .xml dosyası olarak kaydedebilirsiniz.

Sözlük dosyasını yükleyin ve uygulayın

Aşağıdaki talimatları kullanarak sözlük dosyanızı Amazon Polly'ye yükleyin:

  1. Amazon Polly konsolunda şunu seçin: lexicons Gezinti bölmesinde.
  2. Klinik Sözlük yükle.
  3. Sözlük için bir ad girin ve ardından bir sözlük dosyası.
  4. Yüklenecek dosyayı seçin.
  5. Klinik Sözlük yükle.

Aynı ada sahip bir sözlük (bir .pls veya .xml dosyası) zaten varsa, sözlüğün yüklenmesi mevcut sözlüğün üzerine yazar.

Artık telaffuzu özelleştirmek için sözlüğü uygulayabilirsiniz.

  1. Klinik Text-to-Speech Gezinti bölmesinde.
  2. Genişletmek Ek ayarlar.
  3. açmak Telaffuzu özelleştir.
  4. Açılır menüden sözlüğü seçin.

Ayrıca seçebilirsiniz Sözlük yükle yeni bir sözlük dosyası (veya yeni bir sürüm) yüklemek için.

Bir kaynak kod deposundaki sözlük dosyasının sürüm kontrolünü yapmak iyi bir uygulamadır. Özel telaffuzları bir sözlük dosyasında tutmak, kuruluş genelinde belirli kelimeler için sürekli olarak fonetik telaffuzlara başvurabilmenizi sağlar. Ayrıca, üzerinde belirtilen telaffuz sözlüğü sınırlarını da unutmayın. Amazon Polly'deki kotalar gidin.

Sözlüğü uyguladıktan sonra telaffuzu test edin

Giriş metni olarak “Yeni Zelanda'daki tüm dinleyicilerime çok mutlu bir Mātariki diliyorum” kullanarak hızlı bir test yapalım.

Sözlüğü uygulamadan önce ve sonra ses dosyalarını karşılaştırabiliriz.

Sözlüğü uygulamadan önce:

Sözlüğü uyguladıktan sonra:

Sonuç

Bu gönderide, Amazon Polly'de seçilen dilde yaygın olarak kullanılan kısaltmaların veya kelimelerin telaffuzlarını nasıl özelleştirebileceğinizi tartıştık. Kullanabilirsiniz Tek seferlik özelleştirmeler veya test amaçları eklemek için harika olan SSML etiketi. Kuruluşunuz genelinde sık kullanılan kelimeler için tutarlı bir telaffuz seti oluşturmak için Lexicon'u kullanmanızı öneririz. Bu, içerik yazarlarınızın, komut dosyasına tekrar tekrar fonetik telaffuzlar eklemek gibi sıkıcı bir görev yerine yazmaya zaman ayırmalarını sağlar. Bunu Amazon Polly konsolundaki AWS hesabınızda deneyebilirsiniz.

Kaynakların özeti


Yazarlar Hakkında

Ratan Kumar Auckland, Yeni Zelanda merkezli bir Çözüm Mimarıdır. AWS bulutunu kullanarak güvenli, uygun maliyetli ve güvenilir internet ölçeğinde uygulamalar tasarlamalarına ve oluşturmalarına yardımcı olan büyük kurumsal müşterilerle birlikte çalışır. Teknoloji konusunda tutkulu ve blog gönderileri ve seğirme oturumları aracılığıyla bilgi paylaşmayı seviyor.

Maciek Tegi Polly Brand Voices için Baş Ses Tasarımcısı ve Ürün Müdürüdür. Teknoloji sektöründe, filmlerde, reklamlarda ve oyun yerelleştirmesinde profesyonel olarak çalıştı. 2013'te Alexa Metin-Konuşma ekibine işe alınan ilk ses mühendisiydi. Maciek, farklı ülkelerde 12 Alexa TTS sesi, 20'den fazla Polly sesi ve 4 Alexa ünlü sesinin yayınlanmasında yer aldı. Maciek bir triatlet ve hevesli bir akustik gitaristtir.

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?