هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

سفارشی کردن تلفظ با استفاده از واژگان در آمازون پولی

تاریخ:

آمازون پولی هست یک متن به گفتار سرویسی که از فناوری های پیشرفته یادگیری عمیق برای ترکیب گفتار انسان با صدای طبیعی استفاده می کند. در موارد مختلف استفاده می‌شود، مانند سیستم‌های مرکز تماس، ارائه تجربیات مکالمه کاربر با صداهای انسان‌مانند برای بررسی خودکار وضعیت بلادرنگ، پرسش‌های حساب و صورت‌حساب خودکار، و توسط آژانس‌های خبری مانند واشنگتن پست. تا خوانندگان بتوانند به مقالات خبری گوش دهند.

از امروز، آمازون پولی ارائه می دهد بیش از 60 صدا در 30+ گونه زبان. آمازون پولی همچنین از متن برای تلفظ کلمات خاص بر اساس زمان فعل و سایر اطلاعات متنی استفاده می کند. مثلاً «بخوانم» در «کتاب می‌خوانم» (زمان حال) و «کتاب خواهم خواند» (زمان آینده) متفاوت تلفظ می‌شود.

با این حال، در برخی شرایط ممکن است بخواهید نحوه تلفظ یک کلمه را آمازون پولی سفارشی کنید. برای مثال، ممکن است لازم باشد تلفظ را با گویش محلی یا زبان بومی مطابقت دهید. نام چیزها (به عنوان مثال، گوجه فرنگی را می توان به عنوان تلفظ کرد tom-ah-to or تام-ای-تو)، مردم، خیابان ها یا مکان ها اغلب به روش های مختلف تلفظ می شوند.

در این پست، نشان می‌دهیم که چگونه می‌توانید از واژگان برای ایجاد تلفظ‌های سفارشی استفاده کنید. می توانید واژگان را برای موارد استفاده مانند انتشارات، آموزش یا مراکز تماس اعمال کنید.

سفارشی کردن تلفظ با استفاده از تگ SSML

فرض کنید یک پادکست پرطرفدار از استرالیا پخش می‌کنید و از صدای Amazon Polly Australian English (Olivia) برای تبدیل اسکریپت خود به گفتار انسان‌مانند استفاده می‌کنید. در یکی از اسکریپت های خود، می خواهید از کلماتی استفاده کنید که برای صدای آمازون پولی ناشناخته هستند. به عنوان مثال، شما می خواهید برای شنوندگان نیوزیلندی خود پیام تبریک Matariki (سال نو مائوری) ارسال کنید. برای چنین سناریوهایی، آمازون پولی از تلفظ آوایی پشتیبانی می کند، که می توانید از آن برای دستیابی به تلفظی نزدیک به تلفظ صحیح در زبان خارجی استفاده کنید.

می توانید استفاده کنید زبان نشانه گذاری سنتز گفتار (SSML) را برای پیشنهاد تلفظ آوایی در ویژگی ph تگ کنید. اجازه دهید به شما نشان دهم چگونه می توانید استفاده کنید تگ SSML

ابتدا وارد سیستم خود شوید کنسول AWS و Amazon Polly را در نوار جستجو در بالا جستجو کنید. Amazon Polly را انتخاب کنید و سپس دکمه Try Polly را انتخاب کنید.

در کنسول آمازون پولی، انگلیسی استرالیایی را از منوی کشویی زبان انتخاب کنید و متن زیر را در کادر متن ورودی وارد کنید و سپس برای تست تلفظ بر روی Listen کلیک کنید.

من برای همه شما ماتاریکی بسیار شاد آرزو می کنم.

نمونه گفتار بدون استفاده از تلفظ آوایی:

اگر نمونه سخنرانی بالا را بشنوید، متوجه می شوید که تلفظ از ماتریکی - کلمه ای که بخشی از انگلیسی استرالیایی نیست - کاملاً دقیق نیست. حال، بیایید ببینیم که چگونه در چنین سناریوهایی می توانیم از تلفظ آوایی با استفاده از آن استفاده کنیم برچسب SSML برای سفارشی کردن گفتار تولید شده توسط Amazon Polly.

برای استفاده از تگ های SSML، گزینه SSML را در کنسول آمازون پولی روشن کنید. سپس اسکریپت SSML زیر حاوی تلفظ آوایی برای را کپی و جایگذاری کنید ماتریکی مشخص شده در داخل ویژگی ph از برچسب زدن

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

با برچسب زدن، Amazon Polly از تلفظ مشخص شده توسط ویژگی ph به جای تلفظ استاندارد مرتبط با زبان مورد استفاده توسط صدای انتخاب شده استفاده می کند.

نمونه گفتار پس از اعمال تلفظ آوایی:

اگر صدای نمونه را بشنوید، متوجه می‌شوید که برای برخی از مصوت‌ها (مثلاً ā) تلفظ متفاوتی را انتخاب کرده‌ایم تا آمازون پولی صداهایی را که نزدیک‌تر به تلفظ صحیح هستند ترکیب کند. حالا ممکن است یک سوال داشته باشید، چگونه رونویسی آوایی را ایجاد کنم؟mA:.tA:.ri.ki" برای کلمه ماتریکی?

شما می توانید رونویسی آوایی با مراجعه به جداول Phoneme و Viseme برای زبان های پشتیبانی شده. در مثال بالا ما از واج برای انگلیسی استرالیایی.

Amazon Polly در دو الفبای آوایی پشتیبانی می کند: IPA و X-Sampa. مزیت X-Sampa این است که آنها نویسه های استاندارد ASCII هستند، بنابراین تایپ رونویسی آوایی با یک صفحه کلید معمولی آسان تر است. می‌توانید از یکی از IPA یا X-Sampa برای تولید رونویسی‌های خود استفاده کنید، اما مطمئن شوید که با انتخاب خود مطابقت دارید، به‌خصوص زمانی که از یک فایل واژگان استفاده می‌کنید که در بخش بعدی به آن خواهیم پرداخت.

هر واج در جدول واج بیانگر صدای گفتاری است. حروف پررنگ در "مثال" ستون جدول Phoneme/Viseme در صفحه انگلیسی استرالیایی که در بالا پیوند داده شده است بخشی از کلمه "Phoneme" را نشان می دهد. به عنوان مثال، واج /j/ نشان دهنده صدایی است که یک انگلیسی زبان استرالیایی هنگام تلفظ حرف "y" در "yes" تولید می کند.

سفارشی کردن تلفظ با استفاده از واژگان

برچسب‌های Phoneme برای موقعیت‌های یکباره برای سفارشی‌سازی موارد مجزا مناسب هستند، اما این تگ‌ها مقیاس‌پذیر نیستند. اگر حجم عظیمی از متن را پردازش می کنید که توسط ویرایشگران و بازبینان مختلف مدیریت می شود، توصیه می کنیم از واژگان استفاده کنید. با استفاده از واژگان، می توانید به یکپارچگی در افزودن تلفظ های سفارشی دست یابید و همزمان تلاش دستی برای درج تگ های واجی در اسکریپت را کاهش دهید.

یک تمرین خوب این است که پس از آزمایش تلفظ سفارشی در کنسول آمازون پولی با استفاده از با استفاده از برچسب، کتابخانه ای از تلفظ های سفارشی ایجاد می کنید واژگان. هنگامی که فایل lexicons آپلود شد، Amazon Polly به طور خودکار تلفظ های آوایی مشخص شده در فایل lexicons را اعمال می کند و نیازی به ارائه دستی یک برچسب زدن

یک فایل واژگان ایجاد کنید

یک فایل واژگان حاوی نقشه بین کلمات و تلفظ آوایی آنها است. مشخصات واژگان تلفظ (PLS) یک توصیه W3C برای مشخص کردن اطلاعات تلفظ قابل همکاری است. نمونه زیر یک سند PLS است:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

مطمئن شوید که از مقدار صحیح برای xml:lang رشته. استفاده کنید en-AU اگر فایل واژگان را برای استفاده با صدای انگلیسی آمازون پولی استرالیایی آپلود می کنید. برای فهرست کامل زبان های پشتیبانی شده، به زبان های پشتیبانی شده توسط Amazon Polly.

برای تعیین یک تلفظ سفارشی، باید a را اضافه کنید عنصری که ظرفی برای مدخل واژگانی با یک یا چند است <grapheme> عنصر و یک یا چند اطلاعات تلفظ ارائه شده در داخل <phoneme> عنصر

La <grapheme> عنصر حاوی متنی است که ارتوگرافی از عنصر می توانید از a استفاده کنید <grapheme> عنصر برای تعیین کلمه ای که می خواهید تلفظ آن را شخصی سازی کنید. می توانید چندین مورد اضافه کنید <grapheme> عناصری برای تعیین تمام تغییرات کلمه، به عنوان مثال با یا بدون ماکرون. در <grapheme> عنصر به حروف کوچک و بزرگ حساس است، و در طول سنتز گفتار، رشته آمازون پولی با کلمات داخل اسکریپت شما که در حال تبدیل به گفتار هستید، مطابقت دارد. اگر مطابقتی پیدا شود، از آن استفاده می کند عنصر، که توضیح می دهد که چگونه برای ایجاد رونویسی آوایی تلفظ می شود.

VOUS استفاده pouvez aussi <alias> برای اختصارات رایج در مثال قبلی یک فایل واژگان، NZ به عنوان نام مستعار برای استفاده می شود نیوزیلند. این بدان معناست که هرگاه آمازون پولی در متن متن به "NZ" (با حروف مشابه) برخورد کند، آن دو حرف را "نیوزیلند" می خواند.

برای اطلاعات بیشتر در مورد فرمت فایل واژگان، رجوع کنید به Pronunciation Lexicon Specification (PLS) نسخه 1.0 در وب سایت W3C

قبل از آپلود در آمازون پولی، می‌توانید یک فایل واژگان را به‌عنوان فایل pls. یا xml. ذخیره کنید.

فایل واژگان را آپلود و اعمال کنید

فایل واژگان خود را با استفاده از دستورالعمل های زیر در Amazon Polly آپلود کنید:

  1. در کنسول آمازون پولی، انتخاب کنید واژگان در صفحه ناوبری
  2. را انتخاب کنید واژگان را بارگذاری کنید.
  3. یک نام برای واژگان وارد کنید و سپس انتخاب کنید یک فایل واژگان.
  4. فایل مورد نظر را برای آپلود انتخاب کنید.
  5. را انتخاب کنید واژگان را بارگذاری کنید.

اگر واژه‌نامه‌ای با همین نام (اعم از فایل pls. یا xml.) از قبل وجود داشته باشد، آپلود واژگان، واژگان موجود را رونویسی می‌کند.

اکنون می توانید واژگان را برای سفارشی کردن تلفظ اعمال کنید.

  1. را انتخاب کنید تبدیل متن به گفتار در صفحه ناوبری
  2. گسترش تنظیمات اضافی.
  3. روشن کن سفارشی کردن تلفظ.
  4. واژگان را در منوی کشویی انتخاب کنید.

همچنین می توانید انتخاب کنید واژگان را بارگذاری کنید برای آپلود یک فایل واژگان جدید (یا یک نسخه جدید).

این یک تمرین خوب برای کنترل نسخه فایل لغت در مخزن کد منبع است. حفظ تلفظ های سفارشی در یک فایل واژگان تضمین می کند که می توانید به طور مداوم به تلفظ های آوایی کلمات خاصی در سراسر سازمان مراجعه کنید. همچنین محدودیت‌های واژگان تلفظی که در آن ذکر شده را در نظر داشته باشید سهمیه در آمازون پولی احتمال برد مراجعه کنید.

بعد از اعمال لغت، تلفظ را تست کنید

بیایید تست سریع را با استفاده از "Wishing all my listeners in NZ, a very Happy Matariki" به عنوان متن ورودی انجام دهیم.

می‌توانیم فایل‌های صوتی را قبل و بعد از اعمال واژه‌نامه مقایسه کنیم.

قبل از اعمال واژگان:

پس از اعمال واژگان:

نتیجه

در این پست، نحوه سفارشی سازی تلفظ کلمات اختصاری رایج یا کلماتی که در زبان انتخابی در آمازون پولی یافت نمی شوند، بحث کردیم. شما می توانید استفاده کنید برچسب SSML که برای درج سفارشی سازی های یکباره یا اهداف آزمایشی عالی است. توصیه می کنیم از Lexicon برای ایجاد مجموعه ای ثابت از تلفظ ها برای کلمات پرکاربرد در سراسر سازمان خود استفاده کنید. این به نویسندگان محتوای شما این امکان را می‌دهد که به جای کار خسته‌کننده اضافه کردن تکراری تلفظ‌های آوایی در متن، وقت خود را صرف نوشتن کنند. می توانید این را در حساب AWS خود در کنسول آمازون پولی امتحان کنید.

خلاصه منابع


درباره نویسنده

راتان کومار یک معمار راه حل مستقر در اوکلند، نیوزیلند است. او با مشتریان سازمانی بزرگ کار می کند و به آنها کمک می کند تا با استفاده از ابر AWS، برنامه های کاربردی ایمن، مقرون به صرفه و قابل اعتماد در مقیاس اینترنتی را طراحی و بسازند. او علاقه‌مند به فناوری است و دوست دارد دانش را از طریق پست‌های وبلاگ و جلسات توییچ به اشتراک بگذارد.

ماچیک تگی یک طراح اصلی صدا و مدیر محصول برای صدای برند Polly است. او به صورت حرفه ای در صنعت فناوری، فیلم، تبلیغات و بومی سازی بازی کار کرده است. در سال 2013، او اولین مهندس صدا بود که به تیم تبدیل متن به گفتار الکسا استخدام شد. Maciek در انتشار 12 صدای Alexa TTS در کشورهای مختلف، بیش از 20 صدای Polly و 4 صدای افراد مشهور الکسا نقش داشت. Maciek یک ورزشکار سه گانه و یک نوازنده مشتاق گیتار آکوستیک است.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟