هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

با استفاده از Amazon Polly تلفظ ها را سفارشی کنید

تاریخ:

آمازون پولی با تبدیل متن به گفتار واقعی به متن جان می بخشد. این به توسعه‌دهندگان و کسب‌وکارها اجازه می‌دهد تا برنامه‌هایی ایجاد کنند که می‌توانند در زمان واقعی مکالمه داشته باشند، در نتیجه یک تجربه تعاملی پیشرفته ارائه می‌دهند. متن به گفتار (TTS) در آمازون پولی از انواع مختلفی پشتیبانی می کند زبان و محلی‌ها، که شما را قادر می‌سازد تا تبدیل TTS را مطابق ترجیحات خود انجام دهید. عوامل متعددی مانند موقعیت جغرافیایی و مناطق زبانی این انتخاب را هدایت می کنند.

آمازون پولی از فناوری های پیشرفته یادگیری عمیق برای ترکیب متن به گفتار در زمان واقعی در فرمت های خروجی مختلف مانند MP3، ogg vorbis، JSON یا PCM در سراسر استاندارد و عصبی موتورها زبان نشانه گذاری سنتز گفتار (SSML) پشتیبانی از آمازون پولی قابلیت این سرویس را برای سفارشی کردن گفتار با گزینه‌های فراوان، از جمله کنترل سرعت و حجم گفتار، اضافه کردن مکث، تأکید بر کلمات یا عبارات خاص، و موارد دیگر تقویت می‌کند.

در دنیای امروز، کسب‌وکارها در چندین مکان جغرافیایی به گسترش خود ادامه می‌دهند و پیوسته به دنبال مکانیسم‌هایی برای بهبود تعامل شخصی‌شده با کاربر نهایی هستند. به عنوان مثال، شما ممکن است نیاز به تلفظ دقیق کلمات خاص به سبک خاص مربوط به مکان های جغرافیایی مختلف داشته باشید. کسب و کار شما همچنین ممکن است نیاز داشته باشد کلمات و عبارات خاصی را بسته به معنای مورد نظرشان به روش های خاصی تلفظ کند. شما می توانید با کمک به این امر دست یابید تگ های SSML ارائه شده توسط آمازون پولی.

هدف این پست کمک به شما در شخصی سازی تلفظ در هنگام برخورد با یک پایگاه مشتری واقعاً جهانی است.

تلفظ را با استفاده از واج ها تغییر دهید

واج را می توان کوچکترین واحد گفتار در نظر گرفت. این <phoneme> تگ SSML در Amazon Polly به شخصی سازی تلفظ بر اساس واج ها با استفاده از IPA (الفبای آوایی بین المللی) یا X-SAMPA (الفبای آوایی روش های ارزیابی گفتار توسعه یافته) کمک می کند. X-SAMPA نمایشی از IPA در رمزگذاری ASCII است. برچسب‌های Phoneme هم در موتور TTS استاندارد و هم در موتور عصبی در دسترس هستند و به طور کامل پشتیبانی می‌شوند. به عنوان مثال، کلمه "سرب" را می توان به عنوان فعل زمان حال تلفظ کرد یا می تواند به عنصر شیمیایی lead اشاره کند. ما در این پست وبلاگ با یک مثال بیشتر در این مورد بحث خواهیم کرد.

الفبای آوایی بین المللی

IPA برای به تصویر کشیدن صداها در زبان های مختلف استفاده می شود. برای لیستی از واج هایی که آمازون پولی پشتیبانی می کند، مراجعه کنید جداول Phoneme و Viseme برای زبان های پشتیبانی شده.

به طور پیش فرض، آمازون پولی تلفظ کلمه را در قالب خاصی تعیین می کند. بیایید از مثال کلمه "سرب" استفاده کنیم، که هنگام اشاره به عنصر شیمیایی یا فعل می تواند تلفظ های مختلفی داشته باشد. در این مثال، زمانی که کلمه "lead" را به عنوان ورودی ارائه می کنیم، به شکل زمان حال گفته می شود (بدون استفاده از برچسب های SSML سفارشی). تلفظ پیش فرض برای L E A D آمازون پولی شکل زمان حال «سرب» است.

<speak>
The default pronunciation by Amazon Polly for L E A D is <break time = "300ms"/> lead,
which is the present tense form.
</speak>

برای برگرداندن تلفظ عنصر شیمیایی lead (که می تواند فعل در زمان گذشته نیز باشد)، می توانیم از واج ها در کنار IPA یا X-SAMPA استفاده کنیم. IPA به طور کلی برای سفارشی کردن تلفظ یک کلمه در یک زبان خاص با استفاده از واج ها استفاده می شود:

<speak>
This is the pronunciation using the
<say-as interpret-as="characters">IPA</say-as> attribute
in the <say-as interpret-as="characters">SSML</say-as> tag. 
The verb form for L E A D is <break time="150ms"/> lead.
The chemical element <break time="150ms"/><phoneme alphabet="ipa" ph="lɛd">lead</phoneme> 
<break time="300ms"/>also has an identical spelling.
</speak>

با مشخص کردن بخش‌هایی از گفتار، تلفظ را اصلاح کنید

اگر همان مثال تلفظ "سرب" را در نظر بگیریم، می‌توانیم بین عنصر شیمیایی و فعل نیز با مشخص کردن بخش‌های گفتار با استفاده از تگ SSML

La <w> تگ به ما اجازه می دهد تا با مشخص کردن بخش هایی از گفتار، تلفظ را سفارشی کنیم. می توانید تلفظ را از نظر فعل (حال ساده یا گذشته)، اسم، صفت، حرف اضافه و تعیین کننده پیکربندی کنید. مثال زیر را ببینید:

<speak>
The word<p> <say-as interpret-as="characters">lead</say-as></p> 
may be interpreted as either the present simple form <w role="amazon:VB">lead</w>, 
or the chemical element <w role="amazon:SENSE_1">lead</w>.
</speak>

علاوه بر این، می توانید از تگ برای نشان دادن تلفظ کلمات اختصاری و اختصاری:

<speak>
Polly is an <sub alias="Amazon Web Services">AWS</sub> 
offering providing text-to-Speech service. 
</speak>

الفبای آوایی روش های ارزیابی گفتار گسترده

La X-SAMPA طرح رونویسی یک برونیابی برای مجموعه های مختلف واج SAMPA ویژه زبان است.

قطعه زیر نشان می دهد که چگونه می توانید از X-SAMPA برای تلفظ انواع مختلف کلمه "lead" استفاده کنید:

<speak>
This is the pronunciation using the X-SAMPA attribute, 
in the verb form <break time="1s"/> lead.
The chemical element <break time="1s"/> 
<phoneme alphabet='x-sampa' ph='lEd'>lead</phoneme> <break time="0.5s"/>
also has an identical spelling.
</speak>

علامت استرس در IPA معمولاً با ˈ نشان داده می شود. ما اغلب با سناریوهایی مواجه می شویم که در آنها یک آپوستروف به جای آن استفاده می شود، که ممکن است خروجی متفاوتی نسبت به انتظار داشته باشد. در X-SAMPA، علامت استرس همان است علامت نقل قول دوتایی، بنابراین باید از یک علامت نقل قول برای کلمه استفاده کنیم و الفبای واجی را مشخص کنیم. مثال زیر را ببینید:

<speak>
You say, <phoneme alphabet="ipa" ph="pɪˈkɑːn">pecan</phoneme>. 
</speak>

در مثال بالا می توانیم شخصیت را ببینیم ˈ برای تاکید بر کلمه استفاده می شود. به طور مشابه، علامت تنش در X-SAMPA در دو نقل قول زیر نشان داده شده است:

<speak>
You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>.
</speak>

تلفظ ها را با استفاده از سایر تگ های SSML تغییر دهید

شما می توانید با استفاده از <say as> برای تغییر تلفظ با فعال کردن ویژگی املا یا کاراکتر تگ کنید. علاوه بر این، تلفظ را از نظر ارقام، کسری، واحد، تاریخ، زمان، آدرس، تلفن، کاردینال و ترتیبی تقویت می‌کند و همچنین می‌تواند متن محصور شده در برچسب را سانسور کند. برای اطلاعات بیشتر مراجعه کنید کنترل نحوه بیان انواع خاص کلمات. بیایید به نمونه هایی از این ویژگی ها نگاه کنیم.

تاریخ

به طور پیش فرض، آمازون پولی ورودی های متنی متفاوتی را بیان می کند. با این حال، برای مدیریت ویژگی های خاص مانند تاریخ، می توانید از آن استفاده کنید date ویژگی برای سفارشی کردن تلفظ در قالب مورد نیاز، مانند ماه-روز-سال یا روز-ماه-سال.

بدون date ویژگی، Amazon Polly خروجی زیر را هنگام بیان تاریخ ها ارائه می دهد:

<speak>
The default pronunciation when using date is 01-11-1996
</speak>

با این حال، اگر می‌خواهید تاریخ‌ها در قالب خاصی صحبت شوند، ویژگی date در برچسب ها به شخصی سازی تلفظ کمک می کنند:

<speak>
We will see the examples of different date formats using the date SSML tag.
The following date is written in the day-month-year format.
<say-as interpret-as="date" format="dmy">01-11-1995</say-as><break time="500ms"/>
The following date is written in the month-day-year format.
<say-as interpret-as="date" format="mdy">09-24-1995</say-as>
</speak>

اصلی

این ویژگی یک عدد را در قالب اصلی آن نشان می دهد. به عنوان مثال، 124456 "صد و بیست و چهار هزار و چهارصد و پنجاه و شش" تلفظ می شود:

<speak> 
The following number is pronounced in it's cardinal form.
<say-as interpret-as="cardinal">124456</say-as>
</speak>

معمولی

این ویژگی یک عدد را در قالب ترتیبی آن نشان می دهد. بدون ordinal ویژگی، عدد به شکل عددی آن تلفظ می شود:

<speak>
The following number is pronounced in it's ordinal form 
without the use of any SSML attribute in the say as tag - 1242 
</speak>

اگر بخواهیم 1242 را "هزار و دویست و چهل ثانیه" تلفظ کنیم، می توانیم از آن استفاده کنیم ordinal صفت:

<speak>
The following number is pronounced in it's ordinal form.
<say-as interpret-as="ordinal">1242</say-as>
</speak>

شماره

La digits ویژگی برای بیان اعداد استفاده می شود. به عنوان مثال، "1234" به صورت "یک دو سه چهار" تلفظ می شود:

<speak>
The following number is pronounced as individual digits.
<say-as interpret-as="digits">1242</say-as>
</speak>

کسر

La fraction ویژگی برای سفارشی کردن تلفظ ها به شکل کسری استفاده می شود:

<speak> 
The following are examples of pronunciations when 
<prosody volume="loud"> fraction</prosody>
is used as an attribute in the say -as tag. 
<break time="500ms"/>Seven one by two is pronounced as
<say-as interpret-as="fraction">7 ½ </say-as>
whereas three by twenty is pronounced as <say-as interpret-as="fraction">3/20</say-as>
</speak>

زمان

La time ویژگی برای اندازه گیری زمان در دقیقه و ثانیه استفاده می شود:

<speak>
Polly also supports customizing pronunciation in terms of minutes and seconds. 
For example, <say-as interpret-as="time">2'42"</say-as>
</speak>

جنایتکارانه

La expletive ویژگی متن محصور شده در برچسب ها را سانسور می کند:

<speak> 
The value that is going to be censored is
<say-as interpret-as="expletive">this is not good</say-as>
You should have heard the beep sound.
</speak>

تلفن

برای تلفظ شماره تلفن می توانید از telephone به جای تلفظ شماره تلفن‌ها به‌عنوان ارقام مستقل یا به‌عنوان یک شماره اصلی، مشخص کنید

<speak>
The telephone number is 
<say-as interpret-as="telephone">1800 3000 9009</say-as>
</speak>

نشانی:

La address ویژگی برای سفارشی کردن تلفظ یک آدرس در یک قالب خاص استفاده می شود:

<speak> 
The address is<break time="1s"/>
<say-as interpret-as="address">440 Terry Avenue North, Seattle
WA 98109 USA</say-as>
</speak>

واژگان

ما به برخی از برچسب‌های SSML که به راحتی در آمازون پولی در دسترس هستند، نگاه کرده‌ایم. موارد استفاده دیگر ممکن است به درجه بالاتری از کنترل برای تلفظ های سفارشی نیاز داشته باشند. واژگان به دستیابی به این نیاز کمک می کند. زمانی می‌توانید از واژگان استفاده کنید که کلمات خاصی باید به شکل خاصی تلفظ شوند که برای آن زبان خاص غیرمعمول است.

یکی دیگر از موارد کاربرد واژگان، استفاده از نامهای اعدادی است که اختصاراتی هستند که با کمک اعداد ایجاد می شوند. به عنوان مثال، Y2K به عنوان "سال 2000" تلفظ می شود. برای سفارشی کردن این تلفظ ها می توانید از واژگان استفاده کنید.

آمازون پولی از فایل های واژگان با فرمت های pls. و xml. پشتیبانی می کند. برای اطلاعات بیشتر ببین مدیریت واژگان.

نتیجه

تگ های Amazon Polly SSML می توانند به شما در شخصی سازی تلفظ به روش های مختلف کمک کنند. ما امیدواریم که این پست به شما یک شروع عالی در دنیای سنتز گفتار بدهد و برنامه های شما را برای ارائه تعاملات انسانی واقعی تر ببرد.


درباره نویسنده

کامپیوتر Abilashkumar یک مهندس پشتیبانی ابر در AWS است. او با مشتریانی کار می کند که راهنمایی های عیب یابی فنی ارائه می دهد و به آنها کمک می کند تا به حجم کاری خود در مقیاس دست یابند. خارج از محل کار، او عاشق رانندگی، دنبال کردن کریکت و مطالعه است.

آبیشک سونی یک معمار راه حل های شریک در AWS است. او با مشتریان کار می کند تا راهنمایی های فنی را برای بهترین نتیجه بارهای کاری در AWS ارائه دهد.

نقطه_img

جدیدترین اطلاعات

نقطه_img