آمازون پولی با تبدیل متن به گفتار واقعی به متن جان می بخشد. این به توسعهدهندگان و کسبوکارها اجازه میدهد تا برنامههایی ایجاد کنند که میتوانند در زمان واقعی مکالمه داشته باشند، در نتیجه یک تجربه تعاملی پیشرفته ارائه میدهند. متن به گفتار (TTS) در آمازون پولی از انواع مختلفی پشتیبانی می کند زبان و محلیها، که شما را قادر میسازد تا تبدیل TTS را مطابق ترجیحات خود انجام دهید. عوامل متعددی مانند موقعیت جغرافیایی و مناطق زبانی این انتخاب را هدایت می کنند.
آمازون پولی از فناوری های پیشرفته یادگیری عمیق برای ترکیب متن به گفتار در زمان واقعی در فرمت های خروجی مختلف مانند MP3، ogg vorbis، JSON یا PCM در سراسر استاندارد و عصبی موتورها زبان نشانه گذاری سنتز گفتار (SSML) پشتیبانی از آمازون پولی قابلیت این سرویس را برای سفارشی کردن گفتار با گزینههای فراوان، از جمله کنترل سرعت و حجم گفتار، اضافه کردن مکث، تأکید بر کلمات یا عبارات خاص، و موارد دیگر تقویت میکند.
در دنیای امروز، کسبوکارها در چندین مکان جغرافیایی به گسترش خود ادامه میدهند و پیوسته به دنبال مکانیسمهایی برای بهبود تعامل شخصیشده با کاربر نهایی هستند. به عنوان مثال، شما ممکن است نیاز به تلفظ دقیق کلمات خاص به سبک خاص مربوط به مکان های جغرافیایی مختلف داشته باشید. کسب و کار شما همچنین ممکن است نیاز داشته باشد کلمات و عبارات خاصی را بسته به معنای مورد نظرشان به روش های خاصی تلفظ کند. شما می توانید با کمک به این امر دست یابید تگ های SSML ارائه شده توسط آمازون پولی.
هدف این پست کمک به شما در شخصی سازی تلفظ در هنگام برخورد با یک پایگاه مشتری واقعاً جهانی است.
تلفظ را با استفاده از واج ها تغییر دهید
واج را می توان کوچکترین واحد گفتار در نظر گرفت. این <phoneme>
تگ SSML در Amazon Polly به شخصی سازی تلفظ بر اساس واج ها با استفاده از IPA (الفبای آوایی بین المللی) یا X-SAMPA (الفبای آوایی روش های ارزیابی گفتار توسعه یافته) کمک می کند. X-SAMPA نمایشی از IPA در رمزگذاری ASCII است. برچسبهای Phoneme هم در موتور TTS استاندارد و هم در موتور عصبی در دسترس هستند و به طور کامل پشتیبانی میشوند. به عنوان مثال، کلمه "سرب" را می توان به عنوان فعل زمان حال تلفظ کرد یا می تواند به عنصر شیمیایی lead اشاره کند. ما در این پست وبلاگ با یک مثال بیشتر در این مورد بحث خواهیم کرد.
الفبای آوایی بین المللی
IPA برای به تصویر کشیدن صداها در زبان های مختلف استفاده می شود. برای لیستی از واج هایی که آمازون پولی پشتیبانی می کند، مراجعه کنید جداول Phoneme و Viseme برای زبان های پشتیبانی شده.
به طور پیش فرض، آمازون پولی تلفظ کلمه را در قالب خاصی تعیین می کند. بیایید از مثال کلمه "سرب" استفاده کنیم، که هنگام اشاره به عنصر شیمیایی یا فعل می تواند تلفظ های مختلفی داشته باشد. در این مثال، زمانی که کلمه "lead" را به عنوان ورودی ارائه می کنیم، به شکل زمان حال گفته می شود (بدون استفاده از برچسب های SSML سفارشی). تلفظ پیش فرض برای L E A D
آمازون پولی شکل زمان حال «سرب» است.
برای برگرداندن تلفظ عنصر شیمیایی lead (که می تواند فعل در زمان گذشته نیز باشد)، می توانیم از واج ها در کنار IPA یا X-SAMPA استفاده کنیم. IPA به طور کلی برای سفارشی کردن تلفظ یک کلمه در یک زبان خاص با استفاده از واج ها استفاده می شود:
با مشخص کردن بخشهایی از گفتار، تلفظ را اصلاح کنید
اگر همان مثال تلفظ "سرب" را در نظر بگیریم، میتوانیم بین عنصر شیمیایی و فعل نیز با مشخص کردن بخشهای گفتار با استفاده از تگ SSML
La <w>
تگ به ما اجازه می دهد تا با مشخص کردن بخش هایی از گفتار، تلفظ را سفارشی کنیم. می توانید تلفظ را از نظر فعل (حال ساده یا گذشته)، اسم، صفت، حرف اضافه و تعیین کننده پیکربندی کنید. مثال زیر را ببینید:
علاوه بر این، می توانید از تگ برای نشان دادن تلفظ کلمات اختصاری و اختصاری:
الفبای آوایی روش های ارزیابی گفتار گسترده
La X-SAMPA طرح رونویسی یک برونیابی برای مجموعه های مختلف واج SAMPA ویژه زبان است.
قطعه زیر نشان می دهد که چگونه می توانید از X-SAMPA برای تلفظ انواع مختلف کلمه "lead" استفاده کنید:
علامت استرس در IPA معمولاً با ˈ نشان داده می شود. ما اغلب با سناریوهایی مواجه می شویم که در آنها یک آپوستروف به جای آن استفاده می شود، که ممکن است خروجی متفاوتی نسبت به انتظار داشته باشد. در X-SAMPA، علامت استرس همان است علامت نقل قول دوتایی، بنابراین باید از یک علامت نقل قول برای کلمه استفاده کنیم و الفبای واجی را مشخص کنیم. مثال زیر را ببینید:
در مثال بالا می توانیم شخصیت را ببینیم ˈ برای تاکید بر کلمه استفاده می شود. به طور مشابه، علامت تنش در X-SAMPA در دو نقل قول زیر نشان داده شده است:
تلفظ ها را با استفاده از سایر تگ های SSML تغییر دهید
شما می توانید با استفاده از <say as>
برای تغییر تلفظ با فعال کردن ویژگی املا یا کاراکتر تگ کنید. علاوه بر این، تلفظ را از نظر ارقام، کسری، واحد، تاریخ، زمان، آدرس، تلفن، کاردینال و ترتیبی تقویت میکند و همچنین میتواند متن محصور شده در برچسب را سانسور کند. برای اطلاعات بیشتر مراجعه کنید کنترل نحوه بیان انواع خاص کلمات. بیایید به نمونه هایی از این ویژگی ها نگاه کنیم.
تاریخ
به طور پیش فرض، آمازون پولی ورودی های متنی متفاوتی را بیان می کند. با این حال، برای مدیریت ویژگی های خاص مانند تاریخ، می توانید از آن استفاده کنید date
ویژگی برای سفارشی کردن تلفظ در قالب مورد نیاز، مانند ماه-روز-سال یا روز-ماه-سال.
بدون date
ویژگی، Amazon Polly خروجی زیر را هنگام بیان تاریخ ها ارائه می دهد:
با این حال، اگر میخواهید تاریخها در قالب خاصی صحبت شوند، ویژگی date در برچسب ها به شخصی سازی تلفظ کمک می کنند:
اصلی
این ویژگی یک عدد را در قالب اصلی آن نشان می دهد. به عنوان مثال، 124456 "صد و بیست و چهار هزار و چهارصد و پنجاه و شش" تلفظ می شود:
معمولی
این ویژگی یک عدد را در قالب ترتیبی آن نشان می دهد. بدون ordinal
ویژگی، عدد به شکل عددی آن تلفظ می شود:
اگر بخواهیم 1242 را "هزار و دویست و چهل ثانیه" تلفظ کنیم، می توانیم از آن استفاده کنیم ordinal
صفت:
شماره
La digits
ویژگی برای بیان اعداد استفاده می شود. به عنوان مثال، "1234" به صورت "یک دو سه چهار" تلفظ می شود:
کسر
La fraction
ویژگی برای سفارشی کردن تلفظ ها به شکل کسری استفاده می شود:
زمان
La time
ویژگی برای اندازه گیری زمان در دقیقه و ثانیه استفاده می شود:
جنایتکارانه
La expletive
ویژگی متن محصور شده در برچسب ها را سانسور می کند:
تلفن
برای تلفظ شماره تلفن می توانید از telephone
به جای تلفظ شماره تلفنها بهعنوان ارقام مستقل یا بهعنوان یک شماره اصلی، مشخص کنید
نشانی:
La address
ویژگی برای سفارشی کردن تلفظ یک آدرس در یک قالب خاص استفاده می شود:
واژگان
ما به برخی از برچسبهای SSML که به راحتی در آمازون پولی در دسترس هستند، نگاه کردهایم. موارد استفاده دیگر ممکن است به درجه بالاتری از کنترل برای تلفظ های سفارشی نیاز داشته باشند. واژگان به دستیابی به این نیاز کمک می کند. زمانی میتوانید از واژگان استفاده کنید که کلمات خاصی باید به شکل خاصی تلفظ شوند که برای آن زبان خاص غیرمعمول است.
یکی دیگر از موارد کاربرد واژگان، استفاده از نامهای اعدادی است که اختصاراتی هستند که با کمک اعداد ایجاد می شوند. به عنوان مثال، Y2K به عنوان "سال 2000" تلفظ می شود. برای سفارشی کردن این تلفظ ها می توانید از واژگان استفاده کنید.
آمازون پولی از فایل های واژگان با فرمت های pls. و xml. پشتیبانی می کند. برای اطلاعات بیشتر ببین مدیریت واژگان.
نتیجه
تگ های Amazon Polly SSML می توانند به شما در شخصی سازی تلفظ به روش های مختلف کمک کنند. ما امیدواریم که این پست به شما یک شروع عالی در دنیای سنتز گفتار بدهد و برنامه های شما را برای ارائه تعاملات انسانی واقعی تر ببرد.
درباره نویسنده
کامپیوتر Abilashkumar یک مهندس پشتیبانی ابر در AWS است. او با مشتریانی کار می کند که راهنمایی های عیب یابی فنی ارائه می دهد و به آنها کمک می کند تا به حجم کاری خود در مقیاس دست یابند. خارج از محل کار، او عاشق رانندگی، دنبال کردن کریکت و مطالعه است.
آبیشک سونی یک معمار راه حل های شریک در AWS است. او با مشتریان کار می کند تا راهنمایی های فنی را برای بهترین نتیجه بارهای کاری در AWS ارائه دهد.