প্লেটো ডেটা ইন্টেলিজেন্স।
উল্লম্ব অনুসন্ধান এবং Ai.

অ্যামাজন পলিতে অভিধান ব্যবহার করে উচ্চারণ কাস্টমাইজ করুন

তারিখ:

আমাজন পলি ইহা একটি টেক্সট্-টু-স্পিচ পরিষেবা যা প্রাকৃতিক-শব্দযুক্ত মানুষের বক্তৃতা সংশ্লেষ করতে উন্নত গভীর শিক্ষার প্রযুক্তি ব্যবহার করে। এটি বিভিন্ন ব্যবহারের ক্ষেত্রে ব্যবহার করা হয়, যেমন যোগাযোগ কেন্দ্র সিস্টেম, স্বয়ংক্রিয় রিয়েল-টাইম স্ট্যাটাস চেক, স্বয়ংক্রিয় অ্যাকাউন্ট এবং বিলিং অনুসন্ধানের জন্য মানুষের মতো কথোপকথনমূলক ব্যবহারকারীর অভিজ্ঞতা প্রদান করা এবং ওয়াশিংটন পোস্টের মতো সংবাদ সংস্থাগুলির দ্বারা পাঠকদের সংবাদ নিবন্ধ শোনার অনুমতি দিতে.

আজকের হিসাবে, অ্যামাজন পলি প্রদান করে 60+ ভাষার ভিন্নতায় 30টিরও বেশি কণ্ঠ. অ্যামাজন পলি ক্রিয়া কাল এবং অন্যান্য প্রাসঙ্গিক তথ্যের উপর ভিত্তি করে নির্দিষ্ট শব্দগুলিকে আলাদাভাবে উচ্চারণের জন্য প্রসঙ্গ ব্যবহার করে। উদাহরণস্বরূপ, "আমি একটি বই পড়ি" (বর্তমান কাল) "পড়ুন" এবং "আমি একটি বই পড়ব" (ভবিষ্যত কাল) আলাদাভাবে উচ্চারিত হয়।

যাইহোক, কিছু পরিস্থিতিতে আপনি আমাজন পলি একটি শব্দ উচ্চারণ করার উপায় কাস্টমাইজ করতে চাইতে পারেন। উদাহরণস্বরূপ, আপনাকে স্থানীয় উপভাষা বা স্থানীয় ভাষার সাথে উচ্চারণ মেলাতে হতে পারে। জিনিসের নাম (উদাহরণস্বরূপ, টমেটো উচ্চারণ করা যেতে পারে টম-আহ-টু or tom-ay-to), মানুষ, রাস্তা বা স্থানগুলি প্রায়শই বিভিন্ন উপায়ে উচ্চারিত হয়।

এই পোস্টে, আমরা দেখাই কিভাবে আপনি কাস্টম উচ্চারণ তৈরি করার জন্য অভিধান ব্যবহার করতে পারেন। আপনি প্রকাশনা, শিক্ষা বা কল সেন্টারের মতো ব্যবহারের ক্ষেত্রে লেক্সিকন প্রয়োগ করতে পারেন।

SSML ট্যাগ ব্যবহার করে উচ্চারণ কাস্টমাইজ করুন

ধরা যাক আপনি অস্ট্রেলিয়া থেকে একটি জনপ্রিয় পডকাস্ট স্ট্রিম করেন এবং আপনি আপনার স্ক্রিপ্টকে মানুষের মতো বক্তৃতায় রূপান্তর করতে অ্যামাজন পলি অস্ট্রেলিয়ান ইংরেজি (অলিভিয়া) ভয়েস ব্যবহার করেন। আপনার একটি স্ক্রিপ্টে, আপনি এমন শব্দ ব্যবহার করতে চান যা Amazon Poly ভয়েসের কাছে অজানা। উদাহরণস্বরূপ, আপনি আপনার নিউজিল্যান্ড শ্রোতাদের মাতারিকি (মাওরি নববর্ষ) শুভেচ্ছা পাঠাতে চান। এই ধরনের পরিস্থিতির জন্য, Amazon Polly ফোনেটিক উচ্চারণ সমর্থন করে, যা আপনি বিদেশী ভাষায় সঠিক উচ্চারণের কাছাকাছি উচ্চারণ অর্জন করতে ব্যবহার করতে পারেন।

আপনি ব্যবহার করতে পারেন বক্তৃতা সংশ্লেষণ মার্কআপ ভাষা (এসএসএমএল) ট্যাগ ph অ্যাট্রিবিউটে একটি ফোনেটিক উচ্চারণের পরামর্শ দিতে। আপনি কিভাবে ব্যবহার করতে পারেন আমাকে দেখান SSML ট্যাগ।

প্রথমে আপনার লগ ইন করুন AWS কনসোল এবং উপরের সার্চ বারে অ্যামাজন পলি অনুসন্ধান করুন। অ্যামাজন পলি নির্বাচন করুন এবং তারপরে পলি বোতামটি বেছে নিন।

অ্যামাজন পলি কনসোলে, ভাষা ড্রপডাউন থেকে অস্ট্রেলিয়ান ইংরেজি নির্বাচন করুন এবং ইনপুট পাঠ্য বাক্সে নিম্নলিখিত পাঠ্যটি লিখুন এবং তারপর উচ্চারণ পরীক্ষা করতে Listen এ ক্লিক করুন।

আমি আপনাদের সবাইকে মাতারিকির শুভেচ্ছা জানাচ্ছি।

ফোনেটিক উচ্চারণ প্রয়োগ না করে নমুনা বক্তৃতা:

আপনি উপরের নমুনা বক্তৃতা শুনতে, আপনি যে উচ্চারণ লক্ষ্য করতে পারেন মাতারিকি – এমন একটি শব্দ যা অস্ট্রেলিয়ান ইংরেজির অংশ নয় – একেবারে স্পট-অন নয়। এখন, আসুন দেখি কিভাবে এই ধরনের পরিস্থিতিতে আমরা ফোনেটিক উচ্চারণ ব্যবহার করে ব্যবহার করতে পারি অ্যামাজন পলি দ্বারা উত্পাদিত বক্তৃতা কাস্টমাইজ করতে SSML ট্যাগ৷

এসএসএমএল ট্যাগ ব্যবহার করতে, অ্যামাজন পলি কনসোলে এসএসএমএল বিকল্পটি চালু করুন। তারপর অনুলিপি করুন এবং নিম্নলিখিত SSML স্ক্রিপ্টের জন্য ধ্বনিগত উচ্চারণ সহ পেস্ট করুন মাতারিকি এর ph অ্যাট্রিবিউটের ভিতরে নির্দিষ্ট করা হয়েছে ট্যাগ

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

সঙ্গে সঙ্গে ট্যাগ, Amazon Polly নির্বাচিত ভয়েস দ্বারা ব্যবহৃত ভাষার সাথে ডিফল্টভাবে যুক্ত মান উচ্চারণের পরিবর্তে ph বৈশিষ্ট্য দ্বারা নির্দিষ্ট উচ্চারণ ব্যবহার করে।

ফোনেটিক উচ্চারণ প্রয়োগের পর নমুনা বক্তৃতা:

আপনি যদি নমুনা শব্দটি শুনতে পান, আপনি লক্ষ্য করবেন যে আমরা কিছু স্বরবর্ণের (যেমন, ā) জন্য একটি ভিন্ন উচ্চারণ বেছে নিয়েছি যাতে অ্যামাজন পলি সঠিক উচ্চারণের কাছাকাছি শব্দগুলিকে সংশ্লেষিত করে। এখন আপনার একটি প্রশ্ন থাকতে পারে, আমি কীভাবে ফোনেটিক ট্রান্সক্রিপশন তৈরি করব "mA:.tA:.ri.ki" শব্দের জন্য মাতারিকি?

আপনি উল্লেখ করে ফোনেটিক ট্রান্সক্রিপশন তৈরি করতে পারেন সমর্থিত ভাষার জন্য Phoneme এবং Viseme টেবিল. উপরের উদাহরণে আমরা ব্যবহার করেছি অস্ট্রেলিয়ান ইংরেজি জন্য ধ্বনি.

অ্যামাজন পলি দুটি ফোনেটিক বর্ণমালায় সমর্থন অফার করে: IPA এবং X-Sampa। X-Sampa-এর সুবিধা হল যে তারা আদর্শ ASCII অক্ষর, তাই সাধারণ কীবোর্ড দিয়ে ফোনেটিক ট্রান্সক্রিপশন টাইপ করা সহজ। আপনি আপনার ট্রান্সক্রিপশন তৈরি করতে IPA বা X-Sampa যেকোন একটি ব্যবহার করতে পারেন, তবে আপনার পছন্দের সাথে সামঞ্জস্যপূর্ণ থাকার বিষয়টি নিশ্চিত করুন, বিশেষ করে যখন আপনি একটি অভিধান ফাইল ব্যবহার করেন যা আমরা পরবর্তী বিভাগে কভার করব।

ফোনেম টেবিলের প্রতিটি ফোনমে একটি বক্তৃতা শব্দ উপস্থাপন করে। বোল্ড করা অক্ষর "উদাহরণ" উপরে লিঙ্ক করা অস্ট্রেলিয়ান ইংরেজি পৃষ্ঠায় Phoneme/Viseme টেবিলের কলাম "Phoneme" শব্দের অংশটিকে উপস্থাপন করে। উদাহরণস্বরূপ, ফোনমে /j/ সেই শব্দটি উপস্থাপন করে যা একজন অস্ট্রেলিয়ান ইংরেজি স্পিকার "হ্যাঁ" তে "y" অক্ষরটি উচ্চারণ করার সময় করে।

অভিধান ব্যবহার করে উচ্চারণ কাস্টমাইজ করুন

Phoneme ট্যাগগুলি বিচ্ছিন্ন কেসগুলি কাস্টমাইজ করার জন্য এক-অফ পরিস্থিতিতে উপযুক্ত, তবে এগুলি মাপযোগ্য নয়৷ আপনি যদি বিভিন্ন সম্পাদক এবং পর্যালোচকদের দ্বারা পরিচালিত বিশাল পরিমাণ পাঠ্য প্রক্রিয়াকরণ করেন, আমরা লেক্সিকন ব্যবহার করার পরামর্শ দিই। অভিধান ব্যবহার করে, আপনি কাস্টম উচ্চারণ যোগ করার ক্ষেত্রে ধারাবাহিকতা অর্জন করতে পারেন এবং একই সাথে স্ক্রিপ্টে ফোনমে ট্যাগ ঢোকানোর ম্যানুয়াল প্রচেষ্টা কমাতে পারেন।

একটি ভাল অভ্যাস হল যে আপনি অ্যামাজন পলি কনসোলে ব্যবহার করে কাস্টম উচ্চারণ পরীক্ষা করার পরে ট্যাগ, আপনি ব্যবহার করে কাস্টমাইজড উচ্চারণের একটি লাইব্রেরি তৈরি করেন অভিধান. একবার লেক্সিকন ফাইল আপলোড হয়ে গেলে, অ্যামাজন পলি স্বয়ংক্রিয়ভাবে লেক্সিকন ফাইলে নির্দিষ্ট করা ফোনেটিক উচ্চারণ প্রয়োগ করবে এবং ম্যানুয়ালি প্রদান করার প্রয়োজনীয়তা দূর করবে ট্যাগ

একটি অভিধান ফাইল তৈরি করুন

একটি অভিধান ফাইলে শব্দ এবং তাদের ধ্বনিগত উচ্চারণের মধ্যে ম্যাপিং রয়েছে। উচ্চারণ লেক্সিকন স্পেসিফিকেশন (PLS) ইন্টারঅপারেবল উচ্চারণ তথ্য নির্দিষ্ট করার জন্য একটি W3C সুপারিশ। নিম্নলিখিত একটি উদাহরণ PLS নথি:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

নিশ্চিত করুন যে আপনি এর জন্য সঠিক মান ব্যবহার করেন xml:lang ক্ষেত্র ব্যবহার করুন en-AU আপনি যদি অ্যামাজন পলি অস্ট্রেলিয়ান ইংরেজি ভয়েস ব্যবহার করার জন্য লেক্সিকন ফাইল আপলোড করছেন। সমর্থিত ভাষার সম্পূর্ণ তালিকার জন্য, পড়ুন অ্যামাজন পলি দ্বারা সমর্থিত ভাষা.

একটি কাস্টম উচ্চারণ নির্দিষ্ট করতে, আপনাকে একটি যোগ করতে হবে উপাদান যা এক বা একাধিক সহ একটি আভিধানিক এন্ট্রির জন্য একটি ধারক <grapheme> উপাদান এবং ভিতরে দেওয়া এক বা একাধিক উচ্চারণ তথ্য <phoneme> উপাদান।

সার্জারির <grapheme> উপাদান বর্ণনা টেক্সট রয়েছে বানান এর উপাদান আপনি একটি ব্যবহার করতে পারেন <grapheme> যে শব্দের উচ্চারণ আপনি কাস্টমাইজ করতে চান সেটি নির্দিষ্ট করতে উপাদান। আপনি একাধিক যোগ করতে পারেন <grapheme> সমস্ত শব্দ বৈচিত্র উল্লেখ করার জন্য উপাদান, উদাহরণস্বরূপ ম্যাক্রোন সহ বা ছাড়া। দ্য <grapheme> উপাদানটি কেস-সংবেদনশীল, এবং বক্তৃতা সংশ্লেষণের সময় অ্যামাজন পলি স্ট্রিং আপনার স্ক্রিপ্টের ভিতরের শব্দগুলির সাথে মেলে যেগুলি আপনি বক্তৃতায় রূপান্তর করছেন৷ একটি মিল পাওয়া গেলে, এটি ব্যবহার করে উপাদান, যা বর্ণনা করে কিভাবে উচ্চারিত হয় ফোনেটিক ট্রান্সক্রিপশন তৈরি করতে।

আপনি ব্যবহার করতে পারেন <alias> সাধারণভাবে ব্যবহৃত সংক্ষিপ্ত রূপের জন্য। একটি অভিধান ফাইলের পূর্ববর্তী উদাহরণে, NZ জন্য একটি উপনাম হিসাবে ব্যবহৃত হয় নিউ জিল্যান্ড. এর মানে হল যে যখনই অ্যামাজন পলি টেক্সটের মূল অংশে "NZ" (মেল কেস সহ) জুড়ে আসে, তখন এটি সেই দুটি অক্ষর "নিউজিল্যান্ড" হিসাবে পড়বে।

লেক্সিকন ফাইল ফরম্যাট সম্পর্কে আরও তথ্যের জন্য, দেখুন উচ্চারণ লেক্সিকন স্পেসিফিকেশন (PLS) সংস্করণ 1.0 W3C ওয়েবসাইটে।

আপনি অ্যামাজন পলিতে আপলোড করার আগে একটি .pls বা .xml ফাইল হিসাবে একটি অভিধান ফাইল সংরক্ষণ করতে পারেন৷

লেক্সিকন ফাইল আপলোড করুন এবং প্রয়োগ করুন

নিম্নলিখিত নির্দেশাবলী ব্যবহার করে অ্যামাজন পলিতে আপনার লেক্সিকন ফাইল আপলোড করুন:

  1. অ্যামাজন পলি কনসোলে, নির্বাচন করুন অভিধান নেভিগেশন ফলকে।
  2. বেছে নিন অভিধান আপলোড করুন.
  3. অভিধানের জন্য একটি নাম লিখুন এবং তারপর নির্বাচন করুন একটি অভিধান ফাইল.
  4. আপলোড করার জন্য ফাইলটি বেছে নিন।
  5. বেছে নিন অভিধান আপলোড করুন.

যদি একই নামের একটি অভিধান (যেটি একটি .pls বা .xml ফাইলই হোক না কেন) ইতিমধ্যেই বিদ্যমান থাকলে, অভিধান আপলোড করলে বিদ্যমান অভিধানটি ওভাররাইট হয়।

এখন আপনি উচ্চারণ কাস্টমাইজ করতে অভিধান প্রয়োগ করতে পারেন।

  1. বেছে নিন পাঠ্য থেকে স্পিচ নেভিগেশন ফলকে।
  2. বিস্তৃত করা অতিরিক্ত বিন্যাস.
  3. চালু করা উচ্চারণ কাস্টমাইজ করুন.
  4. ড্রপ-ডাউন মেনুতে অভিধান নির্বাচন করুন।

আপনি চয়ন করতে পারেন অভিধান আপলোড করুন একটি নতুন লেক্সিকন ফাইল (বা একটি নতুন সংস্করণ) আপলোড করতে।

সোর্স কোড রিপোজিটরিতে লেক্সিকন ফাইলের সংস্করণ নিয়ন্ত্রণ করার জন্য এটি একটি ভাল অনুশীলন। একটি লেক্সিকন ফাইলে কাস্টম উচ্চারণ রাখা নিশ্চিত করে যে আপনি ধারাবাহিকভাবে প্রতিষ্ঠান জুড়ে নির্দিষ্ট শব্দগুলির জন্য উচ্চারণগত উচ্চারণগুলি উল্লেখ করতে পারেন৷ এছাড়াও, উল্লিখিত উচ্চারণ অভিধান সীমা মনে রাখবেন অ্যামাজন পলিতে কোটা পাতা.

অভিধান প্রয়োগ করার পর উচ্চারণ পরীক্ষা করুন

আসুন ইনপুট টেক্সট হিসাবে "Wishing my all listeners in NZ, a very Happy Mātariki" ব্যবহার করে দ্রুত পরীক্ষা করি।

আমরা অভিধান প্রয়োগ করার আগে এবং পরে অডিও ফাইলগুলি তুলনা করতে পারি।

অভিধান প্রয়োগ করার আগে:

অভিধান প্রয়োগ করার পরে:

উপসংহার

এই পোস্টে, আমরা আলোচনা করেছি যে আপনি কীভাবে সাধারণভাবে ব্যবহৃত সংক্ষিপ্ত শব্দের উচ্চারণ বা অ্যামাজন পলিতে নির্বাচিত ভাষায় পাওয়া যায় না এমন শব্দের উচ্চারণ কাস্টমাইজ করতে পারেন। তুমি ব্যবহার করতে পার SSML ট্যাগ যা এক-অফ কাস্টমাইজেশন বা পরীক্ষার উদ্দেশ্যে সন্নিবেশ করার জন্য দুর্দান্ত। আমরা আপনার প্রতিষ্ঠান জুড়ে প্রায়শই ব্যবহৃত শব্দগুলির জন্য উচ্চারণের একটি সামঞ্জস্যপূর্ণ সেট তৈরি করতে Lexicon ব্যবহার করার পরামর্শ দিই। এটি আপনার বিষয়বস্তু লেখকদের স্ক্রিপ্টে পুনরাবৃত্তিমূলকভাবে ধ্বনিগত উচ্চারণ যোগ করার ক্লান্তিকর কাজের পরিবর্তে লেখায় সময় ব্যয় করতে সক্ষম করে। আপনি অ্যামাজন পলি কনসোলে আপনার AWS অ্যাকাউন্টে এটি চেষ্টা করতে পারেন।

সম্পদের সারাংশ


লেখক সম্পর্কে

রতন কুমার নিউজিল্যান্ডের অকল্যান্ডে অবস্থিত একজন সমাধান স্থপতি। তিনি AWS ক্লাউড ব্যবহার করে নিরাপদ, সাশ্রয়ী, এবং নির্ভরযোগ্য ইন্টারনেট স্কেল অ্যাপ্লিকেশন ডিজাইন এবং তৈরি করতে সাহায্য করে বড় এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করেন। তিনি প্রযুক্তি সম্পর্কে উত্সাহী এবং ব্লগ পোস্ট এবং টুইচ সেশনের মাধ্যমে জ্ঞান ভাগ করে নেওয়া পছন্দ করেন।

ম্যাসিক টেগি পলি ব্র্যান্ড ভয়েসের জন্য একজন প্রধান অডিও ডিজাইনার এবং প্রোডাক্ট ম্যানেজার। তিনি প্রযুক্তি শিল্প, চলচ্চিত্র, বিজ্ঞাপন এবং গেম স্থানীয়করণে পেশাদার ক্ষমতায় কাজ করেছেন। 2013 সালে, তিনি আলেক্সা টেক্সট-টু-স্পীচ দলে নিয়োগপ্রাপ্ত প্রথম অডিও ইঞ্জিনিয়ার ছিলেন। ম্যাসিক বিভিন্ন দেশে 12টি আলেক্সা টিটিএস ভয়েস, 20 টিরও বেশি পলি ভয়েস এবং 4টি আলেক্সা সেলিব্রিটি ভয়েস প্রকাশের সাথে জড়িত ছিলেন। ম্যাসিক একজন ট্রায়াথলিট এবং একজন আগ্রহী অ্যাকোস্টিক গিটার বাদক।

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি

আমাদের সাথে খোস গল্প কর

হাই সেখানে! আপনাকে কিভাবে সাহায্য করতে পারি?