เพลโต ดาต้า อินเทลลิเจนซ์
ค้นหาแนวตั้ง & Ai

ปรับแต่งการออกเสียงโดยใช้พจนานุกรมใน Amazon Polly

วันที่:

Amazon Polly คือ ข้อความเป็นคำพูด บริการที่ใช้เทคโนโลยีการเรียนรู้เชิงลึกขั้นสูงเพื่อสังเคราะห์เสียงพูดของมนุษย์ที่เป็นธรรมชาติ มีการใช้ในกรณีการใช้งานที่หลากหลาย เช่น ระบบศูนย์ติดต่อ การมอบประสบการณ์ผู้ใช้ในการสนทนาด้วยเสียงเหมือนมนุษย์สำหรับการตรวจสอบสถานะแบบเรียลไทม์อัตโนมัติ การสอบถามบัญชีและการเรียกเก็บเงินอัตโนมัติ และโดยสำนักข่าวเช่น The Washington Post เพื่อให้ผู้อ่านได้ฟังบทความข่าว.

ณ วันนี้ Amazon Polly ให้บริการ กว่า 60 เสียงในกว่า 30 ภาษา. Amazon Polly ยังใช้บริบทเพื่อออกเสียงคำบางคำที่แตกต่างกันโดยยึดตามกาลกริยาและข้อมูลตามบริบทอื่นๆ ตัวอย่างเช่น “อ่าน” ใน “ฉันอ่านหนังสือ” (กาลปัจจุบัน) และ “ฉันจะอ่านหนังสือ” (กาลอนาคต) จะออกเสียงต่างกัน

อย่างไรก็ตาม ในบางสถานการณ์ คุณอาจต้องการปรับแต่งวิธีที่ Amazon Polly ออกเสียงคำ ตัวอย่างเช่น คุณอาจต้องจับคู่การออกเสียงกับภาษาท้องถิ่นหรือภาษาท้องถิ่น ชื่อของสิ่งต่างๆ (เช่น มะเขือเทศสามารถออกเสียงได้ว่า ทอม-อา-ไป or ทอม-อาย-ทู) ผู้คน ถนน หรือสถานที่มักออกเสียงได้หลากหลาย

ในโพสต์นี้ เราสาธิตวิธีที่คุณสามารถใช้ประโยชน์จากศัพท์เฉพาะเพื่อสร้างการออกเสียงที่กำหนดเองได้ คุณสามารถใช้พจนานุกรมสำหรับกรณีการใช้งาน เช่น การเผยแพร่ การศึกษา หรือศูนย์บริการ

ปรับแต่งการออกเสียงโดยใช้แท็ก SSML

สมมติว่าคุณสตรีมพอดแคสต์ยอดนิยมจากออสเตรเลีย และคุณใช้เสียงภาษาอังกฤษแบบออสเตรเลียของ Amazon Polly (Olivia) เพื่อแปลงสคริปต์ของคุณเป็นคำพูดที่เหมือนมนุษย์ ในสคริปต์ของคุณ คุณต้องการใช้คำที่เสียงของ Amazon Polly ไม่รู้จัก ตัวอย่างเช่น คุณต้องการส่งคำทักทายมาตาริกิ (ปีใหม่ของชาวเมารี) ไปยังผู้ฟังชาวนิวซีแลนด์ของคุณ สำหรับสถานการณ์ดังกล่าว Amazon Polly รองรับการออกเสียงตามการออกเสียง ซึ่งคุณสามารถใช้เพื่อให้ได้การออกเสียงที่ใกล้เคียงกับการออกเสียงที่ถูกต้องในภาษาต่างประเทศ

คุณสามารถใช้ ภาษามาร์กอัปการสังเคราะห์เสียง (เอสเอสเอ็มแอล) เพื่อแนะนำการออกเสียงตามสัทศาสตร์ในแอตทริบิวต์ ph ให้ฉันแสดงให้คุณดูว่าคุณใช้งานอย่างไร แท็ก SSML

ขั้นแรก เข้าสู่ระบบของคุณ คอนโซล AWS และค้นหา Amazon Polly ในแถบค้นหาที่ด้านบน เลือก Amazon Polly จากนั้นเลือกปุ่ม Try Polly

ในคอนโซล Amazon Polly ให้เลือกภาษาอังกฤษแบบออสเตรเลียจากรายการดรอปดาวน์ของภาษา แล้วป้อนข้อความต่อไปนี้ในกล่องข้อความอินพุต จากนั้นคลิกที่ฟังเพื่อทดสอบการออกเสียง

ขอให้มาตาริกิมีความสุขมากๆ นะคะ

ตัวอย่างคำพูดโดยไม่ใช้การออกเสียงสัทอักษร:

หากคุณได้ยินตัวอย่างคำพูดข้างต้น คุณจะสังเกตได้ว่าการออกเสียงของ มาตาริกิ – คำที่ไม่ได้เป็นส่วนหนึ่งของภาษาอังกฤษออสเตรเลีย – ไม่ค่อยตรงประเด็น ตอนนี้เรามาดูกันว่าในสถานการณ์ดังกล่าว เราจะใช้การออกเสียงแบบสัทศาสตร์โดยใช้ แท็ก SSML เพื่อปรับแต่งคำพูดที่สร้างโดย Amazon Polly

หากต้องการใช้แท็ก SSML ให้เปิดตัวเลือก SSML ในคอนโซล Amazon Polly จากนั้นคัดลอกและวางสคริปต์ SSML ต่อไปนี้ที่มีการออกเสียงการออกเสียงสำหรับ มาตาริกิ ระบุไว้ในแอตทริบิวต์ ph ของ แท็ก

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

กับ แท็ก, Amazon Polly ใช้การออกเสียงที่ระบุโดยแอตทริบิวต์ ph แทนการออกเสียงมาตรฐานที่เชื่อมโยงกับภาษาที่ใช้โดยเสียงที่เลือกโดยค่าเริ่มต้น

ตัวอย่างคำพูดหลังจากใช้การออกเสียงสัทอักษร:

หากคุณได้ยินเสียงตัวอย่าง คุณจะสังเกตเห็นว่าเราเลือกใช้การออกเสียงที่แตกต่างกันสำหรับสระบางสระ (เช่น ā) เพื่อให้ Amazon Polly สังเคราะห์เสียงที่ใกล้เคียงกับการออกเสียงที่ถูกต้องมากขึ้น ตอนนี้คุณอาจมีคำถาม ฉันจะสร้างการถอดเสียงแบบออกเสียงได้อย่างไร “มะ:.tA:.ri.ki” สำหรับคำว่า มาตาริกิ?

คุณสามารถสร้างการถอดเสียงโดยการอ้างถึง ตาราง Phoneme และ Viseme สำหรับภาษาที่รองรับ. ในตัวอย่างข้างต้น เราใช้ the หน่วยเสียงสำหรับภาษาอังกฤษแบบออสเตรเลีย.

Amazon Polly รองรับสัทอักษรสองแบบ: IPA และ X-Sampa ประโยชน์ของ X-Sampa คืออักขระ ASCII มาตรฐาน ดังนั้นจึงง่ายต่อการพิมพ์การถอดเสียงด้วยแป้นพิมพ์ปกติ คุณสามารถใช้ IPA หรือ X-Sampa อย่างใดอย่างหนึ่งเพื่อสร้างการถอดเสียงเป็นคำได้ แต่ต้องแน่ใจว่าสอดคล้องกับตัวเลือกของคุณ โดยเฉพาะอย่างยิ่งเมื่อคุณใช้ไฟล์พจนานุกรมที่เราจะกล่าวถึงในหัวข้อถัดไป

ฟอนิมแต่ละตัวในตารางฟอนิมแสดงถึงเสียงพูด ตัวหนาใน "ตัวอย่าง" คอลัมน์ของตาราง Phoneme/Viseme ในหน้าภาษาอังกฤษของออสเตรเลียที่ลิงก์ด้านบนนี้แสดงถึงส่วนของคำว่า “Phoneme” ที่สอดคล้องกับ ตัวอย่างเช่น ฟอนิม /j/ แทนเสียงที่ผู้พูดภาษาอังกฤษของออสเตรเลียใช้เมื่อออกเสียงตัวอักษร "y" ใน "ใช่"

ปรับแต่งการออกเสียงโดยใช้พจนานุกรม

แท็ก Phoneme เหมาะสำหรับสถานการณ์ที่เกิดขึ้นครั้งเดียวในการปรับแต่งกรณีและปัญหาแบบแยกส่วน แต่สิ่งเหล่านี้ไม่สามารถปรับขนาดได้ หากคุณประมวลผลข้อความจำนวนมาก ซึ่งจัดการโดยบรรณาธิการและผู้ตรวจสอบหลายคน เราขอแนะนำให้ใช้พจนานุกรม การใช้พจนานุกรมช่วยให้คุณเพิ่มความสอดคล้องในการเพิ่มการออกเสียงที่กำหนดเอง และลดความพยายามด้วยตนเองในการแทรกแท็กฟอนิมลงในสคริปต์ได้

แนวปฏิบัติที่ดีคือหลังจากที่คุณทดสอบการออกเสียงแบบกำหนดเองบนคอนโซล Amazon Polly โดยใช้คำสั่ง แท็ก คุณสร้างห้องสมุดของการออกเสียงที่กำหนดเองโดยใช้ พจนานุกรม. เมื่ออัปโหลดไฟล์พจนานุกรมแล้ว Amazon Polly จะใช้การออกเสียงตามการออกเสียงที่ระบุในไฟล์พจนานุกรมโดยอัตโนมัติ และขจัดความจำเป็นในการจัดเตรียม แท็ก

สร้างไฟล์พจนานุกรม

ไฟล์พจนานุกรมประกอบด้วยการจับคู่ระหว่างคำและการออกเสียงตามสัทศาสตร์ ข้อกำหนดศัพท์การออกเสียง (PLS) เป็นคำแนะนำของ W3C สำหรับการระบุข้อมูลการออกเสียงที่ทำงานร่วมกันได้ ต่อไปนี้เป็นตัวอย่างเอกสาร PLS:

<?xml version="1.0" encoding="UTF-8"?>
 <lexicon version="1.0" 
     xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
       http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
     alphabet="x-sampa" xml:lang="en-AU">

<lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme>

<lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme>

 </lexicon>

ตรวจสอบให้แน่ใจว่าคุณใช้ค่าที่ถูกต้องสำหรับ xml:lang สนาม. ใช้ en-AU หากคุณกำลังอัปโหลดไฟล์พจนานุกรมเพื่อใช้กับเสียงภาษาอังกฤษแบบออสเตรเลียของ Amazon Polly สำหรับรายการภาษาที่รองรับทั้งหมด โปรดดูที่ ภาษาที่รองรับโดย Amazon Polly.

หากต้องการระบุการออกเสียงที่กำหนดเอง คุณต้องเพิ่ม a องค์ประกอบซึ่งเป็นภาชนะสำหรับรายการคำศัพท์ที่มีหนึ่งหรือหลายรายการ <grapheme> องค์ประกอบและข้อมูลการออกเสียงอย่างน้อยหนึ่งรายการภายใน <phoneme> ธาตุ.

พื้นที่ <grapheme> องค์ประกอบมีข้อความอธิบาย การสะกดการันต์ ของ ธาตุ. คุณสามารถใช้ a <grapheme> องค์ประกอบเพื่อระบุคำที่คุณต้องการปรับแต่งการออกเสียง คุณสามารถเพิ่มได้หลายรายการ <grapheme> องค์ประกอบเพื่อระบุรูปแบบคำทั้งหมด เช่น มีหรือไม่มีมาโคร ดิ <grapheme> องค์ประกอบจะคำนึงถึงขนาดตัวพิมพ์ และในระหว่างการสังเคราะห์คำพูด สตริง Amazon Polly จะจับคู่คำในสคริปต์ของคุณที่คุณกำลังแปลงเป็นคำพูด หากพบการจับคู่จะใช้ องค์ประกอบซึ่งอธิบายว่า ออกเสียงเพื่อสร้างการถอดเสียง

คุณยังสามารถใช้ <alias> สำหรับคำย่อที่ใช้กันทั่วไป ในตัวอย่างก่อนหน้าของไฟล์พจนานุกรม NZ ใช้เป็นนามแฝงสำหรับ นิวซีแลนด์. ซึ่งหมายความว่าเมื่อใดก็ตามที่ Amazon Polly พบ “NZ” (ตัวพิมพ์เล็กและตัวพิมพ์ตรงกัน) ในเนื้อความของข้อความ มันจะอ่านตัวอักษรสองตัวนั้นเป็น “นิวซีแลนด์”

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับรูปแบบไฟล์พจนานุกรม โปรดดูที่ การออกเสียง Lexicon Specification (PLS) เวอร์ชัน 1.0 บนเว็บไซต์ W3C

คุณสามารถบันทึกไฟล์พจนานุกรมเป็นไฟล์ .pls หรือ .xml ก่อนอัปโหลดไปยัง Amazon Polly

อัปโหลดและใช้ไฟล์พจนานุกรม

อัปโหลดไฟล์พจนานุกรมของคุณไปยัง Amazon Polly โดยใช้คำแนะนำต่อไปนี้:

  1. บนคอนโซล Amazon Polly ให้เลือก พจนานุกรม ในบานหน้าต่างนำทาง
  2. Choose อัปโหลดพจนานุกรม.
  3. ป้อนชื่อพจนานุกรมแล้วเลือก ไฟล์พจนานุกรม.
  4. เลือกไฟล์ที่จะอัปโหลด
  5. Choose อัปโหลดพจนานุกรม.

หากมีพจนานุกรมชื่อเดียวกัน (ไม่ว่าจะเป็นไฟล์ .pls หรือ .xml) การอัปโหลดพจนานุกรมจะเขียนทับศัพท์ที่มีอยู่

ตอนนี้คุณสามารถใช้พจนานุกรมเพื่อปรับแต่งการออกเสียง

  1. Choose Text-to-Speech ในบานหน้าต่างนำทาง
  2. แสดง การตั้งค่าเพิ่มเติม.
  3. เปิดสวิตช์ ปรับแต่งการออกเสียง.
  4. เลือกพจนานุกรมในเมนูแบบเลื่อนลง

คุณยังสามารถเลือก อัปโหลดพจนานุกรม เพื่ออัปโหลดไฟล์พจนานุกรมใหม่ (หรือเวอร์ชันใหม่)

แนวทางปฏิบัติที่ดีในการควบคุมเวอร์ชันไฟล์พจนานุกรมในที่เก็บซอร์สโค้ด การเก็บการออกเสียงที่กำหนดเองไว้ในไฟล์พจนานุกรมช่วยให้แน่ใจว่าคุณสามารถอ้างอิงการออกเสียงตามการออกเสียงสำหรับคำบางคำได้อย่างสม่ำเสมอทั่วทั้งองค์กร นอกจากนี้ โปรดจำไว้ว่าข้อจำกัดการออกเสียงที่กล่าวถึงใน โควต้าใน Amazon Polly หน้า.

ทดสอบการออกเสียงหลังจากใช้พจนานุกรม

มาทำการทดสอบอย่างรวดเร็วโดยใช้ "Wishing all my listeners in NZ, a very Happy Mātariki" เป็นข้อความป้อนเข้า

เราสามารถเปรียบเทียบไฟล์เสียงก่อนและหลังการใช้พจนานุกรม

ก่อนใช้พจนานุกรม:

หลังจากใช้พจนานุกรม:

สรุป

ในโพสต์นี้ เราได้พูดถึงวิธีปรับแต่งการออกเสียงของตัวย่อที่ใช้กันทั่วไปหรือคำที่ไม่พบในภาษาที่เลือกใน Amazon Polly คุณสามารถใช้ได้ แท็ก SSML ซึ่งเหมาะสำหรับการแทรกการปรับแต่งแบบครั้งเดียวหรือเพื่อการทดสอบ เราขอแนะนำให้ใช้ Lexicon เพื่อสร้างชุดการออกเสียงที่สอดคล้องกันสำหรับคำที่ใช้บ่อยทั่วทั้งองค์กรของคุณ ซึ่งจะช่วยให้ผู้เขียนเนื้อหาของคุณใช้เวลากับการเขียนแทนงานน่าเบื่อในการเพิ่มการออกเสียงการออกเสียงในสคริปต์ซ้ำๆ คุณสามารถลองทำสิ่งนี้ได้ในบัญชี AWS ของคุณบนคอนโซล Amazon Polly

สรุปทรัพยากร


เกี่ยวกับผู้เขียน

รัตนกุมาร เป็น Solutions Architect ตั้งอยู่ในเมืองโอ๊คแลนด์ ประเทศนิวซีแลนด์ เขาทำงานร่วมกับลูกค้าองค์กรขนาดใหญ่เพื่อช่วยในการออกแบบและสร้างแอปพลิเคชันระดับอินเทอร์เน็ตที่ปลอดภัย คุ้มค่า และเชื่อถือได้โดยใช้ AWS Cloud เขาหลงใหลในเทคโนโลยีและชอบแบ่งปันความรู้ผ่านโพสต์บนบล็อกและเซสชันการกระตุก

มาชิค เทกิ เป็นหัวหน้านักออกแบบเสียงและผู้จัดการผลิตภัณฑ์สำหรับเสียงแบรนด์พอลลี่ เขาทำงานอย่างมืออาชีพในอุตสาหกรรมเทคโนโลยี ภาพยนตร์ โฆษณา และการแปลเกม ในปี 2013 เขาเป็นวิศวกรเสียงคนแรกที่ได้รับการว่าจ้างให้กับทีม Alexa Text-to- Speech Maciek มีส่วนร่วมในการปล่อยเสียง Alexa TTS 12 เสียงในประเทศต่างๆ เสียงของ Polly กว่า 20 เสียง และเสียงคนดังของ Alexa 4 เสียง Maciek เป็นนักกีฬาไตรกีฬาและเป็นนักกีตาร์อะคูสติกตัวยง

จุด_img

ข่าวกรองล่าสุด

จุด_img

แชทกับเรา

สวัสดี! ฉันจะช่วยคุณได้อย่างไร?