Speech to Text คืออะไร สำคัญต่ออุตสาหกรรม?

Speech to Text คืออะไร สำคัญต่ออุตสาหกรรม?

What is Speech to Text

Speech to Text คืออะไร
Speech to Text หรือ Automatic Speech Recognition (ASR) เทคโนโลยีแปลงเสียงเป็นข้อความ โดยจะเป็นการแปลงภาษาพูดของมนุษย์ให้เป็นข้อความเขียนด้วยกระบวนการทางคอมพิวเตอร์ มีวัตถุประสงค์เพื่อให้คอมพิวเตอร์หรือเครื่องมือต่าง ๆ สามารถรับรู้และเข้าใจภาษาพูดของมนุษย์ได้ ซึ่งสามารถนำไปพัฒนาต่อได้อย่างหลากหลาย

หลักการทำงานของเทคโนโลยี Speech to Text
1. การรับสัญญาณเสียง เทคโนโลยี Speech to Text
2. การแปลงสัญญาณเสียงเป็นสัญญาณดิจิทัลที่คอมพิวเตอร์สามารถประมวลผลได้
3. การวิเคราะห์สัญญาณดิจิทัลเพื่อดึงคุณลักษณะเสียง
4. การจำลองภาษาโดยใช้โมเดลภาษา
5.การแปลผลลัพธ์เป็นข้อความที่สมบูรณ์

          เทคโนโลยีสมัยใหม่สามารถที่จะแปรงเสียงเป็นข้อความได้ นั้นคือ Speech to Text ถือเป็นหนึ่งในการที่ใช้ AI เข้ามาช่วยพัฒนาและประมวลผลภาษาธรรมชาติ โดยวันนี้เราจะมาขยายกันว่า Speech to Text คืออะไรและสำคัญต่ออุตสาหกรรม

           Speech to Text หรือ Automatic Speech Recognition (ASR) เทคโนโลยีแปลงเสียงเป็นข้อความ โดยจะเป็นการแปลงภาษาพูดของมนุษย์ให้เป็นข้อความเขียนด้วยกระบวนการทางคอมพิวเตอร์ มีวัตถุประสงค์เพื่อให้คอมพิวเตอร์หรือเครื่องมือต่าง ๆ สามารถรับรู้และเข้าใจภาษาพูดของมนุษย์ได้ ซึ่งสามารถนำไปพัฒนาต่อได้อย่างหลากหลาย
 
         โดยเทคโนโลยี Speech to Text นั้น ถือเป็นหนึ่งในเทคโนโลยีที่พัฒนามาจาก AI หรือปัญญาประดิษฐ์ ที่พัฒนาขึ้นเพื่อการประมวลผลภาษาธรรมชาติ หรือ Natural Language Processing (NLP) ดังนั้นในหลาย ๆ ครั้งเทคโนโลยีนี้จึงถูกเรียกว่า “AI แปลงเสียงเป็นข้อความ”
 
หลักการทำงานของเทคโนโลยี Speech to Text
1. การรับสัญญาณเสียง เทคโนโลยี Speech to Text จะมีการรับสัญญาณเสียงจากอุปกรณ์รับสัญญาณเสียงที่เชื่อมต่อ หรืออยู่ในอุปกรณ์ต่าง ๆ เช่น ไมโครโฟนบนโทรศัพท์มือถือ ไมโครโฟนที่มาพร้อมหูฟัง หรืออุปกรณ์เสียงอื่น ๆ
2. การแปลงสัญญาณเสียงเป็นสัญญาณดิจิทัลที่คอมพิวเตอร์สามารถประมวลผลได้ โดยการแปลงคลื่นเสียงแอนะล็อกให้กลายเป็นสัญญาณดิจิทัลด้วยกระบวนการต่าง ๆ ซึ่งจะแบ่งได้เป็น 4 กระบวนการหลัก ดังนี้
- การแซมปลิ้งสัญญาณ (Signal Sampling)
- การควอนไทซ์สัญญาณ (Signal Quantization)
- การเข้ารหัสสัญญาณดิจิทัล (Digital Encoding)
- การบีบอัดสัญญาณ (Signal Compression)
3. การวิเคราะห์สัญญาณดิจิทัลเพื่อดึงคุณลักษณะเสียง เพื่อจำแนกคุณลักษณะของเสียงโดยวิเคราะห์จากความถี่ ระยะเวลา และโทนเสียง
4. การจำลองภาษาโดยใช้โมเดลภาษา เพื่อวิเคราะห์ลำดับคุณลักษณะเสียงและคาดเดาคำหรือวลีที่พูดออกมาว่าคือคำอะไร โดยอาศัยหลักการของการประมวลผลภาษาธรรมชาติ (Natural Language Processing)
5.การแปลผลลัพธ์เป็นข้อความที่สมบูรณ์ โดยใช้ข้อมูลที่ได้จากการคาดเดาของโมเดลภาษา มาแปลงเป็นแผนผังประโยค และปรับแก้ไขข้อผิดพลาดต่าง ๆ เพื่อแสดงผลเป็นข้อความที่สมบูรณ์ที่สุด
 
     >>> จบกันไปแล้วสำหรับเนื้อหาที่เรานำเสนอวันนี้ และครั้งต่อไปเราจะนำเสนอเรื่องใด สามารถติดตามพวกเราได้หรือเยี่ยมชมและรับข่าวสารต่าง ๆ ได้ที่
Facebook : FACTORIPRO
Youtube : FACTORIPRO
Website : www.FactoriPro.com
 
 
เพิ่มเพื่อน - ติดต่อสอบถาม
 Line : @FACTORIPRO
 
ไลน์ Line FactoriPro

 

Visitors: 17,708