SCB 10X เปิดตัว Typhoon Isan AI โมเดล ASR ภาษาอีสานที่สามารถถอดเสียงและสะกดคำอย่างเป็นระบบรายแรก และ Open-Source Data ภาษาอีสาน สู่การพัฒนา AI ที่เข้าใจภาษาทุกถิ่น ทุกสำเนียง

เอสซีบี เท็นเอกซ์ (SCB 10X) บริษัทด้านการลงทุนในเทคโนโลยีเปลี่ยนโลก (Disruptive Technology) ภายใต้กลุ่มเอสซีบีเอกซ์ (SCBX Group) เดินหน้าผลักดันระบบนิเวศและคอมมูนิตี้ด้าน AI ในประเทศไทยอย่างต่อเนื่อง ภายใต้วิสัยทัศน์ในการสร้าง AI เพื่อคนไทย ที่ทรงพลัง น่าเชื่อถือ และเข้าใจความเป็นมนุษย์ พร้อมตอกย้ำบทบาทในการขับเคลื่อนเทคโนโลยี AI เพื่อสะท้อนอัตลักษณ์ทางภาษาและวัฒนธรรมของประเทศ ผ่านงาน TYPHOON เฮ็ดให้ AI ใจอีสาน ที่จัดขึ้นเพื่อเปิดตัวโครงการ Typhoon Isan โมเดลถอดเสียงเป็นข้อความภาษาอีสานที่สามารถถอดเสียงและสะกดคำอย่างเป็นระบบรายแรก พร้อมทั้งเปิดหลักเกณฑ์การใช้งานและคลังข้อมูลที่จะช่วยยกระดับการพัฒนาเทคโนโลยีภาษาไปอีกขั้น
โมเดลถอดเสียงเป็นตัวอักษร (ASR) ในปัจจุบันยังไม่สามารถรองรับ ภาษาถิ่น ได้อย่างมีประสิทธิภาพ โดยเฉพาะภาษาที่มีการเก็บข้อมูลในระบบดิจิทัลน้อยมาก เมื่อผู้ใช้สื่อสารด้วยภาษาถิ่น โมเดล AI จึงไม่สามารถถอดคำพูดหรือสำเนียงของภาษาถิ่นได้อย่างถูกต้อง จึงเกิดเป็นจุดเริ่มต้นการของพัฒนาโมเดลภาษาถิ่น โดย SCB 10X เลือกพัฒนาภาษาอีสานเป็นอันดับแรก เพราะจากข้อมูลพบว่าประเทศไทยมีผู้ใช้งานภาษาอีสานราว 20 ล้านคน คิดเป็นหนึ่งในสามของประชากรทั้งประเทศ อีกทั้งภาคอีสานสามารถสร้างมูลค่า GDP รวมกว่า 180,000 ล้านบาท หรือประมาณ 10% ของมูลค่าเศรษฐกิจไทย นอกจากนี้ยังมีแรงงานที่ใช้ภาษาอีสานทำงานในหลากหลายอุตสาหกรรม และมีวัฒนธรรมที่เป็นเอกลักษณ์ อย่างไรก็ตาม ภาษาอีสานเป็นภาษาพูดที่ยังไม่มีมาตรฐานการเขียนที่ชัดเจน การบันทึกเสียงและคำพูดภาษาอีสานได้อย่างเป็นระบบจึงถือเป็นก้าวสำคัญในการรักษาภูมิปัญญาและวัฒนธรรม อันจะนำไปสู่การช่วยส่งเสริมเศรษฐกิจดิจิทัลของประเทศในระยะยาว
ด้วยความมุ่งมั่นที่ว่า AI ควรเข้าใจเสียงของคนไทยทุกถิ่น ทีมวิจัยและพัฒนาของ SCB 10X จึงได้พัฒนาโครงการ Typhoon Isan ซึ่งเป็นโครงการวิจัยแบบเปิด (Open-Source AI Initiative) ที่มุ่งสร้างและเผยแพร่โมเดล AI เชิงวิจัย (Research-driven) ที่เข้าใจภาษา วัฒนธรรม และเสียงพูดในบริบทของประเทศไทยอย่างแท้จริง โครงการนี้เกิดจากความร่วมมือระหว่างทีมวิจัยของ SCB 10X กับนักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนท้องถิ่น เพื่อสร้างมาตรฐานใหม่ให้กับภาษาอีสานในโลกดิจิทัล
ภายในงาน TYPHOON เฮ็ดให้ AI ใจอีสาน ได้เปิดตัวผลงานวิจัยหลัก ได้แก่ Typhoon Isan ASR (Automatic Speech Recognition) โมเดลโอเพนซอร์สที่สามารถถอดเสียงภาษาอีสานออกมาเป็นข้อความได้อย่างแม่นยำ และเปิดเผยเบื้องหลังพร้อมชุดสาธิตของ Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความเป็นเสียงพูด ที่สามารถพูดภาษาอีสานได้อย่างเป็นธรรมชาติ พร้อมปล่อยชุดข้อมูลภาษาอีสานแบบเปิดที่วิจัยและจัดเก็บอย่างเป็นระบบ (Open Data) ประกอบด้วย
Isan Speech Transcription Convention แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง
Isan Spelling Standard อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย
Isan Speech Corpus ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ
Isan Phonetic Dictionary พจนานุกรมคำอ่านที่เชื่อมโยงคำกับการออกเสียงในภาษาอีสาน
โครงการ Typhoon Isan ถือเป็นอีกหนึ่งก้าวสำคัญของ SCB 10X ในการพัฒนาเทคโนโลยีที่สอดคล้องกับอัตลักษณ์ของคนไทย และตอกย้ำพันธกิจในการสร้าง AI ที่ครอบคลุม เข้าถึงได้ และสะท้อนเสียงของทุกคน


