สรุปไฮไลต์ ไต้ฝุ่น โมเดล AI ภาษาไทยที่ความสามารถเทียบเท่า GPT-3.5 พัฒนาโดย SCB 10X พร้อมเปิดให้คนไทย ใช้ฟรี
14 มี.ค. 2024
ช่วงไม่กี่เดือนที่ผ่านมานี้ หนึ่งในเรื่องที่ได้รับการพูดถึงมากที่สุด ของวงการเทคโนโลยีในประเทศไทย
คงหนีไม่พ้นการที่ SCB 10X ประกาศเปิดตัว “ไต้ฝุ่น” (Typhoon) โมเดลภาษาขนาดใหญ่ (Large Language Model หรือ LLM) เวอร์ชันภาษาไทย
ที่ได้รับการพัฒนามาเพื่อภาษาไทยโดยเฉพาะ จนมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ ที่พัฒนาขึ้นโดย OpenAI
เรื่องที่น่าสนใจก็คือ ทำไม SCB 10X ต้องพัฒนาโมเดลภาษาขนาดใหญ่เวอร์ชันภาษาไทย เป็นของตัวเอง
ในเมื่อตอนนี้ บริษัทเทคโนโลยีต่างชาติ ก็ต่างมีการพัฒนาเทคโนโลยี AI ให้คนทั่วโลกได้เลือกใช้งานกันอยู่แล้ว
ไม่ว่าจะเป็น ChatGPT ของ OpenAI
Copilot ของ Microsoft
และ Gemini ของ Google เป็นต้น
Copilot ของ Microsoft
และ Gemini ของ Google เป็นต้น
MarketThink จะพาไปหาคำตอบกันแบบเข้าใจง่าย ๆ ในโพสต์นี้..
เรื่องแรกเลย ต้องทำความเข้าใจกันก่อนว่า AI จากบริษัทต่างชาติ ที่เราใช้งานกันอยู่ในทุกวันนี้ ล้วนแล้วแต่พัฒนาขึ้นมา โดยมีข้อมูลภาษาอังกฤษ เป็นพื้นฐานหลัก
ทำให้ในบางครั้ง ถ้าใครเคยใช้งาน AI โดยป้อนคำสั่ง (Prompt) เป็นภาษาไทย ก็จะได้รับคำตอบแบบไม่แม่นยำ
เช่น ถามสูตรการทำไก่ย่างแบบไทย ๆ
แต่กลับได้สูตรการทำไก่งวง แบบที่ชาติตะวันตกชอบทำ
แต่กลับได้สูตรการทำไก่งวง แบบที่ชาติตะวันตกชอบทำ
ถามสถานที่ท่องเที่ยวในกรุงเทพฯ
แต่กลับได้รับคำตอบเป็นสถานที่ท่องเที่ยวในต่างประเทศเข้ามาปะปน
แต่กลับได้รับคำตอบเป็นสถานที่ท่องเที่ยวในต่างประเทศเข้ามาปะปน
หรือถามเนื้อเพลงชาติไทย
แต่กลับได้เนื้อเพลงชาติไทย แบบแปลก ๆ ที่ไม่มีใครเคยได้ยินมาก่อน
แต่กลับได้เนื้อเพลงชาติไทย แบบแปลก ๆ ที่ไม่มีใครเคยได้ยินมาก่อน
แม้อ่านดูแล้วจะเป็นเหมือนเรื่องขำ ๆ แต่ปัญหานี้ ส่งผลกระทบต่อ “คนไทย” มากกว่าที่คิด..
เพราะเรื่องนี้สะท้อนให้เห็นว่า AI ที่มีอยู่ในปัจจุบัน ไม่เข้าใจภาษา วัฒนธรรม และบริบทแบบไทย ๆ เลยแม้แต่น้อย
ซึ่งเรื่องนี้ มีต้นตอของปัญหา จากการที่ภาษาไทย ถูกจัดให้อยู่ในกลุ่ม Low Resource Language หรือภาษาที่มีข้อมูล สำหรับการนำมาฝึกฝน AI น้อย
เทียบให้เห็นภาพง่าย ๆ ภาษาอังกฤษ เป็นภาษาที่มีข้อมูลในสัดส่วนมากถึง 45%
ในขณะที่ภาษาไทย เป็นภาษาที่มีข้อมูลเพียงแค่ 0.4% เท่านั้น
ในขณะที่ภาษาไทย เป็นภาษาที่มีข้อมูลเพียงแค่ 0.4% เท่านั้น
นั่นหมายความว่า AI ที่เราใช้งานกันอยู่ในทุกวันนี้ ไม่มีทางเข้าใจภาษา วัฒนธรรม และบริบทแบบไทย ๆ ได้ดี อย่างแน่นอน
ทำให้การนำ AI ไปประยุกต์ใช้ในอุตสาหกรรมต่าง ๆ ก็จะทำได้ยาก เพราะข้อมูลภาษาไทยที่ต้นทางมีน้อย และไม่ได้ถูกเปิดให้สามารถเข้าถึงข้อมูลได้อย่างเป็นสาธารณะ
นอกจากนี้ ในอีกมุมหนึ่ง การใช้งาน AI ที่พัฒนาโดยบริษัทต่างชาติ ของผู้ประกอบการในประเทศไทย ยังมีค่าใช้จ่ายที่สูง และเป็นต้นทุนที่ต้องแบกรับ
ซึ่งโดยปกติแล้ว AI ที่บริษัทต่างชาติให้บริการแก่ลูกค้าระดับองค์กร จะมีการคิดค่าใช้จ่ายในการประมวลผล ตามจำนวนคำที่ใช้งาน
หากต้องการนำ AI ไปใช้กับการให้บริการลูกค้า หรือเป็นเครื่องมือในการทำงานหลังบ้าน ให้กับพนักงาน ก็จะมีค่าใช้จ่ายที่เกิดขึ้น ยิ่งใช้มาก ยิ่งต้องจ่ายมาก
และยิ่งภาษาไทย จัดอยู่ในกลุ่ม Low Resource Language ก็จะยิ่งทำให้การใช้ AI ในภาษาไทย มีค่าใช้จ่ายที่แพงขึ้นไปอีก
ด้วยปัญหาที่เกิดขึ้นทั้งหมดนี้เอง จึงกลายเป็นจุดเริ่มต้นที่ทำให้ SCB 10X ตัดสินใจพัฒนา “ไต้ฝุ่น” ซึ่งเป็นโมเดลภาษาขนาดใหญ่
ที่มีความสามารถด้านภาษาไทย ขึ้นมาโดยเฉพาะ โดยใช้ระยะเวลาในการพัฒนาเพียง 6 เดือนเท่านั้น
แล้วถ้าถามว่า โครงการพัฒนา AI ภาษาไทย ที่ใช้เวลาเพียง 6 เดือน จะทำให้ไต้ฝุ่น AI ของ SCB 10X เก่งแค่ไหน..
เรื่องนี้ SCB 10X ได้ทำการทดสอบประสิทธิภาพของไต้ฝุ่น ด้วยข้อสอบภาษาไทย ที่ใช้ทดสอบนักเรียนมัธยมปลาย
ทั้ง O-NET (การทดสอบทางการศึกษาระดับชาติขั้นพื้นฐาน)
TGAT (การทดสอบความถนัดทั่วไป)
TPAT (การทดสอบความถนัดเชิงวิชาชีพ)
A-Level ซึ่งเป็นข้อสอบสำหรับการรับตรงเข้ามหาวิทยาลัย ของนักเรียนมัธยมปลาย
รวมถึงข้อสอบ IC (Investment Consultant) สำหรับผู้ให้คำปรึกษาด้านการลงทุน
TGAT (การทดสอบความถนัดทั่วไป)
TPAT (การทดสอบความถนัดเชิงวิชาชีพ)
A-Level ซึ่งเป็นข้อสอบสำหรับการรับตรงเข้ามหาวิทยาลัย ของนักเรียนมัธยมปลาย
รวมถึงข้อสอบ IC (Investment Consultant) สำหรับผู้ให้คำปรึกษาด้านการลงทุน
ซึ่งผลที่ได้นั้น พบว่า ไต้ฝุ่น สามารถทำข้อสอบภาษาไทย โดยได้คะแนนใกล้เคียงกับ GPT-3.5 ซึ่งเป็น AI ที่พัฒนาโดย OpenAI
ในขณะที่มีจำนวนพารามิเตอร์เพียง 7,000 ล้านพารามิเตอร์ เท่านั้น ซึ่งน้อยกว่าพารามิเตอร์ของ GPT-3.5 เป็นอย่างมาก
และหากเทียบกับ GPT-4 เวอร์ชันล่าสุด จะพบว่า ไต้ฝุ่น มีความสามารถในการประมวลผลจำนวนคำภาษาไทย ได้มากกว่า GPT-4 ราว ๆ 2.6 เท่า
นอกจากนี้ จากผลการทดสอบ ยังพบด้วยว่า ไต้ฝุ่น เป็นโมเดลภาษาไทยขนาดใหญ่ ที่มีประสิทธิภาพดีที่สุด เหนือกว่าโมเดลภาษาไทยขนาดใหญ่แบบ Open Source อื่น ๆ เท่าที่มีอยู่ในเวลานี้ อีกด้วย
ทีนี้ หากเราเจาะลึกลงไปทางด้านเทคนิคของไต้ฝุ่น จะพบว่า ไต้ฝุ่นเป็น AI ที่ได้รับการพัฒนา โดยมีพื้นฐานแยกออกเป็น 2 เวอร์ชัน คือ
1. ไต้ฝุ่น Pre-Trained Model
ซึ่งเป็นโมเดลภาษาขนาดใหญ่ ที่ได้รับการฝึกฝน ให้เข้าใจภาษาไทย ทั้งในด้านคลังคำศัพท์ บริบท หรือวัฒนธรรมของภาษาไทย
โดยใช้พื้นฐานจากโมเดลภาษาขนาดใหญ่ที่ชื่อว่า Mistral โดยเพิ่มคำศัพท์ภาษาไทยเข้าไปมากกว่า 5,000 คำ
รวมถึงไต้ฝุ่นเวอร์ชัน Pre-Trained Model ยังได้รับการฝึกฝน ให้มีความรู้ทั่วไป ที่เกิดขึ้นในโลก อีกด้วย
2. ไต้ฝุ่น Instruction-Tuned Model
เป็นการนำไต้ฝุ่นเวอร์ชัน Pre-Trained Model มาฝึกฝนต่ออีกครั้ง ให้มีความสามารถที่เพิ่มขึ้นไปอีกขั้น ทำให้ไต้ฝุ่น Instruction-Tuned Model สามารถทำตามคำสั่ง (Prompt) ที่ป้อนเข้าไปได้
เช่น การแปลบทความ จากภาษาอังกฤษ เป็นภาษาไทย
การสรุปความ จากบทความต้นฉบับ
การสรุปความ จากบทความต้นฉบับ
หรือแม้แต่การตอบคำถามต่าง ๆ เช่น
การขอสูตรไก่ย่างแบบไทย ๆ
การขอเนื้อเพลงชาติไทย
การขอสถานที่ท่องเที่ยวแนะนำในกรุงเทพฯ
การขอสูตรไก่ย่างแบบไทย ๆ
การขอเนื้อเพลงชาติไทย
การขอสถานที่ท่องเที่ยวแนะนำในกรุงเทพฯ
ซึ่งคำตอบที่ได้จากไต้ฝุ่นนั้น ทำได้อย่างถูกต้อง รวดเร็ว และที่สำคัญคือ เข้าใจบริบทของวัฒนธรรมภาษาไทย ได้ดีกว่า GPT-3.5 อย่างชัดเจน
โปรเจกต์ “ไต้ฝุ่น” เป็นหนึ่งในผลงานที่พัฒนาโดยทีม SCB 10X ต่อยอด และขยายผลกับทีม SCBX Research and Development (R&D)
ซึ่งเป็นทีมที่จัดตั้งขึ้นมาโดยเฉพาะ เพื่อวิจัย และพัฒนานวัตกรรม และเทคโนโลยีใหม่ ๆ ที่สอดคล้องกับวิสัยทัศน์ของกลุ่ม SCBX
ครอบคลุม 4 ด้านหลัก ตามตัวอักษร “A, B, C, D” ได้แก่ Artificial Intelligence (AI), Blockchain, Climate Tech และ DeepTech
เมื่ออ่านมาจนถึงจุดนี้ หลายคนอาจเกิดคำถามขึ้นมาว่า การที่ SCB 10X พัฒนาไต้ฝุ่นขึ้นมา ใครจะเป็นผู้ที่ได้ประโยชน์
คำถามนี้ ตอบได้ไม่ยากเลยว่าผู้ที่ได้รับผลประโยชน์ ก็คือคนไทยทุกคน
ยกตัวอย่างง่าย ๆ ผู้ประกอบการชาวไทย จะสามารถเข้าถึงเทคโนโลยี AI ที่พัฒนาขึ้นโดยคนไทย เหมาะกับการใช้งานเป็นภาษาไทยมากกว่า
ไม่ต้องพึ่งพาเทคโนโลยี AI ที่พัฒนาโดยบริษัทต่างชาติ แถมยังช่วยลดต้นทุน จากการใช้เทคโนโลยี AI ที่พัฒนาขึ้นมาบนพื้นฐานของภาษาไทย โดยเฉพาะ
ในขณะที่นักพัฒนา AI ชาวไทย ก็จะสามารถปลดล็อกศักยภาพ ในการพัฒนาเทคโนโลยี AI เพิ่มเติมได้ในอนาคต จากการที่ไต้ฝุ่นเป็น AI แบบ Open Source ที่เปิดกว้างให้ใคร ๆ ก็สามารถนำไปพัฒนาต่อยอดได้
ส่วนคนทั่วไป ก็จะมีโอกาสได้รับการบริการที่ดี รวดเร็ว และสะดวกสบาย จาก AI ที่เข้าใจภาษา วัฒนธรรม และบริบทแบบไทย ๆ นั่นเอง
เรื่องนี้ ถือเป็นก้าวสำคัญในการพัฒนาโมเดลภาษาขนาดใหญ่ หรือ AI สำหรับภาษาไทย
ตอกย้ำความมุ่งมั่นของ SCB 10X ในการขับเคลื่อน และผลักดันความก้าวหน้าทางเทคโนโลยี ให้กลุ่มเอสซีบี เอกซ์ (SCBX Group)
มุ่งสู่เป้าหมายการเป็น AI-First Organization ควบคู่กับการสร้างธุรกิจใหม่ ๆ ผ่านการเป็นผู้ให้บริการด้านโซลูชัน และเทคโนโลยีขั้นสูง
ปิดท้ายด้วยข้อมูลที่น่าสนใจ ตอนนี้ SCB 10X ได้เปิดให้นักพัฒนา หรือคนที่สนใจ สามารถทดลองใช้ไต้ฝุ่น ในเวอร์ชัน Pre-Trained Model ได้แล้ววันนี้ โดยไม่มีค่าใช้จ่ายใด ๆ
ส่วนไต้ฝุ่นในเวอร์ชัน Instruction-Tuned Model สามารถลงทะเบียน Waiting List เพื่อรอทดลองใช้งาน ได้ในเร็ว ๆ นี้
โดยสามารถเข้าไปดูรายละเอียดเพิ่มเติมได้ที่เว็บไซต์ https://opentyphoon.ai/