นาย ฆนาศัย กรึงไกร

ผู้ได้รับรางวัล BEST OF THE BEST เเละ รางวัลชนะเลิศ BEST 2009

แบบจำลองผสมแบบแยกแยะสำหรับการแบ่งคำไทย <<รายละเอียด>>

  • การศึกษา/สถานที่ทำงาน

2007-2009: NICT, Language Infrastructure Group, Kyoto, Japan
2003-2006: NICT, Thai Computational Linguistics Laboratory,Pathumthani, Thailand
2000-2002: Kasetsart University, M.S. (Computer Science)
1996-1999: Thammasat University, B.S. (Mathematics)

  • ผลงานที่ผ่านมา

  • Canasai Kruengkrai and Hitoshi Isahara. A two-pass search algorithm for thai morphological
    analysis. Advances in Natural Language Processing and Applications, Research in Computing
    Science, 33:81–92, 2008.

  • ความสนใจ

Computational linguistics, Machine learning, Data mining

  • Email

canasa

  • ทำไมลงแข่งขัน BEST2009

เพราะต้องการทดสอบแบบจำลองสำหรับ morphological analysis ที่กำลังพัฒนากับชุดข้อมูลมาตรฐานภาษาไทยและต้องการเปรียบเทียบผลลัพธ์กับวิธีการอื่นๆ

  • ใช้กลยุทธ์/เทคนิคอะไรในการแข่งขัน

สร้างแบบจำลองผสมระหว่าง "คำ" และ "กลุ่มอักขระ" เพื่อแยกแยะการแบ่งคำที่ "น่าจะถูกต้องที่สุด" ออกจากการแบ่งคำที่"เป็นไปได้ทั้งหมด"

  • BEST มีส่วนสำคัญอย่างไรต่อการพัฒนา NLP ในประเทศไทย

โครงการวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST มีประโยชน์อย่างมากในการพัฒนา NLP เพราะการสร้างความก้าวหน้าในเทคโนโลยี
การประมวลผลภาษาธรรมชาติ ประกอบไปด้วยสามองค์ประกอบหลักคือ
1. ทรัพยากรทางภาษา ได้แก่ คลังข้อมูลในระดับ phonology, morphology, syntax, semantics รวมไปถึงพจนานุกรมขนาดใหญ่
2. มาตรฐานกลางที่เป็นที่ยอมรับ ได้แก่ มาตรฐานของหน่วยทางภาษาในระดับต่างๆ ตามข้อ 1) มาตรฐานการเตรียมคลังข้อมูลและมาตรฐานการประเมินผลเพื่อเปรียบเทียบเปรียบเทียบสมรรถนะ
3. ทรัพยากรบุคคล ได้แก่ นักศึกษา อาจารย์มหาวิทยาลัยนักวิจัยทั้งภาครัฐและเอกชน และผู้ที่สนใจทั่วไป

สำหรับข้อ 1 และ 2 ซึ่งเป็นเรื่องยากแก่การจัดการเนคเทคได้เห็นถึงความสำคัญ และได้พยายามแก้ปัญหาอย่างเป็นระบบในที่สุดBEST ครั้งที่ 1 จึงเกิดขึ้นได้สำหรับข้อ 3 การแข่ง BEST แสดงให้เห็นแล้วว่ามีผู้สนใจในระดับที่น่าพอใจ และวิธีการที่แต่ละทีมใช้เป็นวิธีการที่อยู่ในกระแสของงานวิจัยปัจจุบันไม่ได้ล้าสมัยหรือไม่มีประสิทธิผลแต่อย่างใดสิ่งเหล่านี้บ่งชี้ว่าประเทศไทยมีทรัพยากรบุคคลที่มีคุณภาพอยู่

BEST ทำให้ 1 2 และ 3 ซึ่งเป็นสามองค์ประกอบหลักมาพบกันเราจึงมั่นใจได้ว่า การพัฒนา NLP ในประเทศไทย ได้ดำเนินการมาถูกทางแล้ว และจะสามารถก้าวหน้าทันประเทศผู้นำเทคโนโลยีที่ได้พยายามพัฒนาและคิดค้นวิธีการแก้ปัญหาการประมวลผลภาษาธรรมชาติมาอย่างต่อเนื่องและเป็นระยะเวลานาน

  • เป้าหมายสูงสุดที่คาดหวังสำหรับ NLP ในประเทศไทย

1. มาตรฐานของหน่วยทางภาษาในระดับ phonology, morphology, syntax, semantics ที่เป็นที่ยอมรับได้ทั้งจากฝ่ายนักภาษาศาสตร์และนักคอมพิวเตอร์
2. ชุดข้อมูลทดสอบมาตรฐานสำหรับปัญหาใน NLP ระดับต่างๆ เพื่อให้งานวิจัยในอนาคต สามารถอ้างอิงและเปรียบเทียบผลลัพธ์กับงานวิจัยที่ตีพิมพ์ไปแล้วได้