นายวิทวัส จิตกฤตธรรม

ผู้ได้รับรางวัลรองชนะเลิศในการเเข่งขัน BEST 2010

โปรแกรมตัดคำไทยด้วยเทคนิคการจำแนกประเภท <<รายละเอียด>>

การศึกษา/สถานที่ทำงาน

2009-2010: Research Assistant at KINDML, SIIT.
2005-2009: B.Sc., Sirindhorn International Institute of Technology, Thammasat University (Computer Science)

ผลงานที่ผ่านมา

- พัฒนา Sansarn Offline ตั้งแต่เวอร์ชั่น 2 ร่วมกับ HLT, NECTEC
- ระบบคำถามคำตอบสำหรับวิกิพีเดียภาษาไทย (รางวัลที่ 2 หมวดโปรแกรมเพื่องานการพัฒนาด้านวิทยาศาสตร์และเทคโนโลยี NSC 2009 )

Wittawat Jitkrittum, Choochart Haruechaiyasak, and Thanaruk Theeramunkong, QAST: Question Answering System for Thai Wikipedia, In proceedings of ACL-IJCNLP 2009 Workshop: Knowledge and Reasoning for Answering Questions (KRAQ 2009), 2009.

Wittawat Jitkrittum, Thanaruk Theeramunkong, and Choochart Haruechaiyasak, Proximity-Based Semantic Relatedness Measurement on Thai Wikipedia, In proceedings of the Third International Conference on Knowledge, Information and Creativity Support Systems (KICSS 2008), pp. 66-73, 2008.

Choochart Haruechaiyasak, Wittawat Jitkrittum, Chatchawal Sangkeettrakarn and Chaianun Damrongrat, Implementing News Article Category Browsing Based on Text Categorization Technique, In proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence (WI-08) workshop on Intelligent Web Interaction (IWI 2008), 2008.


Choochart Haruechaiyasak, Chatchawal Sangkeettrakarn and Wittawat Jitkrittum, Managing Offline Educational Web Contents with Search Engine Tools, Proc. of the Tenth International Conference on Asian Digital Libraries (ICADL 2007), pp. 444-453, 2007.

ความสนใจ

Machine Learning. Natural Language Processing.

E-mail



ทำไมลงแข่งขัน BEST2010

เพื่อสร้างงานวิจัย ทดสอบแนวคิดการตัดคำของตัวเอง และสร้างโปรแกรมตัดคำไทยที่สามารถปรับแต่งได้ตามความต้องการ

ใช้กลยุทธ์/เทคนิคอะไรในการแข่งขัน

แนวคิดหลักคือการมองว่าข้อความที่ต้องการตัดคำมีตัวแบ่งคำขั้นอยู่แล้วทุกตัวอักษร ระบบแบ่งการตัดคำออกเป็นขั้นตอนย่อยต่อๆ กัน โดยแต่ละขั้นตอนค่อยๆ ลดตัวแบ่งคำที่ไม่ควรมีออกไป สุดท้ายตัวแบ่งคำที่เหลืออยู่คือจุดที่แบ่งคำจริงๆ จุดเด่นอยู่ที่ขั้นตอนที่ระบบอ่านข้อความทีละตัวอักษรแล้วใช้ตัวจำแนกประเภท (classifier) มาแบ่งประเภทของตัวอักษรที่พิจารณาอยู่ว่าควรเป็นจุดสิ้นสุดคำหรือไม่เป็นจุดสิ้นสุดคำ (Binary classification) โดยใช้ข้อมูล เช่น ประเภทของตัวอักษรในบริบท ระยะห่างจากวรรค ฯลฯ มาช่วยตัดสิน

BEST มีส่วนสำคัญอย่างไรต่อการพัฒนา NLP ในประเทศไทย

ปัจจัยหนึ่งที่ทำให้ NLP ในประเทศไทยไม่เติบโตเท่าที่ควรมาจากการขาดแคลนเครื่องมือพื้นฐาน เช่น โปรแกรมตัดคำ โปรแกรมแจงโครงสร้างประโยค การขาดแคลนเครื่องมือพื้นฐานก็เหมือนเป็นการปิดกั้นไม่ให้คนนอกวงการเข้ามาในวงการ NLP นี้ ยิ่งมีคนในวงการน้อยก็ยิ่งขาดคนพัฒนาเครื่องมือดีๆ เกิดเป็นวงเวียนที่ทำให้วงการนี้ก้าวไปได้ช้า

การที่ BEST เปิดโอกาสให้ทั้งนักศึกษาและบุคคลทั่วไปส่งผลงานด้าน NLP เข้าประกวดถือเป็นแรงขับเคลื่อนที่ดีที่จะผลักดัน NLP ในประเทศไทย ในช่วงแรก BEST เริ่มโดยการเปิดให้แข่งขันกันพัฒนาระบบตัดคำไทยซึ่งเป็นขั้นตอนพื้นฐานที่จำเป็นอย่างยิ่ง เมื่อผู้คนเริ่มเห็นแล้วว่ามีโปรแกรมตัดคำไทยให้เลือกใช้ ก็จะมีการพัฒนาต่อยอดไปเป็นเครื่องมือขั้นต่อไปที่ถัดจากการตัดคำ เช่น โปรแกรมแจงโครงสร้างประโยค ผมคิดว่า BEST ได้เดินมาถูกทางแล้ว หากการต่อยอดดำเนินไปเรื่อยๆ เราจะมีอัลกอริทึมและเครื่องมือสำหรับประมวลผลภาษาไทยอย่างครบคันในอนาคต

เป้าหมายสูงสุดที่คาดหวังสำหรับ NLP ในประเทศไทย

มีวิธีการและเครื่องมือประมวลผลภาษาไทยโดยเฉพาะที่ทำงานได้ดีจนสามารถนำไปใช้พัฒนาเป็นระบบอำนวยความสะดวกต่างๆที่มีในภาษาอื่นแล้วแต่ยังไม่ค่อยพบเห็นสำหรับภาษาไทย เช่น ระบบตอบคำถามอัตโนมัติ ระบบสืบค้นเชิงความหมาย ระบบรู้จำเสียงพูดภาษาไทย เป็นต้น