BEST 2010 : การแข่งขันสุดยอดซอฟต์แวร์แบ่งคำภาษาไทย
การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST นี้ เป็นชุดของการแข่งขันซอฟต์แวร์ที่สำคัญและเกี่ยวข้องกับการประมวลผลภาษาไทย โดยแต่ละปีจะมีการกำหนดหัวข้อการแข่งขันตามความเหมาะสม ทั้งนี้ เพื่อให้ครอบคลุมเนื้อหาในการประมวลผลภาษาไทยระดับต่างๆ
หัวข้อการแข่งขันประจำปี 2010
สำหรับ BEST ในปีที่สองนี้จะยังคงหัวข้อ การแบ่งคำไทย (Thai Word Segmentation) ซึ่งเป็นพื้นฐานสำคัญและจำเป็นที่สุดสำหรับการเริ่มต้นประมวลผลภาษาไทย เหตุเพราะเราเขียนภาษาไทยโดยไม่มีการกำหนดขอบเขตของคำ จึงประมวลผลได้ยาก และถ้าแบ่งคำผิดตั้งแต่แรก การประมวลผลที่ตามมาก็จะผิดพลาดไปด้วยอย่างหลีกเลี่ยงมิได้ ตัวอย่างเช่น ประโยค “ฉันมารอกราบพระสงฆ์” สามารถแบ่งคำได้เป็น ฉัน|มาร|อก|ราบ|พระสงฆ์| หรือ ฉัน|มา|รอก|ราบ|พระสงฆ์| หรือ ฉัน|มา|รอ|กราบ|พระสงฆ์| โดยแบบสุดท้ายเป็นแบบที่ถูกต้องที่สุด
หลักการและเหตุผล
แม้ว่างานวิจัยเรื่องการแบ่งคำภาษาไทยจะมีการพัฒนามาแล้วไม่ต่ำกว่า 20 ปี ปัจจุบันก็ยังคงเป็นปัญหาอยู่ เพราะว่าไม่มีมาตรฐานกลางที่ชัดเจน บางงานกล่าวอ้างว่าได้ความถูกต้องที่สูงมาก แต่กลับไม่ได้รับการยอมรับโดยทั่วไป นั่นเป็นเพราะแต่ละงานต่างก็ใช้ฐานข้อมูลและหลักเกณฑ์ในการแบ่งคำของตนเอง จึงไม่สามารถนำมาเปรียบเทียบกันได้ ทำให้ปัจจุบันก็ยังไม่แน่ใจว่าวิธีการหรืออัลกอริธึมใดเหมาะสมที่สุดกับงานชนิดใด การจัดให้มีการแข่งขันในครั้งนี้จึงหวังว่าจะสร้างความเป็นกลางให้เกิดขึ้นในการวัดเปรียบเทียบสมรรถนะ เนื่องจากว่าจะใช้ฐานข้อมูลและหลักเกณฑ์เดียวกันทั้งหมดในการตัดสิน โดยผู้มีส่วนเกี่ยวข้องทั้งหมดในการทำข้อมูลชุดทดสอบจะไม่มีสิทธิลงแข่งขัน และคาดหวังว่า ผลสำเร็จจากการจัดงานนี้ จะช่วยผลักดันให้เกิดพื้นฐานที่เข้มแข็ง เพื่อให้เกิดงานวิจัยต่อยอดขั้นสูงขึ้นต่อไป โดยไม่ต้องวนเวียนกลับมาแก้ปัญหาพื้นฐานอยู่ร่ำไปเช่นในอดีต
การแข่งขันในปีที่ผ่านมา (BEST 2009) ได้สร้างบรรทัดฐานสำหรับการแบ่งคำภาษาไทยไว้ค่อนข้างสูง แต่เราเชื่อว่ายังจะสามารถทำให้สูงกว่านี้ได้อีก ยิ่งไปกว่านั้น เรายังพบว่าแต่ละโปรแกรมที่เข้าแข่งขันมีความโดดเด่นในแต่ละด้าน และมีความน่าสนใจไม่ยิ่งหย่อนไปกว่ากัน จึงเห็นสมควรให้มีการปรับปรุงหลักเกณฑ์ในการตัดสินขึ้นใหม่ และเป็นสาเหตุให้ต้องจัดการแข่งขันในหัวข้อเดิมอีกครั้งหนึ่ง
คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark) การแบ่งคำ (Word Segmentation) ภาษาไทย (Thai Language) การประมวลผลภาษาธรรมชาติ (Natural Language Processing) การเรียนรู้ด้วยเครื่อง (Machine Learning)
วัตถุประสงค์ของการแข่งขัน
เพื่อเฟ้นหาสุดยอดอัลกอริธึมที่สามารถแบ่งคำไทยได้ถูกต้อง (F-measure) มากที่สุด ตามแนวทางการแบ่งคำไทยที่คณะกรรมการได้กำหนดขึ้น โดยใช้เวลาประมวลผล (เริ่มนับตั้งแต่ load program จนได้ไฟล์ output) น้อยที่สุด และใช้ทรัพยากรทางคอมพิวเตอร์ (Runtime memory & Storage) น้อยที่สุด
ประโยชน์ที่จะได้รับ
- รางวัลที่ 1 60,000 บาท
- รางวัลที่ 2 40,000 บาท
- รางวัลที่ 3 20,000 บาท
- รางวัลพิเศษ 3 รางวัลๆ ละ 10,000 บาท
- เพื่อเป็นการส่งเสริมการพัฒนาซอฟต์แวร์เสรี (Open Source) ในสาขานี้ คณะกรรมการจึงเพิ่มเงินรางวัล 5,000 บาท ให้แก่ทุกทีมที่เซ็นสัญญาในแบบ GNU LGPL และสามารถผ่านเข้ารอบชิงชนะเลิศได้
- เพื่อเป็นการส่งเสริมให้เกิดความก้าวหน้าในงานวิจัยสาขานี้ คณะกรรมการจึงกำหนดรางวัลพิเศษสำหรับผู้ที่ได้รับรางวัลที่ 1 ถ้าทำค่า F-measure ได้ดีกว่าอันดับ 1 ของปีที่ผ่านมา จะได้รับถ้วยรางวัล Best of the BEST 2010 Award เป็นการเพิ่มเติม
หมายเหตุ : คณะกรรมการอาจพิจารณางดรางวัลใดก็ได้ ถ้าไม่มีผู้เหมาะสม
ทรัพย์สินทางปัญญา
ตามกติกาของ NSC ลิขสิทธิ์ของซอฟต์แวร์เป็นของผู้พัฒนา โดยผู้พัฒนายินยอมให้สิทธิแก่เนคเทคในการนำไปใช้งานและเผยแพร่โดยไม่มีวัตถุประสงค์ทางการค้า อย่างไรก็ตาม เนื่องจากวัตถุประสงค์ของโครงการนี้รวมทั้งกลุ่มเป้าหมายของโครงการแตกต่างไปจาก NSC เล็กน้อย จึงขอเปิดโอกาสให้แก่ผู้เข้าแข่งขันสามารถเลือกสิทธิในซอฟต์แวร์ของตนได้ในวันทำสัญญารับทุนกับ NSC ดังนี้