เกี่ยวกับ BEST 2010

 BEST 2010 : การแข่งขันสุดยอดซอฟต์แวร์แบ่งคำภาษาไทย

การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST นี้ เป็นชุดของการแข่งขันซอฟต์แวร์ที่สำคัญและเกี่ยวข้องกับการประมวลผลภาษาไทย โดยแต่ละปีจะมีการกำหนดหัวข้อการแข่งขันตามความเหมาะสม ทั้งนี้ เพื่อให้ครอบคลุมเนื้อหาในการประมวลผลภาษาไทยระดับต่างๆ

 

หัวข้อการแข่งขันประจำปี 2010
สำหรับ BEST ในปีที่สองนี้จะยังคงหัวข้อ การแบ่งคำไทย (Thai Word Segmentation) ซึ่งเป็นพื้นฐานสำคัญและจำเป็นที่สุดสำหรับการเริ่มต้นประมวลผลภาษาไทย เหตุเพราะเราเขียนภาษาไทยโดยไม่มีการกำหนดขอบเขตของคำ จึงประมวลผลได้ยาก และถ้าแบ่งคำผิดตั้งแต่แรก การประมวลผลที่ตามมาก็จะผิดพลาดไปด้วยอย่างหลีกเลี่ยงมิได้ ตัวอย่างเช่น ประโยค “ฉันมารอกราบพระสงฆ์” สามารถแบ่งคำได้เป็น ฉัน|มาร|อก|ราบ|พระสงฆ์| หรือ ฉัน|มา|รอก|ราบ|พระสงฆ์| หรือ ฉัน|มา|รอ|กราบ|พระสงฆ์| โดยแบบสุดท้ายเป็นแบบที่ถูกต้องที่สุด

 

หลักการและเหตุผล
แม้ว่างานวิจัยเรื่องการแบ่งคำภาษาไทยจะมีการพัฒนามาแล้วไม่ต่ำกว่า 20 ปี ปัจจุบันก็ยังคงเป็นปัญหาอยู่ เพราะว่าไม่มีมาตรฐานกลางที่ชัดเจน บางงานกล่าวอ้างว่าได้ความถูกต้องที่สูงมาก แต่กลับไม่ได้รับการยอมรับโดยทั่วไป นั่นเป็นเพราะแต่ละงานต่างก็ใช้ฐานข้อมูลและหลักเกณฑ์ในการแบ่งคำของตนเอง จึงไม่สามารถนำมาเปรียบเทียบกันได้ ทำให้ปัจจุบันก็ยังไม่แน่ใจว่าวิธีการหรืออัลกอริธึมใดเหมาะสมที่สุดกับงานชนิดใด  การจัดให้มีการแข่งขันในครั้งนี้จึงหวังว่าจะสร้างความเป็นกลางให้เกิดขึ้นในการวัดเปรียบเทียบสมรรถนะ เนื่องจากว่าจะใช้ฐานข้อมูลและหลักเกณฑ์เดียวกันทั้งหมดในการตัดสิน โดยผู้มีส่วนเกี่ยวข้องทั้งหมดในการทำข้อมูลชุดทดสอบจะไม่มีสิทธิลงแข่งขัน และคาดหวังว่า ผลสำเร็จจากการจัดงานนี้ จะช่วยผลักดันให้เกิดพื้นฐานที่เข้มแข็ง เพื่อให้เกิดงานวิจัยต่อยอดขั้นสูงขึ้นต่อไป โดยไม่ต้องวนเวียนกลับมาแก้ปัญหาพื้นฐานอยู่ร่ำไปเช่นในอดีต

การแข่งขันในปีที่ผ่านมา (BEST 2009) ได้สร้างบรรทัดฐานสำหรับการแบ่งคำภาษาไทยไว้ค่อนข้างสูง แต่เราเชื่อว่ายังจะสามารถทำให้สูงกว่านี้ได้อีก ยิ่งไปกว่านั้น เรายังพบว่าแต่ละโปรแกรมที่เข้าแข่งขันมีความโดดเด่นในแต่ละด้าน และมีความน่าสนใจไม่ยิ่งหย่อนไปกว่ากัน จึงเห็นสมควรให้มีการปรับปรุงหลักเกณฑ์ในการตัดสินขึ้นใหม่ และเป็นสาเหตุให้ต้องจัดการแข่งขันในหัวข้อเดิมอีกครั้งหนึ่ง

คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark) การแบ่งคำ (Word Segmentation) ภาษาไทย (Thai Language) การประมวลผลภาษาธรรมชาติ (Natural Language Processing) การเรียนรู้ด้วยเครื่อง (Machine Learning)

 

วัตถุประสงค์ของการแข่งขัน
เพื่อเฟ้นหาสุดยอดอัลกอริธึมที่สามารถแบ่งคำไทยได้ถูกต้อง (F-measure) มากที่สุด ตามแนวทางการแบ่งคำไทยที่คณะกรรมการได้กำหนดขึ้น โดยใช้เวลาประมวลผล (เริ่มนับตั้งแต่ load program จนได้ไฟล์ output) น้อยที่สุด และใช้ทรัพยากรทางคอมพิวเตอร์ (Runtime memory & Storage) น้อยที่สุด

 

ประโยชน์ที่จะได้รับ

  • ผู้เข้าแข่งขันทุกท่านจะได้รับเอกสารแนวทางการแบ่งคำ และคลังข้อความภาษาไทยขนาดใหญ่ ประมาณ 7 ล้านคำ ไปใช้งานเพื่อการศึกษาวิจัยโดยไม่มีวัตถุประสงค์ทางการค้า
  • ผู้ที่ได้รับคัดเลือกในรอบการพิจารณาข้อเสนอโครงการ จะได้รับทุนสนับสนุน 3,000 บาท จาก NSC
  • ผู้ที่ได้รับคัดเลือกในรอบการแข่งขันระดับภูมิภาค จะได้รับทุนสนับสนุน 7,000 บาท และอาจารย์ที่ปรึกษาได้รับ 2,000 บาท จาก NSC
  • ผู้ที่ได้รับคัดเลือกในรอบชิงชนะเลิศจะได้รับรางวัลพร้อมโล่เกียรติยศจาก NSC ดังนี้

- รางวัลที่ 1           60,000 บาท

- รางวัลที่ 2           40,000 บาท

- รางวัลที่ 3           20,000 บาท

- รางวัลพิเศษ       3 รางวัลๆ ละ 10,000 บาท

  •  
  • รางวัลเสริม

- เพื่อเป็นการส่งเสริมการพัฒนาซอฟต์แวร์เสรี (Open Source) ในสาขานี้ คณะกรรมการจึงเพิ่มเงินรางวัล 5,000 บาท ให้แก่ทุกทีมที่เซ็นสัญญาในแบบ GNU LGPL และสามารถผ่านเข้ารอบชิงชนะเลิศได้

- เพื่อเป็นการส่งเสริมให้เกิดความก้าวหน้าในงานวิจัยสาขานี้ คณะกรรมการจึงกำหนดรางวัลพิเศษสำหรับผู้ที่ได้รับรางวัลที่ 1 ถ้าทำค่า F-measure ได้ดีกว่าอันดับ 1 ของปีที่ผ่านมา จะได้รับถ้วยรางวัล Best of the BEST 2010 Award เป็นการเพิ่มเติม

  • เงินรางวัลทุกประเภท จะแบ่งเป็น 2 ส่วน โดยมอบให้ผู้เข้าแข่งขันจำนวน 80% และอาจารย์ผู้ควบคุมงาน (หรือหัวหน้าหน่วยงาน ในประเภทบุคคลทั่วไป) 20%
  • ผู้ได้รับรางวัลทุกท่านจะได้รับการบันทึกชื่อและผลงานลงใน หอเกียรติยศ (Hall of Fame) ของ BEST Academy

หมายเหตุ : คณะกรรมการอาจพิจารณางดรางวัลใดก็ได้ ถ้าไม่มีผู้เหมาะสม

 

ทรัพย์สินทางปัญญา
ตามกติกาของ NSC ลิขสิทธิ์ของซอฟต์แวร์เป็นของผู้พัฒนา โดยผู้พัฒนายินยอมให้สิทธิแก่เนคเทคในการนำไปใช้งานและเผยแพร่โดยไม่มีวัตถุประสงค์ทางการค้า อย่างไรก็ตาม เนื่องจากวัตถุประสงค์ของโครงการนี้รวมทั้งกลุ่มเป้าหมายของโครงการแตกต่างไปจาก NSC เล็กน้อย จึงขอเปิดโอกาสให้แก่ผู้เข้าแข่งขันสามารถเลือกสิทธิในซอฟต์แวร์ของตนได้ในวันทำสัญญารับทุนกับ NSC ดังนี้

  • สงวนสิทธิ์ทั้งหมดในซอฟต์แวร์ของตน โดยจะส่งรายงานที่เปิดเผยถึงเทคนิคและอัลกอริธึมที่ใช้เป็นการทดแทน และยินยอมให้เผยแพร่รายงานนี้ต่อสาธารณชน (ทางเลือกนี้มีขึ้นสำหรับผู้เข้าแข่งขันประเภทบุคคลทั่วไปเท่านั้น ด้วยความเข้าใจว่าหน่วยงานเอกชนอาจจะลำบากใจที่จะเข้าแข่งขัน ถ้าซอฟต์แวร์ของตนจะถูกนำไปเผยแพร่ได้อย่างอิสระ แต่อย่างไรก็ตาม เพื่อให้การแข่งขันนี้เป็นไปตามวัตถุประสงค์ของการแบ่งปันความรู้ ผู้พัฒนาจะต้องเปิดเผยเทคนิคและอัลกอริธึมที่ใช้ โดยไม่จำเป็นต้องเปิดซอร์สโค้ดหรือส่งมอบโปรแกรม)
  • ให้ลิขสิทธิ์ของซอฟต์แวร์เป็นของผู้พัฒนา โดยให้สิทธิแก่เนคเทคในการนำไปใช้งานและเผยแพร่โดยไม่มีวัตถุประสงค์ทางการค้า (เป็นไปตามข้อกำหนดเดิมของ NSC)
  • เปิดเผยซอร์สโค้ดของโปรแกรมในแบบ GNU LGPL (เพื่อประโยชน์ของวงการและเป็นไปตามวัตถุประสงค์ของการแบ่งปันทั้งความรู้และซอฟต์แวร์เพื่อการพัฒนาต่อยอด เราขอสนับสนุนให้ทุกท่านเลือกสิทธิในซอฟต์แวร์ในแบบนี้ ด้วยการให้เงินรางวัลเพิ่มเติม 4,000 บาท แก่ทีมที่เลือกข้อนี้และผ่านเข้ารอบชิงชนะเลิศได้ โดยอาจารย์ผู้ควบคุมงานหรือหัวหน้าหน่วยงานจะได้รับ 1,000 บาท)