ขยายเวลาการรับสมัคร

*****ด่วน! ขยายเวลารับสมัครจนถึงวันที่ 31 สิงหาคม 2554*****

BEST 2012 : การแข่งขันสุดยอดซอฟต์แวร์แก้ไขคำผิดภาษาไทย (Thai Spelling Correction Software Contest)

การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST นี้ เป็นชุดของการแข่งขันซอฟต์แวร์ที่สำคัญและเกี่ยวข้องกับการประมวลผลภาษาไทย โดยแต่ละปีจะมีการกำหนดหัวข้อการแข่งขันตามความเหมาะสม ทั้งนี้ เพื่อให้ครอบคลุมเนื้อหาในการประมวลผลภาษาไทยระดับต่างๆ


หัวข้อการแข่งขันประจำปี 2012
หลังจากที่ได้มีการจัดการแข่งขันโปรแกรมขั้นพื้นฐานด้วยการแบ่งคำไทยมาแล้ว 3 ครั้ง โดยเป็นการแข่งขันระดับประเทศ 2 ครั้ง และระดับนานาชาติ 1 ครั้ง ได้โปรแกรมแบ่งคำภาษาไทยที่มีความถูกต้องสูงหลายโปรแกรม เป็นที่น่าพอใจ ทางผู้จัดเล็งเห็นว่าน่าจะจัดให้มีการแข่งขันโปรแกรมเพื่อต่อยอดการแบ่งคำไทย จึงได้จัดการแข่งขันโปรแกรมแก้ไขคำผิดภาษาไทยขึ้น

ในการใช้งานโปรแกรมพิมพ์เอกสารในภาษาต่างประเทศ มักจะมีโปรแกรมช่วยตรวจสอบตัวสะกด และเสนอตัวเลือกที่น่าจะถูกต้องให้ แต่ในภาษาไทย โปรแกรมช่วยเหลือในลักษณะดังกล่าวยังไม่สมบูรณ์ เนื่องจากจะต้องแบ่งคำให้ถูกต้องก่อน แต่ในทางกลับกัน คำที่สะกดผิดก็มักจะสร้างปัญหาให้กับโปรแกรมแบ่งคำด้วยเช่นกัน จึงเห็นได้ว่า อาจจะเป็นการดีกว่าถ้าจะสามารถจัดการกับปัญหาทั้งสองไปพร้อมๆ กัน เพราะโปรแกรมแบ่งคำกับโปรแกรมแก้ไขคำผิดจะสามารถเสริมการทำงานซึ่งกันและกันได้

ในการแข่งขันครั้งนี้ หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา (HLT) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) จะเปิดทรัพยากรภาษาและเครื่องมือที่เป็นโอเพนซอร์สของหน่วยฯ ได้แก่ พจนานุกรม, คลังข้อความขนาดใหญ่, โปรแกรมแบ่งคำไทย เป็นต้น ให้ผู้เข้าแข่งขันสามารถนำไปพัฒนาต่อยอด เพื่อสร้างสรรค์โปรแกรมแก้ไขคำผิดสำหรับภาษาไทย บนพื้นฐานของการแบ่งขอบเขตของคำในแบบ BEST 2010 โดยโปรแกรมนี้จะมีผลกระทบต่อเศรษฐกิจและสังคมในระดับสูง เพราะจะเป็นพื้นฐานสำคัญของการพัฒนาโปรแกรมทางด้านการประมวลผลภาษาธรรมชาติอื่นๆ ตัวอย่างเช่น โปรแกรมแปลภาษา, โปรแกรมสืบค้นข้อมูล, โปรแกรมรู้จำและสังเคราะห์เสียงพูด, โปรแกรมรู้จำลายมือเขียน เป็นต้น

ทั้งนี้ ผู้เข้าแข่งขันสามารถใช้ทรัพยากรภาษาและเครื่องมือที่เตรียมไว้ให้ หรือจะจัดหามาเอง หรือจะพัฒนาขึ้นใหม่ทั้งหมดก็ได้ ภายใต้เงื่อนไขที่ว่า จะต้องไม่ละเมิดทรัพย์สินทางปัญญาของผู้อื่น โดยผู้เข้าแข่งขันจะต้องพิสูจน์การได้มาของข้อมูลรวมถึงโปรแกรมที่ใช้พัฒนาอย่างถูกต้อง และถ้าสัญญาอนุญาตของโปรแกรมที่เข้าแข่งขันเป็นแบบโอเพนซอร์ส (Open Source) จะได้รับคะแนนเพิ่มเป็นกรณีพิเศษอีกด้วย

คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark), การแก้ไขคำผิด (Spelling Error Correction), การแบ่งคำ (Word Segmentation), ภาษาไทย (Thai Language), การประมวลผลภาษาธรรมชาติ (Natural Language Processing), ซอฟต์แวร์โอเพนซอร์ส (Open Source Software)

ดาวน์โหลด Source Code โปรแกรมแบ่งคำภาษาไทย

สามารถดาวน์โหลด Source Code โปรแกรมแบ่งคำภาษาไทยของทีมที่เข้าร่วมการแข่งขัน BEST2010 ที่ผ่านได้ โดยคลิ๊กที่ลิงค์ทางด้านล่างนี้(ต้องเป็นสมาชิกก่อน)
http://thailang.nectec.or.th/downloadcenter/index.php?option=com_docman&task=cat_view&gid=44&Itemid=61

Syndicate content