การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST นี้ เป็นชุดของการแข่งขันซอฟต์แวร์ที่สำคัญและเกี่ยวข้องกับการประมวลผลภาษาไทย โดยแต่ละปีจะมีการกำหนดหัวข้อการแข่งขันตามความเหมาะสม ทั้งนี้ เพื่อให้ครอบคลุมเนื้อหาในการประมวลผลภาษาไทยระดับต่างๆ
หัวข้อการแข่งขันประจำปี 2012
หลังจากที่ได้มีการจัดการแข่งขันโปรแกรมขั้นพื้นฐานด้วยการแบ่งคำไทยมาแล้ว 3 ครั้ง โดยเป็นการแข่งขันระดับประเทศ 2 ครั้ง และระดับนานาชาติ 1 ครั้ง ได้โปรแกรมแบ่งคำภาษาไทยที่มีความถูกต้องสูงหลายโปรแกรม เป็นที่น่าพอใจ ทางผู้จัดเล็งเห็นว่าน่าจะจัดให้มีการแข่งขันโปรแกรมเพื่อต่อยอดการแบ่งคำไทย จึงได้จัดการแข่งขันโปรแกรมแก้ไขคำผิดภาษาไทยขึ้น
ในการใช้งานโปรแกรมพิมพ์เอกสารในภาษาต่างประเทศ มักจะมีโปรแกรมช่วยตรวจสอบตัวสะกด และเสนอตัวเลือกที่น่าจะถูกต้องให้ แต่ในภาษาไทย โปรแกรมช่วยเหลือในลักษณะดังกล่าวยังไม่สมบูรณ์ เนื่องจากจะต้องแบ่งคำให้ถูกต้องก่อน แต่ในทางกลับกัน คำที่สะกดผิดก็มักจะสร้างปัญหาให้กับโปรแกรมแบ่งคำด้วยเช่นกัน จึงเห็นได้ว่า อาจจะเป็นการดีกว่าถ้าจะสามารถจัดการกับปัญหาทั้งสองไปพร้อมๆ กัน เพราะโปรแกรมแบ่งคำกับโปรแกรมแก้ไขคำผิดจะสามารถเสริมการทำงานซึ่งกันและกันได้
ในการแข่งขันครั้งนี้ หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา (HLT) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) จะเปิดทรัพยากรภาษาและเครื่องมือที่เป็นโอเพนซอร์สของหน่วยฯ ได้แก่ พจนานุกรม, คลังข้อความขนาดใหญ่, โปรแกรมแบ่งคำไทย เป็นต้น ให้ผู้เข้าแข่งขันสามารถนำไปพัฒนาต่อยอด เพื่อสร้างสรรค์โปรแกรมแก้ไขคำผิดสำหรับภาษาไทย บนพื้นฐานของการแบ่งขอบเขตของคำในแบบ BEST 2010 โดยโปรแกรมนี้จะมีผลกระทบต่อเศรษฐกิจและสังคมในระดับสูง เพราะจะเป็นพื้นฐานสำคัญของการพัฒนาโปรแกรมทางด้านการประมวลผลภาษาธรรมชาติอื่นๆ ตัวอย่างเช่น โปรแกรมแปลภาษา, โปรแกรมสืบค้นข้อมูล, โปรแกรมรู้จำและสังเคราะห์เสียงพูด, โปรแกรมรู้จำลายมือเขียน เป็นต้น
ทั้งนี้ ผู้เข้าแข่งขันสามารถใช้ทรัพยากรภาษาและเครื่องมือที่เตรียมไว้ให้ หรือจะจัดหามาเอง หรือจะพัฒนาขึ้นใหม่ทั้งหมดก็ได้ ภายใต้เงื่อนไขที่ว่า จะต้องไม่ละเมิดทรัพย์สินทางปัญญาของผู้อื่น โดยผู้เข้าแข่งขันจะต้องพิสูจน์การได้มาของข้อมูลรวมถึงโปรแกรมที่ใช้พัฒนาอย่างถูกต้อง และถ้าสัญญาอนุญาตของโปรแกรมที่เข้าแข่งขันเป็นแบบโอเพนซอร์ส (Open Source) จะได้รับคะแนนเพิ่มเป็นกรณีพิเศษอีกด้วย
คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark), การแก้ไขคำผิด (Spelling Error Correction), การแบ่งคำ (Word Segmentation), ภาษาไทย (Thai Language), การประมวลผลภาษาธรรมชาติ (Natural Language Processing), ซอฟต์แวร์โอเพนซอร์ส (Open Source Software)