การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST นี้ เป็นชุดของการแข่งขันซอฟต์แวร์ที่สำคัญและเกี่ยวข้องกับการประมวลผลภาษาไทย โดยแต่ละปีจะมีการกำหนดหัวข้อการแข่งขันตามความเหมาะสมเพื่อให้ครอบคลุมเนื้อหาในการประมวลผลภาษาไทยระดับต่างๆ ในปีนี้ทางผู้จัดเลือกหัวข้อ การรู้จำตัวอักษรภาษาไทย (Thai Character Recognition) มาเป็นโจทย์ในการแข่งขัน
การรู้จำตัวอักษร (Character Recognition) เป็นหัวข้อที่มีผู้ทำวิจัยมาอย่างยาวนานและต่อเนื่อง ทั้งนี้การรู้จำตัวอักษรในแต่ละภาษาจะมีความแตกต่างกันตามลักษณะของภาษานั้นๆ ภาษาไทยถือได้ว่าเป็นภาษาที่มีความยากและซับซ้อนในการรู้จำภาษาหนึ่ง เนื่องจากภาษาไทยมีจำนวนตัวอักษรค่อนข้างมาก มีระดับการเขียนหลายระดับ และมีโอกาสเขียนติดหรือทับกัน จึงเป็นการยากที่จะสร้างระบบรู้จำตัวอักษรที่มีความถูกต้องสมบูรณ์ขึ้นมาได้
เนื่องจากการแข่งขันครั้งนี้เป็นครั้งแรกที่จะจัดเรื่องการรู้จำตัวอักษรภาษาไทย ทางผู้จัดจึงจำกัดขอบเขตของโจทย์ให้เป็นเฉพาะการรู้จำตัวอักษรภาษาไทยที่เป็นตัวอักษรเดี่ยวเท่านั้น โดยทางหน่วยปฏิบัติการวิจัยเทคโนโลยีภาพ (IMG) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) จะเปิดทรัพยากรภาษา อันได้แก่ ฐานข้อมูลภาพตัวอักษรที่มี ชนิด ขนาด และรูปแบบที่หลากหลาย, ตัวอักษรคำตอบที่ต้องการ เป็นต้น โดยข้อมูลที่ให้จะแบ่งเป็น ชุดฝึกฝน (Training set) และชุดทดลอง (Validation set) เพื่อให้ผู้เข้าแข่งขันสามารถนำไปพัฒนาโปรแกรมรู้จำตัวอักษรต่อไป
ทั้งนี้ ผู้เข้าแข่งขันสามารถใช้ทรัพยากรภาษาที่จัดเตรียมไว้ให้ หรือจะจัดหามาเอง หรือจะพัฒนาขึ้นใหม่ทั้งหมดก็ได้ ภายใต้เงื่อนไขที่ว่าจะต้องไม่ละเมิดทรัพย์สินทางปัญญาของผู้อื่น โดยผู้เข้าแข่งขันจะต้องพิสูจน์การได้มาของข้อมูลรวมถึงโปรแกรมที่ใช้พัฒนาอย่างถูกต้อง
คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark), การรู้จำตัวอักษร (Character Recognition), การรู้จำรูปแบบ (Pattern Recognition), ภาษาไทย (Thai Language), การประมวลผลภาพ (Image Processing), การประมวลผลภาษาธรรมชาติ (Natural Language Processing)