สำหรับปีนี้ การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST ยังคงเป็นหัวข้อ การรู้จำตัวอักษรภาษาไทย (Thai Character Recognition) เป็นปีที่สอง
การรู้จำตัวอักษร (Character Recognition) เป็นหัวข้อที่มีผู้ทำวิจัยมาอย่างยาวนานและต่อเนื่อง ทั้งนี้การรู้จำตัวอักษรในแต่ละภาษาจะมีความแตกต่างกันตามลักษณะของภาษานั้นๆ ภาษาไทยถือได้ว่าเป็นภาษาที่มีความยากและซับซ้อนในการรู้จำภาษาหนึ่ง เนื่องจากภาษาไทยมีจำนวนตัวอักษรค่อนข้างมาก มีระดับการเขียนหลายระดับ และมีโอกาสเขียนติดหรือทับกัน จึงเป็นการยากที่จะสร้างระบบรู้จำตัวอักษรที่มีความถูกต้องสมบูรณ์ขึ้นมาได้
แม้ว่าการแข่งขันครั้งนี้ จะเป็นการจัดเรื่องการรู้จำตัวอักษรภาษาไทยเป็นปีที่สอง ทางผู้จัดยังคงขอบเขตของโจทย์ให้เป็นเฉพาะการรู้จำตัวอักษรภาษาไทย และ ภาษาอังกฤษที่เป็นตัวอักษรเดี่ยวเท่านั้น โดยทางหน่วยปฏิบัติการวิจัยเทคโนโลยีภาพ (IMG) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) จะเปิดทรัพยากรภาษา อันได้แก่ ฐานข้อมูลภาพตัวอักษรที่มี ชนิด ขนาด และรูปแบบที่หลากหลาย, ตัวอักษรคำตอบที่ต้องการ เป็นต้น โดยข้อมูลที่ให้จะแบ่งเป็น ชุดฝึกฝน (Training set) และชุดทดลอง (Validation set) เพื่อให้ผู้เข้าแข่งขันสามารถนำไปพัฒนาโปรแกรมรู้จำตัวอักษรต่อไป
ทั้งนี้ ผู้เข้าแข่งขันสามารถใช้ทรัพยากรภาษาที่จัดเตรียมไว้ให้ หรือจะจัดหามาเอง หรือจะพัฒนาขึ้นใหม่ทั้งหมดก็ได้ ภายใต้เงื่อนไขที่ว่าจะต้องไม่ละเมิดทรัพย์สินทางปัญญาของผู้อื่น โดยผู้เข้าแข่งขันจะต้องพิสูจน์การได้มาของข้อมูลรวมถึงโปรแกรมที่ใช้พัฒนาอย่างถูกต้อง
คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark), การรู้จำตัวอักษร (Character Recognition), การรู้จำรูปแบบ (Pattern Recognition), ภาษาไทย (Thai Language), การประมวลผลภาพ (Image Processing), การประมวลผลภาษาธรรมชาติ (Natural Language Processing)