ในการแข่งขัน BEST 2013 ผู้จัดได้เตรียมชุดข้อมูลภาพสำหรับให้ผู้เข้าแข่งขันไปใช้ฝึกฝน และทดสอบระบบ โดยการแข่งขันครั้งนี้ไม่ได้จำกัดให้ผู้เข้าแข่งขันต้องใช้เฉพาะข้อมูลที่แจกเท่านั้น แต่ผู้เข้าแข่งขันสามารถใช้ชุดข้อมูลอื่น เพื่อฝึกฝนและทดสอบระบบของตนเองได้ด้วย ทรัพยากรภาษาที่ทาง IMG (NECTEC) เปิดให้ใช้สำหรับการแข่งขัน BEST 2013 ดังนี้
คลังข้อมูลภาพตัวอักษร (Character Image Corpus) เป็นคลังข้อมูลชุดภาพตัวอักษร โดยในการแข่งขันครั้งนี้จะมีข้อมูลของชุดตัวอักษรทั้งหมด 2 ชุด
ข้อมูลภาพตัวอักษร ชุดที่ 1 เป็นชุดข้อมูลภาพตัวพิมพ์อักษร ซึ่งประกอบด้วย ภาพตัวอักษรภาษาไทย ภาษาอังกฤษ ตัวเลข สัญลักษณ์พิเศษ ของฟอนต์ที่หลากหลาย โดยได้มาจากการสแกนด้วยความละเอียด 200, 300 และ 400 dpi ของตัวอักษรแบบ normal, bold, italic และ bold italic ของรูปแบบอักษรชนิดต่าง ๆ
+ แบบรวมหมด : ชุดฝึกฝน และ ชุดทดลอง
+ แบบแยกตามระดับ บน กลาง ล่าง : ระดับบนชุดฝึกฝน ระดับบนชุดทดลอง ระดับกลางชุดฝึกฝน ระดับกลางชุดทดลอง ระดับล่างชุดฝึกฝน ระดับล่างชุดทดลอง
ไฟล์รายการมีรูปแบบดังนี้
[label] [file path]
035 \Special\035\200\bold\BWES211_200_31_08_035.bmp
คำอธิบาย ไฟล์ชื่อ BWES211_200_31_08_035.bmp มี label อยู่ในกลุ่มที่ 035
** label ที่กำหนดให้นี้ ปรับมาจากตารางชุดตัวอักษรมาตรฐานซึ่งครอบคลุมทั้งภาษาไทย และภาษาอังกฤษ
ข้อมูลภาพตัวอักษร ชุดที่ 2 ประกอบด้วยภาพตัวพิมพ์อักษรที่ได้จากการสแกนจากแหล่งต่าง ๆ เช่น หนังสือพิมพ์ นิตยสาร หรือภาพถ่ายจากกล้องดิจิตัล (เปิดให้ดาวน์โหลด ต้นเดือนพฤศจิกายน 2555)
แต่ละชุดข้อมูลภาพนี้ยังแบ่งเป็นชุดฝึกหัด (train) และชุดทดลอง (validate) เพื่อให้ผู้เข้าแข่งสามารถนำไปใช้ได้อย่างเหมาะสม ทั้งนี้ ไม่ได้เป็นการจำกัดให้ผู้เข้าแข่งใช้เฉพาะชุดข้อมูลที่เตรียมให้เท่านั้น ผู้เข้าแข่งสามารถจัดหาชุดข้อมูลอื่น มาใช้ร่วมเพื่อให้เกิดประสิทธิภาพสูงสุดได้
ตัวอักษรที่รูปร่างเหมือนกัน
รูปแบบของตัวอักษร ทั้งภาษาไทย และภาษาอังกฤษ มีหลายตัวอักษรที่มีรูปแบบตัวอักษรเหมือนหรือคล้ายกัน ในผู้จัดจึงได้จัดกลุ่มของตัวอักษรดังนี้
กลุ่มที่ 1 : 210 า และ 229 ๅ
กลุ่มที่ 2 : 231 ็ และ 248 ๘
กลุ่มที่ 3 : 234 ๊ และ 247 ๗
กลุ่มที่ 4 : 235 ๋ และ 043 +
กลุ่มที่ 5 : 099 c และ 067 C
กลุ่มที่ 6 : 112 p และ 080 P
กลุ่มที่ 7 : 115 s และ 083 S
กลุ่มที่ 8 : 118 v และ 086 V
กลุ่มที่ 9 : 119 w และ 087 W
กลุ่มที่ 10 : 120 x และ 088 X
กลุ่มที่ 11 : 122 z และ 090 Z
กลุ่มที่ 12 : 039 ' และ 044 ,
กลุ่มที่ 13 : 049 1 และ 232 ่ และ 105 i และ 108 l และ 073 I และ 045 - และ 046 . และ 124 |
กลุ่มที่ 14 : 048 0 และ 237 ํ และ 240 ๐ และ 111 o และ 079 O
โดยในการทดสอบจะถือว่า ตัวอักษรแต่ละกลุ่มจะตอบเป็น รหัสของตัวอักษรใดในกลุ่มเดียวกันก็ได้