ทรัพยากรภาษา

ในการแข่งขัน BEST 2013 ผู้จัดได้เตรียมชุดข้อมูลภาพสำหรับให้ผู้เข้าแข่งขันไปใช้ฝึกฝน และทดสอบระบบ โดยการแข่งขันครั้งนี้ไม่ได้จำกัดให้ผู้เข้าแข่งขันต้องใช้เฉพาะข้อมูลที่แจกเท่านั้น แต่ผู้เข้าแข่งขันสามารถใช้ชุดข้อมูลอื่น เพื่อฝึกฝนและทดสอบระบบของตนเองได้ด้วย ทรัพยากรภาษาที่ทาง IMG (NECTEC) เปิดให้ใช้สำหรับการแข่งขัน BEST 2013 ดังนี้

คลังข้อมูลภาพตัวอักษร (Character Image Corpus) เป็นคลังข้อมูลชุดภาพตัวอักษร โดยในการแข่งขันครั้งนี้จะมีข้อมูลของชุดตัวอักษรทั้งหมด 2 ชุด

ข้อมูลภาพตัวอักษร ชุดที่ 1 เป็นชุดข้อมูลภาพตัวพิมพ์อักษร ซึ่งประกอบด้วย ภาพตัวอักษรภาษาไทย ภาษาอังกฤษ ตัวเลข สัญลักษณ์พิเศษ ของฟอนต์ที่หลากหลาย โดยได้มาจากการสแกนด้วยความละเอียด 200, 300 และ 400 dpi ของตัวอักษรแบบ normal, bold, italic และ bold italic ของรูปแบบอักษรชนิดต่าง ๆ

ข้อมูลภาพที่เตรียมให้ได้ บีบอัดแยกตามชนิด ดังนี้ ตัวอักษรภาษาอังกฤษ, ตัวอักษรภาษาไทย, ตัวเลข และ สัญลักษณ์
ข้อมูลรายการ และชนิดของภาพ (class label) ทางผู้จัดได้ทำรายการชื่อไฟล์ เพื่อให้ผู้เข้าแข่งนำข้อมูลไปใช้ได้ง่าย โดยแยกให้อยู่ 2 รูปแบบ

+ แบบรวมหมด : ชุดฝึกฝน และ ชุดทดลอง

+ แบบแยกตามระดับ บน กลาง ล่าง : ระดับบนชุดฝึกฝน ระดับบนชุดทดลอง ระดับกลางชุดฝึกฝน ระดับกลางชุดทดลอง ระดับล่างชุดฝึกฝน ระดับล่างชุดทดลอง

ไฟล์รายการมีรูปแบบดังนี้

[label] [file path]

035 \Special\035\200\bold\BWES211_200_31_08_035.bmp

คำอธิบาย ไฟล์ชื่อ BWES211_200_31_08_035.bmp มี label อยู่ในกลุ่มที่ 035

** label ที่กำหนดให้นี้ ปรับมาจากตารางชุดตัวอักษรมาตรฐานซึ่งครอบคลุมทั้งภาษาไทย และภาษาอังกฤษ

ข้อมูลภาพตัวอักษร ชุดที่ 2 ประกอบด้วยภาพตัวพิมพ์อักษรที่ได้จากการสแกนจากแหล่งต่าง ๆ เช่น หนังสือพิมพ์ นิตยสาร หรือภาพถ่ายจากกล้องดิจิตัล (เปิดให้ดาวน์โหลด ต้นเดือนพฤศจิกายน 2555)

แต่ละชุดข้อมูลภาพนี้ยังแบ่งเป็นชุดฝึกหัด (train) และชุดทดลอง (validate) เพื่อให้ผู้เข้าแข่งสามารถนำไปใช้ได้อย่างเหมาะสม ทั้งนี้ ไม่ได้เป็นการจำกัดให้ผู้เข้าแข่งใช้เฉพาะชุดข้อมูลที่เตรียมให้เท่านั้น ผู้เข้าแข่งสามารถจัดหาชุดข้อมูลอื่น มาใช้ร่วมเพื่อให้เกิดประสิทธิภาพสูงสุดได้

ตัวอักษรที่รูปร่างเหมือนกัน

รูปแบบของตัวอักษร ทั้งภาษาไทย และภาษาอังกฤษ มีหลายตัวอักษรที่มีรูปแบบตัวอักษรเหมือนหรือคล้ายกัน ในผู้จัดจึงได้จัดกลุ่มของตัวอักษรดังนี้

กลุ่มที่ 1 : 210 า และ 229 ๅ

กลุ่มที่ 2 : 231 ็ และ 248 ๘

กลุ่มที่ 3 : 234 ๊ และ 247 ๗

กลุ่มที่ 4 : 235 ๋ และ 043 +

กลุ่มที่ 5 : 099 c และ 067 C

กลุ่มที่ 6 : 112 p และ 080 P

กลุ่มที่ 7 : 115 s และ 083 S

กลุ่มที่ 8 : 118 v และ 086 V

กลุ่มที่ 9 : 119 w และ 087 W

กลุ่มที่ 10 : 120 x และ 088 X

กลุ่มที่ 11 : 122 z และ 090 Z

กลุ่มที่ 12 : 039 ' และ 044 ,

กลุ่มที่ 13 : 049 1 และ 232 ่ และ 105 i และ 108 l และ 073 I และ 045 - และ 046 . และ 124 |

กลุ่มที่ 14 : 048 0 และ 237 ํ และ 240 ๐ และ 111 o และ 079 O

โดยในการทดสอบจะถือว่า ตัวอักษรแต่ละกลุ่มจะตอบเป็น รหัสของตัวอักษรใดในกลุ่มเดียวกันก็ได้

BEST 2018

BEST 2017

BEST 2016

BEST 2015

BEST 2014

BEST 2013

BEST 2012

BEST 2011

BEST 2010

ทรัพยากรภาษา