ทรัพยากรภาษา

ในการแข่งขัน BEST 2013 ผู้จัดได้เตรียมชุดข้อมูลภาพสำหรับให้ผู้เข้าแข่งขันไปใช้ฝึกฝน และทดสอบระบบ โดยการแข่งขันครั้งนี้ไม่ได้จำกัดให้ผู้เข้าแข่งขันต้องใช้เฉพาะข้อมูลที่แจกเท่านั้น แต่ผู้เข้าแข่งขันสามารถใช้ชุดข้อมูลอื่น เพื่อฝึกฝนและทดสอบระบบของตนเองได้ด้วย ทรัพยากรภาษาที่ทาง IMG (NECTEC) เปิดให้ใช้สำหรับการแข่งขัน BEST 2013 ดังนี้

 

คลังข้อมูลภาพตัวอักษร (Character Image Corpus) เป็นคลังข้อมูลชุดภาพตัวอักษร โดยในการแข่งขันครั้งนี้จะมีข้อมูลของชุดตัวอักษรทั้งหมด 2 ชุด

  • ข้อมูลภาพตัวอักษร ชุดที่ 1 เป็นชุดข้อมูลภาพตัวพิมพ์อักษร ซึ่งประกอบด้วย ภาพตัวอักษรภาษาไทย ภาษาอังกฤษ ตัวเลข สัญลักษณ์พิเศษ ของฟอนต์ที่หลากหลาย  โดยได้มาจากการสแกนด้วยความละเอียด 200, 300 และ 400 dpi ของตัวอักษรแบบ normal, bold, italic และ bold italic ของรูปแบบอักษรชนิดต่าง  ๆ

      ข้อมูลภาพที่เตรียมให้ได้ บีบอัดแยกตามชนิด ดังนี้ ตัวอักษรภาษาอังกฤษ, ตัวอักษรภาษาไทย, ตัวเลข และ สัญลักษณ์  
      ข้อมูลรายการ และชนิดของภาพ (class label) ทางผู้จัดได้ทำรายการชื่อไฟล์ เพื่อให้ผู้เข้าแข่งนำข้อมูลไปใช้ได้ง่าย  โดยแยกให้อยู่ 2 รูปแบบ

                + แบบรวมหมด : ชุดฝึกฝน และ ชุดทดลอง  

                + แบบแยกตามระดับ บน กลาง ล่าง : ระดับบนชุดฝึกฝน ระดับบนชุดทดลอง ระดับกลางชุดฝึกฝน ระดับกลางชุดทดลอง ระดับล่างชุดฝึกฝน ระดับล่างชุดทดลอง

         ไฟล์รายการมีรูปแบบดังนี้  

               [label]                     [file path]

                 035                         \Special\035\200\bold\BWES211_200_31_08_035.bmp

         คำอธิบาย ไฟล์ชื่อ BWES211_200_31_08_035.bmp มี label อยู่ในกลุ่มที่ 035 

        ** label ที่กำหนดให้นี้ ปรับมาจากตารางชุดตัวอักษรมาตรฐานซึ่งครอบคลุมทั้งภาษาไทย และภาษาอังกฤษ

  • ข้อมูลภาพตัวอักษร ชุดที่ 2 ประกอบด้วยภาพตัวพิมพ์อักษรที่ได้จากการสแกนจากแหล่งต่าง ๆ เช่น หนังสือพิมพ์ นิตยสาร หรือภาพถ่ายจากกล้องดิจิตัล  (เปิดให้ดาวน์โหลด ต้นเดือนพฤศจิกายน 2555)

แต่ละชุดข้อมูลภาพนี้ยังแบ่งเป็นชุดฝึกหัด (train) และชุดทดลอง (validate) เพื่อให้ผู้เข้าแข่งสามารถนำไปใช้ได้อย่างเหมาะสม ทั้งนี้ ไม่ได้เป็นการจำกัดให้ผู้เข้าแข่งใช้เฉพาะชุดข้อมูลที่เตรียมให้เท่านั้น ผู้เข้าแข่งสามารถจัดหาชุดข้อมูลอื่น มาใช้ร่วมเพื่อให้เกิดประสิทธิภาพสูงสุดได้


ตัวอักษรที่รูปร่างเหมือนกัน

       รูปแบบของตัวอักษร ทั้งภาษาไทย และภาษาอังกฤษ มีหลายตัวอักษรที่มีรูปแบบตัวอักษรเหมือนหรือคล้ายกัน ในผู้จัดจึงได้จัดกลุ่มของตัวอักษรดังนี้

          กลุ่มที่ 1 : 210 า และ  229 ๅ 

          กลุ่มที่ 2 : 231 ็ และ 248 ๘

          กลุ่มที่ 3 : 234 ๊  และ 247 ๗

          กลุ่มที่ 4 : 235 ๋ และ 043 +

          กลุ่มที่ 5 : 099 c และ 067 C

          กลุ่มที่ 6 : 112 p และ 080 P

          กลุ่มที่ 7 : 115 s และ 083 S

          กลุ่มที่ 8 : 118 v และ 086 V

          กลุ่มที่ 9 : 119 w และ 087 W

          กลุ่มที่ 10 : 120 x และ 088 X

          กลุ่มที่ 11 : 122 z และ 090 Z

          กลุ่มที่ 12 : 039 ' และ 044 ,

          กลุ่มที่ 13 : 049 1 และ 232 ่ และ 105 i และ 108 l และ 073 I และ 045 - และ 046 . และ 124 |

          กลุ่มที่ 14 : 048 0 และ 237 ํ และ 240 ๐ และ 111 o และ 079 O

    โดยในการทดสอบจะถือว่า ตัวอักษรแต่ละกลุ่มจะตอบเป็น รหัสของตัวอักษรใดในกลุ่มเดียวกันก็ได้