สำหรับปีนี้ การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST ได้เลือกหัวข้อการหาตำแหน่งและรู้จำข้อความในภาพถ่าย (Text Localization and Recognition Contest) ซึ่งเป็นการประยุกต์การหาตำแหน่งข้อความ (จัดแข่ง BEST ในปี 2015) และ การรู้จำข้อความบนภาพ (จัดแข่ง BEST ในปี 2014, 2013)
ในการแข่งขันปีนี้ ได้เลือกหัวข้อการแข่งที่ประยุกต์การหาตำแหน่งและรู้จำข้อความในภาพถ่ายเข้าด้วยกัน โดยเป็นการหาผู้เข้าแข่งขันการวิ่งมาราธอน จากเลขที่ติดตัวผู้เข้าแข่งขัน ซึ่งต้องใช้การหาตำแหน่งข้อความในภาพเพื่อหาว่าเลขประจำตัวผู้เข้าแข่งขันอยู่ที่ไหน และการรู้จำตัวเลขที่ปรากฎบนภาพเพื่อให้รู้ว่าเลขนั้นเลขอะไร
ภาพที่ใช้ในการแข่งขันครั้งนี้เป็นภาพถ่ายของผู้เข้าแข่งขันจริงในการแข่งวิ่งมาราธอน โดยภาพทั้งหมดได้รับการอนุเคราะห์จาก นายตุ้ม ชัตเตอร์ รันนิ่ง จาก http://shutterrunning.com/ โดยทางหน่วยปฏิบัติการวิจัยเทคโนโลยีภาพ (IMG) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) จะทำการเลือกชุดข้อมูลและทำผลเฉลย
ผู้เข้าแข่งขันสามารถใช้ทรัพยากรภาษาที่จัดเตรียมไว้จากการแข่งขัน BEST ในปีนี้ หรือปีที่ผ่านมาแล้ว หรือจะจัดหามาเอง หรือจะพัฒนาขึ้นใหม่ทั้งหมดก็ได้ ภายใต้เงื่อนไขที่ว่าจะต้องไม่ละเมิดทรัพย์สินทางปัญญาของผู้อื่น โดยผู้เข้าแข่งขันจะต้องพิสูจน์การได้มาของข้อมูลรวมถึงโปรแกรมที่ใช้พัฒนาอย่างถูกต้อง สามารถติดตามรายละเอียดการแข่งขันได้ที่ http//thailang.nectec.or.th/best
คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark), การหาข้อความในภาพ (Text Location Detection), การประมวลผลภาพ (Image Processing), การรู้จำตัวอักษร (Character Recognition), การประมวลผลภาษาธรรมชาติ (Natural Language Processing)
สำหรับปีนี้ การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST ได้เลือกหัวข้อการหาตำแหน่งข้อความบนภาพถ่าย (Text Location Detection Contest)
การหาตำแหน่งข้อความบนภาพ เป็นขั้นตอนที่สำคัญสำหรับการรู้จำตัวอักษร (Character Recognition) โดยเฉพาะในปัจจุบัน มีภาพจำนวนมากที่ถ่ายจากกล้องในโทรศัพท์มือุถือ และกล้องดิจิทัล (Digital Camera) การหาตำแหน่งตัวอักษรในภาพเป็นโจทย์ที่ได้รับความสนใจจากผู้ที่ทำงานด้านการรู้จำตัวอักษร และมีการทำวิจัยกันอย่างต่อเนื่อง ทั้งนี้การหาตำแหน่งของข้อความในภาพจะมีความซับซ้อน แตกต่างกันไปตามลักษณะของภาพ แสง และขนาดของบริเวณข้อความ
แม้ว่าการแข่งขันหาตำแหน่งข้อความบนภาพถ่าย มีการจัดแข่งใน BEST เป็นปีแรก ทางผู้จัดกำหนดขอบเขตของโจทย์ให้เป็นการหาข้อความบนภาพ โดยไม่จำกัดภาษาของตัวอักษร และ ไม่จำกัดรูปแบบของตัวอักษรที่ปรากฎในภาพ โดยทางหน่วยปฏิบัติการวิจัยเทคโนโลยีภาพ (IMG) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) จะเปิดชุดข้อมูลภาพ และผลเฉลย เพื่อให้ผู้เข้าแข่งขันสามารถนำไปพัฒนาโปรแกรมรู้จำตัวอักษรต่อไป
ทั้งนี้ ผู้เข้าแข่งขันสามารถใช้ทรัพยากรภาษาที่จัดเตรียมไว้ให้ หรือจะจัดหามาเอง หรือจะพัฒนาขึ้นใหม่ทั้งหมดก็ได้ ภายใต้เงื่อนไขที่ว่าจะต้องไม่ละเมิดทรัพย์สินทางปัญญาของผู้อื่น โดยผู้เข้าแข่งขันจะต้องพิสูจน์การได้มาของข้อมูลรวมถึงโปรแกรมที่ใช้พัฒนาอย่างถูกต้อง สามารถติดตามรายละเอียดการแข่งขันได้ที่ http//thailang.nectec.or.th/best
คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark), การหาข้อความในภาพ (Text Location Detection), การประมวลผลภาพ (Image Processing), การประมวลผลภาษาธรรมชาติ (Natural Language Processing)
สำหรับปีนี้ การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST ยังคงเป็นหัวข้อ การรู้จำตัวอักษรภาษาไทย (Thai Character Recognition) เป็นปีที่สอง
การรู้จำตัวอักษร (Character Recognition) เป็นหัวข้อที่มีผู้ทำวิจัยมาอย่างยาวนานและต่อเนื่อง ทั้งนี้การรู้จำตัวอักษรในแต่ละภาษาจะมีความแตกต่างกันตามลักษณะของภาษานั้นๆ ภาษาไทยถือได้ว่าเป็นภาษาที่มีความยากและซับซ้อนในการรู้จำภาษาหนึ่ง เนื่องจากภาษาไทยมีจำนวนตัวอักษรค่อนข้างมาก มีระดับการเขียนหลายระดับ และมีโอกาสเขียนติดหรือทับกัน จึงเป็นการยากที่จะสร้างระบบรู้จำตัวอักษรที่มีความถูกต้องสมบูรณ์ขึ้นมาได้
แม้ว่าการแข่งขันครั้งนี้ จะเป็นการจัดเรื่องการรู้จำตัวอักษรภาษาไทยเป็นปีที่สอง ทางผู้จัดยังคงขอบเขตของโจทย์ให้เป็นเฉพาะการรู้จำตัวอักษรภาษาไทย และ ภาษาอังกฤษที่เป็นตัวอักษรเดี่ยวเท่านั้น โดยทางหน่วยปฏิบัติการวิจัยเทคโนโลยีภาพ (IMG) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) จะเปิดทรัพยากรภาษา อันได้แก่ ฐานข้อมูลภาพตัวอักษรที่มี ชนิด ขนาด และรูปแบบที่หลากหลาย, ตัวอักษรคำตอบที่ต้องการ เป็นต้น โดยข้อมูลที่ให้จะแบ่งเป็น ชุดฝึกฝน (Training set) และชุดทดลอง (Validation set) เพื่อให้ผู้เข้าแข่งขันสามารถนำไปพัฒนาโปรแกรมรู้จำตัวอักษรต่อไป
ทั้งนี้ ผู้เข้าแข่งขันสามารถใช้ทรัพยากรภาษาที่จัดเตรียมไว้ให้ หรือจะจัดหามาเอง หรือจะพัฒนาขึ้นใหม่ทั้งหมดก็ได้ ภายใต้เงื่อนไขที่ว่าจะต้องไม่ละเมิดทรัพย์สินทางปัญญาของผู้อื่น โดยผู้เข้าแข่งขันจะต้องพิสูจน์การได้มาของข้อมูลรวมถึงโปรแกรมที่ใช้พัฒนาอย่างถูกต้อง
คำสำคัญ (KEYWORDS) การวัดเปรียบเทียบสมรรถนะ (Benchmark), การรู้จำตัวอักษร (Character Recognition), การรู้จำรูปแบบ (Pattern Recognition), ภาษาไทย (Thai Language), การประมวลผลภาพ (Image Processing), การประมวลผลภาษาธรรมชาติ (Natural Language Processing)