ทรัพยากรภาษาและเครื่องมือ

ทรัพยากรภาษาและเครื่องมือของ HLT ที่เปิดให้ใช้สำหรับการแข่งขัน BEST 2012 แบ่งเป็น 2 ประเภท ดังนี้

1. คลังข้อความ (Corpus) ได้แก่

BEST I Corpus คือ คลังข้อความภาษาไทยที่มีการกำกับขอบเขตของคำ ขนาด 5 ล้านคำ ประกอบด้วย 4 หมวด คือ บทความวิชาการ (Article), สารานุกรม (Encyclopedia), ข่าว (News), และ นวนิยาย (Novel)
LEXiTRON Data 2.0 คือ ฐานข้อมูลพจนานุกรมไทย - อังกฤษ และ อังกฤษ - ไทย ขนาด 8 หมื่นคำ
Orchid คือ คลังข้อความภาษาไทย จากบทความวิชาการ ที่มีการกำกับขอบเขตของประโยค ขอบเขตของคำ และชนิดของคำ ขนาด 5 แสนคำ

2. เครื่องมือแบ่งคำภาษาไทย

LexTo คือ โปรแกรมแบ่งคำภาษาไทย โดยใช้เทคนิคการแบ่งคำแบบ Longest matching (Open source)
SWATH คือ โปรแกรมแบ่งคำภาษาไทย ที่ใช้เทคนิคการแบ่งคำแบบ Longest matching และ Maximal matching (Open source)
โปรแกรมแบ่งคำภาษาไทยจากการแข่งขัน BEST 2010 (Open source)
TLex คือ โปรแกรมแบ่งคำภาษาไทย ซึ่งพัฒนาโดยใช้เทคนิคการเรียนรู้ด้วยเครื่อง (Machine Learning) โดยอาศัยหลักการของ Conditional Random Field (CRF) ในการเรียนรู้ และใช้คลังข้อมูลของ BEST ขนาด 5 ล้านคำในการฝึกฝนโปรแกรม (Freeware)

เครื่องมืออื่นๆ ที่น่าสนใจ

BEST 2018