ทรัพยากรภาษาและเครื่องมือของ HLT ที่เปิดให้ใช้สำหรับการแข่งขัน BEST 2012 แบ่งเป็น 2 ประเภท ดังนี้
1. คลังข้อความ (Corpus) ได้แก่
- BEST I Corpus คือ คลังข้อความภาษาไทยที่มีการกำกับขอบเขตของคำ ขนาด 5 ล้านคำ ประกอบด้วย 4 หมวด คือ บทความวิชาการ (Article), สารานุกรม (Encyclopedia), ข่าว (News), และ นวนิยาย (Novel)
- LEXiTRON Data 2.0 คือ ฐานข้อมูลพจนานุกรมไทย - อังกฤษ และ อังกฤษ - ไทย ขนาด 8 หมื่นคำ
- Orchid คือ คลังข้อความภาษาไทย จากบทความวิชาการ ที่มีการกำกับขอบเขตของประโยค ขอบเขตของคำ และชนิดของคำ ขนาด 5 แสนคำ
-
2. เครื่องมือแบ่งคำภาษาไทย
- LexTo คือ โปรแกรมแบ่งคำภาษาไทย โดยใช้เทคนิคการแบ่งคำแบบ Longest matching (Open source)
- SWATH คือ โปรแกรมแบ่งคำภาษาไทย ที่ใช้เทคนิคการแบ่งคำแบบ Longest matching และ Maximal matching (Open source)
- โปรแกรมแบ่งคำภาษาไทยจากการแข่งขัน BEST 2010 (Open source)
- TLex คือ โปรแกรมแบ่งคำภาษาไทย ซึ่งพัฒนาโดยใช้เทคนิคการเรียนรู้ด้วยเครื่อง (Machine Learning) โดยอาศัยหลักการของ Conditional Random Field (CRF) ในการเรียนรู้ และใช้คลังข้อมูลของ BEST ขนาด 5 ล้านคำในการฝึกฝนโปรแกรม (Freeware)
เครื่องมืออื่นๆ ที่น่าสนใจ
- เครื่องมือแก้ไขคำผิด (word spelling correction google api)