ทรัพยากรภาษาและเครื่องมือ

ทรัพยากรภาษาและเครื่องมือของ HLT ที่เปิดให้ใช้สำหรับการแข่งขัน BEST 2012 แบ่งเป็น 2 ประเภท ดังนี้

1. คลังข้อความ (Corpus) ได้แก่

  • BEST I Corpus คือ คลังข้อความภาษาไทยที่มีการกำกับขอบเขตของคำ ขนาด 5 ล้านคำ ประกอบด้วย 4 หมวด คือ บทความวิชาการ (Article), สารานุกรม (Encyclopedia), ข่าว (News), และ นวนิยาย (Novel)
  • LEXiTRON Data 2.0 คือ ฐานข้อมูลพจนานุกรมไทย - อังกฤษ และ อังกฤษ - ไทย ขนาด 8 หมื่นคำ
  • Orchid คือ คลังข้อความภาษาไทย จากบทความวิชาการ ที่มีการกำกับขอบเขตของประโยค ขอบเขตของคำ และชนิดของคำ ขนาด 5 แสนคำ
  •  


2. เครื่องมือแบ่งคำภาษาไทย

  • LexTo คือ โปรแกรมแบ่งคำภาษาไทย โดยใช้เทคนิคการแบ่งคำแบบ Longest matching (Open source)
  • SWATH คือ โปรแกรมแบ่งคำภาษาไทย ที่ใช้เทคนิคการแบ่งคำแบบ Longest matching และ Maximal matching (Open source)
  • โปรแกรมแบ่งคำภาษาไทยจากการแข่งขัน BEST 2010 (Open source)
  • TLex คือ โปรแกรมแบ่งคำภาษาไทย ซึ่งพัฒนาโดยใช้เทคนิคการเรียนรู้ด้วยเครื่อง (Machine Learning) โดยอาศัยหลักการของ Conditional Random Field (CRF) ในการเรียนรู้ และใช้คลังข้อมูลของ BEST ขนาด 5 ล้านคำในการฝึกฝนโปรแกรม (Freeware)



เครื่องมืออื่นๆ ที่น่าสนใจ

  • เครื่องมือแก้ไขคำผิด (word spelling correction google api)