ทรัพยากรภาษาและเครื่องมือของ HLT ที่เปิดให้ใช้สำหรับการแข่งขัน BEST 2011 แบ่งเป็น 4 ประเภท ดังนี้
1. คลังข้อความ (Corpora) ได้แก่
- BEST I Corpus คือ คลังข้อความภาษาไทยที่มีการกำกับขอบเขตของคำ ขนาด 5 ล้านคำ ประกอบด้วย 4 หมวด คือ บทความวิชาการ (Article), สารานุกรม (Encyclopedia), ข่าว (News), และ นวนิยาย (Novel)
- BEST II Corpus คือ คลังข้อความภาษาไทยที่มีการกำกับขอบเขตของคำ ขนาด 2 ล้านคำ ประกอบด้วย 4 หมวด คือ กฎหมาย (Law), พุทธศาสนา (Buddhism), ปาฐกถา (Talk), และ วิกิพีเดียไทย (Thai Wikipedia) (ให้สิทธิ์ในการดาวน์โหลดเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)
- LEXiTRON Data 2.0 คือ ฐานข้อมูลพจนานุกรมไทย - อังกฤษ และ อังกฤษ - ไทย ขนาด 8 หมื่นคำ
- LEXiTRON-Pro คือ ฐานข้อมูลพจนานุกรมคำอ่านภาษาไทย ขนาด 1 แสน 3 หมื่นคำ (ให้สิทธิ์ในการดาวน์โหลดเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)
- Orchid คือ คลังข้อความภาษาไทย จากบทความวิชาการ ที่มีการกำกับขอบเขตของประโยค ขอบเขตของคำ และชนิดของคำ ขนาด 5 แสนคำ
- Lotus คือ คลังข้อมูลเสียงพูดสำหรับระบบรู้จำเสียงพูด ที่สร้างประโยคโดยใช้หน่วยเสียงสมดุลของเสียงอ่าน (Phone-balanced) จากคำศัพท์ 5,000 คำ โดยมีจำนวนผู้พูด 50 คน และมีความยาว 70 ชั่วโมง (ให้สิทธิ์ในการดาวน์โหลดเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)
- TSynC-1 คือ คลังข้อมูลเสียงพูดสำหรับระบบสังเคราะห์เสียงพูด มีลักษณะเป็นเสียงพูดที่มีการกำกับสัทลักษณ์ (Prosody-tagged) ขนาด 14 ชั่วโมง จากเสียงพูดผู้หญิง 1 เสียง และมีทั้งสิ้น 5,200 ประโยค (ให้สิทธิ์ในการดาวน์โหลดเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)
- Thai OCR Corpus คือ ฐานข้อมูลภาพสำหรับพัฒนาโปรแกรมรู้จำตัวอักษรภาษาไทย แบ่งเป็นชุดฝึกฝน (Training set) ประกอบด้วยภาพอักษรภาษาไทยประเภท BMP จำนวน 162 ตัวอักษร แต่ละตัวอักษรมี 5,000 รูปแบบ รวมทั้งสิ้น 810,000 รูปแบบ และ ชุดทดสอบ (Test set) เป็นไฟล์ภาพเอกสารภาษาไทยประเภท JPG แบ่งเป็น 4 หมวด คือ หนังสือพิมพ์ วารสาร จดหมายราชการ และแผ่นพับ จำนวนหมวดละ 100 หน้า (ให้สิทธิ์ในการดาวน์โหลดเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)
2. การให้บริการผ่าน Web service ได้แก่
- TLexs คือ บริการแบ่งคำภาษาไทย ซึ่งพัฒนาโดยใช้เทคนิคการเรียนรู้ด้วยเครื่อง (Machine Learning) โดยอาศัยหลักการของ Conditional Random Field (CRF) ในการเรียนรู้ และใช้คลังข้อมูลของ BEST I Corpus ขนาด 5 ล้านคำในการฝึกฝนโปรแกรม
- LexTo คือ บริการแบ่งคำภาษาไทย โดยใช้เทคนิคการแบ่งคำแบบ Longest matching
- Vaja-API คือ บริการสำหรับสังเคราะห์เสียงพูดภาษาไทยที่มีความเป็นธรรมชาติ (ให้สิทธิ์ในการใช้งานเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)
- iSpeech-API คือ บริการสำหรับรู้จำเสียงพูดภาษาไทย (ให้สิทธิ์ในการใช้งานเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)
- Parsit คือ บริการแปลภาษาอังกฤษ-ไทยแบบอัตโนมัติ
3. เครื่องมือที่เป็น Open Source ได้แก่
- LexTo คือ โปรแกรมแบ่งคำภาษาไทย โดยใช้เทคนิคการแบ่งคำแบบ Longest matching
- BEST 2010 คือโปรแกรมแบ่งคำภาษาไทย ที่ได้จากการแข่งขัน BEST 2010
- Swath คือ โปรแกรมแบ่งคำภาษาไทย ที่ใช้เทคนิคการแบ่งคำแบบ Longest matching และ Maximal matching
- LEXiTRON 2.0 คือ โปรแกรมพจนานุกรมไทย - อังกฤษ อังกฤษ - ไทย บน Windows และ Linux
- Sansarn Look Enterprise คือ โปรแกรมสำหรับพัฒนาและจัดการระบบสืบค้นข้อมูล
4. เครื่องมือที่เป็น Freeware ได้แก่
- Sansarn Offline คือ โปรแกรมสำหรับสืบค้นข้อมูลบนอินเตอร์เน็ตแบบไม่เชื่อมต่อ
- TLexs คือ โปรแกรมแบ่งคำภาษาไทย ซึ่งพัฒนาโดยใช้เทคนิคการเรียนรู้ด้วยเครื่อง (Machine Learning) โดยอาศัยหลักการของ Conditional Random Field (CRF) ในการเรียนรู้ และใช้คลังข้อมูลของ BEST I Corpus ขนาด 5 ล้านคำในการฝึกฝนโปรแกรม
- LEXiTRON Enterprise 1.0 Essential Edition คือ พจนานุกรมไทย - อังกฤษ อังกฤษ - ไทย สำหรับติดตั้งบนระบบอินทราเน็ต เพื่อใช้งานภายในองค์กร
- LEXiTRON 2.6 for Windows คือ พจนานุกรมไทย - อังกฤษ อังกฤษ - ไทย สำหรับติดตั้งบนระบบปฏิบัติการวินโดวส์ พร้อมรองรับเสียงคำอ่าน
- LEXiTRON Gadget for Windows Vista คือ พจนานุกรมไทย - อังกฤษ อังกฤษ - ไทย สำหรับติดตั้งเป็น Gadget บนระบบปฏิบัติการวินโดวส์วิสตา
- Vaja Lite คือ เครื่องมือสำหรับช่วยอำนวยความสะดวกในการพัฒนาระบบสังเคราะห์เสียงพูดในเนื้อหาเฉพาะ (Limited domain)
- Thai OCR software คือ โปรแกรมรู้จำตัวอักษรภาษาไทย ที่ใช้เทคนิคของโครงข่ายประสาทเทียม (Neural network) พัฒนาด้วยภาษา C++ (ให้สิทธิ์ในการดาวน์โหลดเฉพาะข้อเสนอโครงการที่ผ่านเข้ารอบเท่านั้น)