นาย สิทธิโชค  ทรัพย์ไพบูลย์กิจ

นางสาว สุพัฒนวรี  ทิพย์เจริญ

ผู้ได้รับรางวัลชมเชย (ร่วม) BEST 2009

การเพิ่มประสิทธิภาพการตัดคำภาษาไทยด้วยเทคนิคการเรียนรู้ด้วยเครื่อง

<<รายละเอียด>>

นาย สิทธิโชค  ทรัพย์ไพบูลย์กิจ

  • การศึกษา/สถานที่ทำงาน

ปริญญาโท สาขาวิชาร่วมชีวสารสนเทศศาสตร์ คณะวิทยาศาสตร์ มหาวิทยาลัยชียงใหม่
ปริญญาตรี : ภาควิชาวิทยาการคอมพิวเตอร์  คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่

  • ผลงานที่ผ่านมา

2551  เข้ารอบชิงชนะเลิศการแข่งขัน  NSC2008 ในหัวข้อโครงการ “เว็บบอร์ดอัจฉริยะ” และ ได้รับรางวัลอันดับ 2 โครงการดีเด่นของนักศึกษาปี 4 ของคณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่ (ในหัวข้อโครงการเดียวกัน)
2552  ได้รับรางวัลชมเชยจากการแข่งขัน NSC2009 ในหัวข้อ “การเพิ่มประสิทธิภาพการตัดคำภาษาไทยด้วย
เทคนิคการเรียนรู้ด้วยเครื่อง”
2549  รางวัลชมเชยสำหรับการแข่งขันประกวดซอฟต์แวร์ Vitual Software House ของภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่

  • ความสนใจ

Computational identification of noncoding RNAs in Spirulina  platensis

  • ทำไมลงแข่งขัน BEST2009

เพื่อฝึกฝนเทคนิคการทำ Natural Language Processing สำหรับนำไปประยุกต์ใช้กับงาน Thesis ของตนเอง ซึ่งเป็นการประยุกต์ใช้กับ Sequence Analysis โดยมีวิธีการแก้ปัญหาที่คล้าย ๆ กัน เนื่องจากธรรมชาติของข้อมูลเป็น Sequence เหมือนกัน

  • ใช้กลยุทธ์/เทคนิคอะไรในการแข่งขัน

ใช้เทคนิคการเรียนรู้ด้วยเครื่อง ซึ่งใช้แนวคิดแบบ graphical model ด้วยวิธี Conditional Random fields (CRFs) และใช้เทคนิคการ Boosting เพื่อเพิ่มประสิทธิภาพของแบบจำลองให้ดียิ่งขึ้น เนื่องจากมีความทเหมาะสมกับการประมวลผล แบบ Labeling และ Sequencing ส่วน Feature Selection ใช้แบบเดียวกันกับของ NECTEC

  • BEST มีส่วนสำคัญอย่างไรต่อการพัฒนา NLP ในประเทศไทย

มีส่วนที่สำคัญมากในการกำหนดแนวทางทางด้านเทคโนโลยี เทคนิค และวิธีการ ที่ใช้กับการประมวลผลทางด้าน NLP โดยเฉพาะกับการตัดคำภาษาไทย ซึ่งแต่ก่อนนั้น หน่วยงาน หรือ องค์กรต่าง ๆ ไม่ได้มีความร่วมมือ หรือ กำหนดดทิศทางร่วมกัน ต่างฝ่ายต่างพัฒนา ไม่ได้ปรึกษาหารือ แลกเปลี่ยนความคิดด้วยกัน ทำให้ไม่ได้มีการนัดพบ และแลกเปลี่ยนความรู้ เทคนิคต่าง ๆ การพัฒนาทางด้าน NLP เป็นไปได้อย่างล่าช้า และไม่มีมาตรฐาน ส่งผลทำให้การนำผลลัพธ์ที่ได้จากการพัฒนาทางด้าน NLP ของประเทศไทยไปประมวลผลต่อนั้น กลายเป็นข้อจำกัดไป

  • เป้าหมายสูงสุดที่คาดหวังสำหรับ NLP ในประเทศไทย

คาดว่า BEST จะสามารถนำไปสู่การสร้างมาตราฐานการประมวลทางด้าน NLP โดยเฉพาะการตัดคำภาษาไทย ให้เป็นที่ยอมรับ หรือ ทัดเทียมกับมาตราฐานของนานาชาติ ทำให้ข้อจำกัดของข้อผิดพลาดที่เกิดจากการตัดคำภาษาไทย ซึ่งเป็นข้อมูลตั้งต้นในการประมวลผล เช่น machine translation, search engine ฯลฯ หมดไป


นางสาว สุพัฒนวรี  ทิพย์เจริญ

  • การศึกษา/สถานที่ทำงาน

กำลังศึกษาอยู่ระดับปริญญาดุษฏีบัณฑิต ปีที่ 2 ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่
(เป็นสมาชิกของห้องปฏิบัติการชีวสารสนเทศ คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่)
ปี 2547 อาจารย์ประจำ ภาควิชาเทคโนโลยี สารสนเทศ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยฟาร์อีสเทอร์น เชียงใหม่

  • ความสนใจ

Data mining, Bio Text Mining, Information Retrieval, Information Extraction, NPL

  • ผลงานที่ผ่านมา

ปี (2544-2546)
การค้นคว้าอิสระเชิงวิทยานิพนธ์ในระดับปริญญาโทเรื่อง“ระบบการตัดคำในภาษาไทยเพื่อการแปลอักษรเบรลล์ไทย(Thai Word Segmentation System for Thai Braille Translation)

สมาชิกทีมงานโครงการวิจัย พัฒนาและวิศวกรรมเสนอ ฝ่ายเทคโนโลยีอิเล็กทรอนิกส์ และคอมพิวเตอร์สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ เครือข่ายภาคเหนือ เรื่อง การพัฒนาโปรแกรมแปลภาษาไทยเป็นอักษรเบรลล์ โดยแสดงผลทางอุปกรณ์แสดงอักษรเบรลล์ (A Development of Thai-to-Braille Translation Software by Displaying Output via Braille Character Displayed Device)

ปี (2550-ปัจจุบัน)
Bio Medical Text Classification using Machine Learning Techniques,The 12th Annual National Symposium on Computational Science and Engineering (ANSCSE10), 27-29 March 2008,Ubon Rajathanee University,Thailand.

Biomedical Information Retrieval using Latent Semantic Indexing and Biomedical Named Entity Recognition :12 th National Computer Science and Engineering Conference (NCSEC2008) Nov 20-21 2008, Pattaya, Thailand.

เข้าร่วมประกวดการแข่งขันสุดยอดซอฟต์แวร์แบ่งคำภาษาไทย (Thai Word Segmentation Software Contest 2009)

  • E-mail

g5005

  • ทำไมลงแข่งขัน BEST2009

BEST2009 เป็นการแข่งขันที่น่าสนใจ ที่จะได้พัฒนาความรู้ทางด้าน NLP นอกจากนี้ ยังได้รับประสบการณ์ที่ดี ได้รับความรู้ จากการแลกเปลี่ยนระหว่างผู้เข้าแข่งขัน ที่สามารถนำไปศึกษาต่อยอดหรือประยุกต์ใช้ต่อไป รวมถึงได้รับประสบการณ์ที่ดี และมิตรภาพ จากเพื่อนใหม่

  • ใช้กลยุทธ์เทคนิคอะไรในการแข่งขัน

ตัวแบบจำลองเชิงกราฟ (graphical model :conditional random fields approach) ซึ่งเป็นการลักษณะของการเรียนรู้ด้วยเครื่อง (Machine Learning) คือทำการสร้างแบบจำลองเพื่อให้เกิดการเรียนรู้และสามารถจดจำรูปแบบของคำในภาษาไทยได้

  • BEST มีส่วนสำคัญอย่างไรต่อการพัฒนา NLP ในประเทศไทย

ในปัจจุบันเห็นได้ชัดว่า การตัดคำในภาษาไทย กลายมาเป็นพื้นฐานที่สำคัญของงาน NLP มากมาย ไม่ว่าจะเป็น งานทางด้านของ Information Retrieval, Information Extraction, Search Engine, Semantic Role Labeling ฯลฯ

  • เป้าหมายสูงสุดที่คาดหวังสำหรับ NLP ในประเทศไทย

ได้เครื่องมือในการตัดคำภาษาไทยที่มีความเหมาะสมกับงานที่ต้องการนำไปประยุกต์ใช้ สามารถนำไปใช้ร่วมกับงานด้านอื่นๆได้อย่างมีประสิทธิภาพ


นาย ภานุวัฒน์  เมฆะ

  • การศึกษา/สถานที่ทำงาน


กำลังศึกษาระดับปริญญาโท แผน ก ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่

  • ผลงานที่ผ่านมา


ทำงานวิจัยเกี่ยวกับอัลกอริทึมสำหรับการจัดตารางการให้บริการการร้องขอบนเว็บเซิร์ฟเวอร์

  • ความสนใจ


Neural Network, Data Minning, Support Vector Machine(SVM)

  • E-mail

panuwat

  • ทำไมลงแข่งขัน BEST2009

งานวิจัยที่คาดว่าจะทำในการศึกษาระดับปริญญาโทนี้มีเทคนิคที่ใช้เกี่ยวข้องกับวิธีการตัดคำภาษาไทยที่ใช้ในการแข่งขัน

  • ใช้กลยุทธ์/เทคนิคอะไรในการแข่งขัน


ใช้ CRF++ โมเดลที่ใช้ 4-gram

  • BEST มีส่วนสำคัญอย่างไรต่อการพัฒนา NLP ในประเทศไทย


เป็นพื้นฐานสำคัญที่รวบรวมนำเอาเทคนิคที่จะนำไปพัฒนา NLPในประเทศไทย

  • เป้าหมายสูงสุดที่คาดหวังสำหรับ NLP ในประเทศไทย

เป็นผู้นำหลักของ NLP ของ ASIAN หรือระดับ World class