จากการสนทนาใน thread หนึ่งที่ youfest group [1] เกี่ยวกับปัญหา
ของระบบภาษาไทยในคอมพิวเตอร์ โดยมีบุคคลต่าง ๆ เข้าร่วมสนทนา
จนกระทั่ง อ.ทวีศักดิ์ กออนันตกูล ได้เสนอให้เริ่มร่าง วทท 3.0 กันเลย
โดยอาจารย์ได้สร้างหน้า wiki [2] ไว้สำหรับรวบรวมประเด็นต่าง ๆ
เพื่อร่างเป็นข้อกำหนดต่อไป
[1] http://groups.google.com/group/youfest/browse_thread/thread/9bcbec85b2ed2b6d
[2] http://wtt3.wikidot.com/
เนื่องจากมีข้อสังเกตว่า youfest mailing list อาจไม่เหมาะสำหรับ
การสนทนาเรื่องทางเทคนิคเท่ากับที่ list นี้ จึงเห็นสมควรย้ายการ
สนทนามาที่นี่ ผู้ที่สนใจสามารถอ่านต้นเรื่องได้จาก youfest thread
ข้างต้นนะครับ
สมาชิกท่านใดมีประเด็นที่พบระหว่างการพัฒนา หรือมีข้อคิดเห็นเพิ่มเติม
ก็ขอเชิญเพิ่มเติมประเด็นได้ครับ
เทพ.
--
Theppitak Karoonboonyanan
http://linux.thai.net/~thep/
ดังนั้นขอเสนอให้จัด sprint ดีไหมครับ อาจให้เนคเทคเป็นเจ้าภาพ แล้วเชิญ
stakeholder รวมถึงคนที่ทำภาษาไทยบนคอมพิวเตอร์มา เช่น
- คุณสัมพันธ์
- ชมรมสิ่งพิมพ์อิเล็คทรอนิกส์
- ทีมของ f0nt.com
- ทีมที่ทำระบบภาษาไทยแบบแฮกเข้าของโปรแกรม Adobe ต่างๆ
งานน่าจะเดินได้เร็วขึ้น? (ในระยะยาวคงต้องมี sprint กันหลายรอบ)
2008/4/8 Theppitak Karoonboonyanan <th...@linux.thai.net>:
Input Method for Thai Language on Mobile Phones
http://h2o.law.harvard.edu/ViewProject.do?projectID=357
อาจใช้หลักเกณฑ์จากโครงการ BEST (BEnchmarkS for Thai language)
ซึ่งเนคเทคดูแลอยู่ได้ครับ
http://hlt.nectec.or.th/best/
บางอันที่ใส่ไว้ อาจไม่ได้อยู่ในขอบเขตของ วทท 3.0
(อาจจะยังไม่รีบ ควรไปอยู่ใน 4.0 หรือไม่ควรมีเลย...)
เชิญแก้ไข ให้ความเห็นได้เลยนะครับ
อีกเรื่องคือ เราควรเขียนเป็นภาษาอังกฤษ หรือ ไทย ครับ ในวิกิ
ขอบคุณครับ
อาท
ผมเติมเนื้อหาส่วนเสนอแก้ไข input method แล้วครับ
ผม join ไม่ได้ครับ มีข้อความขึ้นว่า "You can not apply.
It seems you have already applied for membership."
ในหน้า http://wtt3.wikidot.com/language-processing หัวข้อ Thai
Transliteration/Romanization algorithm ผมเข้าไปอ่านตาม link แล้วพบว่า
algorithm ทำงานถูกต้อง ~ 95% ส่วนตัวแล้วคิดว่ายังไม่ควรนำมารวมเป็น
standard เพราะว่าน่าจะมีโอกาสพัฒนาไปได้มากกว่านี้.
Sentence/Clause segmentation น่าสนใจดีครับ ใน WTT 3.0
มีจุดประสงค์ในการนำ Sentence/Clause segmentation ไปใช้หรือเปล่าครับ?
วีร์
--
वीर http://blog.vee-u.com/
> http://wtt3.wikidot.com/language-processing (Input Method) ประเด็นนี้
> น่าจะพิจารณาด้วยว่า
> 1. จะยังคง "สามโหมด" เอาไว้หรือไม่ เพราะว่าไม่มีใคร implement
> ถูกต้องตรงตามสเป็คทั้งหมดอยู่ดีครับ
ข้อนี้ผมเชื่อว่าคงไว้ดีกว่าครับ อย่างน้อย ๆ scim-thai ก็ implement ครบครับ
> 1.5 จากข้อความในวิกิปัจจุบัน ผมยังไม่เห็นเป็นความผิดพลาดในตารางโหมด 2
> นะครับ สถานการณ์เหล่านี้ น่าจะใช้โหมด 0
ปัญหาไม่ได้อยู่ที่ input method ครับ แต่จะมีปัญหากับ rendering engine
ที่ใช้ output method ตาม วทท 2.0 ซึ่งกำหนดการแบ่งเซลล์แสดงผลโดยอาศัย
input method level 1
> 2. wtt จะรองรับภาษาที่ใกล้เคียงกับภาษาไทยหรือไม่ แค่ไหน อย่างไร
> ("เจ้าของ"ภาษาเห็นว่าอย่างไร)
ภาษาอื่นในที่นี้คงมีแค่ภาษาลาวเท่านั้นครับ (เพราะภาษาอื่นนอกจากนี้
เขาใช้ phonetic encoding หมด) และข้อเสนอที่เขียนไป ก็มาจาก
การ implement ภาษาลาวใน GNOME โดยใช้ engine ร่วมกับภาษาไทย
เพียงแค่ดัดแปลงตาราง วทท เล็กน้อย ซึ่งทั้งหมดนี้ ได้ปรึกษาเจ้าของภาษา
อยู่ตลอดครับ
ส่วนภาษาชนกลุ่มน้อยที่ใช้อักษรไทย ผมคิดว่ายังไงก็คงต้องพยายามรองรับ
เท่าที่จะทำได้น่ะครับ
ควรจะมีด้วยไหมครับ ?
กรณี นิคหิต + [วรรณยุกต์ +] สระอา กับ [วรรณยุกต์ +] สระอำ
มีกรณีอื่น ๆ อีกไหม ? (สระเอสองตัว เป็น สระแอ ได้มั๊ย ? :P)
----
เรื่อง searching/comparison
ควรมีประมาณ loose mode ไหมครับ ?
เช่นไม่สนใจวรรณยุกต์
(เพราะเป็นเรื่องที่สะกดไม่ตรงกันมากในปัจจุบันที่มีการทับศัพท์เยอะ)
กูเกิ้ล ~= กูเกิล
อักขระที่สับสนบ่อย
ลากข้างยาว ~= สระอา
สระเสียงสั้น เสียงยาว ให้ 'เหมือนกัน' ได้
วีดิโอ ~= วิดีโอ
ขอบคุณครับ
อาท
ฤ + า -> ฤๅ
แต่แบบนี้เรียกว่า normalization หรือ spelling correction ครับเนี่ย
> เรื่อง searching/comparison
>
> ควรมีประมาณ loose mode ไหมครับ ?
> เช่นไม่สนใจวรรณยุกต์
> (เพราะเป็นเรื่องที่สะกดไม่ตรงกันมากในปัจจุบันที่มีการทับศัพท์เยอะ)
> กูเกิ้ล ~= กูเกิล
>
> อักขระที่สับสนบ่อย
> ลากข้างยาว ~= สระอา
>
> สระเสียงสั้น เสียงยาว ให้ 'เหมือนกัน' ได้
> วีดิโอ ~= วิดีโอ
soundex?
> ส่วนภาษาชนกลุ่มน้อยที่ใช้อักษรไทย ผมคิดว่ายังไงก็คงต้องพยายามรองรับ
> เท่าที่จะทำได้น่ะครับ
เพื่อเป็นข้อมูลประกอบ ผม upload presentation ของคุณ Martin
Hosken (Cc:) ซึ่งเป็นผู้เชี่ยวชาญจาก SIL ที่ได้ศึกษาภาษาของชนกลุ่มน้อย
ในประเทศไทยไว้นะครับ:
http://groups.google.com/group/thai-linux-foss-devel/web/orhography.pdf
จากที่อ่าน นอกจากความต้องการของภาษากูย ก็ยังมีภาษาบรู และโซ่
ซึ่งพอสรุปได้ดังนี้:
- ใช้ไม้ไต่คู้เป็นสระ เช่น แต็่ง (ภาษาบรู)
- ใช้ไม้ตรีเป็นสระ เช่น โจ๊่ (ภาษาบรู)
- ใช้นิคหิต เช่น มูํย (ภาษาในแถบเขมรภาคเหนือ)
[วทท 2.0 อนุญาตให้นิคหิตตามหลังสระสั้นได้เท่านั้น
ตามหลักบาลี-สันสกฤต]
- ใช้พินทุใต้สระหน้า เช่น โฺทร (ภาษาโซ่) และภาษากูยก็ใช้ลักษณะนี้
ด้วย (แต่ผมยังค้นหนังสือเพื่อหาตัวอย่างคำจริงมาประกอบไม่เจอ)
กำลังรอล็อคหน้านั้นอยู่ครับ เดี๋ยวค่อยเขียนลง wiki
อธิบายเพิ่มเติมเรื่องนี้ได้ไหมครับ ?
เพราะที่พูดมาในช่วงต้น เหมือนเป็นเรื่องของฟอนต์
แต่บรรทัดสุดท้าย เหมือนเป็นเรื่องผังแป้นพิมพ์
หมายถึงกรณีลักษณะ Windows 874 และฟอนต์ "ไทย" ของ Windows รึเปล่าครับ
ที่มีอักขระ อัญประกาศเปิดปิด ndash mdash ("อักษรพิเศษ" ใน "ภาษาอังกฤษ")
เครื่องหมายสกุลเงินยูโร ฯลฯ รวมอยู่ในฟอนต์ "ไทย" ด้วย
http://www.microsoft.com/globaldev/reference/sbcs/874.mspx
soundex น่าจะใช้เฉพาะกรณีที่พ้องเสียงแต่สะกดไม่เหมือนกันหรือเปล่าครับ?
กรณีต่าง ๆ ที่ยกมา ก็ครอบคลุมโดย soundex อยู่แล้วน่ะครับ
เลยถามว่า ทำ soundex ไปเลยไหม
ถ้าครอบคลุมอยู่แล้ว ใช้ soundex ก็น่าจะเหมาะสมดีนะครับ
เพิ่มแล้วนะครับ
พร้อมกันนี้ ก็เพิ่มข้อมูลเกี่ยวกับ ISO/IEC standard เกี่ยวกับ locale
และ string collation ด้วย เพื่อประกอบกับข้อมูลทางฝ่าย Unicode
> พร้อมกันนี้ ก็เพิ่มข้อมูลเกี่ยวกับ ISO/IEC standard เกี่ยวกับ locale
> และ string collation ด้วย เพื่อประกอบกับข้อมูลทางฝ่าย Unicode
เพิ่มแหลก (แล้วค่อยอภิปรายทีหลัง):
- UAX #14 - Unicode Line Breaking Properties
- Output Method, National Font Project's Recommendation,
OpenType font spec
- WTT-based input sequence correction?
> ด้วยทางเนคเทค (lab ของ ดร.ชัย) ยินดี รับเป็นเจ้าภาพในการประชุมเพื่อ kick
> off แนวความคิดการยกร่าง วทท. ๓.๐ ขึ้นสำหรับประเทศไทย และเราจะใช้วิธีการ
> peer-to-peer collaboration โดยการประชุมนี้จะมีขึ้นที่อาคาร สวทช.ชั้น ๖
> ถนนพระราม ๖ เวลา ๑๗.๐๐ น. (เลี้ยงข้าวเย็นแบบง่ายๆ) แต่งกายตามสบาย
ไม่ทราบว่าเป็นวันไหนครับ
ขอบคุณครับ,
อ้อ ผมไม่ได้เช็กที่ wikidot เอง ขออภัยครับ
วันที่ ๒๖ ที่บ้านมีเลือกตั้ง คงจะโดดเลือกตั้งล่ะครับ
ถ้าตกลงวันที่ ๒๕ ผมก็ต้องเตรียมตัวเดินทางเข้ากรุงเทพฯ ละครับ
อีก ๓ วันเองนี่
เรียน ทุกท่านขอเชิญเข้าร่วมประชุมครั้งที่ 1 เพื่อร่างมาตรฐาน วทท. 3.0 (WTT 3.0)
ในวันจันทร์ที่ 28 เมษายน 2551 เวลา 17.00 น.
ณ ห้องประชุมชั้น 6 อาคาร สวทช. ถนนพระราม 6
โดยมีวาระการประชุมคือ What will be WTT 3.0?
ขอความกรุณาตอบกลับเพื่อจะได้เตรียมอาหารค่ำ(แบบง่ายๆ)
(แต่งกายตามสบาย)
บอมบ์
> ขอเชิญเข้าร่วมประชุมครั้งที่ 1 เพื่อร่างมาตรฐาน วทท. 3.0 (WTT 3.0)
> ในวันจันทร์ที่ 28 เมษายน 2551 เวลา 17.00 น.
> ณ ห้องประชุมชั้น 6 อาคาร สวทช. ถนนพระราม 6
> โดยมีวาระการประชุมคือ What will be WTT 3.0?
> ขอความกรุณาตอบกลับเพื่อจะได้เตรียมอาหารค่ำ(แบบง่ายๆ)
> (แต่งกายตามสบาย)
มาครับ
ไปครับ
ปล.แผนที่สำหรับท่านที่ไม่เคยไป
อยู่ตึกนี้ครับ
http://map.longdo.com/?gmap=1&lat=13.763729244133228&long=100.5287915468216&res=16384&mode=icons&map=ms20&locale=th
http://map.longdo.com/?lat=13.763729244133228&long=100.5287915468216&res=16384&mode=icons&map=ms20&locale=th
ปกติก็นั่งรถไฟฟ้าลง อนุสาวรีย์ แล้วเดินเข้ามาปากซอยโยธี ต่อมอไซต์ (บอกกระทรวงวิทย์
ลงหน้าตึกกระทรวงวิทย์แล้วเดินทะลุใต้ตึก ไปเข้าอาคาร สวทช จากด้านหลังได้)) หรือ taxi
หรือ เดิน แล้วแต่สภาพการณ์
11. Patipat Susumpow
Sent from my iPhone
On Apr 23, 2008, at 23:34, "Hugh/Thaweesak Koanantakool" <htk...@gmail.com
เทพ.
2008/4/23 Hugh/Thaweesak Koanantakool <htk...@gmail.com>:
http://en.wikipedia.org/wiki/T9_%28predictive_text%29
``T9, which stands for Text on 9 keys, is a patented predictive text
technology for mobile phones''
ไม่แน่ใจว่าเป็น s/w หรือ h/w patent.
On 4/9/08, Arthit Suriyawongkul <art...@gmail.com> wrote:
> ฝากเพิ่มลิงก์ Thai T9 ด้วยครับ
> ผมยังแก้ wtt3 wiki ไม่ได้ (ยังไม่ได้รับอนุมัติ)
>
> Input Method for Thai Language on Mobile Phones
> http://h2o.law.harvard.edu/ViewProject.do?projectID=357
>
13. Martin Hosken
Please add my name to the list
# Phisit Siprasatthong
Regards,
Phisit