ขอให้ข้อมูลเพิ่มเติมเนื่องจากเป็นหนึ่งในคนปรับปรุง วทท.1.0 เป็น วทท.2.0 ครับ
เรื่องของ วทท.2.0 นั้น ได้ยินมาเหมือนกันว่ามีปัญหา
บางจุดในตารางมีความผิดพลาดในการพิมพ์ หรือพลาดไปจริงๆ และตรวจไม่พบในตอนนั้น
แต่ก็ไม่เห็นรายละเอียดนะครับ เรื่องนี้ผ่านมานานสิบกว่าปีแล้ว
และผมไม่มีเอกสารใดๆเก็บไว้ ทิ้งไว้ที่บริษัทเก่า
วทท.2.0 เป็นมาตรฐานเรื่อง input method/output method ที่จริงแล้วมี 3 โหมด
เท่าที่เห็นปรากฏว่าไม่มีใครเลยที่ทำครบ บริษัทคอมพิวเตอร์นำเอาโหมด 2
ไปใช้กันอย่างแพร่หลาย ลักษณะของโหมด 2 มี "incident table" เป็นลักษณะพิเศษ
ซึ่งตรวจทานกับพจนานุกรมฉบับราชบัณฑิตยสถาน ปี 2525 "ด้วยคน" (เนื่องจากไม่มี
online corpus) แล้วไม่พบสิ่งที่โหมด 2 ไม่สามารถจัดการได้
incident table เป็นตารางสองมิติ ที่แสดงความสัมพันธ์จะหว่าง "อักขระตัวนำ" กับ
"อักขระตัวตาม" ว่าจะรับตัวตามหรือไม่ ประเด็นใหญ่ของ incident table
เพื่อแสดงกรณีที่เป็นไปได้ในภาษาไทยที่ใช้กันอยู่ในชีวิตประจำวัน
เมื่อสิบกว่าปีก่อน แป้นพิมพ์มีคุณภาพดีมาก
กดครั้งเดียวมักจะแถมอักขระมาให้ด้วย ถ้าปล่อยผ่านไม่ทำอะไรเลย จะเกิดปัญหากับ
text matching ไม่สนุกแน่ถ้าค้นฐานข้อมูล แล้วไม่เจอระเบียนที่รู้ว่ามีอยู่แน่ๆ
เนื่องจากตอนป้อนข้อมูลหรือตอนค้นหา
พิมพ์วรรณยุกต์หรือสระลอยเบิ้ลไปแล้วมองไม่เห็นว่าเบิ้ล
โหมด 2 ไม่ใช้กับภาษาถิ่นที่ใช้อักขระไทย หรือกรณีพิเศษทางภาษาศาสตร์
(ที่ไม่พบแบบเรียนทั่วไปหรือหนังสือที่วางจำหน่ายในตลาด)
ในสองกรณีหลังควรจะเลี่ยงไปใช้โหมด 0 ซึ่งเปิดให้อักขระอะไรตามอักขระอะไรก็ได้
การเรียงลำดับคำ มาจากพจนานุกรมปี 2525 ในขณะนั้น POSIX locale
ไม่เก่งพอที่จะเรียงลำดับคำไทย ไม่มีข้อตกลง(นอกจากใช้เรียงตามแบบพจนานุกรม)
ไม่มี library มาตรฐานที่จะเรียงลำดับคำไทย มีหลายบริษัทที่อ้างว่าทำได้
แต่ก็ไม่ได้เปิดเผยหลักการ/วิธีการ แม้มีงานวิจัยที่เปิดเผยสู่สาธารณะ
เมื่อทดสอบดูแล้ว ก็ยังมีที่ไม่ตรง จึงเป็นเรื่องที่ไม่ได้สรุปไว้อย่างชัดเจน
ได้รับแจ้งว่า วทท.2.0 ได้ประกาศเป็นมาตรฐานอุตสาหกรรมไปแล้ว
(ประกาศในราชกิจจานุเบกษาด้วย) ไม่รู้ว่าเมื่อไหร่ จนบัดนี้
ก็ยังไม่เห็นตัวมาตรฐานที่ประกาศไปครับ
เชื่อว่าต้นเรื่องและเจ้าภาพ ควรจะเป็นคณะกรรมการวิชาการคณะที่ 536 (กว.536)
ของ สมอ. ซึ่ง กว.536 สามารถระดมสรรพกำลังจากทั้งรัฐและเอกชนได้
ถ้ามีเจ้าภาพรายใดเสนอตัว เชื่อว่า กว.536 จะเป็นผู้พิจารณาก่อนเสนอเลขาธิการ
สมอ. เสนอ รมต. เพื่อประกาศใช้
อีกเรื่องที่อยากฝากไว้ คือต้องแยกให้ออกระหว่าง coded character set
(รหัสอักขระ) กับ font encoding สองอย่างนี้ดูเหมือนๆกัน แต่แตกต่าง
coded character set เป็นส่วนที่เล็กที่สุด (atomic unit)
ของอักขระที่คอมพิวเตอร์เข้าใจ ทาง Unicode มีศัพท์อีกคำ เรียกว่า canonical
form ใช้รูป U+xxxx โดย xxxx เป็นรหัส 16 บิต สำหรับ plane 0
(UTF-8/UTF-16/UTF-32 เป็น encoding forms
จึงมีความยาวไม่เท่ากันในแต่ละกลุ่มอักขระ)
ส่วน font encoding นั้น เป็นรหัสแบบ "private agreement"
ระหว่างฟอนต์กับระบบปฏิบัติการ
ฟอนต์ที่ใช้ในระบบปฏิบัติการหนึ่งจึงไม่แน่ว่าจะใช้ในระบบปฏิบัติการอื่นได้ดี
จะเห็นฟอนต์ไทยบางตัวแม้มีการวางตำแหน่ง "สระลอย" ไม่ให้ลอย แต่ระบบปฏิบัติการ
(ส่วน rendering engine หรือ output method) ไม่ได้ใช้เพราะไม่รู้ว่ามี
หรือว่าใช้อย่างไร ปัญหานี้ ไม่ได้มีเฉพาะภาษาไทยเท่านั้น
ตฤณ
2008/4/7 Isriya Paireepairit <markp...@gmail.com>:
> ผมขอตอบในนี้ละกันนะครับ ส่วนคุณปกป้องจะนำไปใช้ต่อยังไงก็ตามแต่เห็นสมควร
> =================================
> ผมอยากแยกปัญหาเรื่องภาษาไทยบนระบบคอมพิวเตอร์เป็น 2 ระดับ คือ
> 1. ระดับของมาตรฐาน ข้อกำหนดทางเอกสาร
> 2. ระดับของการ implementation ของผู้พัฒนาซอฟต์แวร์
> สำหรับข้อ 1. นั้น การประมวลผลภาษาไทยบนคอมพิวเตอร์ (ในภาพกว้าง
> คือรวมตั้งแต่ฟอนต์, encoding, keyboard layout, การตัดคำ ฯลฯ)
> ยึดหลักตามเอกสาร วทท. (เวอร์ชันล่าสุดคือ 2.0)
> รู้จักในชื่อภาษาอังกฤษว่า WTT
> ลิงก์ประกอบ
> http://www2.nectec.or.th/it-standards/
> http://www.inet.co.th/cyberclub/trin/thairef/
> http://en.wikibooks.org/wiki/FOSS_Localization/Localization_Efforts_i...
> เอกสารชุดนี้ออกโดยเนคเทค (โดยมี ดร. ทวีศักดิ์ ผอ.
> เนคเทคคนก่อนเป็นหัวหน้าทีม) ในช่วงต้น 90s
> ซึ่งแพร่หลายและนิยมในหมู่ผู้ผลิตซอฟต์แวร์ทั่วไป (ไมโครซอฟท์, แอปเปิล,
> OpenOfice ฯลฯ)
> ปัญหาของมาตรฐานชุดนี้มีสองข้อ อันแรกคือออกมาก่อนมาตรฐานสากลใหม่ๆ
> หลายตัว เช่น Unicode 1.0 (1991) หรือ OpenType (1996)
> ทำให้ปัจจุบันถือว่าล้าสมัย ส่วนปัญหาข้อที่สองคือ
> ในมาตรฐานเองยังขาดรายละเอียดเล็กๆ น้อยๆ อีกหลายจุด
...
read more »