A POS tagger for Vietnamese with precision 96.1%

267 views
Skip to first unread message

Lê Hồng Phương

unread,
Jun 30, 2009, 1:48:20 PM6/30/09
to viettr...@googlegroups.com
Các anh chị em thân mến,

Phương đã đóng gói chương trình gán nhãn từ loại tiếng Việt vnTagger
(dùng vnTokenizer là công cụ tách từ trước khi gán nhãn). Phương thử
nghiệm trên treebank tiếng Việt thì thấy độ chính xác gán nhãn khá
tốt, đạt 96.1%. (vnTagger sử dụng thư viện Maxent Tagger của Stanford
NLP, là tagger cho kết quả state-of-the-art của tiếng Anh hiện nay.)

Link để download vnTagger:

http://www.loria.fr/~lehong/tools/vnTagger.php

Nếu các anh chị em quan tâm thì dùng thử chương trình và nhận xét, góp
ý nhé. Thanks mọi người.


Phương

Minh Thu Đao

unread,
Jul 1, 2009, 5:57:43 AM7/1/09
to viettr...@googlegroups.com
Chị có xem qua rồi Phương ạ, thấy thú vị nhưng có nhiều chỗ không hiểu và không biết được hết. Chị cũng nói mọi người trong nhóm dữ liệu tham khảo cho biết. Cảm ơn Phương rất nhiều.

Lê Hồng Phương

unread,
Jul 2, 2009, 9:56:03 AM7/2/09
to viettr...@googlegroups.com
Hôm trước tệp script vnTagger.bat để chạy chương trình trên hệ điều
hành MS Windows bị lỗi nên có một số anh chị em nói là không chạy
được. Tệp vnTagger.sh để chạy trên Linux thì ok.

Phương đã chỉnh sửa lại tệp vnTagger.bat và bổ sung chức năng xuất kết
quả gán nhãn (mặc định) ở định dạng XML theo đề xuất của anh Lương.

Mọi người download trực tiếp chương trình ở link này nhé:

http://www.loria.fr/~lehong/tools/download.php?file=vn.hus.nlp.tagger-2.0.0-bin.tar.gz

Thanks các anh chị em đã sử dụng, góp ý và đề xuất cải tiến chương trình.


@chị Thu: chị còn không hiểu chỗ nào vậy ạ, có gì chị viết email riêng
cho em nhé, em sẽ giải thích đầy đủ.
@anh Lương: Em sẽ chuyển chương trình thống kê âm tiết, thống kê từ
cho anh trong một hai hôm nữa nhé.

Phương.

2009/7/1 Minh Thu Đao <minht...@gmail.com>:

Reply all
Reply to author
Forward
0 new messages