Phương đã đóng gói chương trình gán nhãn từ loại tiếng Việt vnTagger
(dùng vnTokenizer là công cụ tách từ trước khi gán nhãn). Phương thử
nghiệm trên treebank tiếng Việt thì thấy độ chính xác gán nhãn khá
tốt, đạt 96.1%. (vnTagger sử dụng thư viện Maxent Tagger của Stanford
NLP, là tagger cho kết quả state-of-the-art của tiếng Anh hiện nay.)
Link để download vnTagger:
http://www.loria.fr/~lehong/tools/vnTagger.php
Nếu các anh chị em quan tâm thì dùng thử chương trình và nhận xét, góp
ý nhé. Thanks mọi người.
Phương
Phương đã chỉnh sửa lại tệp vnTagger.bat và bổ sung chức năng xuất kết
quả gán nhãn (mặc định) ở định dạng XML theo đề xuất của anh Lương.
Mọi người download trực tiếp chương trình ở link này nhé:
http://www.loria.fr/~lehong/tools/download.php?file=vn.hus.nlp.tagger-2.0.0-bin.tar.gz
Thanks các anh chị em đã sử dụng, góp ý và đề xuất cải tiến chương trình.
@chị Thu: chị còn không hiểu chỗ nào vậy ạ, có gì chị viết email riêng
cho em nhé, em sẽ giải thích đầy đủ.
@anh Lương: Em sẽ chuyển chương trình thống kê âm tiết, thống kê từ
cho anh trong một hai hôm nữa nhé.
Phương.
2009/7/1 Minh Thu Đao <minht...@gmail.com>: