Ngôn ngữ học ngữ liệu - CS321.D21

144 views
Skip to first unread message

duythanhcn

unread,
Mar 23, 2013, 6:22:58 AM3/23/13
to xlnntn...@googlegroups.com
Mọi người cho mình hỏi cái bài tập thầy cho cụ thể là mình cần làm những gì vậy ?
chứ thầy ra yêu cầu như thế + ko có dữ liệu và hướng dẫn cụ thể thì biết đường nào mà làm đây ?

duy475388

unread,
Apr 14, 2013, 6:20:14 AM4/14/13
to xlnntn...@googlegroups.com
mọi người trong BT3 chương trình VNTokenizer chạy như thế nào thế ?, mình tải phần Binary Package , giải nén chạy file .bat ........ chả ra gì , 

Vào 17:22:58 UTC+7 Thứ bảy, ngày 23 tháng ba năm 2013, duythanhcn đã viết:

Yến Linh

unread,
Apr 14, 2013, 6:21:13 AM4/14/13
to xlnntn...@googlegroups.com
cũng ko bik.... Linh có gửi mail cho thầy... hy vọng tối nay nhận đc mail của thầy


Vào 17:20 Ngày 14 tháng 4 năm 2013, duy475388 <duy4...@gmail.com> đã viết:



--
mik  >-<  =.=  ~.~  -.-

Yến Linh

unread,
Apr 14, 2013, 10:23:43 AM4/14/13
to xlnntn...@googlegroups.com


---------- Thư đã chuyển tiếp ----------
Từ: Nguyễn Hữu <nguyen...@gmail.com>
Ngày: 21:16 Ngày 14 tháng 4 năm 2013
Chủ đề: RE: Ngôn ngữ học ngữ liệu - CS321.D21
Đến: Yến Linh <linhli...@gmail.com>


Chào các bạn!

Trong gói download của vnTokenizer, sau khi giải nén các bạn có thể thấy có tập tin README-vi.txt, tất cả mọi thông tin cần thiết để sử dụng vnTokenizer đều có trong đó. Các bạn có thể sử dụng file .jar mà tác giả đã Build sẵn hoặc chỉnh sửa source code (java) đi kèm theo.

 

-Hữu-

 

From: xlnntn...@googlegroups.com [mailto:xlnntn...@googlegroups.com] On Behalf Of Y?n Linh
Sent: Sunday, April 14, 2013 5:21 PM
Cc: xlnntn...@googlegroups.com
Subject: Re: Ngôn ngữ học ngữ liệu - CS321.D21

  


hixhix... lần sau mọi người nhớ chọn "trả lời tất cả nha".... linh đang cố gẳng cài đặt để nó ko còn chế độ "trả lời" và "trả lời tất cả" mà hoài ko ra TT.TT

Lê Duy Thành

unread,
Apr 14, 2013, 10:25:42 AM4/14/13
to xlnntn...@googlegroups.com
thầy nói vậy cũng như ko ak
đọc mà làm được thì chả hỏi thầy rồi


Vào 21:23 Ngày 14 tháng 4 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Yến Linh

unread,
Apr 14, 2013, 10:28:14 AM4/14/13
to xlnntn...@googlegroups.com
---------- Thư đã chuyển tiếp ----------
Từ: Cao Phước Thừa <duy4...@gmail.com>
Ngày: 21:27 Ngày 14 tháng 4 năm 2013
Chủ đề: Re: Ngôn ngữ học ngữ liệu - CS321.D21
Đến: Yến Linh <linhli...@gmail.com>


đã đọc , nó bảo là đanh lệnh ./vnTokenizer -i samples/1.txt -o samples/1.tok.txt , t đã thử mở vnTokenizer.sh bằng text đánh thử , sau đó chạy file .bat , ..chả có gì hết,....


chọn cái "trả lời tất cả" dùm y... làm Linh cứ phải chuyển tiếp hoài ak

Cao Phước Thừa

unread,
Apr 14, 2013, 10:29:47 AM4/14/13
to Yến Linh, xlnntn...@googlegroups.com
vậy hả ^^ , hồi giờ toàn nhấp vào là trả lời 


Vào 21:28 Ngày 14 tháng 4 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Yến Linh

unread,
Apr 14, 2013, 10:30:18 AM4/14/13
to Cao Phước Thừa, xlnntn...@googlegroups.com
rồi rồi... hiểu



Vào 21:29 Ngày 14 tháng 4 năm 2013, Cao Phước Thừa <duy4...@gmail.com> đã viết:

Nguyễn Thiện Lai

unread,
Apr 14, 2013, 10:36:12 AM4/14/13
to xlnntn...@googlegroups.com
cái file .sh chỉ dùng trên các hđh khác ngoài window ra, căn bản vẫn phải xài java mới chạy đc thì phải :v


Vào 21:30 Ngày 14 tháng 4 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Yến Linh

unread,
Apr 14, 2013, 10:36:52 AM4/14/13
to xlnntn...@googlegroups.com
mail thầy... mà thấy ứ trả lời.... :(


Vào 21:36 Ngày 14 tháng 4 năm 2013, Nguyễn Thiện Lai <romr...@gmail.com> đã viết:

Cao Phước Thừa

unread,
Apr 14, 2013, 10:40:16 AM4/14/13
to xlnntn...@googlegroups.com
thế thì tiêu cmnr , java là cái gì thế ^^?


Vào 21:36 Ngày 14 tháng 4 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Nguyễn Thiện Lai

unread,
Apr 14, 2013, 10:41:34 AM4/14/13
to xlnntn...@googlegroups.com
Hỏi Duy Thành để biết thêm chi tiết, t còn chưa cài java =)))))))))


Vào 21:40 Ngày 14 tháng 4 năm 2013, Cao Phước Thừa <duy4...@gmail.com> đã viết:

Cao Phước Thừa

unread,
Apr 14, 2013, 10:42:28 AM4/14/13
to xlnntn...@googlegroups.com
thôi bạn Thành ôm sô giúp lớp lần này nhá :))


Vào 21:41 Ngày 14 tháng 4 năm 2013, Nguyễn Thiện Lai <romr...@gmail.com> đã viết:

Lê Duy Thành

unread,
Apr 14, 2013, 10:52:17 AM4/14/13
to xlnntn...@googlegroups.com
chỉ cần down jre về cài thôi là có thể sử dụng các file jar
rãnh thì down luôn jdk :D


Vào 21:42 Ngày 14 tháng 4 năm 2013, Cao Phước Thừa <duy4...@gmail.com> đã viết:

Nguyễn Hữu

unread,
Apr 14, 2013, 11:39:05 AM4/14/13
to xlnntn...@googlegroups.com

Cần gì phải biết java, các bạn có thể run những câu lệnh đó trong môi trường .NET mà.

Lê Duy Thành

unread,
Apr 14, 2013, 11:56:20 AM4/14/13
to xlnntn...@googlegroups.com
nguyên hữu là bác nào thế ?
trong hướng dẫn của lê hồng phương thì chương trình ko nhất thiết phải dùng java để viết
nhưng java là 1 lợi thế
chỉ cần cái jre là ok rồi
bác nguyễn hữu có làm cái này bao giờ chưa?
hướng dẫn ace với, chả hiểu mô tê gì, cái này mới quá


Vào 22:39 Ngày 14 tháng 4 năm 2013, Nguyễn Hữu <nguyen...@gmail.com> đã viết:

Nguyễn Hữu

unread,
Apr 14, 2013, 12:47:25 PM4/14/13
to xlnntn...@googlegroups.com
Mình chưa làm gì liên quan đến vnTokenizer. Các bạn có thể dùng class System.Diagnostics.Process để gọi câu lệnh. Ai chưa biết cách dùng thì google dùm mình nhé.

Lê Duy Thành

unread,
Apr 15, 2013, 1:35:24 AM4/15/13
to xlnntn...@googlegroups.com
có ai dùng vntokenizer tách từ mà bị lỗi font chưa ?
sao kết quả của mình mở ra bằng word hay notepad đều lỗi font ko đọc dc



Vào 23:47 Ngày 14 tháng 4 năm 2013, Nguyễn Hữu <nguyen...@gmail.com> đã viết:

Lê Duy Thành

unread,
Apr 15, 2013, 2:32:48 AM4/15/13
to xlnntn...@googlegroups.com
có ai dùng vntokenizer tách từ mà bị lỗi font chưa ?
sao kết quả của mình mở ra bằng word hay notepad đều lỗi font ko đọc dc



Vào 23:47 Ngày 14 tháng 4 năm 2013, Nguyễn Hữu <nguyen...@gmail.com> đã viết:

Lê Duy Thành

unread,
Apr 15, 2013, 10:47:58 AM4/15/13
to xlnntn...@googlegroups.com
có bạn nào đã tìm ra cách sử dụng cái vntokenizer chưa ?
chứ mình thấy cách của mình hạ sách quá :((

Nguyễn Thiện Lai

unread,
Apr 15, 2013, 10:56:41 AM4/15/13
to xlnntn...@googlegroups.com
nghe vậy là thấy chú làm đc rồi chứ j ;))


Vào 21:47 Ngày 15 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Lê Duy Thành

unread,
Apr 15, 2013, 11:13:13 AM4/15/13
to xlnntn...@googlegroups.com
cũng ko biết dc hay ko nhưng cách rất chi là củ chuối
mình tạo file .bat (trong file này có gọi công cụ vnTokenizer rồi)
sau đó chương trình sẽ gọi cái file .bat vừa tạo ra đó 
như thế là có dc file kết quả nhưng file kết quả bị lỗi font hay sao đó, ko đọc dc


Vào 21:56 Ngày 15 tháng 4 năm 2013, Nguyễn Thiện Lai <romr...@gmail.com> đã viết:

Cao Phước Thừa

unread,
Apr 15, 2013, 11:58:14 AM4/15/13
to xlnntn...@googlegroups.com
hiện tại đã chạy dc vnTokenizer bằng C++  , 
ta mở file bat lên như là mở file thường ấy :
fstream batch;
batch.open("vnTokenizer",ios::out);
batch<<"vn.hus.nlp.tokenizer-4.1.1.jar -i samples/1.txt -o samples/1.tok.txt "; // dòng code ra gọi vn.hus.nlp.tokenizer-4.1.1.jar , chính file này thực hiện chương trình
system('vnTokenizer.bat"); // gọi hệ thống chạy file bat , file này đọc code trến để chạy file jar
batch.close();
xong ^^ 
à nhớ là bung file rar trong Binary source vào trong mớ project trong VS luôn nha , và đặt file tiếng việt ( ở đây là 1.txt ) trong thư mục samples
@Thành : không biết java


Vào 22:13 Ngày 15 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Cao Phước Thừa

unread,
Apr 15, 2013, 12:00:56 PM4/15/13
to xlnntn...@googlegroups.com
giờ vấn đề làm sao đọc file tiếng việt đây ??????


Vào 22:58 Ngày 15 tháng 4 năm 2013, Cao Phước Thừa <duy4...@gmail.com> đã viết:

Lê Duy Thành

unread,
Apr 15, 2013, 12:13:16 PM4/15/13
to xlnntn...@googlegroups.com
vấn đề là đếm số từ tiếng việt trong file tức là vẫn có tiếng anh :v
làm sao để nó nhận ra đâu là tiếng việt đâu là tiếng anh
hình như trong vnTokenizer có hỗ trợ việc này nhưng vấn đề là chưa biết sử dụng cái thư viện này ntn?
cũng chẳng biết nó thực có những hàm nào, tác dụng của nó ra sao
nên gọi chạy file .bat vẫn còn là một hạ sách
@thừa : ông gọi file .bat rồi nhập lệnh input output bằng tay hay tự động ?

Cao Phước Thừa

unread,
Apr 15, 2013, 12:18:07 PM4/15/13
to xlnntn...@googlegroups.com
thì dòng batch<<"vn.hus.nlp.tokenizer-4.1.1.jar -i samples/1.txt -o samples/1.tok.txt "; đó
nó đọc thấy là chạy rồi , khỏi nhập nữa 
nó hiện press any key to continue... , nhấn đại 1 nút là xong


Vào 23:13 Ngày 15 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Yến Linh

unread,
Apr 15, 2013, 12:33:36 PM4/15/13
to xlnntn...@googlegroups.com
Linh cũng đã gọi được file.bat... nhưng giờ ko bik làm sao cho nó đọc file tiếng việt của mình... trong file thầy gửi... có chỗ READ ME.pdf... hy vọng có thể giúp được


Vào 23:18 Ngày 15 tháng 4 năm 2013, Cao Phước Thừa <duy4...@gmail.com> đã viết:

Lê Duy Thành

unread,
Apr 15, 2013, 12:40:18 PM4/15/13
to xlnntn...@googlegroups.com
cách làm của t ntn : tạo file .bat rồi mới gọi
có 2 lựa chọn : tách 1 file, tách 1 folder
tạo file .bat với cấu trúc : vnTokenizer.bat -i <url file/folder input> -o <url file/folder output>
sau đó gọi file .bat mình vừa tạo ra

Nguyễn Thiện Lai

unread,
Apr 15, 2013, 11:47:02 PM4/15/13
to xlnntn...@googlegroups.com
Nói chung là ai đã chạy đc chưa? Tách từ đc chưa? Đếm từ đc chưa?


Vào 23:40 Ngày 15 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Cao Phước Thừa

unread,
Apr 15, 2013, 11:51:41 PM4/15/13
to xlnntn...@googlegroups.com
để đọc encoding utf8 tui thêm vài thư viện này :
#include<locale.h>
#include<codecvt>
#include<string>
#include<string.h>
#include<cstdlib>
\
// trong void main thì thêm vài dòng này :
void main()
{
const std::locale empty_locale = std::locale::empty();
    typedef std::codecvt_utf8<wchar_t> converter_type;
    const converter_type* converter = new converter_type;
    const std::locale utf8_locale = std::locale(empty_locale, converter);

fstream --> wfstream file:
file.open
file.imbue(utf8_locale);
wstring str; //
và dòng lấy từ từ file getline(file,str);
}

kết quả nó sẽ đọc dc tiếng việt trong vào chuỗi str , nhưng in ra tui chưa in dc , và hiện tại chưa tách dc , nó chỉ đọc theo từng dòng thôi , cần xử lý thêm


Vào 10:47 Ngày 16 tháng 4 năm 2013, Nguyễn Thiện Lai <romr...@gmail.com> đã viết:

longndh5

unread,
Apr 16, 2013, 12:11:23 AM4/16/13
to xlnntn...@googlegroups.com
tui mới tìm đc code giúp đọc text utf-8, gần giống với ông Thừa:

#include "stdafx.h"
#include "iostream"
#include "fstream"
#include "locale"
#include "codecvt"
using namespace std;

void main()
{
wifstream infile("samples/4.tok.txt");
infile.imbue(locale(locale::empty(), new codecvt_utf8<wchar_t,0x10ffff,generate_header>));

wofstream outfile("samples/temp.txt");
outfile.imbue(locale(locale::empty(), new codecvt_utf8<wchar_t,0x10ffff,generate_header>));

wchar_t str[20];

if(infile.is_open())
{
while(infile.good())
{
infile>>str;
outfile<<str<<"\n";
}
}

infile.close();
outfile.close();
getchar();
}

nó sẽ đọc file 4.tok.txt và in từng từ tiếng việt của 4.tok.txt vào file temp.txt (đã thử với đạon text cafe chợt nhớ và chạy thành công)
bây giờ có ai biết lấy từ điển nào để tra từ ko?

Nguyễn Thiện Lai

unread,
Apr 16, 2013, 12:21:09 AM4/16/13
to xlnntn...@googlegroups.com
Đã chạy và tách từ trên C# nhưng ko biết làm sao phân biệt đc tiếng việt với tiếng anh =))))


2013/4/16 longndh5 <long...@gmail.com>

Lê Duy Thành

unread,
Apr 16, 2013, 4:55:21 AM4/16/13
to xlnntn...@googlegroups.com
Đã chạy và tách từ trên C# nhưng ko biết làm sao phân biệt đc tiếng việt với tiếng anh =))))
chính xác ở đoạn này :v
làm sao để nó biết đâu là tiếng việt và tiếng anh để mà đếm ?

Lê Duy Thành

unread,
Apr 16, 2013, 7:52:05 AM4/16/13
to xlnntn...@googlegroups.com
mọi người, ai có file từ điển tiếng việt cho mình xin với

Nguyễn Thiện Lai

unread,
Apr 16, 2013, 8:19:09 AM4/16/13
to xlnntn...@googlegroups.com
đang xài đỡ cái file biagram và unigram trong vntokenlize để làm từ điển.. Có sai sót nhiều nhưng có còn hơn ko :))


Vào 18:52 Ngày 16 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Yến Linh

unread,
Apr 16, 2013, 9:11:26 AM4/16/13
to xlnntn...@googlegroups.com
gửi mọi người bộ từ điển tiếng việt mới xin được... theo như Linh thấy, thì bộ từ điển này thiếu rất nhiều, mọi người xem dùng đc ko?
nếu ko thì Linh gửi bộ khác... vì nghe nói còn 2 bộ, 1 bộ 30MB và 1 bộ 120 MB


Vào 19:19 Ngày 16 tháng 4 năm 2013, Nguyễn Thiện Lai <romr...@gmail.com> đã viết:

đang xài đỡ cái file biagram và unigram trong vntokenlize để làm từ điển.. Có sai sót nhiều nhưng có còn hơn ko :))


Vào 18:52 Ngày 16 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

mọi người, ai có file từ điển tiếng việt cho mình xin với

New folder.rar

longndh5

unread,
Apr 16, 2013, 11:00:45 AM4/16/13
to xlnntn...@googlegroups.com
mình thấy cái file FmtDic.txt bạn linh có hơn 20.000 từ, chắc cũng đủ dùng đó
mấy bạn định xài từ điển nào

Lê Duy Thành

unread,
Apr 16, 2013, 11:16:13 AM4/16/13
to xlnntn...@googlegroups.com
mình nghĩ xài cái nào cũng dc thôi
nhưng quan trọng là làm sao để đếm được số từ tiếng việt, so sánh các từ tiếng viêt(<=> từ có ký tự đặc biệt)

Nguyễn Thiện Lai

unread,
Apr 16, 2013, 1:35:24 PM4/16/13
to xlnntn...@googlegroups.com
file từ điển sau khi tách sạch sẽ :">


Vào 22:16 Ngày 16 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:
lastDic.txt

Lê Duy Thành

unread,
Apr 16, 2013, 4:57:55 PM4/16/13
to xlnntn...@googlegroups.com
mọi người nộp bài chưa ?
thây cho up có 1mb sao nộp dc

Nguyễn Thiện Lai

unread,
Apr 16, 2013, 10:41:02 PM4/16/13
to xlnntn...@googlegroups.com
Đưa đường dẫn file ra ngoài, để thầy tự xử :))


Vào 03:57 Ngày 17 tháng 4 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Yến Linh

unread,
Apr 16, 2013, 11:12:23 PM4/16/13
to xlnntn...@googlegroups.com
viết mail nói thầy á


Vào 09:41 Ngày 17 tháng 4 năm 2013, Nguyễn Thiện Lai <romr...@gmail.com> đã viết:

Yến Linh

unread,
Apr 21, 2013, 12:10:08 PM4/21/13
to xlnntn...@googlegroups.com
sáng t6 này nghỉ nha..... ^^


Vào 10:12 Ngày 17 tháng 4 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Minh Quốc Nguyễn

unread,
Apr 22, 2013, 5:37:22 AM4/22/13
to xlnntn...@googlegroups.com
Hạn nộp bài tập 3:
Due date: Tuesday, 30 April 2013, 8:30 AM

Không biết thầy gia hạn lâu như vậy là có ý gì

Nguyễn Thiện Lai

unread,
Apr 22, 2013, 5:38:48 AM4/22/13
to xlnntn...@googlegroups.com
Xong rồi còn đâu, chắc gia hạn thêm để thầy có thời gian coi bài :D


Vào 16:37 Ngày 22 tháng 4 năm 2013, Minh Quốc Nguyễn <nqmi...@gmail.com> đã viết:

Lê Duy Thành

unread,
Apr 22, 2013, 6:01:48 AM4/22/13
to xlnntn...@googlegroups.com
hôm bữa thầy mở link nộp bài có 1mb nên mình gửi bài qua mail
sáng nay thầy rep lại kêu mở lại để mình submit mà mình nộp lâu lắc rồi, nộp mỗi link :D

Lê Duy Thành

unread,
May 8, 2013, 1:29:19 PM5/8/13
to xlnntn...@googlegroups.com
mấy bạn làm đề tài về nhận diện tên riêng cho mình hỏi, việc trích chọn thực thể và nhận diện tên riêng có liên quan với nhau không ?
cứ nhầm lẫn 2 cái này

VŨ VĂN SỸ

unread,
May 9, 2013, 9:54:30 AM5/9/13
to xlnntn...@googlegroups.com
theo như tui hiểu thì hai cái đó đều là một, đều có nhiệm vụ là trích xuất thông tin mà tìm kiếm và phân loại các thành phần nguyên tử trong văn bản vào những loại xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ, phần trăm ....hihi






Vào 10:29 Ngày 08 tháng 5 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Yến Linh

unread,
May 16, 2013, 9:32:10 PM5/16/13
to xlnntn...@googlegroups.com
sáng nay đi học, thầy Hưng nói như sau: "tất cả các bài semiar sẽ đc thầy sử dụng để làm đề thi lý thuyết"... tức là cuối kì sẽ có bài thi... >"< và thầy nhắc: "vì thế các e đừng chỉ biết tới bài báo cáo của mình"


Vào 20:54 Ngày 09 tháng 5 năm 2013, VŨ VĂN SỸ <vuvans...@gmail.com> đã viết:

Nguyễn Quốc Minh

unread,
May 17, 2013, 12:27:09 AM5/17/13
to xlnntn_khmt05
Mình có hỏi thêm thì thầy nói cuối kỳ "CHẮC LÀ thi đề mở"

VŨ VĂN SỸ

unread,
May 17, 2013, 2:09:01 AM5/17/13
to xlnntn...@googlegroups.com
Tài liệu đa phần toàn search google...mà lại toàn tiếng anh....kaka....zui òi....

Nguyễn Thiện Lai

unread,
May 17, 2013, 10:25:46 AM5/17/13
to xlnntn...@googlegroups.com
đi học và nghe báo cáo là cách đơn giản nhất để thi mà ko cần đọc tài liệu :D


Vào 13:09 Ngày 17 tháng 5 năm 2013, VŨ VĂN SỸ <vuvans...@gmail.com> đã viết:

Nguyễn Quốc Minh

unread,
Jun 2, 2013, 10:40:33 PM6/2/13
to xlnntn_khmt05

CS321.D21 sẽ học bù vào Sáng Thứ 7 ngày 15/06/2013 (Tiết 1,2,3)   tại phòng C107 - Bù cho ngày 14/06/2013 nghĩ.

(Kiểm tra tiến độ thực hiện, hướng triển khai của các nhóm)


Thế này là sao đây trời, hồi bữa thì kêu là học vào chiều thứ 7, sao giờ lại chuyển sang buổi sáng đã vậy còn kiểm tra tiến độ nữa. Vây là mất tiêu 1 buổi học của thầy Đăng rồi.


longndh5

unread,
Jun 3, 2013, 12:33:37 AM6/3/13
to xlnntn...@googlegroups.com
ngày 15/6 là tuần sau đúng ko.
thầy Đăng tuần này có dạy bù môn nào ko?
còn cô Thư thì thứ 7 tuần sau dạy bù phải ko?
ôi loạn cả lên @@

Cao Phước Thừa

unread,
Jun 3, 2013, 12:34:32 AM6/3/13
to xlnntn...@googlegroups.com
toàn chọn thứ 7 :3 


Vào 11:33 Ngày 03 tháng 6 năm 2013, longndh5 <long...@gmail.com> đã viết:

Dung nguyen thi my

unread,
Jun 3, 2013, 4:45:58 AM6/3/13
to xlnntn...@googlegroups.com
kiểm tra tiến độ thực hiện là sao? thực hiện cái j jay?


Vào 11:34 Ngày 03 tháng 6 năm 2013, Cao Phước Thừa <duy4...@gmail.com> đã viết:

Lê Duy Thành

unread,
Jun 9, 2013, 12:16:52 PM6/9/13
to xlnntn...@googlegroups.com
thực chất với các đề tài này mình chỉ tìm hiểu ở mức khái niệm với thời gian ngắn
quả thực mà bắt code demo thì quá khó khăn rồi

Nguyễn Quốc Minh

unread,
Jun 9, 2013, 9:15:16 PM6/9/13
to xlnntn_khmt05
Hầu như những đề tài này đã có người làm rồi và họ viết thành công cụ hoặc thư viện có sẵn, bọn mình chỉ việc nhúng nó vào chương trình để chạy thôi, giống như cái vnTokenizer đó.

Lê Duy Thành

unread,
Jun 18, 2013, 12:04:49 PM6/18/13
to xlnntn...@googlegroups.com
cái bài tập chuyển dạng ngữ liệu
có bạn nào có tài liệu liên quan ko ?
cho mình xin với
search trên google chả tìm dc gì 

Yến Linh

unread,
Jun 21, 2013, 11:00:49 AM6/21/13
to xlnntn...@googlegroups.com
chuyển dạng ngữ liệu có phải là bracket, chunnker, IOB, susanne, cây ko?


Vào 23:04 Ngày 18 tháng 6 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

Lê Duy Thành

unread,
Jun 21, 2013, 11:01:44 AM6/21/13
to xlnntn...@googlegroups.com
chính nó đó Linh

Yến Linh

unread,
Jun 21, 2013, 11:04:36 AM6/21/13
to xlnntn...@googlegroups.com
t2 chúng ta thi môn này rồi... mà trong đề thi sẽ có câu lý thuyết trong slide semiar và slide thầy dạy... nên Linh có ý kiến này...
các bạn chịu khó tóm tắt nội dung chính semiar của mình rùi up lên group trước tối chủ nhật, Linh sẽ tổng hợp và t2 đi in cho mọi người trước khi thi được ko?
bạn nào đồng ý thì reply lại nhá....
ps: ai bik các a khóa trên cũng học lớp này thì tiện thể xin mấy a mấy cái đấy luôn đc ko? :D


Vào 22:00 Ngày 21 tháng 6 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 11:06:35 AM6/21/13
to xlnntn_khmt05
Hình như không có "Đồng tham chiếu" thì phải

Lê Duy Thành

unread,
Jun 21, 2013, 11:06:05 AM6/21/13
to xlnntn...@googlegroups.com
ok

Yến Linh

unread,
Jun 21, 2013, 11:07:11 AM6/21/13
to xlnntn...@googlegroups.com
@minh: "Đồng tham chiếu"???


2013/6/21 Lê Duy Thành <duyth...@gmail.com>
ok

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 11:08:46 AM6/21/13
to xlnntn_khmt05



2013/6/21 Yến Linh <linhli...@gmail.com>

@minh: "Đồng tham chiếu"???

Cái đề tài mình làm, thứ 7 tuần trước không có nghe thầy nói có phần này.

Yến Linh

unread,
Jun 21, 2013, 11:10:45 AM6/21/13
to xlnntn...@googlegroups.com
cứ tổng hợp luôn.. chứ ai biết được mấy thầy


Vào 22:08 Ngày 21 tháng 6 năm 2013, Nguyễn Quốc Minh <nqmi...@gmail.com> đã viết:




2013/6/21 Yến Linh <linhli...@gmail.com>
@minh: "Đồng tham chiếu"???

Cái đề tài mình làm, thứ 7 tuần trước không có nghe thầy nói có phần này.

Lê Duy Thành

unread,
Jun 21, 2013, 11:10:56 AM6/21/13
to xlnntn...@googlegroups.com
các bạn trong lớp mình làm thì chỉ có : nhận diện tên riêng, tách từ tiếng viêt, phân cụm từ, đồng tham chiếu chứ mấy

Yến Linh

unread,
Jun 21, 2013, 11:12:38 AM6/21/13
to xlnntn...@googlegroups.com
uhm... cố gắng liên hệ mấy a khóa trên... liên hệ hợp tác :))


Vào 22:10 Ngày 21 tháng 6 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

các bạn trong lớp mình làm thì chỉ có : nhận diện tên riêng, tách từ tiếng viêt, phân cụm từ, đồng tham chiếu chứ mấy

Lê Duy Thành

unread,
Jun 21, 2013, 11:47:17 AM6/21/13
to xlnntn...@googlegroups.com
đây là đề tài nhóm mình làm
mình nghĩ chỉ hỏi về cái cơ bản, tổng quát về đề tài chứ ko đi sâu vào hướng giải quyết mình chọn cho đề tài, vì chỉ nghe seminar 1 lần thì chả thể nào hiểu ngay mà đi thi dc
NER_10520213-06520518.pptx

Yến Linh

unread,
Jun 21, 2013, 11:49:21 AM6/21/13
to xlnntn...@googlegroups.com
uhm... ý Linh là Thánh tóm tắt nội dung thui rùi để trên file .doc á... mà linh nghĩ chủ yếu là mấy cái mô hình


Vào 22:47 Ngày 21 tháng 6 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

đây là đề tài nhóm mình làm
mình nghĩ chỉ hỏi về cái cơ bản, tổng quát về đề tài chứ ko đi sâu vào hướng giải quyết mình chọn cho đề tài, vì chỉ nghe seminar 1 lần thì chả thể nào hiểu ngay mà đi thi dc

Lê Duy Thành

unread,
Jun 21, 2013, 11:51:31 AM6/21/13
to xlnntn...@googlegroups.com
lười copy qua word lắm
để slide như thế này
khi ra in tiết kiệm hơn
4 hay 8 slide 1 trang A4 gì đó
thì chỉ nói tổng quan về mấy cái mô hình thôi ko đi sâu vào bất cứ mô hình nào hết

Nguyễn Hữu

unread,
Jun 21, 2013, 12:49:07 PM6/21/13
to xlnntn...@googlegroups.com

Rất hoan nghênh ý kiến tổng hợp lại rồi in ra của Linh. Linh thử liên hệ những bạn “khóa trên” khác xem nhé, chứ đề tài của anh 99% là không thể ra trong đề thi được. ^^ Có in thì cho anh đặt 1 bản nha!

Yến Linh

unread,
Jun 21, 2013, 12:50:21 PM6/21/13
to xlnntn...@googlegroups.com
anh là ai nhỉ? 0.o


Vào 23:49 Ngày 21 tháng 6 năm 2013, Nguyễn Hữu <nguyen...@gmail.com> đã viết:

Long Nguyễn Đình Hoàng

unread,
Jun 21, 2013, 1:01:45 PM6/21/13
to xlnntn...@googlegroups.com
hình như là anh làm phần hellochao...

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 1:02:37 PM6/21/13
to xlnntn_khmt05
  • Đề tài: Xác định đồng tham chiếu ngữ danh từ.
  • Ngữ liệu: tiếng Anh.
  • Mô hình 1 - Decision Trees C4.5: tập trung chủ yếu vào các đặc trưng để phân lớp.
  • Mô hình 2 - Stanford's Multi-Pass Sieve Coreference Resolution System. Mô hình sử dụng bộ lọc gồm có 7 công đoạn (tương đương với 7 đặc trưng của 1 cây định danh) để phân tích câu/văn bản được đưa vào.

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 1:03:07 PM6/21/13
to xlnntn_khmt05
Quên attach ^^


2013/6/22 Nguyễn Quốc Minh <nqmi...@gmail.com>
Seminar.docx

longndh5

unread,
Jun 21, 2013, 1:08:44 PM6/21/13
to xlnntn...@googlegroups.com
thầy nói cấu trúc đề thi thế nào vậy, hôm cuối mình ko đi.

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 1:14:07 PM6/21/13
to xlnntn_khmt05
Lúc đó thầy nói nhanh quá note không kịp, chỉ được vài ý như sau:
  • chuyển đổi ngữ liệu bracket <-> cây <-> cột.
  • Rút trích thông tin.
  • Cho 1 mô hình, mô tả mô hình đó.


P/S: Các bạn chủ yếu học về đêm không nhỉ, mình ngồi cả ngày mà chẳng có lấy 1 cái meo nào cả ^^

Yến Linh

unread,
Jun 21, 2013, 1:30:04 PM6/21/13
to xlnntn...@googlegroups.com
rút trích thông tin là sao nhỉ?


Vào 00:14 Ngày 22 tháng 6 năm 2013, Nguyễn Quốc Minh <nqmi...@gmail.com> đã viết:

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 10:08:46 PM6/21/13
to xlnntn_khmt05
Cái này mình cũng không rõ, tại vì trích xuất thông tin (Information Extraction) là một bài toán lớn nó bao gồm những bài toán nhỏ (các đề tài bọn mình làm). Có khi nào thầy cho một đoạn văn kêu bọn mình dùng các mô hình để trích xuất thông tin không?

Yến Linh

unread,
Jun 21, 2013, 10:11:03 PM6/21/13
to xlnntn...@googlegroups.com
khóc


Vào 09:08 Ngày 22 tháng 6 năm 2013, Nguyễn Quốc Minh <nqmi...@gmail.com> đã viết:

Cái này mình cũng không rõ, tại vì trích xuất thông tin (Information Extraction) là một bài toán lớn nó bao gồm những bài toán nhỏ (các đề tài bọn mình làm). Có khi nào thầy cho một đoạn văn kêu bọn mình dùng các mô hình để trích xuất thông tin không?

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 10:17:35 PM6/21/13
to xlnntn_khmt05
Chỉ là mình phỏng đoán thôi, nín đi ^^

Yến Linh

unread,
Jun 21, 2013, 10:28:09 PM6/21/13
to xlnntn...@googlegroups.com
@minh: minh bik các a nào khóa trên lớp mình, liên hệ đi .... :D


Vào 09:17 Ngày 22 tháng 6 năm 2013, Nguyễn Quốc Minh <nqmi...@gmail.com> đã viết:

Chỉ là mình phỏng đoán thôi, nín đi ^^

Nguyễn Quốc Minh

unread,
Jun 21, 2013, 10:38:15 PM6/21/13
to xlnntn_khmt05
Khóa trên thì mình biết cũng không được nhiều, và đa số học học bên Công nghệ tri thức ^^

Yến Linh

unread,
Jun 22, 2013, 11:43:39 PM6/22/13
to xlnntn...@googlegroups.com
có ai biết rút trích thông tin là như thế nào không?



Vào 09:38 Ngày 22 tháng 6 năm 2013, Nguyễn Quốc Minh <nqmi...@gmail.com> đã viết:

Khóa trên thì mình biết cũng không được nhiều, và đa số học học bên Công nghệ tri thức ^^

Lê Duy Thành

unread,
Jun 23, 2013, 12:08:08 AM6/23/13
to xlnntn...@googlegroups.com
Trích chọn thông tin thực hiện việc rút trích thông tin có cấu trúc từ các văn bản không cấu trúc. 
Có thể sử dụng trích chọn thông tin từ văn bản với nhiều mức độ khác nhau : nhận diện các loại thực thể tên (NER), điền thông tin các mẫu kịch bản (Scenario Tempalte), xác định quan hệ giữa các thực thể (Relation Extraction)


Cao Phước Thừa

unread,
Jun 23, 2013, 1:48:07 AM6/23/13
to xlnntn...@googlegroups.com



Vào 11:08 Ngày 23 tháng 6 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:
Document clustering.pptx

Xa Thị Mỹ Hương

unread,
Jun 23, 2013, 3:51:06 AM6/23/13
to xlnntn...@googlegroups.com
Đây là phần báo cáo của nhóm mình
Bữa giờ không lên mạng được nên gửi trễ


--
-------------------------------------------------------------------
Name: Xa Thị Mỹ Hương
SID: 10520448
Faculty: CS 05
University of Information Technology
-------------------------------------------------------------------
Tach tu.docx

VŨ VĂN SỸ

unread,
Jun 23, 2013, 4:13:25 AM6/23/13
to xlnntn...@googlegroups.com
Nhận dạng tên riêng(Mô hình CRF) 


Vũ Văn Sỹ...
MSSV         : 10520150
Telephone : 01639963625
University of Infomation Technology.
Vietnam National University HCMC.


Vào 14:51 Ngày 23 tháng 6 năm 2013, Xa Thị Mỹ Hương <huong9...@gmail.com> đã viết:
NNHNL_Nhận Dạng Tên Riêng.pptx

Dung nguyen thi my

unread,
Jun 23, 2013, 4:19:36 AM6/23/13
to xlnntn...@googlegroups.com
in cho 6 với nhé


Vào 15:13 Ngày 23 tháng 6 năm 2013, VŨ VĂN SỸ <vuvans...@gmail.com> đã viết:

Yến Linh

unread,
Jun 23, 2013, 7:39:47 AM6/23/13
to xlnntn...@googlegroups.com
4 bài semiar của 4 nhóm... L đang suy nghĩ, có nên in luôn slide của thầy ko?
ak... in bao nhiêu bản thế nhỉ?
mai mọi người lên trường sớm nha... linh đưa cho, rùi đọc qua luôn...
cái rút trích thông tin có tài liệu ko? cho xin vs :(


Vào 15:19 Ngày 23 tháng 6 năm 2013, Dung nguyen thi my <nguyenth...@gmail.com> đã viết:
Bài toán tách từtiếng Việt.pptx
NNHNL -.pptx
Presentation1.ppt
gán nhãn cụm danh từ tiếng Việt.docx

Dung nguyen thi my

unread,
Jun 23, 2013, 7:45:36 AM6/23/13
to xlnntn...@googlegroups.com
6 một bản


Vào 18:39 Ngày 23 tháng 6 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Nguyễn Quốc Minh

unread,
Jun 23, 2013, 7:55:27 AM6/23/13
to xlnntn_khmt05
Đây là 4 bản ngày mai in để làm tài liệu hả, cho mình 1 bản với nha, cám ơn Linh trước!

Yến Linh

unread,
Jun 23, 2013, 7:57:30 AM6/23/13
to xlnntn...@googlegroups.com
4 bản đó là của 3 nhóm k4 và nhóm L.... mai đem đi in tất cả của các nhóm luôn.
@minh: có nên in slide của thầy ko?


Vào 18:55 Ngày 23 tháng 6 năm 2013, Nguyễn Quốc Minh <nqmi...@gmail.com> đã viết:

Nguyễn Quốc Minh

unread,
Jun 23, 2013, 8:00:45 AM6/23/13
to xlnntn_khmt05
Chắc không cần đâu, tại trong nội dung thấy chỉ đề cập đến những gì bọn mình seminar thôi.
Mình đang nghĩ không biết có nên in luôn cái bộ nhãn Penn treebank để khi chuyển ngữ liệu còn biết mà gán?

2013/6/23 Yến Linh <linhli...@gmail.com>

Lê Duy Thành

unread,
Jun 23, 2013, 8:00:48 AM6/23/13
to xlnntn...@googlegroups.com
slide của thầy có nhiều lắm
nên in slide nào mới là vấn đề

Dung nguyen thi my

unread,
Jun 23, 2013, 8:01:34 AM6/23/13
to xlnntn...@googlegroups.com
ko. vì thầy chỉ hỏi những cái mà seminar mà :D 
mọi ng làm thử mấy câu này thử, làm ở cả 4 dạng : cây, bracket, chunker, susanne nhé
this is a good type of book.
last week, i saw a very interesting film.
what is a computer?
this is a new and very powerful computer.


Vào 18:57 Ngày 23 tháng 6 năm 2013, Yến Linh <linhli...@gmail.com> đã viết:

Yến Linh

unread,
Jun 23, 2013, 8:02:24 AM6/23/13
to xlnntn...@googlegroups.com
thêm vấn đề nữa, slide của thầy toàn tiếng Anh....


Vào 19:00 Ngày 23 tháng 6 năm 2013, Lê Duy Thành <duyth...@gmail.com> đã viết:

slide của thầy có nhiều lắm
nên in slide nào mới là vấn đề

Nguyễn Quốc Minh

unread,
Jun 23, 2013, 8:05:33 AM6/23/13
to xlnntn_khmt05
Slide không cần đâu. Mình nghĩ nên in thêm cái mớ này nữa nè: http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
It is loading more messages.
0 new messages