어떤 패키지가 가장 유용한가요?

920 views
Skip to first unread message

Hwaran Lee

unread,
Aug 28, 2015, 6:36:51 AM8/28/15
to KoNLPy
제공하는 5개의 패키지 중에서 (한나눔, 꼬꼬마, 코모란, 메캅, 트위터) 어떤 패키지가 가장 유용한지, 어떤 특징이 있나요?
홈페에지에 있는 성능분석 자료를 보았지만 본래 언어 관련 일을 하던것이 아니였어서, text mining이나 NLP 연구실에서 어떤 것을 많이 쓰시는지 궁금합니다.

다루고자 하는 범위는, 대용량 데이터를 최소 의미 단위(형태소)로 분리하고자 합니다. (형태소 tagging 자체가 세세할 필요는 없습니다.)
- 데이터가 문장의 띄어쓰기가 완벽하지 않을 때 가장 오류가 적은 것은 어떤 것인가요?
   예를들면.. '노력하는 강아지'가 '노_력하는 강아지' 이렇게 되어있는 경우
- 형태소 분석기들은 띄어쓰기 오류는 없다고 가정한 채 형태소로 분리하나요?
- 트위터를 제외한 나머지 것들은 근어 (stem)으로 표시하는 것을 제공하지 않나요?
- 성능은 dictionary에 크게 의존한다고 보았는데, dictionary를 업데이트하거나 새로 구성하는 방법이 있을까요?

Eunjeong Lucy Park

unread,
Sep 3, 2015, 6:08:22 AM9/3/15
to Hwaran Lee, KoNLPy
이화란님께,

안녕하세요, 질문에 답변 드리겠습니다:

1. 말씀하신 "대용량 데이터"가 어느 정도 규모인지는 모르겠습니다만, 처리하는 양이 GB 단위인 경우, 아무래도 속도가 빠른 Mecab를 추천드리고 싶습니다.
2. 성능평가 페이지에서 이미 보신 바와 같이 Kkma, Mecab, Twitter 등이 특정 예문에 대한 띄어쓰기를 잘했습니다만, 항상 그럴 것이라고 일반화하기는 어렵습니다. 보유하신 데이터를 일정량 샘플링하셔서 어떤 것이 만족스러운 성능을 보이는지 직접 눈으로 확인하시는 것이 가장 좋을 것 같습니다. 개인적으로는 앞의 세 가지 외에 Komoran도 좋은 성능을 보일 때가 많았습니다.
3. 띄어쓰기 오류가 아예 없다고 가정하지는 않습니다만, 일반적으로 띄어쓰기가 잘 되어 있을수록 성능은 좋게 나옵니다.
4. Twitter를 제외한 나머지는 어간화(stemming)를 제공하지 않습니다.
5. 아직까지 KoNLPy 단에서 dictionary를 업데이트 하는 방법을 제공하고 있지는 않습니다만, 전처리 또는 후처리를 통해 처리하시면 될거라고 생각합니다.

도움이 되었으면 좋겠네요!

박은정 드림

--
박은정 (Eunjeong Lucy Park)
Ph.D. Candidate @ Data Mining Lab, Seoul National University
"배워서 남 주자 (Learning to Give)"

--
이 메일은 Google 그룹스 'KoNLPy' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 konlpy+un...@googlegroups.com에 이메일을 보내세요.
이 그룹에 게시하려면 kon...@googlegroups.com에 이메일을 보내세요.
웹에서 이 토론을 보려면 https://groups.google.com/d/msgid/konlpy/9f6e40ee-1c3d-4ba7-9f75-69c25ce94677%40googlegroups.com을(를) 방문하세요.
더 많은 옵션을 보려면 https://groups.google.com/d/optout을(를) 방문하세요.

Reply all
Reply to author
Forward
0 new messages