한글형태소 사전 NIADic CC-BY로 공개!

262 views
Skip to first unread message

Changwoo Ryu

unread,
Feb 22, 2017, 3:12:24 AM2/22/17
to spellc...@googlegroups.com
안녕하세요.

과거에 제가 오픈소스에서 쓸 수 있는 공개된 다른 한국어 사전 데이터는 없다고 언급했었고 그래서 어디서 오픈소스 배포 불가능한
데이터를 퍼오는 일은 없도록 노력했었습니다. hunspell-dict-ko의 README 파일에도 쓰여 있는데요.

그런데 어제 NIA빅데이터센터에서 한글 형태소 데이터를 CC-BY로 릴리스했습니다.

http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&oid=018&aid=0003755078&sid1=001
https://kbig.kr/index.php?page=1&sv=title&sw=&q=knowledge/pds_&tgt=view&page=1&idx=16451&sw=&sv=title

라이선스가 수정 재배포 가능한 CC-BY라는 게 고무적입니다. (공공누리 이런 이상한 거 안 써서 다행;) 세종계획 데이터는
원래 배포 불가능한 연구자 무료 라이선스였죠.

농담 반으로 내일이라도 국립국어원에서 데이터가 쓸만한 라이선스로 공개되면 (갈퀴에서) 단어 바닥부터 모으는 작업은 바뀔
거다라고 말했었는데 실제로 일어났네요. 이 데이터를 어떻게 관리하느냐 문제를 생각해 봐야겠네요.

전희원

unread,
Feb 22, 2017, 3:40:54 AM2/22/17
to spellc...@googlegroups.com
안녕하세요.

KoNLP, NIADic을 개발한 개발자입니다. 몇년동안 눈팅만 하다가 메일 보내네요. 


위에 자세한 권한과, 데이터를 받을 수 있는 방법이 나오니 참고하세요. ^^

감사합니다.  

  




2017. 2. 22., 17:12, Changwoo Ryu <cw...@debian.org> 작성:

--
Google 그룹스 '맞춤법 검사' 그룹에 가입했으므로 본 메일이 전송되었습니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 spellcheck-k...@googlegroups.com에 이메일을 보내세요.
더 많은 옵션을 보려면 https://groups.google.com/d/optout을(를) 방문하세요.

Changwoo Ryu

unread,
Feb 22, 2017, 3:52:12 AM2/22/17
to spellc...@googlegroups.com
안녕하세요.

말씀하신 깃헙 프로젝트에는 .RData 포맷으로 들어 있는데 K-ICT 빅데이터센터 사이트의 .xlsx로 된 데이터와 다른 정보가 있나요?



2017년 2월 22일 오후 5:29, 전희원 <madja...@gmail.com>님이 작성:
> --
> 이 메일은 Google 그룹스 '맞춤법 검사' 그룹에 가입한 분들에게 전송되는 메시지입니다.

Changwoo Ryu

unread,
Feb 22, 2017, 4:30:52 AM2/22/17
to spellc...@googlegroups.com
그런데 대충 둘러보니 잘못된 말도 많네요. 몇가지만 찾아봤는데요.

경뎜 (이건 오타인 듯..)
경제제제
육계장 (육개장도 있음)


2017년 2월 22일 오후 5:12, Changwoo Ryu <cw...@debian.org>님이 작성:

Changwoo Ryu

unread,
Feb 22, 2017, 7:23:59 AM2/22/17
to spellc...@googlegroups.com
더 큰 문제는 품사가 KAIST 한국어 품사 태그로 분류되어 있는데 모든 명사를 서술성 명사, 고유 명사 모두 포함해 비서술성
명사(ncn)로 분류하거나, 모든 부사를 일반 부사(mag)로 분류하거나 하는 문제가 있습니다.

갈퀴에서 "가산명사" 속성이나 부사 세부 설정 같은 게 여기 해당되는데 이런 정보가 부족하죠.



2017년 2월 22일 오후 6:30, Changwoo Ryu <cw...@debian.org>님이 작성:

전희원

unread,
Feb 22, 2017, 10:26:22 AM2/22/17
to spellc...@googlegroups.com
네. 해당 부분 오류 주신거 감사드립니다.

품사 문제는 우리말샘에서 사용하는 품사를 KAIST 태그로 변환하는 과정에서 온 오류입니다. 상호 변환을 하면서 불명확한 것들에 대해서 가장 제너럴한 방향으로 변환이 되어 정확도가 다소 저하된 부분이 있습니다. 이 부분은 변환 이전 원래의 품사를 부착해서 제공하는 방향으로 고민중에 있습니다.

 





2017년 2월 22일 오후 9:23, Changwoo Ryu <cw...@debian.org>님이 작성:
--
Google 그룹스 '맞춤법 검사' 그룹에 가입했으므로 본 메일이 전송되었습니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 spellcheck-ko+unsubscribe@googlegroups.com에 이메일을 보내세요.

Changwoo Ryu

unread,
Feb 24, 2017, 3:44:38 PM2/24/17
to spellc...@googlegroups.com
woorimalsam 이 데이터는 표준국어대사전이라서 활용도가 제일 높을 수 있는데, 가장 큰 문제가 북한어와 방언이 구분되지
않고 같이 들어 있네요. (왜 이렇게 많나 했더니..) 많이 틀리는 맞춤법과 관계있는 부분이 많아서 한 사전에 넣고 쓰기
어렵습니다.






2017년 2월 22일 오후 5:12, Changwoo Ryu <cw...@debian.org>님이 작성:

Changwoo Ryu

unread,
Aug 18, 2017, 3:48:07 PM8/18/17
to spellc...@googlegroups.com
6개월여가 지난 시점인데요. 최근에 문의해서 확인한 사실 관계를 정정/정리해야겠습니다.

이 사전 중에서 "우리말샘" 관련 단어 정보는 CC-BY 4.0이 아니라 CC-BY-SA 2.0 라이선스가 맞습니다. NIA에서 특별히 국립국어원에서 CC-BY로 라이선스 허락을 받은 것이 아니라 우리말샘 사이트의 컨텐츠를 그대로 가져온 것입니다. NIA 측이 라이선스를 잘못 기재한 것으로 (!) 확인되었고요. NIA 빅데이터센터 자료실의 라이선스도 정정되었습니다.

https://kbig.kr/index.php?page=0&sv=title&sw=&q=knowledge/pds_&tgt=view&page=1&idx=16451&sw=&sv=title%E2%80%8B%E2%80%8B

이 "우리말샘"(https://opendict.korean.go.kr/) 사이트는 사용자가 사전 항목을 작성할 수 있고 컨텐츠가 CC-BY-SA 2.0 라이선스로 공개됩니다. 이 사전이 위키처럼 사용자 데이터만 있다고 생각하실 수 있는데, 이 사이트가 시작할 때 표준국어대사전 내용을 이관해 와서 시작한 것입니다. 그러니까 우리말샘 사전 내용은 표준국어대사전 + alpha 사전이라고 볼 수 있는 거죠. 공식 오픈한 게 작년 10월이었고 이게 진짜 고무적인 사건이었다고 생각합니다. 우리말샘 사이트에 가입하면 검색 결과 전체 데이터를 다운로드할 수 있습니다. NIADic의 우리말샘 액셀 데이터도 그렇게 다운로드한 파일로 보이고요.

단 라이선스에 SA 제한이 있어서 CC-BY 만큼 환영할 만한 일은 아닙니다..  특히 호환성 문제가 껄끄럽긴 하죠. 하지만 다행히도 이 프로젝트는 오픈소스 프로젝트이고, 우리말샘은 워낙 큰 데이터이기 때문에 결국 CC-BY-SA로 따라가야 하지 않나 싶습니다. 정확히 어떻게 할지는 아직 생각하지 못했어요. (아마도 다시 라이선스 변경 작업?)





2017년 2월 22일 오후 5:12, Changwoo Ryu <cw...@debian.org>님이 작성:
안녕하세요.

전희원

unread,
Aug 20, 2017, 9:32:46 PM8/20/17
to spellc...@googlegroups.com
해당 이슈로 인해 NIADic 도 CC BY SA 2.0으로 변경작업을 했습니다. 

올해 다른 신규 사전을 비롯해 최신 데이터로 업데이트 하고 기존의 이슈를 해결하는 작업을 진행할 예정이니 참고바랍니다. 




2017. 8. 19. 오전 4:48, Changwoo Ryu <cw...@debian.org> 작성:

-- 
이 메일은 Google 그룹스 '맞춤법 검사' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 spellcheck-k...@googlegroups.com에 이메일을 보내세요.
Reply all
Reply to author
Forward
0 new messages