0.1.5 버전

36 views
Skip to first unread message

Changwoo Ryu

unread,
Dec 14, 2008, 4:29:41 AM12/14/08
to spellc...@googlegroups.com
파일에 올려놨습니다.

단어도 늘었고 불규칙활용이 꽤 동작합니다.

아래 예와 같이 불규칙 용언이면 허용하는 어미가 달라집니다.

$ ./test.sh
Hunspell 1.2.8 - hunspell-dict-ko 0.1.5
아름다워 아름답어 아름다운 아름답은 그어 긋어 빠르고 빨라 빠르어
+ 아름답다
& 아름답어 4 13: 아름답다, 아르메니아어, 아랍어, 아르바이트
+ 아름답다
& 아름답은 4 39: 아름답다, 응답은, 아랍은, 보름달은
+ 긋다
& 긋어 6 59: 그어, 긁어, 긋다, 그리어, 그치어, 느긋이
+ 빠르다
+ 빠르다
& 빠르어 5 83: 바르어, 빠르다, 가파르어, 뒤따르어, 빠뜨리어


--
Changwoo Ryu <ryu.ch...@gmail.com>

HaYoung

unread,
Dec 15, 2008, 2:47:58 AM12/15/08
to 맞춤법 검사
창우님 감사합니다.
테스트 해보니 성능이 더 좋아 졌군요.

> Changwoo Ryu <ryu.chang...@gmail.com>

JiHui Choi

unread,
Dec 15, 2008, 3:40:37 AM12/15/08
to spellc...@googlegroups.com
감사합니다.
그런데 좀 투정같습니다만, 조금 설명도 좀 해줘가면서 해 주세요.
할 일을 주세요! 는 아니다. ;;; 뭐 알아서 찾아해야 하는 것이겠지만
개선시키려면 어떻게 해야 한다라든가..

사실 그런 문서화가 쉽지 않은 일이긴 합니다만, 대강이라도 알려주시면
삽질하면서 정리해 보겠습니다. :)

--
Regards,
JiHui Choi
----------------------------------------------------
http://Mr-Dust.pe.kr
http://GIMP.kr, http://OpenOffice.or.kr, http://Ubuntu.or.kr

Changwoo Ryu

unread,
Dec 15, 2008, 11:28:00 AM12/15/08
to 맞춤법 검사
소스 보세요 :>

파생규칙은 지금 뭘 설명하면서 진행하기는 너무 많이 바뀌는 군요.

단어 데이터가 어떻게 되어 있는지는 둘러 보시면 쉽게 아실 수 있을 겁니다.

nomos

unread,
Dec 15, 2008, 5:08:52 PM12/15/08
to 맞춤법 검사
초등학교 교재에서 몇 단락 입력해보았습니다. 오픈오피스 2.4입니다.

http://spellcheck-ko.googlegroups.com/web/screenshot-debian_openoffice24-spellko_015.png?hl=ko&gsc=-7OteBYAAACGUQ6YxohxvGOrJze81Cd3S7ibph5ftdNh9K_-frBgDg

이제 단어만 추가하고 약간만 더 다듬으면 얼추 쓸만하게 될 것 같습니다.

실제적인 도움을 드리지 못해 죄송스럽게 여기고 있습니다. 연말이기도 하고 일이 많이 생기는군요.
테스트나 열심히 하겠습니다.

이맥스에서 ispell 대신 hunspell을 지정해서 써 보았는데 일단 작동은 합니다. 하지만 가끔씩
Ispell misalignment: word `동국대' point 614; probably incompatible
versions
이런 종류의 메시지가 나오면서 더는 진행이 안 되는 때가 있습니다. 이맥스에서는 아직 좀 기다려야 하겠습니다.

참고로, 테스트에 사용했던 제 .emacs 설정입니다 (이맥스23입니다):

(progn
(setq ispell-program-name "my-emacs-hunspell")
(setq ispell-local-dictionary-alist
'(("korean"

"[\352\353\354\355\200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\217\220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\237\240\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277]"
"[^
\352\353\354\355\200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\217\220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\237\240\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277]"
"[\"]" nil
("-d" "/usr/share/myspell/dicts/ko")
nil utf-8)))
(setq ispell-local-dictionary "korean"))

연속을 나타내는 정규식은 아스키문자에 대해서만 된다고 어디선가 본 것 같아 저렇게 길게 적었습니다.

그리고 ispell의 "-m" 옵션을 hunspell에서 피해가기 위해 만든 my-emacs-hunspell 입니다.

#!/bin/sh
/usr/bin/hunspell -a -d /usr/share/myspell/dicts/ko

김도현


On 12월14일, 오후6시29분, Changwoo Ryu <ryu.chang...@gmail.com> wrote:

> Changwoo Ryu <ryu.chang...@gmail.com>

JiHui Choi

unread,
Dec 15, 2008, 9:26:41 PM12/15/08
to spellc...@googlegroups.com
2008/12/16 Changwoo Ryu <ryu.ch...@gmail.com>:
> 소스 보세요 :>
>
소스를 봐도 모르니 하는 소리 아니겠습니까?!
라고 항변해봐도, 소스를 봐도 모른다면 어쩌라구.. 라고 하실 것 같아 일단 조용.. ;;

이를 위해 파이썬을 배울 수도 없고..
그런데 요즘 관심있게 보고 있는 루비랑 비슷해보이네요.
확실히 루비가 파이썬을 확장한 거라고 본 것 같긴 합니다만.
열심히 루비 공부를 해야겠군요!


일단 config.py 는 간단하니 패스.
make_aff.py 는 아직 제가 손댈 부분이 아니니 패스.
make_dif.py 는 복잡하니 패스 (...)

남은 건 *.dic (...)
그리고 xpi 의 ko.aff 와 ko.dic
.dic 파일의 단어들은 윈도우즈에서는 음절별(?)로 분리되는군요.

'가게' 라면 'ㄱㅏㄱㅔ' 라는 식으로요..


여튼 질문이 있습니다.
소스의 dictko/*.dic 를 보면 '#' 이 붙은 단어가 있고 없는 단어가 있습니다.
몇 개를 검색해보니 중복되는 경우 한쪽에 # 을 붙여 주석처리한 것이 아닌가
했는데, '가게' 의 경우 noun 으로 하나 noun prop 로 하나 검색이 되는데,
이중 noun 에 # 이 있네요. 그리고 '가까이' 의 경우에는 adverb 로 2개 검색이
되는데 그 중 하나는 #, noun 으로 하나 검색되는데 이건 # 이 없습니다.

이런 것으로 미루어 볼때, 같은 품사로 분류된 것 중에 중복된 것에 # 을 붙여
주석처리한 것이 아닌가 싶은데, 맞는지요?

Changwoo Ryu

unread,
Dec 15, 2008, 9:47:09 PM12/15/08
to spellc...@googlegroups.com
2008-12-16 (화), 11:26 +0900, JiHui Choi 쓰시길:

> 여튼 질문이 있습니다.
> 소스의 dictko/*.dic 를 보면 '#' 이 붙은 단어가 있고 없는 단어가 있습니다.
> 몇 개를 검색해보니 중복되는 경우 한쪽에 # 을 붙여 주석처리한 것이 아닌가
> 했는데, '가게' 의 경우 noun 으로 하나 noun prop 로 하나 검색이 되는데,
> 이중 noun 에 # 이 있네요. 그리고 '가까이' 의 경우에는 adverb 로 2개 검색이
> 되는데 그 중 하나는 #, noun 으로 하나 검색되는데 이건 # 이 없습니다.
>
> 이런 것으로 미루어 볼때, 같은 품사로 분류된 것 중에 중복된 것에 # 을 붙여
> 주석처리한 것이 아닌가 싶은데, 맞는지요?

그런 이유도 있고요. 아직 처리할 수 없는 품사라서 주석으로 만든 것도 있습
니다.


--
Changwoo Ryu <ryu.ch...@gmail.com>

Reply all
Reply to author
Forward
0 new messages