단어도 늘었고 불규칙활용이 꽤 동작합니다.
아래 예와 같이 불규칙 용언이면 허용하는 어미가 달라집니다.
$ ./test.sh
Hunspell 1.2.8 - hunspell-dict-ko 0.1.5
아름다워 아름답어 아름다운 아름답은 그어 긋어 빠르고 빨라 빠르어
+ 아름답다
& 아름답어 4 13: 아름답다, 아르메니아어, 아랍어, 아르바이트
+ 아름답다
& 아름답은 4 39: 아름답다, 응답은, 아랍은, 보름달은
+ 긋다
& 긋어 6 59: 그어, 긁어, 긋다, 그리어, 그치어, 느긋이
+ 빠르다
+ 빠르다
& 빠르어 5 83: 바르어, 빠르다, 가파르어, 뒤따르어, 빠뜨리어
--
Changwoo Ryu <ryu.ch...@gmail.com>
사실 그런 문서화가 쉽지 않은 일이긴 합니다만, 대강이라도 알려주시면
삽질하면서 정리해 보겠습니다. :)
--
Regards,
JiHui Choi
----------------------------------------------------
http://Mr-Dust.pe.kr
http://GIMP.kr, http://OpenOffice.or.kr, http://Ubuntu.or.kr
파생규칙은 지금 뭘 설명하면서 진행하기는 너무 많이 바뀌는 군요.
단어 데이터가 어떻게 되어 있는지는 둘러 보시면 쉽게 아실 수 있을 겁니다.
이제 단어만 추가하고 약간만 더 다듬으면 얼추 쓸만하게 될 것 같습니다.
실제적인 도움을 드리지 못해 죄송스럽게 여기고 있습니다. 연말이기도 하고 일이 많이 생기는군요.
테스트나 열심히 하겠습니다.
이맥스에서 ispell 대신 hunspell을 지정해서 써 보았는데 일단 작동은 합니다. 하지만 가끔씩
Ispell misalignment: word `동국대' point 614; probably incompatible
versions
이런 종류의 메시지가 나오면서 더는 진행이 안 되는 때가 있습니다. 이맥스에서는 아직 좀 기다려야 하겠습니다.
참고로, 테스트에 사용했던 제 .emacs 설정입니다 (이맥스23입니다):
(progn
(setq ispell-program-name "my-emacs-hunspell")
(setq ispell-local-dictionary-alist
'(("korean"
"[\352\353\354\355\200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\217\220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\237\240\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277]"
"[^
\352\353\354\355\200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\217\220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\237\240\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277]"
"[\"]" nil
("-d" "/usr/share/myspell/dicts/ko")
nil utf-8)))
(setq ispell-local-dictionary "korean"))
연속을 나타내는 정규식은 아스키문자에 대해서만 된다고 어디선가 본 것 같아 저렇게 길게 적었습니다.
그리고 ispell의 "-m" 옵션을 hunspell에서 피해가기 위해 만든 my-emacs-hunspell 입니다.
#!/bin/sh
/usr/bin/hunspell -a -d /usr/share/myspell/dicts/ko
김도현
On 12월14일, 오후6시29분, Changwoo Ryu <ryu.chang...@gmail.com> wrote:
> Changwoo Ryu <ryu.chang...@gmail.com>
이를 위해 파이썬을 배울 수도 없고..
그런데 요즘 관심있게 보고 있는 루비랑 비슷해보이네요.
확실히 루비가 파이썬을 확장한 거라고 본 것 같긴 합니다만.
열심히 루비 공부를 해야겠군요!
일단 config.py 는 간단하니 패스.
make_aff.py 는 아직 제가 손댈 부분이 아니니 패스.
make_dif.py 는 복잡하니 패스 (...)
남은 건 *.dic (...)
그리고 xpi 의 ko.aff 와 ko.dic
.dic 파일의 단어들은 윈도우즈에서는 음절별(?)로 분리되는군요.
'가게' 라면 'ㄱㅏㄱㅔ' 라는 식으로요..
여튼 질문이 있습니다.
소스의 dictko/*.dic 를 보면 '#' 이 붙은 단어가 있고 없는 단어가 있습니다.
몇 개를 검색해보니 중복되는 경우 한쪽에 # 을 붙여 주석처리한 것이 아닌가
했는데, '가게' 의 경우 noun 으로 하나 noun prop 로 하나 검색이 되는데,
이중 noun 에 # 이 있네요. 그리고 '가까이' 의 경우에는 adverb 로 2개 검색이
되는데 그 중 하나는 #, noun 으로 하나 검색되는데 이건 # 이 없습니다.
이런 것으로 미루어 볼때, 같은 품사로 분류된 것 중에 중복된 것에 # 을 붙여
주석처리한 것이 아닌가 싶은데, 맞는지요?
> 여튼 질문이 있습니다.
> 소스의 dictko/*.dic 를 보면 '#' 이 붙은 단어가 있고 없는 단어가 있습니다.
> 몇 개를 검색해보니 중복되는 경우 한쪽에 # 을 붙여 주석처리한 것이 아닌가
> 했는데, '가게' 의 경우 noun 으로 하나 noun prop 로 하나 검색이 되는데,
> 이중 noun 에 # 이 있네요. 그리고 '가까이' 의 경우에는 adverb 로 2개 검색이
> 되는데 그 중 하나는 #, noun 으로 하나 검색되는데 이건 # 이 없습니다.
>
> 이런 것으로 미루어 볼때, 같은 품사로 분류된 것 중에 중복된 것에 # 을 붙여
> 주석처리한 것이 아닌가 싶은데, 맞는지요?
그런 이유도 있고요. 아직 처리할 수 없는 품사라서 주석으로 만든 것도 있습
니다.
--
Changwoo Ryu <ryu.ch...@gmail.com>