안녕하세요.
KOSSLab 지원 받게 된 프로젝트 주제의 하나였던 문법 검사와
관련해서 소식을 알려드리려고 합니다. 올해는 PoC 수준까지 한다고
계획했었죠. 이제 그 정도는 되는 것 같습니다.
다음 스크린샷은 languagetool 서버를 (웹으로 문법검사 API를
제공하는 서버입니다.) 로컬에서 돌리고 languagetool firefox 확장을
이 서버에 연결해서 실행한 결과입니다.
https://raw.githubusercontent.com/wiki/spellcheck-ko/languagetool/images/firefox.png
내부적으로는 품사 태깅은 임시로 케이스바이케이스로 몇 개 넣은
가짜이고, 문법 rule을 몇 개 안 넣었을 뿐이지 다 갖추고 돌아갑니다.
근데 그 두 가지 데이터가 핵심이기 때문에 쓸만한 수준으로 만드려면
이제 시작이라고 볼 수 있고요.
- 품사 태깅의 경우에는 다른 언어의 경우에는 hunspell 사전을
변환해서 이용하고 있는데요. 하지만 한국어 사전은 아시다시피
어미 파생 규칙을 자동 생성하느라 결과물에서 품사를 잘 알 수
있게 만든 녀석이 아니라서 hunspell 사전을 형태소 분석에 맞게 좀
수정이 필요합니다. 프로젝트가 연결되는 포인트가 있네요.
- rule을 추가하는 건 단어와 마찬가지로 집단 지성의 힘을 모아야 할
것 같은데 나중에 생각해 보지요.
- 처음 부딪히면서 알아가는 게 다 그렇지만, 대부분 이것 저것 설정
추가하고 하는 것들이고 별것 아니네요... 지금 수준은 그냥 한국어
항목을 새로 추가한 정도입니다.
다음 저장소의 korean-poc 브랜치에서 작업하고 있습니다.
https://github.com/spellcheck-ko/languagetool
지금은 별표라도 남겨주시고 :) 앞으로 어떻게 규칙을 모아 보면 좋을
지 의견도 있으시면 말씀해주세요.
--
류창우