또 이런 음절이 없을까 찾으려고
ko_words1.txt안에서
빈도가 100개에서 150쯤 되는 끝음절들을 찾으니 41개 음절이 있고
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---
+---+---+---+---+---+---+---+---+---+---+---+---+---...
|별|마|관|당|전|까|운|습|안|보|란|데|법|치|하|더|던|려|져|러|형|를|며|린|림|점|방|물|미|명|식|신|실|류|영|
오|제|용|호|집|학|중|즈|타|군|여|회|과|구|단|선|소|님|글|문|판|민|경|상|정|적|현|희|터...
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---
+---+---+---+---+---+---+---+---+---+---+---+---+---...
이렇게 잡음이 적은 단어들이 보이는데
별: 부서별, 제목별, 증상별, 직군별, 품사별
관: 한국관, 인생관, 구관, 도관
순: 저가격순, 제조사순, 상품순
용: 컴퓨터용, 테스트용, 통신용, 트랙터용
점: 의문점, 잠실점,장착점,저점
방: 도움방, 동화방, 복덕방, 빈방
...
이런 음절이 '접사' 아니면 '의존명사'군요!
그렇다면 저 명사 + 접사 형의 단어들은 굳이 갈퀴에 입력할 필요가 없는 것인지요? 조사처럼 규칙만 만들어서 추가하면 되는 것인지?
2009/5/21 ruseel <rus...@gmail.com>:
문제는 이런 식으로 접사가 붙는 단어들은 조사처럼 음절의 모양만 갖고 제약
이 있는 게 아니라 그 명사의 종류에 따라 제약이 있습니다. 지금 있는 접사
는 "-들"밖에 없는데 갈퀴 속성에 "가산명사" 속성을 넣어야 하듯이.. 명사의
속성을 지금보다 세세하게 분류해야 가능합니다.
예를 들어 유정명사라고 하는.. 사람이나 동물을 가리키는 명사에 대해서 붙
는 "-님"과 같은 게 있는데 (소장님, 사장님, ..) 이 규칙을 만들려면 각각의
명사에 대해서 유정명사 여부를 분류해야 합니다. 그렇다고 모든 명사에 대해
서 허용할 수도 없고요. (편집기님, 야구장님, 캘리포니아님, 민주주의
님, ..)
그리고 어떤 경우는 명사의 의미나 관습에 따라 접사가 붙냐 여부가 달라져서
그냥 하나의 단어처럼 취급하는 게 속 편한 경우가 있는데 (실제로 사전에도
따로 단어로 올라가 있고) 이 경우는 그냥 별도 단어로 DB에 등록해야 하지
않을까 싶네요.
이것도 아직 손대지 못 하고 있는 과제 중의 하나입니다. todo에 기록이 안
됐나요.
--
Changwoo Ryu <ryu.ch...@gmail.com>