안녕하세요.
어제 답변주신 내용 토대로 위기를 넘긴 이용자입니다. 답변에 감사드립니다.
또 하나의 문제점에 직면해서 질문을 드리게 되었습니다
__________________________________________________________________________________________________________________
사전 추가시 타입 부분에 Preanalysis라고 적으면 기분석이 된다고 알고있습니다 (inflect도 기분석이라고 알고있습니다. 틀렸다면 지적해주세요)
그런데 이곳에 적어놓으신 답변을 보니 Preanalysis 타입은 mecab-ko-lucene-analyzer에서 인덱스 생성에 정답을 제공하기위해 사용된다고 하셨는데요..
질문 1) 저는 mecab-ko + mecab-ko-dic + python을 사용해서 작업하고 있고 mecab-ko-lucene-analyzer는 사용하지 않는데 이 경우 기분석(Preanalysis )이 되지 않는 것인가요?
질문 2) 만일 mecab-ko + mecab-ko-dic + python을 사용해도 형태소 분석시 기분석이 된다면 형태소 분석 과정에서 기분석이 언제 이루어지는지 궁금합니다.
예를 들어 (형태소 분석 과정 : 먼저 Preanalysis를 분석 -> Inflect를 분석 -> Compound를 분석 -> 이후 블라블라) 이런식으로 좀 알고 싶습니다
질문 3) 아래 데이터를 id 추가하려고 시도했더니 에러가 났습니다
0.07로,,,,SN+JKB,*,F,0.07로,Preanalysis,SN,JKB,0.07/SN/*+로/JKB/*
[에러 메시지] cannot find right-id 'JKB,*,F,*,*,*,*'
이런 식의 에러였습니다. 하지만 right-id.def 파일을 보니
'211 JKB,*,F,로,*,*,*,*' 라는 항목이 등록되어 있습니다.
혹시나 하고 사전형식 데이터의 '마지막 품사' 항목에서 JKB부분을 NNG로 변경해보니 id 생성이 되더군요.
왜 JKB라고 적으면 안 되고 NNG라고 적으면 될까? 조사해봤는데
NNG는 right-id.def에 이런 항목이 있더군요
3535 NNG,*,*,*,*,*,*,*
3536 NNG,*,F,*,*,*,*,*
3537 NNG,*,T,*,*,*,*,*
반면 JKB는 모든 낱말을 아우르는 항목이 없고 일부 낱말들에 의해서만 정의되어 있습니다.
결론은, right-id에 모든 낱말을 아우르는 형태로 등록된 POS가 아니라면 사전형식 데이터의 '마지막 품사' 항목에서 에러가 나는 것인가요?
그러면 이 경우는 등록이 불가능한 것인지..
__________________________________
여기까지 읽어주셔서 감사드립니다