안녕하세요
Mecab의 User-dic에 사용자 사전을 추가해서 cost를 추가한 8000개 정도의 사전에대해 -300정도로
주고 파싱문제가 해결되는듯 싶었으나
(예시)
원문1 - '기아차 올뉴 K3 "1호차 주인공 선정 역시'
원문1처럼 사전에 등록된 단어의 맨끝이 숫자이고 그 뒤단어가 숫자로 시작하지 않을시에는 원하는대로 파싱이 됩니다.
('기아차', 'NNP'), ('올', 'MM'), ('뉴', 'NNG'), ('K3', 'NNP'), ('"', 'SY'), ('1', 'SN'), ('호', 'NNBC'), ('차', 'NNG'), ('주인공', 'NNG'), ('선정', 'NNG'), ('역시', 'MAJ')
그러나
원문2 - '기아차 올뉴 K3 1호차 주인공 선정 역시'
라는 글을 파싱할때는 사전에 코스트가 -300으로 등록되어 있음에도 아래와같은 결과로 인식되어 나옵니다.
('기아차', 'NNP'),
('올', 'MM'),
('뉴', 'NNG'),
('K', 'SL'), -- 알파벳으로 인식
('3', 'SN'), -- 숫자로 인식
('1', 'SN'),
('호', 'NNBC'),
('차', 'NNG'),
('주인공', 'NNG'),
('선정', 'NNG'),
('역시', 'MAJ')
혹시 이런 문제는 어떻게 해결할 수 있나요 ? 그룹에 올라온 글은 모두 훑어봤는데
모두 cost를 조정하라는 대답만 있어서 cost 를 -300 에서 -1500으로 낮춰보아도 저렇게 사전의 마지막 단어의 숫자뒤에 숫자가 나올경우는 사전에
우선순위대로 파싱해오지 못하는데 ㅠㅠ해결방법이 있을까요 ?