어절도 함께 추출 하려면 어떻게 하면 좋을까요?

214 views
Skip to first unread message

Yuie Hikari

unread,
Aug 29, 2017, 8:22:03 PM8/29/17
to 은전한닢 프로젝트
"아버지가방에들어가신다" 같은 문장은 이미 아버지라는 단어를 알고 있어서 그런지, 아버지+가=> 아버지가 _ 방+에 => 방에 _ 들어가신다...식으로 잘 끊어주는데

요새 인터넷에는 온갖 신조어들이 많다보니 원하는대로 어절단위라고 생각했던 단위로 끊어지지 않습니다.

예를들면, "쩍벌남이 어쩌구저쩌구..."식의 문장이 있으면 쩍.벌.남이 로 끊긴다던지, "어그로"라는 단어 (인터넷에서 남의 화를 돋구는 행위)는 어.그로 식으로 끊긴다던지 입니다.

저의 경우, 사전에 정의된 내용에 완벽하게 형태소를 분석하기 위한 목적이라기 보단, 색인의 전처리 작업으로 좀더 유 의미한 토큰닝을 위해서 은전한닢 형태소 분석기를 사용하고자 합니다.

혹시, 스페이스나 콤마같은 일반적인 토크나이징 방식으로 토크닝된 어절도 함께 추출 하려면 어떻게 하면 좋을까요?

"요샌 쩍벌남이 이슈야"
현재  > 요샌.요새.쩍.벌.남이.남.이.슈야
원하는것 >  요샌.요새.쩍.벌.남이.남.이.슈야 + 쩍벌남이.이슈야

유영호

unread,
Aug 30, 2017, 8:26:56 PM8/30/17
to 은전한닢 프로젝트
말씀하신 부분도 지원을 해야할지 고민해봐야겠네요..
현재는 직접적으로 지원되고 있지 않아서 다른 방법을 써야할것같아요.
별개의 필드를 두어서 whitespace tokenizer로 색인을 한다던가, 
플러그인 형태가 아닌 아예 외부에서 은전한닢과 whitespace splite으로 토큰을 만들어서 하나의 필드에 색인을 하는 방법이 있을 것 같아요. 그런데 이 경우에는 검색할때도 외부에서 토크나이징을 해야해서 시스템이 복잡해질것같네요.

Reply all
Reply to author
Forward
0 new messages