"아버지가방에들어가신다" 같은 문장은 이미 아버지라는 단어를 알고 있어서 그런지, 아버지+가=> 아버지가 _ 방+에 => 방에 _ 들어가신다...식으로 잘 끊어주는데
요새 인터넷에는 온갖 신조어들이 많다보니 원하는대로 어절단위라고 생각했던 단위로 끊어지지 않습니다.
예를들면, "쩍벌남이 어쩌구저쩌구..."식의 문장이 있으면 쩍.벌.남이 로 끊긴다던지, "어그로"라는 단어 (인터넷에서 남의 화를 돋구는 행위)는 어.그로 식으로 끊긴다던지 입니다.
저의 경우, 사전에 정의된 내용에 완벽하게 형태소를 분석하기 위한 목적이라기 보단, 색인의 전처리 작업으로 좀더 유 의미한 토큰닝을 위해서 은전한닢 형태소 분석기를 사용하고자 합니다.
혹시, 스페이스나 콤마같은 일반적인 토크나이징 방식으로 토크닝된 어절도 함께 추출 하려면 어떻게 하면 좋을까요?
"요샌 쩍벌남이 이슈야"
현재 > 요샌.요새.쩍.벌.남이.남.이.슈야
원하는것 > 요샌.요새.쩍.벌.남이.남.이.슈야 + 쩍벌남이.이슈야