안녕하세요. 회사명같은경우 띄어쓰기를 하나의 명사로 인식하는 방법이 있을 까요?

262 views
Skip to first unread message

Hyeokjune Jeon

unread,
Dec 17, 2017, 8:24:51 PM12/17/17
to open-korean-text
안녕하세요.


엘라스틱 서치의 플러그인으로 활용 중입니다.
지금은 모든게 새로와서 많은 것을 알지 못합니다.

제가 기사속에 회사명 처리를 하고 있습니다.
그런데, 특이 케이스가 있더라고요...

CJ 라는 회사와 CJ CGV 라는 회사가 있습니다.
둘다 고유 회사인데. 명사로 등록하려니, CJ CGV같은경우 공백이 삽입되어있는 형태입니다.

좋은 방법이 없을까요?

Hohyon Ryu

unread,
Dec 18, 2017, 12:36:19 AM12/18/17
to open-kor...@googlegroups.com
공백이 삽입된 경우 별개의 단어로 취급이 되는데요, tokenization 후 후처리를 해서 다시 붙이는 방법 밖에는 없을 것 같습니다.

--
You received this message because you are subscribed to the Google Groups "open-korean-text" group.
To unsubscribe from this group and stop receiving emails from it, send an email to open-korean-te...@googlegroups.com.
To post to this group, send email to open-kor...@googlegroups.com.
Visit this group at https://groups.google.com/group/open-korean-text.
To view this discussion on the web visit https://groups.google.com/d/msgid/open-korean-text/f2be7c51-4377-4e0c-9e0c-30aa09380278%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.
--
Will Hohyon Ryu
유호현
Software Engineer at Airbnb

실리콘밸리를 그리다: https://brunch.co.kr/magazine/svillustrated
Reply all
Reply to author
Forward
0 new messages