twitter-korean-py: twitter-korean-text의 normalizer를 파이썬으로 포팅

171 views
Skip to first unread message

Baeg-il Kim

unread,
Apr 19, 2016, 4:50:52 AM4/19/16
to twitter-korean-text
안녕하세요, cedar101이라고 합니다.

twitter-korean-py는 twitter-korean-text의 스칼라 코드를 참고하여 파이썬으로 새로 코딩하여 포팅한 라이브러리입니다.

  • 현재는 정규화(normalizer)만 가능하며, 나머지 기능(토큰화, 어근화, 어구 추출)은 아직 구현하지 않았습니다.
  • JPype을 사용한 래퍼 인터페이스인 twkorean과는 달리, twitter-korean-text의 스칼라/자바 코드를 사용하지 않은 순수 파이썬(pure-python) 코드입니다.
  • 설치 스크립트는 twitter-korean-text의 maven repository에서 JAR 파일을 다운받은 후, 사전 파일만을 압축 해제하여 사용합니다.
    • 이 개념은 twkorean을 참고하였습니다.
    • 현재 이 기능은 파이썬 2.7에서만 작동합니다. 3.x에서는 JAR나 사전 파일을 수동으로 설치하면 사용 가능합니다.
아직 프로젝트 초기 단계라 여러분들의 참여가 절실합니다. 여러분들의 많은 참여를 부탁드립니다.

Baeg-il Kim

unread,
Apr 20, 2016, 1:56:28 AM4/20/16
to twitter-korean-text
파이썬 3.x에서도 설치 가능하도록 수정했습니다. 단, maven(mvn) 실행 환경에서만 됩니다.

2016년 4월 19일 화요일 오후 5시 50분 52초 UTC+9, Baeg-il Kim 님의 말:

Hohyon Ryu

unread,
Apr 20, 2016, 2:21:06 AM4/20/16
to twitter-korean-text
감사합니다~! 그런데 링크를 안 보내주신 것 같습니다. 링크 보내주시면 README에 올리도록 하겠습니다. 

--
You received this message because you are subscribed to the Google Groups "twitter-korean-text" group.
To unsubscribe from this group and stop receiving emails from it, send an email to twitter-korean-...@googlegroups.com.
To post to this group, send email to twitter-k...@googlegroups.com.
Visit this group at https://groups.google.com/group/twitter-korean-text.
To view this discussion on the web visit https://groups.google.com/d/msgid/twitter-korean-text/1d676e90-5a8a-4a58-b2c5-23f7900e3ea3%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.
--
Will Hohyon Ryu
유호현
Senior Software Engineer at Twitter

Baeg-il Kim

unread,
Apr 20, 2016, 2:23:53 AM4/20/16
to twitter-korean-text
이런 가장 중요한 걸 빼먹었네요. 링크는 https://github.com/cedar101/twitter-korean-py 입니다.

2016년 4월 20일 수요일 오후 3시 21분 6초 UTC+9, Hohyon Ryu 님의 말:
감사합니다~! 그런데 링크를 안 보내주신 것 같습니다. 링크 보내주시면 README에 올리도록 하겠습니다. 

On Tue, Apr 19, 2016 at 10:56 PM Baeg-il Kim <ceda...@gmail.com> wrote:
파이썬 3.x에서도 설치 가능하도록 수정했습니다. 단, maven(mvn) 실행 환경에서만 됩니다.

2016년 4월 19일 화요일 오후 5시 50분 52초 UTC+9, Baeg-il Kim 님의 말:
안녕하세요, cedar101이라고 합니다.

twitter-korean-py는 twitter-korean-text의 스칼라 코드를 참고하여 파이썬으로 새로 코딩하여 포팅한 라이브러리입니다.

  • 현재는 정규화(normalizer)만 가능하며, 나머지 기능(토큰화, 어근화, 어구 추출)은 아직 구현하지 않았습니다.
  • JPype을 사용한 래퍼 인터페이스인 twkorean과는 달리, twitter-korean-text의 스칼라/자바 코드를 사용하지 않은 순수 파이썬(pure-python) 코드입니다.
  • 설치 스크립트는 twitter-korean-text의 maven repository에서 JAR 파일을 다운받은 후, 사전 파일만을 압축 해제하여 사용합니다.
    • 이 개념은 twkorean을 참고하였습니다.
    • 현재 이 기능은 파이썬 2.7에서만 작동합니다. 3.x에서는 JAR나 사전 파일을 수동으로 설치하면 사용 가능합니다.
아직 프로젝트 초기 단계라 여러분들의 참여가 절실합니다. 여러분들의 많은 참여를 부탁드립니다.


--

Baeg-il Kim

unread,
Apr 20, 2016, 4:21:08 AM4/20/16
to twitter-korean-text
PyPI에도 등록했습니다. https://pypi.python.org/pypi/twitter-korean


2016년 4월 19일 화요일 오후 5시 50분 52초 UTC+9, Baeg-il Kim 님의 말:
안녕하세요, cedar101이라고 합니다.
Reply all
Reply to author
Forward
0 new messages