질문있습니다!

21 views
Skip to first unread message

KANG YUN PARK

unread,
Feb 8, 2021, 12:42:29 AM2/8/21
to 머신러닝/딥러닝 도서 Q&A
박해선 개발자님 포스팅, 글, 책 모두 챙겨보고 공부하고 있는 대학원 생입니다. 항상 양질의 정보와 심도 깊은 책과 글을 써주셔서 감사합니다. 
혼공머신을 공부하고 있습니다. 

정형데이터로 분석하는 경우는 준비된 예제뿐만 아니라 실제 제가 가지고 있는 데이터를 책에 나온 폼에 맞게 변형하여 쓰면 되는데, 텍스트 데이터와 이미지 데이터는 힘들더라구요...

이미지  라벨링 작업 같은 경우, 구글에서 제공하는 Teachable Machine을 통하여 라벨링 작업을 할 수 있어 활용하고 있습니다. 혹시, 실전에서는 이미지 라벨링 작업을 어떤 식으로 하는 지 여쭤봐도 될까요? 정말 사람이 하나하나 다 라벨링을 다는 건가요? 아니면 다른 프로그램이 있나요?

텍스트 분석 관련 질문
IMDB 데이터 같은 경우는 예제이며 너무나 깔끔하게 정리되어 있는 데이터라고 생각합니다.  강의 또는 연습용으로는 잘 맞는데 실제 텍스트 데이터는 그렇지 않다고 생각합니다. 그리고 정형데이터 같은 경우는 predict함수를 활용하여 바로 예측이 가능하지만, 텍스트 분석 같은 경우 model.predict 이런 식으로 사용할 수가 없습니다. 즉, 실제 분석하고자 하는 데이터를 변형해야하는 일이 생기는데, 이러한 경우, 어떤 방식으로 해야할까요? IMDB의 데이터와 같은 폼으로 변형해서 무조건 사용해야 하는건가요? 제가 이해하기로는 텍스트 데이터를 정수 값으로 매핑한 후 사용해야 할 것 같습니다. 그러면 이러한 작업을 하나하나 수작업으로 해야하는 건지요..?

글의 두서가 없어서 죄송합니다. 답변 기다리겠습니다. 항상 좋은 글 다시 한 번 감사합니다.

Haesun Park

unread,
Feb 8, 2021, 12:52:19 AM2/8/21
to KANG YUN PARK, 머신러닝/딥러닝 도서 Q&A
안녕하세요. 박해선입니다.

이미지 레이블링을 위한 여러가지 플랫폼이 있습니다.
아마존 Mechanical Turk 같은 것은 크라우드 소싱을 활용한 예입니다.
자동화된 플랫폼을 제공하거나 판매하는 업체도 있습니다.

일반적으로 전통적인 머신러닝 분야에서는 텍스트 데이터를 원-핫 벡터나 tf-idf 형태로 많이 변형하여 사용합니다.
딥러닝에서는 임베딩 벡터를 사용하는 것이 일반화되어 있습니다.
이런 벡터화는 라이브러리 수준에서 자동화되거나 데이터로부터 학습하여 만들어 집니다.
자연어 처리 관련한 책이나 자료를 보시면 도움이 되실 것 같습니다.

감사합니다!

2021년 2월 8일 (월) 오후 2:42, KANG YUN PARK <pgy...@gmail.com>님이 작성:
--
이 메일은 Google 그룹스 '머신러닝/딥러닝 도서 Q&A' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 ml-dl-book-qn...@googlegroups.com에 이메일을 보내세요.
웹에서 이 토론을 보려면 https://groups.google.com/d/msgid/ml-dl-book-qna/7e950651-a87a-44df-bf57-3bebbc255219n%40googlegroups.com을(를) 방문하세요.
Reply all
Reply to author
Forward
0 new messages