Re: [머신러닝/딥러닝 도서 Q&A] [파이토치로 배우는 자연어처리] 옐프 리뷰 코드에서요

10 views
Skip to first unread message

Haesun Park

unread,
Sep 7, 2022, 10:02:12 AM9/7/22
to Ohyel, 머신러닝/딥러닝 도서 Q&A
안녕하세요. 박해선입니다.

문의하신 내용에 답변 드립니다.
1)
n_total은 item_list의 길이입니다.
n_subset은 훈련 서브셋의 길이입니다.
review_subset은 훈련 서브셋입니다.
2) 네 맞습니다.

감사합니다.

2022년 9월 6일 (화) 오후 9:54, Ohyel <inuy...@gmail.com>님이 작성:
안녕하세요 박해선 작가님!
작가님 깃에 있는 옐프 리뷰 전체코드를 뜯어보면서 공부하고있는데,
해당 코드가 어떻게 작동하는지 궁금해서 질문드립니다.

# 리뷰 클래스 비율이 동일하도록 만듭니다
by_rating = collections.defaultdict(list)
for _, row in train_reviews.iterrows(): #Pandas의 iterrows : (인덱스, row값) 반환
    by_rating[row.rating].append(row.to_dict())
review_subset = []

for _, item_list in sorted(by_rating.items()): #키(_)와 벨류(item_list)가 iterator, 총 2번 실행
    n_total = len(item_list)
    n_subset = int(args.proportion_subset_of_train * n_total)
    review_subset.extend(item_list[:n_subset])
review_subset = pd.DataFrame(review_subset)

1) n_total, n_subset, review_subset.extend(item_list[:n_subset])이 각각 뭘 의미하는지 궁금합니다.
2) for _, item_list in sorted(by_rating.items()) 이 반복문에서
_는 키값, item_list는 벨류로 알고있는데요, 그럼 _가 1이면, item_list는 by_rating에서 rating이 1인 모든 리뷰를 갖고 있는건가요?

--
이 메일은 Google 그룹스 '머신러닝/딥러닝 도서 Q&A' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 ml-dl-book-qn...@googlegroups.com에 이메일을 보내세요.
웹에서 이 토론을 보려면 https://groups.google.com/d/msgid/ml-dl-book-qna/4f130dba-9d29-42cd-aae7-5b23c30f47d7n%40googlegroups.com을(를) 방문하세요.
Reply all
Reply to author
Forward
0 new messages