안녕하세요 박해선 작가님!작가님 깃에 있는 옐프 리뷰 전체코드를 뜯어보면서 공부하고있는데,
해당 코드가 어떻게 작동하는지 궁금해서 질문드립니다.
# 리뷰 클래스 비율이 동일하도록 만듭니다
by_rating = collections.defaultdict(list)
for _, row in train_reviews.iterrows(): #Pandas의 iterrows : (인덱스, row값) 반환
by_rating[row.rating].append(row.to_dict())
review_subset = []
for _, item_list in sorted(by_rating.items()): #키(_)와 벨류(item_list)가 iterator, 총 2번 실행
n_total = len(item_list)
n_subset = int(args.proportion_subset_of_train * n_total)
review_subset.extend(item_list[:n_subset])
review_subset = pd.DataFrame(review_subset)
1) n_total, n_subset, review_subset.extend(item_list[:n_subset])이 각각 뭘 의미하는지 궁금합니다.
2) for _, item_list in sorted(by_rating.items()) 이 반복문에서
_는 키값, item_list는 벨류로 알고있는데요, 그럼 _가 1이면, item_list는 by_rating에서 rating이 1인 모든 리뷰를 갖고 있는건가요?
--
이 메일은 Google 그룹스 '머신러닝/딥러닝 도서 Q&A' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 ml-dl-book-qn...@googlegroups.com에 이메일을 보내세요.
웹에서 이 토론을 보려면 https://groups.google.com/d/msgid/ml-dl-book-qna/4f130dba-9d29-42cd-aae7-5b23c30f47d7n%40googlegroups.com을(를) 방문하세요.