[혼공머신] p230 지니불순도, 불순도의 차이(정보이득)

56 views
Skip to first unread message

MGk

unread,
May 23, 2021, 2:55:45 AM5/23/21
to 머신러닝/딥러닝 도서 Q&A
안녕하세요. 

p.230 DecisionTree(DT)Classifier 의 criterion 매개변수의 기본값이 gini라고 했는데요.
데이터를 분할할 기준을 정하는 것이라고 하셨는데. 

1. 그렇다면 어떻게 루트 노드는 gini 값(=0.367)으로 -0.239라는 기준값이 나오게 된 건가요?

2. 지니 불순도는 0 < 지니불순도 < 0.5 인 것 같은데, 0.5가 최악이란 것은 분류하기가 모호한 상황이라는 뜻이죠?

3. 그런데 바로 밑에 불순도 차이(정보이득)는 "...최대가 되도록... 이때 지니 불순도를 기준으로 사용합니다.."라고 하셨는데, 둘이 어떤 관계인가요?

감사합니다~

Haesun Park

unread,
May 23, 2021, 3:17:40 AM5/23/21
to MGk, 머신러닝/딥러닝 도서 Q&A
안녕하세요. 박해선입니다.
문의하신 내용에 답변 드립니다.

1. 지니 불순도의 차이가 가장 크게 되는 경우가 sugar=-0.239이고 이 때 gini 불순도가 0.367입니다. 분할 기준을 찾는 구체적인 방법은 책의 범위를 넘어섭니다. 사이킷런의 스플리터 클래스 구현을 참고해 주세요. https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/tree/_splitter.pyx
2. 네 그렇게 해석할 수 있습니다.
3. 불순도 차이가 정보 이득입니다. 불순도에는 지니 불순도, 엔트로피 불순도 등이 있습니다.

감사합니다.

2021년 5월 23일 (일) 오후 3:55, MGk <mgkan...@gmail.com>님이 작성:
--
이 메일은 Google 그룹스 '머신러닝/딥러닝 도서 Q&A' 그룹에 가입한 분들에게 전송되는 메시지입니다.
이 그룹에서 탈퇴하고 더 이상 이메일을 받지 않으려면 ml-dl-book-qn...@googlegroups.com에 이메일을 보내세요.
웹에서 이 토론을 보려면 https://groups.google.com/d/msgid/ml-dl-book-qna/39befc7b-0bef-4264-a82b-3b25922553acn%40googlegroups.com을(를) 방문하세요.
Reply all
Reply to author
Forward
0 new messages