군집분석 질문드립니다.

92 views
Skip to first unread message

fres...@gmail.com

unread,
Aug 14, 2019, 1:28:58 PM8/14/19
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
권세혁 교수님 안녕하세요,
저는 교육행정 박사과정 중인 학생입니다. 미국 51개 주를 대상으로 bilingual education state infrastructure 를 군집분석을 하는데 infrastructure 특성상 categorical변수 (재정유형, 펀드유무 등)와 scale변수가 혼합되어 있는 데이타입니다. categorical 변수는 모두 더미변수로 변환했고 scale변수는 표준화했습니다. 기존 선행연구를 기반으로 4개의 군집으로 묶어보려고 K-mean, 계층적군집분석, two-step 모두 실시했습니다. Two-step은 51개중 15개가 군집으로 묶이지 않아 제대로 쓸수없을것 같고요. K-means는 비교적 (33:1:14:1)의 비율로 묶어지고 각 군집의 중심값도 결과표로 나옵니다. 계층적 군집분석은 (28:1:19:1)의 비율로 묶어지고 덴드로그램도 나오지만 각 군집의 특성이나 중심값이 결과표로 나오지않아 논문에서 결과를 보고하기엔 불편합니다. 군집별 특성을 잡을수있는 주성분분석이 있다고 들었는데 해보지않아서 잘 모르겠습니다.

제 데이타특성상 51개밖에 안되고 여러가지특성의 변수가 섞여있어서 계층적 군집분석이 적절할것 같기는 한데, 결과를 보고하고 해석하기엔 k-means가 편리해서 어떤방법을 선택해야할지 ..간절한 마음으로 조언부탁드립니다. 감사합니다.

통계상담_한남대권세혁교수

unread,
Aug 15, 2019, 7:43:39 PM8/15/19
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
categorical 변수를 더미변수로 변환하여도 scale(numeric)와 동일한  quantity 속성을 보이지 못합니다.
회귀분석의 경우에는 분류형 변수를 더미변수를 만들어 사용하는 것은 문제가 없음 - 분류형 범주에 따른 절편의 차이나 회귀계수 기울기 차이만 보는 것이므로
그러나 군집분석은 변수간의 거리를 유사성(similarity)으로 하여 가까운 개체(51개 주)를 묶는 방법으로 측정형 척도가 아닌 (0,1)은 거리 계산에는 적절하지 않습니다.
하여, 일반적으로 범주형변수는 군집분석에 사용하지 않습니다.
굳이 사용한다면 범주형 변수를 정량화 방법을 적용할 수 있도록 수정하는 것입니다.
교육수준 대신 교육 기간(연) 등으로...

정량화 가능한 범주형 변수를 제외하고 군집분석을 하기를 권합니다.
*) 범주형 변수는 군집 속성 결정할 때 사용하기를 권합니다.

K-means 방법은 군집의 개수를 정해 놓고 하는 것이니 4개의 군집으로 나뉘어 집니다.
그러나 결과를 보면 2개 군에는 1개씩 군집화 되어 있어 실제는 2개로 보입니다.
계층적 군집 결과인 덴드로그램을 활용하여 군집을 결정하기 권합니다.

군집 이름 부여하는 방법은 내 홈페이지 군집분석 강의노트 참고 바랍니다.
주성분 분석은 군집에 결정된 후 적용하면 됩니다.



2019년 8월 15일 목요일 오전 2시 28분 58초 UTC+9, fres...@gmail.com 님의 말:
Reply all
Reply to author
Forward
Message has been deleted
0 new messages