categorical 변수를 더미변수로 변환하여도 scale(numeric)와 동일한 quantity 속성을 보이지 못합니다.
회귀분석의 경우에는 분류형 변수를 더미변수를 만들어 사용하는 것은 문제가 없음 - 분류형 범주에 따른 절편의 차이나 회귀계수 기울기 차이만 보는 것이므로
그러나 군집분석은 변수간의 거리를 유사성(similarity)으로 하여 가까운 개체(51개 주)를 묶는 방법으로 측정형 척도가 아닌 (0,1)은 거리 계산에는 적절하지 않습니다.
하여, 일반적으로 범주형변수는 군집분석에 사용하지 않습니다.
굳이 사용한다면 범주형 변수를 정량화 방법을 적용할 수 있도록 수정하는 것입니다.
교육수준 대신 교육 기간(연) 등으로...
정량화 가능한 범주형 변수를 제외하고 군집분석을 하기를 권합니다.
*) 범주형 변수는 군집 속성 결정할 때 사용하기를 권합니다.
K-means 방법은 군집의 개수를 정해 놓고 하는 것이니 4개의 군집으로 나뉘어 집니다.
그러나 결과를 보면 2개 군에는 1개씩 군집화 되어 있어 실제는 2개로 보입니다.
계층적 군집 결과인 덴드로그램을 활용하여 군집을 결정하기 권합니다.
군집
이름 부여하는 방법은 내 홈페이지 군집분석 강의노트 참고 바랍니다.
주성분 분석은 군집에 결정된 후 적용하면 됩니다.