주성분 분석 절차대로 질문자가 한 내용을 정리하며 답변하겠습니다.
유전자 정보들을 변수 (X1, X2, ..., Xp)라 하겠습니다.
당연히 각 변수 Xi는 측정형, 적어도 순서형 변수이여야 합니다.
(X1, X2, ..., Xp)에 R "factanal" 함수를 이용하여 요인분석 결과
5개 주성분(Y1, Y2, ..., Y5)의 요인이면 충분하다고 결과가 나왔다.
=> 각 주성분의 부하(loading matrix) 값을 이용하여 각 요인의 이름을 부여합니다.
-> (의문) 부하 값과 원 데이터와 회귀분석을 한다? 의미가 없습니다. 부하 값은 Y(주성분벡터)=L(부하행렬)X(원변수 행렬)에서 오직 주성분이름을 부여하기 위하여 사용됩니다.
-> 일반적으로 회귀분석에서 주성분분석을 사용하는 경우는 (X1, X2, ..., Xp)이 모두 설명변수이고 다중공선성 문제가 발생할 때, 이를 해결하기 위하여
주성분(Y1, Y2, ..., Y5)를 대신 설명변수로 사용하여 종석변수와 회귀분석을 실시합니다.
=> 회귀분석에 사용할 때 주성분의 값(이를 주성분 점수가 아닌 요인점수라 함)을 설명변수로 사용하여 회귀분석을 하면 됩니다. 회귀분석 : 종속변수 reg on (Y1, Y2, ..., Y5)
결론적으로 주성분 분석은 다차원 변수군 (X1, X2, ..., Xp)을 저 차원 (Y1, Y2, ..., Y5)으로 축소하고
부하 값에 의해 주성분 (Y1, Y2, ..., Y5)에 적절한 이름을 부여하고,
향후 분석에서 주성분의 관측값(이를 주성분점수, 요인점수)을 사용하여 군집분석 결과의 군집 이름을 부여하거나 회귀분석에 활용한다.
도움이 되기를