Re: 요인분석에 관해서 질문드립니다.

269 views
Skip to first unread message
Message has been deleted

통계상담_한남대권세혁교수

unread,
Apr 20, 2017, 7:55:09 PM4/20/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
주성분 분석 절차대로 질문자가 한 내용을 정리하며 답변하겠습니다.
유전자 정보들을 변수 (X1, X2, ..., Xp)라 하겠습니다.
당연히 각 변수 Xi는 측정형, 적어도 순서형 변수이여야 합니다.

(X1, X2, ..., Xp)에 R "factanal" 함수를 이용하여 요인분석 결과
5개 주성분(Y1, Y2, ..., Y5)의 요인이면 충분하다고 결과가 나왔다. 
=> 각 주성분의 부하(loading matrix) 값을 이용하여 각 요인의 이름을 부여합니다.
 -> (의문) 부하 값과 원 데이터와 회귀분석을 한다? 의미가 없습니다. 부하 값은 Y(주성분벡터)=L(부하행렬)X(원변수 행렬)에서 오직 주성분이름을 부여하기 위하여 사용됩니다.
   
 -> 일반적으로 회귀분석에서 주성분분석을 사용하는 경우는 (X1, X2, ..., Xp)이 모두 설명변수이고 다중공선성 문제가 발생할 때, 이를 해결하기 위하여
    주성분(Y1, Y2, ..., Y5)를 대신 설명변수로 사용하여 종석변수와 회귀분석을 실시합니다. 
=> 회귀분석에 사용할 때 주성분의 값(이를 주성분 점수가 아닌 요인점수라 함)을 설명변수로 사용하여 회귀분석을 하면 됩니다. 회귀분석 : 종속변수 reg on (Y1, Y2, ..., Y5)

결론적으로 주성분 분석은 다차원 변수군 (X1, X2, ..., Xp)을 저 차원 (Y1, Y2, ..., Y5)으로 축소하고
부하 값에 의해 주성분 (Y1, Y2, ..., Y5)에 적절한 이름을 부여하고,
향후 분석에서 주성분의 관측값(이를 주성분점수, 요인점수)을 사용하여 군집분석 결과의 군집 이름을 부여하거나 회귀분석에 활용한다. 

도움이 되기를

Seongho Bae

unread,
Oct 4, 2017, 11:52:12 AM10/4/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
이미 너무 늦었지만, 요인분석 != 주성분 분석이라는 것만 밝혀 봅니다... R에서 factanal 함수는 요인 분석 함수는 맞습니다만 (주성분 아님) 그렇게 정확한 결과를 제공하지 못합니다.

한편, 암 데이터의 축소가 목적이면 factanal 함수는 부적절합니다.

Seongho Bae
PsyD candidate in applied measurement for work psychology

2017년 4월 19일 수요일 오후 11시 1분 19초 UTC+9, jrg...@kaist.ac.kr 님의 말:
안녕하세요 교수님 

구글 검색을 통해 본 게시판을 알게되었습니다. 

저는 카이스트에서 암을 연구하는 박사과정생 공정렬이라고 합니다. 



질문드리고자 하는 내용은 "요인분석(Factor analysis)"에 관한 것입니다. 


요인 분석을 하고자한 목적은 암 조직의 유전체 정보를 새롭게 처리하는 방법을 개발하였는데, 이 방법으로 예측한 결과와 기존에 알려진 방법간의 결과를 비교했을때 유사한 결과가 나오는지 확인하는 것입니다. 



우선 제가 연구를 진행한 과정은 다음과 같습니다. 
1. 새롭게 개발된 방법을 이용한 암에 관한 유전잔 정보를 가지고 Factor analysis를 진행 하였습니다. 
2. 조건 R의  "factanal" 함수를 통해서 5가지 요인을 뽑았고 loading matrix를 통해서 그 의미를 해석해봤을 때 그 의미가 기존의 알려진 것과 유사한 유의미한 Factor를 선정할 수 있었습니다. 

우선 위의 2가지 단계를 진행 하였고 여기까지는 다른 책이나 논문을 비교해가면서 진행을 했습니다. 

그 다음 단계가 저는 검증 그러니깐 Factor analysis에 의해서 정의한 Factor가 제가 넣어준 환자별 암 데이터와 실제로 일치하는 지를 검증하고 했습니다. 

그래서 공부를 해보니 2가지 방법을 알 수 있었는데

1. Factor analysis에 사용한 데이터를 Factor analysis에서 추론된 loading값과 linear regression을 해서, Factor analysis를 통해서 분석한 요인과 그 요인으로 예측되는 기존에 알려진 그룹간의 linear regression p-value가 낮게 나오는지 확인하였습니다. 
이렇게 확인된 p-value가 기존에 알려진 그룹과 연관이 있다고 해석한 요인에서만 0.05이하의 값을 가졌는데 이를 통해서 증명을 하였습니다.

2. 두번째는 factor analysis score를 이용해서 증명하고자 했습니다. factor score를 구한 방법은 factanal 함수에서 제공하는 옵션에 regression 방법으로 구한 값을 사용했습니다. 그런데 여기서 구한 score의 의미를 공부하고자 했으니 잘 이해가 되지 않은 채로 
구해진 Factor score의 값을 z-score로 변환하고 변환된 score 값을 기존의 알려진 환자의 그룹으로 묶으니 제가 예측한 값과는 전혀 다른 값의 형태를 보였습니다. 


여기서 제 질문입니다. 

1. Factor score라는 것이 구한 Factor의 특징을 다시 검증하는 방법으로 사용하는 것이 맞는지?
2. 검증은 요인 분석에 사용한 데이터와 요인 분석을 통해서 나온 loading값의 linear regression 했을 때 p- value 만으로 검증 할 수 있는 것인지?

두가지에관한 것입니다. 

주변에 물어볼 곳이 없고 인터넷과 책으로 찾아보는 것에 한계를 느껴서 게시판을 통해 질문드립니다. 

긴 글 읽어주셔서 감사드립니다. 

질문에 대한 답변 기다리고 있겠습니다.

공정렬 드림






Reply all
Reply to author
Forward
0 new messages