결정계수가 1인 고차원문제 문의 드립니다.

58 views
Skip to first unread message

주민식

unread,
Oct 14, 2017, 7:15:42 AM10/14/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수

현재 검토중인 것에 대해서 의견 부탁드리겠습니다.

설명변수가 380개 입니다. 관측치는 186개 입니다.(그래서 고차원문제와 오버핏, 다중공선성을 검토 중입니다.)

1. 우선 그냥 R의 LM으로 하면 결정계수가 1입니다. 아마도 데이터가 너무 적어서 오버핏이라고 생각중입니다.
    근데 무의미한 변수추가로 R=1이 되더라도 ADJUST. R =1 로 나오네요..

2. Step을 forward나 backward로 돌리면 변수를 빼거나 추가하다가 R값이 1이 되는 순간 멈춰버립니다. 쉽게 말해서
380개에서 앞단 100개만으로도 R값을 1로 맞추거나 하는 문제가 아닌가 합니다.
그래서 Stepwise를 both로 해서 돌리니, R2값이 0.5정도로 나옵니다.

3. 다중공선선과 오버핏 문제인가 해서 glmnet함수로 넣어보니 R2가 0.47~0.55 정도 사이가 나옵니다. 그렇다면
현재  관측치가 너무 적어서 오버핏되는 문제라고 생각해도 되는지요
이럴때 변수선정에 대해서 현재 STEPWISE_BOTH로 돌린결과나 랜덤포레스트의 IMPORTANCE FACTOR로 뽑아서 보는게
좋을지요?


통계상담_한남대권세혁교수

unread,
Oct 14, 2017, 9:45:52 AM10/14/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
회귀모형 추정의 경우 데이터의 개수 n은 적어도  (설명변수 개수 p)+1 이어야 합니다.
그러므로 관측치가 186개 밖애 없으므로 185개 설명변수까지 사용한 모형만 추정 가능합니다.
그러나 데이터의 개수만큼 데이터를 사용하면 알고 있는 것처럼 모형 over-fit 문제가 발생합니다.
변수 선택을 하려면 stepwise 방법이나 forward 방법을 사용하면 됩니다.

질문 내용대로 변수의 개수를 줄이는 주성분 변수를 사용하면 됩니다.   

주민식

unread,
Oct 14, 2017, 9:58:59 PM10/14/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
답변감사합니다.

추가 질문이 있습니다. STEPWISE로 돌린거와 STEPAIC_BOTH로 돌린결과는 좀 겹치는 변수가 많은데
GLMNET으로로 뽑아낸 주요변수들(라쏘)과는 겹치는게 많이 없습니다. 
또한 랜덤포레스트로 뽑아낸것들도  차이가 있는데요, 이럴때 어떻게 하는게 좋을지가 난감해서 조언 부탁드립니다.

아래 코멘트를 보고서 설명변수를 10개 20개, 50개, 80개 ~200개 까지 늘려보니 처음엔 예상대로 R2= 0.5 ADJ.R2 = 0.3
이런식으로 변수증가해도 항상 ADJ.R2가 R2 대비 낮아서 그려려니 했는데, 한 120개 설명변수로 늘리니 R2=0.99 되었고
ADJ.R2 = 0.87 로 되는 등 같이 증가 하였습니다. ADJ.R2는 변수를 증가 하더라도 패널티를 주기 때문에 대부분 ADJ.R2가
낮아야하는데 이런 P>N보다 큰 경우문제는 ADJ.R2도 증가하는게 왜 인지요?

Seongho Bae

unread,
Oct 23, 2017, 5:26:14 AM10/23/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
교수님, 이번엔 제가 되려 궁금한 게 있습니다.

주성분 분석은 설명 변수가 표본 수보다 많은 경우에 별 다른 문제가 생기지 않는 것인지 궁금합니다.

배성호 올림 

2017년 10월 14일 토요일 오후 10시 45분 52초 UTC+9, 통계상담_한남대권세혁교수 님의 말:

통계상담_한남대권세혁교수

unread,
Oct 23, 2017, 6:32:42 AM10/23/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
주성분변수는 원변수(p개)의 공분산행렬( 혹은 상관계수 행렬, pXp 대칭행렬)의 고유값, 
그에 대응하는 고유벡터를 이용하여 구합니다.
공분산행렬은 데이터의 개수가 원변수 개수(p)보다 적어도 계산 가능합니다.

주성분분석은 원변수들간 공분산(상관계수) 구할 만큼의 표본 크기만 있으면 됩니다. (표본 크기 20개 정도)
결론적으로 설명변수의 크기가 표본크기보다 많아도 문제가 되지 않습니다.

Best wishes,

Seongho Bae

unread,
Oct 24, 2017, 3:57:39 AM10/24/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
교수님, 그렇다면 한 가지 더 여쭙습니다.

주성분이 아니라 최대가능도 방법으로 factoring 하는 경우 원 변수 개수보다 샘플이 적으면 어떤 일이 벌어집니까? 특히나 FIML (full-information maximum likelihood) 조건이라면 어떤 일이 생길지 궁금합니다.

배성호 올림 

2017년 10월 23일 월요일 오후 7시 32분 42초 UTC+9, 통계상담_한남대권세혁교수 님의 말:
Reply all
Reply to author
Forward
0 new messages