현재 검토중인 것에 대해서 의견 부탁드리겠습니다.
설명변수가 380개 입니다. 관측치는 186개 입니다.(그래서 고차원문제와 오버핏, 다중공선성을 검토 중입니다.)
1. 우선 그냥 R의 LM으로 하면 결정계수가 1입니다. 아마도 데이터가 너무 적어서 오버핏이라고 생각중입니다.
근데 무의미한 변수추가로 R=1이 되더라도 ADJUST. R =1 로 나오네요..
2. Step을 forward나 backward로 돌리면 변수를 빼거나 추가하다가 R값이 1이 되는 순간 멈춰버립니다. 쉽게 말해서
380개에서 앞단 100개만으로도 R값을 1로 맞추거나 하는 문제가 아닌가 합니다.
그래서 Stepwise를 both로 해서 돌리니, R2값이 0.5정도로 나옵니다.
3. 다중공선선과 오버핏 문제인가 해서 glmnet함수로 넣어보니 R2가 0.47~0.55 정도 사이가 나옵니다. 그렇다면
현재 관측치가 너무 적어서 오버핏되는 문제라고 생각해도 되는지요
이럴때 변수선정에 대해서 현재 STEPWISE_BOTH로 돌린결과나 랜덤포레스트의 IMPORTANCE FACTOR로 뽑아서 보는게
좋을지요?