교수님, 회귀분석 관련 문의드립니다.

831 views
Skip to first unread message

leecha...@gmail.com

unread,
Sep 23, 2014, 4:25:20 AM9/23/14
to ping_w...@googlegroups.com
권세혁 교수님께.
 
교수님, 안녕하세요, 회귀분석 결과와 관련하여 어떻게 해석하는 것이 좋을지 몰라서 이렇게 게시판에 글을 남김니다.
 
제가 지금 분석한 사항은 Beta와 ENSB라고 하는 다양성 지수를 설명할 수 있는 인자로 간단하게 A, B, C, D, E, F라고 하는 6개의 설명변수를 사용하여 단순회귀분석(OLS)와 forward stepwise multiple regression(전진선택 다중회귀분석)을 SPSS를 통해 수행한 결과입니다.
 
우선, 첫 번째로 설명인자 사이의 상관관계 표는 아래와 같습니다(별표로 표시된 것은 모두 p<0.01).
 
      A        B          C          D         E             F
A          -0.21     0.55*    -0.76*     0.63*     0.53*
 
B                       0.30       0.73*    -0.16     -0.65*
 
C                                     -0.05     0.15      0.07
 
D                                                 -0.62*   -0.74*
 
E                                                               0.20
 
 
두 번째로 Beta와 ENSB의 단순 회귀 분석 결과(R-square 값)를 보시면 아래와 같습니다.
 
               A          B           C           D             E              F
Beta     0.65*    0.31*     0.16      0.81*        0.36*        0.42*
ENSB   0.52*    0.14      0.43*     0.40*        0.10         0.28*
 
그런데, 6개의 변수를 가지고 forward stepwise multiple regression을 돌렸을 때,
 
Beta = 0.292 - 0.022 C + 0.0002 D (F=89.29, R2=0.93, P<0.001)
ENSB = 20.215 - 5.988 A (F=15.46, R2=0.53, P=0.002)
 
위와 같은 결과를 얻었습니다. ENSB의 경우, A와 다른 변수들의 상관관계가 높아서, forward stepwise multiple regression 시에 A의 설명력이 가장 높기 때문에 다른 변수들의 효과가 masking 된 것으로 보고 있습니다(이렇게 해석하는 것도 맞는 것인지요??).
 
하지만, Beta의 경우에 단순회귀 분석에서 전혀 유의성이 없던 변수가 다중회귀 분석에서 포함되었습니다. 이러한 것이 가능한 것인지요?
실제로 SPSS 분석 결과에는 2개의 모형이 제안되었습니다. 첫번째는 D만 제시된 것이고(R2=0.81), 두번째 모형이 제가 사용하고자 하는 C와 D가 동시에 제시된 모형입니다(R2=0.93). 저는 첫번째 모형보다 두 번째 모형을 사용하는 것이 전체적인 제 논문의 설득력을 높이는데 유리하여 본 모형을 택하게 되었습니다.
 
제가 개인적으로 판단하기로는 C를 제외한 다른 변수들 사이에는 상관관계가 높아서, Beta를 설명하기 위한 변수로 다중회귀분석을 수행할 때,  단순회귀 분석에서 설명력이 가장 높은 D가 선정이 되었고, C의 경우, D와는 상관관계가 없는 변수로 모형의 설명력을 더 높이기 위해 추출된 것으로 보고 있는데요. 이렇게 해석하는 것이 맞는지 궁금하여 이렇게 게시판에 글을 올립니다.
 
제가 모르는 부분도 많고, 아직도 모르는 부분이 많지만, 교수님께서 이러한 무료 상담 게시판을 운영해 주셔서 저같이 통계학을 잘 모르는 사람들에게는 얼마나 많은 도움이 되는지 모릅니다. 너무나 감사드립니다.
 
즐거운 한 주 되시구요, 답변 좀 부탁드립니다. 감사합니다.
 

Seongho Bae

unread,
Oct 11, 2014, 11:57:46 AM10/11/14
to ping_w...@googlegroups.com
교수님은 아닙니다만... 교수님께서 아마 못 보신 것 같아 대신 달아 봅니다..

일단 분석의 목적이 무엇인지 잘 모르겠습니다.

종속변수가 Beta와 ENSB이고, 독립변수가 A, B, C, D, E, F라면 드는 의문점이

1) A, B, C, D, E, F를 형성한 근거는 무엇입니까?

2) 종속변수가 두 개라면 구조방정식모형(공분산 구조분석)을 사용할 여지는 없었습니까?

3) 구조방정식모형을 사용할 여지가 없어서 OLS를 써야만 했다면, Enter(단계)가 아닌, Stepwise를 이용해야 할 특별한 이유가 있습니까?

4) 왜 단순회귀분석을 여러번 사용해야 합니까? 그것이 무슨 의미를 도출합니까?

5) R^2가 .81에서 .93씩이나 제시되는 모형이라면 과연 얼마나 의미있는 모형입니까? 모형이 overfitting되진 않았습니까? 아니면 사실상 Beta와 A, B, C, D, E, F가 사실상 같은 내용을 담은 변수가 아닙니까?

6) 독립 변수 간의 다중공선성 문제는 없습니까? (지금 독립변수 간 상관은 좀 높은 편입니다. 심리학 자료의 경우엔 .85 미만이면 구조방정식모형으로 어떻게든 계산해 낼 수 있습니다만, 아무래도 좀 높습니다.)

이러한 문제에 답할 수 있어야 상담을 할 수 있을 것 같습니다.


--
배성호 배상
심리학 석사

통계상담_한남대권세혁교수

unread,
Oct 19, 2014, 8:44:51 PM10/19/14
to ping_w...@googlegroups.com
답변이 늦어 미안합니다.

1)종속변수를 가장 많이 설명하는 설명변수부터 선택하는 forwarding 방법은 설명변수들간 상관관계의 대표주자를 먼저 선택하는 것이 아니라  종속변수와 상관관계가 가장 높은 것을 선택합니다.  그 다음 선택 변수는 이미 선택된 설명변수가 종속변수를 설명하고 남은 부분에 대한 부분에 대한 설명력이 가장 높은 설명변수가 선택됩니다. 그러므로 masking 그런 개념은 아닙니다.
2)유의한 변수선택은 설명변수간의 상관관계의 크기가 아니라 종속변수와 설명변수의 상관관계에 의해 선택됩니다. 
3)결정계수(설명력)가 모형 선택의 중요지표가 되는 것은 종속변수의 값을 추정할 때입니다. 그리고 결정계수는 설명변수의 개수가 많아지면 무조건 증가하는 약점이 있어 수정된 결정계수를 사용합니다.그리고 다중공선성(설명변수 간의 높은 상관 관계로 인하여 회귀계수 추정을 왜곡하는 문제)에 취역합니다.

일반적으로 연구논문의 회귀분석은 다음 과정을 거치는게 좋습니다.

1) (종속변수와 설명변수들 상관관계)분석 - 종속변수와 설명변수의 상관계수 부호와 유의성에 집중
2) 변수선택 - (반드시 들어가여 할 설명변수가 있다면 include 옵션 사용하여 반드시 선택되도록) - stepwise 권장
 - 결정계수를 최대화 하는 모형을 찾으려면 SAS에서 변수선택 옵션을 adjrq 사용
3) 선택된 변수의 회귀계수 부호를 점검 - 만약 회귀계수의 부호와 상관계수의 부호가 다르면  다중공선성 진단
4) 최종모형 해석

BEST Wishes,

Reply all
Reply to author
Forward
0 new messages