권세혁 교수님께.
교수님, 안녕하세요, 회귀분석 결과와 관련하여 어떻게 해석하는 것이 좋을지 몰라서 이렇게 게시판에 글을 남김니다.
제가 지금 분석한 사항은 Beta와 ENSB라고 하는 다양성 지수를 설명할 수 있는 인자로 간단하게 A, B, C, D, E, F라고 하는 6개의 설명변수를 사용하여 단순회귀분석(OLS)와 forward stepwise multiple regression(전진선택 다중회귀분석)을 SPSS를 통해 수행한 결과입니다.
우선, 첫 번째로 설명인자 사이의 상관관계 표는 아래와 같습니다(별표로 표시된 것은 모두 p<0.01).
A B C D E F
A -0.21 0.55* -0.76* 0.63* 0.53*
B 0.30 0.73* -0.16 -0.65*
C -0.05 0.15 0.07
D -0.62* -0.74*
E 0.20
두 번째로 Beta와 ENSB의 단순 회귀 분석 결과(R-square 값)를 보시면 아래와 같습니다.
A B C D E F
Beta 0.65* 0.31* 0.16 0.81* 0.36* 0.42*
ENSB 0.52* 0.14 0.43* 0.40* 0.10 0.28*
그런데, 6개의 변수를 가지고 forward stepwise multiple regression을 돌렸을 때,
Beta = 0.292 - 0.022 C + 0.0002 D (F=89.29, R2=0.93, P<0.001)
ENSB = 20.215 - 5.988 A (F=15.46, R2=0.53, P=0.002)
위와 같은 결과를 얻었습니다. ENSB의 경우, A와 다른 변수들의 상관관계가 높아서, forward stepwise multiple regression 시에 A의 설명력이 가장 높기 때문에 다른 변수들의 효과가 masking 된 것으로 보고 있습니다(이렇게 해석하는 것도 맞는 것인지요??).
하지만, Beta의 경우에 단순회귀 분석에서 전혀 유의성이 없던 변수가 다중회귀 분석에서 포함되었습니다. 이러한 것이 가능한 것인지요?
실제로 SPSS 분석 결과에는 2개의 모형이 제안되었습니다. 첫번째는 D만 제시된 것이고(R2=0.81), 두번째 모형이 제가 사용하고자 하는 C와 D가 동시에 제시된 모형입니다(R2=0.93). 저는 첫번째 모형보다 두 번째 모형을 사용하는 것이 전체적인 제 논문의 설득력을 높이는데 유리하여 본 모형을 택하게 되었습니다.
제가 개인적으로 판단하기로는 C를 제외한 다른 변수들 사이에는 상관관계가 높아서, Beta를 설명하기 위한 변수로 다중회귀분석을 수행할 때, 단순회귀 분석에서 설명력이 가장 높은 D가 선정이 되었고, C의 경우, D와는 상관관계가 없는 변수로 모형의 설명력을 더 높이기 위해 추출된 것으로 보고 있는데요. 이렇게 해석하는 것이 맞는지 궁금하여 이렇게 게시판에 글을 올립니다.
제가 모르는 부분도 많고, 아직도 모르는 부분이 많지만, 교수님께서 이러한 무료 상담 게시판을 운영해 주셔서 저같이 통계학을 잘 모르는 사람들에게는 얼마나 많은 도움이 되는지 모릅니다. 너무나 감사드립니다.
즐거운 한 주 되시구요, 답변 좀 부탁드립니다. 감사합니다.