결정계수에 대해서 질문드립니다.

1,881 views
Skip to first unread message

Joonki Ho

unread,
Nov 21, 2013, 3:07:33 AM11/21/13
to ping_w...@googlegroups.com

안녕하세요 교수님,

현재 서울소재 4년제 대학에서 석사과정을 밟고있는 학생입니다.
여러 블로그를 돌아다니면서 결정계수에 대하여 알아보고자 노력하다가 교수님의 홈페이지를 방문하게 되었습니다.

다름이 아니오라 결정계수에 대하여 의문점이 생겨 질문을 드립니다.
제 연구테마는 인공신경망과 회귀분석을 통해서 특정한 값을 추정해내고, 이 추정값들이 실제 측정한 값과 얼마나 유사한지에 대하여 연구하고 있습니다.
이 유사한 정도를 표기하기 위하여 많은 학술지 논문에서 결정계수를 주요 지표로 사용하고 있는 것도 확인했습니다.

그러나 결정계수만으로는 정확도를 판단하기 어렵다, 라는 말을 누군가에게(잘 기억이 나지 않습니다만..) 듣고서
그 근거를 학위논문에 기술하고 싶은데 실질적으로 그 근거를 찾는데 어려움이 따랐습니다.
하여 그 답을 찾으려 어려 블로그를 보고 논문을 뒤져보았으나 '명백한' 사유에 해당하는 것을 찾지 못하였습니다.
교수님의 홈페이지를 방문한 것도 한 블로거의 페이지에 댓글을 남겨주었더니 교수님의 홈페이지를 알려주게 되었고,
그 속에 있는 무료(^^;) 컨설팅에 이렇게 글을 남깁니다.

왜 결정계수만으로는 그 추정값의 정확도를 판단하기 어려운가에 대한 이유를 알고싶습니다.
혹여 참고할만한 문헌이나 논문을 말씀해주실수 있으신지요?
답변 기다리겠습니다.

호준기 드림.


아래의 그림은 제가 그려본 그림의 일부입니다.

회귀식이 옳지 않거나, 특정한 독립변수에 다양한 종속변수가 존재하여 아래의 가공된 자료와 같이 항상 과소하게 예측이되어도

그 경향성이 강하면 결정계수가 높기 때문에, 결정계수가 높아도 이것만이 판단기준이 되어선 안된다고 하는지요?

생각하면 생각할수록 어려운 부분인것 같습니다..


교수님의 고견 기다리겠습니다 !


Seongho Bae

unread,
Nov 23, 2013, 5:28:50 PM11/23/13
to ping_w...@googlegroups.com
제가 교수는 아닙니다만.... 그냥 아는 만큼만 달아봅니다. 틀린 설명도 있을 수는 있습니다.

회귀분석에서의 R-square는 여러 예측변수들이 종속변수를 설명하는 설명 분산을 뜻합니다. 구조방정식모형을 쓰지 않을 시절에는 R-square 값과 Model의 ANOVA 분석 결과가 중요하였습니다. ANOVA가 중요한 이유는 논문을 찾을 필요도 없이, 예측 변수 중 하나는 종속변인을 설명할 수 있다는 정보를 주기 때문입니다. 아무래도 지금 ANOVA 결과 표를 아예 간과하고 계신 것은 아닌가 생각을 합니다.

그림에 나타난 예측변수와 종속변수, 그리고 조절변수?가 무엇인지는 알 수 없으나, 기울기가 어떻게 되었든지간에 개별 예측변수가 종속변수 간 semi-partial correlation(SPSS에서는 part로 표기되어 있습니다.)을 제곱한 후 그 개별 예측변수를 각기 제곱한 값의 합으로 이루어집니다. 그러니까, .829쯤 나오려면 연구자가 대단히 많은 변수를 집어 넣어야 하지 않았겠나 생각해 봅니다. 사실상 예측변수와 종속변수가 같은 정보를 주고 있는 건 아닌지요?

모형 간 비교는 AIC와 BIC 값을 참고하면 좀 편합니다. 저는 R을 쓰기 때문에 SPSS가 AIC와 BIC 값을 보여주는지는 잘 모릅니다만, 여러 모형을 만들어두고 그 중 AIC 값과 BIC 값이 상대적으로 0에 가까운 모형을 선택하면 되겠지요.

그런데 사실, 데이터가 내용이 뭔지 잘 모르겠네요. 인공신경망이라면 의사결정에 관한 것이어서 아마도 인공 신경망이 기존 OLS 회귀분석과 비교해 얼마나 정확하게 분류 혹은 예측하는지를 실험하는 것인가 싶기도 하고요. 

변수 간 관계성이 항상 선형일 것이라는 생각은 일찌감치 버려 두는 것이 좋습니다. 자료 특성(정상분포, Q-Q Plot 등)을 잘 검토해 볼 필요가 있습니다.

--
배성호 배상
광운대학교 대학원 산업심리학과 인사심리 연구실

통계상담_한남대권세혁교수

unread,
Nov 25, 2013, 7:38:24 PM11/25/13
to ping_w...@googlegroups.com
대신 답변주신 분께 감사,
 
저는 다른 측면에서 결정계수의 한계를 논하겠습니다.
 
결정계수는 종속변수의 변동을 모형에 있는 설명변수가 얼마나 설명하느냐 입니다.
종속변수의 변동이란 종속변수의 관측값들이 평균을 중심으로 벗어나는 정도를 나타내는 값입니다. 그러므로 종속변수 값이 어느 개체는 12, 어느 개체는 21,... 왜 이렇게 평균(중심)으로부터 벗어나는 이유를 설명변수들의 모형화를 통하여 설명하는 것입니다. 그래서 결정계수는 (설명변동)/(총변동)으로 계산합니다. 분산분석의 경우 종속변수 관측값의 변동은 설명변수(처리효과)= 집단 간 평균 차이로 설명하게 되어 결정계수 값이 매우 낮습니다. 회귀분석의 경우 회귀모형변동이 설명변동이 됩니다.
 
이제, 회귀모형에  한정하여 설명하겠습니다. 
 
(1) 단순회귀의 경우 상관계수의 제곱이 결정계수입니다. 상관계수는 관측치가 커지면 값도 커지는 경향이 있습니다. 동일한 데이터를 2번 붙여 넣고 상관계수를 구하면 1번 데이터와 동일한 상관계수 값을 가지는 것이 아니라 커지게 됩니다. 하물며 상관계수의 유의성까지 변하게 됩니다. 이것이 결정계수가 모형 적합성 지표로 될 수 없는 이유입니다.
(2) 결정계수는 검정통계량이 아닙니다. 검정통계량이 아니므로 유의성 검정을 하지 못합니다. 즉, 적합도가 높다(유의하다)? 낮다? 이런 식의 결론을 내리지 못합니다.
(3) 하여, 측정형 자료의 경우 상관계수가 0.8 이상이면 상관관계가 매우 높다고 합니다. 이의 제곱이면 64%=> 이를 높여 70% 결정계수이면 종속변수를 충분히 설명하는 설명변수들을 선택하였다고 합니다. 
(4) 결론적으로 결정계수는 모형 적합도를 나타내는 값이지만 절대적인 수치로 활용될 수 없습니다. 모형 적합성에 대하여 AIC, SBC 등도 사용되지만 동일한 이유도 절대 지표로 활용되지는 못합니다.
 
한계만 적게 되었습니다. 결론적으로 회귀모형은 "선형적" 관계가 있다. 없다를 판단하게 됩니다. 결정계수는 "선형관계"의 적합정도를 나타내므로 다른 함수 형태가 더 적합할 수 있습니다. 그래서 산점도를 그려보고, 잔차분석을 실시하여 선형이 가장 적합한지 알아보는 것이 더 중요합니다.
 
Best wishes,  

Joonki Ho

unread,
Dec 2, 2013, 7:39:11 PM12/2/13
to ping_w...@googlegroups.com
답변에 깊은 감사를 드립니다.
논문쓰는데 많은 도움이 되었습니다.

Joonki Ho

unread,
Dec 2, 2013, 7:39:40 PM12/2/13
to ping_w...@googlegroups.com
답변에 감사드립니다.
Reply all
Reply to author
Forward
0 new messages