다중회귀분석 질문드립니다.

226 views
Skip to first unread message

Lee Seoro

unread,
Jul 24, 2017, 9:29:35 PM7/24/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수

안녕하세요. 권세혁 교수님

비록 한남대학교에 재학했던 학생은 아니지만...

통계 쪽에 관심이 있어 늦게나마 공부하게 됬는데 구글에서 교수님의 상담들 보면서

많은 도움이 됬습니다.

다름이 아니라 SPSS를 통해 다중회귀분석을 진행하는데 궁금한 점이 생겨서 문의드립니다.




 

그룹 A,B,C 각각 독립변수(X1,X2,X3,X4) 와 종속변수(Y) 가 다르지만 그룹 A를 보시면 독립변수(X1,X2,X3)가 동일합니다. 그룹 B,C 도 마찬가지로 독립변수(X4)를 제외하고 독립변수(X1,X2,X3)가 동일합니다. 이런 경우에 그룹(A,B,C) 전체 대상으로 다중회귀방식으로 하나의 식을 뽑았을 때 유의한 식이 될지 의문입니다.. 


다중회귀분석 전에 독립변수와 종속변수 상관분석 그래프를 그리면 독립변수는 동일한데 종속변수가 달라지니 독립변수(X1,X2,X3)와 종속변수(Y) 그래프를 각각 분석하면 결정계수도 낮고 포인트도 동일한 라인에 나타나기에 일반적인 그래프랑은 다르게 나오기 때문입니다..





, 종속변수는 변화하는데 독립변수가 동일한 값들로 이루어질 때 이러한 관계를 갖는 변수들을 통해서 만들어진 회귀식이 의미가 있는지 궁금합니다. 만약 아무 이상이 없다면 일반적인 SPSS내에 있는 다중회귀분석을 통해 해도 상관없는 것인가요 ?


감사합니다.

통계상담_한남대권세혁교수

unread,
Jul 27, 2017, 10:25:38 PM7/27/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
다중 회귀분석이 아닙니다.
 (X1, X2, X3)는 그룹 A, B, C 를 결정하는 범주입니다.
하여 종속변수 Y, 그룹 요인(수준 A, B, C) 1개, 그리고 측정형 변수 1개, X4인 일반선형모형입니다.

SPSS에서 잉ㅅㅇ할 때 일반선형모형에서 하면 됩니다.

Best wishes,


2017년 7월 25일 화요일 오전 10시 29분 35초 UTC+9, Lee Seoro 님의 말:

Lee Seoro

unread,
Jul 28, 2017, 12:42:01 AM7/28/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
권세혁 교수님 답변 감사드립니다. 

한가지 더 여쭤봐도 될까요.

1. 물론 X4 독립변수만 수치적으로 변화하지만 X1~X3도 각각 독립변수이기에 저 표에 나온 데이터를 그대로 사용하여 식을 도출하면 그것이 여러개의 독립변수를 사용하였으니 다중회귀분석이 될 수도 있는거아닌가요.?  그룹마다 X1,X2,X3 변수가 동일하니 독립변수가 아닌 그룹변수이기때문에 다중회귀분석이 안되는건가요..? 만일 다중회귀분석으로 하고싶다면 X4 이외의 변화하는 변수가 추가적으로 더 있어야하는 건가요?


2. 저의 최종 목적은 식을 도출하기 위해 사용한 데이터 이외의 임의 X1~X4 각 수치를 알고있다면 이에 맞는 종속변수 Y값을 예측하고 싶습니다. 
예를 들면 X1= 5, X2=60, X3=7, X4=0.05 데이터가 존재한다면 이를 통해 종속변수 어떠한 Y값을 예측하고 싶습니다. 

2017년 7월 28일 금요일 오전 11시 25분 38초 UTC+9, 통계상담_한남대권세혁교수 님의 말:

wolf...@hnu.kr

unread,
Jul 28, 2017, 3:17:22 AM7/28/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수

(X1, 2, X3)의 값은 그룹 a, b, c에 의해 고정된 값입니다. 
그러므로 실험 조건과 같은 것입니다.
(X1, 2, X3) 다른 값을 넣는 것은 실험 조건을 달리하는 것이고
이에 대한 반응값(종속변수 측정 값)이 없어 불가능합니다.
단지 X4값은 측정형이므로 조사된 값 이외 값을 넣고 예측값을 추정할 수 있습니다.
그 것도 조사된 X4 값의 범위 안에 있는 값만 가능합니다. (0.001, 0.042)


2017년 7월 25일 화요일 오전 10시 29분 35초 UTC+9, Lee Seoro 님의 말:

안녕하세요. 권세혁 교수님

Lee Seoro

unread,
Jul 28, 2017, 4:30:31 AM7/28/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
감사합니다. 권세혁 교수님 

예시로 , 그룹을 A~C 3개만 표에 제시하였는데요 .사실상 그룹은 30개 이상 정도 존재합니다. 단, 그룹 A~C 처럼 X1~X3(범주형 변수)은 각 그룹을 대표하는 특성이라 변하지 않으며 X4(측정형 변수)만 변합니다. 

제가 궁금한 점이 있습니다. 각 그룹내에 있는  X4변수만 변하며 X1~X3(범주형 변수)는 동일하지만 총 30개 이상의 그룹 데이터를 본다면 통계적으로 임의에 X1~X4 변수에 대한 Y(종속 변수) 값을 예측할 수 없을까요 ? 

머릿속으로는  A1~A30 그룹 데이터를 이용하여 다중회귀식을 도출하고 임의에 X1~X4에 대한 Y값을 A1~A30 그룹 내 데이터 경향을 통해 예측하고자 했습니다.  임의에 X1~X4 수치가 A1~A30 그룹 내 데이터와 비슷하여도 Y값을 예측하는데 의미가 없는 것일까요? 

X1~X4에 대한 회귀식을 도출하여 논문에 이용하고자 했는데 문제가 생겨버렸네요... 

통계적 접근으로 처음 해보는 연구라 미흡한 점이 많지만 권세혁 교수님의 상담글을 통해 많은 것을 배우고 있습니다.

글이 정황이 없었습니다. 머릿속으로 그린 것들을 말로 표현하는 것이 참 어렵기는 하네요 ...ㅎㅎ

금요일 즐거운 하루되시고 좋은 주말 되세요~!


2017년 7월 28일 금요일 오후 4시 17분 22초 UTC+9, wolf...@hnu.kr 님의 말:

Seongho Bae

unread,
Aug 4, 2017, 2:03:55 AM8/4/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
마치 random slope effect를 보는 듯 하네요. A-Z +@ 그룹이 있고 그에 따른 그룹 별 어떤 식의 상수가 X1-X3이라면... 

y = b_00+ b_0iX_j+e , e ~ N(0,1), i 1 to 3, j 1 to 3
b_0i = \gamma_0i + \gamma_1i*X4 + u, u ~ N(0,1)

그런데 일반화추정방정식을 이용해도 원하시는 결과를 얻을 수는 있는지는 불확실합니다. e와 u, 그리고 b_00에 대한 추정 가능성 문제가 있거든요.

배성호
PsyD candidate in Work psychology for large-scale assessment and measurement in high-stake personnel decisions

2017년 7월 28일 금요일 오후 5시 30분 31초 UTC+9, Lee Seoro 님의 말:

Lee Seoro

unread,
Aug 4, 2017, 2:47:04 AM8/4/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
배성호 연구원님 답변 감사드립니다.

random slope effect 에 대해 처음 들어보는 용어라 , ㅎㅎ 찾아봤는데 Linear Mixed-Effect model 이라해서 선형혼합모형인가요?

그룹별 고정된 변수와 랜덤변수를 이용하여 식을 만들어내는 것 같은데 복잡해보여서 큰일이네요 ㅎㅎ

선형혼합모형에 관해 더 찾아봐서 식을 만들 수 있을지 공부좀 해봐야겠습니다.. ㅎㅎ좋은 정보 감사드립니다.

오늘도 좋은 하루 되세요^^


Seongho Bae

unread,
Aug 4, 2017, 6:24:04 AM8/4/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
그냥 ANCOVA 같은 겁니다.

y = 상수 + 기울기 * 예측변수(X4) + (집단 상수 + X1 + X2 + X3 | 집단 이름)

학교 같은 경우 학교에 재학중인 학생의 성적이 다 다르지만 X1, X2, X3 값이 한 학교에는 배속돼 있으므로(nested structure) 집단 내 X1 ~ X3는 모두 같은 값을 가질 수도 있습니다.

배성호
광운대학교 산업심리학과

2017년 8월 4일 금요일 오후 3시 47분 4초 UTC+9, Lee Seoro 님의 말:

Lee Seoro

unread,
Aug 4, 2017, 7:10:59 AM8/4/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수

감사합니다. 배성호 연구원님

그런데 아까 연구원님께서도 말씀하셨듯이 과연 이러한 방법으로 만들어진 회귀식을 통해 임의에 X1~X4에 대한 Y값을 예측하기에는 어려움이 있을까요..?

 제 목적은 예를 들면 서울에 있는 학교 집단이 있는데 이 집단들의 데이터를 통해서 회귀식을 도출했으면 부산에 있는 학교 집단의 X1~X4 데이터를 가지고는 사용을 못하는 것인가요?

고정된 식 형태인지는 제가 아직 많이 들여다보지못해서 확인이 되지 않았지만 연구원님께서 말씀해주신 식만 봐도 집단 이름이라는 것이 들어가는데 회귀식 도출에 사용했던 집단이 아닌 별개의 집단의 데이터를 가지고 있다면 식을 이용하지 못하는 것 아닌가요!?

y = 상수 + 기울기 * 예측변수(X4) + (집단 상수 + X1 + X2 + X3 | 집단 이름) 

이렇게 계속 질문드려 죄송합니다...

그래도 권세혁 교수님, 배성호 연구원님 덕분에 많은 것을 알고 배워갑니다. 감사합니다.


 

Seongho Bae

unread,
Aug 4, 2017, 9:42:36 AM8/4/17
to 통계상담Q&A그룹 : 한남대학교 권세혁교수
만약 X4가 심리검사 관련 점수이고, y가 성적이라면 가능하지 않습니다. 애초에 샘플링이 부산까지 돼 있어야 뭔가 얘기할 수 있는 상황입니다.

일단 서울로만 샘플링한 결과라면 서울의 모집단을 대표하는 샘플링이기 때문에 부산까지 적용하는 건 무리가 있습니다. 만약 fixed effect에 관심이 있다 하더라도 범위 제약 현상(range restriction), 계수 축소 현상(shrinkage)이 나타났을 것으로 추정할 수 있는 상황이 생길 수도 있습니다.

그리고 X1부터 X3는 사실 집단의 '맥락'을 반영해주는 제약 변수입니다. 저 X1부터 X3이 부산과 서울이 동질하다는 보장도 없고 비교가 가능한지조차 모른다면 무립니다.

추가적으로 X1부터 X3가 모두 심리검사 점수라면... 상황은 더 심각해져서 검사 동등화 개념까지 가야 합니다. 

배성호

2017년 8월 4일 금요일 오후 8시 10분 59초 UTC+9, Lee Seoro 님의 말:
Reply all
Reply to author
Forward
0 new messages