proc genmod 관련 질문드립니다.

leeju...@gmail.com

unread,

Aug 16, 2017, 5:33:50 AM8/16/17

to 통계상담Q&A그룹 : 한남대학교 권세혁교수

ID	독립변수						1st part	2nd part
ID	독립변수						종속변수 1	종속변수 2
	성	연령	내원 시간	내원 수단	암질환여부	정신질환여부	(1회:0, 2회이상:1)	방문횟수
001	남	72	23시	응급차	No	No	1	3
001	남	72	17시	도보	YES	Yes	1	3
001	남	72	12시	도보	YES	No	1	3
002	여	29	13시	헬기	No	Yes	0	1
003	여	56	23시	헬기	No	Yes	1	5
003	여	56	21시	응급차	No	No	1	5
003	여	56	20시	도보	YES	Yes	1	5
003	여	56	07시	응급차	No	No	1	5
003	여	56	06시	응급차	No	Yes	1	5
004	남	43	12시	도보	No	No	1	2
004	남	43	13시	도보	No	Yes	1	2
005	여	61	17시	응급차	YES	Yes	1	4
005	여	61	18시	응급차	YES	No	1	4
005	여	61	10시	응급차	No	Yes	1	4
005	여	61	10시	도보	No	Yes	1	4
006	남	14	22시	도보	YES	No	0	1
. . .	. . .	. . .	. . .	. . .	. . .		. . .	. . .

1년 동안 응급의료기관을 이용한 사람들의 코딩 자료현황입니다. 어떤 특성을 가진 사람들이 응급의료기관을 많이 이용하려고 하는지를 보려고 합니다. 사람(ID)별로 1년 동안의 방문건수가 다양합니다. 예를 들어 ID가 001인 사람은 1년 동안 3번을 방문했습니다. 성과 연령은 방문시마다 동일하지만 내원시간, 내원수단, 암질환 여부, 정신질환 여부 등의 변수는 방문 시 마다 상이합니다. 참고로 연령과 내원시간은 실제 분석에서는 범주화 하였습니다. 분석단위를 사람단위로 변환하여 분석할까도 했는데 이 경우 내원시간, 내원수단, 암질환 여부, 정신질환 여부는 방문건마다 달라 정의하기가 어려웠습니다. 그래서 건단위로 분석하고 대신 반복측정을 이용하고, Two-part 모델을 응용하여 분석하려고 합니다.

1) 1) 1st part에서는 1년 동안 1회 이용한 사람(0)과 2회 이상 이용한 사람(1)을 구분하여 로지스틱 회귀분석을 실시하려고 하고 다음과 같이 구성했습니다.

proc genmod data=응급 descending;

class ID 성 연령 내원시간 내원수단 암질환여부 정신질환여부;

model 종속변수1=성 연령 내원시간 내원수단 암질환여부 정신질환여부/dist=binomial link=logit type3;

repeated subject=ID / corr=unstr;

run;

2) 2nd part에서는 1회 이용한 사람은 제거하고(즉, 종속변수1이 0인 사람은 제거) 2회 이상 이용한 사람만 선택하여 음이항회귀분석을 실시하려고 하고 다음과 같이 구성했습니다.

proc genmod data=응급;

class ID 성 연령 내원시간 내원수단 암질환여부 정신질환여부;

model 종속변수2=성 연령 내원시간 내원수단 암질환여부 정신질환여부/link=log type3 dist=negbin;

repeated subject=ID / sorted type=unstr;

run;

잘 구성한게 맞는지 확신이 서지 않습니다. 교수님의 고견을 부탁드리겠습니다. 감사합니다.

wolf...@hnu.kr

unread,

Aug 16, 2017, 6:12:39 AM8/16/17

to 통계상담Q&A그룹 : 한남대학교 권세혁교수

하려는 분석과 프로그램은 일치합니다.

단지 수정할 부분이 있다면, 방문회수에 대한 분석(part 2)에서

분포 dist는 negbin 음이항분포가 아니라 poisson 분포를 사용하는 것이 적절해 보입니다.

방문 회수는 포아송분포를 따를 가능성이 높습니다.

음이항분포는 성공(방문)까지 시도하는 실험(실패) 회수이므로

방문까지 시도하는 예약 회수인 경우 음이항분포로 해야겠지만,

best wishes,

leeju...@gmail.com

unread,

Aug 16, 2017, 9:48:15 PM8/16/17

to 통계상담Q&A그룹 : 한남대학교 권세혁교수

교수님~ 친절하게 답변주셔서 정말 감사드립니다~

조언 주신 방법으로 다시 분석해 보겠습니다.

그리고 한가지 더 여쭤봐도 될지 모르겠습니다.

GENMOD 옵션에 보면 AR, EXCH, IND, UNSTR 등이 있는데 서로 어떻게 다른지를 잘 모르겠습니다.

제 데이터의 경우에는 어떤 옵션이 맞을지가 의문입니다.

감사합니다.

2017년 8월 16일 수요일 오후 6시 33분 50초 UTC+9, leeju...@gmail.com 님의 말:

wolf...@hnu.kr

unread,

Aug 17, 2017, 7:10:35 PM8/17/17

to 통계상담Q&A그룹 : 한남대학교 권세혁교수

AR, EXCH, IND, UNSTR 옵션은 종속변수의 상관계수 행렬 형식을 지정하는 것입니다. 환자(subject) 개념에서

종속변수가 이진형 변수, 포아송분포 변수이므로 디폴트 옵션인 독립(independent)을 사용하면 됩니다.

best wishes,

leeju...@gmail.com

unread,

Aug 18, 2017, 3:46:41 AM8/18/17

to 통계상담Q&A그룹 : 한남대학교 권세혁교수

아~ 그럼 첫번째 로지스틱 회귀분석이나 두번째 포아송 회귀분석 모두에서 옵션으로 unstr 대신에 ind를 쓰면 되겠군요? 감사합니다~

2017년 8월 18일 금요일 오전 8시 10분 35초 UTC+9, wolf...@hnu.kr 님의 말:

leeju...@gmail.com

unread,

Aug 31, 2017, 5:08:12 AM8/31/17

to 통계상담Q&A그룹 : 한남대학교 권세혁교수

교수님! 추가질문이 있어 답글을 달게 되었습니다. 1st part에서 로지스틱 회귀분석시 odds ratio estimate를 구하고 싶은데 genmod에서 특별한 옵션이 있는지 궁금합니다. 염치없이 자꾸 문의드려서 죄송합니다~

2017년 8월 16일 수요일 오후 6시 33분 50초 UTC+9, leeju...@gmail.com 님의 말: