ID | 독립변수 | 1st part | 2nd part | |||||
종속변수 1 | 종속변수 2 | |||||||
| 성 | 연령 | 내원 시간 | 내원 수단 | 암질환여부 | 정신질환여부 | (1회:0, 2회이상:1) | 방문횟수 |
001 | 남 | 72 | 23시 | 응급차 | No | No | 1 | 3 |
001 | 남 | 72 | 17시 | 도보 | YES | Yes | 1 | 3 |
001 | 남 | 72 | 12시 | 도보 | YES | No | 1 | 3 |
002 | 여 | 29 | 13시 | 헬기 | No | Yes | 0 | 1 |
003 | 여 | 56 | 23시 | 헬기 | No | Yes | 1 | 5 |
003 | 여 | 56 | 21시 | 응급차 | No | No | 1 | 5 |
003 | 여 | 56 | 20시 | 도보 | YES | Yes | 1 | 5 |
003 | 여 | 56 | 07시 | 응급차 | No | No | 1 | 5 |
003 | 여 | 56 | 06시 | 응급차 | No | Yes | 1 | 5 |
004 | 남 | 43 | 12시 | 도보 | No | No | 1 | 2 |
004 | 남 | 43 | 13시 | 도보 | No | Yes | 1 | 2 |
005 | 여 | 61 | 17시 | 응급차 | YES | Yes | 1 | 4 |
005 | 여 | 61 | 18시 | 응급차 | YES | No | 1 | 4 |
005 | 여 | 61 | 10시 | 응급차 | No | Yes | 1 | 4 |
005 | 여 | 61 | 10시 | 도보 | No | Yes | 1 | 4 |
006 | 남 | 14 | 22시 | 도보 | YES | No | 0 | 1 |
. . . | . . . | . . . | . . . | . . . | . . . |
| . . . | . . . |
1년 동안 응급의료기관을 이용한 사람들의 코딩 자료현황입니다. 어떤 특성을 가진 사람들이 응급의료기관을 많이 이용하려고 하는지를 보려고 합니다. 사람(ID)별로 1년 동안의 방문건수가 다양합니다. 예를 들어 ID가 001인 사람은 1년 동안 3번을 방문했습니다. 성과 연령은 방문시마다 동일하지만 내원시간, 내원수단, 암질환 여부, 정신질환 여부 등의 변수는 방문 시 마다 상이합니다. 참고로 연령과 내원시간은 실제 분석에서는 범주화 하였습니다. 분석단위를 사람단위로 변환하여 분석할까도 했는데 이 경우 내원시간, 내원수단, 암질환 여부, 정신질환 여부는 방문건마다 달라 정의하기가 어려웠습니다. 그래서 건단위로 분석하고 대신 반복측정을 이용하고, Two-part 모델을 응용하여 분석하려고 합니다.
1) 1) 1st part에서는 1년 동안 1회 이용한 사람(0)과 2회 이상 이용한 사람(1)을 구분하여 로지스틱 회귀분석을 실시하려고 하고 다음과 같이 구성했습니다.
proc genmod data=응급 descending;
class ID 성 연령 내원시간 내원수단 암질환여부 정신질환여부;
model 종속변수1=성 연령 내원시간 내원수단 암질환여부 정신질환여부/dist=binomial link=logit type3;
repeated subject=ID / corr=unstr;
run;
2) 2nd part에서는 1회 이용한 사람은 제거하고(즉, 종속변수1이 0인 사람은 제거) 2회 이상 이용한 사람만 선택하여 음이항회귀분석을 실시하려고 하고 다음과 같이 구성했습니다.
proc genmod data=응급;
class ID 성 연령 내원시간 내원수단 암질환여부 정신질환여부;
model 종속변수2=성 연령 내원시간 내원수단 암질환여부 정신질환여부/link=log type3 dist=negbin;
repeated subject=ID / sorted type=unstr;
run;
잘 구성한게 맞는지 확신이 서지 않습니다. 교수님의 고견을 부탁드리겠습니다. 감사합니다.
ID