안녕하세요?
베르누이 분포의 기반인 시행은 (0, 1)의 값은 확률 (1-p), p로 갖는 확률변수입니다.
(0, 1)만 나타나는 베르누이 분산(가질 수 있는 값들의 흩어진 정도)은 p(1-p)입니다.
평균이 p이므로, 0과 p의 거리 p, 1과 p의 거리 (1-p)를 이용합니다.
(분산의 의미는) 모든 확률분포에서 동일합니다.
사용하거나, 가정하는 분포에서 분산은 동일하게 정의되고 해석됩니다.
(예) 통계적 품질관리에서 분산은 품질의 역수입니다. 하여, 관측치가 정규분포를 가정하는 경우 공정도에서 구해지는 분산이 품질의 역수로 활용됨
-> 이것은 베르누이 분포이기 때문에 달라지는 것은 아님
(예) 경영학에서 분산은 위험입니다. 수익율을 로그 정규분포라 가정하면, 로그 정규분포로 부터 구해지는 분산은 그 투자 포트폴리오의 위험입니다.
분산 개념은 분포에 의존하지 않고 관측치의 흩어진 정도에 대한 척도입니다.
회귀분석에서 더비변수는 베르누이 분포를 따르는 확률변수가 아닙니다.
단지 집단을 구별하는 (결정)설명변수입니다. 결정변수라 함은 확률분포가 아닙니다. (예) 성별->취업율(Y) 영향, 성별은 더미변수로 입력됨
회귀분석에서는 설명변수는 결정변수(확률변수가 아님, 물론 이를 확률변수로 가정하는 모형도 있음)입니다.
도움이 되었기를... Best wishes,
2019년 10월 23일 수요일 오후 8시 16분 16초 UTC+9, 성균관대학교민동녘 님의 말: