상세 컨텐츠

본문 제목

이분산 Heteroscedasticity

코딩일기장/통계학

by Grip! 2021. 12. 23. 15:38

본문

1. 이분산이란

오차항 : 모집단에서 추정한 회귀식과 실제 값과의 차이

OLS 고전적 가정 : 오차항의 분산 크기가 모든 관찰치에 대해 동일함, 동분산

-> $$ V(\epsilon_{i})= \sigma^2$$

이분산은 위의 고전적 가정을 위배하고,

$$ V(\epsilon_{i})= \sigma_{i}^2$$가 성립한다.

 

2. 이분산 검정방법

1) White 이분산 검정방법

$$ Y_{i} = \beta_{1} + \beta_{2}X_{i} + \beta_{3}Z_{i} + epsilon_{i} $$

라는 모형에서

$$\sigma_{i}^2 = \alpha_{1} + \alpha_{2}X_{i} + \alpha_{3}Z_{i} + \alpha_{4}X_{i}^2 +\alpha_{5}Z_{i}^2+ \alpha_{6}X_{i}Z_{i} + \hat{u_{i}}$$

라는 보조회귀식을 도출하여

$$e_{i}^2 = a_{1} + a_{2}X_{i} + a_{3}Z_{i} + a_{4}X_{i}^2 +a_{5}Z_{i}^2+ a_{6}X_{i}Z_{i} + u_{i}$$

에서

$$ H_{0} : \alpha_{i}=0$$ 이라는 가설을 검정한다.

만약 모든 $$\alpha$$ 가 0이면 오차항의 분산은 X,Z의 영향을 받지 않으므로 동분산 가정이 성립하고,

귀무가설이 아니라면 이분산이다.

이때 통계치는 $$ nR^2 ~ \chi^2(k) $$고 , 임계치는 유의수준하에 자유도 k의 카이자승 분포값이다

만약 통계치> 임계치 라면 귀무가설을 기각한다. 즉, 이분산이 존재하는 것이다. 

 

2)Goldfeld-Quant Test

n개의 표본중 가운데 10~15% 의 표본 c개를 제외하고, 처음 n'=(n-c)/2개와 마지막 n'=(n-c)/2개의 샘플로 분리한다

귀무가설 $$ H_0  : s_1 = s_2 $$

그리고 각각에 대해 회귀분석을 실시해, $$F={RSS_{1}\over{RSS_{2}}}$$ 통계치를 구하여,

F 통계치가 $$ F(n'-k,n'-k,\alpha)$$보다 크다면 귀무가설 기각, 즉 이분산이 존재한다는 것이다.

한계 : 정확히 몇개의 표본을 제외해야할지 명확하지 않다.

 

3.이분산 해결방안

 

1)GLS

GLS는 이분산이 발생한 모집단 회귀식 양변을 $$\sigma_{i}$$로 나눠주는것이다.

$$ {Y_{i}\over{\sigma_{i}}} + \beta_{1} {1\over{\sigma_{i}}} + \beta_{2} {X_{i}\over{\sigma_{i}}} + {\epsilon_{i}\over{\sigma_{i}}} $$

이때 새로운 오차항 $$\epsilon_{i}^*={\epsilon_{i}\over{\sigma_{i}}}  $$의 분산은

$$ {1\over{\sigma_{i}^2}}V(\epsilon_{i})=1$$ 로 동일하다.

따라서 해당 변형식은 동분산 가정이 성립한다.

 

2) FGLS

그러나 일반적인 경우 오차항의 분산 $$\sigma_{i}^2$$ 값을 모르기 때문에

우리는 상황에 맞게 오차항의 분산 $$\sigma_{i}^2$$을 가정 혹은 추정한다

그 예로는

$$\sigma_{i}^2=\sigma^2X_{i}$$ (분산이 설명변수에 비례적일때)

$$\sigma_{i}^2=\sigma^2X_{i}^2$$ (분산이 설명변수 제곱에 비례적일때)

$$\sigma_{i}^2=\sigma^2(X_{i}^2  + Z_{i}^2)$$

혹은

$$\sigma_{i}^2=e_{i}^2$$ (White FGLS 추정방법)

첫번째의 경우를 가정한다면, 양변을 $$ \sqrt{X_{i}}={\sigma_{i}\over{\sigma}}$$로 나눠준다

$$ {Y_{i}\over{\sqrt{X_{i}} }} + \beta_{1} {1\over{\sqrt{X_{i}}}} + \beta_{2} {X_{i}\over{\sqrt{X_{i}}}} + {\epsilon_{i}\over{\sqrt{X_{i}}}} $$

 

이때 새로운 오차항의 분산 $$V({\epsilon_{i}\over{\sqrt{X_{i}}}})= {\sigma_{i}^2\over{X_{i}}} $$

$$={\sigma_{i}^2\over{\sigma_{i}^2\over{\sigma^2}  }} $$가 되어 동분산이 성립한다.

white estimator의 경우 $$e_{i}$$로 양변을 나누면 1의 동분산을 가지는 모집단 회귀식이 된다.

 

그러나

-> 모형에는 상수항이 존재하지 않아 잔차의 합, $$\sum e_{i} =0$$ 조건이 성립하지 않을수 있으므로

$$0<=R^2<1$$이 성립하지 않을 수 있다

-> 만약 본래 모형이 동분산이라면 오히려 $$V(\epsilon_{i}^*)={\sigma^2\over{X_{i}}}$$ 이분산이 발생하게된다

 

3) White 이분산 HC 표준오차법

분산이 설명변수와 어떤 관계를 가지는지 추정할 수 조차 없을 때가 있다.

 

$$\hat{V(b_{2})}= {\sum (X_{i}-\bar{X})^2 e_{i}^2 \over{(\sum (X_{i}-\bar{X})^2 ) ^2  }}$$

 

이때 해당 값은 강건성(Robustness)의 특징을 가진다.

 

'코딩일기장 > 통계학' 카테고리의 다른 글

Log-Linearization과 steady state  (374) 2021.12.29
자기상관 AutoCorrelation  (377) 2021.12.29
벡터자기회귀모형 Vector AutoRegression  (0) 2021.12.21
회귀분석 Attribute  (0) 2021.12.13
(n-1)s^2/sigma^2  (0) 2021.11.29

관련글 더보기

댓글 영역