오차항 : 모집단에서 추정한 회귀식과 실제 값과의 차이
OLS 고전적 가정 : 오차항의 분산 크기가 모든 관찰치에 대해 동일함, 동분산
-> $$ V(\epsilon_{i})= \sigma^2$$
이분산은 위의 고전적 가정을 위배하고,
$$ V(\epsilon_{i})= \sigma_{i}^2$$가 성립한다.
$$ Y_{i} = \beta_{1} + \beta_{2}X_{i} + \beta_{3}Z_{i} + epsilon_{i} $$
라는 모형에서
$$\sigma_{i}^2 = \alpha_{1} + \alpha_{2}X_{i} + \alpha_{3}Z_{i} + \alpha_{4}X_{i}^2 +\alpha_{5}Z_{i}^2+ \alpha_{6}X_{i}Z_{i} + \hat{u_{i}}$$
라는 보조회귀식을 도출하여
$$e_{i}^2 = a_{1} + a_{2}X_{i} + a_{3}Z_{i} + a_{4}X_{i}^2 +a_{5}Z_{i}^2+ a_{6}X_{i}Z_{i} + u_{i}$$
에서
$$ H_{0} : \alpha_{i}=0$$ 이라는 가설을 검정한다.
만약 모든 $$\alpha$$ 가 0이면 오차항의 분산은 X,Z의 영향을 받지 않으므로 동분산 가정이 성립하고,
귀무가설이 아니라면 이분산이다.
이때 통계치는 $$ nR^2 ~ \chi^2(k) $$고 , 임계치는 유의수준하에 자유도 k의 카이자승 분포값이다
만약 통계치> 임계치 라면 귀무가설을 기각한다. 즉, 이분산이 존재하는 것이다.
n개의 표본중 가운데 10~15% 의 표본 c개를 제외하고, 처음 n'=(n-c)/2개와 마지막 n'=(n-c)/2개의 샘플로 분리한다
귀무가설 $$ H_0 : s_1 = s_2 $$
그리고 각각에 대해 회귀분석을 실시해, $$F={RSS_{1}\over{RSS_{2}}}$$ 통계치를 구하여,
F 통계치가 $$ F(n'-k,n'-k,\alpha)$$보다 크다면 귀무가설 기각, 즉 이분산이 존재한다는 것이다.
한계 : 정확히 몇개의 표본을 제외해야할지 명확하지 않다.
GLS는 이분산이 발생한 모집단 회귀식 양변을 $$\sigma_{i}$$로 나눠주는것이다.
$$ {Y_{i}\over{\sigma_{i}}} + \beta_{1} {1\over{\sigma_{i}}} + \beta_{2} {X_{i}\over{\sigma_{i}}} + {\epsilon_{i}\over{\sigma_{i}}} $$
이때 새로운 오차항 $$\epsilon_{i}^*={\epsilon_{i}\over{\sigma_{i}}} $$의 분산은
$$ {1\over{\sigma_{i}^2}}V(\epsilon_{i})=1$$ 로 동일하다.
따라서 해당 변형식은 동분산 가정이 성립한다.
그러나 일반적인 경우 오차항의 분산 $$\sigma_{i}^2$$ 값을 모르기 때문에
우리는 상황에 맞게 오차항의 분산 $$\sigma_{i}^2$$을 가정 혹은 추정한다
그 예로는
$$\sigma_{i}^2=\sigma^2X_{i}$$ (분산이 설명변수에 비례적일때)
$$\sigma_{i}^2=\sigma^2X_{i}^2$$ (분산이 설명변수 제곱에 비례적일때)
$$\sigma_{i}^2=\sigma^2(X_{i}^2 + Z_{i}^2)$$
혹은
$$\sigma_{i}^2=e_{i}^2$$ (White FGLS 추정방법)
첫번째의 경우를 가정한다면, 양변을 $$ \sqrt{X_{i}}={\sigma_{i}\over{\sigma}}$$로 나눠준다
$$ {Y_{i}\over{\sqrt{X_{i}} }} + \beta_{1} {1\over{\sqrt{X_{i}}}} + \beta_{2} {X_{i}\over{\sqrt{X_{i}}}} + {\epsilon_{i}\over{\sqrt{X_{i}}}} $$
이때 새로운 오차항의 분산 $$V({\epsilon_{i}\over{\sqrt{X_{i}}}})= {\sigma_{i}^2\over{X_{i}}} $$
$$={\sigma_{i}^2\over{\sigma_{i}^2\over{\sigma^2} }} $$가 되어 동분산이 성립한다.
white estimator의 경우 $$e_{i}$$로 양변을 나누면 1의 동분산을 가지는 모집단 회귀식이 된다.
그러나
-> 모형에는 상수항이 존재하지 않아 잔차의 합, $$\sum e_{i} =0$$ 조건이 성립하지 않을수 있으므로
$$0<=R^2<1$$이 성립하지 않을 수 있다
-> 만약 본래 모형이 동분산이라면 오히려 $$V(\epsilon_{i}^*)={\sigma^2\over{X_{i}}}$$ 이분산이 발생하게된다
분산이 설명변수와 어떤 관계를 가지는지 추정할 수 조차 없을 때가 있다.
$$\hat{V(b_{2})}= {\sum (X_{i}-\bar{X})^2 e_{i}^2 \over{(\sum (X_{i}-\bar{X})^2 ) ^2 }}$$
이때 해당 값은 강건성(Robustness)의 특징을 가진다.
Log-Linearization과 steady state (374) | 2021.12.29 |
---|---|
자기상관 AutoCorrelation (377) | 2021.12.29 |
벡터자기회귀모형 Vector AutoRegression (0) | 2021.12.21 |
회귀분석 Attribute (0) | 2021.12.13 |
(n-1)s^2/sigma^2 (0) | 2021.11.29 |
댓글 영역