본문 바로가기

정보/수리통계

회귀 모수 추정: 표준오차(se)를 통한 구간 추정

오늘은 단순 선형회귀의 회귀 모수를 구간추정 하는 방법을 알아보도록 하겠습니다.

 

구간추정이란 모수가 속할 수 있는 구간을 추정하는 방법입니다.

 

신뢰도를 통해 모수를 가질 수 있는 특정 확률의 구간을 추정할 수 있습니다.

 

회귀 모수에 대한 점 추정값을 구하는 과정은 이전 포스팅에 담겨있습니다.

https://bigdata-doctrine.tistory.com/41

 

회귀 모수 추정: 최소제곱법(OLS) 활용

오늘은 단순 선형회귀 모형의 회귀모수를 추정하는 방법을 알아보도록 하겠습니다. 회귀 모수를 찾는 대표적인 방법으로는 최소제곱법(OLS)과 경사하강법(Gredient Descent)이 있습니다. 최소제곱법

bigdata-doctrine.tistory.com

 

 

회귀모수 추정량의 확률분포


회귀모수의 구간 추정값을 구하기 위해서는 우선 회귀모수의 추정량에 대한 확률분포를 알아야 합니다.

 

우리는 이전 시간에 최소제곱법(OLS)을 활용하여 회귀모수를 추정하였습니다.

회귀선

최소제곱 추정량 b1과 b2의 기댓값 및 분산은 다음과 같습니다.

여기서 σ^2무작위 오차(e)의 조건부 분산을 의미합니다.

 

무작위 오차(e)가 정규분포하거나 표본이 충분히 클 경우 회귀모수의 추정량 또한 정규분포합니다.

 

위의 조건을 만족할 경우 다음과 같이 표시할 수 있습니다.

 

 

구간추정 : σ^2을 아는 경우


지금까지 회귀모수 추정량의 확률분포를 구해보았습니다.

 

확률분포가 정규분포한다면 표준정규분포를 이용하여 구간추정을 할 수 있습니다.

 

표준정규분포로 변환하기 위해 위의 확률분포를 표준화해 보겠습니다.

표준 정규 확률변수는 추정량에 평균을 감하고 표준편차로 나눔으로써 구할 수 있습니다.

 

95% 신뢰도구간추정을 해보겠습니다. 표준정규분포를 따르는 95% 신뢰도를 가지는 확률변수 Z의 구간추정량에 대해 다음이 성립합니다.

Z에 위에서 구한 식을 대입하면 다음과 같습니다.

위의 식은 모수 β를 포함할 확률이 95%인 구간을 정의하고 있습니다.

 

 

구간추정 : σ^2을 모르는 경우


이전에 말했다시피 σ^2무작위 오차(e)의 조건부 분산을 의미합니다.

 

σ^2의 수식은 다음과 같습니다.

σ^2은 제곱한 오차의 평균이라 할 수 있습니다.

 

위의 식은 한 가지 문제점이 있습니다. 그것은 바로 무작위 오차(e)를 구할 수 없다는 것입니다.

 

무작위 오차(e)의 식을 살펴보겠습니다.

β1과 β2는 미지의 모수이기 때문에 정확한 무작위 오차(e)를 구할 수 없습니다.

 

회귀함수의 모수를 모르기 때문에 무작위 오차(e)를 구할 수 없고 이에 따라 무작위 오차(e)의 조건부 분산도 구할 수 없으며, 최소제곱 추정량의 분산 또한 알 수 없는 것입니다.

 

그럴 때에는 무작위 오차(e) 대신 잔차(^e)를 사용할 수 있습니다. 잔차(^e)란 미지의 모수를 추정값으로 대체하여 계산한 값입니다.

그래프로 생각할 때는 각각의 관측쌍의 y값과 회귀선과의 거리입니다. 

 

잔차(^e)를 사용하여 σ^2추정할 수 있습니다. σ^2불편 추정량(Unbiased estimator)은 다음과 같습니다.

 

불편 추정량이란 추정량의 기댓값이 모수와 같은 경우의 추정량을 의미합니다.

 

^σ^2을 이용하여 최소제곱 추정량의 분산을 추정할 수 있습니다.

σ^2^σ^2으로 대체된 것을 제외하고는 이전의 추정량의 분산을 구하는 공식과 같습니다.

 

 

추정된 분산의 제곱근은 b1, b2의 표준오차(se: standard error)입니다. 표준오차(se)란 표본평균에 대한 표준편차를 의미합니다. 회귀분석에서는 절댓값을 씌운 잔차의 평균이라고 보면 됩니다.

표준오차(se)는 σ^2을 모르는 경우의 구간추정가설검정에 사용되므로 중요합니다. 

 

이전에 구한 표준정규분포에서 σ^2^σ^2로 대체할 경우 표준정규분포가 자유도가 N-2t-분포로 변환됩니다.

t-분포는 표준정규분포보다 완만한 분포이고 표본(N)이 커질수록 표준정규분포와 유사해지는 성질을 갖고 있습니다.

 

t-분포를 사용하여 구간추정을 하는 방식은 z-분포(표준정규분포)와 동일하나 임계값(critical value)를 구하는 과정에서 t-분포는 신뢰도뿐만 아니라 자유도(N-2)도 고려됩니다.

 

t-분포를 따르는 100(1-α)% 신뢰도를 가지는 확률변수 t의 구간추정량에 대해 다음이 성립합니다.

t에 위에서 구한 식을 대입하면 다음과 같습니다.

위의 식은 모수 β를 포함할 확률이 100(1-α)%인 구간을 정의하고 있습니다.

 

tc는 t-분포의 임계값을 의미합니다. 자유도가 30이고 구하고자 하는 신뢰구간이 95인 경우 임계값은 t(0.975, 30)입니다. t-값은 t-분포표에서 찾을 수 있습니다.


지금까지 단순 선형회귀의 회귀 모수를 구간추정 하는 방법에 대해 알아보았습니다.