오늘은 단순 선형회귀의 회귀 모수를 구간추정 하는 방법을 알아보도록 하겠습니다.
구간추정이란 모수가 속할 수 있는 구간을 추정하는 방법입니다.
신뢰도를 통해 모수를 가질 수 있는 특정 확률의 구간을 추정할 수 있습니다.
회귀 모수에 대한 점 추정값을 구하는 과정은 이전 포스팅에 담겨있습니다.
https://bigdata-doctrine.tistory.com/41
회귀모수 추정량의 확률분포
회귀모수의 구간 추정값을 구하기 위해서는 우선 회귀모수의 추정량에 대한 확률분포를 알아야 합니다.
우리는 이전 시간에 최소제곱법(OLS)을 활용하여 회귀모수를 추정하였습니다.
최소제곱 추정량 b1과 b2의 기댓값 및 분산은 다음과 같습니다.
여기서 σ^2은 무작위 오차(e)의 조건부 분산을 의미합니다.
무작위 오차(e)가 정규분포하거나 표본이 충분히 클 경우 회귀모수의 추정량 또한 정규분포합니다.
위의 조건을 만족할 경우 다음과 같이 표시할 수 있습니다.
구간추정 : σ^2을 아는 경우
지금까지 회귀모수 추정량의 확률분포를 구해보았습니다.
확률분포가 정규분포한다면 표준정규분포를 이용하여 구간추정을 할 수 있습니다.
표준정규분포로 변환하기 위해 위의 확률분포를 표준화해 보겠습니다.
표준 정규 확률변수는 추정량에 평균을 감하고 표준편차로 나눔으로써 구할 수 있습니다.
95% 신뢰도의 구간추정을 해보겠습니다. 표준정규분포를 따르는 95% 신뢰도를 가지는 확률변수 Z의 구간추정량에 대해 다음이 성립합니다.
Z에 위에서 구한 식을 대입하면 다음과 같습니다.
위의 식은 모수 β를 포함할 확률이 95%인 구간을 정의하고 있습니다.
구간추정 : σ^2을 모르는 경우
이전에 말했다시피 σ^2은 무작위 오차(e)의 조건부 분산을 의미합니다.
σ^2의 수식은 다음과 같습니다.
σ^2은 제곱한 오차의 평균이라 할 수 있습니다.
위의 식은 한 가지 문제점이 있습니다. 그것은 바로 무작위 오차(e)를 구할 수 없다는 것입니다.
무작위 오차(e)의 식을 살펴보겠습니다.
β1과 β2는 미지의 모수이기 때문에 정확한 무작위 오차(e)를 구할 수 없습니다.
회귀함수의 모수를 모르기 때문에 무작위 오차(e)를 구할 수 없고 이에 따라 무작위 오차(e)의 조건부 분산도 구할 수 없으며, 최소제곱 추정량의 분산 또한 알 수 없는 것입니다.
그럴 때에는 무작위 오차(e) 대신 잔차(^e)를 사용할 수 있습니다. 잔차(^e)란 미지의 모수를 추정값으로 대체하여 계산한 값입니다.
그래프로 생각할 때는 각각의 관측쌍의 y값과 회귀선과의 거리입니다.
잔차(^e)를 사용하여 σ^2을 추정할 수 있습니다. σ^2의 불편 추정량(Unbiased estimator)은 다음과 같습니다.
불편 추정량이란 추정량의 기댓값이 모수와 같은 경우의 추정량을 의미합니다.
^σ^2을 이용하여 최소제곱 추정량의 분산을 추정할 수 있습니다.
σ^2이 ^σ^2으로 대체된 것을 제외하고는 이전의 추정량의 분산을 구하는 공식과 같습니다.
추정된 분산의 제곱근은 b1, b2의 표준오차(se: standard error)입니다. 표준오차(se)란 표본평균에 대한 표준편차를 의미합니다. 회귀분석에서는 절댓값을 씌운 잔차의 평균이라고 보면 됩니다.
표준오차(se)는 σ^2을 모르는 경우의 구간추정과 가설검정에 사용되므로 중요합니다.
이전에 구한 표준정규분포에서 σ^2을 ^σ^2로 대체할 경우 표준정규분포가 자유도가 N-2인 t-분포로 변환됩니다.
t-분포는 표준정규분포보다 완만한 분포이고 표본(N)이 커질수록 표준정규분포와 유사해지는 성질을 갖고 있습니다.
t-분포를 사용하여 구간추정을 하는 방식은 z-분포(표준정규분포)와 동일하나 임계값(critical value)를 구하는 과정에서 t-분포는 신뢰도뿐만 아니라 자유도(N-2)도 고려됩니다.
t-분포를 따르는 100(1-α)% 신뢰도를 가지는 확률변수 t의 구간추정량에 대해 다음이 성립합니다.
t에 위에서 구한 식을 대입하면 다음과 같습니다.
위의 식은 모수 β를 포함할 확률이 100(1-α)%인 구간을 정의하고 있습니다.
tc는 t-분포의 임계값을 의미합니다. 자유도가 30이고 구하고자 하는 신뢰구간이 95인 경우 임계값은 t(0.975, 30)입니다. t-값은 t-분포표에서 찾을 수 있습니다.
지금까지 단순 선형회귀의 회귀 모수를 구간추정 하는 방법에 대해 알아보았습니다.
'정보 > 수리통계' 카테고리의 다른 글
회귀 모수에 대한 검정: 유의성검정과 p-값 (0) | 2023.08.22 |
---|---|
회귀 모수에 대한 검정: 가설검정 (0) | 2023.07.29 |
회귀 모수 추정: 최소제곱법(OLS) 활용 (0) | 2023.07.21 |
단순 선형회귀 모형에 관한 가정 (SR3~SR6) (0) | 2023.03.13 |
단순 선형회귀 모형에 관한 가정 (SR1~SR2) (0) | 2023.03.06 |