본문 바로가기

정보/수리통계

회귀 모수에 대한 검정: 가설검정

오늘은 회귀 모수에 대한 가설검정에 대해 알아보도록 하겠습니다.

 

가설검정을 통해 회귀 모수에 대한 가설을 설정하여 그 가설이 타당한지를 검정할 수 있습니다.

 

 

가설검정이란?


가설검정은 표본의 정보를 통해 모집단의 실제 값에 대한 가설을 검정하는 방법입니다.

 

예를 들면 "A회사에서의 경력이 1년 증가하면 소득이 100만원 이상 증가할 것이다"라는 가설을 검정하는 것입니다.

 

다만 유의할 점은 가설검정에서는 사실여부를 판단하고 싶은 가설이 틀릴 확률을 계산하여 그 확률이 적을 때, 그 가설을 채택한다는 것입니다.

 

오지선다형 문제에서 4개의 보기가 틀렸으니 나머지 1개의 보기가 정답일 것이라 추론하는 것과 같은 맥락입니다. 

 

이전의 예시를 들면 "표본들을 살펴보았을때 A회사에서의 경력이 1년 증가할 때, 소득이 100만원보다 적게 증가할 확률이 적으니까 100만원 이상 증가할 것이라고 보는 게 타당해!"라고 추론하는 것과 같습니다.

 

가설검정에는 귀무가설(H0), 대립가설(H1), 검정 통계량, 기각역, 결론 등의 5가지 요소가 존재합니다.

 

각각의 요소에 대해 자세히 살펴보도록 하겠습니다.

 

 

귀무가설(H0)과 대립가설(H1)


귀무가설은 표본에 의해 사실이 아니라는 충분한 증거가 관찰될 때까지 고수하는 가설입니다.

 

보통 H0: βk = c의 형태로 나타나고 여기서 c는 상수를 의미합니다.

 

이전의 예시를 빌려보자면 c는 100만이 될것입니다. 따라서 귀무가설은 "A회사에서의 경력이 1년 증가하면, 소득이 100만원 증가할 것이다"가 됩니다.

 

대립가설은 귀무가설이 기각될 경우 받아들여지는 가설이자 사실 여부를 판단하고 싶은 가설입니다.

 

귀무가설 H0: βk = c에 대해 다음 세 가지 대립가설이 가능합니다.

1) H1: βk > c

"모수가 상수 c보다 클 것이다."

2) H1: βk < c

"모수가 상수 c보다 작을 것이다."

3) H1: βk ≠ c

"모수는 상수 c가 아닐 것이다."

 

이전의 예시에서 사실 여부를 판단하고 싶은 가설이 "경력이 1년 증가하면 소득이 100만원 이상 증가할 것이다."였으니 "H1: βk > 100만"이 위의 대립가설이 될 것입니다.

 

 

검정 통계량


검정 통계량은 가설 검정에 사용되는 확률변수입니다.

 

귀무가설이 사실일 경우, 검정 통계량은 자유도가 N-2인 t-분포를 따릅니다.

t1은 b1의 확률분포를, t2는 b2의 확률분포를 나타낸다

 

위의 t-분포에 대해 궁금하신 분들은 아래의 링크를 클릭하면 됩니다.

https://bigdata-doctrine.tistory.com/42

 

회귀 모수 추정: 표준오차(se)를 통한 구간 추정

오늘은 단순 선형회귀의 회귀 모수를 구간추정 하는 방법을 알아보도록 하겠습니다. 구간추정이란 모수가 속할 수 있는 구간을 추정하는 방법입니다. 신뢰도를 통해 모수를 가질 수 있는 특정

bigdata-doctrine.tistory.com

 

귀무가설은 H0: βk = c이기 때문에 βk를 c로 대체하여 귀무가설이 참인 경우의 검정 통계량을 구할 수 있습니다.

귀무가설이 참이 아닌 경우, 검정 통계량은 자유도가 N-2인 t-분포를 갖지 않습니다.

 

검정 통계량과 기각역에 따른 유의수준을 비교함으로써 귀무가설을 기각할 지, 채택할 지를 결정할 수 있습니다.

 

 

기각역


기각역이란 귀무가설의 기각으로 이어지는 검정 통계량값의 범위입니다.

 

표본을 통해 얻은 검정 통계량값이 이전에 구한 t-분포에서 나오기 어려운 값일 경우 귀무가설을 기각합니다. 

 

검정 통계량은 확률변수를 가지는 확률분포이고, 검정 통계량값은 특정한 값이기 때문에 서로 다른 개념입니다.

 

다음을 아는 경우에만 기각역을 세울 수 있습니다.

  • 귀무가설이 참일 때 그것의 분포를 아는 검정 통계량
  • 대립가설
  • 유의수준

t-분포에서 나오기 어려운 값일 경우 귀무가설을 기각한다고 하였는데 여기서 나오기 어려운 값이 나올 확률을 유의수준이라고 하고 α라고 씁니다.

 

검정의 유의수준 α는 통상적으로 0.01, 0.05, 0.1을 주로 씁니다. 각각 1%, 5%, 10%를 의미합니다. 

 

귀무가설이 참인데 이를 기각하는 오류를 제1종 오류라고 합니다. 유의수준 α가 제1종 오류입니다.

 

귀무가설이 거짓인데 이를 기각하지 않는 오류를 제2종 오류라고 합니다. 이를 β라고 합니다.

  귀무가설 채택 귀무가설 기각
귀무가설 H0가 참 옳은 결정                                                            확률 : 1-α (신뢰수준) 제1종 오류                                                   확률 : α (유의수준)
귀무가설 H0가 거짓 제2종 오류                                                          확률 : β 옳은 결정                                                      확률 : 1-β (검정력)

α와 β를 동시에 감소시키는 것은 불가능하고 제2종 오류보다는 제1종 오류를 더 우려하기 때문에 유의수준 α를 통해 가설을 검정합니다.

 

 

단측검정과 양측검정


이제 가설검정을 위한 요소가 모두 마련이 되었으니 실행해 보도록 합시다.

 

기각역을 만들기 위해서는 검정 통계량, 대립가설, 유의수준이 필요합니다.

 

이전에 우리는 세 가지 대립가설이 가능함을 알아보았습니다. 각각의 대립가설에 대한 기각역을 구해보도록 하겠습니다.

 

1) 대립가설 H1 > c 에 대한 단측검정

위의 대립가설이 참인 경우 검정 통계량값이 t-분포에 대해 통상적인 경우보다 더 큰 경향이 있습니다.

 

검정 통계량이 유의수준 α에 대한 임계값보다 큰 경우 귀무가설을 기각하게 됩니다.

기각역이 t-분포의 한쪽 꼬리에만 위치하기 때문에 이런 검정을 단측검정이라 합니다.

 

임계값은 tc = t(1-α, N-2)로 구할 수 있습니다. 위의 예시에서는 자유도가 20, 유의수준 α가 0.05인 t-값을 계산하였습니다.

 

임계값은 약 1.72이고 기각역은 t ≥ 1.72입니다.

 

검정 통계량이 약 1.72 이상일 경우, 귀무가설을 기각하고 대립가설을 채택합니다.

 

2) 대립가설 H1 < c 에 대한 단측검정

위의 대립가설 또한 동일한 방식으로 이루어집니다. 위의 대립가설은 특정 상수보다 작은 경우를 관찰하고 있으므로 기각역이 좌측에 위치합니다.

임계값은 약 -1.72이고 기각역은 t -1.72입니다.

 

검정 통계량이 약 -1.72 이하일 경우, 귀무가설을 기각하고 대립가설을 채택합니다.

 

3) 대립가설 H1 ≠ c 에 대한 양측검정 

위의 대립가설에 대해서 검정 통계량값은 통상적인 경우보다 더 크거나 작은 경향이 있습니다.

 

주의할 점은 유의수준 α에 대해 좌측과 우측의 기각역이 동일하게끔 α/2를 취해야 한다는 점입니다.

 

따라서 유의수준 0.05에 대한 양측검정을 시행할 경우 좌측과 우측의 각각의 유의수준은 0.025가 되고, 이에 따라 단측검정을 할 때 보다 더 극단적인 값이 나와야 귀무가설을 기각할 수 있습니다.

 

임계값은 각각 약 -2.09, 2.09이고 기각역은 t  -2.09 or t ≥ 2.09입니다.

 

검정 통계량이 약 -2.09 이하이거나 2.09 이상일 경우, 귀무가설을 기각하고 대립가설을 채택합니다.

 

 

가설검정 예시


 "경력이 1년 증가하면 소득이 100만원 이상 증가할 것이다."에 대한 가설을 검정해 보겠습니다.

 

위의 예시의 귀무가설 H0는 "경력이 1년 증가하면 소득이 100만원 증가할 것이다."입니다.

 

대립가설 H1 "경력이 1년 증가하면 소득이 100만원 이상 증가할 것이다."입니다. 

 

검정 통계량은 다음과 같습니다.

b2회귀 계수, 즉 회귀 분석 결과 경력이 1년 증가할 때 증가하는 소득의 평균의 추정량입니다.

 

se(b2)는 회귀 계수의 표준 오차를 의미합니다.

 

표본을 통해 경력이 1년 증가할 때 증가하는 소득의 평균의 추정값과 표준 오차를 알 수 있고 이에 따라 t-값은 특정한 값이 나오게 됩니다.

 

이것을 검정 통계량이라고 합니다.

 

자유도가 20이고 유의수준이 0.05일 때의 기각역은 다음과 같습니다.

대립가설이 "~보다 크다"이므로 우측 검정입니다.

 

위에서 구한 검정 통계량이 1-α만큼의 신뢰수준과 20의 자유도를 갖는 t-값보다 클 경우 귀무가설을 기각하게 됩니다.

 

귀무가설이 기각될 경우 5% 유의수준에서 "경력이 1년 증가하면 소득이 100만원 이상 증가할 것이다"라는 가설은 타당합니다. 


오늘은 회귀 모수에 대한 가설검정에 대해 알아보았습니다.

 

다음 시간에는 회귀 모수가 실제로 유의한 지를 검정하는 유의성검정에 대해 알아보도록 하겠습니다.