본문 바로가기

수학/통계학

[통계학] #8 상관분석과 회귀분석

 

최근 회귀분석에 대해 배운 내용들을 정리했다.

 

Intro

두 변수 사이의 관계에 관심이 있을 경우 상관분석 또는 회귀분석을 하게 된다.

상관분석은 두 변수 간 유의미한 관계가 존재하는지 확인하는 것인 반면 회귀분석은 두 변수 사이 함수관계에 대한 분석을 의미한다. 상관분석과 달리 회귀분석은 한 변수가 주어졌을때 다른 변수를 예측할 수 있다. 이때 회귀분석은 여러 종류가 있으며 본 글에서는 단순선형회귀분석중회귀분석 두가지를 다룰 예정이다.

상관분석

통계학 초반에 모수에 대해 다룰 때 이미 상관계수 $\rho$에 대해서 다룬 바 있다. 마찬가지로 표본에 대해서도 표본 상관계수를 정의할 수 있다.

$$r = \frac{\sum\limits^n_{i=1} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{ \sum \limits ^n_{i=1} (x_i - \bar{x})^2} \sqrt{ \sum \limits ^n_{i=1} (y_i - \bar{y}) ^2}}$$

특히 표본공분산($s_{xy}$)과 표본 표준편차($s_x$, $s_y$)에 대해서

$$r = \frac{s_{xy}}{s_x s_y}$$

로 나타낼 수도 있다.

상관계수의 값은 마찬가지로 -1부터 1사이의 값을 가지며 상관계수는 두 변수사이의 직선관계의 정도를 알려주는 지표이다.

한편, 예를 들어 어떠한 모집단에서 표본을 뽑았을 때 $r=0.6$이 나왔다고 하자. 그러면 과연 모집단 또한 $\rho= 0.6$인 상황이었을까? 이에 대해서 검정을 할 필요가 있다. 그리고 상관관계가 있는지만 알면되니까 0.6인지 검정하는 것보단 $\rho \neq 0$인지만 확인하고 싶다. 이때 t검정을 시행한다.

  1. $H_0 : \; \rho=0$   vs   $H_1 : \; \rho \neq 0$
  2. 유의수준 설정 $\alpha =\; ...$
  3. 검정통계량
    $$T = \sqrt{n-2} \:  \frac{r}{\sqrt{1-r^2}}\;\sim t(n-2)$$
    (이때 $df=n-2$임에 유의한다)
  4. 기각역 설정 및 결론 -- (기존의 t검정과 동일하므로 생략)

예제는 추후에 시험을 본 이후에 여력이 되면 올리겠다.

 

단순 선형 회귀분석

1. 모형

$$Y_i = \alpha + \beta x_i + e_i$$

만약 산점도를 그려 선형성을 찾을 수 있다면 회귀분석에 들어가게 된다. 우리는 몇개의 데이터만 확인할 수 있지만, 실제 모집단이 직선형태를 가지고 있을 것이라고 생각하고 진행하는 것이다. 그래서 위 수식과 같이 모형을 설정한다. $Y_i$는 $\alpha + \beta x_i$와 같은 x와의 선형관계가 있는데 $e_i$라는 랜덤오차가 존재함에 데이터가 완전한 직선은 아닌 것이다. 이때 몇가지 가정이 필요하다.

단순선형회귀모형의 가정

  • 선형성: 모형이 선형관계를 가짐. 이는 곧 $\sum e_i = 0$으로 나타낼 수 있다.
  • 등분산성: 분산이 동일하다. 이는 곧 $Var(e_i)$이 $i$마다 다른 것이 아님을 의미한다.
  • 독립성: 각 $e_i$는 독립.
  • (정규성): 잔차 분석에서 사용됨. 모델의 기본 가정은 아니나 추후에 나올 잔차 분석에서 검사한다.

이를 정규성 가정을 포함해서 한 줄로 표시하면,

$$e_i \:\overset{ind}{\sim}\: N(0, \sigma^2)$$

이다. 이는 추후에 스튜던트화를 거쳐 잔차분석에 사용된다.

한편 우리는 지금까지 모집단에 대한 모델을 잡은 것이다. 그리고 항상 그래왔듯, 표본을 이용해서 추정할 것이다. $\hat{y} = \hat{E}(Y|x) = \hat{\alpha} + \hat{\beta}x$와 같이 말이다.

 

실제 회귀직선식을 구하기 위해서는 최소제곱 추정량을 이용한다. 유도는 단순히 편차의 제곱의 합을 $S$라는 변수로 두고 $\beta$에 대해 편미분 해줘서 구하면 된다. 다변수일때는 라그랑주 승수법을 이용해서 유사하게 일반화할 수 있다.

그 결과 나오는 것은,

$$\hat{\beta} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{ \sum  (x_i - \bar{x})^2} = \frac{S_xy}{S_xx}$$

$$ \alpha = \bar{y} - \hat{\beta} \bar{x}$$

이다. 이를 이용해서 자료가 주어졌을 때 최소제곱 회귀직선을 구할 수 있다.

2. 설명력

과연 우리가 만든 회귀직선은 얼마나 좋은 회귀직선일까?

이를 답하기 위해서는 편차를 분해해야 한다.

$$\sum_{i=1}^n (y_i - \bar{y})^2 = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^n (y_i - \hat{y}_i)^2$$

위와 같이 제곱합을 분해해서 자료의 변동을 분해할 수 있다.

순서대로 좌변을 SST(총제곱합), 다음항을 SSR(회귀제곱합) 그리고 마지막 항을 SSE(잔차제곱합)라 한다.

여기서 SST는 주어진 자료의 변동, SSR은 그 변동중 회귀직선이 설명할 수 있는 변동, SSE는 설명하지 못한 변동을 의미한다. 그렇기에 당연히! SSR이 높을수록 좋다. 따라서 아래와 같이 결정계수를 정의할 수 있다.

$$r^2 = \frac{SSR}{SST} = 1- \frac{SSE}{SST}$$

결정계수(r²)는 회귀식의 설명력을 나타내는 지표로 0에서 1사이 값을 가진다.

만약 $r^2 = 0.6$이라면 전체변동 중 60%의 변동을 설명할 수 있다고 할 수 있다. 참고로 0.6이상 정도면 설명력이 좋은편이다.

 

한편 잔차제곱합(SSE)는 오차에 대한 정보, 즉 $\sigma^2$에 대한 정보를 가지고 있어서 추후에 계속 사용된다. SSE를 자유도(n-2인 이유는 나중에 설명)로 나누어 평소에 분산 구하듯 구하면 아래와 같은 결론을 얻는다.

$$\hat{\sigma}^2 = \frac{SSE}{n-2} = \frac{1}{n-2}\sum^n_{i=1} (y_i - \hat{y_i})^2$$

3. 유의성 검정

회귀직선의 유의성을 검정하기 위해 T검정과 F검정이 있다. F검정은 설명력을 이용하여 검정하는 것이고 T검정은 회귀계수의 분포를 이용하려 검정하는 것이다.

F검정

$$H_0: \: \beta = 0 \quad vs \quad H_1: \: \beta \neq 0$$

8장 이전까지의 검정 방식과는 조금 다르게 접근할 것인데 기본 생각은 "SSR/SSE가 클수록 회귀직선이 더 좋다는 거잖아?"라는 것이다. 따라서 유도 과정을 생략하지만 아래와 같은 검정통계량을 이용할 수 있다.

$$F = \frac{SSR / 1}{SSE / (n-2)} = \frac{MSR}{MSE} \sim F(1, \:n-2)$$

그리고 위 과정은 분산분석표 형태로 나타낼 수 있다.

요인 제곱합 자유도 평균제곱 F값
회귀 SSR 1 MSR f=MSR/MSE
잔차 SSE n-2 MSE
SST n-1 - -

앞으로 9장에서도 분산분석표는 활용되므로 여기서 이해하고 가는 것이 좋다.

 

T검정

$$H_0: \: \beta = 0 \quad vs \quad H_1: \: \beta \neq 0$$

이미 $\hat{\beta}$의 분포는 알 수 있다. 증명은 안 했으나 다음글을 참고해서 유도할 수 있을 것이다.

$$\hat{\beta} \sim N(\beta,\: \frac{\sigma^2}{\sum (x_i - \bar{x})^2})$$

따라서 검정통계량은 (귀무가설 하에선 $\beta_0 =0$)

$$\frac{\hat{\beta}-\beta_0}{ \hat{ \sigma} / \sqrt{S_{(xx)}} }\sim t(n-2)$$

이미 T검정 자체는 여러번 해보았을 것이기에 생략한다.

4. 잔차분석

  • 선형성
  • 등분산성
  • 독립성
  • 정규성

위는 앞서 다뤘던 단순회귀모형의 기본 가정사항들이다. 잔차분석은 모형의 타당성을 검토하는 것으로 잔차분석에 실패한다면 모형의 기본 가정이 틀렸음을 의미한다.

잔차분석은 잔차를 먼저 스튜던트화하는 것부터 시작한다. 이 과정은 자세히 배우지 않았기에 넘어가고, 스튜던트화 결과 나오는 잔자도를 해석하는 법을 다룰 것이다. 잔차도에서 스튜던트화 잔차들은...

  • 선형성: 0에 대해 대략적으로 대칭
  • 등분산성: 산포가 유사함
  • 독립성: 특정 형식을 지니지 않음
  • 정규성: 점들이 (-2, 2) 사이 존재

위의 조건들이 성립해야 한다. 예시를 들면 좋지만, 이미 통계학 6,7,9강 포스팅이 밀린 내용들이 많아 생략하겠다.

중회귀분석

Y값을 설명하는 변수가 2개 이상인 경우다.

작성중...

'수학 > 통계학' 카테고리의 다른 글

[통계학] #8.1 회귀분석 관련 증명들  (0) 2024.11.30