[컴퓨터] 호주 대학원 생존기/Mathematics

[Computational Statistics] Confidence Interval of linear model parameters (선형모델-2)

Bright_Ocean 2021. 8. 4. 21:22
반응형

지난번 포스팅인 선형모델을 통하여 Least square estimator $\textbf{b}$를 구해보고 이것의 평균과 분산을 알아보는 시간을 가졌다. 이번시간에는 더 나아가 interval estimation을 하는 방법들을 살펴보자 아직까지는 Full rank model 만을 생각한다.


우선 지난번 포스팅을 통해 확인하였던 $\textbf{b}$의 평균과 분산을 다시 상기 시켜보자

$$\mathbb{E}[\textbf{b}] = \boldsymbol{\beta}$$

$$Var\ \textbf{b} = \left ( \textbf{X}^T \textbf{X} \right )^{-1} \sigma^2$$

하지만 우리는 보통 $\sigma$에 대한 정보를 모르기 때문에 $\sigma$를 estimation 해주어야 한다.

 

1. Variance estimation

$$s^2 = \frac{(\textbf{y}-\textbf{Xb})^T(\textbf{y}-\textbf{Xb})}{n-(p+1)}$$

은 $\sigma^2$의 unbiased estimator 이기 때문에 estimator로 $s^2$를 사용하도록 한다.

 

증명은 기초 통계학에 주로 나오는 내용의 반복이지만 matrix form 으로 다시 살펴보자

$$\begin{align} &= \frac{1}{n-(p+1)}\mathbb{E}[(\textbf{y}-\textbf{Xb})^T(\textbf{y}-\textbf{Xb})] \\ &= \frac{1}{n-(p+1)}\mathbb{E}[(\textbf{I}-\textbf{H})\textbf{y})^T (\textbf{I}-\textbf{H})\textbf{y}] \\ &= \frac{1}{n-(p+1)}\mathbb{E}[\textbf{y}^T(\textbf{I}-\textbf{H})(\textbf{I}-\textbf{H})\textbf{y}]\\ &= \frac{1}{n-(p+1)}\mathbb{E}[\textbf{y}^T(\textbf{I}-\textbf{H})\textbf{y}] \end{align}$$

 

$(\textbf{I}-\textbf{H})$가 Idempotent 라는 사실에 주의하자 (제곱하면 자기자신이 되는 matrix를 의미한다 이 matrix는 symmetric 하다는 특성도 있다.)

이제 마지막 식에서 $\mathbb{E}[\textbf{y}^T(\textbf{I}-\textbf{H})\textbf{y}]$ 를 풀어야하는데, 이에대한 식은 

아래의 공식을 참고하여 풀어보자. 

$$\mathbb{E}[\textbf{y}^T\textbf{Ay}] = tr(\textbf{AV}) + \boldsymbol{\mu}^T\textbf{A}\boldsymbol{\mu}$$

 

이 식이 낯설다면 아래의 포스팅을 참고해 보자

2021.07.28 - [[컴퓨터] 전산생물학/Modeling & Simulation] - [Computational Statistics] Random Vectors (랜덤 벡터)

 

[Computational Statistics] Random Vectors (랜덤 벡터)

Matrix 안의 elements 들이 단순한 숫자들이 아닌 Random Variable 이라고 생각해보자. 그렇다면 평균과 분산등은 어떤식 으로 표현될까? 이번 포스팅은 Random Vectors 와 Random matrices의 특징등을 기술 하였..

bright-ocean.tistory.com

$\boldsymbol{\mu}^T\textbf{A}\boldsymbol{\mu}$먼저 계산해보자

$$\begin{align} \boldsymbol{\mu}^T\textbf{A}\boldsymbol{\mu} &= (\textbf{X}\boldsymbol{\beta})^T(\textbf{I}-\textbf{H})(\textbf{X}\boldsymbol{\beta})\\ &= \boldsymbol{\beta}^T\textbf{X}^T\textbf{X}\boldsymbol{\beta}-\boldsymbol{\beta}^T\textbf{X}^T\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{X}\boldsymbol{\beta} \\ &= 0 \end{align}$$

 

이제 $tr(\textbf{AV})$를 구해보자

$$\begin{align} tr(\textbf{AV} &= tr((\textbf{I}_n-\textbf{H})\sigma^2\textbf{I}_n) \\ &= \sigma^2(tr(\textbf{I}_n)-tr(\textbf{H})) \\ &= \sigma^2(n-tr((\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{X}))\\ &= \sigma^2(n-tr(\textbf{I}_{p+1})) \\ &= \sigma^2(n-(p+1)) \end{align}$$

 

중간에 $\textbf{H}$ 관한식이 이상해 보일수 있는데 이는 $tr(\textbf{AB}) = tr(\textbf{BA})$의 특성을 이용하여

$$tr(\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T) = tr((\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{X})= tr(\textbf{H})$$

로 치환하여 풀어준 것이다.

 

자 이제 $\mathbb{E}[s^2]$의 마지막 식에 구한것들을 넣고 풀어주면

 

$$\begin{align} \mathbb{E}[s^2] &= \frac{1}{n-(p+1)}\mathbb{E}[\textbf{y}^T(\textbf{I}-\textbf{H})\textbf{y}]\\ &=\frac{n-(p+1)}{n-(p+1)}\sigma^2 \\ &= \sigma^2 \end{align}$$

 

위 와 같이 variance estimator $s^2$는 unbias estimator 하다는 것을 알수 있다.

 

자 이제 우리는 주어진 데이터들을 이용하여 평균과 분산을 estimation할 수 있게 되었다.

이제 Interval estimation을 하기 위한 사전작업들을 진행해 보자

 

2. Interval estimation

이전에 랜덤벡터에서 사용하였던 Colloary를 기억하거나 일반통계학에서 배운 지식을 활용하면

$$\frac{(n-(p+1))s^2}{\sigma^2} = \frac{SS_{Res}}{\sigma^2} = \frac{(\textbf{y}-\textbf{Xb})^T(\textbf{y}-\textbf{Xb})}{\sigma^2} = \frac{\textbf{y}^T[\textbf{I}-\textbf{H}]\textbf{y}}{\sigma^2}$$

이고 이것이 noncentral $\chi^2$ distribution을 따른다라고 알 수 있으며, $n-(p+1)$의 degree of freedom 과 noncentrality parameter $\lambda = \frac{1}{2\sigma^2}\boldsymbol{\mu}^2[\textbf{I}-\textbf{H}]\boldsymbol{\mu}$를 parameter로 가지고 있다 

 

하지만, $\lambda$가 0 이 되므로 (위에서 살펴보았다). n-(p+1) 의 degree of freedom 만 parameter로 가진다.

 

또 다른 성질로는 $\textbf{b}$ 와 $\boldsymbol{\epsilon}$ 이 independent 하다는 것인데

증명은 생략하겠다.

 

이제 Interval estimation을 해보자

아래의 statistic은 standard normal distribution을 가짐을 쉽게 생각해 볼 수 있다.

$$\frac{\textbf{b}_i-\boldsymbol{\beta_i}}{\sigma\sqrt{c_{ii}}}$$

 

하지만 우리는 $\sigma$를 모르는 경우가 많으므로 이를 위하여 위에서 구한 $s^2$를 이용하여 t-distribution의 형태로 바꾸어주면 (n-(p+1) degree of freedom of t-distribution)

 

$$\left ( \frac{\textbf{b}_i-\boldsymbol{\beta}_i}{\sigma\sqrt{c_{ii}}} \right ) / \left( \sqrt{\frac{s^2}{\sigma^2}}\right ) = \frac{\textbf{b}_i-\boldsymbol{\beta}_i}{s\sqrt{c_{ii}}}$$

 

가 되어 $\beta_i$ 의 confidence interval은

 

$$b_i \pm t_{\alpha/2}s\sqrt{c_{ii}}$$

 

이때 $c_{ii}$는 $(\textbf{X}^T\textbf{X})^{-1}$의 diagonal element이다.

반응형