[컴퓨터] 호주 대학원 생존기/Mathematics

[Computational Statistics] Linear model (선형모델)

Bright_Ocean 2021. 8. 1. 19:11
반응형

지난 포스팅에서 다룬 랜덤벡터들의 성질을 이용하여 선형 모델의 Matrix form을 나타내보고,

parameter들을 fitting하는 방법인 method of least squsres를 살펴보고자 한다.


1. Full rank linear model

full rank 모델은 design matrix $X$ 즉 데이터 들이 담겨있는 matrix $\textbf{X}$ 가 full rank를 가짐을 의미한다

$$r(\textbf{X}) = k+1$$

이는 다른말로 $\textbf{X}^T\textbf{X}$가 invertible 하다는 의미이다.

 

2. Model assumption

$$\textbf{y} = \textbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$$

이와 같은 선형모델을 생각해보자 이때 error vector $\boldsymbol{\epsilon}$은 다음과 같이 가정한다

$$\boldsymbol{\epsilon} \sim N(\textbf{0}, \sigma^2\textbf{I})$$

 

선형모델에서 error vector만 random term 을 가지므로

(frequentist approach, bayesian 인 경우에는 $\boldsymbol{\beta$} 도 random vector로 고려할 것이다)

 

$$\mathbb{E}[\textbf{y}] = \textbf{X}\boldsymbol{\beta}$$

$$Var\ \textbf{y} = \sigma^2\textbf{I}$$

 

3. Least squares estimates 

  ▶ parameter estimation

구하고자 하는 parameter vector를 $\textbf{b}$, residuals를 $\textbf{e}$라 하자

parameter vector $\textbf{b}$를 구하는 방법은 square sum of residuals를 최소화 하면 된다.

 

$$\begin{align}\textbf{e}^T \textbf{e} &= (\textbf{y} - \textbf{Xb})^T(\textbf{y} - \textbf{Xb})\\ &= \textbf{y}^2\textbf{y} - \textbf{y}^T\textbf{Xb}-\textbf{b}^T\textbf{X}^T\textbf{y}+\textbf{b}^T\textbf{X}^T\textbf{T}\textbf{b} \\& = \textbf{y}^T\textbf{y}-2\textbf{y}^T\textbf{Xb} + \textbf{b}^T\textbf{X}^T\textbf{Xb}\\& = \textbf{y}^T\textbf{y}-2(\textbf{X}^T\textbf{y})^T\textbf{b} + \textbf{b}^T(\textbf{X}^T\textbf{X})\textbf{b} \end{align}$$

 

두번째 식에서 세번째 식으로 넘어가는것이 한번에 이해하기 어려운데 이는 $\textbf{y}^T\textbf{Xb}$ 값이 scalar 이므로 symmetic하기 때문에 가능하다.  ($\textbf{y}^T\textbf{Xb} = \textbf{b}^T\textbf{X}^T\textbf{y}$)

 

이식을 minimize하기 위하여 아래의 식을 구하면

$$\frac{\partial \textbf{e}^T\textbf{e}}{\partial \textbf{b}} = \textbf{0}$$

다음과 같다.

$$-2\textbf{X}^T\textbf{y} + 2(\textbf{X}^T\textbf{X})\textbf{b} = \textbf{0}$$

 

만약 vector differentiaion이 익숙하지 않다면 아래의 포스팅의 맨 마지막 부분을 참고하자

 

2021.07.27 - [[컴퓨터] 전산생물학/Modeling & Simulation] - [Computational Statistics] Linear algebra for the linear models (선형모델해석을 위한 선형대수)

 

[Computational Statistics] Linear algebra for the linear models (선형모델해석을 위한 선형대수)

왜 선형대수를 공부하는 것이 Linear model 들을 이해하는 데 도움이 될까? 이는 Confidence Interval을 구하기 위해서 평균(expectation) 혹은 분산(Variance) 또는 확률들을 구하여야 하는데, 데이터는 vector..

bright-ocean.tistory.com

이를 정리하면 parameter vector $\textbf{b}$가 아래와 같은 식을통해 estimation될 수 있음을 알 수 있다.

 

$$\textbf{b} = (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}$$

 

4. Orthongonal property

▶ Residuals orthogonal to the column space of $\textbf{X}$

$\textbf{Xb}$는 $\textbf{X}$의 column space 안에 존재하는 어떤 vector를 의미한다.

그렇다면 residual vector와의 관계는 무엇인가?

 

Column space of $\textbf{X}$ 와 residual vector $\textbf{y}-\textbf{Xb}$를 생각해보자

3. 에서 구한 $\textbf{b} = (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T$를 이용하여 

$\textbf{Xb}$ 와 residual 인 $\textbf{y} - \textbf{Xb}$의 inner product를 구하면 

$$(\textbf{Xb})^T(\textbf{y}-\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T)\textbf{y}$$

$$=\textbf{b}^T(\textbf{X}^T-\textbf{X}^T\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T)\textbf{y} = \textbf{0}$$

즉 residual vector 와 column space of $\textbf{X}$는 orthogonal 하다

 

▶Geometric interpretation of least squares

바로 위에서 본 orthogonality를 이용하여 geometic interpretation을 해보면 다음과 같다

 

Source : Wikipedia

본 그림은 위키피이아에서 퍼온 것인데 $\boldsymbol{\hat{\beta}}$ 이 $\textbf{b}$와 같으므로,

즉 선형모델은 $\textbf{y}$를 column space of $\textbf{X}$에 projection한 것과 같음을 알수있다.

 

▶Mean and Variance of $\textbf{b}$

 

$$\begin{align} \mathbb{E}[\textbf{b}] &= \mathbb{E}[(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}] \\&= (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\mathbb{E}[\textbf{y}] \\&=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T(\textbf{X}\boldsymbol{\beta}) \\&= \boldsymbol{\beta} \end{align}$$

 

$$\begin{align} Var\ \textbf{b} &= Var\ (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}\\&=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\sigma^2\textbf{I}\left ( (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\right )^T \\ &= (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{X}\left ((\textbf{X}^T\textbf{T})^T\right )^{-1}\sigma^2 \\ &= (\textbf{X}^T\textbf{X})^{-1}\sigma^2 \end{align}$$

반응형