[Computational Statistics] Linear model (선형모델)

호주 대학원 생존기/Mathematics

[Computational Statistics] Linear model (선형모델)

Bright_Ocean 2021. 8. 1. 19:11

지난 포스팅에서 다룬 랜덤벡터들의 성질을 이용하여 선형 모델의 Matrix form을 나타내보고,

parameter들을 fitting하는 방법인 method of least squsres를 살펴보고자 한다.

1. Full rank linear model

full rank 모델은 design matrix $X$ 즉 데이터 들이 담겨있는 matrix $\textbf{X}$ 가 full rank를 가짐을 의미한다

$$r(\textbf{X}) = k+1$$

이는 다른말로 $\textbf{X}^T\textbf{X}$가 invertible 하다는 의미이다.

2. Model assumption

$$\textbf{y} = \textbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$$

이와 같은 선형모델을 생각해보자 이때 error vector $\boldsymbol{\epsilon}$은 다음과 같이 가정한다

$$\boldsymbol{\epsilon} \sim N(\textbf{0}, \sigma^2\textbf{I})$$

선형모델에서 error vector만 random term 을 가지므로

(frequentist approach, bayesian 인 경우에는 $\boldsymbol{\beta$} 도 random vector로 고려할 것이다)

$$\mathbb{E}[\textbf{y}] = \textbf{X}\boldsymbol{\beta}$$

$$Var\ \textbf{y} = \sigma^2\textbf{I}$$

3. Least squares estimates

▶ parameter estimation

구하고자 하는 parameter vector를 $\textbf{b}$, residuals를 $\textbf{e}$라 하자

parameter vector $\textbf{b}$를 구하는 방법은 square sum of residuals를 최소화 하면 된다.

$$\begin{align}\textbf{e}^T \textbf{e} &= (\textbf{y} - \textbf{Xb})^T(\textbf{y} - \textbf{Xb})\\ &= \textbf{y}^2\textbf{y} - \textbf{y}^T\textbf{Xb}-\textbf{b}^T\textbf{X}^T\textbf{y}+\textbf{b}^T\textbf{X}^T\textbf{T}\textbf{b} \\& = \textbf{y}^T\textbf{y}-2\textbf{y}^T\textbf{Xb} + \textbf{b}^T\textbf{X}^T\textbf{Xb}\\& = \textbf{y}^T\textbf{y}-2(\textbf{X}^T\textbf{y})^T\textbf{b} + \textbf{b}^T(\textbf{X}^T\textbf{X})\textbf{b} \end{align}$$

두번째 식에서 세번째 식으로 넘어가는것이 한번에 이해하기 어려운데 이는 $\textbf{y}^T\textbf{Xb}$ 값이 scalar 이므로 symmetic하기 때문에 가능하다. ($\textbf{y}^T\textbf{Xb} = \textbf{b}^T\textbf{X}^T\textbf{y}$)

이식을 minimize하기 위하여 아래의 식을 구하면

$$\frac{\partial \textbf{e}^T\textbf{e}}{\partial \textbf{b}} = \textbf{0}$$

다음과 같다.

$$-2\textbf{X}^T\textbf{y} + 2(\textbf{X}^T\textbf{X})\textbf{b} = \textbf{0}$$

만약 vector differentiaion이 익숙하지 않다면 아래의 포스팅의 맨 마지막 부분을 참고하자

2021.07.27 - [[컴퓨터] 전산생물학/Modeling & Simulation] - [Computational Statistics] Linear algebra for the linear models (선형모델해석을 위한 선형대수)

[Computational Statistics] Linear algebra for the linear models (선형모델해석을 위한 선형대수)

왜 선형대수를 공부하는 것이 Linear model 들을 이해하는 데 도움이 될까? 이는 Confidence Interval을 구하기 위해서 평균(expectation) 혹은 분산(Variance) 또는 확률들을 구하여야 하는데, 데이터는 vector..

bright-ocean.tistory.com

이를 정리하면 parameter vector $\textbf{b}$가 아래와 같은 식을통해 estimation될 수 있음을 알 수 있다.

$$\textbf{b} = (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}$$

4. Orthongonal property

▶ Residuals orthogonal to the column space of $\textbf{X}$

$\textbf{Xb}$는 $\textbf{X}$의 column space 안에 존재하는 어떤 vector를 의미한다.

그렇다면 residual vector와의 관계는 무엇인가?

Column space of $\textbf{X}$ 와 residual vector $\textbf{y}-\textbf{Xb}$를 생각해보자

3. 에서 구한 $\textbf{b} = (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T$를 이용하여

$\textbf{Xb}$ 와 residual 인 $\textbf{y} - \textbf{Xb}$의 inner product를 구하면

$$(\textbf{Xb})^T(\textbf{y}-\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T)\textbf{y}$$

$$=\textbf{b}^T(\textbf{X}^T-\textbf{X}^T\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T)\textbf{y} = \textbf{0}$$

즉 residual vector 와 column space of $\textbf{X}$는 orthogonal 하다

▶Geometric interpretation of least squares

바로 위에서 본 orthogonality를 이용하여 geometic interpretation을 해보면 다음과 같다

본 그림은 위키피이아에서 퍼온 것인데 $\boldsymbol{\hat{\beta}}$ 이 $\textbf{b}$와 같으므로,

즉 선형모델은 $\textbf{y}$를 column space of $\textbf{X}$에 projection한 것과 같음을 알수있다.

▶Mean and Variance of $\textbf{b}$

$$\begin{align} \mathbb{E}[\textbf{b}] &= \mathbb{E}[(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}] \\&= (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\mathbb{E}[\textbf{y}] \\&=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T(\textbf{X}\boldsymbol{\beta}) \\&= \boldsymbol{\beta} \end{align}$$

$$\begin{align} Var\ \textbf{b} &= Var\ (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}\\&=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\sigma^2\textbf{I}\left ( (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\right )^T \\ &= (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{X}\left ((\textbf{X}^T\textbf{T})^T\right )^{-1}\sigma^2 \\ &= (\textbf{X}^T\textbf{X})^{-1}\sigma^2 \end{align}$$

'호주 대학원 생존기 > Mathematics' 카테고리의 다른 글

[Computational Statistics] Fisher Information (0)	2021.08.20
[Computational Statistics] Confidence Interval of linear model parameters (선형모델-2) (0)	2021.08.04
[Computational Statistics] Random Vectors (랜덤 벡터) (0)	2021.07.28
[Computational Statistics] Linear algebra for the linear models (선형모델해석을 위한 선형대수) (0)	2021.07.27
[Numerical Analysis] Numerical Integration (0)	2021.07.07

현재글[Computational Statistics] Linear model (선형모델)

호주 대학원에서 살아남기 위해 발버둥 치는 이야기

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

호주에서 살아남기 위한 처절한 몸부림을 기록하는 블로그