지난 포스팅에서 다룬 랜덤벡터들의 성질을 이용하여 선형 모델의 Matrix form을 나타내보고,
parameter들을 fitting하는 방법인 method of least squsres를 살펴보고자 한다.
1. Full rank linear model
full rank 모델은 design matrix $X$ 즉 데이터 들이 담겨있는 matrix $\textbf{X}$ 가 full rank를 가짐을 의미한다
$$r(\textbf{X}) = k+1$$
이는 다른말로 $\textbf{X}^T\textbf{X}$가 invertible 하다는 의미이다.
2. Model assumption
$$\textbf{y} = \textbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$$
이와 같은 선형모델을 생각해보자 이때 error vector $\boldsymbol{\epsilon}$은 다음과 같이 가정한다
$$\boldsymbol{\epsilon} \sim N(\textbf{0}, \sigma^2\textbf{I})$$
선형모델에서 error vector만 random term 을 가지므로
(frequentist approach, bayesian 인 경우에는 $\boldsymbol{\beta$} 도 random vector로 고려할 것이다)
$$\mathbb{E}[\textbf{y}] = \textbf{X}\boldsymbol{\beta}$$
$$Var\ \textbf{y} = \sigma^2\textbf{I}$$
3. Least squares estimates
▶ parameter estimation
구하고자 하는 parameter vector를 $\textbf{b}$, residuals를 $\textbf{e}$라 하자
parameter vector $\textbf{b}$를 구하는 방법은 square sum of residuals를 최소화 하면 된다.
$$\begin{align}\textbf{e}^T \textbf{e} &= (\textbf{y} - \textbf{Xb})^T(\textbf{y} - \textbf{Xb})\\ &= \textbf{y}^2\textbf{y} - \textbf{y}^T\textbf{Xb}-\textbf{b}^T\textbf{X}^T\textbf{y}+\textbf{b}^T\textbf{X}^T\textbf{T}\textbf{b} \\& = \textbf{y}^T\textbf{y}-2\textbf{y}^T\textbf{Xb} + \textbf{b}^T\textbf{X}^T\textbf{Xb}\\& = \textbf{y}^T\textbf{y}-2(\textbf{X}^T\textbf{y})^T\textbf{b} + \textbf{b}^T(\textbf{X}^T\textbf{X})\textbf{b} \end{align}$$
두번째 식에서 세번째 식으로 넘어가는것이 한번에 이해하기 어려운데 이는 $\textbf{y}^T\textbf{Xb}$ 값이 scalar 이므로 symmetic하기 때문에 가능하다. ($\textbf{y}^T\textbf{Xb} = \textbf{b}^T\textbf{X}^T\textbf{y}$)
이식을 minimize하기 위하여 아래의 식을 구하면
$$\frac{\partial \textbf{e}^T\textbf{e}}{\partial \textbf{b}} = \textbf{0}$$
다음과 같다.
$$-2\textbf{X}^T\textbf{y} + 2(\textbf{X}^T\textbf{X})\textbf{b} = \textbf{0}$$
만약 vector differentiaion이 익숙하지 않다면 아래의 포스팅의 맨 마지막 부분을 참고하자
이를 정리하면 parameter vector $\textbf{b}$가 아래와 같은 식을통해 estimation될 수 있음을 알 수 있다.
$$\textbf{b} = (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}$$
4. Orthongonal property
▶ Residuals orthogonal to the column space of $\textbf{X}$
$\textbf{Xb}$는 $\textbf{X}$의 column space 안에 존재하는 어떤 vector를 의미한다.
그렇다면 residual vector와의 관계는 무엇인가?
Column space of $\textbf{X}$ 와 residual vector $\textbf{y}-\textbf{Xb}$를 생각해보자
3. 에서 구한 $\textbf{b} = (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T$를 이용하여
$\textbf{Xb}$ 와 residual 인 $\textbf{y} - \textbf{Xb}$의 inner product를 구하면
$$(\textbf{Xb})^T(\textbf{y}-\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T)\textbf{y}$$
$$=\textbf{b}^T(\textbf{X}^T-\textbf{X}^T\textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T)\textbf{y} = \textbf{0}$$
즉 residual vector 와 column space of $\textbf{X}$는 orthogonal 하다
▶Geometric interpretation of least squares
바로 위에서 본 orthogonality를 이용하여 geometic interpretation을 해보면 다음과 같다
본 그림은 위키피이아에서 퍼온 것인데 $\boldsymbol{\hat{\beta}}$ 이 $\textbf{b}$와 같으므로,
즉 선형모델은 $\textbf{y}$를 column space of $\textbf{X}$에 projection한 것과 같음을 알수있다.
▶Mean and Variance of $\textbf{b}$
$$\begin{align} \mathbb{E}[\textbf{b}] &= \mathbb{E}[(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}] \\&= (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\mathbb{E}[\textbf{y}] \\&=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T(\textbf{X}\boldsymbol{\beta}) \\&= \boldsymbol{\beta} \end{align}$$
$$\begin{align} Var\ \textbf{b} &= Var\ (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{y}\\&=(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\sigma^2\textbf{I}\left ( (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\right )^T \\ &= (\textbf{X}^T\textbf{X})^{-1}\textbf{X}^T\textbf{X}\left ((\textbf{X}^T\textbf{T})^T\right )^{-1}\sigma^2 \\ &= (\textbf{X}^T\textbf{X})^{-1}\sigma^2 \end{align}$$
'호주 대학원 생존기 > Mathematics' 카테고리의 다른 글
[Computational Statistics] Fisher Information (0) | 2021.08.20 |
---|---|
[Computational Statistics] Confidence Interval of linear model parameters (선형모델-2) (0) | 2021.08.04 |
[Computational Statistics] Random Vectors (랜덤 벡터) (0) | 2021.07.28 |
[Computational Statistics] Linear algebra for the linear models (선형모델해석을 위한 선형대수) (0) | 2021.07.27 |
[Numerical Analysis] Numerical Integration (0) | 2021.07.07 |