09 Linear Regression

Published: 23 Sep 2018 Category: ml-foundations

介绍了线性回归算法,问题的解以及泛化误差分析,见详细课件

关注几个核心问题:

  • 问题的Formulation
  • 最小二乘求解步骤
  • 算法Intuition
  • 误差公式推导以及泛化问题

Formulation

线性回归问题Formulation是,假设输入空间为

linear regression hypothesis为

求解目标是使$E_{in}(w)$最小,其表达式如下

方便推导,写成矩阵形式

ml-foundations-linear-regression-matrix-form

求出使$E_{in}(w)$最小的$w$,就是我们最终需要的解。

求解步骤

$E_{in}(w)$ continuous, differentiable and convex, close form solution exists.

问题是连续可导且凸,存在解析解,对$E_{in}(w)$求导,使导数为零,即可得到。将其展开,不难得到

因为向量內积满足交换律,不难得到$y^TXw = w^TX^Ty$。

对列向量$w$求导,求导过程中用到几个性质,将$w$展开很容易证明

  • $\nabla_w(w^Tb) = b$
  • $(w^TAw) = \sum \sum w_iw_jA_{ij}$
  • $\nabla_w(w^TAw) = (A + A^T)w$

不难得到

得到ordinary least squares(OLS)解。

其中$X^+=(X^TX)^{-1}X^T$称为pseudo-inverse of X。算法汇总到一张Slide如下

ml-foundations-linear-regression-algorithm

算法Intuition

首先引入Hat Matrix的概念

其中$H=X(X^TX)^{-1}X^T$叫做Hat Matrix。

The estimate $\hat y$ is a linear transformation of the actual $y$ through matrix multiplication with $H$.

根据Hat Matrix的表达式,很容易证明有如下性质

  • $H^T=H$
  • $H^K=H$
  • $(I-H)^K=I-H$
  • $trace(H)=d+1$
  • $trace(I-H)=N-(d+1)$

ml-foundations-hat-matrix

Hat Matrix直观几何意义就是将$y$投射到$X$的列空间。

误差推导

课程给出$\bar E_{in}(w)$比较直观的推导。

ml-foundations-linear-regression-error-proof

数学上简单证明

基本假设是线性函数加上噪音

代入下面式子

然后再将$y$表达式反代回来

得到

所以

对其求期望

其中

以及

$\epsilon_i$和$\epsilon_j$相互独立,且其期望都为0。

最终的到Learning Curve如下

ml-foundations-linear-regression-learning-curve