Skip to content

Commit 5075853

Browse files
Xin TangXin Tang
Xin Tang
authored and
Xin Tang
committed
Machine Learnint Notes
0 parents  commit 5075853

5 files changed

+850
-0
lines changed

1.Intro_Math.md

+208
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,208 @@
1+
# Introduction
2+
3+
对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
4+
$$
5+
X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}
6+
$$
7+
这个记号表示有 $N$ 个样本,每个样本都是 $p$ 维向量。其中每个观测都是由 $p(x|\theta)$ 生成的。
8+
9+
## 频率派的观点
10+
11+
$p(x|\theta)$中的 $\theta$ 是一个常量。对于 $N$ 个观测来说观测集的概率为 $p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta))$ 。为了求 $\theta$ 的大小,我们采用最大对数似然MLE的方法:
12+
13+
$$
14+
\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)
15+
$$
16+
17+
18+
## 贝叶斯派的观点
19+
20+
贝叶斯派认为 $p(x|\theta)$ 中的 $\theta$ 不是一个常量。这个 $\theta$ 满足一个预设的先验的分布 $\theta\sim p(\theta)$ 。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
21+
22+
$$
23+
p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}
24+
$$
25+
为了求 $\theta$ 的值,我们要最大化这个参数后验MAP:
26+
27+
28+
$$
29+
\theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta)
30+
$$
31+
其中第二个等号是由于分母和 $\theta$ 没有关系。求解这个 $\theta$ 值后计算$\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}$ ,就得到了参数的后验概率。其中 $p(X|\theta)$ 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
32+
$$
33+
p(x_{new}|X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta
34+
$$
35+
其中积分中的被乘数是模型,乘数是后验分布。
36+
37+
## 小结
38+
39+
频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。
40+
41+
# MathBasics
42+
43+
## 高斯分布
44+
45+
### 一维情况 MLE
46+
47+
高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中:
48+
49+
$$
50+
\theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)
51+
$$
52+
一般地,高斯分布的概率密度函数PDF写为:
53+
54+
$$
55+
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}
56+
$$
57+
带入 MLE 中我们考虑一维的情况
58+
59+
$$
60+
\log p(X|\theta)=\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)=\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x_{i}-\mu)^{2}/2\sigma^{2})
61+
$$
62+
首先对 $\mu$ 的极值可以得到 :
63+
$$
64+
\mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits _{\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}
65+
$$
66+
于是:
67+
$$
68+
\frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}
69+
$$
70+
其次对 $\theta$ 中的另一个参数 $\sigma$ ,有:
71+
$$
72+
\begin{align}
73+
\sigma_{MLE}=\mathop{argmax}\limits _{\sigma}\log p(X|\theta)&=\mathop{argmax}\limits _{\sigma}\sum\limits _{i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]\nonumber\\
74+
&=\mathop{argmin}\limits _{\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]
75+
\end{align}
76+
$$
77+
于是:
78+
$$
79+
\frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}
80+
$$
81+
值得注意的是,上面的推导中,首先对 $\mu$ 求 MLE, 然后利用这个结果求 $\sigma_{MLE}$ ,因此可以预期的是对数据集求期望时 $\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]$ 是无偏差的:
82+
$$
83+
\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu
84+
$$
85+
但是当对 $\sigma_{MLE}$ 求 期望的时候由于使用了单个数据集的 $\mu_{MLE}$,因此对所有数据集求期望的时候我们会发现 $\sigma_{MLE}$ 是 有偏的:
86+
87+
$$
88+
\begin{align}
89+
\mathbb{E}_{\mathcal{D}}[\sigma_{MLE}^{2}]&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{MLE}+\mu_{MLE}^{2})\nonumber
90+
\\&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{MLE}^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{MLE}^{2}]\nonumber\\
91+
&= \mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}]-\mathbb{E}_{\mathcal{\backslash D}}[\mu_{MLE}^{2}-\mu^{2}]=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mu^{2})\nonumber\\&=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mathbb{E}_{\mathcal{D}}^{2}[\mu_{MLE}])=\sigma^{2}-Var[\mu_{MLE}]\nonumber\\&=\sigma^{2}-Var[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\sigma^{2}-\frac{1}{N^{2}}\sum\limits _{i=1}^{N}Var[x_{i}]=\frac{N-1}{N}\sigma^{2}
92+
\end{align}
93+
$$
94+
所以:
95+
$$
96+
\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}
97+
$$
98+
99+
100+
### 多维情况
101+
102+
多维高斯分布表达式为:
103+
$$
104+
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}
105+
$$
106+
其中 $x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p}$ ,$\Sigma$ 为协方差矩阵,一般而言也是半正定矩阵。这里我们只考虑正定矩阵。首先我们处理指数上的数字,指数上的数字可以记为 $x$ 和 $\mu$ 之间的马氏距离。对于对称的协方差矩阵可进行特征值分解,$\Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits _{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T}$ ,于是:
107+
108+
$$
109+
\Sigma^{-1}=\sum\limits _{i=1}^{p}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}
110+
$$
111+
112+
$$
113+
\Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits _{i=1}^{p}(x-\mu)^{T}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits _{i=1}^{p}\frac{y_{i}^{2}}{\lambda_{i}}
114+
$$
115+
116+
我们注意到 $y_{i}$ 是 $x-\mu$ 在特征向量 $u_{i}$ 上的投影长度,因此上式子就是 $\Delta$ 取不同值时的同心椭圆。
117+
118+
下面我们看多维高斯模型在实际应用时的两个问题
119+
120+
1. 参数 $\Sigma,\mu$ 的自由度为 $O(p^{2})$ 对于维度很高的数据其自由度太高。解决方案:高自由度的来源是 $\Sigma$ 有 $\frac{p(p+1)}{2}$ 个自由参数,可以假设其是对角矩阵,甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。
121+
122+
2. 第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。
123+
124+
下面对多维高斯分布的常用定理进行介绍。
125+
126+
我们记 $x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}$,已知 $x\sim\mathcal{N}(\mu,\Sigma)$。
127+
128+
首先是一个高斯分布的定理:
129+
130+
> 定理:已知 $x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b$,那么 $y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)$。
131+
>
132+
> 证明:$\mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b$,$Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T$。
133+
134+
下面利用这个定理得到 $p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a)$ 这四个量。
135+
136+
1. $x_a=\begin{pmatrix}\mathbb{I}_{m\times m}&\mathbb{O}_{m\times n})\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}$,代入定理中得到:
137+
$$
138+
\mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_a\\
139+
Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\\mathbb{O}\end{pmatrix}=\Sigma_{aa}
140+
$$
141+
所以 $x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa})$。
142+
143+
2. 同样的,$x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb})$。
144+
145+
3. 对于两个条件概率,我们引入三个量:
146+
$$
147+
x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\
148+
\mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\\
149+
\Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}
150+
$$
151+
特别的,最后一个式子叫做 $\Sigma_{bb}$ 的 Schur Complementary。可以看到:
152+
$$
153+
x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}
154+
$$
155+
所以:
156+
$$
157+
\mathbb{E}[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_{b\cdot a}\\
158+
Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\\mathbb{I}_{n\times n}\end{pmatrix}=\Sigma_{bb\cdot a}
159+
$$
160+
利用这三个量可以得到 $x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$。因此:
161+
$$
162+
\mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a
163+
$$
164+
165+
$$
166+
Var[x_b|x_a]=\Sigma_{bb\cdot a}
167+
$$
168+
169+
这里同样用到了定理。
170+
171+
4. 同样:
172+
$$
173+
x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b\\
174+
\mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b\\
175+
\Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}
176+
$$
177+
所以:
178+
$$
179+
\mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b
180+
$$
181+
182+
$$
183+
Var[x_a|x_b]=\Sigma_{aa\cdot b}
184+
$$
185+
186+
下面利用上边四个量,求解线性模型:
187+
188+
> 已知:$p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1})$,求解:$p(y),p(x|y)$。
189+
>
190+
> 解:令 $y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})$,所以 $\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b$,$Var[y]=A \Lambda^{-1}A^T+L^{-1}$,因此:
191+
> $$
192+
> p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)
193+
> $$
194+
> 引入 $z=\begin{pmatrix}x\\y\end{pmatrix}$,我们可以得到 $Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]$。对于这个协方差可以直接计算:
195+
> $$
196+
> \begin{align}
197+
> Cov(x,y)&=\mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T]=\mathbb{E}[(x-\mu)(x-\mu)^TA^T]=Var[x]A^T=\Lambda^{-1}A^T
198+
> \end{align}
199+
> $$
200+
> 注意到协方差矩阵的对称性,所以 $p(z)=\mathcal{N}\begin{pmatrix}\mu\\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix})$。根据之前的公式,我们可以得到:
201+
> $$
202+
> \mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)
203+
> $$
204+
>
205+
> $$
206+
> Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}
207+
> $$
208+

2.LinearRegression.md

+132
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,132 @@
1+
# 线性回归
2+
3+
假设数据集为:
4+
$$
5+
\mathcal{D}=\{(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)\}
6+
$$
7+
后满我们记:
8+
$$
9+
X=(x_1,x_2,\cdots,x_N)^T,Y=(y_1,y_2,\cdots,y_N)^T
10+
$$
11+
线性回归假设:
12+
$$
13+
f(w)=w^Tx
14+
$$
15+
16+
## 最小二乘法
17+
18+
对这个问题,采用二范数定义的平方误差来定义损失函数:
19+
$$
20+
L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2
21+
$$
22+
展开得到:
23+
$$
24+
\begin{align}
25+
L(w)&=(w^Tx_1-y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T\nonumber\\
26+
&=(w^TX^T-Y^T)\cdot (Xw-Y)=w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\nonumber\\
27+
&=w^TX^TXw-2w^TX^TY+Y^TY
28+
\end{align}
29+
$$
30+
最小化这个值的 $ \hat{w}$ :
31+
$$
32+
\begin{align}
33+
\hat{w}=\mathop{argmin}\limits_wL(w)&\longrightarrow\frac{\partial}{\partial w}L(w)=0\nonumber\\
34+
&\longrightarrow2X^TX\hat{w}-2X^TY=0\nonumber\\
35+
&\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y
36+
\end{align}
37+
$$
38+
这个式子中 $(X^TX)^{-1}X^T$ 又被称为伪逆。对于行满秩或者列满秩的 $X$,可以直接求解,但是对于非满秩的样本集合,需要使用奇异值分解(SVD)的方法,对 $X$ 求奇异值分解,得到
39+
$$
40+
X=U\Sigma V^T
41+
$$
42+
于是:
43+
$$
44+
X^+=V\Sigma^{-1}U^T
45+
$$
46+
在几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和,假设我们的试验样本张成一个 $p$ 维空间(满秩的情况):$X=Span(x_1,\cdots,x_N)$,而模型可以写成 $f(w)=X\beta$,也就是 $x_1,\cdots,x_N$ 的某种组合,而最小二乘法就是说希望 $Y$ 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直:
47+
$$
48+
X^T\cdot(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY
49+
$$
50+
51+
## 噪声为高斯分布的 MLE
52+
53+
对于一维的情况,记 $y=w^Tx+\epsilon,\epsilon\sim\mathcal{N}(0,\sigma^2)$,那么 $y\sim\mathcal{N}(w^Tx,\sigma^2)$。代入极大似然估计中:
54+
$$
55+
\begin{align}
56+
L(w)=\log p(Y|X,w)&=\log\prod\limits_{i=1}^Np(y_i|x_i,w)\nonumber\\
57+
&=\sum\limits_{i=1}^N\log(\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\\
58+
\mathop{argmax}\limits_wL(w)&=\mathop{argmin}\limits_w\sum\limits_{i=1^N}(y_i-w^Tx_i)^2
59+
\end{align}
60+
$$
61+
这个表达式和最小二乘估计得到的结果一样。
62+
63+
## 权重先验也为高斯分布的 MAP
64+
65+
取先验分布 $w\sim\mathcal{N}(0,\sigma_0^2)$。于是: 
66+
$$
67+
\begin{align}
68+
\hat{w}=\mathop{argmax}\limits_wp(w|Y)&=\mathop{argmax}\limits_wp(Y|w)p(w)\nonumber\\
69+
&=\mathop{argmax}\limits_w\log p(Y|w)p(w)\nonumber\\
70+
&=\mathop{argmax}\limits_w(\log p(Y|w)+\log p(w))\nonumber\\
71+
&=\mathop{argmin}\limits_w[(y-w^Tx)^2+\frac{\sigma^2}{\sigma_0^2}w^Tw]
72+
\end{align}
73+
$$
74+
这里省略了 $X$,$p(Y)$和 $w$ 没有关系,同时也利用了上面高斯分布的 MLE的结果。
75+
76+
我们将会看到,超参数 $\sigma_0$的存在和下面会介绍的 Ridge 正则项可以对应,同样的如果将先验分布取为 Laplace 分布,那么就会得到和 L1 正则类似的结果。
77+
78+
## 正则化
79+
80+
在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:
81+
82+
1. 加数据
83+
2. 特征选择(降低特征维度)如 PCA 算法。
84+
3. 正则化
85+
86+
正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚),下面我们介绍一般情况下的两种正则化框架。
87+
$$
88+
\begin{align}
89+
L1&:\mathop{argmin}\limits_wL(w)+\lambda||w||_1,\lambda\gt0\\
90+
L2&:\mathop{argmin}\limits_wL(w)+\lambda||w||^2_2,\lambda \gt 0
91+
\end{align}
92+
$$
93+
下面对最小二乘误差分别分析这两者的区别。
94+
95+
### L1 Lasso
96+
97+
L1正则化可以引起稀疏解。
98+
99+
从最小化损失的角度看,由于 L1 项求导在0附近的左右导数都不是0,因此更容易取到0解。
100+
101+
从另一个方面看,L1 正则化相当于:
102+
$$
103+
\mathop{argmin}\limits_wL(w)\\
104+
s.t. ||w||_1\lt C
105+
$$
106+
我们已经看到平方误差损失函数在 $w$ 空间是一个椭球,因此上式求解就是椭球和 $||w||_1=C$的切点,因此更容易相切在坐标轴上。
107+
108+
### L2 Ridge
109+
110+
$$
111+
\begin{align}
112+
\hat{w}=\mathop{argmin}\limits_wL(w)+\lambda w^Tw&\longrightarrow\frac{\partial}{\partial w}L(w)+2\lambda w=0\nonumber\\
113+
&\longrightarrow2X^TX\hat{w}-2X^TY+2\lambda \hat w=0\nonumber\\
114+
&\longrightarrow \hat{w}=(X^TX+\lambda \mathbb{I})^{-1}X^TY
115+
\end{align}
116+
$$
117+
118+
可以看到,这个正则化参数和前面的 MAP 结果不谋而合。利用2范数进行正则化不仅可以是模型选择 $w$ 较小的参数,同时也避免 $ X^TX$不可逆的问题。
119+
120+
## 小结
121+
122+
线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。
123+
124+
传统的机器学习方法或多或少都有线性回归模型的影子:
125+
126+
1. 线性模型往往不能很好地拟合数据,因此有三种方案克服这一劣势:
127+
1. 对特征的维数进行变换,例如多项式回归模型就是在线性特征的基础上加入高次项。
128+
2. 在线性方程后面加入一个非线性变换,即引入一个非线性的激活函数,典型的有线性分类模型如感知机。
129+
3. 对于一致的线性系数,我们进行多次变换,这样同一个特征不仅仅被单个系数影响,例如多层感知机(深度前馈网络)。
130+
2. 线性回归在整个样本空间都是线性的,我们修改这个限制,在不同区域引入不同的线性或非线性,例如线性样条回归和决策树模型。
131+
3. 线性回归中使用了所有的样本,但是对数据预先进行加工学习的效果可能更好(所谓的维数灾难,高维度数据更难学习),例如 PCA 算法和流形学习。
132+

0 commit comments

Comments
 (0)