PGMIntro completed

tsyw · tsyw · commit 42d44e787992 · 2020-02-11T22:44:43.000+08:00
diff --git a/1.Intro_Math.md b/1.Intro_Math.md
@@ -24,7 +24,7 @@ p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\th
 $$
 为了求 $\theta$ 的值，我们要最大化这个参数后验MAP：
 
- 
+
 $$
 \theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta)
 $$
diff --git a/7.PGMIntro.md b/7.PGMIntro.md
@@ -120,5 +120,181 @@ $$
 $$
 \phi(x_{ci})=\exp(-E(x_{ci}))
 $$
-这个分布叫做 Gibbs 分布（玻尔兹曼分布）。于是也可以记为：$p(x)=\frac{1}{Z}\exp(-\sum\limits_{i=1}^KE(x_{ci}))$。这个分解和条件独立性等价（Hammesley-Clifford 定理），这个分布的形式也和指数族分布形式上相同，于是满足最大熵原理。
+ 这个分布叫做 Gibbs 分布（玻尔兹曼分布）。于是也可以记为：$p(x)=\frac{1}{Z}\exp(-\sum\limits_{i=1}^KE(x_{ci}))$。这个分解和条件独立性等价（Hammesley-Clifford 定理），这个分布的形式也和指数族分布形式上相同，于是满足最大熵原理。
+
+## 两种图的转换-道德图
+
+我们常常想将有向图转为无向图，从而应用更一般的表达式。
+
+1.  链式：
+
+    ```mermaid
+    graph TB;
+    	A((A))-->B((B));
+    	B-->C((C));
+    ```
+
+    直接去掉箭头，$p(a,b,c)=p(a)p(b|a)p(c|b)=\phi(a,b)\phi(b,c)$：
+
+    ```mermaid
+    graph TB;
+    	A((A))---B((B));
+    	B---C((C));
+    ```
+
+2.  V 形：
+
+    ```mermaid
+    graph TB;
+    	B((B))-->A((A));
+    	B-->C((C));
+    ```
+
+    由于 $p(a,b,c)=p(b)p(a|b)p(c|b)=\phi(a,b)\phi(b,c)$，直接去掉箭头：
+
+    ```mermaid
+    graph TB;
+    	B((B))---A((A));
+    	B---C((C));
+    ```
+
+3.  倒 V 形：
+
+    ```mermaid
+    graph TB;
+    	A((A))-->B((B));
+    	C((C))-->B
+    ```
+
+    由于 $p(a,b,c)=p(a)p(c)p(b|a,c)=\phi(a,b,c)$，于是在 $a,c$ 之间添加线：
+
+    ```mermaid
+    graph TD;
+    	a((a))---b((b));
+    	b---c((c));
+    	a---c;
+    ```
+
+    观察着三种情况可以概括为：
+
+    1.  将每个节点的父节点两两相连
+    2.  将有向边替换为无向边
+
+## 更精细的分解-因子图
+
+对于一个有向图，可以通过引入环的方式，可以将其转换为无向图（Tree-like graph），这个图就叫做道德图。但是我们上面的 BP 算法只对无环图有效，通过因子图可以变为无环图。
+
+考虑一个无向图：
+
+```mermaid
+graph TD;
+	a((a))---b((b));
+	b---c((c));
+	a---c;
+```
+
+可以将其转为：
+
+```mermaid
+graph TD;
+	a((a))---f;
+	f---b((b));
+	f---c((c))
+```
+
+其中 $f=f(a,b,c)$。因子图不是唯一的，这是由于因式分解本身就对应一个特殊的因子图，将因式分解：$p(x)=\prod\limits_{s}f_s(x_s)$ 可以进一步分解得到因子图。
+
+## 推断
+
+推断的主要目的是求各种概率分布，包括边缘概率，条件概率，以及使用 MAP 来求得参数。通常推断可以分为：
+
+1.  精确推断
+    1.  Variable Elimination(VE)
+    2.  Belief Propagation(BP, Sum-Product Algo)，从 VE 发展而来
+    3.  Junction Tree，上面两种在树结构上应用，Junction Tree 在图结构上应用
+2.  近似推断
+    1.  Loop Belief Propagation（针对有环图）
+    2.  Mente Carlo Interference：例如 Importance Sampling，MCMC
+    3.  Variational Inference
+
+### 推断-变量消除（VE）
+
+变量消除的方法是在求解概率分布的时候，将相关的条件概率先行求和或积分，从而一步步地消除变量，例如在马尔可夫链中：
+
+```mermaid
+graph LR;
+	a((a))-->b((b));
+	b-->c((c));
+	c-->d((d))
+```
+
+$$
+p(d)=\sum\limits_{a,b,c}p(a,b,c,d)=\sum\limits_cp(d|c)\sum\limits_bp(c|b)\sum\limits_ap(b|a)p(a)
+$$
+
+变量消除的缺点很明显：
+
+1.  计算步骤无法存储
+2.  消除的最优次序是一个 NP-hard 问题
+
+### 推断-信念传播（BP）
+
+为了克服 VE 的第一个缺陷-计算步骤无法存储。我们进一步地对上面的马尔可夫链进行观察：
+
+```mermaid
+graph LR;
+	a((a))-->b((b));
+	b-->c((c));
+	c-->d((d));
+	d-->e((e));
+```
+
+要求 $p(e)$，当然使用 VE，从 $a$ 一直消除到 $d$，记 $\sum\limits_ap(a)p(b|a)=m_{a\to b(b)}$，表示这是消除 $a$ 后的关于 $b$ 的概率，类似地，记 $\sum\limits_bp(c|b)m_{a\to b}(b)=m_{b\to c}(c)$。于是 $p(e)=\sum\limits_dp(e|d)m_{b\to c}(c)$。进一步观察，对 $p(c)$：
+$$
+p(c)=[\sum\limits_bp(c|b)\sum\limits_ap(b|a)p(a)]\cdot[\sum\limits_dp(d|c)\sum\limits_ep(e)p(e|d)]
+$$
+我们发现了和上面计算 $p(e)$ 类似的结构，这个式子可以分成两个部分，一部分是从 $a$ 传播过来的概率，第二部分是从 $ e$ 传播过来的概率。
+
+一般地，对于图（只对树形状的图）：
+
+```mermaid
+graph TD;
+	a((a))---b((b));
+	b---c((c));
+	b---d((d));
+```
+
+这四个团（对于无向图是团，对于有向图就是概率为除了根的节点为1），有四个节点，三个边：
+$$
+p(a,b,c,d)=\frac{1}{Z}\phi_a(a)\phi_b(b)\phi_c(c)\phi_d(d)\cdot\phi_{ab}(a,b)\phi_{bc}(c,b)\phi_{bd}(d,b)
+$$
+套用上面关于有向图的观察，如果求解边缘概率 $p(a)$，定义 $m_{c\to b}(b)=\sum\limits_c\phi_c(c)\phi_{bc}(bc)$，$m_{d\to b}(b)=\sum\limits_d\phi_d(d)\phi_{bd}(bd)$，$m_{b\to a}(a)=\sum\limits_b\phi_{ba}(ba)\phi_b(b)m_{c\to b}(b)_{d\to b}m(b)$，这样概率就一步步地传播到了 $a$：
+$$
+p(a)=\phi_a(a)m_{b\to a}(a)
+$$
+写成一般的形式，对于相邻节点 $i,j$：
+$$
+m_{j\to i}(i)=\sum\limits_j\phi_j(j)\phi_{ij}(ij)\prod\limits_{k\in Neighbour(j)-i}m_{k\to j}(j)
+$$
+这个表达式，就可以保存计算过程了，只要对每条边的传播分别计算，对于一个无向树形图可以递归并行实现：
+
+1.  任取一个节点 $a$ 作为根节点
+2.  对这个根节点的邻居中的每一个节点，收集信息（计算入信息）
+3.  对根节点的邻居，分发信息（计算出信息）
+
+### 推断-Max-Product 算法
+
+在推断任务中，MAP 也是常常需要的，MAP 的目的是寻找最佳参数：
+$$
+(\hat{a},\hat{b},\hat{c},\hat{d})=\mathop{argmax}_{a,b,c,d}p(a,b,c,d|E)
+$$
+类似 BP，我们采用信息传递的方式来求得最优参数，不同的是，我们在所有信息传递中，传递的是最大化参数的概率，而不是将所有可能求和：
+$$
+m_{j\to i}=\max\limits_{j}\phi_j\phi_{ij}\prod\limits_{k\in Neighbour(j)-i}m_{k\to j}
+$$
+于是对于上面的图：
+$$
+\max_a p(a,b,c,d)=\max_a\phi_a\phi_{ab}m_{c\to b}m_{d\to b}
+$$
+这个算法是 Sum-Product 算法的改进，也是在 HMM 中应用给的 Viterbi 算法的推广。