深入理解监督学习的概率视角：从噪声、建模到MLE与MAP

数学模型（Mathematical Model）指的是通过数学语言（包括方程式、函数和图像等），对给定问题进行刻画的一种表述。概率模型（Probabilistic Model）是一种数学模型，其表述的是不同随机变量之间的关系，其描述的是多个随机变量之间相互非确定性的概率关系。

概率模型一般采用(Y, P)的方式进行描述，其中Y代表的是观测数据的集合，用来描述可能的观测结果；P是产生观测数据Y的生成过程（即概率分布函数）的集合。

需要注意的是：若采用概率模型，需要假设确定存在一个生成观测数据Y的集合P，即概率分布函数P生成观测数据Y，并利用统计推断的方法，从集合P中确定谁是数据产生的原因。在机器学习中，确定集合P中谁是数据产生的原因的常用方法/策略有两个：最大似然估计（Maximum Likelihood Estimation, MLE）和最大后验估计（Maximum A Posteriori, MAP）。

监督学习的概率模型形式化表述

在监督学习的背景下，需要从给定的标注数据集中学习到输入到输出的映射的统计规律。记标注数据集

\mathcal{D} = \{(\pmb x_i, y_i)\}_{i = 1}^N

是真实映射关系y = f(\pmb x)产生的带有噪声的数据集合。为什么会带有噪声也就是不确定性？由于存在偶然不确定性（Aleatory Uncertainty）以及认知的不确定性（Epistemic Uncertainty），认知不确定性可以通过收集信息来减少，但是偶然不确定性无法消除。关于不确定性的定义与识别可以参照3.Defining and identifying uncertainty一节学习。

假设真实分布函数y = f(\pmb x)是确定性的数量值函数（Deterministic Scalar Function），即给定固定输入\pmb x，输出值y也是固定的。对于第i个输入，其预测值Y_i可以表示为下式：

Y_i = f(\pmb x_i) + Z_i

其中Z_i是表示的是第i个输入的噪声（或扰动）的随机变量，其均值为0，方差为\sigma_i^2，因此预测值Y_i也是随机变量。这样假设的目的有以下两点：

假设输入与输出的真实映射关系是确定性的，将两种不确定性完全统一到扰动变量Z_i上；
可以使用我们假设的参数模型近似真实分布，且不存在系统性误差。原因是

\mathbb{E}[Y_i] = \mathbb{E}[f(\pmb x_i) + Z_i] = f(\pmb x_i)

即在长期意义下，预测值Y_i是真实输出值f(\pmb x_i)的无偏估计。若噪声Z_i的期望值不为0，假设其为\mu_i，则预测值：

\mathbb{E}[Y_i] = \mathbb{E}[f(\pmb x_i) + Z_i] = f(\pmb x_i) + \mu_i

即预测值会产生一个偏移项\mu_i。

由于噪声Z_i的生成过程是未知的，因此需要给出对噪声生成过程的假设。一般情况下会假设噪声Z_i是独立同分布的（Independently and Identically Distributed, i.i.d.）来自于高斯分布\mathcal{N}(0, \sigma^2)，即：

Z_i \overset{i.i.d.}{\sim} \mathcal{N}(0, \sigma^2)

则在该假设下，预测值有：

Y_i \overset{i.i.d.}{\sim} \mathcal{N}(f(\pmb x_i), \sigma^2)

此外，在监督学习的背景下，所有已知信息只有标注数据集\mathcal{D}。因此，真实映射关系f(\pmb x)无法精确获得，故而需要寻找一个对真实映射关系的最佳近似。假设参数化函数是对真实映射关系y = f(\pmb x)的近似，即由参数\pmb \theta = [\theta_1, \cdots, \theta_n]^\top决定的映射关系表示为：

\mathcal{h}_{\pmb \theta}(\pmb x) \doteq h(\pmb x, \pmb \theta)

该函数h_{\pmb \theta}(\pmb x)被称为假设模型或预测函数。进而预测值Y_i服从：

Y_i \overset{i.i.d.}{\sim} \mathcal{N}(h_{\pmb \theta}(\pmb x_i), \sigma^2)

上述形式化表述的本质其实是对条件概率分布直接建模，即：

P(Y|X = \pmb x, \pmb \theta) \doteq \mathcal{N}(h_{\pmb \theta}(\pmb x), \sigma^2)

此时，构建的模型其实就是概率模型。根据统计推断中的方法，从假设空间中挑选出最佳的一组\pmb \theta，使得其在已知数据和未知数据上均可取得最佳的预测。此时，就称已找到对真实映射关系的最佳近似。

理解监督学习建模中的要点

统计规律与概率分布的关系

首先，需要区分统计规律与概率分布这两个概念。

统计规律指的是一种稳定趋势或可预测的现象（现象指的是可被观测到的事实），这种现象是通过对同一操作或随机试验大规模重复（观察）时所呈现出来的；概率分布是对统计规律的一种精确描述，它是一个数学函数，用来量化和描述随机变量取值概率，它提供了关于随机变量的所有可能取值及每一个取值对应的概率的完整信息。
概率分布是描述统计规律的工具和语言。 统计规律是现象层面的，而概率分布是数学模型层面的。

在监督学习中，由于潜在的真实数据生成过程模型是未知的，只能通过观察数据进行感知，也就是通过多次观测，获得标注数据（即观测数据），从标注数据中学习到输入到输出映射的统计规律，而这个统计规律采用概率分布量化和精确描述。

监督学习的概率模型建模要点

在建模过程中涉及了两层建模，分别是确定性映射近似与噪声建模与概率分布构建。具体过程如下：

第一层（确定性映射的近似）： 我们用一个参数化的函数 h_{\pmb \theta}(\pmb x)去近似真实的、理想的、无噪声的输入-输出关系 f(x)。这一步是关于预测输出的 “期望值”或“趋势”。
- 目的： 找到输入\pmb x与输出Y的中心对应关系。
- 产物： h_{\pmb \theta}(\pmb x)，它通常是一个确定性函数。
第二层（噪声建模与概率分布的构建）： 在第一层的基础上，我们承认现实世界中的数据总是带有随机性。这种随机性被归结为噪声Z。为了完整地描述输出 Y 的行为，我们需要对 Z 的概率分布做出假设。
- 目的： 捕捉数据中的不确定性，并将其量化为概率。
- 产物： 结合 h_{\pmb \theta}(\pmb x)和 Z 的分布，我们得到 Y 的条件概率分布 P(Y∣X=\pmb x, \pmb \theta)。这个分布既包含了Y 的中心趋势（由h_{\pmb \theta}(\pmb x)决定），也包含了它的变异性（由 Z 的分布决定）。

需要注意的是，在监督学习中，我们最终学习到的预测模型是一个函数，其是对某一个关键统计量的建模，最常见的就是Y的条件期望，即：

\mathbb{E}[Y|X = \pmb x] = f(\pmb x) \approx h_{\pmb \theta}(\pmb x)

预测函数h_{\pmb \theta} (\pmb x)捕捉了输入\pmb x到输出y的中心趋势或最可能的值，这一结果是由大数定理保证的。

模型参数\pmb \theta与外部输入\pmb x之间的关系

在“形式化表述”一节中，模型参数\pmb \theta定义了模型如何将输入\pmb x转化为对输出Y的一个预测或概率分布。在标准的监督学习中，我们通常假设输入 X是给定或被观察到的，它不受模型内部参数\pmb \theta的“影响”，其被认为是来自于真实世界中某个边际分布 P(X)，模型从X中学习来预测Y，但它不会改变或定义X本身。

由于外部输入X是通过其边缘分布P(X)采样得来的，在监督学习的判别式模型中并不关心外部输入X的分布形状到底是什么样子的，并没有对外部输入X的分布进行建模，而是对条件概率P(Y|X = \pmb x, \pmb \theta)进行建模，是在明确地问：“给定一个特定的输入\pmb x，并且给定定义了预测函数的参数\pmb θ，那么Y的概率分布是什么？”。在这种情况下，x被视为一个固定的、已知的值。它不再是正在采样的随机变量了，而只是计算概率的“条件”。由于 \pmb \theta描述的是**\pmb x和Y之间的关系**，而 \pmb x只是模型处理的一个输入，所以\pmb \theta的具体值不会影响首先观测到某个特定x的概率。

举个例子，输入X就像一家餐厅的菜单。菜单上的菜品（输入）是独立存在的，不管你雇佣什么样的厨师（模型），菜单都不会改变；\pmb \theta就像厨师的食谱。它规定了厨师（你的模型）如何根据菜单上的食材（输入X）烹制一道菜（预测 Y）。厨师的食谱并不会改变菜单上有什么食材，食材就在那里。

确定数据产生的原因

由于对监督学习建模所得到的数学模型是一个概率模型，根据“形式化表述”一节，已经给出了观测集\mathcal{D}及一个确定的生成该观测集的生成过程Y_i|X = \pmb x_i \sim \mathcal{N}(h_{\pmb \theta}(\pmb x), \sigma^2)。下一步就是通过统计推断的方法，从中确定“最可能”产生数据集\mathcal{D}的原因。

最大似然估计与最小化经验风险

最大似然估计回答的问题是：最可能产生给定的样本集\mathcal{D}的一组参数\pmb \theta是什么。

根据“形式化表述”一节中的定义与假设，可以构造似然函数\mathcal{L}(\pmb \theta|\mathcal{D})如下：

\mathcal{L}(\pmb \theta |\mathcal D) = P((\pmb x_1, y_1), \cdots, (\pmb x_N, y_N)|\pmb \theta)

由于样本之间是独立同分布的，根据概率的乘法公式，有下式：

\mathcal{L}(\pmb \theta |\mathcal D) = \prod_{i = 1}^N P(\pmb x_i, y_i|\pmb \theta)

成立。最大似然函数所回答的问题可以建模为一个优化问题，如下所示：

\mathop{\arg\max}_{\pmb \theta} \; \mathcal{L}(\pmb x|\mathcal D) = \mathop{\arg\max}_{\pmb \theta} \prod_{i = 1}^N P(\pmb x_i, y_i|\pmb \theta)

根据概率的乘法公式，该优化问题可以展开为：

\mathop{\arg\max}_{\pmb \theta} \prod_{i = 1}^N P(\pmb x_i, y_i|\pmb \theta) = \mathop{\arg\max}_{\pmb \theta} \prod_{i = 1}^N P(y_i|\pmb x_i, \pmb \theta) P(\pmb x_i|\pmb \theta)

由于参数\pmb \theta与输入\pmb x是无关的，即P(\pmb x|\pmb \theta) = P(\pmb x)，上式可以变为：

\mathop{\arg\max}_{\pmb \theta} \prod_{i = 1}^N P(\pmb x_i, y_i|\pmb \theta) = \mathop{\arg\max}_{\pmb \theta} \prod_{i = 1}^N P(y_i|\pmb x_i, \pmb \theta) P(\pmb x_i)

根据P(\pmb x)\ge 0和单调变换不改变优化问题的解，可以继续化简为：

\begin{aligned} \mathop{\arg\max}_{\pmb \theta} \prod_{i = 1}^N P(y_i|\pmb x_i, \pmb \theta) P(\pmb x_i) &= \mathop{\arg\max}_{\pmb \theta} \prod_{i = 1}^N P(y_i|\pmb x_i, \pmb \theta) \\ &= \mathop{\arg\max}_{\pmb \theta}\sum_{i = 1}^N \ln[P(y_i|\pmb x_i, \pmb \theta)] \end{aligned}

由于P(y_i|\pmb x_i, \pmb \theta) = \mathcal{N}(h_{\pmb \theta}(\pmb x_i), \sigma^2)，则有：

\begin{aligned} \mathop{\arg\max}_{\pmb \theta}\sum_{i = 1}^N \ln[P(y_i|\pmb x_i, \pmb \theta)] &= \mathop{\arg\max}_{\pmb \theta}\sum_{i = 1}^N \ln [\mathcal{N}(h_{\pmb \theta}(\pmb x_i), \sigma^2)] \\ &= \mathop{\arg\max}_{\pmb \theta}\sum_{i = 1}^N \ln[\frac{1}{\sigma\sqrt{2\pi}}\exp(-\frac{(y_i - h_{\pmb \theta}(\pmb x_i))^2}{2\sigma^2})] \\ &= \mathop{\arg\max}_{\pmb \theta} \left[- \sum_{i = 1}^N \ln(\sigma\sqrt{2\pi}) - \sum_{i = 1}^N \frac{(y_i - h_{\pmb \theta}(\pmb x_i))^2}{2\sigma^2}\right] \\ &= \mathop{\arg\min}_{\pmb \theta}\sum_{i = 1}^N (y_i - h_{\pmb \theta}(\pmb x_i))^2 \end{aligned}

该结果与通过最小二乘法得到的优化问题同解，其等价于机器学习中的最小化经验风险。

最大后验估计与最小化结构化风险

若已知参数\pmb \theta的一些先验知识，例如已知\pmb \theta服从某一个概率分布函数，如何将该先验知识结合到预测模型中？答案是采用贝叶斯公式将先验知识引入进来，这就引出了最大后验估计（MAP），其回答的问题是：根据现有的观测数据\mathcal{D}，最有可能的一组参数\pmb \theta是什么。

MAP与MLE的差异

注意区分与MLE的不同：MLE回答的是使得观测数据最有可能出现的那组参数；而MAP回答的是根据现有数据，最有可能出现的那组参数。MLE关注的是数据。它认为在所有可能的参数中，使得当前观测数据出现的可能性最大的那个参数，就是最好的参数。它不带任何偏见或先验知识；MAP 关注的是参数。它认为在所有可能的参数中，结合了先验知识后，使参数自身可能性最大化的那个参数，是最好的参数。它在数据的基础上，融入了我们对参数本身的“偏好”或“经验”。

举个例子来说明，你是一个警察，有若干个小偷，现在已知某样物品失窃了，MLE策略相当于是去找最可能偷这个物品的小偷；而MAP策略则是根据当前的证据，去推断谁最可能去偷这个物品。

MLE：警察看到失窃物品，只根据 “物品失窃”这个事实（观测数据），去推断哪个小偷（参数）如果作案，最能解释这个失窃物品的情况。它不考虑小偷以前有没有偷过东西，或者警察心目中哪个小偷“看起来”更像小偷。它只看数据。
MAP：这里的“当前证据”不仅包括 “物品失窃”这个事实（观测数据），还包括警察对每个小偷的 “先验信念”（例如，某个小偷有多次盗窃前科，或者警察之前就怀疑某个小偷）。MAP策略是综合了这些先验信息和当前失窃的证据，来推断最可能的小偷。

引入先验知识P(\pmb \theta)的参数\pmb \theta估计

根据贝叶斯公式，有下式：

P(\pmb \theta|\mathcal D) = \frac{P(\mathcal D|\pmb \theta)P(\pmb \theta)}{P(\mathcal D)}

MAP回答的问题可以建模为一个优化问题，如下所示：

\mathop{\arg\max}_{\pmb \theta} \; P(\pmb \theta|\mathcal D) = \mathop{\arg\max}_{\pmb \theta} \frac{P(\mathcal D|\pmb \theta)P(\pmb \theta)}{P(\mathcal D)}

由于P(\mathcal D)是一个归一化常数，该优化问题等价为：

\mathop{\arg\max}_{\pmb \theta} \; P(\pmb \theta|\mathcal D) = \mathop{\arg\max}_{\pmb \theta} \; P(\mathcal D|\pmb \theta)P(\pmb \theta)

由于样本之间是独立同分布的，根据概率的乘法公式，有下式：

\begin{aligned} \mathop{\arg\max}_{\pmb \theta} \; P(\mathcal D|\pmb \theta)P(\pmb \theta) &= \mathop{\arg\max}_{\pmb \theta} \; P((\pmb x_1, y_1), \cdots, (\pmb x_N, y_N)|\pmb \theta)P(\pmb \theta) \\ &= \mathop{\arg\max}_{\pmb \theta} \; \left[\prod_{i = 1}^N P(y_i|\pmb x_i,\pmb \theta)\right] P(\pmb \theta) \end{aligned}

根据单调变换不改变优化问题的解，可以继续化简为：

\begin{aligned} \mathop{\arg\max}_{\pmb \theta} \; \left[\prod_{i = 1}^N P(y_i|\pmb x_i,\pmb \theta)\right] P(\pmb \theta) &= \mathop{\arg\max}_{\pmb \theta} \; \sum_{i = 1}^N\ln P(y_i|\pmb x_i, \pmb \theta) + \ln P(\pmb \theta) \\ &= \mathop{\arg\max}_{\pmb \theta} \; \sum_{i = 1}^N \ln[\mathcal N(h_{\pmb \theta}(\pmb x_i), \sigma^2)] + \ln P(\pmb \theta) \\ &= \mathop{\arg\max}_{\pmb \theta} \; \sum_{i = 1}^N \ln \left[ \frac{1}{\sigma\sqrt{2\pi}}\exp(-\frac{(y_i - h_{\pmb \theta}(\pmb x_i))^2}{2\sigma^2}) \right] + \ln P(\pmb \theta) \\ &= \mathop{\arg\max}_{\pmb \theta} \; - \sum_{i = 1}^N \ln(\sigma\sqrt{2\pi}) - \sum_{i = 1}^N \frac{(y_i - h_{\pmb \theta}(\pmb x_i))^2}{2\sigma^2} + \ln P(\pmb \theta) \\ &= \mathop{\arg\min}_{\pmb \theta} \; \sum_{i = 1}^N \left[\frac{(y_i - h_{\pmb \theta}(\pmb x_i))^2}{2\sigma^2}\right] -\ln P(\pmb \theta) \\ &= \mathop{\arg\min}_{\pmb \theta} \; \frac{1}{2\sigma^2} \left[\sum_{i = 1}^N (y_i - h_{\pmb \theta}(\pmb x_i))^2 - 2\sigma^2 \ln P(\pmb \theta)\right]\\ &= \mathop{\arg\min}_{\pmb \theta} \; \sum_{i = 1}^N (y_i - h_{\pmb \theta}(\pmb x_i))^2 - 2\sigma^2 \ln P(\pmb \theta) \\ &= \mathop{\arg\min}_{\pmb \theta} \; \sum_{i = 1}^N (y_i - h_{\pmb \theta}(\pmb x_i))^2 + \lambda \ln P(\pmb \theta), & \lambda = -2\sigma^2. \end{aligned}

由于P(\pmb \theta) \in (0, 1]，则\ln P(\pmb \theta) \in (-\infty, 0]。因此，\lambda \ln P(\pmb \theta) \ge 0。这一项相当于引入了一个惩罚项，这是因为对于集中在零点附近的先验，远离零点的\pmb \theta会导致 \ln P(\pmb \theta)更小，即负得更多，那么 \lambda \ln P(\pmb \theta)这一项实际上会因为\ln P(\pmb \theta)的负值而变为正数，从而实现 "惩罚"效果。其保证了最后的解不仅要保证经验风险最小，还需要其从能保证经验风险最小的解中选择使得惩罚项也尽可能的项作为最后的解，这其实就是最小化结构风险。

digSelf

digSelf

深入理解监督学习的概率视角：从噪声、建模到MLE与MAP

监督学习的概率模型形式化表述

理解监督学习建模中的要点

统计规律与概率分布的关系

监督学习的概率模型建模要点

模型参数\pmb \theta与外部输入\pmb x之间的关系

确定数据产生的原因

最大似然估计与最小化经验风险

最大后验估计与最小化结构化风险

MAP与MLE的差异

引入先验知识P(\pmb \theta)的参数\pmb \theta估计

分享

digSelf

digSelf

深入理解监督学习的概率视角：从噪声、建模到MLE与MAP

监督学习的概率模型形式化表述

理解监督学习建模中的要点

统计规律与概率分布的关系

监督学习的概率模型建模要点

模型参数​\pmb \theta与外部输入​\pmb x之间的关系

确定数据产生的原因

最大似然估计与最小化经验风险

最大后验估计与最小化结构化风险

MAP与MLE的差异

引入先验知识​P(\pmb \theta)的参数​\pmb \theta估计

分享

模型参数\pmb \theta与外部输入\pmb x之间的关系

引入先验知识P(\pmb \theta)的参数\pmb \theta估计