贝叶斯深度学习综合介绍-上犹电脑信息网

作者：上犹日期：2023-01-16 10:17:05

返回目录：电脑怎么了

今天小编给各位分享comprehensive的知识，文中也会对其通过贝叶斯深度学习综合介绍和为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型？等多篇文章进行知识讲解，如果文章内容对您有帮助，别忘了关注本站，现在进入正文！

内容导航：
贝叶斯深度学习综合介绍

为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型？

什么是深度学习与机器视觉

变分贝叶斯初探

一、贝叶斯深度学习综合介绍

弥补基础知识与现代研究之间的差距。

Joris Baan.

15分钟阅读

> Photo by Cody Hiscox on Unsplash

1.序言

贝叶斯（深）学习始终吸引和恐吓着我。也许是因为它倾向于概率理论，这可能是令人生畏的。我注意到即使我知道基本的概率理论，我也很难理解并将其连接到现代贝叶斯深度学习研究。这个博客的目的是弥补那个差距并提供全面的介绍。

我将从Andrew Wilson和Pavel Izmailov（NYU）的贝叶斯深度学习和泛化概括为令人难以置信的Neurips 2020纸，而不是从基础开始，而不是令人难以置信的深度学习和泛化普通的普通学习和普通化的概率视角。本文用作有形的起点，我们自然地遇到了野生的贝叶斯概念。我希望这使得贝叶斯观点更加具体并与其相关性一致。

我将从论文摘要开始并介绍设置舞台。正如我们遇到贝叶斯概念，我将缩小全面概述，既可以从概率和ML /函数近似透视中提供充足的直觉。最后，在整个帖子中，我将回到并与论文连接。

我希望你不仅会感受到至少有轻微的贝叶斯，而且还要了解论文的众多贡献，概括;）

2.神经网络泛化（摘要和介绍）

如果你的贝叶斯知识有点遗忘，摘要似乎很神秘。前两句话对我们对贝叶斯深度学习的一般性理解特别重要。中间部分呈现三种技术贡献。最后两次突出的句子在新的洞察中为神秘神经网络现象提供了一个初步。我会覆盖一切，但首先是第一件事：本文的介绍。

> Abstract of Bayesian Deep Learning and a Probabilistic Perspective of Generalization by Andrew Wilson and Pavel Izmailov (NYU)

介绍中的一个重要问题是神经网络泛化的方式和原因。作者争辩说

“从概率的角度来看，泛化在很大程度上取决于模型的两个属性，偏见的支持和推导。”

支持是模型可以支持的数据集类的范围。换一种说法;模型可以表示的特征范围，其中函数试图表示数据生成过程。归纳偏见定义了模型类在拟合特定数据集类（例如图像，文本，数值）时的良好度。作者们称之为，非常好，“支持分布”。换句话说，分布在所有可能数据集（支持）范围内的模型类性能。

让我们来看看作者提供的例子。线性函数具有截断的支持，因为它甚至不能代表二次函数。MLP是高度灵活的，但是对于许多图像数据集来说，甚至将其跨越数据集分发其支持。卷积神经网络在用于图像识别的支持和归纳偏见之间具有良好的平衡。图2a很好地说明了这一点。

> Support and its distribution (inductive bias) for several model types. Wilsen et al. (2020) Figure 2a

垂直轴代表我天真地解释为“模型在拟合特定数据集时的良好”。它实际上是贝叶斯证据或边际可能性;我们的第一个贝叶斯概念！我们将在下一节中探讨。让我们首先完成我们的思路。

一个良好的模型不仅需要大量的支持能够代表真正的解决方案，而且还需要正确的归纳偏见实际到达该解决方案。贝叶斯后部，将其视为我们的模型，应该由于良好的归纳偏见而应拟合到正确的解决方案。然而，先前的假设空间应该足够宽，使得真正的模型在特征上可以（广泛的支持）。下面的插图向三个示例模型演示了这一点。从左到右，我们在紫色的绿色，线性函数中看到CNN，以及粉红色的MLP。

> Relation between the prior, posterior and true model for model types with varying support and inductive bias. CNN (b), MLP ( c ) and linear model (d). Wilsen et al. (2020) Figure 2

此时在引言中，类似于摘要的第一句，作者强调了这一点

“贝叶斯方法的关键区别特性是边缘化而不是优化，在那里我们代表由其后验概率加权的参数的所有设置给出的解决方案，而不是在单个参数设置上赌所有内容。”

挖掘边缘化与优化的时间成熟，并扩大对贝叶斯方法的一般理解。我们将触及后，先验和预测分布，边缘可能性和贝叶斯证据，贝叶斯模型平均，贝叶斯推论等。

3. 回到基础：贝叶斯的方法

我们可以找到关于边缘化的声明，在任何地方都在贝叶斯统计数据的核心。即使在主教的ML圣经-模式识别和机器学习中。与贝叶斯视角相反的是常见的观点。这就是你在大多数机器学习文学中遇到的。掌握也更容易。让我们从那里开始。

3.1 频率

机器学习的常见方法是优化损耗特征以获得模型参数的最佳设置。示例丢失特征是跨熵，用于分类任务，例如对象检测或机器翻译。最常用的优化技术是（随机）梯度下降。在SGD中，模型参数在损耗空间中最陡流向上迭代地更新。该方向由相对于参数的损耗的梯度确定。所需的结果是，对于相同或相似的输入，该新参数设置导致输出较近表示目标值。在神经网络的情况下，通常使用称为后向传播的计算技巧计算梯度。

> Navigating a loss space in the direction of steepest descent using Gradient Descent. Amini et al. (2017) Figure 2.

从概率的角度来看，频率是试图最大化可能性p（d | w，m}）。简单的说：选择我们的参数w，使得它们最大化观察到的数据集D的概率，以我们选择M模型M（主教，第1.2.3章）。M通常是为了简单而遗漏。从概率的角度来看，（统计）模型只是数据D（主教，第3.4章）的概率分布。例如;语言模型输出在词汇表上的分布，表明每个单词是下一个单词的可能性。事实证明，这种最大似然估计（MLE）获得的频率估计或“训练”，可以从更大的贝叶斯语境中查看预测模型。事实上，MLE可以被认为是最大的后验估计的特殊情况（MAP，我很快就会讨论）。

3.2贝叶斯主义者

贝叶斯方法的一个关键性质是要实际量化不确定性。这对于要求我们信任模型预测的现实世界应用至关重要。因此，代替参数点估计，贝叶斯方法定义了参数的完全概率分布。我们称之为后部分布。后验代表了我们关于每个参数的值（设置）的信仰/假设/不确定性。我们使用贝叶斯定理来计算后部。本定理位于贝叶斯ML的核心 - 因此名称 - 并且可以使用简单的概率规则来源。

我们从参数中指定先前的分发P（w），以捕获我们的信仰，在观察任何数据之前，我们的模型参数应该是什么样的。

然后，使用我们的数据集，我们可以使用可能性p（d | w）更新（乘以）我们的先前信念。这一可能性是我们在频繁的方法中看到的相同数量。它告诉我们观察到的数据通过特定参数设置W如何解释。换一种说法;我们的模型如何拟合或生成该数据集。可能性是我们参数w的函数。

然而，为了获得有效的后验概率分布，必须为每个参数设置评估可能性和先前的产品，并归一化。这意味着在所有参数设置上边缘化（总结或集成）。标准化常数被称为贝叶斯（模型）证据或边际似然P（d）。

这些名称非常直观，因为P（d）提供了我们的模型有多好的证据（即数据的可能性）。使用“整个模型”，我的意思是考虑到所有可能的参数设置。换句话说：边缘化对它们。我们有时会明确地包括模型选择分钟作为p（d | m）的证据。这使我们能够将不同的型号与不同的参数空间进行比较。事实上，在比较CNN，MLP和线性模型之间的支持和电感偏压时，这一比较正是在纸张中发生的事情！

3.3贝叶斯推论和边缘化

我们现在已经到了此事的核心。贝叶斯推论是发现（推断）上W的后部分布的学习过程。这与尝试通过差异化的优化找到最佳W对比，频繁消费者的学习过程。

正如我们现在所知，计算完整的后后部，我们必须在整个参数空间上边缘化。在实践中，这通常是不可能的（棘手的），因为我们可以具有无限的这样的环境。这就是为什么贝叶斯方法根本性地关于边缘化而不是优化。

后验中的难以切割的积分导致不同的方法，用于学习参数值。贝叶斯主义者通常使用诸如马尔可夫链蒙特卡罗（MCMC）等的采样方法而不是梯度下降，而是使用诸如Markov Chain Monte Carlo（MCMC）或变分推理;尝试使用更简单的贸易的分布式模仿后部的技术。类似的技术通常用于生成模型，例如VAES。近似复杂分布的相对较新的方法是归一化流量。

4.如何在实践中使用后部？

现在我们了解贝叶斯后部分布，我们如何在实践中实际使用它？如果我们想预测，说，下一个单词，让我们给人一个看不见的句子x？

4.1最大后验（MAP）估计

嗯，我们可以简单地将后续分布用于我们的Model M的参数，并选择具有分配给它的最高概率的参数设置W ^（分布模式）。该方法称为最大后的后验或地图估计。但是……经历所有这一切努力，通过我们的参数计算适当的概率分布，这将是一个很浪费，只能为另一点估计估计，对吧？（除了几乎所有后部的质量时围绕参数空间中的一个点居中。因为地图提供了一个点估计，所以它不被认为是一个完整的贝叶斯治疗。

> Maximum A Posteriori (MAP) estimation; not a full Bayesian treatment. Hero et al. (2008)

4.2完全预测分配

完整的贝叶斯方法是指定预测分布（y | d，x）。

这定义了Class Label Y给定的新输入x和数据集D的概率。计算预测分布，我们需要再次通过参数设置边缘化！我们使用参数设置W将每个设置W的后概率乘以标签W给出输入X的概率。这称为贝叶斯模型平均或BMA，我们在所有可能的型号上进行加权平均值（在这种情况下参数设置）。预测分布是贝叶斯ML中边缘化的第二个重要位置，第一个是后部计算本身。直观的方式来可视化预测分布的是具有简单回归任务，如下图所示。对于一个具体的例子，请检查这些幻灯片（幻灯片9-21）。

> Predictive distribution on a simple regression task. High certainty around observed data points; high uncertainty elsewhere. Yarin Gal (2015)

4.3近似预测分配

正如我们现在所知，预测分配中的积分通常是棘手的，并且在最难度的计算上昂贵。使用后验的第三种方法是采样几个参数设置并组合所得模型（例如，近似BMA）。这实际上被称为蒙特卡罗近似值的预测分配！

最后一个方法模糊地让人想起了一个谦逊的频率更熟悉的东西：深刻的合奏。通过组合架构相同的神经网络来形成深度集合，而是用不同的参数初始化训练。这种美妙地与我们在纸上留下的地方有关！还记得摘要吗？

“我们展示深深的合奏提供了近似贝叶斯边缘化的有效机制，并提出了一种相关的方法，进一步提高了吸引力盆地内的边缘化预测分布”。

第二次阅读摘要，贡献应该更有意义。此外，我们终于转向贝叶斯深度学习领域！

5.贝叶斯深度学习

贝叶斯神经网络（BNN）简单地应用于神经网络架构。要精确，为每个重量和偏置指定了先前的分发。然而，由于它们的巨大参数空间，推断后的后续比平时更困难。

那么为什么需要贝叶斯深度学习？

经典答案是获得不确定或校准的真实表达。如果类预测的概率（置信度）以其错误分类率对准，则认为分类器被视为校准。如前所述，这对现实世界应用至关重要。

“在他们的预测通常过于自信的情况下，神经网络经常被错误刺激。”

然而，我们的运行纸张，威尔逊和伊兹蒙罗夫的作者认为，贝叶斯模型平均也提高了准确性。根据第3.1节，贝叶斯观点实际上是神经网络的引人注目！由于它们的参数空间大，神经网络可以代表许多不同的解决方案，例如，它们不受数据指定。这意味着贝叶斯模型平均值非常有用，因为它结合了各种功能形式或“观点”，进入一个。

“神经网络可以代表许多与我们的观察结果一致的模型。通过仅在经典程序中选择一个，当模型不同意测试点时，我们会失去不确定性。“

5.1最近（近似）贝叶斯深度学习的方法

许多人最近一直在努力结合传统神经网络的优势（例如，使用SGD和后向传播的计算高效训练）具有贝叶斯方法的优点（例如校准）。

蒙特卡罗Dropout

一个流行的，概念上简单的方法是Monte Carlo dropout。回想一下，传统上将Dropout用作正则化;它通过在训练期间随机关闭权重提供了神经网络的随机性或变化，它可以将丢失丢失作为近似贝叶斯推断和在测试期间应用，这导致多个不同的参数设置。听起来有点类似于从后部进行采样参数，以近似预测分布，MH？

> Original dropout mechanism. Srivastava et al. (2014)

随机重量平均 - 高斯

随机重量平均（SWA）遵循的另一种工作，与集合的优雅近似，智能地将同一网络的权重在不同的训练阶段（检查出这个或这个博客，如果您想了解更多。SWA-Gaussian通过使用SGD提供的简单信息近似于后验分布的形状（局部几何形状）构建。调用SGD“移动”通过在损耗空间中寻找（本地）最佳的参数空间。近似于局部几何后验，它们适合SGD迭代的第一和第二时刻的高斯分布。瞬间描述了功能或分布的形状，其中零时刻是总和，第一时刻是平均值，第二时刻是平均值方差。然后可以用于BMA的这些拟合的高斯分布。

频繁的不确定性代表的替代品

我显然未能提及至少99％的领域（例如，KFAC LAPLACE和改进校准的温度缩放），并根据我们的运行纸张相关，采摘上面的示例。我将完成最近频繁的最后一个例子（或者是它……）替代不确定性近似的一个例子。这是一种流行的方法，表明人们可以训练深度合奏并使用它来形成预测分布，从而产生良好的校准模型。他们使用了一些钟声和吹口哨，即我不会进入，例如对抗性训练来平滑预测分布。看看这里的论文。

6.回到论文

到目前为止，我们还是准备圈回论文并返回其贡献！他们应该更容易掌握:)

6.1深度合奏是BMA

与最近的文学（我所包括的人）相反，威尔逊和Izmailov认为，深深的合奏不是常见的替代方案，以获得贝叶斯的优势。事实上，它们是后部分布的非常好的近似。因为深度集合由地图或MLE刷新形成，所以它们可以形成不同的吸引力盆地。吸引力的盆地是“盆地”或损失景观中的山谷，导致某些（本地）最佳解决方案。但是，可能是，通常是多个最佳解决方案，或损失景观中的山谷。通过集合的不同部位发现多个吸引力的使用，导致比贝叶斯的方法更具功能的多样性，这些方法专注于近似于在吸引力的单一盆地内的后部。

6.2与贝叶斯神经网络相结合深度合奏（第4节）

这种使用多个吸引力盆地的想法对于下一个贡献以及近似预测分布的改进方法。通过将深度融合的多个盆地与赃物在赃物中的贝叶斯治疗中的多种盆地结合起来，提出了世界上最好的解决方案：多个吸引力随机重量的盆地平均高斯或多幅度：

“MultisWAG结合了多个独立训练的SWAG近似，以创建高斯近似到后部的混合，每个高斯以不同的盆地为中心。我们注意到，MultiSwag不需要在标准深度集合上进行任何额外的培训时间。“

如果您对Nitty Gritty细节感兴趣，请仔细查看本文;）

6.3神经网络前瞻（第5节）

我们如何在数百万参数之前指定一个有意义的参数，听到你问？事实证明这是一个非常有效的问题。事实上，贝叶斯方法有时是因为它而受到批评。

然而，在论文上的第5节中，威尔逊和Izmailov提供了证据表明先前指定模糊的证据，例如简单的高斯实际上可能不是这样的坏主意。

“在参数上的模糊高斯前锋，与神经网络架构相结合，诱导具有有用归纳偏差的功能的分布。”……
……“通过函数的分布控制了模型的泛化属性;在孤立上之前的参数没有任何意义。“

与神经网络的功能形式的模糊相结合导致功能空间的有意义分布。先前本身无关紧要，但它对产生的预测分配的影响确实如此。

6.4重新思考泛化和双重血统（第6和第7节）

我们现在已经到了我在摘要中突出的奇怪神经网络现象。根据第6节，神经网络可以适应随机标签的令人惊讶的事实实际上并不令人惊讶。如果您从支持和归纳偏见的角度来看它。广泛的支持，P（d | m）> 0的数据集的范围对于泛化是重要的。事实上，只要我们拥有正确的归纳偏差，适应随机标签的能力是完全良好的，以便将模型转向良好的解决方案。威尔逊和Izmailov也表明，这种现象也不是神秘的网络，而且高斯过程表现出相同的能力。

双血统

第二种现象是双重血统。Double Descent是最近发现的现象，其中型号更大，更多的数据意外地降低了性能。

> Figure taken from this OpenAI blogpost explaining Deep Double Descent

威尔逊和Izmailov发现，SGD培训的型号遭受双重血统，但会减少它。更重要的是，多人造纸以及深度整合完全减轻了双重血统现象！这符合他们先前讨论过的索赔

“深入的合奏能够比传统的单盆贝叶斯边缘化程序更好地逼近贝叶斯预测分布。”

并突出边缘化在多种后面的边缘化的重要性。

最后的话

你做到了！谢谢你一直阅读。这篇文章变得非常漫长，但我希望你能学到很多关于贝叶斯DL的事情。我肯定了。

请注意，我没有威尔逊，Izmailov或纽约州的群体。这篇文章反映了我对他们的工作的解释，除了直接从论文中采取的报价块。

请随时询问任何问题或指出毫无疑问的错误。我也很想知道你是否喜欢这篇文章。您可以在我的网站上找到我的联系方式，请在Twitter上留言或连接LinkedIn。在Jorisbaan.nl/Posts查看我的个人博客以获得适当的数学渲染！

(本文由闻数起舞翻译自Dimitris Poulopoulos的文章《A Comprehensive Introduction to Bayesian Deep Learning》，转载请注明出处，原文链接：https://towardsdatascience.com/a-comprehensive-introduction-to-bayesian-deep-learning-1221d9a051de)

一、为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型？

贝叶斯神经网络（Bayesian Neural Network）通过提供不确定来回答“Why Should I Trust You？”这个问题。实现上讲，贝叶斯通过集成深度学习参数矩阵中参数的Uncertainty来驾驭数据的不确定性，提供给具体Task具有置信空间Confidence的推理结构。
一般的神经网络我们称为Point estimation neural networks，通过MLE最大似然估计的方式建立训练的目标函数，为神经网络中的每个参数寻找一个optimal最优值；而贝叶斯深度学习一种把概率分布作为权重的神经网络，通过真实数据来优化参数的概率分布，在训练的过程中会使用MAP最大后验概率集成众多的模型参数的概率分布来拟合各种不确定的情况，提供处理数据不确定性的信息表达框架。
Transformer是一个符合Bayesian深度学习网络的AI架构，尤其是其经典的multi-head self-attention机制，该机制其实采用模型集成的思想来从工程角度落地贝叶斯深度学习网络；基于Prior先验信息的正则化效果，multi-head机制所表达的信息多元化及不确定性能够提供具有高置信度区间的回答 “Why Should I Trust You？”
贝叶斯Bayesian Transformer课程片段1：线性回归及神经网络AI技术底层通用的贝叶斯数学原理及其有效性证明
贝叶斯Bayesian Transformer课程片段2：人工智能算法底层真相之MLE和MAP完整的数学推导过程概率、对数、求导等以及MLE和MAP关系详解
贝叶斯Bayesian Transformer课程片段3：语言模型Language Model原理机制、数学推导及神经网络实现
贝叶斯Bayesian Transformer课程片段4：图解Transformer精髓之架构设计、数据在训练、推理过程中的全生命周期、矩阵运算、多头注意力机制可视化等
贝叶斯Bayesian Transformer课程片段5：什么叫Bayesian Transformer，Bayesian Transformer和传统的Transformer的核心区别是什么？
贝叶斯Bayesian Transformer课程片段6：Bayesian Transformer这种新型思考模型在学术和工业界的意义是什么，为什么说Transformer中到处都是Bayesian的实现？
贝叶斯Bayesian Transformer课程片段7：贝叶斯Bayesian Transformer数学推导论证过程全生命周期详解及底层神经网络物理机制剖析

二、什么是深度学习与机器视觉

深度学习框架，尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2]，而人工神经网络的历史更为久远。1989年，燕乐存（Yann LeCun）等人开始将1974年提出的标准反向传播算法[3]应用于深度神经网络，这一网络被用于手写邮政编码识别。尽管算法可以成功执行，但计算代价非常巨大，神经网路的训练时间达到了3天，因而无法投入实际使用[4]。许多因素导致了这一缓慢的训练过程，其中一种是由于尔根·施密德胡伯（Jürgen Schmidhuber）的学生赛普·霍克赖特（Sepp Hochreiter）于1991年提出的梯度消失问题[5][6]。与此同时，神经网络也受到了其他更加简单模型的挑战，支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。
“深度学习”这一概念从2007年前后开始受到关注。当时，杰弗里·辛顿（Geoffrey Hinton）和鲁斯兰·萨拉赫丁诺夫（Ruslan Salakhutdinov）提出了一种在前馈神经网络中进行有效训练的算法。这一算法将网络中的每一层视为无监督的受限玻尔兹曼机，再使用有监督的反向传播算法进行调优[7]。在此之前的1992年，在更为普遍的情形下，施密德胡伯也曾在递归神经网络上提出一种类似的训练方法，并在实验中证明这一训练方法能够有效提高有监督学习的执行速度[8][9].
自深度学习出现以来，它已成为很多领域，尤其是在计算机视觉和语音识别中，成为各种领先系统的一部分。在通用的用于检验的数据集，例如语音识别中的TIMIT和图像识别中的ImageNet, Cifar10上的实验证明，深度学习能够提高识别的精度。
硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度，使得机器学习算法的运行时间得到了显著的缩短[10][11]。
基本概念[编辑]
深度学习的基础是机器学习中的分散表示（distributed representation）。分散表示假定观测值是由不同因子相互作用生成。在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[1]。
深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪婪算法逐层构建而成，并从中选取有助于机器学习的更有效的特征[1].
不少深度学习算法都以无监督学习的形式出现，因而这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签数据更丰富，也更容易获得。这一点也为深度学习赢得了重要的优势[1]。
人工神经网络下的深度学习[编辑]
一部分最成功的深度学习方法涉及到对人工神经网络的运用。人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔（David H. Hubel）和托斯坦·威泽尔（Torsten Wiesel）提出的理论启发。休伯尔和威泽尔发现，在大脑的初级视觉皮层中存在两种细胞：简单细胞和复杂细胞，这两种细胞承担不同层次的视觉感知功能。受此启发，许多神经网络模型也被设计为不同节点之间的分层模型[12]。
福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构[13]。事实上，从反向传播算法自20世纪70年代提出以来，不少研究者都曾试图将其应用于训练有监督的深度神经网络，但最初的尝试大都失败。赛普·霍克赖特（Sepp Hochreiter）在其博士论文中将失败的原因归结为梯度消失，这一现象同时在深度前馈神经网络和递归神经网络中出现，后者的训练过程类似深度网络。在分层训练的过程中，本应用于修正模型参数的误差随着层数的增加指数递减，这导致了模型训练的效率低下[14][15]。
为了解决这一问题，研究者们提出了一些不同的方法。于尔根·施密德胡伯（Jürgen Schmidhuber）于1992年提出多层级网络，利用无监督学习训练深度神经网络的每一层，再使用反向传播算法进行调优。在这一模型中，神经网络中的每一层都代表观测变量的一种压缩表示，这一表示也被传递到下一层网络[8]。
另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络（long short term memory，LSTM）[16]。2009年，在ICDAR 2009举办的连笔手写识别竞赛中，在没有任何先验知识的情况下，深度多维长短期记忆神经网络取得了其中三场比赛的胜利[17][18]。
斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型，用以解决图像重建和人脸定位的问题[19]。
其他方法同样采用了无监督预训练来构建神经网络，用以发现有效的特征，此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机[20]对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕，这一深层结构成为一个生成模型，可以通过自上而下的采样重构整个数据集[21]。辛顿声称这一模型在高维结构化数据上能够有效低提取特征[22]。
吴恩达和杰夫·迪恩（Jeff Dean）领导的谷歌大脑（英语：Google Brain）团队创建了一个仅通过YouTube视频学习高层概念（例如猫）的神经网络[23] [24]。
其他方法依赖了现代电子计算机的强大计算能力，尤其是GPU。2010年，在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中，丹·奇雷尚（Dan Ciresan）和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法[10]。
截止2011年，前馈神经网络深度学习中最新的方法是交替使用卷积层（convolutional layers）和最大值池化层（max-pooling layers）并加入单纯的分类层作为顶端。训练过程也无需引入无监督的预训练[25][26]。从2011年起，这一方法的GPU实现[25]多次赢得了各类模式识别竞赛的胜利，包括IJCNN 2011交通标志识别竞赛[27]和其他比赛。
这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法[28]。
深度学习结构[编辑]
深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到递归神经网络[29]。卷积深度神经网络（Covolutional Neuron Networks, CNN）在计算机视觉领域得到了成功的应用[30]。此后，卷积神经网络也作为听觉模型被使用在自动语音识别领域，较以往的方法获得了更优的结果[31]。
深度神经网络[编辑]
深度神经网络（deep neuron networks, DNN）是一种判别模型，可以使用反向传播算法进行训练。权重更新可以使用下式进行随机梯度下降求解：

其中，为学习率，为代价函数。这一函数的选择与学习的类型（例如监督学习、无监督学习、增强学习）以及激活函数相关。例如，为了在一个多分类问题上进行监督学习，通常的选择是使用Softmax函数作为激活函数，而使用交叉熵作为代价函数。Softmax函数定义为，其中代表类别的概率，而和分别代表对单元和的输入。交叉熵定义为，其中代表输出单元的目标概率，代表应用了激活函数后对单元的概率输出[32]。
深度神经网络的问题[编辑]
与其他神经网络模型类似，如果仅仅是简单地训练，深度神经网络可能会存在很多问题。常见的两类问题是过拟合和过长的运算时间。
深度神经网络很容易产生过拟合现象，因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此，权重递减（正规化）或者稀疏（-正规化）等方法可以利用在训练过程中以减小过拟合现象[33]。另一种较晚用于深度神经网络训练的正规化方法是丢弃法（"dropout" regularization），即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模[34]。
反向传播算法和梯度下降法由于其实现简单，与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。但是，这些方法的计算代价很高，尤其是在训练深度神经网络时，因为深度神经网络的规模（即层数和每层的节点数）、学习率、初始权重等众多参数都需要考虑。扫描所有参数由于时间代价的原因并不可行，因而小批量训练（mini-batching），即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练，被用于加速模型训练[35]。而最显著地速度提升来自GPU，因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网络训练仍然存在困难，因而深度神经网络在训练并行化方面仍有提升的空间。
深度信念网络[编辑]

一个包含完全连接可见层和隐层的受限玻尔兹曼机（RBM）。注意到可见层单元和隐层单元内部彼此不相连。
深度信念网络（deep belief networks，DBN）是一种包含多层隐单元的概率生成模型，可被视为多层简单学习模型组合而成的复合模型[36]。
深度信念网络可以作为深度神经网络的预训练部分，并为网络提供初始权重，再使用反向传播或者其他判定算法作为调优的手段。这在训练数据较为缺乏时很有价值，因为不恰当的初始化权重会显著影响最终模型的性能，而预训练获得的权重在权值空间中比随机权重更接近最优的权重。这不仅提升了模型的性能，也加快了调优阶段的收敛速度[37]。
深度信念网络中的每一层都是典型的受限玻尔兹曼机（restricted Boltzmann machine，RBM），可以使用高效的无监督逐层训练方法进行训练。受限玻尔兹曼机是一种无向的基于能量的生成模型，包含一个输入层和一个隐层。图中对的边仅在输入层和隐层之间存在，而输入层节点内部和隐层节点内部则不存在边。单层RBM的训练方法最初由杰弗里·辛顿在训练“专家乘积”中提出，被称为对比分歧（contrast divergence, CD）。对比分歧提供了一种对最大似然的近似，被理想地用于学习受限玻尔兹曼机的权重[35]。当单层RBM被训练完毕后，另一层RBM可被堆叠在已经训练完成的RBM上，形成一个多层模型。每次堆叠时，原有的多层网络输入层被初始化为训练样本，权重为先前训练得到的权重，该网络的输出作为新增RBM的输入，新的RBM重复先前的单层训练过程，整个过程可以持续进行，直到达到某个期望中的终止条件[38]。
尽管对比分歧对最大似然的近似十分粗略（对比分歧并不在任何函数的梯度方向上），但经验结果证实该方法是训练深度结构的一种有效的方法[35]。
卷积神经网络[编辑]
主条目：卷积神经网络
卷积神经网络（convolutional neuron networks，CNN）由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构[39]。
卷积深度信念网络[编辑]
卷积深度信念网络（convolutional deep belief networks，CDBN）是深度学习领域较新的分支。在结构上，卷积深度信念网络与卷积神经网络在结构上相似。因此，与卷积神经网络类似，卷积深度信念网络也具备利用图像二维结构的能力，与此同时，卷积深度信念网络也拥有深度信念网络的预训练优势。卷积深度信念网络提供了一种能被用于信号和图像处理任务的通用结构，也能够使用类似深度信念网络的训练方法进行训练[40]。
结果[编辑]
语音识别[编辑]
下表中的结果展示了深度学习在通行的TIMIT数据集上的结果。TIMIT包含630人的语音数据，这些人持八种常见的美式英语口音，每人阅读10句话。这一数据在深度学习发展之初常被用于验证深度学习结构[41]。TIMIT数据集较小，使得研究者可以在其上实验不同的模型配置。

方法
声音误差率 (PER, %)

随机初始化RNN 26.1
贝叶斯三音子GMM-HMM 25.6
单音子重复初始化DNN 23.4
单音子DBN-DNN 22.4
带BMMI训练的三音子GMM-HMM 21.7
共享池上的单音子DBN-DNN 20.7
卷积DNN 20.0
图像分类[编辑]
图像分类领域中一个公认的评判数据集是MNIST数据集。MNIST由手写阿拉伯数字组成，包含60,000个训练样本和10,000个测试样本。与TIMIT类似，它的数据规模较小，因而能够很容易地在不同的模型配置下测试。Yann LeCun的网站给出了多种方法得到的实验结果[42]。截至2012年，最好的判别结果由Ciresan等人在当年给出，这一结果的错误率达到了0.23%[43]。
深度学习与神经科学[编辑]
计算机领域中的深度学习与20世纪90年代由认知神经科学研究者提出的大脑发育理论（尤其是皮层发育理论）密切相关[44]。对这一理论最容易理解的是杰弗里·艾尔曼（Jeffrey Elman）于1996年出版的专著《对天赋的再思考》（Rethinking Innateness）[45]（参见斯拉格和约翰逊[46]以及奎兹和赛杰诺维斯基[47]的表述）。由于这些理论给出了实际的神经计算模型，因而它们是纯计算驱动的深度学习模型的技术先驱。这些理论指出，大脑中的神经元组成了不同的层次，这些层次相互连接，形成一个过滤体系。在这些层次中，每层神经元在其所处的环境中获取一部分信息，经过处理后向更深的层级传递。这与后来的单纯与计算相关的深度神经网络模型相似。这一过程的结果是一个与环境相协调的自组织的堆栈式的转换器。正如1995年在《纽约时报》上刊登的那样，“……婴儿的大脑似乎受到所谓‘营养因素’的影响而进行着自我组织……大脑的不同区域依次相连，不同层次的脑组织依照一定的先后顺序发育成熟，直至整个大脑发育成熟。”[48]
深度结构在人类认知演化和发展中的重要性也在认知神经学家的关注之中。发育时间的改变被认为是人类和其他灵长类动物之间智力发展差异的一个方面[49]。在灵长类中，人类的大脑在出生后的很长时间都具备可塑性，但其他灵长类动物的大脑则在出生时就几乎完全定型。因而，人类在大脑发育最具可塑性的阶段能够接触到更加复杂的外部场景，这可能帮助人类的大脑进行调节以适应快速变化的环境，而不是像其他动物的大脑那样更多地受到遗传结构的限制。这样的发育时间差异也在大脑皮层的发育时间和大脑早期自组织中从刺激环境中获取信息的改变得到体现。当然，伴随着这一可塑性的是更长的儿童期，在此期间人需要依靠抚养者和社会群体的支持和训练。因而这一理论也揭示了人类演化中文化和意识共同进化的现象[50]。
公众视野中的深度学习[编辑]
深度学习常常被看作是通向真正人工智能的重要一步[51]，因而许多机构对深度学习的实际应用抱有浓厚的兴趣。2013年12月，Facebook宣布雇用燕乐存为其新建的人工智能实验室的主管，这一实验室将在加州、伦敦和纽约设立分支机构，帮助Facebook研究利用深度学习算法进行类似自动标记照片中用户姓名这样的任务[52]。
2013年3月，杰弗里·辛顿和他的两位研究生亚历克斯·克里泽夫斯基和伊利娅·苏特斯科娃被谷歌公司雇用，以提升现有的机器学习产品并协助处理谷歌日益增长的数据。谷歌同时并购了辛顿创办的公司DNNresearch[53]。
批评[编辑]
对深度学习的主要批评是许多方法缺乏理论支撑。大多数深度结构仅仅是梯度下降的某些变式。尽管梯度下降已经被充分地研究，但理论涉及的其他算法，例如对比分歧算法，并没有获得充分的研究，其收敛性等问题仍不明确。深度学习方法常常被视为黑盒，大多数的结论确认都由经验而非理论来确定。
也有学者认为，深度学习应当被视为通向真正人工智能的一条途径，而不是一种包罗万象的解决方案。尽管深度学习的能力很强，但和真正的人工智能相比，仍然缺乏诸多重要的能力。理论心理学家加里·马库斯（Gary Marcus）指出：
就现实而言，深度学习只是建造智能机器这一更大挑战中的一部分。这些技术缺乏表达因果关系的手段……缺乏进行逻辑推理的方法，而且远没有具备集成抽象知识，例如物品属性、代表和典型用途的信息。最为强大的人工智能系统，例如IBM的人工智能系统沃森，仅仅把深度学习作为一个包含从贝叶斯推理和演绎推理等技术的复杂技术集合中的组成部分[54]。

三、变分贝叶斯初探

原题：A Beginner's Guide to Variational Methods: Mean-Field Approximation
给初学者的变分法指导：平均场近似

这种推断-优化的二元性，赋予我们强大的能力。我们既可以使用最新、最好的优化算法来解决统计机器学习问题，也可以反过来，使用统计技术来最小化函数。

这篇文章是关于变分方法的入门教程。我将推导出最简单的VB方法的优化目标，称为平均场近似。这个目标，也称为变分下界，与变分自动编码器（ VAE ）中使用的技术完全相同（我将在后续文章中相信介绍它，堪称入木三分）。

1.问题的前提和符号约定
2.问题的表述
3.平均场近似的变分下界
4.前传KL与反传KL
5.与深度学习的联系

本文假设读者熟悉随机变量、概率分布和数学期望等概念。如果你忘了这些概念，可以在这里进行复习。机器学习和统计领域的符号约定没有被严格地标准化，因此在这篇文章中，我们约定如下符号，确定的符号将对理解文意很有帮助：

许多学术论文将术语“变量”、“分布”、“密度”，甚至“模型”互换使用。这种做法本身不一定导致错误，因为、和都可以通过一对一的对应关系相互指代。但是，将这些术语混合在一起，容易让人感到困惑。因为它们的指代范畴各不相同（比如对函数进行抽样没有意义，对分布积分同样没有意义）。

我们将系统建模为随机变量的集合，其中一些变量（）是“可观察的”，而其他变量（）是“隐藏的”。【译者按：后文称二者为“观察变量”和“隐变量”】我们可以通过下图绘制这种关系：

从到，通过条件分布这条边，将两个变量联系在一起。

说一个更形象的例子：可能代表“图像的原始像素值”，而是二值变量。如果是猫的图像，。

贝叶斯定理给出了任意一对随机变量之间的一般关系：

其中的各项与如下常见名称相关联：

是后验概率：“给定图像，这是猫的概率是多少？” 如果我们可以从进行采样，我们可以用它作一个猫分类器，告诉我们给定的图像是否是猫。

是似然概率：“给定的值，计算出该图像在该类别下的‘可能’程度（{是猫/不是猫})” 如果我们可以从进行采样，那么我们就可以生成猫的图像和非猫的图像，就像生成随机数一样容易。如果你想了解更多相关信息，请参阅我的关于生成模型的其他文章： [1] , [2] 。

是先验概率。它指代我们所知道的关于的任何先前信息——例如，如果我们认为所有图像中，有1/3是猫，那么并且。

这部分是为了感兴趣的读者准备的。请直接跳到下一部分，继续学习本教程。

前面猫的示例提供了观察变量、隐变量和先验的理解角度，是传统的一个示例。但是请注意，我们定义隐变量/观察变量之间的区别有些随意，你可以自由地将图形模型按需求进行分解。

我们可以通过交换等式的项来重写贝叶斯定理：

现在的“后验概率”是。

从贝叶斯统计框架，隐变量可以解释为附加到观察变量的先验信念。例如，如果我们认为是多元高斯，则隐变量可以表示高斯分布的均值和方差。另外，参数上的分布是的先验分布。

你也可以自由选择和代表的值。例如，可以代之以“均值、方差的立方根、以及，其中 ”。虽然有点突兀、奇怪，但只要相应地修改，结构仍然有效。

你甚至可以往系统中“添加”变量。先验本身可能通过依赖于其他随机变量，具有它们自己的的先验分布，并且那些先验仍然是有先验的，依此类推。任何超参数都可以被认为是先验的。在贝叶斯统计中，先验是无穷递归的。【译者按：1.英文中俗语“turtles all the way down”表示问题无限循环、递归，作者用了"priors all the way down"来诙谐地表达先验系统的递归性。2.先验的层次越深，对结果的影响越小】

我们感兴趣的关键问题是隐变量的后验推断或密度函数。后验推断的一些典型例子：

我们通常假设，我们已知如何计算似然分布和先验分布【译者按：原文为“function”函数，应为讹误，后文类似情况以符号为准】。

然而，对于像上面的复杂任务，我们常常不知道如何从采样或计算。或者，我们可能知道的形式，但相应的计算十分复杂，以至于我们无法在合理的时间内对其评估【译者按：“评估”的意思是给定似然函数，求出该函数在某一点上的值】。我们可以尝试使用像 MCMC 这样的基于采样的方法求解，但这类方法很难收敛。

变分推断背后的想法是这样的：对简单的参数分布（就像高斯分布）进行推断。对这个函数，我们已经知道如何做后验推断，于是任务变成了调整参数使得尽可能接近。【译者按：“推断”在这里指的是从观察变量的概率分布导出隐变量的概率分布】

这在视觉上如下图所示：蓝色曲线是真实的后验分布，绿色分布是通过优化得到的拟合蓝色密度的变分近似（高斯分布）。

两个分布“接近”意味着什么？平均场变分贝叶斯（最常见的类型）使用反向KL散度作为两个分布之间的距离度量。

反向KL散度测量出将 “扭曲（distort）”成所需的信息量（以nat为单位或以2为底的对数bits为单位）。我们希望最小化这个量。【译者按：1.“扭曲”的意思是，把和贴合在一起，即通过某种映射引发函数图像的形变，使二者图像一致；2.许多研究产生式模型的论文会比较不同方法下的散度值。】

根据条件分布的定义，。让我们将这个表达式代入原来的KL表达式，然后使用分配律：

为了使相对于变分参数最小化，我们只需要最小化，因为对于来说是常数。让我们重新写这个数量作为对分布的期望。

最小化上面的式子等价于最大化负的式子：

在文献中，被称为 变分下界 。如果我们能够估计、、，我们就可以计算它。我们可以继续调整式子里各项的顺序，使之更符合直觉：

如果说采样是将观察变量 “编码”为隐变量的过程，则采样是从重建观察变量的“解码”过程。

由此得出是预期的“解码”似然（即变分分布能在多大程度上将样本解码回样本），再减去变分近似的分布与先验之间的KL散度【译者按：原文是“加上”，应该是减去】。如果我们假设是条件高斯的，那么先验通常被指定为平均值0、标准偏差1的对角高斯分布。

为什么称为变分下界？将代入，我们有：

的含义，用大白话说就是，真实分布下的数据点的对数似然，等于，加上用来捕获在该特定值处和之间距离的差。

由于，必大于（或等于）。因此是的下界。也被称为证据下界（ELBO），通过调整公式：

注意，本身包含近似后验和先验之间的KL散度，因此中总共有两个KL项。

KL散度函数不是对称距离函数，即（当时除外）第一个被称为“前向KL”，而后者是“反向KL””。我们为什么要使用反向KL呢？因为推导的目标要求我们近似，所以【在和不能同时得到最优形式的情况下】我们要优先确保的形式准确。

我很喜欢Kevin Murphy在 PML教科书中的解释，我在这里尝试重新说明一下：

让我们首先考虑正向KL。正如上述推导，我们可以将KL写为，权重函数加权下，“惩罚”函数的期望。

只要，惩罚函数在任何地方都会给总KL带来损失。对于，。这意味着前向KL将在未能“掩盖” 时，将会很大。

因此，当我们确保前向KL最小化时时，。优化的变分分布被称为“避免零（zero-avoiding）”（密度为零时避免为零）。

如果，我们必须确保分母的地方，加权功能的，否则KL会爆炸。这被称为“必设零(zero-forcing)”：

在机器学习问题中，使用平均场近似时，留意反向KL的后果很重要。如果我们将单峰分布拟合到多模态分布，我们最终会得到更多的假阴性的样例（也就是说，实际上存在概率，但我们依据认为没有可能性）。

变分法对于深度学习非常重要。我将在后面再写文章详细说明。这是“太长不看版”：

结合深度学习和变分贝叶斯方法，我们可以对极其复杂的后验分布进行推断。事实证明，像变分自动编码器这样的现代技术，可以优化得到上文中形式完全相同的平均场变分下界！

感谢阅读，敬请期待！

鉴于标题，我们值得给出“平均场近似”这个名字背后的一些动机。

从统计物理学的观点来看，“平均场”是指忽略二阶效应，将困难的优化问题放松到更简单的问题。例如，在图模型的情境中，我们可以把估计马尔可夫随机场的配分函数（partition function）问题，转为最大化吉布斯自由能（对数配分函数减去相对熵）的问题。这显著地简化了全概率测量空间的全局优化的形式（参见M. Mezard和A. Montanari，Sect 4.4.2）。

整体分解：

平均场近似的分解：

从算法的观点来看，“平均场”是指用于计算马尔可夫随机场边缘概率的朴素平均场算法（naive mean field algorithm）。回想一下，朴素平均场算法的固定点【即最终解】是吉布斯变分问题的平均场近似的最优点。这种方法是“均值”，因为它是吉布斯采样器的平均/期望/ LLN版本，因此忽略了二阶（随机）效应（参见，M.Wainwright和M. Jordan，（2.14）和（2.15））。

【译者按：
1.上述说明主要针对配分函数而言的。
2.VAE的隐空间为标准高斯分布，协方差矩阵为对角单位阵，而不考虑非对角元素的影响。这体现了“平均场”的思想。
3.VAE的实验效果显示，产生图像较为模糊或“平均”，不够锐利，也许正是平均场近似的结果】

关于comprehensive的问题，通过《什么是深度学习与机器视觉》、《变分贝叶斯初探》等文章的解答希望已经帮助到您了！如您想了解更多关于comprehensive的相关信息，请到本站进行查找！

本文标签：comprehensive(1)

贝叶斯深度学习综合介绍