麻省理工学院：深度学习理论的原理

2021年06月22日
50 金币

本资源为开源电子书《The Principles of Deep Learning Theory》，剑桥大学出版社将于2022年出版

深度神经网络(DNNs)是现代人工智能研究的一部分，但它们或多或少被视为一个“黑盒子”。虽然人们在人工智能的研究方面不断取得进展，但是由于深度神经网络过于复杂，人们仍然无法使用第一性原理解释深度神经网络。模型在很大程度上是通过反复试验来调整的——虽然反复试验可以通过多年的经验来明智地进行，但却没有任何统一的理论语言来描述DNN及其功能。

《深度学习理论原理:理解神经网络的有效理论方法》的新书出版，该研究由Facebook AI Research的Sho Yaida、麻省理工学院和Salesforce的Dan Roberts以及普林斯顿的Boris Hanin共同完成。作为一个基本的层面，这本书提供了一个从第一性原理理解DNNs的理论框架。对于人工智能从业者来说，这种理解可以显著减少训练这些DNN所需的试错次数。例如，它可以揭示任何给定模型的最佳超参数，而不需要经过今天所需要的时间和计算密集的实验。

《深度学习理论原理》将于2022年初由剑桥大学出版社出版，手稿现已公开。斯坦福大学物理学教授伊娃·西尔弗斯坦(Eva Silverstein)说:“这本书提出了一种机器学习理论方法。”看到这些方法在理解和改进人工智能方面取得的进展将是令人兴奋的。

这只是重塑人工智能科学这一更大项目的第一步，这一项目既源自基本原理，同时也专注于描述现实模型的实际工作方式。如果成功，这种深度学习的一般理论可能会使人工智能模型更加强大，甚至可能引导我们建立一个研究通用智能方面的框架。