什么是批标准化 (Batch Normalization)

江山如画 • 2022年9月22日上午10:33 • 科技 • 阅读 1996

Batch Normalization, 批标准化, 和普通的数据标准化类似, 是将分散的数据统一的一种做法。

训练更深层的神经网络一直是深度学习中提高模型性能的重要手段之一。

批规范化操作，不仅加快了模型收敛速度，而且更重要的是在一定程度缓解了深层网络的一个难题“梯度弥散”，从而使得训练深层网络模型更加容易和稳定。另外，批规范化操作不光适用于深层网络，对传统的较浅层网络而言，批规范化也能对网络泛化性能起到一定提升作用。目前批规范化已经成为了几乎所有卷积神经网络的标配。

首先，我们来看一下批规范化操作（简称 BN）的流程。顾名思义，“批规范化”，即在模型每次随机梯度下降训练时，通过mini-batch来对相应的网络响应做规范化操作，使得结果（输出信号各个维度）的均值为0，方差为1。

BN 算法

我们引入一些 batch normalization 的公式. 这三步就是我们在刚刚一直说的 normalization 工序, 但是公式的后面还有一个反向操作, 将 normalize 后的数据再扩展和平移. 原来这是为了让神经网络自己去学着使用和修改这个扩展参数 gamma, 和平移参数 β, 这样神经网络就能自己慢慢琢磨出前面的 normalization 操作到底有没有起到优化的作用, 如果没有起到作用, 我就使用 gamma 和 belt 来抵消一些 normalization 的操作.

最后我们来看看一张神经网络训练到最后, 代表了每层输出值的结果的分布图. 这样我们就能一眼看出 Batch normalization 的功效啦. 让每一层的值在有效的范围内传递下去。

BN 来规范化某些层或所有层的输入，从而可以固定每层输入信号的均值与方差。这样一来，即使网络模型较深层的响应或梯度很小，也可通过BN的规范化作用将其的尺度变大，以此便可解决深层网络训练很可能带来的“梯度弥散”问题。

在实验中，研究人员发现可通过BN来规范化某些层或所有层的输入，从而可以固定每层输入信号的均值与方

差。这样一来，即使网络模型较深层的响应或梯度很小，也可通过BN的规范化作用将其的尺度变大，以此便可解决深层网络训练很可能带来的“梯度弥散”问题。

一个直观的例子：对一组很小的随机数做ℓ2 规范化操作：

关于BN 的使用位置，在卷积神经网络中BN 一般应作用在非线性映射函数前。另外，若神经网络训练时遇到收敛速度较慢，或“梯度爆炸”等无法训练的状况发生时也可以尝试用BN来解决。同时，常规使用情况下同样可加入BN 来加快模型的训练速度，甚至提高模型精度。

什么是批标准化 (Batch Normalization)

BN 算法

相关概念

归一化：

标准化：

归一化和标准化的区别：

标准化和中心化的区别：

发表回复

什么是批标准化 (Batch Normalization)

BN 算法

相关概念

归一化：

标准化：

归一化和标准化的区别：

标准化和中心化的区别：

99%的人还看了以下文章

迎接未来职场：掌握AIGC，应对AI重塑的3.75亿岗位变革(本期彩蛋：反AI参与率的修改工具)

如何关闭微信朋友圈？

免费送你课堂好帮手-分分钟让你的教学变的不一样！

光明日报:什么是科教融汇？如何“融”、怎样“汇”？

必看！高校开展人工智能教育改革的实用建议

发明专利申请官费，年费收费标准及减免条件（详）

发表回复