深度学习中的激活函数、防止过拟合的方法

激活函数需要具备的属性:

  1. 非线性:
  2. 几乎处处可微:
  3. 计算简单:
  4. 非饱和性(saturation):
  5. 单调性(monotonic):
  6. 输出范围有限:
  7. 接近恒等变换(identity):
  8. 参数少:

神经网络中激活函数的真正意义?一个激活函数需要具有哪些必要的属性?还有哪些属性是好的属性但不必要的?

  1. 非线性:
    即导数不是常数。这个条件是多层神经网络的基础,保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。
  2. 几乎处处可微:
    可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU,只满足几乎处处可微(即仅在有限个点处不可微)。对于SGD算法来说,由于几乎不可能收敛到梯度接近零的位置,有限的不可微点对于优化结果不会有很大影响。
  3. 计算简单:
    非线性函数有很多。极端的说,一个多层神经网络也可以作为一个非线性函数,类似于Network In Network中把它当做卷积操作的做法。但激活函数在神经网络前向的计算次数与神经元的个数成正比,因此简单的非线性函数自然更适合用作激活函数。这也是ReLU之流比其它使用Exp等操作的激活函数更受欢迎的其中一个原因。
  4. 非饱和性(saturation):
    饱和指的是在某些区间梯度接近于零(即梯度消失),使得参数无法继续更新的问题。最经典的例子是Sigmoid,它的导数在x为比较大的正值和比较小的负值时都会接近于0。更极端的例子是阶跃函数,由于它在几乎所有位置的梯度都为0,因此处处饱和,无法作为激活函数。ReLU在x>0时导数恒为1,因此对于再大的正值也不会饱和。但同时对于x<0,其梯度恒为0,这时候它也会出现饱和的现象(在这种情况下通常称为dying ReLU)。Leaky ReLU和PReLU的提出正是为了解决这一问题。
  5. 单调性(monotonic):
    即导数符号不变。这个性质大部分激活函数都有,除了诸如sin、cos等。个人理解,单调性使得在激活函数处的梯度方向不会经常改变,从而让训练更容易收敛。
  6. 输出范围有限:
    有限的输出范围使得网络对于一些比较大的输入也会比较稳定,这也是为什么早期的激活函数都以此类函数为主,如Sigmoid、TanH。但这导致了前面提到的梯度消失问题,而且强行让每一层的输出限制到固定范围会限制其表达能力。因此现在这类函数仅用于某些需要特定输出范围的场合,比如概率输出(此时loss函数中的log操作能够抵消其梯度消失的影响)、LSTM里的gate函数。
  7. 接近恒等变换(identity):
    即约等于x。这样的好处是使得输出的幅值不会随着深度的增加而发生显著的增加,从而使网络更为稳定,同时梯度也能够更容易地回传。这个与非线性是有点矛盾的,因此激活函数基本只是部分满足这个条件,比如TanH只在原点附近有线性区(在原点为0且在原点的导数为1),而ReLU只在x>0时为线性。这个性质也让初始化参数范围的推导更为简单。这种恒等变换的性质也被其他一些网络结构设计所借鉴,比如CNN中的ResNet和RNN中的LSTM。
  8. 参数少:
    大部分激活函数都是没有参数的。像PReLU带单个参数会略微增加网络的大小。还有一个例外是Maxout,尽管本身没有参数,但在同样输出通道数下k路Maxout需要的输入通道数是其它函数的k倍,这意味着神经元数目也需要变为k倍;但如果不考虑维持输出通道数的情况下,该激活函数又能将参数个数减少为原来的k倍
    归一化(normalization):
    这个是最近才出来的概念,对应的激活函数是SELU,主要思想是使样本分布自动归一化到零均值、单位方差的分布,从而稳定训练。在这之前,这种归一化的思想也被用于网络结构的设计,比如Batch Normalization。

深度学习中如何防止过拟合

1、更多数据

其实更多数据,是一种很好的防止过拟合的方法。之所以过拟合,其实就是因为模型本身见到的数据太少了,比如对于猫这类动物,如果训练数据集中只有一个正拍且坐立的猫,那么当过拟合时,模型往往有可能只能识别出这类姿态的猫,像跳跃的猫、局部捕捉的猫、反转的猫等等可能都识别不出来了,因为让模型见更多的数据是有好处的,而且真的可以防止过拟合。

2、Dropout为什么能够防止过拟合?算法原理是怎样的?

主要思想是分布式特征表达,在训练的时候,随机丢弃一些节点,使这些节点不参与到参数的更新训练中(一般设置为0.5),然后进行放回,当有数据再次进行更新时,再随机进行选举,主要由这三个优点。

3、BN

BN的最大作用其实是加速训练,也会在一定程度上防止过拟合,另外,当BN和ReLU这类函数一起使用的时候,还可以在一定程度上解决Dead ReLU现象。

4、正规化数据

5、Early stopping的原理,为什么可以防止过拟合?

如果随着训练过程的发生,测试集上的准确率一直上不来,而训练集上的准确率越来越高,那么就发生了过拟合,此时通过early stopping可以提前中止训练,避免模型过拟合的发生。

6、增加训练数据可以防止过拟合吗?为什么呢?

增加数据可以防止过拟合,因为增加数据,模型见到的样本就多了,比如同一类物体,多种形态都有,那么模型学到了多类姿态下,都是同一类别。这样再见到新的数据,也有很好的判别性了,因为训练数据中本身包含了各类可能出现的情况。

7、减少神经元个数可以防止过拟合吗?

减少网络的层数、神经元个数等均可以限制网络的拟合能力,一定程度上可以防止过拟合,这有点类似于决策树中的剪枝操作。

但是这样子做会有一定的风险,因为可能会导致网络的拟合能力不足。

18、不变动模型和参数,只对数据来说怎么减少过拟合?

其实这个问题很简单,就是增加数据。


深度学习如何解决欠拟合?

过拟合是深度网络训练时,常出现的一种问题,然而有的时候欠拟合也经常出现,这个时候就要考虑如何解决欠拟合问题了,一般来说,欠拟合问题主要从以下几个部分解决:

1. 添加其他特征项。组合、泛化、相关性、上下文特征、平台特征等特征是特征添加的重要手段,有时候特征项不够会导致模型欠拟合。

2. 添加多项式特征。例如将线性模型添加二次项或三次项使模型泛化能力更强。例如,FM(Factorization Machine)模型、FFM(Field-aware Factorization Machine)模型,其实就是线性模型,增加了二阶多项式,保证了模型一定的拟合程度。

3. 可以增加模型的复杂程度。

4. 减小正则化系数。正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。

125jz网原创文章。发布者:江山如画,转载请注明出处:http://www.125jz.com/11134.html

(0)
江山如画的头像江山如画管理团队
卷积神经网络 数据维度计算公式:输入输出关系、输出维度
上一篇 2022年9月22日 下午2:17
人工智能工种技术人员竞赛理论考题、常考知识点(含答案)
下一篇 2022年11月20日 上午11:18

99%的人还看了以下文章

  • 手机拍照学会这几个拍照技巧, 让你的照片提升一个档次!

    手机拍照学会这几个拍照技巧, 让你的照片提升一个档次!手机拍照学会这几个拍照技巧, 让你的照片提升一个档次!手机拍照学会这几个拍照技巧, 让你的照片提升一个档次!手机拍照学会这几个拍照技巧, 让你的照片提升一个档次!

    如今智能手机硬件是越来越好,镜头像素也是逐步提升,自然而然地手机摄影已经成为我们生活的一部分。而且部分手机主打拍照功能,拍照效果非常好。由于各种原因,手机又和相机有一些区别,有些人用手机拍出来的照片可谓完美,但是有些人只会拍大头照。跟着小编一起学习下面几个手机拍照技巧,或许可以帮助你提升拍照技术呢! 保持稳定 由于智能手机重量比较轻,在拍照的时候我们拿手机的…

    2020年2月25日 科技
    8.4K0
  • 聚焦2025两会:人工智能40项热点提案

    人工智能是引领新一轮科技革命和产业变革的基础性和战略性技术。DeepSeek的问世加速引爆人工智能,使其成为今年两会的热门关键词之一。2025年政府工作报告就三次提及人工智能,指出持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用;并建立未来产业投入增长机制,培育具身智能等未来产业,为AI创新与产业升级锚定了发展方向。…

    2025年3月14日
    1.1K0
  • 500万AI人才缺口!教育部新增高职人工智能专业

    继浙江大学等35所高校本科新增人工智能专业后,教育部近日再次发布公告,高校职业教育(专业)新增人工智能等9个专业。 高校AI人才培养加速,将填补我国500万AI人才缺口。 近日,教育部官网公布《普通高等学校高等职业教育(专科)专业设置管理办法》,在相关学校和行业提交增补专业建议的基础上,教育部组织研究确定了2019年度增补专业共9个,现予公布,自2020年起…

    2019年11月21日
    11.7K6
  • 2019年度山东省人文社会科学课题指南

    2019年度山东省人文社会科学课题以马克思列宁主义、毛泽东思想、邓小平理论、“三个代表”重要思想、科学发展观、习近平新时代中国特色社会主义思想为指导,深入贯彻落实党的十九大精神,深入贯彻全国宣传思想工作会议精神和《中共中央关于加快构建中国特色哲学社会科学的意见》,全面落实习近平总书记视察山东重要讲话、重要指示批示精神,坚持解放思想、实事求是、与时俱进、求真务…

    2019年4月12日
    6.9K0
  • 中国人挑手机最看重什么?如何挑选手机?

    中国人挑手机最看重什么?如何挑选手机?中国人挑手机最看重什么?如何挑选手机?中国人挑手机最看重什么?如何挑选手机?中国人挑手机最看重什么?如何挑选手机?

    现在智能手机已经普及,而且更新换代非常快,那么你在挑手机时最看重哪些呢? 近日,《中国手机消费者需求研究报告》,报告显示:选购手机时,消费者最看重外观,而在手机功能方面,消费者最关注拍照,在配置方面,消费者的关注度集中在电池方面,比例高达81.4%。 《报告》将消费者的关注维度划分为品牌、配置、功能、质量、外观、价格等。其中,消费者最关注的是外观,占比为75…

    2020年2月11日 科技
    4.5K0
  • 从 Python 编程提高到 Python 机器学习-学习路线

    作为引领未来的战略性前沿技术,世界各国把人工智能作为提升国家竞争力及维护国家安全的重大战略,力图在新一轮科技竞争中掌握主动权。我国国务院在 2017 年 7月引发《新一代人工智能发展规划》,以抓住人工智能发展的重大战略机遇,构筑我国人工智能发展的重大战略机遇,加快建设创新型国家和世界科技强国的脚步。 为了加快创新步伐,全面实施创新驱动发展战略,进一步贯彻落实…

    2020年7月25日
    2.8K0

发表回复

登录后才能评论

评论列表(1条)

  • 江山如画的头像
    江山如画 2023年10月8日 下午4:20

    激活函数的输出值的范围可以是有限的也可以是无限的。
    当输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表示受有限权值的影响更加显著;当输出值无限时,模型的训练会更加高效。