什么是深度学习

机器学习

  比起深度学习,“机器学习”一词更耳熟能详。机器学习是人工智能的一个分支,它致力于研究如何通过计算的手段,利用经验来改善计算机系统自身的性能。通过从经验中获取知识,机器学习算法摒弃了人为向机器输入知识的操作,转而凭借算法自身来学到所需所有知识。对于传统机器学习算法而言,“经验”往往对应以“特征”形式存储的“数据”,传统机器学习算法所做的事情便是依靠这些数据产生“模型”。
  特征的意义是找一个更好的空间去重构表达数据,把原始数据映射到高维空间,更便于划分不同类的数据。特征的选取是机器学习的核心,通常线性可分的数据用最简单的感知机即可划分,而现实应用中的数据往往是高维复杂的,传统的特征提取的方式可以归纳为以下几种:

  • 依据经验人工挑选:如关于天气的数据集,如果是预测是否下雨,可以挑选与降雨密切相关的特征:季节、紫外线指数、温度、湿度、是否有云、风向和风速等属性。
  • 线性特征选择:假设特征之间相互独立,不存在交互,那么可以使用卡方检验、信息增益、互信息等方法逐个检验特征与结果之间的相关程度。更为简便的方法是使用LR等线性模型,先做一次预训练,根据特征对应的线性模型权值的绝对值大小来对特征的重要程度进行排序。
  • 非线性特征选择:如果属性之间不是相互独立,可以使用随机森林来进行特征选择,概括来说就是将想要检验重要性的特征在样本上进行permutation,然后观察OOB错误的上升程度,上升越大,说明这个特征越重要。

  以上介绍的都是传统的特征提取方式,而随着机器学习任务的复杂多变,现有的特征提取方法表现出了诸多弊端,针对一个数据集设计特征提取方法不仅费时费力,而且还十分敏感,换成其他的任务,表现往往不尽人意。得益于计算机硬件的发展和大数据时代的到来,计算机拥有了能处理大量数据的前提和能力,促进了深度学习的发展。

深度学习的实质

  深度学习以原始数据作为输入,经过算法层层的将数据抽象为自身任务所需要的最终特征表示。通过大量的数据逐层学习特征,免去了传统特征提取过程中人类先验知识的影响。通过数据自主的学习特征,以获取输入信息更本质的特征[1, 2]。
  深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:

  • 强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;
  • 明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。
  • 与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。

深度学习的网络模型

  相比较于传统的机器学习算法,深度学习除了模型学习,还有特征学习、特征抽象等任务模块的参与,借助多层任务模块完成最终学习任务,故称为“深度”学习。深度学习发展到如今已经有了多种结构的深度神经网络模型,如:

  • 由多个受限玻尔兹曼机组成的深度信念网络(Deep Belief Network,DBN)[3];
  • 应用于自然语言处理的循环神经网络(Recurrent Neural Network,RNN)[4];
  • 具有局部连接和权值共享等优点的卷积神经网络(Convolutional Neural Network,CNN)[5]。

    参考文献

    [1] Bottou L, Chapelle O, Decoste D, et al. Scaling learning algorithms towards AI[J]. Large-scale kernel machines,2007,34(5): 321-359.
    [2] Bengio Y, Delalleau O. On the expressive power of deep architectures [C]. Proceedings of International Conference on Algorithmic Learning Theory, Springer-Verlag, 2011: 18-36.
    [3] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model [C]. Proceedings of 11th Annual Conference of the International Speech Communication Association, Chiba: Interspeech, 2010: 1045-1048.
    [4] LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation, 1989, 1(4): 541-551.

欢迎关注我的公众号

enter description here

-------------本文结束感谢您的阅读-------------