Deep learning实际上同时推动了很多领域的发展。一个我所知道的例子是自然语言处理NLP中词向量(Word Embedding)方法对传统语言模型的提升[1];而且我相信,deep learning还会进一步推动更多AI领域的发展。当然,深度学习DeepLearning最为人所关注也表现最明显的,就是使语音、图像识别获得了长足的进步。其实有的同学已经回答得很漂亮了,只是我忍不住再谈谈自己的理解,抛砖引玉,大家共同讨论。本着读书人简单问题复杂化……啊呸,是论证完整化的标准,我觉得可以从以下三点递进地解决题主的疑问: 为什么深度学习突然间火起来了? 为什么深度学习会应用到语音识别和图像识别中? 为什么深度学习能成功地应用到语音、图像识别中,取得突破?为了让更多对深度学习感兴趣的朋友看懂,下面我尽可能地用简单的语言来阐述下我的看法(叙述中假设你已经大致知道什么是深度学习和神经网络,了解神经网络的基本原理,顺便认为你已经浏览了其他答案):==============================我是分割线============================为什么深度学习突然间火起来了?谈到这个问题,如果在五六年之前,很多人肯定会说是因为Hinton在Science上的那篇论文“Reducing the dimensionality ofdata with neural networks”。虽然神经网络“号称”自己可以拟合任何函数,并且可以模拟人脑的运作形式,但是这一切都是建立在神经网络足够深足够大的基础上。没有了规模,浅层的神经网络啥都达不到。而人们发现,优化多层神经网络是一个高度非凸的问题,当网络层数太多了之后,训练就难以收敛,或者只能收敛到一个次优的局部最优解,性能反而还不如一两层的浅模型。这个严重的问题直接导致了神经网络方法的上一次衰败。在2006年Hinton的那篇文章中,他提出了利用RBM预训练的方法,即用特定结构将网络先初始化到一个差不多“好”的程度,再回到传统的训练方法(反向传播BP)。这样得到的深度网络似乎就能达到一个不错的结果,从一定程度上解决了之前网络“深不了”的问题。在这个框架下,深度学习重新得到了人们重视,一批新方法被发明出来(Denoise Autoencoder,Dropout,ReLU……),都让神经网络有了前所未有的“更深”的可能。但是我们现在再回过头来看这个问题,我们应该加入两个甚至更加关键的元素:大数据和高性能计算在如今的互联网时代,近十年来数据量的积累是爆炸式的。几年后人们发现,只要有足够多的数据,即便不做预训练,也能使深层网络得到非常好的结果。而针对卷积神经网络CNN或者LSTM来说,预训练本身也不像全连接那么好做了。一个技术不能很大地提升性能,还需要researcher辛辛苦苦想算法,需要程序员辛辛苦苦写代码,你说谁干呢……现在的语音识别或图像识别系统,如果拥有大量的训练样本,基本都是没有预训练步骤的。而高性能计算是与大数据相辅相成的,想象你有好多好多数据(百万幅图片,上万小时语音),但是计算速度跟不上,训练一个网络需要好几年(做机器学习的人应该知道这个完全没有夸张吧),那这个研究也完全不必要做了吧?这也是为什么有人认为神经网络火起来完全是因为GPU使得计算方法更快更好了。从这个意义上,GPU并行计算的发展确实极大推动了深度学习的普及。有大数据和高性能计算打下最坚实的基础,人的聪明才智是无穷无尽的。那些笃信深度学习的学者们使用了各种各样的算法激发深度学习的潜能,比如微软的残差学习[2]。否则,再多的数据也不能把传统的神经网络训练到152层啊。