yayachenyu
CNN的核心其实就是卷积核的作用,如果学过数字图像处理,对于卷积核的作用应该不陌生,比如你做一个最简单的方向滤波器,那就是一个二维卷积核,这个核其实就是一个模板,利用这个模板再通过卷积计算的定义就可以计算出一幅新的图像,新的图像会把这个卷积核所体现的特征突出显示出来。比如这个卷积核可以侦测水平纹理,那卷积出来的图就是原图水平纹理的图像。现在假设要做一个图像的分类问题,比如辨别一个图像里是否有一只猫,我们可以先判断是否有猫的头,猫的尾巴,猫的身子等等,如果这些特征都具备,那么我就判定这应该是一只猫(如果用心的话你就会发现这就是CNN最后的分类层,这一部分是我们传统的神经网络的范畴)。 
对工程研究,原理(How)往往来自于别的领域,CNN的图像识别是启发自视觉神经(一种被研究的最透彻的神经结构)研究的发现,人民发现人的视觉就是这么工作的,然后试着用它在机器上实现,当有足够快的电脑和多的数据时,人们兴奋的发现可以做高质量的图像识别。原理的解释通常要晚一些。但是抽象的解释并不难:把信息一层层的抽象,最底下是像素,中间是各种特征,越往上越抽象(边,圆,胡子,高鼻梁)。研究科学不光是看论文:你拿一副照片贴着眼睛看,慢慢拿远大概可以帮助理解。