The neural network was already proposed to fit smooth functions in the last century, but it has garnered considerable attention from the industry after 2012 since its remarkable ability in fitting any smooth and complicated function.
神经网络早在上世纪就已经被提出用于拟合光滑函数,但引起业界注意却还是从2012年ImageNet竞赛大获全胜,深度学习进入人们的视线开始的。神经网络在拟合任意光滑函数方面的巨大潜力被充分发掘,并且神经网络向深度发展大大提高了网络训练效率和最优解的搜索效率。然而,深层神经网络的不可解释性一直是困扰业界多年的难题,也因此神经网络被数学界普遍看衰,甚至有了“一个月就可以成为深度学习专家”的尖锐评论。
一种说法认为不可解释性无法阻挡深度神经网络的发展。块网络,残差网络,注意力机制等新的神经网络模块被设计,监督学习、无监督学习、表示学习、对比学习等多种学习机制被深入研究,设计、物流、安保、通信等各行各业都广泛应用神经网络。繁荣的发展前景,空前的社会热度和研究热度,都推动其成为一项被广泛应用的技术,不可解释性等理论层面的担忧逐渐消弭。
神经网络中的一种被称为bottleneck的设计,显示出了比深层神经网络更好的性能。作者解释称bottleneck结构将输入映射到高维空间再投影到低维空间可以展现更好的性能,这显然是一种从结果出发解释原理的经典神经网络领域式行为。
我合理怀疑bottleneck本身并不具备这样的功能,因为这个结论不是从技术原理上推广得到的。顺着作者的推论,我也可以推论:Bottleneck本身只是起到了Dropout的作用,过滤超量参数,避免过拟合,提升拟合精度,因此提升了网络性能。实验结果同样可以验证我的推论,但这并不意味着我的结论是正确的。
这就是神经网络领域目前面临的问题,不可解释性导致了技术原理与实验结论之间的本末倒置,大量的工作成果不可被证伪亦不可证实;大量的工作从结果出发逆推原理导致这些工作的结论互相矛盾。
彻底掌握神经网络需要理论层面的大量研究,其需要完善的可解释理论。
我们从单层单感知机的神经网路开始,使用数学语言解释神经网络的工作原理。
我们将从以下几个方面展开:
- What is neural network?
- How do neural networks work?
[TOC]
What is neural network?
神经网络(Neural Network),也被称为人工神经网络,是一种计算系统或模型,受到生物神经系统中神经元之间相互连接和通信的启发。神经网络由大量互连的人工神经元(或称为节点)组成,通过模拟人脑的信息处理方式,实现复杂的计算和模式识别任务。
Neural Network, also known as Artificial Neural Network, is a computational system or model inspired by the interconnections and communication between neurons in the biological nervous system. It consists of a large number of interconnected artificial neurons (or nodes) and simulates the information processing of the human brain, enabling complex computations and pattern recognition tasks.