神经网络中的线性和非线性---学习笔记

  1. 线性模型和非线性模型区别:
    1. 线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的。
    2. 区分是否为线性模型,看乘法是式子中自变量x前的系数w,如果w只影响一个x,那么此模型为线性模型。或者判断决策边界是否是线性的。
    3. 注意,一个y关于x变化的函数,即使x和y是曲线关系,但如果x只被一个w影响。
    4. 如果自变量x被两个以上参数影响,则此模型是非线性的。
    5. 最简单的判断方法:判断决策边界是否是直线,即是否可以用一条直线来划分。
  2. 感知机模型:
    1. 可以将有两个特征的数据集中的正例和反例完全分开的关于一条直线的函数,或者可以是关于三维空间中的一个平面的函数,或关于高维的一个超平面的函数。
    2. 感知机中的每个w只影响一个x,所以是一个经典的线性模型,只能处理线性可分的问题。
  3. 神经网络是非线性的。
    1. 激活函数可以产生非线性的变化,而神经网络使得只能处理线性可分问题的感知机(神经元)可以处理非线性可分问题的关键是神经网络之间的多层叠加,但激活函数是必不可少的。
    2. 如果神经网络中的神经元都不带激活函数,那么神经元无论怎么样堆叠,都只能够处理线性问题。因为每一层不带激活函数的神经元都可以看做知识二维平面中的一条直线,多层进行堆叠也只是可以多画几条直线来分隔平面,无法彻底解决线性不可分问题。
    3. 虽然没有激活函数时,每个变量也被多个权值所影响,但不同的是,此时每个变量都以独立于其它变量区分开来。当引入非线性的激活函数时,每个变量是无法与其它变量所独立开来的!
    4. 每个神经元本质就是一个感知机,激活函数的功能就在于使得单个神经元具有更强大的分割能力,每个神经元就是切一刀,合适的激活函数,可以让这一刀切的很准。
    5. 不断映射到高维空间,将样本稀疏化,在不断去寻找一个线性可分的超平面将样本分离开来(注是线性可分,每个神经元都只是切一刀)
    6. 激活函数越复杂单个神经元切一刀的能力就越强,切的越准。
    7. 神经网络的非线性能力体现在激活函数上。堆的越深,样本在映射空间中的分布就越稀疏,分布一稀疏,判决超平面就好找,切一刀也好切。

你可能感兴趣的:(deeplearning,神经网络,学习,笔记)