深度学习-学习笔记

深度学习-学习笔记

背景知识

  • 人工智能
  • 深度学习
  • 人工智能的知识库
  • 机器学习
  • 逻辑回归
  • 朴素贝叶斯
  • 数据的表示
  • 表示学习
    • 使用机器学习来发掘表示本身!
    • 表示学习算法在短时间内就可以发现一个很好的特征集
    • 表示学习的经典例子:自编码器
    • 变差因素
    • 能够解释观察数据的因素(这些因素通常是不能被直接观察到的量)
    • 他们可以看做数据的概念或者抽象,帮助我们了解数据的多样性
    • 影响目标数据(观察数据)的额外因素

    深度学习通过其他比价简单的表示来表达比较复杂的表示–解决了表示学习中的核心问题
  • 深度学习让计算机通过简单的概念来构造复杂的概念

  • 深度学习的深度(这里采用计算图的深度来表示)取决于我们对模型的衡量元素的选择!可能按照简单的计算机步骤来分,也可能按照基本的模型结构作为整体来分。
  • 深度学习的普遍原理:多层次组合
  • 鉴于将哺乳动物的视觉信号传至听觉领域,他们可以用听觉处理领域去“看”,这表明大多数哺乳动物的大脑可以使用单一的算法来来解决大部分不同的任务。这也就暗示着多个领域的研究,其方法可能是一致的,或者相互可借鉴的。

  • 联结主义的核心思想是:当网络将大量简单的计算单元连接在一起时可以实现智能行为。(隐层)


  • 【人脑,统计学,应用数学】日益强大的计算机硬件支持,海量数据集都帮助了深度学习得以训练更深层次的网络

第一部分 应用数学与机器学习基础

  • 深度学习所需的基本数学概念
  • 找到函数的最高与最低点
  • [量化信念度]
  • 机器学习的基本目标
  • 信念模型
  • 代价函数:训练算法最小化这个代价函数

  • 定义矩阵与向量的加法:将向量加到矩阵的每一列,隐式复制向量b为一个矩阵,这种隐式复制向量到很多地方的方法称为【广播broadcast

  • 向量乘积是标量,标量的转置是自身

  • Ax=b方程对任意的b都有唯一解的充要条件是A是非奇异方阵!:因为显然,如果n>m 此时对应的解x为n维,意味着无数个解!

    如果矩阵A不是一个方阵,或者是一个奇异矩阵,该方程仍然可可能有解,但是我们将不能使用矩阵的逆去求解!

  • 在机器学习中如果0和非0之间的差异很大时,我们通常会选择使用L1范数!【1范数就是绝对值求和!】
  • 【无穷范数】:绝对值中的最大值。
  • 【深度学习最常见之F范数】:矩阵形式的“2范数”
  • 【向量点积】:xTy=||x||2||y||2cosq :两个向量的模的积相乘再乘以向量夹角之余弦值!
  • 【正交矩阵】:正交矩阵的行向量和列向量都是标准正交的!

矩阵的特征分解:

  • V为矩阵A的线性无关的特征向量vi组成[v1,v2,…vn]
  • 特征向量vi对应的特征值为pi,P=[p1,p2,…,pn]T,由特征值构成的对角矩阵diag(P)

那么矩阵的特征分解为A=Vdiag( P)V-1

矩阵的特征值和特征向量的作用效果:对于矩阵A而言如果他有一组标准正交的特征向量vi,那么Au,就相当于将u沿着vi的方向拉伸pi长度(其中pi是与特征向量vi对应的特征值)。

奇异值分解(Singular Value Decomposition,SVD)

  • 可以将矩阵分解称为奇异值和奇异向量
  • 通过奇异值分解我们可以得到一些与特征值分解相同类型的信息
  • 所有的矩阵都有奇异值分解,但不一定都有特征值分解:比如非方阵的矩阵显然没有特征值分解,此时我们只能使用奇异值分解!
  • 奇异值分解公式:
    • A = UDVT. A=mxn 矩阵 U则是一个mxm的正交矩阵,V是一个nxn的正交矩阵 ,D是一个mxn对角矩阵(注意D不一定是方阵!)
    • 矩阵U的列向量被称为左奇异向量
    • D的对角元素称为矩阵的奇异值
    • V的列向量称为矩阵的右奇异向量
    • AAT的特征向量为A的左奇异向量!ATA的特征向量为A的右奇异向量!
    • A的非零奇异值是AAT的特征值的平方,当然也是ATA的特征值的平方!

矩阵的MP伪逆

  • 求解方程:Ax=y
  • A+ = VD+UT
  • x = A+y

迹运算

  • ||A||F=(tr(AAT))1/2
  • 迹运算在转置运算下是不变的tr(A)=tr(AT)
  • 矩阵的迹运算依旧满足一些乘积之顺序转换公式!也就是对于ABC可以将最后的矩阵C放到最前面变为CAB 得到tr(ABC)=tr(CAB) :这对于任意的矩阵乘积序列也是满足的!(当然这一切的前提是乘积有效!)

行列式

注意行列式与特征空间的关系!

行列式det(A)是一个将方阵映射到实数的函数。行列式等于矩阵的特征值的乘积。行列式的绝对值可以用来衡量矩阵参与的乘法后空间的扩大或者缩小!如果行列式为0,那么至少空间的某一维完全收缩!如果行列式的值为1,那么这个转换空间的体积不变!

主成分分析法(PCA)

何为 向量微积分? 如何利用之求解最优化问题?

概率分布

离散型概率分布之 概率质量函数
连续性概率分布之 概率密度函数
边缘概率 : 子集的概率分布,即对补集条件概率求和!

条件概率

条件概率的链式法则(乘法法则)
随机变量的独立性与条件独立性

期望、方差、协方差

方差
  • Var(f(x) = E((f(x)-E(f(x))2)
协方差
  • 协方差如果是正的,那么表明两变量都倾向于取较大值(与期望值相比),如果是负的,则表明变量中一个倾向于较大的,一个倾向于较小的!
  • Cov(f(x),g(y))=E((f(x)-E(f(x)))(g(y)-E(g(y))))
  • 注意:协方差是对两个与期望的差值的乘积求期望!
  • 如果两个变量是独立的,那么协方差为0!但是协方差为0,不一定独立!

协方差矩阵? 协方差矩阵的对角元是方差。

  • 广义函数指的是依据积分性质定义的数学对象!

你可能感兴趣的:(deeplearning)