机器学习基础

概率论与统计学

  1. 审题时应注意,如何定义“基本事件”(必须等可能,即一个基本事件包含的等可能实验结果数应一样,因为分子和分母都是基本事件的组合数,若单位不同则不可相除),分子和分母对基本事件的定义和组合步骤以及列表是否有序必须一致。
  2. 计算事件概率时一定要留意事件的定义,其中的至少之类的字眼,分解为互斥事件时小心有遗留。
  3. 每个事件都是一个filter,过滤实验结果;一个事件也意味着这个世界在某个(或多个)时刻的状态(部分)轨迹。
  4. 一个事件的概率,是事件包含的基本事件数量除以所有可能的基本事件数量。
  5. n个相异物件分成k堆,各堆数量为r1,r2,....,rk分法有n!/(r1!r2!...rk!),这里要注意的是,这些堆是有序的、相异的,它的最外层含义是第一堆的组合数x第二堆的组合数...第k堆得组合数。n!可看作它的特殊情况:每堆数量都是1。
  6. 事件包含的基本事件数量是由若干有序的“利于事件发生的排列”层层render(or multiple)得到。一般来说层次越少越好。
  7. 用基本事件的定义(形容对象、条件等等)来控制基本事件粒度的大小,尽量的大可以使得计算更简洁。最小粒度的基本事件只包含一个实验结果。
  8. P(A|B) = P(AB)/P(B) 事件A与事件B交集在事件B中所占比例。若该比例等于A在全集中的比例,则称A与B互相独立(仅仅是数学意义上的)。
  9. 事件相互独立等同于P(AB) = P(A)P(B)或P(A|B) = P(A)。这些公式把全集剥离,但个人觉得结合独立性应结合全集理解,当B在全集内范围扩大了,若同时要维持它与A的独立性则增量部分也要与A独立。
  10. 独立性主要产生概率之间的乘法,互斥性主要产生概率间的加法(或概率乘以基本事件数量)
  11. P(A|B) > P(A)可推出P(B|A) > P(B),用常识来理解,就是:若A更加促进了B的发生,则当B发生时A发生的概率比全局A概率更大。
  12. 贝叶斯公式用于已知结果和多个可能的原因(其中一个是真原因),可得出每个原因为真原因的概率。
  13. 二项分布: B(n,p) n次试验,每次试验某事件概率p, 该事件总共发生次数的分布
  14. 多项分布:把N次试验的(事件-发生次数)分布作为随机向量,多项分布就是这个随机向量的分布
  15. 决策树可以帮助直观理解基本事件的数量
  16. 柱状图中的横轴是维度,是对向量空间进行切削分割成相等的数个小空间,对每个空间统计落在它范围内的向量的个数
  17. 中位数左右两边的面积相等(左右事件数量相等)
  18. 相关系数可衡量系列事件中两个维度间的线性相关性强度,越相关,相关系数越接近1或-1(相关系数的取值范围是1到-1)
  19. 置信区间:统计一个特征出现的概率,样本足够大时,真实的数值有95%的概率位于区间(统计出的结果+-两个标准差)内

线性代数

  1. In matrix,one col means one vector, the amount of rows means the amount of dimensions of vector; one equation means a Set of possible vectors(or a surface in 3d space).
  2. A vector is a point\array\numbers\point\or - transformation of base - relation between two points - a set of vectors(by dimension)-a set of plane(a dimension less than space).
  3. 线性变换过程中的数值,从始至终都是从唯一的一个参考系测量得出的。一个参考系(坐标系)可以由一组基向量决定。
  4. 向量使原点成为每个点的prototype,一个原点加一组向量便可以得到无数个点,which means整个空间。
  5. 矩阵乘以矩阵的计算中,左边和右边的矩阵扮演不同的角色:左边的是transformer,右边的是被transform的一个或多个向量。
  6. 矩阵可以说是一个纯函数,输入一个或多个向量,得到变换后的向量。
  7. 一个线性变换(也就是左矩阵),可以从两种视角来理解:1-colume视角 对原空间的基向量分别应用一个scaler(左矩阵的一列)2-row视角 对右矩阵计算线性变换在每个维度(以origin空间的基向量为准)上对应的分量。
  8. 行乘以列,我把它看作:右矩阵的某个向量变换后在某个维度的基向量数。
  9. 可以考虑在相对参考系和绝对参考系中来回切换。
  10. 线性变换相当于矢量变形——这是动态角度的形容,其实也可以从静态角度来理解:被变换的向量是向量a在参考系B中的描述,a变换的结果是a在参考系O中的描述,参考系之间是平等的,没有绝对参考系。求变换的结果就是已知两个参考系(原点重合)基向量之间映射的关系(aka,left matrix)——左矩阵中的三个向量是B的三个基向量在O中的描述,然后换个角度(参考系)观察同一个矢量。
  11. 补充:i,j,k是origin空间的基向量,右矩阵的向量(列)是另一矩阵的基向量,左矩阵是i,k,j...到右矩阵基向量的映射。
  12. 若左三维矩阵的三(或任意)个向量,其中一个可以由其他向量linear combination得到,则称为dependent或cyclic matrix,这意味着三个矢量位于同一个平面内,会有绝大多数的目标矢量无法通过该变换得到。此时的Ax = 0有无数个解。
  13. 边三角矩阵Ax=b很容易求解x,因为它相当于一个方程组which可以直接得到一个未知数的值->得到第二个未知数->第三个...
  14. row视角(三维)还可理解为,一行对应一组平面(无数个互相平行的),点乘的结果限定了平面的位置,使得三个平面交于一点,这个点是方程组的解。
  15. 3x3的方程组中,其中两个方程一般来说可以通过消元得到三个二元方程,每个二元方程对应一个垂直于基平面的平面(其中两个可以退出剩下的那个),三个这样的平面相交于同一直线。
  16. 三维空间中的直线,可用两个三元一次方程联立来表示,点可以用三个三元一次方程联立表示(坐标表示法实际上可以理解为三个平面的交集)。
  17. 设三维空间中有平面ax+by+cz=o,ex+fy+gz=k,则这两个平面的相交线平行于平面(a+e)x+(b+f)y+(c+g)z=n,当n=o+k时,相交线位于该平面内。原理是:既然方程1和方程2能得到方程3,那么就能通过方程1和方程3反推方程2,这意味着这两个三元方程组是等效的;经过这条直线有无数平面,只要选取其中两个平面就能相交得出这条直线,进而得到所有经过直线的平面,也就是说,这两个平面就如同是基向量,两个平面通过组合能得到所有经过这直线的平面。而这种通过加减组合多元方程的行为的结果就是平面绕着一条直线旋转。
  18. 方程组中的每个方程是个命题,也是个集合(点的集合-线,点是线的交集),每个方程之间是“与^”的关系,。
  19. 3X3方程组消元过程,本质上是:求出三个平面的三条相交线中的两条,再求两条相交线的交点;也就是把三维对象的问题转化为二维对象问题;还可以理解成把交点所在集合范围逐步缩小至交点本身。
  20. 矩阵AB相乘的结果矩阵C的某项cij,对应着A的i-row,B的j-col
  21. 图论中 邻接矩阵的power意味着power步的邻接矩阵
  22. mxn的矩阵,有两种基本的抽象化的方法(角度):1 one row made up by n col 2 one col made up by m row
  23. 矩阵乘法中,对单个number适用的规则基本上对子矩阵也适用,单个number实际上就是1x1的子矩阵
  24. row x col为內积(降维),col x row 为外积
  25. 主元pivot的数量少于col的数量时,该左矩阵将造成不可逆的变换。
  26. low triangular的逆矩阵还是low triangular
  27. 一个矩阵可以被因式分解为一个对角线全为1的low triangular 和 一个 up triangular。原因参照消元过程。(当pivot没有正好排列于对角线上时,L似乎不再是low triangle;从另一个角度说,比原矩阵缩小n行n列的左上角子矩阵必须全部可逆)
  28. 如果一个矩阵关于对角线对称,则分解得到的L和U互为对角线镜像。
  29. 或者:一个矩阵可以被因式分解为一个对角线全为1的low triangular 和 一个只有对角线的矩阵和一个对角线全为1的 up triangular
  30. 消元计算的时间复杂度为n^3
  31. 转置矩阵: transpose, (AB)的转置=B的转置 x A的转置(因为行转置后成了列,而乘法中左右行列的解析正好对调);矩阵A的装置逆矩阵 = A的逆转置矩阵; 对称矩阵的转置矩阵也是对称的
  32. 置换矩阵: premutation, 由I变化而来,它们的行为是将矩阵各行调换,n维的置换矩阵有n!个。P的转置和逆相同。
  33. 内积: 外积:|x>
  34. 一个n维向量可看作一个n个插槽的节点,插槽可接任何抽象的物体,包括m个插槽的节点,关于插槽,有个要求是,同一节点的插槽上连接的玩意必须同构。内积是reduce,外积是map
  35. 矩阵乘法中,左位和右位就好比2x3是2个3还是3个2的关系(在数字乘法里没区别,以至被忽略):m行n列的矩阵,如果在右边,就是n个m维度的向量,也就是n个m[[...m个数字]xn],如果在左边则是m个n。而单个矩阵(不在乘法的context下)既是m个n又是n个m。这里提到的n和m都是数字,它们往往用来表示"n个xx",这里的xx(单位)可以是各种玩意:美元,平米,温度,向量...
  36. 垂直与否依赖于基向量,当基向量(方向)不同时,两条原本垂直的直线很可能就不再垂直。也就是说,脱离了基向量,就没有垂直和平行、相交的概念。
  37. 能合并(相加)的积是因为线性相关(由同一个基向量数乘得到,类似于降维),如果线性不相关则无论如何不能合并
  38. 一次行/列之间的线性组合(以及对调)称为初等变换,一个矩阵有限次初等变换成的矩阵,和原矩阵等价
  39. Ax = b有解 <-> b位于A的列空间之中
  40. echelon matrix 阶梯矩阵, 求零空间过程中elemination后没有pivot的col对应的component是free的(对于扁的矩阵来说肯定有free)。一个free variable对应一个special vector,也对应着一个维度,计算special vector的过程实际上是用pivot向量拼凑有free variable的向量(这样才能刚好互相抵消,得出零向量)。
  41. 若矩阵A有零空间,即Ax=0有无穷个解,则Ax=b相当于把A的零空间平移xp(Ax=b的任意解),也可以说是零空间的映射,这个向量集合不经过原点,因此不是subspace.
  42. 两个向量空间的交集仍是向量空间。
  43. rank秩:pivot的数量。矩阵的rank和其转置矩阵的rank相同。rank小于等于行数,same as列数。
  44. full-rank满秩: 秩等于列数或行数,秩也是列空间的维数
  45. 列满秩r = n,这种情况没有free-col,零空间只有零向量,所以Ax=b只有唯一解。
  46. 行满秩,r=n,这时Ax=b对任意b一定有解。
  47. 向量线性相关:将它们放入一个矩阵,如果该矩阵的零空间不止零向量,则它们线性相关。

微积分

  1. 斜率是两个点之间的关系,而导数是将这两个点无限逼近于一个点产生的斜率,这种视角下,每个‘点’介于点与向量的矛盾中。运算时往往需要在二点(向量)和一点的视角来回切换,既是一个点又是两个点,因此双方的规律都适用,对立而统一。
  2. f(x)的积分的写法是∫f(x)dx,这里的dx的用处是表明变量是x。原函数F(x)与f(x)是这样的关系:dF(x) = F(x)的导数 x (dx) = f(x)dx
  3. “函数在一点可导”的充要条件是此点的左右导数相等。
  4. 原函数是函数,导数也是函数,故,“求导”是这样的函数:原函数:函数 => 导数:函数
  5. 拉格朗日中值定理:∀f( (f是函数∧f在区间[a,b]上都可导) -> ∃c(c在[a,b]内∧c处的导数等于区间[a,b]的平均导数 ) ps:平均导数即(f(b)-f(a))/(b-a)
  6. 对拉格朗日定理的另一种解读:如果在a处导数比平均值大,则其后必有一段导数小于平均值,由于函数处处可导,则在导数变小的过程中必定有一处要等于平均值,也就是平行于a,b两点的连线。
  7. 推广拉格朗日中值定理到两个函数-柯西中值定理-因两个函数复合成的一个函数也必然满足拉格朗日中值定理。
  8. differential微分 dy = f'(x)dx,可作用于理解积分,设dx为任意实数,则有f(x+dx)约等于f(x) + f'(x)dx,dx越小,二者越接近,积分正是无数个点的微分累积而成(积分的写法∫f(x)dx或与此有关),如同向量空间中无数的基向量,it's atom。
  9. chain rule: df(u(x))/dx = f'(u(x))u'(x)
  10. (uv)' = u'v + uv'; 

你可能感兴趣的:(数学)