斯坦福大学公开课 :机器学习课程(Andrew Ng)——1、整体看一看

============================================================================【课程综述】============================================================================
第一课时:
    机器学习的定义【 The Definition of Machine Learning】
    本课程的四部分内容:
        1)监督学习【The Overview of Supervised Learning】
        2)学习理论【The Overview of Learning Theory】
        3)无监督学习【The Overview of Unsupervised Learning】
        4)强化学习【The Overview of Reinforcement Learning】
============================================================================【监督学习】============================================================================
==================================【监督学习:Linear Regression】======================================================
第二课时:
    *线性回归【Linear Regression】:LMS(least mean squares) algorithm
    *(批量/随机=增量)梯度下降【Batch/Stochastic=Incremental Gradient Descent】
    *常用矩阵符号定义【Matrix Derivative Notation for Deriving Normal Equations】
    *标准方程推导【Derivation of Normal Equations】
第三课时:
    线性回归的概率解释【The Probabilistic Interpretation of Linear Regression】:LMS~=~MLE(least-squares regression corresponds to finding the maximum likelihood estimate of theta)
    *局部加权线性回归【Locally Weighted Linear Regression】:如何定义权重使距离预测点近的样本贡献大,远的样本贡献小。
    欠拟合和过拟合【Underfitting and Overfitting】
    参数化和非参数化算法【Parametric Algorithms and Non-parametric Algorithms】:Linear Regression是参数化算法;Locally Weighted Linear Regression是非参数化算法
==================================【监督学习:Classification and Logistic Regression】==================================
    *Logistic回归【Logistic Regression】
    感知器【 Perceptron】
第四课时:
    *牛顿方法(找最值)【Newton's Method】
==================================【监督学习:Generalized Linear Models】================================================
    指数分布函数族(高斯分布、伯努利分布是特例)【Exponential Family(Bernoulli Example, Gaussian Example)】:能找到对应的a,b,T。
    广义线性模型(最小均方、Logistic回归、多项式分布是特列)【General Linear Models (GLMs,Least-Squares Example, Logistic Regression Example, Multinomial Example)】
    Softmax Regression【classification problems where y = {1,2,...,k}】:We model it as distributed according to a multinomial distribution.
==================================【监督学习:Generative Learning Algorithms】===========================================
第五课时:
    生成学习算法和判别学习算法对比【Discriminative Algorithms, Generative Algorithms】:mapping directly from X to the labels {0, 1} or instead try to model p(x|y=0), p(x|y=1), p(y) and p(y|x)
    *高斯判别分析【Gaussian Discriminant Analysis (GDA)】:assume that p(x|y) is distributed according to a multivariate normal distribution
    *多元正态分布【The Multivariate normal distribution】:均值、协方差
    GDA and Logistic Regression Relationship:GDA对于训练样例很少的情况效果非常好;如果样例确实是多元正态分布,没有哪个方法比GDA好;但LR对前提要求低,所以实际应用更多,如果样例多则表现不比GDA差
    *朴素贝叶斯算法(文本分类)【Naive Bayes(text classification)】:assume that the xi's are conditionally independent given y, ie, p(x1,...,x5000|y)=p(x1|y)*...*p(x5000|y)
    *Laplace平滑技术【Laplace Smoothing】:分子+1,分母+k,防止因为没看到某个文字就认为该文字出现的概率为零,其中k为y的分类个数。
第六课时:
    *朴素贝叶斯算法的两类事件模型【Multi-Variate Bernoulli Event Model and Multinomial Event Model】:依次决定每个单词是否要产生(多值伯努利事件模型)or依据同一多项式分布依次产生N个单词的下标(多项式事件模型)
    神经网络算法【Neural Network, Applications of Neural Network】:
==================================【监督学习:Support Vector Machine】====================================================
    函数间隔和几何间隔【Functional and Geometric Margins】:函数间隔存在随着w/b缩放而缩放的问题;几何间隔将w归一化,即w/b分别除以|w|。
    最优(大)间隔分类器推导【the Optimal Margin Classifier】:依次经过如下转换,最大化几个间隔==》最大化函数间隔/||w||==》最小化||w||。
    拉格朗日对偶问题和KKT条件【Lagrange Duality, Karush-Kuhn-Tucker (KKT) Conditions】:满足KKT条件,则d*==待求==p*。    
第七课时:
    最优间隔分类器问题(应用朗格朗日对偶和KKT条件推导w/b<假设alpha已知>)【 Optimal Margin Classifiers】:最小化||w||通过朗格朗日对偶和KKT条件可以转换为输入特征空间内的点的内积问题,即
    *支持向量和核的概念【Support Vectors and Kernels】:离决策边界最近(其几何间隔正好为1)的正负训练样例点称为支持向量;核是属性向特征映射的函数的内积,即K(x,z)==f(x)Tf(x),核也可以看成f(x),f(z)相似程度测量的函数。
    *支持向量机算法(线性分类算法)及核在SVM中的应用【Support Vector Machine (SVM)】:将原来算法中的属性x替换为特征f(x),进而将替换为=K(x,x),由于单独的f(x)很难算而K(x,x)容易计算(非支持向量的点x将不用计算),所以此方法非常好,即SVM。
第八课时:
    核在其它学习算法中的应用【Kernel Matrix, Mercer's Theorem】:合法的核对应的Kernel Matrix(ie, its entry is given by Kij = K(x(i),x(j)))必定是对称半正定矩阵;任何算法中输入特征向量的内积都可以用核K(x,z)代替从而产生非常好的效果。
    *使用核的一般方法:1)根据问题选择合适的核函数K(x,z);2)将原来算法中的内积替换为K(x(i),x(j))<即变相地将x(i)替换为f(x(i))>;3)对于线性可分割情况,计算起来更快,对于线性不可分割,将训练样例映射到高维空间以使样例可分割;4)整个过程只要解决凸函数问题即可。
    *L1正规化软间隔SVM(处理非线性可分割和边缘点)【L1 Norm Soft Margin SVM, work for non-linearly separable datasets and less sensitive to outliers】:限制条件从函数间隔严格大于等于1变为大于等于1-Theta。
    *坐标上升算法【Coordinate Ascent Algorithm】:最优间隔分类器问题中假设alpha已知推导w/b,该算法寻找无限制条件的最优alpha,每次只优化一个坐标而固定其他坐标。
    *SMO算法(SVM优化算法)【The Sequential Minimization Optimization (SMO) Algorithm】:该算法寻找有限制条件的最优alpha,每次联动两个坐标而固定其他坐标。
============================================================================【学习理论】============================================================================
==================================【学习理论:Empirical Risk Minimization (ERM)】=========================================
第九课时:
    偏差方差权衡(训练误差、真实误差)【Bias/variance Tradeoff】:
    The Union Bound, Hoeffding Inequality:
    *经验风险最小化ERM【Empirical Risk Minimization (ERM)】:经验风险即训练误差,
    有限假设空间【The Case of Finite H】:Uniform Convergence Theorem & Corollary, Sample Complexity Bound, Error Bound, PAC(probably approximately correct)    
第十课时:
    无限假设空间【The Case of Infinite H】:The Concept of 'Shatter' and VC Dimension(打散和VC维度)。
==================================【学习理论:Regularization and Model Selection】========================================
    *交叉验证方法【Cross Validation】:hold-out(1/3) cross validation, k-fold(10) cross validation, leave-one-out cross validation。
    *特征选择问题(封装特征选择和过滤特征选择)【Wrapper/Filter Feature Selection】:使用循环依次选择交叉验证效果最好的特征or根据特征xi对目标y的预测信息提供量(informative)为每个特征xi打分,取分数最高的k(由交叉验证决定)个特征。
第十一课时:
    贝叶斯统计和规范化【Bayesian Statistics and Regularization】:
==================================【学习理论:Online Learning and Error Analysis】========================================
    在线学习【Online Learning】:对于给定的x,先预测对应的y',再给出正确的y进行学习,循环此过程;我们关心的是在整个过程中预测出错的次数的上界是(D/γ)^2。
    机器学习算法设计中的问题诊断技巧【 Advice for Applying Machine Learning Algorithms, Debugging/fixing Learning Algorithms, Diagnostics for Bias & Variance】
    两种分析技巧:误差分析与销蚀分析【 Optimization Algorithm Diagnostics, Diagnostic Example - Autonomous Helicopter, Error Analysis】:
    两种应用机器学习算法的方式与使用场景【Getting Started on a Learning Problem】:
============================================================================【无监督学习】============================================================================
==================================【无监督学习:K-means Clustering Algorithm】============================================
第十二课时:
    K-Means聚类算法【K-means Clustering Algorithm, K-means Algorithm】:最简单的无监督聚类算法
==================================【无监督学习:Mixtures of Gaussians and Expectation-Maximization】======================
    混合高斯模型【Mixtures of Gaussians】:认为存在隐含随机变量z(k)服从多项式分布Multinomial($),训练样例x(m)是先选择某个隐含随机变量z,然后由z所决定的高斯分布随机产生训练样例x。
    期望最大算法EM(混合高斯模型是其特例)【the EM Algorithm】:E-step,估算每个样本由某个z产生的概率p(z(j)=k|x(i));M-step,根据此概率更新MaxLikehood中的参数;重复以上过程直到收敛。
    Jesen不等式引出EM算法一般形式【 Jensen's Inequality, The EM Algorithm, Summary】:E[f(x)]>=f(E[x]);
第十三课时:
    EM算法与混合高斯模型的应用【Mixture of Gaussian, Mixture of Naive Bayes - Text clustering (EM Application)】:要求训练样本足够多,可以确定出每个高斯分布的具体结构,即m>>k(隐含高斯的个数)且m>>n(每个输入变量的维度)。
==================================【无监督学习:Factor Analysis(FA)】======================================================
    因子分析模型【 Factor Analysis Model, Restrictions on a Covariance Matrix, Marginals and Conditionals of Gaussians】:对角矩阵且值相等;高斯分布的边缘概率和条件概率。
第十四课时:
    因子分析算法的EM推导过程【EM for Factor Analysis,】:适用于训练样本的维度很高且只有少量训练样例时的模型拟合,即m< ==================================【无监督学习:Principal Component Analysis(PCA)】========================================
    主成分分析法(降低数据维度的算法)【Principal Component Analysis (PCA, a Dimensionality Reduction Algorithm)】:降维,找到与最终预测最有关联的维度。
第十五课时:
    主成分分析法(寻找相似文档)【 Latent Semantic Indexing (LSI)】
    奇异值分析SVD【Singular Value Decomposition (SVD) Implementation】
==================================【无监督学习:Independent Component Analysis (ICA)】======================================
    独立成分分析算法ICA【Independent Component Analysis (ICA), The Application of ICA】:从混合结果中分析出独立的贡献成分。
    累积分布函数CDF【Cumulative Distribution Function (CDF), ICA Algorithm, The Applications of ICA】
============================================================================【强化学习】============================================================================
第十六课时:
    *马可夫决策过程MDP【Applications of Reinforcement Learning, Markov Decision Process (MDP)】
    *值迭代和策略迭代算法【Defining Value & Policy Functions, Value Function, Optimal Value Function, Value Iteration, Policy Iteration】
第十七课时:
    Generalization to Continuous States, Discretization & Curse of Dimensionality, Models/Simulators,
    拟合值迭代算法【Fitted Value Iteration】
    近似政策迭代算法【Finding Optimal Policy】
第十八课时:
    控制NVP算法
    非线性动力学系统
    线性二次型调节控制
    State-action Rewards, Finite Horizon MDPs, The Concept of Dynamical Systems, Examples of Dynamical Models, Linear Quadratic Regulation (LQR), Linearizing a Non-Linear Model, Computing Rewards, Riccati Equation
第十九课时:
    调试强化学习算法
    Kalman滤波器
    微分动态规划
    卡尔曼滤波与LQR控制结合算法(LQG控制算法,线性二次高斯)
    Advice for Applying Machine Learning, Debugging Reinforcement Learning (RL) Algorithm, Linear Quadratic Regularization (LQR), Differential Dynamic Programming (DDP), Kalman Filter & Linear Quadratic Gaussian (LQG), Predict/update Steps of Kalman Filter, Linear Quadratic Gaussian (LQG)
第二十课时:
    部分可观察马可夫决策过程POMDPs
    完全可观察马可夫决策过程
    策略搜索算法(Reinforced和Pegasus)
    课程推荐与学生期望
    Partially Observable MDPs (POMDPs), Policy Search, Reinforce Algorithm, Pegasus Algorithm, Pegasus Policy Search, Applications of Reinforcement Learning

你可能感兴趣的:(《Machine,Learning,Andrew,Ng》)