目前,机器学习算法在自然语言处理、无人驾驶、复杂病情诊断还没有超越人类。棋牌、语音识别、人脸识别已经超越了人类
深度学习神经网络并不是人工智能的终极解决方案
数据驱动,需要大量训练样本才能达到满意精度
无法自适应环境与任务变化
一种算法只做一件事,无法做到多面手
需要大量手工调试与试错
成本高
鲁棒性较差
定义:Machine learning, a branch of artificial intelligence, is about the construction and study of systems that can learn from data
机器学习是人工智能的一个分支,是关于构建和研究可以从数据中学习的系统
机器学习算法的一般应用框架
1️⃣ 定义需要实现的功能。
2️⃣ 采集足够多的正例与负例样本: T = { x i , y i } I N T=\{x_i,y_i\}_I^N T={xi,yi}IN
3️⃣ 利用训练样本 T = { x i , y i } I N T=\{x_i,y_i\}_I^N T={xi,yi}IN 通过迭代训练,得到模型 y = f ( x , Θ ) y=f(x,\Theta) y=f(x,Θ)
4️⃣ 如果标签y∈{-1, +1}是离散的,这就是一个分类问题;如果y,是连续的,这就是一个回归问题
模型:模型是用来描述某个特定现象或事务的
归纳模型:由一个数学公式构成,每个变量都有明确物理意义
预测模型:由一个万能函数构成,每个参数一般不具备任何物理意义,一般只能模拟或预测目标系统的输出
直推模型:没有明确的模型或函数,但是可计算出模型在特定点的值
每个数据都是对目标世界的取样,当所在世界的取样足够全面和密集时,就获得了对这个世界的完整描述
Inductive inference
归纳模型Predictive inference
预期模型Transdictive inference
直推模型目标 发现事物的真正规律 发现预测规则 评估未知预测函数在某些点的值 复杂度 比较困难 相对容易 最容易 适用性 少数变量就能描述的简单世界 需要多个变量描述的复杂世界 需要多个变量描述的复杂世界 计算成本 低 高 最高 泛化能力 低 高 最高
传统机器学习和深度学习的比较
本质完全相同:都是利用一个万能函数拟合训练样本
区别在于:深度学习神经网络是拥有极高自由度的万能函数,能够很好地拟合任意复杂度的分布。
深度学习关键词:数据驱动,越多的数据做训练,就能达到越高的精度
非监督学习与监督学习
非监督学习:不需要训练样本的机器学习算法,如数据聚类算法。
监督学习:需要训练样本的机器学习算法,如大多数分类、回归算法。
生成模型与判别模型(generative vs. discriminative)
生成模型计算数据x与标签y的联合概率P(x,y),用下列公式计算分类概率:P(y|x) = P(x,y)/P(x)
判别模型直接计算分类概率P(y|x)
简单数据模型与复杂数据模型
简单数据模型:被用来处理相互独立的简单数据
复杂数据模型:被用来处理具有时空关联性的复杂数据:语音识别
三个重要方面
1️⃣ Structural model:我们选择哪一类函数 f ( x , Θ ) f(x, \Theta) f(x,Θ)来建立模型?
2️⃣ Error model:我们选择哪一类损失函数(lossfunction) L ( y , f ( x , Θ ) ) L(y,f(x,\Theta)) L(y,f(x,Θ))来做训练?损失函数相当于为模型的选择制定考核标准。
3️⃣ Optimization procedure:我们选择哪一种数值计算方法来获取最优模型 f ∗ ( x , Θ ) f^*(x,\Theta) f∗(x,Θ)?
[1]庞善民.西安交通大学机器学习导论2022春PPT
[2]周志华. 机器学习.北京:清华大学出版社,2016