zxl-机器学习-01

文章目录

  • 机器学习
    • 一. 定义:
    • 二. 计算机三阶段
    • 三. 基本要求
    • 四. 统计机器学习
    • 五. 基本问题
    • 六. 机器学习的方法

作者:zstarling

机器学习

网络 算法 机器
优化 概率 统计
数据 矩阵 信息
模型 推理
知识靠学习

一. 定义:

机器学习是把数据变成知识的和过程。计算机和数学的结合。
统计提供建模的框架framework。
数据挖掘和机器学习本质上无区别,机器学习更偏数学。

区别:

ML机器学习 STAT统计学
networks,graphs网络,图形 Models建模
weights权重 paramelevs参数
learing学习 fitting or estimation模型拟合和参数估计
generalization模型的泛化能力 Test set测试模型性能
superised learing监督学习 regession回归/classification分类
unsuperised learing无监督学习 densify estimation密度估计,clustery聚类

二. 计算机三阶段

  1. 基础阶段work
    程序可以执行,编译,操作系统,数学
  2. 中间阶段make
    数据结构和算法
  3. 最后阶段useful
    概率与统计

三. 基本要求

基础架构
编码能力
数学能力

四. 统计机器学习

定义:把计算机和统计连接起来的桥梁,把信息论,信号处理,算法,控制论和优化紧密连接起来。
SML=矩阵+优化+算法+统计
statistic=matrix+optimization+algortion+statictics

五. 基本问题

  1. 降维dimension reducing
    xi是P维,zi是Q维,P>Q。
    -----------$ xi\forall i in\mathbb R$
    a. 线性降维:Zqx1=AqxpXpx1
    要求A为满秩或者为列正交(A[T]A=I)
    b. 非线性降维:Z:f(x)
  2. 聚类clustering(类别未知
    K-class K均值聚类。
    以上两种属于无监督学习。
  3. 分类classification(类别已知
    针对输出为离散型数据
    根据已有的数据训练一个模型,估计参数。
    • 二分类:binary yi 属于{-1,1}
      X属于输入
      Y属于输出
    • 多分类:multi yi 属于{1,2,3,…,k}
      目标函数=误差函数(y~f(x,theta))+参数约束kp(theta)
      训练数据(建立模型的参数theta)
      验证数据(估计k值 k是指对参数theta的约束
      测试数据(输入后验证输出是否正确)
  4. 回归regression
    针对输出为实数数据类型 y 属于 R实数
  5. 排序Ranking
    Isotonic Regression

六. 机器学习的方法

把模型的参数作为未知常数去测试评估和拟合。
最小二乘法,最大似然估计,
贝叶斯分布
先验概率,后验概率。

你可能感兴趣的:(Python,机器学习)