1.人工智能的Pipeline

代码地址：appke/Los-House-Prices: 洛杉矶房价预测

人工智能的Pipeline

数据清洗
1. 清洗数据
2. 处理数据
3. 如何做特征工程，如何把数据做出优秀的训练集
4. 影响后面机器学习应用，烂的数据集效果不好，质量不高
5. ETL--Extract Transform Load
6. Pandas/Numpy/MapReduce
数据库(数据仓库)
1. Mysql/Redis/mongo
2. Mysql/Postgres
3. Hive 10亿辆车聚类 --> 最后交给MapReduce做
4. OLAP --HMASE
5. spark
数据集市/数据挖掘/数据标注(50%时间)
1. 如何生成我需要的精细的、优质的数据
2. 数据挖掘
  1. 数据可视化
  2. 数据统计
  3. 特征工程
3. 数据标注 (80%是监督学习/无监督学习也是为了监督学习)
  1. 自动化标注（没有人工就没有数据）
  2. 标注平台、节省人力
  3. 聚类等自动化
    1. 几乎不存在任何通用算法做自动化标注，一定是特定算法特定标注
    2. 算法人员花大量时间在标注上！
    3. 再标再跑
    4. 合理高效的标注
评测集合数据集的准备(数据Team的产出标准)
1. Train Set——教科书、Validata-在线测验(帮助学习) | Test—期末考试
2. 数据集市库、同一份数据，不同人使用！！
模型的设计/Loss函数的设计/训练方法的设计
1. Gradient Decent 预测数值，现实与理想的差距
2. 分布式训练/分段训练
模型的验证
1. 分类：PR曲线、ROC、F-Score、mAP(加权平均数)
2. 回归：均方差
3. 精确度：precision=1-错误率
4. 召回率：Recall=1-漏报率
模型的集成、优化
1. SDK的开发
2. 模型压缩
构建应用
数据采集

数据采集

数据采集—> 数据清洗—>数据仓库—>数据挖掘/特征工程—>数据标注—>训练集、评测集的制作—>机器学习—>模型评测—>数据采集

data-scientist-roadmap.png

生成对抗网络 GAN(干)

生成数据，做假钞
2个人的博弈
End2End
DeepDream CycleGan 对抗生成网络
正面照生成背面照

目标检测

车牌、arm芯片都可以跑
NMS 滑窗若干框合成一个框，缩成一个框
信用评分：连续(回归) 转换sigmod 分类问题！
连续的事情搞不定，就把它拆成小块来做

GPU 和 CPU

GPU专门做浮点型运算，批量运算单元，不要显示东西所误导(显卡)
CPU小系统，寄存器，没有GPU好
Cuda 酷打本身像C++ 把数据放到GPU运算，再取出的东西
OpenCL 丢掉AMD中运算
Tesorflow/keras/Caffe/MXNet/PyTorch
1080Ti、Tesla
地平线、寒武纪（中国），拿钱后买房子，冲出亚洲
分布式数据

开发过程

数据处理、清洗
数据集制作
机器学习
特征工程
对比几种机器学习方法

1.人工智能的Pipeline

人工智能的Pipeline

数据采集

生成对抗网络 GAN(干)

目标检测

GPU 和 CPU

开发过程

你可能感兴趣的:(1.人工智能的Pipeline)