【机器学习】概述

一、机器学习常用库

Numpy 存储数据
Pandas 对Numpy的封装
Matplotlib 画图
Scipy 数学计算库
sklearn、PaddlePaddle 常见算法集成
keras 对tensorflow的封装

二、机器学习简介

1. 监督学习

从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可根据这个函数预测结果。常见任务包括分类回归
分类:输出是类别标签
回归:输出是实数

2. 无监督学习

没有标注的训练数据集,需要根据样本间的统计规律对样本进行分析。常见任务:聚类

3. 半监督学习

结合少量的标注训练数据和大量的未标注数据进行数据的分类学习
两个基本假设:
聚类假设:处在相同聚类中的样本示例有较大的可能拥有相同的标记;
流形假设:处于一个很小的局部区域内的样本示例具有相似的性质,因此其标记也应该相似;

4. 增强学习

外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身性能

5. 多任务学习

把多个相关的任务放在一起同时学习

三、机器学习方法分类

1. 分类问题

决策树
贝叶斯
支持向量机
逻辑回归
集成学习

2. 回归问题

线性回归
广义线性回归
岭回归
Lasso回归

3. 聚类问题

K-means
高斯混合聚类
密度聚类
层次聚类

4. 其他问题

隐马尔可夫模型
LDA主题模型

四、人工智能概述

人工智能 > 机器学习 > 深度学习

五、机器学习建模步骤

1. 数据采集/清洗

网络数据:爬虫/下载
系统数据:格式化处理

对数据集中的冗余/不规则的数据进行清理/格式化

2. 数据分割

训练集/测试集
训练集/测试集/验证集
交叉验证

3. 模型建立

选择算法

参数调优

特征选择

观察数据,经验分析
手动分析:从具体数据进行分析

特征降维:
主成分分析法PCA
线性判别分析LDA

特征值计算
数值型特征(标准化、正则化、归一化)
字符型特征值(BOW、CBOW、向量化)

4. 评估指标

准确率accuracy
精确率precision
召回率recall
综合评价指标F-measure
ROC/AUC(二值分类器新评价指标)

评价指标详解

你可能感兴趣的:(机器学习,python,人工智能)