sklearn简介

ML分类

监督
无监督
强化 - 增强
半监督
深度 - DNN抽象数据表示特征

ML应用

网络搜索
垃圾邮件过滤
推荐系统
广告投放
信用评价
欺诈检测
股票交易
医疗诊断

scikit-learn
根据问题的类型来选择模型

分类 异常检测 & 图像识别 KNN & SVM
聚类 图像识别 & 群体划分 K-Means & 谱聚类
回归 价格预测 & 趋势预测 线性回归 & SVR
降维 可视化 PCA & NMF

目标:
ML算法原理
ML解决应用问题的能力
sklearn中常见ML算法的基本调用方法

推荐资料
西瓜书
PRML
ML-CS229
CS231N
RL - David Silver

数据集


sklearn简介_第1张图片
sklearn数据集总览.png

小数据集可以直接使用,大数据集要在调用时程序自动下载。

波士顿房价数据集 - 加载示例

from sklearn.datasets import load_boston
boston =  load_boston()
print(boston.data.shape)
from sklearn.datasets import load_boston
data, target = load_boston(return_X_y=True)
print(data.shape)
print(target.shape)

鸢尾花数据集 - 多分类问题

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data.shape)
print(iris.target.shape)
list(iris.target_names)

手写数字数据集
n_class

from sklearn.datasets import load_digits
digits = load_digits()
print(digits.data.shape)
print(digits.target.shape)
print(digits.images.shape)

import matplotlib.pyplot as plt 
plt.gray() 
plt.matshow(digits.images[0]) 
plt.show() 

sklearn库的基本功能
分类 | 回归 | 聚类 | 降维 | 模型选择 | 数据预处理

分类:
最近邻算法 | 支持向量机 | 朴素贝叶斯 | 决策树 | 集成方法 | 神经网络

回归:
岭回归 | Lasso回归 | 弹性回归 | 最小角回归 | 贝叶斯回归 | 逻辑回归 | 多项式回归

聚类:
K-meas | AP聚类 | 均值聚类 | 层次聚类 | DBSCAN | BIRCH | 谱聚类

降维:
主成分分析 | 截断SVD和LSA | 字典学习 | 因子分析 | 独立成分分析 | 非负矩阵分解 | LDA

你可能感兴趣的:(sklearn简介)