初遇机器学习

机器学习

  • 分类:
    • 监督学习(Supervised Learning)
    • 无监督学习(Unsupervised Learning)
    • 强化学习(Reinforcement Learning,增强学习)
    • 半监督学习(Semi-supervised Learning)
    • 深度学习(Deep Learning)

Python Scikit-learn

  • 一组简单有效的工具集

  • 依赖Python的Numpy,Scipy和matplotlib库

  • 开源,可复用

  • Scikit-learn常用函数

种类 应用 算法
分类 异常检测,图像识别等 KNN,SVM,etc
聚类 图像分割,群体划分等 K-Means,谱聚类,etc
回归 价格预测,趋势预测等 线性回归,SVR,etc
降维 可视化 PCA,NMF,etc

数据值总览

数据集名称 调用方式 适用算法 数据规模
波士顿房价数据集 load_boston() 回归 506*13
鸢尾花数据集 load_iris() 分类 150*4
糖尿病数据集 load_diabetes() 回归 442*10
手写数字数据集 load_digits() 分类 5620*64
Olivetti脸部图像数据集 fetch_olivetti_faces() 降维 4006464
新闻分类数据集 fetch_20newsgroups() 分类 -
带标签的人脸数据集 fetch_lfw_people() 分类;降维 -
路透社新闻语料数据集 fetch_revl() 分类 804414*47246

注:以上均为小数据集

注:小数据集可以直接使用,大数据集要在调用时程序自动下载(一次即可)

  • 波士顿房价数据集

使用sklearn.datasets.load_boston即可加载相关数据集

重要参数:

return_x_y:表示是否返回target(即价格),默认为False,只返回data(即属性)

  • 分类任务
分类模型 加载模块
最近邻算法 neighbors.Neighbors
支持向量机 svm.SVC
朴素贝叶斯 naive_bayes.GaussianNB
决策树 tree.DecisionTreeClassifier
集成方法 ensemble.BaggingClassifier
神经网络 neural_network.MLPClassifier
  • 回归任务
回归模型 加载模块
岭回归 linear_model.Ridge
Lasso回归 linear_model.Lasso
弹性网络 linear_model.ElasticNet
最小角回归 linear_model.Lars
贝叶斯回归 linear_model.BayesianRidge
逻辑回归 linear_model.LogisticRegression
多项式回归 preprocessing.PolynomialFeatures
  • 聚类任务
聚类方法 加载模块
K-means cluster.KMeans
AP聚类 cluster.AffinityPropagation
均值漂移 cluster.MeanShift
层次聚类 cluster.AgglomerativeClustering
DBSCAN cluster.DBSCAN
BIRCH cluster.Birch
谱聚类 cluster.SpectralClustering
  • 降维任务
降维方法 加载模块
主成分分析 decomposition.PCA
截断SVD和LSA decomposition.TruncatedSVD
字典学习 decomposition.SparseCoder
因子分析 decomposition.FactorAnalysis
独立成分分析 decomposition.FactICA
非负矩阵分析 decomposition.NMF
LDA decomposition.LatentDirichletAllocation
  • sklearn.cluster聚类算法
算法名称 参数 可拓展性 相似性度量
K-means 聚类个数 大规模数据 点间距离
DBSCAN 邻域大小 大规模数据 点间距离
Gaussian Mixtures 聚类个数和其它超参 复杂性高, 不适合处理大规模数据 马氏距离
Birah 分支因子,阀值等其它超参 大规模数据 两点间的欧氏距离
  • sklearn.decomposition
算法名称 参数 可拓展性 适用任务
PCA 所降维度及其它超参 大规模数据 信号处理等
FastICA 所降维度及其它超参 超大规模数据 图形图像特征提取
NMF 所降维度及其他超参 大规模数据 图形图像特征提取
LDA 所降维度及其他维度 大规模数据 文本数据,主题挖掘

你可能感兴趣的:(聚类,python,机器学习,算法,深度学习)