spark机器学习库指南[Spark 1.3.1版]

本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以Python版为主,部分Python不支持的功能保留原理说明,代码示例略去,另外翻译的时候对部分概念做注解。[注:翻译是为了帮助自己更好地理解相关概念,英语OK的同学建议直接阅读英文原版]

MLlib是Spark中可扩展的机器学习库,它由一系列机器学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维,另外还包括一些底层的优化方法。下文是MLib文档的目录结构:

  • 数据类型[Data types]
  • 基础统计[Basic statistics]
    • 汇总统计[summary statistics]
    • 相关系数[correlations]
    • 分层抽样[stratified sampling]
    • 假设检验[hypothesis testing]
    • 随机数据生成[random data generation]
  • 分类和回归[Classification and regression]
    • 线性模型(SVMs, logistic regression, linear regression)]
    • 朴素贝叶斯[naive Bayes]
    • 决策树[decision trees]
    • 树的集成 (Random Forests and Gradient-Boosted Trees)]
    • 保序回归[isotonic regression]
  • 协同过滤[Collaborative filtering]
    • 交替最小二乘法[alternating least squares (ALS)]
  • 聚类[Clustering]
    • K均值[k-means]
    • 高斯混合[Gaussian mixture]
    • 幂迭代聚类[power iteration clustering (PIC)]
    • LDA[latent Dirichlet allocation]
    • 流式K均值[streaming k-means]
  • 降维[Dimensionality reduction]
    • 奇异值分解[singular value decomposition (SVD)]
    • 主成分分析[principal component analysis (PCA)]
  • 特征提取和转换[Feature extraction and transformation]
  • 频繁模式挖掘[Frequent pattern mining]
    • FP-growth
  • 优化[Optimization (developer)]
    • 随机梯度下降[stochastic gradient descent]

    • 有限内存BFGS[limited-memory BFGS (L-BFGS)]
    转自: 纯净的天空 出品: http://www.fuqingchuan.com/2015/04/280.html

你可能感兴趣的:(spark机器学习库指南[Spark 1.3.1版])