SparkML(二) 设计机器学习系统

本章还是理论阶段,有一套完整清晰的理论对设计高层架构有着巨大作用。

大数据处理系统必备的特性

  1. 必须能与其他系统组件整合,数据收集系统、数据存储系统、前段web服务等等
  2. 必须易于扩展且与其它组建独立,理想情况下要兼具水平和垂直可扩展性
  3. 支持高校完成所需类型的计算,包含机器学习和迭代式分析应用
  4. 最好能同时支持批处理(离线处理)和实时处理

机器学习系统常应用在如下方面

  1. 个性化
  2. 目标营销和客户细分
  3. 预测建模与分析

机器学习模型分两类

  1. 监督学习
    使用已标记的数据来学习,例如:推荐、回归、分类
  2. 无监督学习
    使用无标记的数据来学习,例如:聚类、降维、特征提取

数据驱动的机器学习系统的组成

  1. 数据收集与存储
    • 文件系统HDFS、S3
    • SQL数据库MySQL Oracle DB
    • 分布式NoSQL数据库HBase、Cassandra
    • 搜索引擎Solr、Elasticsearch
    • 流数据系统Kafka、Flume
  2. 数据清理与转换
    • 数据过滤
    • 数据缺失、不完整
    • 处理可能的异常、错误值
    • 合并多个数据源
    • 数据汇总
  3. 模型训练与测试回路
    模型训练、评估、交叉验证
  4. 模型部署与整合
    模型周期性更新、实时更新
  5. 模型监控与反馈
    避免用户陷入推荐循环,可以使用无偏见的数据来训练模型
  6. 选择处理方案(离线批处理、实时处理)

你可能感兴趣的:(spark机器学习,大数据,机器学习)