机器学习导论——大数据项目架构

以电信日志分析为例
一、项目名称:电信日志分析系统
二、项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词过滤、违规违法用户的处理等,整个项目数据量在1T-20T左右,集群数量在10台到100台。
三、项目架构分析
数据采集层:ftp、socket方式
数据存储层:HDFS
数据分析层:MR\HIVE\IMPALA\SPARK
机器学习层:在大数据处理后的应用
数据展示层:oracle+SSM
机器学习导论——大数据项目架构_第1张图片
机器学习导论——大数据项目架构_第2张图片
四、项目职责
重点负责:实时or离线
处理分析了哪些字段,通过何种手段进行分析
项目有没有优化
五、项目优化
HDFS+Spark(一站式的分析平台)

你可能感兴趣的:(机器学习导论——大数据项目架构)