大数据相关技术

1数据获取方式
爬虫:分布式爬虫java的jsoup(操作方式基于选择器),pythoon,八爪鱼
日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)
(收集用户ip,访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段,拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
数据库:ETL(用户数据提取转换放到大数据环境中),mysql,oracle

2数据存储
Hadoop的HDFS hadoop分布式文件系统
Hive、HBase、Pig、Spark(scala语言开发,它是函数式编程语言-方法即运算符,运算符即方法)底层都是基于hdfs来实现的
java scala
"aaaddd".split("ad") - "aaaddd" split "ad"
相当于1+2 1.+(2)
scala有类型自动推算

3数据清洗
逻辑代码和sql
(select * from xxx where xxx)
Hive海量数据离线分析(毫秒查询)
Storm海量数据实时分析

4数据处理
离线:Hadoop.MapReduce-Hive(完全基于MapReduce公司用得最多),Hbase,pig,sparksql(底层基于hadoop.MapReduce映射规约)
实时:storm(业界速度第一,亚秒级200-500ms)以单条形式处理,SparkStreaming(批量处理,速度不如storm,但是它不容易阻塞)

生态圈:
hadoop(Hive,Hbase,pig) Spark(core,SQL、Stream、mlib、机器学习、人脸识别、图像识别)

你可能感兴趣的:(大数据相关技术)