大数据采集的几点问题的思考

最近去面试,遇到面试官提到了几个关于“数据采集”方面的问题。
一般大数据处理流程的共识是:

大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

其中,数据采集是第一步。有这么几个情况:
(1)日志类型的数据采集;
(2)接口类型的数据采集;
(3)爬虫数据采集;
(4)传感器数据采集等等。。

当然有别的分类,这里暂时凭个人理解做个分类。

数据结构,又分结构化,半结构化,非结构化。

遇到的常见问题有:
(1)数据有多个来源
(2)异构,混杂结构数据和非结构数据
(3)数据动态生成
(4)整合难

总称就是:多源异构动态大数据整合!这是数据采集会遇到的问题。这还真是一个很大的命题,值得一批学者去研究。

当然,现在也有一些技术能处理一部分问题。有一些数据采集平台,比如flume。笔者没有使用过这些工具,不能瞎说。只是,结合自己的一些经验,做一些思考,并记下来,为以后遇到此类问题做个参考。

未完待续。。

参考索引:
http://developer.51cto.com/art/201601/504888.htm
https://zhuanlan.zhihu.com/p/43988449

你可能感兴趣的:(hadoop,hive,大数据采集)