大数据采集及预处理

1、简述什么是大数据的数据采集?

大数据的数据采集是在确定用户目标的基础上,针对该范围内所有的结构化,半结构化和非结构化的数据的采集,采集后对这些数据进行处理,从中分析和挖掘出有价值的信息。在大数据的采集过程中,其主要特点和面临的挑战是成千上万的用户同时进行访问和操作而引起高并发数。

 

2、请简要对大数据的数据采集与传统数据采集进行对比

数据采集(DAQ), 又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类。

  • 线上行为数据:页面数据、交互数据、表单数据、会话数据等。
  • 内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
  • 大数据的主要来源:1)商业数据 2)互联网数据 3)传感器数据

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。

而大数据的数据采集,来源广泛,信息量巨大,需要采用分布式数据库对数据进行处理。数据类型也相当丰富,既包括结构化数据,也包括半结构化和非结构化数据。

3、简述数据采集的数据来源

1)、商业数据

商业数据是指来自于企业ERP系统、各种POS终端及网上支付等业务系统数据。是现在最主要的数据来源渠道。

2)互联网数据

互联网数据是指网络空间交互过程中产生的大量数据。包括通信记录及QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。

3)物联网数据

物联网是指在计算机互联网的基础上,利用射频识别、传感器、红外感应器、无线数据通信技术。

4、简述数据采集的技术方法

1)系统日志采集方法

2)对非结构化数据的采集

3)其他数据采集方法

 

5、简述大数据预处理的方法

大数据预处理的方法主要包括数据清洗、数据集成、数据变换、数据规约。

你可能感兴趣的:(大数据采集及预处理)