(浅浅介绍一下数据采集的基础知识)(分享在东软教育线上学习的学习心得。)如有错误,欢迎各位技术大佬指正。
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等等获取数据的过程。这些数据包括RFID数据(RFID:无线射频识别即射频识别技术(Radio Frequency Identification,RFID),是自动识别技术的一种,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录媒体(电子标签或射频卡)进行读写,从而达到识别目标和数据交换的目的)、传感器数据、用户行为数据、社交网络交互数据以及移动互联网数据等等各种类型的结构化、半结构化以及非结构化的海量数据。
不但数据源的种类多,数据的类型繁杂,数据量大,并且产生的速度快,传统的数据采集方法完全无法胜任。所以在这种情况下,大数据采集技术面临许多技术挑战,一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。
本次主要介绍:
1、大数据的来源
2、数据采集的概念
3、大数据采集目标
4、大数据采集方法和途径
5、数据存储方式
1、大数据采集
提到大数据采集首先要了解一下传统的数据体系和大数据体系中的数据的类型有何区别。从数据源方面来看,传统数据采集的数据比较单一,就是从传统企业的客户关系管理系统、企业资源计划系统以及相关的业务系统当中获取数据。而大数据采集系统需要从社交网络、互联网系统以及各种类型的机器设备上获取数据。从数据量方面来看,互联网系统和机器系统产生的数据量,要远远大于企业系统的数据量。从数据结构方面来看,传统数据采集的数据都是结构化的数据,而大数据采集系统需要采集大量的视频、音频、照片等等非结构化数据。以及网页、博客、日志等等半结构化数据。从数据产生速度来看,传统数据采集的数据几乎都是由人类的操作实现的。远远慢于机器生成数据的效率,因此,传统数据采集的方法和大数据采集的方法也有很多根本的区别。传统数据体系中包括业务数据和行业数据。
在新的数据体系中,数据的来源主要分为一下五种。
大数据的来源主要有:业务数据(消费者数据、客户关系数据、商户数据、账务数据等)、行业数据(流量数据、农业大数据、天气环境数据、医疗健康、科学研究数据等)、内容数据(应用日志、电子文档、机器数据、多模态数据等)、线上行为数据(页面数据、交互数据、表单数据、会话数据、反馈数据等)、线下行为数据(物体运动数据、用户位置和轨迹数据、运动位置和轨迹数据等)
数据的来源按照不同的来源系统有以下几种。
企业系统(ERP系统、商务销售系统、计费账务系统、财务系统等)、机器系统(智能仪表、工业设备传感器、农业设备、视频监控系统、科研探测设备等)、互联网系统(电商系统、服务系统、政府监管系统等)、社交系统(Wechat微信、QQ、微博、短视频平台、第三方应用、朋友圈等)。
2、数据采集的概念
数据采集又称喂数据获取,它是利用一种装置,从系统外部采集数据,并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。例如摄像头、麦克风等,都是数据采集工具。被采集数据是已被转换为电信号的各种物理量。例如温度、水位、风速、压力等等。它可以是一个模拟量,也可以是一个数字量。一般是固定的采样方式,间隔一定时间对同一点的数据重复的进行采集。采集的数据大多是瞬时的值,也可以是某段时间内的一个特征的值。准确的数据测量是数据采集的基础数据采集的含义很广,包括对连续物理量的采集,在计算机辅助制图 测图 设计中,对图形、图像数字化过程也可以称为数据采集。此时被采集的就是几何数据了。
在互联网行业飞快发展的今天,数据采集已经被广泛地应用于互联网以及分布式领域,数据采集的领域已经发生了重要的变化。首先,分布式控制应用场合中的智能数据采集系统已经在国外得到了长足的发展。其次,总线兼容型数据采集插件的不断增多与个人计算机兼容的数据采集系统也在增加。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。
数据采集的三大要点:1、全面性·数据量足够具有分析价值、数据面足够支撑分析需求。2、多维性·数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。3、高效性·高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。
3、大数据采集目标
数据采集的宏观目标:完成企业所需各类数据源的采集,并建立各种接口,将数据引入企业大数据平台。从业务系统采集的数据,主要是满足业务抽象出来的数据需求。典型的例子是电商推广、线上广告、APP注册等生意。不管是各家电商网站的辅助营销工具还是各大媒体平台也不管具体的付费方式是哪种,最终都要提供较为通用的浏览量、独立访客数、转化率、点击率等等各类型的数据。给营销人员、销售人员、甲方去适用,参考和分析。另一方面为了提出产品改进方向的假设,满足假设检验的数据需求,比如什么形状的分享按钮更有利于用户分享。某个tab页是否存在的意义。为了验证假设的需求,就会在数据采集过程当中体现,在常用的APP中我们仔细观察不难刊出很多的测试案例。数据采集贯穿在企业大数据平台建设整个过程中,不同阶段根据需求,考虑各种因素,制定阶段数据采集目标。比如采集的技术,是否能够满足实时的要求,能否满足其他的要求等等。同时要考虑采集的数据范围,需要多久的历史数据,需要哪些表那些字段等等。要考虑数据质量,某些来源的数据如果存在数据缺失、重复数据、异常数据等等情况,要如何地进行采集和处理。考虑到采集成本,不同的采集方法会有成本的差异,要综合测算投入的产出比,选择对应的技术方案。
4、大数据采集方法和途径
大数据的采集是指利用多个数据库或者存储系统,来接收客户端的数据。例如,电商会使用传统的关系型数据库MySQL和Oracle来存储每一笔事务的数据。在大数据时代,Redis、MongoDB和HBase等等NoSQL数据库也常常用于数据的采集。数据采集过程的主要特点和挑战是并发程度高。因为同时可能会有,成千上万的用户来进行访问和操作。例如,火车票的销售网络和淘宝的并发量。在峰值可能达到上百万。所以在采集端需要部署,大量的数据库才能够对它进行支撑。在这些数据库之间进行负载均衡和分片是需要深入思考和设计的。根据数据源的不同,大数据采集方法也不同。但是为了能够满足大数据采集的需要,大数据采集时都使用了大数据的处理模式,即使用了MapReduce分布式并行处理模式。或是基于内存的流式处理模式。针对于四种不同的数据源大数据的采集方法有以下几类。
大数据采集的方法:(1)数据库采集:关系型数据库、NoSQL数据库
(2)系统日志采集:离线大数据分析系统、在线大数据分析系统。满足高可用性、高可靠性、高可拓展性。 系统日志采集工具均使用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。
(3)网络数据采集:通过网络爬虫或者网站公开API等方式从网站上获取数据信息的过程。将非结构化数据、半结构化数据从网页中提取出来。
(4)感知设备数据采集:通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理。
5、数据存储方式
结构化数据:来自业务系统关系数据库、大数据平台Hive、MaxCompute、统一仓库建模,划分层次、主题。
半结构化数据:来自日志,网络、大数据平台Hive,MaxCompute,NoSQL数据库、解析抽取出结构化信息,进入数据仓库。
非结构化数据:来自网络、检测设备。分布式文件系统HDFS,OSS,MongoDB等。识别抽取出结构化信息,进入数据仓库。