数据代表着对事物的描述,对数据的记录能力是原式社会与先进社会的一个重要分界标志。
数据被认为是信息时代的基础生活资料与市场要素,重要程度不亚于物质资产和人力资本。
大数据的产生是计算机和网络通信技术发展的必然结果。
作为大数据分析师被问到的问题常有一下几种
(1)我有这些数据,你能帮我做些什么?
往往是有一定数据基础的甲方提问
(2)我想做这些事,需要哪些数据?
有一定IT建设基础的甲方出于目标产品定位而进行可行性研究时在数据层的慎思。
(3)有了这些数据,还能做什么?
尝试发掘更多有价值的信息
对于一个计划进行大数据项目,数据源来自于本单位自营(数据主权属本单位)和外单位他营。
本单位自营:自营系统(平台)本单位自营,理论上数据可以最大限度的共享。
历史遗留数据:纸质文档或者存放在历史数据库中的数据
外单位他营:其他利益主体运营平台
物联网数据
政府数据
互联网/移动互联网数据
从互联网上采集数据通常的方式是爬虫。
其他数据(本单位自营系统、政府数据等)本质上都是直接在数据库层面或者软件应用层面进行的数据交换
数据的分布分为内部数据和互联网数据
数据的富集与整合是通过网络爬虫自动从URL中获取数据。
不同的利益主体出自自身职能定位和利益诉而建立的IT系统完成任务目标的过程中,存储下有关物理世界实体对象的各类数据、
1.政府数据
政府出于社会管理目的而下设的各种不猛,公检法、财务部、发改委等。产生的数据以特定的结构存储在相应的数据中心。
2.各利益主体自营爱国银行业
出于不同的利益需求,会构建不同的IT系统。
3.物联网数据
通过不同的互联网应用产品而沉淀在互联网中的各类数据,其实这些数据都是存放在不同利益主体的服务器中,互联网开放和共享是的普通人都可以访问,
如:政府部门出于信息公开的目的公开的公告、信息。电商网站出于其营销目的展示的产品。
互联网数据中沉淀着大量反映用户偏好倾向、事件趋势等相关信息。
数据富集整合是大数据项目的基础
(1)本单位自营数据往往相对容易富集和整合
(2)外单位他营数据的采集往往需要一定的商务支撑
(3)从什么网站及URL获取数据
(4)数据集成(应用)过程中,需要根据不同的分析目标运用不同的策略应对
(5)数据的质量是大数据项目建设的重要基础
对于一个企业来说,企业数据不仅包括本企业自己生产的数据也有其他企业合作时可以获得的数据。
内部数据资源整合的优势:
(1)构建数据驱动应用,推进拓展价值实现
(2)统一数据规范标准,推动数据共享开放
(3)重视数据安全管理,完善数据安全保障
(4)推进 数据融合管理,增加数据语义厚度
能否对数据进行有效的整合将成为是否能够对内部数据进行有效利用的关键。
Extract(抽取) Transform(转换) Load(装载)
ETL的目的:整合企业中的分散、凌乱、标准不统一的数据。
1.数据抽取(Extract)
从数据源中抽取,从数据源中抽取,从数据库中抽取一般分为两种方式
(1)全量抽取:全部抽取转换成ETL工具可以识别的格式,不常用。
(2)增量抽取:只抽取上次抽取以来数据库中新增或修改的数据。常用的捕获变化数据的方法:
<1> 日志对比:分析数据库自身的日志判断变化的数据
<2>时间戳:通过增加一个时间戳字段,在更新修改表数据的时候,同时修改时间戳字段的值。
<3>触发器:建立增、删、改三个触发器,原表数据变化时,就通过相应的触发器将变化的数据写入一个临时表中。
<4>全表比对:采用MD5校验码(验证是否一致)
2.数据转换和加工(Transform)
格式、数据不完整等问题需要进行加工处理。一般有两种方式:
(1)ETL引擎中的数据转换和加工
一般以组件化的方式进行,常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换等。
(2)在数据库中进行数据加工
通过SQL指令、函数来支持加工,如使用WHERE语句过滤,有些不能用SQL处理处理的则使用ETL引擎进行处理
3.数据加载
加载数据的最佳方式取决于执行操作的类型及装入多少数据,当目的库是关系型数据库时,一般有两种方式:
(1)直接使用SQL语句进行更新、插入、删除等操作
(2)采用批量装载的方式,如bcp、bulk或API
(1)DataStage
(2)Information
(3)kettle
(1)在系统初始上线前,将既有的数据导入新系统中
(2)往往会存在历史文档中的数据也要纳入数据导入范围
(3)传统意义上,ETL的流程是先抽取、转换、加载。在大数据场景下,出于对效率的考虑一般将顺序转换为ELT
(4)API接口方式适合于本单位与外单位进行数据交换的场合。
(5)系统设计者都应该有意识地设计与实现面向第三方数据访问的API接口方式,允许获得当前系统的数据
网络大数据不仅量级大,所具有的特性如下:
(1)多元异构性
(2)交互性
(3)时效性
(4)社会性:通过网络数据可以反映社会状态
(5)突发性
(6)高噪性
一种自动化浏览网络的程序或说是一种网络机器人。从指定的连接入口,按某种策略,从互联网中获取有用的信息
三种典型爬虫:
(1)批量性
(2)增量型:数据更新策略
(3)垂直型:敏感热词
爬虫的步骤:从URL池中选择一个具体的URL,利用爬虫获取URL中的数据
对数据的预处理操作:去重、结构化、自动摘要、标签化
自动摘要:将URL数据以更短的文本加以描述
标签化:底层语义(关键词、用户设定的热词)
情感语义(情感倾向)
高级语义(与具体应用目标有关的一些高级语义,分析风险信息)
概念:在互联网上可以获得的,但传统的搜索引擎由于技术限制不能经过慎重考虑后不愿意作索引的那些文件或其他高质量、权威的信息。
主要内容:(1)由于缺乏被指向的超链接而没有被搜索引擎的页面
(2)web上可访问的非网页文档(PDF、word)
(3)通过填写表单形成对后台在线数据库的查询而得到的动态页面
(4)需要注册或其他限制才能访问的内容
深网数据采集任务两大子问题
(1)查询接口:采用了包含视觉布局在内的多种方法来解析HTML表单或通过HTML表单进行语法分析来自动发现深网数据资源
(2)自动填写表单
阅读心得:这一章看得断断续续不痛快,摸鱼选手,很多知识点不清不楚的就跳过了,在介绍爬虫的那一部分就有很多不懂的地方诶,但是自己又不想返工了!先看着继续,明天做个思维导图哇
在这里插入图片描述