1 网络爬虫概述

1 网络爬虫概述

1.1 理解数据

1.11什么是数据

“所有的数字都是数据”
“图片、字母、文字等都是数据”
没错,只要承载了一定的信息,这些数字、图片、文本、声音等都可以认为是数据。没有承载信息的数字是不能作为数据的,认识清楚这个问题,是踏入大数据之门的第一步。

1.12数据从哪里来

从微观层面看,我们每个人都在生产着数据:早上8点,你使用支付宝购买了早餐;上午10点,你给100086打一次电话咨询话费余额;下午六点,你乘坐的公共交返回家中。然后,支付宝获取了你的使用习惯和消费能力,时时向你推荐花呗等应用;10086获取了你的咨询需求,推出了自助话费查询功能;公共交通将你的信息提供给了保险公司,就有了后来的“先生/女士,现向你推荐一款公共交通安全险…”
从宏观层面看,各种行业以几何倍数爆发增长的速度在制造着数据,比如互联网(社交,搜索,电商)、移动互联网(微博)、物联网(传感器)、医学影像、安全监控、金融(银行,股市,保险)电信(通话,短信)都在疯狂的产生着数据,已经不能用G或T来衡量,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。

1.13 常用的数据格式

HTML、Json、XML、txt、csv、doc、XLS、PDF

1.2 大数据生命周期

采集:数据收集是做大数据的第一步,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头,麦克风,都是数据采集工具。
数据采集系统整合了信号、传感器、激励器、信号调理、数据采集设备和应用软件。

大数据生命周期:数据采集–>数据存储–>数据处理–>数据展现(可视化,报表和监控)

1.3 数据采集方法

大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。从采集方法上,大致分为离线采集、实时采集、互联网采集和其他采集。

1.3.1离线采集

工具:ETL
在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的抽取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。

数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持经营管理中的决策制定过程。
数据库和数据仓库区别如下
数据库是面向事务的设计,而数据仓库是面向主题设计的。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计。
数据库一般存储在线交易数据,数据仓库一般存储的是历史数据。

1.3.2 实时采集

工具:Flume、Kafka、Spark Streaming
实时采集主要用在考虑流处理的业务场景,比如,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和 web 服务器记录的用户访问行为。在流处理场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理(例如去重、去噪、中间计算等),之后再写入到对应的数据存储中。
这个过程类似传统的ETL,但它是流式的处理方式,而非定时的批处理Job,些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求

1.3.3 互联网采集

工具:Scrapy、pyspider等
又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的采集。

1.3.4 其他数据采集方法

对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。

1.4 数据清洗

1.4.1 脏数据

脏数据即数据不完整有缺失、存在错误和重复的数据,数据存在不一致和冲突等缺陷

1.4.2 数据清洗

广义上,数据清洗是将原始数据进行精简以去除冗余和消除不一致,并使剩余的数据转换成可接收的标准格式的过程;
狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言,凡是有助于提高信息系统数据质量的处理过程,都可认为是数据清洗
数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满足数据质量或应用要求的数据

你可能感兴趣的:(python)