行业大数据期末复习

一。个人笔记总结

数据的分类
行业大数据期末复习_第1张图片
维基百科(Wikipedia):规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。
美国国家标准技术研究院(NIST):具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Volocity)和变化频繁(Variability)的特征,且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。
IBM给出了一个“4V特性”的定义:强调了大数据的数量(Volume)、多样性(Variety)、速度(Volocity)和真实性(Veracity)等方面,后来也将数据价值(Value)吸收进来,成为大数据的“5V特性”。
麦肯锡全球研究机构(McKinsey Global Institute):综合了“现有技术无法处理”和“数据特征”定义,它认为“大数据是指大小超过经典数据库软件工具收集、存储、管理和分析能力的数据集,这一定义是站在经典数据库的处理能力的基础上看待大数据的。

行业大数据期末复习_第2张图片

数据获取:
-数据获取后,需要对数据进行变换、清洗等预处理,输出满足数据应用要求的数据
数据管理:
-对数据进行分类、编码、存储、索引和查询
数据分析:
-描述性分析、诊断性分析、预测性分析和规范性分析
数据可视化与交互分析:
-帮助业务人员而非数据处理专家更好的理解数据分析的结果

数据集成是把不同来源、格式、性质的数据在逻辑上或物理上有机地集中,通过一种一致的、精确的、可用的表示法,对同一种现实世界中的实体对象的不同数据做整合的过程,从而提供全面的数据共享,经过数据分析挖掘产生有价值的信息。
可以分为传统数据集成和跨界数据集成。

行业大数据期末复习_第3张图片
以下是客户收入属性的取值,请按照上述三种方案进行分箱处理
800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000
3500 4000 4500 4800 5000行业大数据期末复习_第4张图片
在分箱之后,要对每个箱子中的数据进行平滑处理。
按平均值:对同一箱子中的数据求平均值,用均值代替箱子中的所有数据
按中值:取箱子中所有数据的中值,用中值代替箱子中的所有数据
按边界值:对箱子中的每一个数据,使用离边界值较小的边界值代替
行业大数据期末复习_第5张图片
行业大数据期末复习_第6张图片
网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。
网络爬虫就像一只蜘蛛一样在互联网上沿着URL的丝线爬行,下载每一个URL所指向的网页,分析页面内容。

1.通用网络爬虫又称为全网爬虫,其爬行对象由一批种子URL扩充至整个Web,该类爬虫比较适合为搜索引擎搜索广泛的主题,主要由搜索引擎或大型Web服务提供商使用。
行业大数据期末复习_第7张图片
2.聚焦网络爬虫又被称作主题网络爬虫,其最大的特点是只选择性地爬行与预设的主题相关的页面

基于内容评价的爬行策略:该种策略将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关的页面,其局限性在于无法评价页面与主题相关度的高低。
基于链接结构评价的爬行策略:该种策略将包含很多结构信息的半结构化文档Web页面用来评价链接的重要性,其中一种广泛使用的算法为PageRank算法,PageRank算法最初用于搜索引擎信息检索中对查询结果进行排序,具体做法就是每次选择PageRank值较大页面中的链接来访问。
基于增强学习的爬行策略:该种策略将增强学习引入聚焦爬虫,利用贝叶斯分类器对超链接进行分类,计算出每个链接的重要性,按照重要性决定链接的访问顺序。
基于语境图的爬行策略:该种策略通过建立语境图学习网页之间的相关度,计算当前页面到相关页面的距离,距离越近的页面中的链接优先访问。

3.增量式网络爬虫只对已下载网页采取增量式更新或只爬行新产生的及已经发生变化的网页,需要通过重新访问网页对本地页面进行更新,从而保持本地集中存储的页面为最新页面。
应用场景:
需要爬取多个同类型的网站数据
网站数据持续、不定期更新
数据量不太大,每日更新几千
获取到的数据可以用来进行数据分析等等统一更新法:以相同的频率访问所有网页,不受网页本身的改变频率的影响。
个体更新法:根据个体网页的改变频率来决定重新访问各页面的频率。
基于分类的更新法:爬虫按照网页变化频率分为更新较快和更新较慢的网页类别,分别设定不同的频率来访问这两类网页。

4.深层网络爬虫
Web页面按照存在方式可以分为表层页面和深层页面两类。表层页面指以传统搜索引擎可以索引到的页面,深层页面为大部分内容无法通过静态链接获取,隐藏在搜索表单后的,需要用户提交关键词后才能获得的Web页面。
深层爬虫的核心部分为表单填写,包含以下两种类型。
基于领域知识的表单填写:该种方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。
基于网页结构分析的表单填写:这种方法一般无领域知识或仅有有限的领域知识,将HTML网页表示为DOM树形式,将表单区分为单属性表单和多属性表单,分别进行处理,从中提取表单各字段值。

行业大数据期末复习_第8张图片
行业大数据期末复习_第9张图片

网站反爬虫的目的与手段

  1. 通过User-Agent校验反爬
  2. 通过访问频度反爬
  3. 通过验证码校验反爬
  4. 通过变换网页结构反爬
  5. 通过账号权限反爬
    行业大数据期末复习_第10张图片
    行业大数据期末复习_第11张图片
    行业大数据期末复习_第12张图片
    行业大数据期末复习_第13张图片
    HTTP头部信息(HTTP header fields)是指在超文本传输协议(HTTP)的请求和响应消息中的消息头部分。头部信息定义了一个超文本传输协议事务中的操作参数。在爬虫中需要使用头部信息向服务器发送模拟信息,通过发送模拟的头部信息将自己伪装成一般的客户端。

    *HTTP头部类型按用途可分为:通用头,请求头,响应头,实体头。

通用头:既适用于客户端的请求头,也适用于服务端的响应头。与HTTP消息体内最终传输的数据是无关的,只适用于要发送的消息。
请求头:提供更为精确的描述信息,其对象为所请求的资源或请求本身。新版HTTP增加的请求头不能在更低版本的HTTP中使用,但服务器和客户端若都能对相关头进行处理,则可以在请求中使用。
响应头:为响应消息提供了更多信息。例如,关于资源位置的描述Location字段,以及关于服务器本身的描述使用Server字段等。与请求头类似,新版增加的响应头也不能在更低版本的HTTP版本中使用。
实体头:提供了关于消息体的描述。如消息体的长度Content-Length,消息体的MIME类型Content-Type。新版的实体头可以在更低版本的HTTP版本中使用。

静态网页爬取流程

1.发起请求 通过函数库等发送request请求,等待服务器的响应。
2. 获取服务器的响应内容,如果服务器正常响应了,会得到一个response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据
3. 解析内容,如果是HTML格式,可以用正则等直接解析,如果是JSON格式,则转换为JSON对象解析,如果是二进制形式的则需要保存做进一步的处理。
4. 保存数据,保存的形式是多种多样的,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。

生成完整HTTP请求
使用urllib3库实现生成一个完整的请求,该请求应当包含链接、请求头、超时时间和重试次数设置。

正则表达式适用于字符,而不是单词。

常用广义化符号
1、英文句号“.”:能代表除换行符“\n”任意一个字符;
2、字符类“[]”:被包含在中括号内部,任何中括号内的字符都会被匹配;
3、管道“|”:该字符被视为OR操作;
行业大数据期末复习_第14张图片
行业大数据期末复习_第15张图片

你可能感兴趣的:(随笔,python,大数据)