第二章 爬虫相关基础知识

2.1 scrapy简介

做爬虫的时候,经常都会听到scrapy VS requests + beautifulsoup的组合,在本次分布式爬虫实现中只用scrapy而不用后者的原因是:

  1. requests和beautifulsoup都是库,scrapy是一个框架,框架中可以应用requests等,可以集合很多第三方库
  2. scrapy基于twisted,性能是最大的优势,异步IO框架
  3. scrapy方便扩展,提供了很多内置的功能,提高开发速度
  4. scrapy内置的css和xpath selector(对html或者xml进行分析)非常方便,beautifulsoup缺点就是慢

实践中还是会用到requests,但是不会用到beautifulsoup,因为它的功能可以直接使用scrapy的select完成。

2.2 互联网上网页分类

静态网页,事先在服务器端生成好的页面,内容是不会变的
动态网页,从服务器端取数据返回
webservice(restapi),也是属于动态网页的一种,只是通过ajax方式和后台交互的一种技术

2.3 爬虫能做什么

  1. 搜索引擎-百度,google,垂直领域搜索引擎(有一个目标,知道自己到底爬什么数据)
  2. 推荐引擎-今日头条(根据浏览习惯猜测感兴趣的内容进行推送)
  3. 机器学习的数据样本
  4. 数据分析-金融数据分析,舆情分析

2.4 正则表达式

提问:为什么有css或者xpath selector还要学正则表达式,有时候根据selector获得了整个标签内的内容,但是还要进行进一步的筛选,比如里面的数字信息等

  1. 可以帮我们判断某个字符串是否符合某一个模式
  2. 提取整个字符串里面的重要的部分信息
第二章 爬虫相关基础知识_第1张图片
正则表达式里面的特殊字符
正则表达式中常用字符的用法介绍:
^ : 以什么字符开头
$ : 以什么字符结尾
. : 任意字符
* :出现任意次数,0次或者更多次
():还提取按模式取出来的子串。例如,".*(b.*b).*"表示不管前后是什么的两个b之间的子串
? :非贪婪匹配模式,默认的情况下,匹配是贪婪模式,匹配最大长度
    对于 "bobby123"这个待匹配的,结果就是bb,而不是bobb,所以这就是贪婪,反向匹配(或者理解成直到结束符合的最后一个结果)
    非贪婪匹配就是从左边开始,只需要出现一个结果就可以了,".*?(b.*?b).*"表示对两个b从左到右只要出现一次就可
    ".*?(b.*b).*"第二个b不要问好,那么第二个b就是贪婪模式,会持续匹配到最后一个b
+ :字符至少出现一次
{1}:前面的字符出现一次
{3,}: 要求前面的字符必须出现3次以上
{2,5}:前面的字符至少出现2次,最少出现5次
| : 或的关系
[] : 中括号里面的内容只要满足任何一个即可,也可以是一个区间,中括号里面的^表示不等于,中括号里面的符号就是符号,不是特殊符号的含义
\s :表示空格符
\S : 刚好与小s的意思相反,只要不是空格都可以
\w : 表示[A-Za-z0-9_]其中的任意一个字符
\W : 与\w的意思刚好相反
[\u4E00-\u9FA5] : unicode编码,含义是汉字,意思是只要出现汉字就可以。
\d : 表示数字

代码实例:

import re
"""
line = "study in 南京大学" # 待匹配的字符串
# # if line == "boooooooobaaby123":  # 一般匹配方法
regex_str = ".*?([\u4E00-\u9FA5]+大学)" # 定义模式,用到了^.*三种特殊字符
match_obj = re.match(regex_str,line)  # 接收匹配的结果
if match_obj:  # 参数第一个是模式字符串,第二个是待匹配的字符串
    print(match_obj.group(1))  # 匹配子串结果

"""

"""
? :非贪婪匹配模式,匹配最大长度,默认的情况下,匹配是贪婪模式
():还提取按模式取出来的子串。例如,".*(b.*b).*"表示不管前后是什么的两个b之间的子串,使用group()方法可以得到第一种子串的结果
    如果还有子串,则group(2)表示第二个子串结果,最外层括号为第一个
    对于 "bobby123"这个待匹配的,结果就是bb,而不是bobb,所以这就是贪婪,反向匹配
    非贪婪匹配就是从左边开始,只需要出现一个结果就可以了,".*?(b.*?b).*"表示对两个b从左到右只要出现一次就可
    ".*?(b.*b).*"第二个b不要?,那么第二个b就是贪婪模式,会持续匹配到最后一个b
"""

# 关于一个匹配多种格式输入能找出生日的模式
str = "XXX出生于2001年6月1日"
str = "XXX出生于2001/6/1"
str = "XXX出生于2001-6-1"
str = "XXX出生于2001-06-01"
str = "XXX出生于2001-06"
regex_str = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}|[月/-]$|$))"
match_obj = re.match(regex_str,str)
if match_obj:
    print(match_obj.group(1))

2.5 深度优先和广度优先算法

这一节主要了解网站的树结构,深度优先算法和实现,广度优先算法和实现

爬虫的基本原理,一个网站的url设计是分层的,树形结构,能够让我们爬取网站的时候更加有策略。在设计网站url时候是不会有环路的,但是在真实网站url链接的结构中,是有环路的。比如,从首页到达某个页面,这个页面上会有返回首页的链接。如果一直进入这个死循环,那么其他页面就爬取不到内容了。所以需要用到网页的去重。伯乐在线网站的文章爬取其中获取到的文章url是不会重复的,就不需要去重。但大多数文章都需要去重。

第二章 爬虫相关基础知识_第2张图片

第二章 爬虫相关基础知识_第3张图片

scrapy默认使用深度优先实现的,深度优先使用递归实现的广度优先是采用队列来实现的

第二章 爬虫相关基础知识_第4张图片

第二章 爬虫相关基础知识_第5张图片

2.6 爬虫去重策略

  1. 将访问过的url保存到数据库中,获取url时查询一下是否爬过了。虽然数据库中有缓存,但是每次都查询效率很低。
  2. 将url保存到set中。只需要O(1)的代价就可以查询到url,但是内存占用会越来越大
    假设有1亿条url,那么就需要1亿 x 2byte x 50字符/1024/1024/1024=8G
  3. url经过md5等方法哈希后保存到set中,将url压缩到固定长度而且不重复,scrapy实际上就是应用这种方法
  4. 用bitmap方法,将访问过的url通过hash函数映射到某一位,对内存压缩更大,缺点是冲突比较高
  5. bloomfilter方法对bitmap进行改进,多重hash函数降低冲突可能性。即减少内存,又减少冲突。

2.7 弄清楚unicode编码和utf8编码

字符串编码,写文件以及网络传输过程中,调用某些函数,经常碰到提示编码错误。

看一下ASCII和unicode编码:

  • 字母A用ASCII编码十进制是65,二进制 0100 0001
  • 汉字"中" 已近超出ASCII编码的范围,用unicode编码是20013二进制是01001110 00101101
  • A用unicode编码只需要前面补0二进制是 00000000 0100 0001

乱码问题解决了,但是如果内容全是英文,unicode编码比ASCII编码需要多一倍的存储空间,传输也会变慢。所以此时出现了可变长的编码utf-8,把英文:1字节,汉字3字节,特别生僻的变成4-6字节,如果传输大量的英文,utf8作用就很明显。Unicode编码虽然占用空间但是因为占用空间大小等额,在内存中处理会简单一些。

关于windows下编码格式问题:


第二章 爬虫相关基础知识_第6张图片

第二章 爬虫相关基础知识_第7张图片

关于linux下的编码问题:


第二章 爬虫相关基础知识_第8张图片

你可能感兴趣的:(第二章 爬虫相关基础知识)