1.爬虫的概念
生活的角度:蜘蛛爬网(spider on the net)
互联网:程序在网上收集数据,写一个程序根据url
从网页中获取指定的数据。
什么语言可以写爬虫:按理讲啥编程语言都可以写爬虫,但是目前python写爬虫比较方便。
1. php:世界上最好的语言,可以做爬虫,但不支持多线程。
2. java:可以实现的很好,对python竞争大。代码累赘,开发成本高。
3. C\C++:和java一样,代码不简洁
4. python:语法简单,框架强大,Scrapy!
通用爬虫:
百度,谷歌等搜索引擎。功能:爬取整个互联网的页面并生成索引,提供网页检索功能。
限制:网站并不能随意抓取,一般会存在robots.txt协商文件,该文件存在爬取限制指令,限制搜索引擎抓取。
通用爬虫缺点
1. 爬取出的数据没有专门的用处,很多都是垃圾数据
2. 不能根据用户的需求来进行数据的爬取。
聚焦爬虫
专门针对某个网站或者某些关键词进行爬取。
在淘宝的根目录下有这个文件,一个君子协议。
自己写爬虫暂时不用理会这些。
网站排名SEO
1.pagerank,点击率,浏览量。
2.竞价排名。魏则西事件
2.如何实现爬虫
2.1分析网页的特点
1.每一个页面都有自己的url
2.网页是由html组成的
3.网页的传输协议:http,https
2.2爬取思路
1.需要一个url
2.写代码,模拟浏览器进行请求,获得响应数据
3.解析数据,提取出指定的数据。
4.存储数据,保存在文件或数据库中。
2.3开发环境
1.系统:windows,或者ubuntu 64位
2.解释器:python 3.6
3.编辑器:sublime pycharm
2.4课程介绍
1.如何模拟浏览器进行请求: urllib.request urllib.parse
2.如何解析响应的数据:(正则表达式,bs4,xpath)->html
json解析:原生解析,jsonpath(针对接口数据的)
3.如何采集动态的html。DOM操作,Selenium+PhantomJS
4.Scrapy高性能框架:多进程,多线程,队列。
5.Scrapy-redis 部署分布式的爬虫
6.爬虫-反爬虫-反反爬虫 user-agent,代理,验证码,动态的HTML
不要试图去获取一些不应该拿到的数据,而且难度非常高。
浏览器能访问到的一般都可以爬出来
3.http协议
3.1 URL组成
例如:http://www.baidu.com:80/index.html?username=xxx&password=12345#lala
由: 协议, 主机, 端口, 资源, 参数, 锚点(name属性设置)
端口:http-80,https-443,ftp-21,ssh-22,mysql-3306,redis-6379,mangodb-27017
3.2HTTP和HTTPS的区别:
1.https需要ca证书,免费的证书很少。
2.http是超文本传输协议。Hyper Text Transport Protocol
3.Https具有安全验证的ssl/tls传输协议
4.http和https具有完全不同的链接方式,端口一般也不一样。
5.HTTP连接是无状态的,(cookie session)。
3.3HTTP的请求和响应
请求:请求行,消息报头(请求头),请求正文(请求体)
(GET /index.html HTTP/1.1),( User-Agent,Accept,Host),()
响应:状态行,响应头,响应正文
(200 ok),(Server,Date,Content-Type,Content-Length),(html,json)
4抓包工具
谷歌浏览器的自带抓包工具:检查-network
专业抓包工具:fiddler
配置fiddler来抓取https包。
tools->options->HTTPS->选中Capture,Decrypt,Ignore->点击Actions->Trust->安装证书->重启。
5.urllib库
这是python中自带的请求库。
在python2中是引入urllib或者urllib3
在python3中引入urllib.requst
,urllib.parse
,urllib.error
。
urllib.request:模拟浏览器发送请求用的
urllib.parse:处理UR或者参数
ur1lib.error:抛出异常,用来处理发送请求的时候出现的异常
urllib.robotsparse:识别robots.txt文件。
5.1响应的获取
输入url
获得响应:
urllib.request.urlopen()
二进制读取响应:
response.read()
数据的解码:编码一般是utf8和GBK
print(response.read().decode("utf8"))
#打印主机名
print(response.url)
#打印响应头
print(response.headers)
#响应头部的信息,返回的是列表
print(response.getheaders())
#getcode获取状态码
print(response.getcode())
将响应信息保存到文件中,将响应写入文件
with open("baidu1.html",'w',encoding='utf8') as fp:
fp.write(response.read().decode('utf8'))
快捷写入文件
url="http://www.baidu.com/"
urllib.request.urlretrieve(url,"baidu2.html")
加载图片
ssl._create_default_https_context=ssl._create_unverified_context
imgurl="https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1546432276830&di=7838949ff1a78ea6773b69c8ab76fa92&imgtype=0&src=http%3A%2F%2Fcp2.douguo.net%2Fupload%2Fcaiku%2F1%2F9%2Fe%2Fyuan_190f6d0e5b7e1985da0def60be85416e.jpg"
response=urllib.request.urlopen(imgurl)
with open("cai.png",'wb') as tf:
tf.write(response.read())