python爬虫基础知识的总结

什么是爬虫?

一、爬虫概述
简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。
1.获取页面(如urllib、requests等)

2.提取信息(Beautiful Soup、pyquery、lxml等)

3.保存数据(MySQL、MongoDB等)

4.自动化程序

二、关于JS渲染的页面?
1.使用urllib、requests 等库请求当前页面时,只是得到html代码,它不会帮助我们去继续加载这个JS文件。

2.使用基本HTTP请求库得到的源代码可能和浏览器的页面源代码不太一样,对于这种情况,我们可以分析其后台Ajax接口,也可以使用Selenium、
Splash 这样的库来实现模拟JS渲染。

三、会话和Cookies
...

四、代理的基本原理

1.代理实际上指的就是代理服务器,代理网络用户去取得网络信息。形象的说,网络信息中转站。

本机 -----------> 代理服务器 -------------->  Web服务器
        请求                     请求

本机 <----------- 代理服务器 <--------------  Web服务器
         响应                       响应

这样我们同样可以正常访问网页,这过程中Web服务器识别出真是IP 就不再是我们本机IP了,就可以成功IP伪装,这就是
代理的基本原理

2.代理的作用

1)突破自身IP访问限制,访问一些平时不能访问的站点
2)访问一些单位或团体内部资源
3)提高访问速度
4)隐藏真是IP,防止自身IP被封锁

3.爬虫代理
对于爬虫来说,爬虫爬虫速度过快,爬虫可能遇到同一个IP访问过去频繁的问题,此时网站就会让我们输入验证码或者直接封锁
IP,这样带给爬虫极大不便。
使用代理隐藏真是IP,让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断的更换代理,就不会被封锁,可以
达到很好的效果

4.代理分类
1)FTP 代理服务器:访问 FTP 服务器,上传。下载以及缓存功能,端口 21、2121 等
2)HTTP 代理服务器:访问网页,内容过滤和缓存功能,端口 80、8080、3128等
3)SSL/TLS 代理:访问加密网站,一般有SSL 或TLS加密功能(最高支持128位加密功能),端口 443
4)RTSP 代理:Real 流媒体服务器,一般有缓存功能,端口:554
5)Telnet 代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口为23
6)POP3/SMTP 代理:POP3/SMTP 方式收发邮件,一般有缓存功能,端口:110/25


基本库的使用

一、urllib

在Python3中,urllib已经不存在urllib2,统一为urllib,官方文档链接:https://docs.python.org/3/library/urllib.html
urllib库,是Python 内置的HTTP请求库
它包含如下四个模块:
request:基本的HTTP请求模块
error:异常处理模块
parse:工具模块
robotparser(用的比较少):识别网站的robots.txt文件

1.urlopen()
urllib.request模块提供最基本的HTTP请求方法,同时它还带有处理授权验证码、重定向、浏览器Cookies以及其他内容。

import urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(type(response))
output: 
进行分析,HTTPResponse类型对象,包含read(),readinfo(),getheader(name),getheaders(),fileno()等方法,以及msg、version
、status、reason、debuglevel、closed等属性。

urllib.request.urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cadefault=False, context=None)
data (附加数据)、timeout(超时时间)等
# timeout 参数
import socket
import urllib.error
import urllib.request

try:
    response = urllib.request.urlopen("http://httpbin.org/get", timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')


#其他参数
除了data参数和timeout参数外, 还有 context 参数,它必须是ssl.SSLContext 类型,用来指定SSL 设置。
此外, cafile 和 capath 这两个参数分别指定 CA证书和它的路径,这个在请求 HTTPS链接时会有用。

前面讲解了 urlopen() 方法的用法, 通过这个最基本的方法, 我们可以完成简单的请求和网页抓取。 若需要更加详细的信息,可以参考
官方文档: https://docs.python.org/3/library/urllib.request.html
2.Request()
class urllib.request.Request(url, data=None, headers={}, orgin_req_host=None, unverifiable=False, method=None)

 示例:

from urllib import request, parse

url = 'http://httpbin.org/post'
headers = {
    'USER-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2132.2 Safari/537.36',
    'Host':'httpbin.org'
}
dict = {
    'name':'Germey'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
req = request.Request(url = url, headers=headers, data = data, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

3、高级用法

1)文件上传

# requests 可以模拟提交一些数据

# import requests 

# files = {'file': open('favicon.ico', 'rb')}

# r = requests.post("http://www.baidu.com", files = files)

# print(r.text)

2)Cookies

 使用requests, 获取和设置Cookies 只需一步即可完成

示例1:

import requests
r = requests.get("https://www.baidu.com")
print(r.cookies)
for key,value in r.cookies.items():
    print(key + '=' + value)

运行出结果,发现是RequestCookieJar类型,然后用items() 方法将其转化为元组组成在列表,遍历出

Cookie 的名称和值

示例2:

import requests

cookies = 'tgw_l7_route=9553ebf607071b8b9dd310a140c349c5; ' \
          '_zap=74b7fdae-0800-4485-85b3-aa07447a91cf;' \
          ' _xsrf=vyBIBWAXr6lQuxsCNIzKwJSb4zjqxRaS;' \
          ' d_c0="APAh_lT6mA6PTlfodNHDUqm1slkUFNb60xo=|1543564338";' \
          ' capsion_ticket="2|1:0|10:1543564343|14:capsion_ticket|44:YzRlNGViM2IxNjY5NDVkNDhlOGM1OTM4ZmFjODVjMDQ=|fcd395175baab35d7a674f5b7639097551230b1a0c5be9d34bc5ebe4b1f3f0f0"; ' \
          'z_c0="2|1:0|10:1543564360|4:z_c0|92:Mi4xcUthWUF3QUFBQUFBOENILVZQcVlEaVlBQUFCZ0FsVk5TRHJ1WEFEdWdEQ29zYTJQUzVNMDNCejdGNldZUnNCdVBB|8a367dc007da80cb3a844af327cf67cfe9b248f95cf5e585c46be5d0b396caab"; ' \
          'tst=r; ' \
          'q_c1=ab8ffad7fa864108bda8ff3971b5054b|1543564362000|1543564362000'
jar = requests.cookies.RequestsCookieJar()
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2132.2 Safari/537.36',
    'Host':'www.zhihu.com'
}
for cookie in cookies.split(';'):
    key, value = cookie.split('=', 1)
    jar.set(key, value)
    r = requests.get('http://www.zhihu.com', cookies=jar, headers= headers)
    print(r.text)

3、会话维持

1)Cookies 会话,请求这个网址时,可以设置一个Cookie,名称叫做number,内容

是123456789, 随后访问http://httpbin.org/cookies

import requests
requests.get("http://httpbin.org/cookies/set/number/123456789")
a = requests.get("http://httpbin.org/cookies")
print(a.text)

结果如下:

随后,使用session()

import requests

s = requests.Session()
s.get("http://httpbin.org/cookies/set/number/123456789")
b = s.get("http://httpbin.org/cookies")
print(b.text)

output:python爬虫基础知识的总结_第1张图片

以上Cookie与Session可以对比出,利用Session,可以做到模拟同一个会话而不用担心Cookies的

问题。

 

你可能感兴趣的:(python)