python爬虫day-1(urllib库)

学习笔记,方便查阅,仅供参考,欢迎指点

基本库的使用

自己学习,直接上手写代码,没有提前看理论,想着遇到瓶颈了,再回头看理论,这样应该学的更快些。

学习爬虫,最开始的操作便是模拟浏览器向服务器发出请求,Python提供了功能齐全的类库来帮助我们完成这些请求。
最基础的HTTP库有 ,httplib2,treq等。

主要学习前面两个,后面一个库似乎更强大。

urllib库

urllib库,它是Python内置的HTTP请求库,所以不需要安装。

库(urllib)——模块(request)——方法&函数(urlopen)——参数(data)

个人理解:Python下面有各种不同作用的库,库下面实现功能模块,模块又包含了很多方法或者函数,方法需要传递不同的参数。

urllib包含4个模块:

request:最基本的HTTP请求模块,模拟发送请求。
error:异常处理模块。
parse:一个工具模块,提供了许多URL处理方法,拆分、解析、合并等。
robotparser:主要是用来识别网站的robots.txt文件。然后判断哪些网站可爬,哪些不可爬,这个用的比较少。

1发送请求-request模块:

1.urlopen()



  • 爬取网站网页:
import  urllib.request

response =urllib.request.urlopen('http://www.destinystar.cn')
#输出网页源代码
print(response.read().decode('utf-8'))
#利用type()输出响应的类型
print(type(response))

输出结果:

代码二:

import urllib.request
response=urllib.request.urlopen('https://flowingdata.com')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

参数:

data可选参数

import urllib.parse
import urllib.request
data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf-8')
response=urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

timeout参数
timeout 参数用于设置超时时间,单位为秒,意思就是如果请求超 了设置的这个时间,还没有得到响应就会抛出异常如果不指定该参数,就会使用全局默认时间。

import urllib.request
response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.5)
print(response.read())

可以通过设置这个超时时间来控制一个网页如果长时间未响应,就跳过它的抓取。

import socket
import urllib.request
import urllib.error
try:
    response=urllib.request.urlopen('http://httpbin.org/get',timeout=1)
        print(response.status)
except urllib.error.URLError as e:
    if isinstance(e.reason,socket.timeout):
        print('TIME OUT')

其他参数:
context 、cafile、capath 参数

你可能感兴趣的:(python爬虫day-1(urllib库))