python基础之简单爬虫实例

前言:通过运用正则表达式,可以简单的写一写爬虫!马上来试一试1

1,爬去图片并保存下载。

一段关于爬去美女图片的代码!(所以选择要爬的网址十分重要!看个人爱好了)

from urllib.request import urlopen,Request
import re
from urllib import request
url = 'http://www.27270.com/ent/meinvtupian/'
res = Request(url,headers={
        'User-Agent':' Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
        'Referer':'http://www.27270.com/ent/meinvtupian/'
})
req = urlopen(res)
result = req.read().decode('gbk')
# print(result)
pat = re.compile(r'

python基础之简单爬虫实例_第1张图片

 2,爬去文字(这里我选择已故的内涵段子!因为没啥东西,所以适合新手练练手)

from  urllib.request import Request,urlopen
import re
url = 'http://www.neihanshequ.com'
res = Request(url,headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
    'Referer':'http://www.neihanshequ.com'
})
req = urlopen(res)
result = req.read().decode('utf-8')
# print(result)
pat = re.compile(r'(.*?).*?
(.*?)
',re.S) ree = re.findall(pat,result) print(ree)

3,爬去糗事百科段子,评论数,评论人,评论

import requests
import re
url = 'http://www.qiushibaike.com'
r= requests.get(url,headers= {
      'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
})
# print(r.text)
#段子
pat = re.compile(r'

这里用了循环!因为评论页面和主页面不在一起,所以要进行从主页面到评论页面的操作!

python基础之简单爬虫实例_第2张图片

爬虫还没完成!同志仍需努力!!!!!!!

你可能感兴趣的:(学以致用)