#python爬虫的初体验
1.爬虫介绍:
a.理论基础: 爬虫就是从网站中获得我们需要的数据,包括文字,音频,视频等;但是不是所有网站都可以轻易爬取的,因为有些数据主人是不希望被共享的,所以就出现了反爬,学习初期可以找一些不带反爬的网站练习,后期一点点增加难度,攻防博弈,其乐无穷:
爬虫分为:->
通用爬虫, 比如搜索引擎:百度、谷歌、火狐;
聚焦爬虫, 针对性的去爬取某个网页,比如轻音乐网,预告片网等等,抓取对应的数据(我们主要介绍的就是聚焦爬虫);
爬虫三部曲:数据爬取->数据清洗->数据存储(使用及管理)
b.爬虫模块介绍:
①.不需安装,直接用python自带爬虫模块进行学习:from urllib import request;
②.安装第三方模块requests:pip install requests;import requests;
以上选择一个使用即可,语法不同,功能一致。
c.数据清洗模块介绍:
#1.不需要安装,直接用python自带模块进行学习:import re(正则表达式数据筛选,不需要在意要筛选数据的格式,下面是总结的正则表达式用法);
#2.安装lxml:针对.html网页信息的筛选、清洗,F12可以查看网页源代码,根据网页标签进行筛选,例如:a标签,p标签等等:pip install lxml;from lxml import etree;
注:
#1. 正则表达式re:
a.任何文字数字符号均有相对应的匹配格式;
b.匹配过程有两种模式,贪婪模式(.)及非贪婪模式(.?);
c. reserch()匹配一次结束,findall()匹配到全部内容结束;
#2.html文档匹配lxml,以div标签为例:
a.//div(表示匹配这个标签下面所有内容)
b.//div[@class=“属性”](表示div标签且含有这个属性的标签下面的内容)
c.//div[@class=“属性”]/a(表示具有这个属性标签下面的a标签内容)/text()爬取出的内容会去除标签
d.//div[@class=“属性”]/a/@href (表示匹配a标签下面href的值)
以上可以混合使用,选择合适的清洗方法代码会更简洁。
可能看了上面的介绍不太明白,不慌,本人也是学了很久才顿悟了,本来就是初体验,先体会个思路就行,跟着我往下走,一起顿悟吧。
re:任意数据格式的筛选,最好自己全部实验一遍:
# #正则表达式:数据筛选&匹配
import re
通字符作为原子(匹配一个普通字符)
# a="湖南湖北广东广西"
# pat="湖北"
# result=re.search(pat,a)
# print(result)
#匹配通用字符
#\w 任意字母/数字/下划线
#\W 和小写w相反
#\d 十进制数字
#\D 除了十进制数以外的值
#\s 空白字符
#\S 非空白字符
# b="136892763900"
# pat2="1\d\d\d\d\d\d\d\d\d\d"
# print(re.search(pat2,b))
# c="@@@@@@@@@@##@!_tdyuhdihdiw"
# pat3=r"\W\w\w"
# print(re.search(pat3,c))
#匹配数字、英文、中文
# 数字 [0-9]
# 英文 [a-z][A-Z]
# 中文 [\u4e00-\u9fa5]
# d="!@#$@#@##$张三%$^%$%#@$boy#@%##$%$$@#@#23@#@#@#@##$%$%$"
# pat1=r"[\u4e00-\u9fa5][\u4e00-\u9fa5]"
# pat2=r"[a-z][a-z][a-z]"
# pat3=r"[0-9][0-9]"
# result1=re.search(pat1,d)
# result2=re.search(pat2,d)
# result3=re.search(pat3,d)
# print(result1,result2,result3)
#原子表
#定义一组平等的原子
# b="18689276390"
# pat2="1[3578]\d\d\d\d\d\d\d\d\d"
# print(re.search(pat2,b))
# c="nsiwsoiwpythonjsoksosj"
# pat3=r"py[abcdt]hon"
# print(re.search(pat2,b))
很重要的
#元字符--正则表达式中具有特殊含义的字符
# . 匹配任意字符 \n除外
# ^ 匹配字符串开始位置 ^136
# $ 匹配字符串中结束的位置 6666$
# * 重复0次1次多次前面的原子 \d*
# ? 重复一次或者0次前面的原子 \d? .*贪婪模式 .*?非贪婪模式
# + 重复一次或多次前面的原子 \d+
d="135738484941519874888813774748687"
# pat1="..."
# pat2="^135\d\d\d\d\d\d\d\d"
# pat3=".*8687$"
pat4="8*"
pat5="8+"
print(re.findall(pat5,d))
#匹配固定次数
#{n}前面的原子出现了n次
#{n,}至少出现n次
#{n,m}出现次数介于n-m之间
# a="234ded65de45667888991jisw"
# pat1=r"\d{8,10}"
# print(re.search(pat1,a))
# #多个表达式 |
# a="13699998888"
# b="027-1234567"
# pat1=r"1[3578]\d{9}|\d{3}-\d{7}"
# print(re.search(pat1,a))
#分组 ()
# a="jiwdjeodjo@$#python%$$^^&*&^%$java#@!!!!!!!!!!!!!!13688889999!!!!!!!!!!!!!!!!!#@#$#$"
# pat=r"(python).{0,}(java).{0,}(1[3578]\d{9})"
# print(re.search(pat,a).group(3))
#group() 同group(0)就是匹配正则表达式整体结果
#group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。
# a="jiwdjeodjo@$#python%$$^^&*&^%$java#@!!!!!!!!!!!!!!aaa我要自学网bbb!!!!!!!!!!!!!!!!!#@#$#$"
# pat=r"aaa(.*?)bbb"
# print(re.findall(pat,a))
**#贪婪模式和非贪婪模式**
#贪婪模式:在整个表达式匹配成功的前提下,尽可能多的匹配;
#非贪婪模式:在整个表达式匹配成功的前提下,尽可能少的匹配 ( ? );
#Python里默认是贪婪的。
# strr='aatest1bbtest2cc'
# pat1=r".*"
# print(re.search(pat1,strr)) #贪婪模式
# strr='aatest1bbtest2cc'
# pat1=r".*?"
# print(re.findall(pat1,strr)) #非贪婪模式
# import re
# #compile函数---将正则表达式转换成内部格式,提高执行效率
# strr="PYTHON666Java"
# pat=re.compile(r"Python",re.I) #模式修正符:忽略大小写
# print(pat.search(strr))
# import re
# #match函数和search函数
# # match函数--匹配开头
# # search函数--匹配任意位置
# #这两个函数都是一次匹配,匹配到一次就不再往后继续匹配了
# strr="javapythonjavahtmlpythonjs"
# pat=re.compile(r"python")
# print(pat.search(strr).group())
很重要的
# import re
# #findall() 查找所有匹配的内容,装到列表中
# #finditer() 查找所有匹配的内容,装到迭代器中
# strr="hello--------hello-----------\
# ---------hello-----------------\
# ---------hello--hello----------------\
# ----------hello---------hello----hello----------"
# pat=re.compile(r"hello")
# #print(pat.findall(strr))
# data=pat.finditer(strr)
# list1=[]
# for i in data:
# list1.append(i.group())
# print(list1)
lxml:利用标签来筛选数据(进入网页->F12查看网页代码,找到需求数据->用标签筛选数据):扩展链接
2.第一个简易爬虫:
a.request+re爬虫:
from urllib import request #python自带模块
import re #正则表达式模块,用于数据筛选
import random #随机函数模块
# 1.网站地址:
url = "http://www.baidu.com/?tn=18029102_3_dg"
#2.浏览器选择
#伪装浏览器:多个浏览器随机选择
#a.创建自定义请求对象-----反爬虫机制
#b.反爬虫机制1:判断用户是否是浏览器访问
#c.可以通过伪装浏览器进行爬取访问
agent1 = "Mozilla/5.0 (Windows NT 10.0;Win64; x64) AppleWebKit/537.36 " \
"(KHTML, like Gecko)Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
agent2 = "Mozilla/5.0 (Linux; Android 8.1.0; ALP-AL00Build/HUAWEIALP-AL00;" \
" wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/63.0.3239.83 " \
"Mobile Safari/537.36 T7/10.13 baiduboxapp/10.13.0.11 (Baidu; P1 8.1.0)"
#构造列表,随机选取浏览器
list = [agent1,agent2]
agent = random.choice(list) #随机数
header = {
"User-Agent":agent} #构造请求头信息:字典格式
#print(agent)
#3.发送请求.获得响应信息
req = request.Request(url,headers = header)
reponse = request.urlopen(req).read().decode() #解码----(编码encode)
#print(reponse)
#4.数据清洗
pat = r"(.*?) " #通过正则表达式进行数据清洗
data = re.findall(pat,reponse)
#print(data)
#5.操作文件存储
f = open("wenjian.txt", "a+",encoding='utf-8')
f.write(data)
f.close()
b.requests-get方法爬虫:
import requests
url = "http://www.baidu.com/s?"
header = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0;\
Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"}
#get链接拼接
wd = {
"wd","中国"}
#response = requests.request("get",url,params = wd,headers = header)
#获得get型的响应
response = requests.get(url,params = wd,headers = header)
#对响应进行编码
data1 = response.text #返回字符串类型数据
data2 = response.content #返回二进制类型数据
data3 = data2.decode() #返回字符串类型数据
#数据打印
print(data2)
c.requests-post方法爬虫:
import requests
import re
#构造请求头信息
header = {
"User-Agent":"Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit /"
"537.36(KHTML, likeGecko) Chrome / 70.0.3538.102Safari / 537.36Edge / 18.18362"}
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
key = input("请输入想要翻译的内容:")
#post请求需要提交的参数
formdata={
"action":"FY_BY_CLICKBUTTION",
"bv":"1ca13a5465c2ab126e616ee8d6720cc3",
"client":"fanyideskweb",
"doctype":"json",
"from": "AUTO",
"i":key,
"keyfrom":"fanyi.web",
"salt":"15825444779453",
"sign":"28237f8c8331019bc43baef299570901",
"smartresult":"dict",
"to":"AUTO",
"ts":"1582544477945",
"version": "2.1"
}
response = requests.post(url,headers = header,data = formdata).text
pat = r'"tgt":"(.*?)"}]]'
result = re.findall(pat,response)
print(result)
d.requests+lxml方法爬虫:
#爬取糗事百科段子
from lxml import etree
import requests
url = 'https://www.qiushibaike.com/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'}
response = requests.get(url,headers=headers).content.decode()
html = etree.HTML(response)
result1 = html.xpath('//a[@crecmd-content]')
for i in range(len(result1)):
print(result1[i].text)
print("------------------------------------------")
怎么通过标签查找内容:
爬虫-数据查找
以上是我录制的视频,因为觉得有些知识,文字还是表达的不够丰满,有兴趣也可以看看我的其他视频 skr。
以上就是爬虫的初体验,上面的学过之后我相信我们已经对爬虫有了一个基本的认识,并且可以弄出一个基本的小爬虫,如果有兴趣可以继续和我往下学习,没有兴趣我给你推荐个网站,“全民解析”也算您没白来,想看免费VIP电影可以看看,本人购买了vip,但是继续付费提前解锁那种会用一下,一般人我都没告诉;
第五篇分享,持续更新中,,,,,