北理工爬虫课程学习记录

Requests

北理工爬虫课程学习记录_第1张图片

 北理工爬虫课程学习记录_第2张图片

北理工爬虫课程学习记录_第3张图片

 北理工爬虫课程学习记录_第4张图片

 北理工爬虫课程学习记录_第5张图片

post方法如果提交字典会被存到form下,如果直接提交字符串,会被存到data下

put方法和post类似,只不过他会覆盖原始数据

 

               ###各个方法的使用###

 北理工爬虫课程学习记录_第6张图片

北理工爬虫课程学习记录_第7张图片

13个 访问参数

北理工爬虫课程学习记录_第8张图片

 

url修改的字段

北理工爬虫课程学习记录_第9张图片

北理工爬虫课程学习记录_第10张图片

北理工爬虫课程学习记录_第11张图片

//模拟浏览器进行访问

北理工爬虫课程学习记录_第12张图片

北理工爬虫课程学习记录_第13张图片

北理工爬虫课程学习记录_第14张图片

//模拟不同的IP地址对这个网站进行访问

北理工爬虫课程学习记录_第15张图片

 

 北理工爬虫课程学习记录_第16张图片

 Beauyiful Soup

 

 

 北理工爬虫课程学习记录_第17张图片

 

 北理工爬虫课程学习记录_第18张图片

北理工爬虫课程学习记录_第19张图片

tag.a只会找第一个a,》》tag.a.attrs["id"]

北理工爬虫课程学习记录_第20张图片

 

北理工爬虫课程学习记录_第21张图片

 北理工爬虫课程学习记录_第22张图片

北理工爬虫课程学习记录_第23张图片

 

 北理工爬虫课程学习记录_第24张图片

soup.prettify()
让页面打印的时候,更加清楚的显示

 北理工爬虫课程学习记录_第25张图片

###信息提取###

find_all()

#可以find_all(‘a’)/find_all([‘a’,'b'])/find_all(True)#打印出所有标签

 北理工爬虫课程学习记录_第26张图片

北理工爬虫课程学习记录_第27张图片

 #找到id以link开头的所有标签

 

 #由于find_all函数特别常用,因此

北理工爬虫课程学习记录_第28张图片

 北理工爬虫课程学习记录_第29张图片

 

 

正则表达式

北理工爬虫课程学习记录_第30张图片

北理工爬虫课程学习记录_第31张图片

北理工爬虫课程学习记录_第32张图片

北理工爬虫课程学习记录_第33张图片

北理工爬虫课程学习记录_第34张图片

北理工爬虫课程学习记录_第35张图片

 

北理工爬虫课程学习记录_第36张图片

Match

北理工爬虫课程学习记录_第37张图片

北理工爬虫课程学习记录_第38张图片

北理工爬虫课程学习记录_第39张图片

 re默认贪婪匹配,即如果我调用search,如果如果从索引开始,有多个可匹配项,则它会默认选择会长的匹配

 北理工爬虫课程学习记录_第40张图片

北理工爬虫课程学习记录_第41张图片

 

转载于:https://www.cnblogs.com/ningxinjie/p/11420391.html

你可能感兴趣的:(北理工爬虫课程学习记录)