Python爬虫实战,只需30行代码,美女图片装满24GU盘

首先,爬取的美女图片镇场子, 免得你们说我光说不练假把式!

Python爬虫实战,只需30行代码,美女图片装满24GU盘_第1张图片

话不多说,直接开始!先了解一下需要额外安装的第三方库

  • requests
  • pip install requests
  • pymongo
  • pip install pymongo

由于淘女郎网站含有AJAX技术,只需要和后台进行少量的数据交换就可以实时更新了,这就意味着直接抓取网页源码然后分析信息的方式行不通。

Python爬虫实战,只需30行代码,美女图片装满24GU盘_第2张图片

对于这一类网站,一般有两种爬取办法:

利用selenium库来模拟浏览器的用户行为,让服务器以为是真正的用户在浏览网页,从而获得完整的网页源代码

利用Chrome等浏览器自带的分析工具,对网页的Network进行监控,分析出数据交换的API,从而利用API抓取到数据交换的JSON数据,从而进行抓取。

从效率上来分析,第一种方法速度比较慢,而且还要占用系统资源,因此我们使用第二种方法来实现。

先编写请求,然后得到淘女郎网站中的JSON文件。

Python爬虫实战,只需30行代码,美女图片装满24GU盘_第3张图片

发送请求给服务器。然后得到服务器的JSON数据,之后将返回的数据加工,然后转化为Python的字典类型返回。具体的代码如下:


在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun,784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容
def getInfo(paeNum):
tao_datas ('vievFiag':"A", "currentPage": pageNum)
try:
 r=requests. post ("http://nn. taobao. com/tatar/seateh/tatar_nodel. do?_input_charset=utf-8*, data = tao. data)
except:
return None
rav_datas = json. loads(r.text)
datas rav_datas['data']['searchDoList']
returh dat as

返回之后,我们连接到MongoDB,将返回的信息保存。

def main():
client = MongoClient ()
db =client. TaoBao
col = db. TaoLady
for pageNun in range(I,411): 淘女郎一共有410页,所以我们抓取从1到第411页的内容。
print (pageNun)
datas=getInfo(pageNun)
if datas;
col.insert_nany(datas)
if__nane__='__main__';
main()

把返回的信息解析,然后抽取信息中的图片网址信息,将图片下载过劳保存到PIC文件夹下:

def downPic():
client=HongoClient()
db = client.TaoBao
col=db.TaoLady
for data in col, find():
nane = data['realName']
url =“http:" + data[" avatarUr1']
pie=urlopen(url)
vith, open("pic/" + name +",jpa,vb”) as file:
print(name)
file.vrite(pic. read())
if __nane__='__main__':
downPic()

OK,爬完了,全部是原图超清的,但是由于图片数量比较多,我24G的U盘都快装不下了,这里就不一一展示出来了,只截图了其中的一部分给大家看一下。

对Python感兴趣或者是正在学习的小伙伴,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每天都有大牛定时讲解Python技术,分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

觉得文章还可以的话不妨点个赞,有任何意见或者看法欢迎大家评论!

你可能感兴趣的:(Python爬虫实战,只需30行代码,美女图片装满24GU盘)