这是我的第一个博客文章,关于爬取淘宝一个商铺 小米8 手机评论的Python爬虫

我第一次在csdn上面传属于自己的文章还是有点小激动的,毕竟是以前都是看大佬
们的文章来提高自己的技术,现在也到了我来反馈给大家的时候了(可能技术不能入某些大牛的法眼,但是我还是希望大家能多多提提意见):233333333

下面是代码的展示:

	import  requests
	import json
	import re
	f = open('G://爬虫的文件/白水开数码_xiaomi8_评论.txt','w+',encoding='utf-8')#这个地方自己改
	cookie = “”  #这个一定要填写自己的账号登录以后的真实的url里面的cookie号
	head = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
	        'cookie':cookie}
	urls=['https://rate.taobao.com/feedRateList.htm?auctionNumId=576901329704&userNumId=162432847¤tPageNum={}&pageSize=20'.format(i)for i in range(1,2000)]#这个是淘宝商铺‘白开水数码’关于小米8商品的url,记住这个url是通过异步加载技术获取的,要自己f12慢慢找,我是在js文件里面找到的。
	ls = 0;#用来记录有多少条评论
	for url in urls:
    cont = requests.get(url,headers = head).text
	    cont = re.findall(r'\((.*?)\)', cont)[0]
	    #print(cont)
	    try:
	        js = json.loads(cont)
	        js = js['comments']
	        for i in js:
	            #i = i['content']
	            j = i['date']
	            k = i['content']
	            l = i['rateId']
	            #print(i)
	            ls = ls+1
	            s = "id:"+str(l)+"___"+"time:"+j+"___"+"content"+k+" --------- " +"第"+str(ls)+"条评论"
	            f.writelines(s + '\n')
	            print(s)
	    except:
	        pass	
	    pass
	f.close()

这个主要用的是Python里面的requests库,通过headers模拟浏览器,以及cookie解决了模拟登陆的问题,同时f12在js文件里面找到了真正的url地址复制下来,然后用range来创建多个url,for循环遍历这些url,在for循环里面我们用try,expect来解决爬虫时可能发生的故障,导致程序中断,通过正则我们可以找到我们需要的元素的一个大体,它是一个json数据,然后就是加载json里面的comment,遍历comment,提取出想要的用户id,发布评论的时间和内容等等,然后就将这些东西写入到你自己创建的文件里面去吧!祝愿你好运

你可能感兴趣的:(Python)