Python爬取京东评论(汇编)

目录

一、爬取京东数据详细链接

(一)爬取京东评论

1、文章一

2、文章二

(二)爬取京东商品信息

1、文章一

二、爬虫过程中遇到的一些问题及解决资料

(一)解决爬虫中Response[200]返回值问题

(二)用Python处理数据过程的问题

1、将csv中存储的日期绘制到x轴(Python 日期和时间)

2、Python format 格式化函数

3、Python3 sorted() 函数


一、爬取京东数据详细链接

(一)爬取京东评论

以下两篇文章风格略有不同,但内容都非常详尽,很有帮助。

1、文章一

https://blog.csdn.net/weixin_42474261/article/details/88354134

配套的代码链接:https://github.com/YuleZhang/JDComment_Spider/blob/master/SpiderScript.py

2、文章二

https://www.jianshu.com/p/3c57a1568395?from=singlemessage

(二)爬取京东商品信息

1、文章一

https://www.jianshu.com/p/fd2b8ccab295

二、爬虫过程中遇到的一些问题及解决资料

(一)解决爬虫中Response[200]返回值问题

headers = {
            'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
            '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
            }
res = requests.get(url,headers = headers)

在request前加上申请头headers,具体怎么查可以参考查看网页源码。

(二)用Python处理数据过程的问题

1、将csv中存储的日期绘制到x轴(Python 日期和时间)

dates = pd.to_datetime(rides.loc[subset.index]['dteday'])
dates = dates.apply(lambda d: d.strftime('%b %d'))

Python爬取京东评论(汇编)_第1张图片

2、Python format 格式化函数

print('{0} 包含 {1} 行,{2} 个单词'.format(file, ids+1, len(all_words)))

3、Python3 sorted() 函数

sort 与 sorted 区别:

sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。

list 的 sort 方法返回的是对已经存在的列表进行操作,而内建函数 sorted 方法返回的是一个新的 list,而不是在原来的基础上进行的操作。
sorted(iterable, key=None, reverse=False) 

参数说明:

iterable -- 可迭代对象。
key -- 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。
reverse -- 排序规则,reverse = True 降序 , reverse = False 升序(默认)。

Python爬取京东评论(汇编)_第2张图片

以上为暂时整理的一些内容,欢迎交流,后续也继续补充~

 

你可能感兴趣的:(Python,python,机器学习,数据分析)