百度AI之Python小白逆袭大神

百度AI训练营系列之Python小白逆袭大神,总体感觉还不错,对python有了较为全面的认识和了解。

第五天的大作业:1、完成爱奇艺《青春有你2》评论数据爬取:爬取任意一期正片视频下评论,评论条数不少于1000条 2、词频统计并可视化展示 3、绘制词云 4、结合PaddleHub,对评论进行内容审核。

完成大作业的过程是充满荆棘和曲折的,但是学员们都很乐于助人,还有各位助教的帮助,班主任姐姐的激励,一次次顺利躺过坑,越过荆棘,尤其是讲课老师的耐心讲解,不断回看视频一步步地按照老师作业的提示去完成。

下面分享第5天大作业的心得:

1. python爬虫程序的编写,第一次接触,还是比较生疏。

通过前一晚老师的讲解,了解了网页提供了get-comments的url,可以通过chrome审查元素->network获取。但在抓取的时候却总是解析json有误。后面发现是url加了一个callback的参数,使得返回的不是正常的json格式,去除之后,即可可以完美解决。另外,评论是动态更新的,这个点需要仔细研究network里边的参数的变化,发现可以通过更新last_id来获取不同页面的评论。

总之,python 爬虫程序没有一个固定的模式,通过发送请求,获得响应,解析响应,提取所需的节点信息。

2. 显示中文字体的问题

#!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf # 下载中文字体
#创建字体目录fonts
!cp simhei.ttf /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf/
!mkdir .fonts
# 复制字体文件到该路径
!cp simhei.ttf .fonts/
!rm -rf .cache/matplotlib

plt.show

plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体

当然,可能这样也不行,之前也困扰很久,重启之后问题解决。

3. 学习到了通过正则化,过滤掉无效信息。正则化的方法,太复杂,主要是通过网络资源获得正则化的方法。

4. 还可以通过停用词和添加词语,来消除一些无价值的词语,同时增加新型的网络用语,比较灵活。

5. 词云技术比较好玩,可以的绘制自己喜欢图案样子的词云图样,但是一定要让词云图案的background_color='white',才能正常运行程序。

总的来说,学习到了很多东西,值得持续关注。

百度AI之Python小白逆袭大神_第1张图片

 

你可能感兴趣的:(机器学习)