paddlepaddle(飞桨)《 Python小白逆袭大神 》结营心得

去年开始接触编程,朋友建议先学python,于是就开始学python。因为是感兴趣自学,都是自己在网上找资源,一点一点的学,学的都不怎么系统,也没做什么实践项目。

这个假期因为疫情,一直在家,于是在网上搜python有什么项目可以学习的,就看到了百度飞桨的Python小白逆袭大神七日训练营,还蛮心动的。第一次参加百度飞桨的课程,经过7天训练,觉得确实不错。

Day 1 1.输出 9*9 乘法口诀表
2.查找特定名称文件
遍历”Day1-homework”目录下文件;
找到文件名包含“2020”的文件;
将文件名保存到数组result中;
按照序号、文件名分行打印输出。
可能有python基础,第一天作业感觉比较容易,也很快就做出来了。

Day 2 完成《青春有你2》选手图片爬取
哇哦,真的难度突然就提升了。
在爬虫这一方面,只是看教程做过,自己还没实践过了。
结果看完作业感觉还好,代码大部分都是有的,只需要自己爬取每个选手的百度百科图片,并将图片url存储在一个列表pic_urls中。让我有目的性地了解BeautifulSoup库。

Day3 基于第二天实践使用Python来爬去百度百科中《青春有你2》所有参赛选手的信息,进行数据可视化分析,绘制饼状图,之前接触过matplotlib,所以这次的作业感觉就还好。

Day 4 《青春有你2》选手识别,使用PaddleHub自制数据集(训练集、验证集)完成对指定的五名选手照片分类
PaddleHub是一个深度学习模型开发工具。它基于飞桨领先的核心框架,精选效果优秀的算法,提供了百亿级大数据训练的预训练模型,方便用户不用花费大量精力从头开始训练一个模型。PaddleHub可以便捷地获取这些预训练模型,完成模型的管理和一键预测。
没使用过PaddleHub,没做过数据集,这次作业好难啊,
收集数据,制作测试集、验证集,加载模型、配置策略、训练模型、预测。
花好长时间研究PaddleHub
结果做作业的时候,出现各种错误
不会制做数据集
路径问题
AssertionError: Not compiled with CUDA
Error: Blocking queue is killed because the data reader raises an exception
结果作业分数就超低的,后来看csdn上的大佬的作业见解,真的超厉害,佩服。

Day 5 综合大作业
第一步:爱奇艺《青春有你2》评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7e0d1e30c494622af777f4ba39)
爬取任意一期正片视频下评论
评论条数不少于1000条
第二步:词频统计并可视化展示
数据预处理:清理清洗评论中特殊字符(如:@#¥%、emoji表情符),清洗后结果存储为txt文档
中文分词:添加新增词(如:青你、奥利给、冲鸭),去除停用词(如:哦、因此、不然、也好、但是)
统计top10高频词
可视化展示高频词
第三步:绘制词云
根据词频生成词云
可选项-添加背景图片,根据背景图片轮廓生成词云
第四步:结合PaddleHub,对评论进行内容审核

第一步难点是如何才能爬取到所有人的评论,使用 Chrome 查看源代码模式,在播放页面往下面滑动,有一个 get_comments 的请求,这个接口就是获取评论数据的接口
第二步难点是用jieba进行中文分词并统计中文词频
需要创建停用词表,去除停用词,统计词频以及绘制词频统计表
词频图乱码,不显示中文
第三步是绘制词云图,注意背景图尽可能选择纯色背景
第四步难点是对句子进行情感分析,paddlehub模型对于要传入的数据必须是一个字典,字典的key为text,value为一个list。

最后真的特别感谢有这个课程,让我进一步了解python和深度学习。在这七天里收获了很多知识,老师讲课特别详细,群里特别活跃,大佬特别多,真的是看群里的聊天记录就能学到很多知识。Python简单、易学,但是,想要学好,学通并不是一件容易的事情。希望继续坚持对python的学习,享受学习Python的过程。

你可能感兴趣的:(paddlepaddle(飞桨)《 Python小白逆袭大神 》结营心得)