百度飞桨(PaddlePaddle)Python小白逆袭大神课程心得

首先感谢百度提供的免费学习课程,我目前从事nlp的工作,应该学习起来很容易,但是在完成作业的过程中,并没有想到的那么容易完成,有许多平时工作用不到的知识点,对于课程的学习涉及到基础知识,像python这些使用起来和做作业没什么困难点,

作业Day1中有两个作业,其中一是九九乘法表,这个很好容易实现,第二个找出包含某个名字的文件,第二相对有些难度,用到了os.walk这个方法,在我的工作中很少使用这个方法,用到的os.listdir、os.path.join、os.path.isfile等方法居多,这对我来说有很大帮助。

作业地址:https://blog.csdn.net/cgq081616/article/details/105813975

作业Day2中用到的知识点是爬虫知识,虽然之前了解过,也会一些技巧,但是做的时候压力很大的,平时工作中根本就用不到爬虫的知识,关于作业我提交了两个版本,任务爬取<青春有你2>选手的图片,版本一是直接爬取选手照片,一共109张,看群里好多人也是这样的情况,发现爬取的有问题,因为目标图片是482张,到底是哪出问题啦?继续查找要爬取的网页,需要跳到选手相册网页然后爬取pics=soup.select('.pic-list img ')就能把选手的所有照片获取到,从而实现任务。

作业地址:https://blog.csdn.net/cgq081616/article/details/105814073

作业Day3《青春有你2》选手数据分析,主要针对pandas的使用以及matplotlib使用,唯一的难点是怎么把选手的体重‘40kg’字符类型转为40.0float类型,然后分组统计,用饼图的方式画出来。grouped=df['name'].groupby(df['weight']) s = grouped.count() 按照姓名和体重进行分组,然后对体重重新统计,用最简单的方式for if 实现,发现对pandas的了解还远远不够,值得深思和学习。

作业地址:https://blog.csdn.net/cgq081616/article/details/105815561

作业Day4《青春有你2》选手识别,使用paddlehub调用预训练模型对选手的图片进行五分类,中间遇到很多问题,环境问题,模型下载、语料准备,本以为很简单的事情,提交四个版本终于搞定选手识别这个作业。语料准备换环节,使用的图片是作业Day2的图片,对爬虫不是很熟悉,只能用之前爬取的。训练集、测试集、验证集,语料路劲是图片本身的文件夹,例如xujiaqi/1.jpg 1,不用加父级路径,而且文件不能有空行,不然程序读取文件会出错,希望paddlehub的开发人员,改一下这个bug。百度平台功能很强大,模型可以在调用的时候在线下载,而不需要提前下载好,很赞。模型调参,根据文档说明,修改一下,唯一的就是checkpoint的改变,用不同的模型这个checkpoint的路径都要发生变化,或者每次调参的时候也要改,不然还是原来的结果。对于预测需要在文件路劲上加入父目录'dataset/'+filepath[0].split(" ")[0],不然找不到文件。预测结果不对,使用最简单的方式,把少量的图片和测试的图片加到训练集中去,让模型学到,最终预测结果准确,建议不要这么做,因为我本身对爬虫不熟悉,为了得到很好地结果,才这样做的。

作业地址:https://blog.csdn.net/cgq081616/article/details/105815732

作业Day5 综合大作业,爬取爱奇艺《青春有你2》中任意一期的评论数据,然后词频统计和词云展示,我对后面的不用担心,之前的工作也涉及到,唯一担心数据的爬取,虽然老师讲过,但是做的时候也出现爬取的链接网址有问题,仔细核对之后,发现网址多一些字段,修正之后可以爬取数据,为了方便调试把原来的主函数拆解为几个部分,第一部分是数据爬取,第二部分是分词、停止词以及词频统计,第三部分词频绘图,第四部分是根据词频生成词云。遇到爬虫之后的问题,一是结巴添加分词,二是停止词,找了一些文件,第二部分花费了32分钟,等待很久。再做第三部分发现绘图不显示中文,下载黑体和宋体,重启环境,均可以显示,做第四部分词云的时候发现使用font_path="/home/aistudio/simhei.ttc"调用哟有问题,网上查到问题之后改变字体为 font_path="/home/aistudio/simsun.ttc",词云生成,完成整个大作业。其中调试花了很多时间

作业地址:https://blog.csdn.net/cgq081616/article/details/105815878

从整体上看,再次感谢百度提供的这次机会,我也收获颇多,对百度深度学习的框架有了更多深层次的了解,希望百度越做越好,也希望能有更多的免费课程。全民AI,飞桨最棒。

 

 

 

 

你可能感兴趣的:(百度飞桨(PaddlePaddle)Python小白逆袭大神课程心得)