python小白逆袭大神打卡营--day2-爬虫实例

小白爬虫之心得简述

  • 环境配置
  • 心得体会

环境配置

https://ai.baidu.com/ai-doc/AISTUDIO/Tk39ty6ho#快速入门
用的是百度AI Stuido
和Jupyter Notebook一样(虽然我之前还没怎么用过,但读了官方文档后很快就可以上手)
request库和BeautifulSoup库

心得体会

今天的打卡营任务是实现爬虫抓取百度百科青春有你2的选手图片,想想很是激动,一直听说过爬虫,但从没实践过,今天终于要来实践一次,那就开始吧。
一开始就直接运行了作业的程序(小白,头铁),然后错误信息说没有上面的两个库,于是pip list走起,发现真没有,就用 pip install request和 pip install beautifulsoup4安装了,后来晚上老师讲课的时候才知道当天的作业说明中已经有了安装这两个库的代码,但是我没仔细看…尴尬

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。

接下来遇到打印图片不是482张(缩略图),而是1000+张的问题,就很纳闷,于是逐行去找错误的地方,途中用到pdb.set_trace()调试(要import pdb先),在指定的地方插入即可,也挺方便的。
后来找到问题,原因是我没有指定进去选手个人的图像地址,把百度百科青春有你2的所有图片爬了下来…这个过程对我这个小白来说耗时十分之久,发现代码错误到解决问题的过程还得再快一些(不快哪有时间做别的事情呢)

在这次作业的过程中学到使用requests.get和BeautifulSoup完成一次爬虫任务,成就感满满,但同时也知道自己有多菜,好多基础的东西不熟——基础的python语句运用不熟练,对前端知识不了解——pic_list_url = bs.select(’.summary-pic a’)[0].get(‘href’)中为什么是’.summary-pic a’…

编程之路,还有很长的路要走呢

你可能感兴趣的:(心得体会)