爬虫基础|刻意练习,让技术熟烂于心(2)

爬虫是一个技能型的知识,不是说掌握了一次就能学好,而是需要学懂原理,在不同的网站上有不一样的设置和应用。

今天就来3个练习题,每道题练习5遍,确保熟练掌握。

1,抓取下面这个页面文章所有的标题

https://www.zhihu.com/people/huangyoucan/answers

2,抓取《猫总在路上》这个公众号所有的历史文章标题

3,抓取豆瓣Top250所有电影的标题

https://movie.douban.com/top250

任务二答疑——

微信公众号历史文章如何在网页上打开?

我们在微信公众号电脑端复制了历史消息的列表后,在网页端打开发现了以下提示。在解决这个问题之前,我们必须明白,web scraper能抓取的信息一定是要能够在浏览器的网页上打开的。


以前可以用QQ浏览器在登录网页版的微信,然后可以打开历史消息记录。但我今天发现这个方案已经无法解决这个问题了。

可能是腾讯发现了这个问题?

这也说明,爬虫和反爬虫是相互较量,就像矛与盾的关系。一些网站并不希望它的信息被批量爬取下载,所以会不断加强反爬虫。所以在爬取的时候,我们也要遵循爬虫的“道德”,不要频繁爬取,爬之前要设置合适的delay,以免被网站拉入小黑屋。

这个网页端无法打开微信公众号历史消息的问题,暂时搁浅,哪位大神有办法解决也欢迎留言指教哈~~

你可能感兴趣的:(爬虫基础|刻意练习,让技术熟烂于心(2))