记两星期初学爬虫的心得

记两星期初学爬虫的心得!!!!

学习python以来,基础知识已经掌握的十有八九,一些python的特有函数也了解到一些,作为一个python菜鸟,如有不专业的描述,请大家见谅!!!!嘻嘻嘻.
坚定自己学python的这条路是在听所谓的一个专家讲座,他是一名JAVA讲师,为了给我们洗脑,他的PPT做的主题就是JAVA与Pthon的区别与优劣,可想而知,python被他贬的一文不值.但我丝毫没有心动,看如今的互联网发展趋势,python早已经成为当下的主流语言之一,所以我不做比较,我也没有资格做比较,但一名优秀的程序开发者,爱好兴趣是很重要的一方面,我坚持学习python,明显是自己的兴趣所致,无关其它.
接下来说说最近学的爬虫,在我目前这个阶段,我的首选是要把爬虫学牢靠,
因为说实在的,python爬虫工程师这个工作资源也是很多的.目前接触的爬虫已经有一些了,像一些小说网站,电影资源网站,招聘网站的信息,我已经能够独立把数据爬取出来了,当然我也知道,这只是开始,但起码我已经在努力丰富自己的爬虫经验了.
总结以下几点(个人初学建议):
1.在刚拿到一个网页时,先确立自己要爬取的数据,记下来,方便一步步完成.
2.不要使用一个请求头过多次数,可以适当的加一些
3.根据url拿到页面元素是很重要的一点,每次拿到都要输出,对比页面源代码是否正确.
4.分析页面元素取内容的时候一定要细心,达到绝对精确,其实也是方便后面的工作.
5.思路要活,多种取标签内容的方式都可以尝试,遇到不规范的标签会出现bug,不要慌,让程序跑起来,找到该标签,寻找共同规律,实在不行,就异常捕获,把该标签的提取方式单独写在except里.
6.字符串的处理,尽量处理的干净一点,看着也舒心.
7.要熟悉HTTP请求的方式,以及拿到的数据是否该用json格式化.
8.要学会分析页码规律,以及事先想好网站的数据更新方式,比如一些下拉刷新的数据,在url上是无法体现的,这时候就要分析网站发出的请求.(目前刚刚接触,所以说不下去了,等我学透了这点过几天会更新哈哈哈)

这篇博客不是技术型博客,也并不是教学博客,毕竟自己只是个python菜鸟,只想跟初学者分享一些浅薄经验, 我们还是要多练才对,不仅仅是爬虫!!!!!!!!!!!!!

话不多说,列出一小部分这两天用简单爬虫知识自主爬取的一些简单数据,也算纪念一下自己的努力成果: 

记两星期初学爬虫的心得_第1张图片

记两星期初学爬虫的心得_第2张图片

记两星期初学爬虫的心得_第3张图片
记两星期初学爬虫的心得_第4张图片
记两星期初学爬虫的心得_第5张图片

**想用来纪念自己学习python的心路历程,如有不当之处,请大家指出,小弟必悉心接受.
马上步入大四了,第一次写博客,来晚了,请见谅哈哈**

你可能感兴趣的:(记两星期初学爬虫的心得)