转自:https://www.wukong.com/answer/6612508984584700174/?iid=46403125925&app=news_article&share_ansid=6612508984584700174&app_id=13&tt_from=mobile_qq&utm_source=mobile_qq&utm_medium=toutiao_ios&utm_campaign=client_share
如果知识单一的需求,不考虑深度学习的话。大概两个小时左右,大概的流程是,下载安装python,15分钟左右找到爬虫的教程,15分钟pip库,然后就开始复制粘贴修改目标网址和数据存储路径。然后开始爬一直到结束。整个过程2小时。
我觉得带着目的去学习,是最有效的学习方法。
学习python爬虫的话必备知识点如下:
第一个爬虫建议从urllib开始,应该很多人的第一个爬虫代码都是从这里开始的。短短的几行代码就可以搞定一个看似很难的任务。从这里给大家介绍一下:
urllib库:这是python的内置库,可以说爬虫非常重要的一个部分。这个内之苦可以使用的就是完成向服务器发出请求并且获得网页的功能。这里说一下,python2.x和3.x是有一些出入的。
如何用python抓取一个指定的页面?
首先创建一个urllib2_test01.py,然后输入下面的代码:
最简单的获取一个url信息代码只需要4行就可以搞定的,执行写的python代码:
会得到下面的内容:
下面是编辑urllib_test03.py的过程
这里知识一个初步的介绍。黑马程序员的视频库里面好像有15分钟学习爬虫的视频,大家可以作为参考。
刚刚写的代码,打开之后看的不清楚,又重新更新的了图片。