初学python爬虫, 爬什么网站比较简单?

本文就初学者来说,教大家怎么爬虫。现学现卖,看完再自己操作操作就会了~我就是这么学的,分享给想用python爬虫的小伙伴:

放个懒人目录:

  1. 网络爬虫的行径
  2. URL初步的概念
  3. python与urllib2
  4. 合理爬数据的身份
  5. 以贴吧为例的小爬虫
  6. python爬虫

1.爬虫程序会高效且准确的拿到我们想要在网上获取的信息。不多说了,了解一下爬虫的行为:网页首页→读取网页内容→找到网页的其他链接→其他的网页首页…

初学python爬虫, 爬什么网站比较简单?_第1张图片
也就是这样的循环,知道这个网站上面所有的网页都吃光。

2.URL的初步概念首先介绍一下浏览网页的基本过程:随便找个你要爬的地址

  • 本地浏览器(客户端)--------请求-----→传智服务器
  • 本地浏览器(客户端)←-----文件数据----传智服务器
  • 本地浏览器(客户端)进行解析文件数据并且展现

初学python爬虫, 爬什么网站比较简单?_第2张图片
3.python与urllib2

在下面的例子里面我用的是python2.7.x版本。这里我们需要的组件是:urllib2(它是python获取URL的一个组件)

你可能感兴趣的:(python,爬虫,Python爬虫,python入门)