本文转自伯乐在线:http://python.jobbole.com/81334/
1. 爬虫是什么
简单的说,爬虫是获取网上的信息的一种方法
2. 编写爬虫程序要学习什么知识
1. Python基础知识
2. Python中urllib和urllib2库的用法
3. Python正则表达式
4. Python爬虫框架Scrapy
5. Python爬虫更高级的功能
3. 爬虫基础了解
1. 浏览网页的过程
在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如http://image.baidu.com/,我们会看到几张的图片以及百度搜索框
这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后
发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了
因此,用户看到的网页实质是由 HTML 代码构成的
爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。
2. URL的含义
URL,即统一资源定位符,也就是我们说的网址,比如http://image.baidu.com/,就是一个url
统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。
爬虫爬取数据时必须要传入一个URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。