1. HTTP Headers 是什么
HTTP Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息
好吧其实这有点拗口的解释看不懂也没关系,还有一个更直观的表示
2. 更直观的表示 HTTP Headers
当你在浏览器地址栏里键入一个网址,你的浏览器将会类似如下的http请求:
GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1 Host: net.tutsplus.com User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729) Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-us,en;q=0.5 Accept-Encoding: gzip,deflate Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7 Keep-Alive: 300 Connection: keep-alive Cookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120 Pragma: no-cache Cache-Control: no-cache
第一行被称为“Status Line”,它之后就是http headers,空行完了就开始输出内容了(在这个案例中是一些html输出)。
所以 headers 就是后面的Host、User-Agent、Accept 这些内容
3. 我应该怎样在网页中找到header
1. 首先使用比较好用的浏览器,现在的浏览器大多数都带有查看源码的功能,我们在编写爬虫代码时,需要经常的查看页面的代码,追踪网页信息等等,所以要学会使用浏览器上的这些功能,我用的是火狐和chrome
2. 火狐和chrome的F12可以调出调试界面,就像这样子,图上的头信息里面就是网页的headers
3. 火狐浏览器安装firebug插件可以调出跟上图一样的调试界面