phthon 总结《一》

要用的模块:urllib

用dir可以查看里面所带有的成员函数

1、urllib.urlopen()

[python]  view plain copy print ?
  1. urlopen(url, data=None, proxies=None)  
  2.     Create a file-like object for the specified URL to read from.  
文档中的类文件对象是urlopen的函数返回值,之后可以对它返回的一些东西进行操作。他可以打开一个网页,并爬取网页的源代码来用。在爬去网页源码的时候,首先要观察网页head标签内的这个网页用的编码方式是什么,如果不是标准的utf-8,那么要进行转换,其中gb2312,gbk,在python同一成为gbk。在用read方法读出爬下来 的数据的时候,用decode转化编码.

[python]  view plain copy print ?
  1. #coding=utf-8  
  2. import urllib  
  3. print dir(urllib)  
  4.   
  5. url = 'www.163.com'  
  6. html=urllib.urlopen(url)  
  7. print html.read().decode('gb2312').encode('utf-8')  
  8. #decode表示要被转化的编码,而encode是将要转化的编码  

2、
[python]  view plain copy print ?
  1. print html.info()  
  2. #显示该网页的头部信息,了解网站以及网页的一些参数  


3.

[python]  view plain copy print ?
  1. print html.getcode()  
  2. #获得网页当前的状态码,只有当状态码是200的时候,才可能正常访问和抓取网页中的数据  
网页状态码:

200:可以正常访问网页

301:永久重定向该网址到另外一个网址

404:网页不存在

403:网页禁止访问(如果浏览器能够成功访问该网址,但是获取403状态码,那么就说明了,该网站设置了反爬虫)

405:服务器无响应

4、print html.geturl() 可以获取urllib打开网页的网址

5.最重要的就是在操作完文件的时候必须要关闭文件。html.close()

6、下载所获取到的网页源码

urllib.urlretrieve(url,要保存到的文件路径)

你可能感兴趣的:(java,java,java,java,java,android,爬虫,python,爬虫,python,爬虫,python,获取网页,获取HTM)