Python获取网页源码

Py2k中直接导入urllib2,就可以读取网页源码。

import urllib2
content = urllib2.urlopen('http://www.baidu.com/').read()
print(content)

Py3k中取消了urllib2,需要导入urllib.request,等同于Py2k中的urllib2,不过需要转码才能够正确显示。

import urllib.request as http
content = http.urlopen('http://www.baidu.com/').read()
print(content.decode('gb2312'))

你可能感兴趣的:(网络爬虫)