4.1 urllib--通过URL打开任意资源


要使用Urllib爬取网页,首先需要导入用到的对应模块,所以,我们可以输入
如下代码导入urllib,是在python2.7写的代码

import urllib
import urllib2

导入代码之后,我们需要使用urllib2.request打开并爬取一个网页,此时,可以
输入如下代码爬取百度首页,爬取之后将爬取到的网页赋给了变量file

file = urllib2.urlopen("http://www.baidu.com")

获取到网页内容之后我们需要将网页内容读取出来。
读取内容常见的有3种方式,其用法是:
1)file.read()
   读取文件的全部内容,与readlines不同的是,read会把读取到的内容赋给一个字符串变量。
2)file.readlines()
   读取文件的全部内容,与read不同的是,readlines会把读取到的内容赋给一个列表变量,若要读取全部内容,推荐使用这种方式。
3)File.readline()
   读取文件的一行内容。



代码如下:

data = file.read()
dataline = file.readline()

以上代码分别读取了爬取到的网页的全部内容和一行内容,并分别赋给了变量data,dataline。

随后将爬取到的读取的内容打印出来
print dataline
print "*"*100   #便于分清楚是谁打印的结果
print dataline

从结果中可知,打印的一行是输出的是空白,而打印data是成功将网页爬取下来之后
取得的HTML代码

结果如下:

****************************************************************************************************




    
   
   
    
   
   
   
   
    
    
    
    
    
    
    
    
    
    
    
    百度一下,你就知道
    









    




   



    
   


   

    
   
    
    





















后有续集

转载于:https://www.cnblogs.com/papapython/p/7463685.html

你可能感兴趣的:(4.1 urllib--通过URL打开任意资源)