爬虫基础系列urllib(2)

爬虫基础系列urllib(2)_第1张图片
u=2998242485,1841996514&fm=27&gp=0.jpg

html页面的解码

  • 从页面中直接获取的数据是二进制形式的数据,我们平时接触到的大多是字符串形式的数据,那么就涉及到将二进制形式的数据转换成字符串形式的数据,在用Python中一些方便的地方在于“想开汽车不需要自己造轮子”,就是使用它能达到效果和目的就行。
reponse=request.urlopen(url).read().decode() #解码---(编码encode())

只需要将读取的信息decode一下就能转换成字符串形式的数据,然后用正则表达式获取。

简单的正则表达式采集数据

  • 首先引人正则表达式的包,正则表达式是内置模块 import re
  • 想采集数据首先要分析页面,获取到的二进制页面,分析想要的信息在键值对中。</li> </ul> <pre><code>pat=r"<title>(.*?)"
    • 完整代码
    #import urllib.request
    from urllib import request
    import re
    
    url=r"http://www.baidu.com/"
    
    #发送请求.获取响应信息
    reponse=request.urlopen(url).read().decode() #解码---(编码encode())
    print(reponse)
    
    pat=r"(.*?)"
    
    data=re.findall(pat,reponse)
    
    
    print(data)
    

    返回的信息为:

    ['百度一下,你就知道']
    

    爬虫基础系列urllib(1)
    爬虫基础系列urllib(3)

你可能感兴趣的:(爬虫基础系列urllib(2))