02 爬虫网页&存储内容

参考小白入门

一、爬虫

1.简单爬虫某个网页 很简单,已经会了 后面再说

2.调整格式

 回归正题,虽然我们已经成功获取了信息,但是显然他们都是二进制的乱码,看起来很不方便。我们怎么办呢?

我们可以通过简单的```decode()```命令将网页的信息进行解码,并显示出来,我们新创建一个文件,命名为urllib_test02.py,编写如下代码(还是以百度翻译网站fanyi.baidu.com为例):

查找源代码中格式,搜索"charset",即可获得。一般中文都是"utf-8"


02 爬虫网页&存储内容_第1张图片
爬虫_贴吧&源代码_查找charest.png

but,上述方法不方便,想下自动化。写个脚本获得即可

遗留问题是

通过上述链接中方法


# -*- coding: UTF-8 -*-
from urllib import request
import chardet

if __name__ == "__main__":
    response = request.urlopen("http://fanyi.baidu.com/")
    html = response.read()
    charset = chardet.detect(html)
    print(charset)

打印出来的 不是utf-8 而是 windows1254 language Turkish

问题 if name == "main": 这句神马意思 之前学的都是def定义

如果还是看不出问题
试试另一种方式

你可能感兴趣的:(02 爬虫网页&存储内容)