在python3编译器里先把相应的第三方库导入好,这里我只用了urllib.request、BeautifulSoup来进行测试。
导入完之后在shell中输入下列代码,显示出相应的结果。
>>>url_1 = r'https://www.baidu.com'
>>>url_2 = r'https://baidu.com'
>>>page_1 = urllib.request.urlopen(url_1)
>>>page_2 = urllib.request.urlopen(url_2)
>>>soup_1 = BeautifulSoup(page_1.read(), 'html.parser')
>>>soup_2 = BeautifulSoup(page_2.read(), 'html.parser')
>>>soup_1('a')
[]
>>>soup_2('a')
[, 手写, 拼音, 关闭, 百度首页, 设置, 登录, 新闻, hao123, 地图, 视频, 贴吧, 学术, 登录, 设置, 更多产品, 资讯, 贴吧, 知道, 音乐, 图片, 视频, 地图, 文库, 更多», 把百度设为主页, 关于百度, About Baidu, 百度推广, 使用百度前必读, 意见反馈, 京公网安备11000002000001号]
可以看到,url_1获取页面html之后在BeautifulSoup中无法解析,但是url_2的可以解析,而url_1和url_2的区别就在于前面的www.,对此我深感疑惑,不知道为什么会出现这样的情况,还请各位大佬帮我解一解疑惑。