爬虫入门(二)爬取内容遇到的问题以及合法性分析

1.爬虫合法性:几乎每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。

2.从网页上爬取内容显示乱码,可以进行编码解码的方式解决:

thing1.text.encode('iso-8859-1').decode('gbk')

3.爬取到页面后要找自己所需要的,安装这个beautifulsoup4来方便取

爬虫入门(二)爬取内容遇到的问题以及合法性分析_第1张图片         爬虫入门(二)爬取内容遇到的问题以及合法性分析_第2张图片

用find_all方法就可以找到,里边有标签名、属性等参数。最后可以将爬取的内容写入文件中。

你可能感兴趣的:(爬虫入门(二)爬取内容遇到的问题以及合法性分析)