ML03 网页数据抓取 (note)

很多机器学习数据集是从网页上抓取过来的。
网页数据抓取与网页爬虫的区别:数据抓取:特定的数据, 网页爬虫:将整个网页获取
数据科学家主要进行网页数据抓取,对网页上的特定数据感兴趣。

网页数据获取工具

  • curl 通常不起作用
  • 通常使用headless 浏览器,没有头,没有界面的浏览器。
    ML03 网页数据抓取 (note)_第1张图片
    如果要大量爬取,需要使用IP代理池。

案例-房价预测

ML03 网页数据抓取 (note)_第2张图片
换成不同的page, 或者不同的城市,将这些要获取的对象放入代码中。

原始网页

ML03 网页数据抓取 (note)_第3张图片
BeautifulSoup: 主要用于解析HTML

ML03 网页数据抓取 (note)_第4张图片

ML03 网页数据抓取 (note)_第5张图片
将需要的信息抽取返回保存

ML03 网页数据抓取 (note)_第6张图片
爬虫关键是内存,可能会同时爬多个网页,内存消耗大。
如果ip被禁,重启会重新分配ip

爬取图片

ML03 网页数据抓取 (note)_第7张图片
图片抓取后,将图片存在云端比较耗钱。

法律性

ML03 网页数据抓取 (note)_第8张图片
爬虫本身是不违法的,最好不要去爬一些需要登陆login 的信息,这些一般是隐私数据。
不要去爬一些有版权的信息,比如有版权的视频、文档等。 爬本身没有问题,但是保存下来有问题。
爬虫结果不要用于盈利。

总结ML03 网页数据抓取 (note)_第9张图片

来源

https://www.bilibili.com/video/BV1JM4y137kK/?spm_id_from=333.999.0.0&vd_source=3fd64243313f29b58861eb492f248b34添加链接描述

你可能感兴趣的:(机器学习,python,爬虫,开发语言)