Web Scraper有反爬虫的网站如何抓取_3.5

  1. 现象:网页上的代码无法选中
  2. html源码分析

冷冷心得丨在人际关系上吃了太多亏,才想明白这两点

  1. 而抓取标题后,得到的是:h2.ContentItem-title a
  2. 格式

外标签.class值
外标签.class值 内标签

  1. 使用格式就可以获取到需要抓取的模块,所以可以抓取无法选中的网页
  2. 注意
    抓取内容不要用于商业,个人数据需要授权,没有被搜索引擎收录的不能乱爬。
    参见robots.txt哪些内容是不应被搜索引擎的漫游器获取

你可能感兴趣的:(Web,Scraper)