什么是爬虫?有哪些用途

  1. 数据的来源:
    • 去第三方的公司购买数据(比如企查查)
    • 去免费的数据网站下载数据(比如国家统计局)
    • 通过爬虫爬取数据
    • 人工收集数据(比如问卷调查)
  2. 爬虫的概念: 模拟浏览器发送网络请求,接收请求响应
  3. 爬虫的用途:   12306抢票,网络投票等
  4. 爬虫的分类:    分为通用爬虫(搜索引擎聚焦爬虫(12306抢票) 、增量式网络爬虫(Incremental Web Crawler)和深层网络爬虫
  5. 爬虫获取的数据的用途:
    • 进行在网页或者是app上进行展示
    • 进行数据分析或者是机器学习相关的项目

            6. 爬虫的流程:

                       向起始url发送请求,并获取响应

                      对响应进行提取

                       如果提取url,则继续发送请求获取响应

                       如果提取数据,则将数据进行保存

            7. Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是互联网中的一般约定     如: http://www.taobao.com/robots.txt

            8. 


你可能感兴趣的:(Python爬虫)