052_爬虫_爬虫相关概念(引用《尚硅谷Python爬虫教程(小)小 白零基础速通》052章)

爬虫解释:

        通过程序,根据url(http://taobao.com)进行网页的爬取 获取有用的信息

实用程序模拟浏览器,去向服务发送请求,获取响应信息

爬虫的核心

爬取网页:爬取整个网页 包含了网页中所的内容

解析数据:将网页中得到的数据 进行解析

难点:爬虫和但爬虫之间的博弈

爬虫的类型

实例


通用爬虫

        百度,360,Google,搜狗等搜索引擎

功能

        访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务

robots协议

        一个约定俗成的协议,添加robots.txt文件 来说明本网站哪些内容不可被抓取,起不到限制作用 自己写的爬虫无需遵守

网站排名(seo)

        1根据pagerank算法进

你可能感兴趣的:(python,爬虫,开发语言)