爬虫通用模块(字符转换;http和https的概念;url格式和http请求格式;爬虫课程的介绍和概念;搜索引擎的工作原理以及roobs协议;浏览器发送请求的流程)

一:字符转换

 1.1 str类型和bytes类型

        bytes:二进制(互联网上的数据都是以二进制方式传输的)

        str:unicode的呈现反式

1.2Unicode UTF8 ASCII

        字符(Character)是各种文字和符号的总称,包括国家文字,标点符号,图形符号,数字等

        字符集(Character set)是多个字符的集合

        字符集包括:ASCII字符集,GB2312字符集,GB18030字符集,Unicode字符集等

        ASCII编码是1个字节,而Unicode编码通常是2个字节

        UTF-8是Unicode的实现方式之一,UTF-8它是一种变长的编码方式,可以是1,2,3个字节

1.3 str bytes如何转化

        str使用encode方法转化为bytes

        bytes通过decode转化为str

        编码方式解码方式必须一样,否则会出现乱码

        爬虫通用模块(字符转换;http和https的概念;url格式和http请求格式;爬虫课程的介绍和概念;搜索引擎的工作原理以及roobs协议;浏览器发送请求的流程)_第1张图片

二: http和https的概念

        HTTP:超文本传输协议;默认端口:80

        HTTPS:HTTP+SSL(安全套接字层);默认端口号:443

        HTTPS比HTTP更安全,但是性能更低

三:url格式和http请求格式

        3.1:url的形式

                scheme://host[:port#]/path/.../[?query-string][#anchor]

                scheme:协议(列如:http,https,ftp)

                host:服务器的ip地址或者域名

                port:服务器的端口(如果是走协议默认端口,80  or  443 )

                path:访问资源的路径

                query-string:参数,发送给http服务器的数据

                anchor:锚(跳转到网页的指定锚点位置)

      3.2:HTTP请求的形式

               爬虫通用模块(字符转换;http和https的概念;url格式和http请求格式;爬虫课程的介绍和概念;搜索引擎的工作原理以及roobs协议;浏览器发送请求的流程)_第2张图片

    3.3:HTTP常见请求头

        1.Host(主机和端口号)

        2.Connection(链接类型)

        3.Upgrade-Insecure-Requests(升级为HTTPS请求)

        4.User-Agent(浏览器名称)

        5.Accept(传输文件类型)

        6.Referer(页面跳转处)

        7.Accept-Encoding(文件编码格式)

        8.Cookie(Cookie)

        9.x-requested-with:XMLHttpRequest(是Ajax异步请求)   

 3.4   常见的请求方法

        GET/POST

3.5 响应状态码(status code)

        200:请求成功

        302:临时转移至新的url

        307:临时转移至新的url

        404:not found

        500:服务器内部错误

四:爬虫

        4.1 爬虫的定义

                网络爬虫(又称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。

                只要是浏览器能做的事,原则上,爬虫都能够做

        4.2 爬虫的分类

                通用爬虫:通常指搜索引擎的爬虫

                聚焦爬虫:针对特定网站的爬虫

        4.3 通用爬虫和聚焦爬虫工作流程

                爬虫通用模块(字符转换;http和https的概念;url格式和http请求格式;爬虫课程的介绍和概念;搜索引擎的工作原理以及roobs协议;浏览器发送请求的流程)_第3张图片

        4.4 通用搜索引擎的局限性

                通用搜索引擎所返回的网页里90%的内容无用

                图片,音频,视频多媒体的内容通用搜索引擎无能为力

                不同用户搜索的目的不全相同,但是返回的内容相同

        4.5 ROBOTS

                Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取 

五:浏览器发送HTTP请求的过程

        爬虫通用模块(字符转换;http和https的概念;url格式和http请求格式;爬虫课程的介绍和概念;搜索引擎的工作原理以及roobs协议;浏览器发送请求的流程)_第4张图片

         浏览器渲染出来的页面和爬虫请求的页面并不一样

             

你可能感兴趣的:(爬虫)