Python21天学习挑战赛Day(11)·爬虫入门知识(应用)


活动地址:CSDN21天学习挑战赛

目录

一,爬虫君子协议

二,爬虫流程 

 三,技术介绍

        1.HTML与CSS

1.1 HTML

 1.2 CSS基础

        2.URL

         3.HTTP与HTTPS

         3.1 请求方式

         3.2常见请求头

         3.3 常见请求状态码

 4.Chrome浏览器分析网站

 5.Session与Cookie

6.Ajax请求


一,爬虫君子协议

robots.txt 协议:规定了网站中哪些数据可以爬取

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第1张图片

二,爬虫流程 

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第2张图片

 三,技术介绍

        1.HTML与CSS

1.1 HTML

全称‘超文本标记语言’,无逻辑结构,采用标记方式进行网页构建,使用<>将标记括起来

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第3张图片

 

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第4张图片

 HTML标签——

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第5张图片

 1.2 CSS基础

·层叠样式表

·控制HTML页面的样式和布局

·使用{}将样式定义括起来

css选择器:

        ·元素选择器:根据元素名称来选择HTML元素

p{
    text-align:center;
color:red;
}

        ·id选择器:使用HTML元素的id属性来选择唯一特定元素

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第6张图片

#para1 {
        text-align:center;
        color:red;
    }

         ·类选择器:选择有特定class属性的HTML元素

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第7张图片

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第8张图片

 

        2.URL

Uriform Resourse Locator的简写,统一资源定位符。其由以下部分组成——

        ·协议类型。如:https

        ·主机名称/域名。如:baike.baidu.com

        ·端口号

        ·查找路径。如:865?

        ·查询参数(为865?后的所有内容),采用键值对形式,多个键值对用&隔开

        ·锚点,前端用来做面定位。现在一些前后端分离项目,也用于做导航

                

         3.HTTP与HTTPS

         3.1 请求方式

http协议规定了浏览器与服务器进行数据交互的过程中必须选择一种交互方式。在http协议中定义了八种请求方式,常见的有get与post。

        GET请求:只从服务器获取数据,并不会对服务器资源产生任何影响时用get请求

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第9张图片

         post请求:向服务器发送数据(登录),上传文件等,会对服务器资源产生影响的时候用post请求。请求参数在 Form Data

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第10张图片

         3.2常见请求头

http协议中,向服务器发送一个请求,数据分为三部分:

·把数据放在url中

·把数据放在body中(post请求时)

·把数据放在head中

        常见请求头参数——

         3.3 常见请求状态码

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第11张图片

 4.Chrome浏览器分析网站

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第12张图片

 5.Session与Cookie

        Session与Cookie是用于保持HTTP长时间连接状态的技术

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第13张图片

 Cookie:由服务器生成后发送给客户端(通常为浏览器),Cookie总是保存在客户端

Cookie基本原理:

        ·创建Cookie

        ·设置存储Cookie

        ·发送Cookie

        ·读取Cookie

6.Ajax请求

Python21天学习挑战赛Day(11)·爬虫入门知识(应用)_第14张图片

 

你可能感兴趣的:(深度学习,python,深度学习)