爬虫实战笔记

一章 爬虫基础

1HTTP基本原理
URL:统一资源定位符
URI:统一资源标志符

HTTP:Hyper Text Transfer Protocol 超文本传输协议
HTTPS: Hyper Text Transfer Protocol over Secure Socket Layer 即HTTP下加入SSL层

HTTP请求过程:
“检查”项
第一列Name:请求的名称
第二列Status:响应的状态码
第三列Type:请求的文档类型
第四列Initiator:请求源
第五列Size:从服务器下载的文件和请求的资源大小
第六列Time:发送请求到获取相应所用的总时间
第七列Waterfall:网络请求的可视化瀑布流

请求:
1请求方法:
GET 请求页面,并返回页面内容
POST 大多用于提交表单或上传文件,数据包含在请求体中
2请求的网址
3请求头:用来说明服务器要使用的附加信息,比较重要的信息有Cookie,Referer,User-Agent,Content-Type
4请求体
content-type 提交数据的方式
application/x-www-form-urlencoded 表单数据
multipart/form-data 表单文件上传
application/json 序列化JSON数据
text/xml XML数据

响应
1响应状态码
2响应头
3响应体
网页的源代码,JSON数据等

2网页基础
网页的组成
①HTML
②CSS Cascading Style Sheets 层叠样式表
#head.s-ps. s-p{
position:absolute;
bottom:400px;
width:100%;
height:181px;}
大括号前面是一个CSS选择器。选择器的意思是选中id为head且class为s-ps的节点,再选中其内部的class为s-p的节点
position指定为绝对布局 bottom指定元素下边距为40像素
width指定宽度为100%占满父元素 height指定元素的高度
③Javascript
Javascript通常也是以单独的文件形式加载的,后缀为js,在HTML中通过script标签即可引入,
例如:


HTML定义了网页的内容和结构 CSS描述了网页的布局 Javascript定义了网页的行为

你可能感兴趣的:(爬虫)