秃顶

Python 网络爬虫与数据采集（一）

Python 网络爬虫与数据采集

第1章序章网络爬虫基础
- 1 爬虫基本概述
- - 1.1 爬虫是什么
  - 1.2 爬虫可以做什么
  - 1.3 爬虫的分类
  - 1.4 爬虫的基本流程
  - - 1.4.1 浏览网页的流程
    - 1.4.2 爬虫的基本流程
  - 1.5 爬虫与反爬虫
  - - 1.5.1 爬虫的攻与防
    - 1.5.2 常见的反爬与反反爬
  - 1.6 爬虫的合法性与 robots 协议
  - - 1.6.1 robots 协议
    - 1.6.2 查看网页的 robots 协议
  - 1.7 Python 爬虫相关库
- 2. Chrome 浏览器开发者工具
- - 2.1 Chrome 浏览器开发者工具简述
  - - 2.1.1 什么是浏览器开发者工具
    - 2.1.2 浏览器开发者工具基本使用
  - 2.2 浏览器开发者工具面板说明
  - - 2.2.1 元素 (Elements) 面板
    - 2.2.2 网络 (Network) 面板 (1)
    - 2.2.3 网络 (Network) 面板 (2)
- 3. HTTP 协议
- - 3.1 HTTP 简介
  - 3.2 主要特点
  - 3.3 URL,URI,URN
  - - 3.3.1 URI* 统一资源标识符
    - 3.3.2 URL* 统一资源定位符
    - 3.3.3 URN* 统一资源名称
    - 3.3.4 URI,URL,URN 的区别
  - 3.4 HTTP 协议与 HTTPS 协议
  - - 3.4.1 HyperText
    - 3.4.2 HTTP 与 HTTPS
  - 3.5 HTTP 请求过程
  - - 3.5.1 General
    - 3.5.2 请求方法 (Request Method)
    - 3.5.3 状态码 (Status Code)
    - 3.5.4 请求头信息 (Request Headers)
    - 3.5.5 响应头信息 (Response Headers)
    - 3.5.6 响应体 (Response Body)
  - 3.6 Cookies 和 session
  - - 3.6.1 Cookies
    - 3.6.2 session
    - 3.6.3 Cookies 和 session 区别

第1章序章网络爬虫基础

1 爬虫基本概述

1.1 爬虫是什么

网络爬虫（Crawler）又称网络蜘蛛，或者网络机器人（Robots）. 它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。换句话来说，它可以根据网页的链接地址自动获取网页内容。如果把互联网比做一个大蜘蛛网，它里面有许许多多的网页，网络蜘蛛可以获取所有网页的内容。
爬虫是一个模拟人类请求网站行为, 并批量下载网站资源的一种程序或自动化脚本。

1.2 爬虫可以做什么

搜索引擎
采集金融数据
采集商品数据
采集竞争对手的客户数据
采集行业相关数据，进行数据分析
刷流量

1.3 爬虫的分类

通用网络爬虫
又称为全网爬虫，其爬取对象由一批 URL 扩充至整个 Web，主要由搜索引擎或大型 Web 服务商使用。
聚焦网络爬虫
又称为主题网络爬虫，其特点是只选择性的地爬取与预设的主题相关的页面，相比通用网络爬虫，聚焦网络爬虫仅需要爬取与主题相关的页面，极大地节省硬件及网络资源，能更快的更新保存页面，更好的满足特定人群对特定领域的需求。
增量网络爬虫
只对已下载的网页采取增量式更新，或只爬取新产生的及已经发生变化的网页，这种机制能够在某种程度上保证所爬取的网页尽可能的新。
深度网络爬虫
Web 页面按照存在的方式可以分为表层页面和深层页面两类。表层页面是只传统搜索引擎可以索引到的页面，以超链接可以达到的静态页面为主。深层页面是指大部分内容无法通过静态链接获取，隐藏在搜索表单之后的，需要用户提交关键词后才能获得的 Web 页面，如一些登陆后可见的网页。

1.4 爬虫的基本流程

1.4.1 浏览网页的流程

图 1.1: 浏览网页的流程

1.4.2 爬虫的基本流程

请求网页
通过 HTTP 库向目标站点发起请求，即发送一个 Request，请求可以包含额外的 headers 等
信息，等待服务器响应!
获得相应内容
如果服务器能正常响应，会得到一个 Response，Response 的内容便是所要获取的页面内容，
类型可能有 HTML，Json 字符串，二进制数据（如图片视频）等类型。
解析内容
得到的内容可能是 HTML，可以用正则表达式、网页解析库进行解析。可能是 Json，可以
直接转为 Json 对象解析，可能是二进制数据，可以做保存或者进一步的处理。
存储解析的数据
保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件
测试案例
代码 0-0: 爬取搜狗首页的页面数据

#导 包
import requests
#step_1 : 指 定 url
url = ’https :// www . sogou . com /’
#step_2 : 发 起 请 求 :
#使 用 get 方 法 发 起 get 请 求 ， 该 方 法 会 返 回 一 个 响 应 对 象 。 参 数 url 表 示 请 求 对 应 的 url
response = requests . get ( url = url )
#step_3 : 获 取 响 应 数 据 :
#通 过 调 用 响 应 对 象 的 text 属 性 ， 返 回 响 应 对 象 中 存 储 的 字 符 串 形 式 的 响 应 数 据 （ 页 面 源 码
数 据 ）
page_text = response . text
#step_4 : 持 久 化 存 储
with open (’sogou . html ’,’w’, encoding =’utf -8’) as fp:
fp . write ( page_text )
print (’ 爬 取 数 据 完 毕 ！ ！ ！ ’)

1.5 爬虫与反爬虫

爬虫：使用任何技术手段，批量获取网站信息的一种方式。关键在于批量。
反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
误伤：在反爬虫的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。
拦截：成功地阻止爬虫访问。这里会有拦截率的概念。通常来说，拦截率越高的反爬虫策略，误伤的可能性就越高。因此需要做个权衡。
资源：机器成本与人力成本的总和。

1.5.1 爬虫的攻与防

攻:
Day 1 小莫想要某站上所有的电影，写了标准的爬虫 (基于 HttpClient 库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。
守:
Day 1 这个站点的运维小黎发现某个时间段请求量陡增，分析日志发现都是IP(xxx.xxx.xxx.xxx) 这个用户，并且 user-agent 还是 Python-urllib/3.6 ，基于这两点判断非人类后直接在服务器上封杀。
攻:
Day 2 小莫电影只爬了一半，于是也针对性的变换了下策略：1. user-agent 模仿百度(“Baiduspider…”)，2IP 每爬半个小时就换一个 IP 代理。
守:
Day 2 小黎也发现了对应的变化，于是在服务器上设置了一个频率限制，每分钟超过 120次请求的再屏蔽 IP。同时考虑到百度家的爬虫有可能会被误伤，想想市场部门每月几十万的投放，于是写了个脚本，通过 hostname 检查下这个 ip 是不是真的百度家的，对这些 ip 设置一个白名单。
攻:
Day 3 小莫发现了新的限制后，想着我也不急着要这些数据，留给服务器慢慢爬吧，于是修改了代码，随机 1-3 秒爬一次，爬 10 次休息 10 秒，每天只在 8-12，18-20 点爬，隔几天还休息一下。
守:
Day 3 小黎看着新的日志头都大了，再设定规则不小心会误伤真实用户，于是准备换了一个思路，当 3 个小时的总请求超过 50 次的时候弹出一个验证码弹框，没有准确正确输入的话就把 IP 记录进黑名单。
攻:
Day 4 小莫看到验证码有些傻脸了，不过也不是没有办法，先去学习了图像识别（关键词PIL，tesseract），再对验证码进行了二值化，分词，模式训练之后，总之最后识别了小黎的验证码（关于验证码，验证码的识别，验证码的反识别也是一个恢弘壮丽的斗争史…），之后爬虫又跑了起来。
守:
Day 4 小黎是个不折不挠的好同学，看到验证码被攻破后，和开发同学商量了变化下开发模式，数据并不再直接渲染，而是由前端同学异步获取，并且通过 JavaScript 的加密库生成动态的 token，同时加密库再进行混淆（比较重要的步骤的确有网站这样做，参见淘宝和微博的登陆流程）。
攻:
Day 5 混淆过的加密库就没有办法了么？当然不是，可以慢慢调试，找到加密原理，不过小莫不准备用这么耗时耗力的方法，他放弃了基于 HttpClient 的爬虫，选择了内置浏览器引擎的爬虫 (关键词：PhantomJS，Selenium)，在浏览器引擎运行页面，直接获取了正确的结果，又一次拿到了对方的数据。
守:
Day 5 小黎：…

1.5.2 常见的反爬与反反爬

守: 通过 User-Agent 来控制访问：
从用户请求的 Headers 反爬虫是最常见的反爬虫策略。由于正常用户访问网站时是通过浏览器访问的，所以目标网站通常会在收到请求时校验 Headers 中的 User-Agent 字段，如果不是携带正常的 User-Agent 信息的请求便无法通过请求。

笔记 User Agent 中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU
类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

破：应对措施：如果遇到了这类反爬虫机制，可以直接在自己写的爬虫中添加 Headers，将浏览器的 User-Agent 复制到爬虫的 Headers 中
守: 基于行为检测 (限制 IP)
还有一些网站会通过用户的行为来检测网站的访问者是否是爬虫，例如同一 IP 短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。大多数网站都是前一种情况，对于这种情况有两种策略：
破：应对措施：

可以专门写一个在网上抓取可用代理 ip 的脚本，然后将抓取到的代理 ip 维护到代理池中供爬虫使用，当然，实际上抓取的 ip 不论是免费的还是付费的，通常的使用效果都极为一般，如果需要抓取高价值数据的话也可以考虑购买宽带 adsl 拨号的 VPS，如果 ip 被目标网站被封掉，重新拨号即可。
降低请求频率。例如每个一个时间段请求一次或者请求若干次之后 sleep 一段时间。由于网站获取到的 ip 是一个区域网的 ip，该 ip 被区域内的所有人共享，因此这个间隔时间并不需要特别长, 对于第二种情况，可以在每次请求后随机间隔几秒再进行下一次请求。对于有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制，如果能有多个账户，切换使用，效果更佳。

守: 通过账号权限反爬 (ookie 限制)
部分网站需要登录才能继续操作，这部分网站虽然并不是为了反爬虫才要求登录操作，但确实起到了反爬虫，的作用, 可是网页上有一部分内容如: 新浪微博是需要用户登录才能查看更多内容。限制每个每天下载 300 张.
破：应对措施：
因此可以通过注册账号，访问时带 cookie, 模拟登录的方法进行规避。
守: 验证码限制
这是一个相当古老但却不失有效性的反爬虫策略。更早的时候，这种验证码可以通过 OCR技术进行简单的图像识别破解，但是现在来说，验证码的干扰线，噪点已经多到肉眼都无法轻易识别的地步。所以目前而言，由于 OCR 技术发展不力，验证码技术反而成为了许多网站最有效的手段之一。
破：应对措施：

神经网络训练 NLP(图像识别)
人工识别
打码平台
第三方 OCR 库
守: 动态页面的反爬虫 (通过变换网页结构反爬)
一些社交网站常常会更换网页结构，而爬虫大部分情况下都需要通过网页结构来解析需要的数据，所以这种做法也能起到反爬虫的作用。在网页结构变换后，爬虫往往无法在原本的网页位置找到原本需要的内容.
破：应对措施：
只爬取一次时，在其网站结构调整之前，将需要的数据全部爬取下来；使用脚本对网
站结构进行监测，结构变化时，发出告警并及时停止爬虫。
逆向分析，抓包
selenium 库

1.6 爬虫的合法性与 robots 协议

1.6.1 robots 协议

robots 协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（Robots Exclusion Protocol ），当使用一个爬虫爬取一个网站的数据时，需要遵守网站所有者针对所有爬虫所制定的协议! 简单说就是是一种存放于网站根目录下的 ASCII 编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。

robots . txt 的 样 例
User - agent : *
Disallow : /
Allow : / public /

这实现了对所有搜索爬虫只允许爬取 public 目录的功能，将上述内容保存成 robots.txt 文件，放在网站的根目录下，和网站的入口文件（比如 index.php、index.html 和 index.jsp 等）放在一起。上面的 User-agent 描述了搜索爬虫的名称，这里将其设置为＊则代表该协议对任何爬取爬虫有效。比如，我们可以设置：User-agent: Baiduspider 。这就代表我们设置的规则对百度爬虫是有效的。如果有多条 User-agent 记录，则就会有多个爬虫会受到爬取限制，但至少需要指定一条。Disallow 指定了不允许抓取的目录，比如上例子中设置为／则代表不允许抓取所有页面。Allow一般和 Disallow 一起使用，一般不会单独使用，用来排除某些限制。现在我们设置为/public ／，则表示所有页面不允许抓取，但可以抓取 public 目录。
禁止所有爬虫访问任何目录的代码如下：

User - agent : *
Disallow : /

允许所有爬虫访问任何目录的代码如下：

User - agent : * Disallow :

禁止所有爬虫访问网站某些目录的代码如下：

User - agent : *
Disallow : / private /
Disallow : / tmp /

只允许某一个爬虫访问的代码如下：

User - agent : WebCrawler
Disallow :
User - agent : *
Disallow : /

1.6.2 查看网页的 robots 协议

❖ 合法的爬虫

遵守 Robots 协议
Robots 协议也叫 robots.txt（统一小写）是一种存放于网站根目录下的 ASCII 编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。Robots 协议就是告诉爬虫，哪些信息是可以爬取，哪些信息不能被爬取，严格按照Robots 协议爬取网站相关信息一般不会出现太大问题。
不能造成对方服务器瘫痪
但不是说只要遵守 Robots 协议的爬虫就没有问题，还涉及到两个因素，第一不能大规模爬虫导致对方服务器瘫痪，这等于网络攻击。2019 年 05 月 28 日国家网信办发布的《数据安全管理办法（征求意见稿）》中，拟通过行政法规的形式，对爬虫的使用进行限制：网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。
不能非法获利
恶意利用爬虫技术抓取数据，攫取不正当竞争的优势，甚至是牟取不法利益的，则可能触犯法律。实践中，非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少，大多是以不正当竞争为由提请诉讼。

举个例子，如果你把大众点评上的所有公开信息都抓取了下来，自己复制了一个一模
一样的网站，并且还通过这个网站获取了大量的利润，这样也是有问题的。
一般情况下，爬虫都是为了企业获利的，因此需要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。

❖ 违法的爬虫

爬虫不能涉及个人隐私！
“一个程序员写了个爬虫程序，整个公司 200 多人被端了。”如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。也就是说你爬虫爬取信息没有问题，但不能涉及到个人的隐私问题，如果涉及了并且通过非法途径收益了，那肯定是违法行为。
另外，还有下列三种情况，爬虫有可能违法，严重的甚至构成犯罪：
爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施，非法获取相
关信息，情节严重的，有可能构成“非法获取计算机信息系统数据罪”。
爬虫程序干扰被访问的网站或系统正常运营，后果严重的，触犯刑法，构成“破坏计
算机信息系统罪”
爬虫采集的信息属于公民个人信息的，有可能构成非法获取公民个人信息的违法行为，
情节严重的，有可能构成“侵犯公民个人信息罪”。

1.7 Python 爬虫相关库

❖ 请求库

urllib3 库

提供很多 Python 标准库里所没有的重要特性：线程安全，连接池，客户端 SSL/TLS验证，文件分部编码上传，协助处理重复请求和 HTTP 重定位，支持压缩编码，支持HTTP 和 SOCKS 代理，100% 测试覆盖率

urllib 库

Python 内置的 HTTP 请求库，提供一系列用于操作 URL 的功能

requests 库

基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库selenium Selenium 是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作，对于一些 JavaScript 渲染页面来说，这种抓取方式非常有效。
ChromeDriver谷歌浏览器的的驱动，只有安装了浏览器驱动，才能使用 selenium 来驱动谷歌浏览器完成相应的操作

❖ 解析库

正则表达式

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。正则表达式是繁琐的，但它是强大的

lxml 的
C 语言编写高效 HTML/XML 处理库。支持 HTML 和 XML 的解析，也支持 XPath 解析方式，而且解析效率非常高。
xpath 库

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。XPath 最初设计是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

BeautifulSoup 库

BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库，利用它我们可以从网页提取数据。它拥有很强大的 API 和多样的解析方式
❖ 数据库与存储库

MySQL 数据库与 PyMySQL 库

MySQL一个轻量级的关系型数据库，PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库。

MongoDB 数据库与 PyMongo

MongoDB 是由 C++ 语言编写的非关系型数据库，其存储字段可以包含其他文档、数组及文档数组，非常灵活。PyMongo 是在 Python3.x 版本中用于连接 MongoDB 服务器的一个库。
❖ 爬虫框架

crapy

一个为了爬取网站数据，提取结构性数据而编写的应用框架

2. Chrome 浏览器开发者工具

2.1 Chrome 浏览器开发者工具简述

2.1.1 什么是浏览器开发者工具

其实简单的说，浏览器开发者工具就是给专业的 web 应用和网站开发人员使用的工具，它的作用在于，帮助开发人员对网页进行布局，比如 HTML+CSS，帮助前端工程师更好的调试脚本（JavaScript、jQuery）之类的，还可以使用工具查看网页加载过程，获取网页请求（这个过程也叫做抓包），抓包是非常有意思的过程，而每一个浏览器厂商生产出来的浏览器都会有自己的杀手锏，也就是功能上的差别，那么这个时候你就找一个最适合自己的浏览器使用就可以，接下来就是介绍我常用的三个浏览器。

2.1.2 浏览器开发者工具基本使用

❖ 如何调出开发者工具
按 F12 调出 & 右键检查（或快捷键 Ctrl+Shift+i）调出

图 2.1: 浏览器开发者工具

2.2 浏览器开发者工具面板说明

chrome 开发者工具最常用的四个功能模块：元素（ELements）、控制台（Console）、源代码（Sources），网络（Network）。爬虫这块用的比较多的是元素 (ELements), 网络 (Network).

图 2.2: 浏览器开发者工具
❖ 元素（Elements）：用于查看或修改 HTML 元素的属性、CSS 属性、监听事件、断点等。css可以即时修改，即时显示。大大方便了开发者调试页面
❖ 控制台（Console）：控制台一般用于执行一次性代码，查看 JavaScript 对象，查看调试日志信息或异常信息。还可以当作 Javascript API 查看用。例如我想查看 console 都有哪些方法和属性，我可以直接在 Console 中输入"console" 并执行
❖ 源代码（Sources）：该页面用于查看页面的 HTML 文件源代码、JavaScript 源代码、CSS 源代码，此外最重要的是可以调试 JavaScript 源代码，可以给 JS 代码添加断点等。
❖ 网络（Network）：网络页面主要用于查看 header 等与网络连接相关的信息。：网络页面主要用于查看 header 等与网络连接相关的信息。

2.2.1 元素 (Elements) 面板

查看元素的代码：点击左上角的箭头图标（或按快捷键 Ctrl+Shift+C）进入选择元素模式，然后从页面中选择需要查看的元素，然后可以在开发者工具元素（Elements）一栏中定位到该元素源代码的具体位置

图 2.3: 浏览器开发者工具
用于定位元素，复制某类元素路径，这个在使用 BS4 库,selenium 库时，选择定位器会用到!

可以更改浏览器显示方式! 使用手机或者其他设备! 也可以更改当前使用的设备的网络连接速度!

2.2.2 网络 (Network) 面板 (1)

Network 面板可以记录页面上的网络请求的详情信息，从发起网页页面请求 Request 后分析 HTTP 请求后得到的各个请求资源信息（包括状态、资源类型、大小、所用时间、Request 和Response 等），可以根据这个进行网络性能优化。该面板主要包括 5 大块窗格：

图 2.6: 浏览器开发者工具
❖ Controls 控制 Network 的外观和功能。
❖ Filters 控制 Requests Table 具体显示哪些内容。
❖ Overview 显示获取到资源的时间轴信息。
❖ Requests Table 按资源获取的前后顺序显示所有获取到的资源信息，点击资源名可以查看该资源的详细信息。
❖ Summary 显示总的请求数、数据传输量、加载时间信息。
其中用的比较多的是:Controls,Filter,Requests Table

图 2.7: 浏览器开发者工具
使用频率一般，在部分网站上抓取某些请求时使用! 有时需要选择 Disable Cache, 不需要缓存。

图 2.8: 浏览器开发者工具
这个主要用来选择一些请求时用的！常用的俩选项 XHR 和 JS, 其他偶尔用用!

xhr，全称为 XMLHttpRequest，用于与服务器交互数据，是 ajax 功能实现所依赖的对象，jquery 中的 ajax
就是对 xhr 的封装。

图 2.9: 浏览器开发者工具
查看一些请求的名字，状态码，类型，大小和类型! 这个不是重点！重点是这个资源本身的一些属性!

2.2.3 网络 (Network) 面板 (2)

点击任意一个资源我们可以得到如下资源!

图 2.10: 浏览器开发者工具
这个主要用于查看这个请求的内容! 知道数据是否在这块放着!

图 2.11: 浏览器开发者工具
主要用于查看某个资源是如何请求的, 请求头信息，请求体信息，响应体信息等等，下面会具体介绍! 这部分内容相对来说还是很重要的!

图 2.12: 浏览器开发者工具
generel 主要用于查看请求的 url 和请求方式，响应状态码，等信息，常用的就这四个!

图 2.13: 浏览器开发者工具
Request Headers 请求头信息，里面信息很多，常用来做伪装浏览器使用，最常见的伪装方法就是使用 User-Agent! 当然还有一些其他的伪装方法!

3. HTTP 协议

3.1 HTTP 简介

HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。
HTTP 是一个基于 TCP/IP 通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。
HTTP 是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于 1990 年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在 WWW中使用的是 HTTP/1.0 的第六版，HTTP/1.1 的规范化工作正在进行之中，而且 HTTP-NG(Next Generation of HTTP) 的建议已经提出。
HTTP 协议工作于客户端-服务端架构为上。浏览器作为 HTTP 客户端通过 URL 向 HTTP 服务端即 WEB 服务器发送所有请求。Web 服务器根据接收到的请求后，向客户端发送响应信息。

图 3.1: http 请求-响应模型

3.2 主要特点

❖ 1、简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于 HTTP 协议简单，使得 HTTP 服务器的程序规模小，因而通信速度很快。
❖ 2、灵活：HTTP 允许传输任意类型的数据对象。正在传输的类型由 Content-Type 加以标记。
❖ 3. 无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。
❖ 4. 无状态：HTTP 协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。
❖ 5. 支持 B/S 及 C/S 模式。

3.3 URL,URI,URN

这三个缩略词是 Tim Berners-Lee 在一篇名为 RFC 3986: Uniform Resource Identifier (URI):Generic Syntax 的文档中定义的互联网标准追踪协议。
引文：统一资源标识符 (URI) 提供了一个简单、可扩展的资源标识方式。URI 规范中的语义和语法来源于万维网全球信息主动引入的概念，万维网从 1990 年起使用这种标识符数据，并被描述为“万维网中的统一资源描述符”。
Tim Berners-Lee , 万维网的发明者，同时也是万维网联盟 (W3C) 的负责人。照片由 Paul Clarke遵循 CC BY-SA 4.0 协议提供。

3.3.1 URI* 统一资源标识符

HTTP 使用统一资源标识符（Uniform Resource Identifiers, URI）来传输数据和建立连接。URL是一种特殊类型的 URI，包含了用于查找某个资源的足够的信息URI (Uniform Resource Identifier) 即统一资源标志符

3.3.2 URL* 统一资源定位符

URL, 全称是 UniformResourceLocator, 中文叫统一资源定位符, 是互联网上用来标识某一处资
源的地址。https://github.com/favicon.ico 既是一个 URL, 也是一个 URI即有这样的一个图标资源用 URL/URI 来唯一指定了它的访问方式这其中包括了访问协议HTTPS、访问路径（即根目录）和资源名称 favicon, ico URL 是 URI 的一个子集，也就是说每个 URL 都是 URI, 但不是每个 URI 都是 URL
从上面的 URL 可以看出，一个完整的 URL 包括以下几部分：
❖ 1. 协议部分：该 URL 的协议部分为“http：”，这代表网页使用的是 HTTP 协议。在 Internet中可以使用多种协议，如 HTTP，FTP 等等本例中使用的是 HTTP 协议。在"HTTP" 后面的“//”为分隔符
❖ 2. 域名部分：该 URL 的域名部分为“www.aspxfans.com”。一个 URL 中，也可以使用 IP 地址作为域名使用
❖ 3. 端口部分：跟在域名后面的是端口，域名和端口之间使用“:”作为分隔符。端口不是一个 URL 必须的部分，如果省略端口部分，将采用默认端口
❖ 4. 虚拟目录部分：从域名后的第一个“/”开始到最后一个“/”为止，是虚拟目录部分。虚拟目录也不是一个 URL 必须的部分。本例中的虚拟目录是“/news/”
❖ 5. 文件名部分：从域名后的最后一个“/”开始到“？”为止，是文件名部分，如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止，是文件部分，如果没有“？”和“#”，那么从域名后的最后一个“/”开始到结束，都是文件名部分。本例中的文件名是“index.asp”。文件名部分也不是一个 URL 必须的部分，如果省略该部分，则使用默认的文件名
❖ 6. 锚部分：从“#”开始到最后，都是锚部分。本例中的锚部分是“name”。锚部分也不是一个 URL 必须的部分
❖ 7. 参数部分：从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分。本例中的参数部分为“boardID=5&ID=24618&page=1”。参数可以允许有多个参数，参数与参数之间用“&”作为分隔符。

3.3.3 URN* 统一资源名称

URN (Universa I Resource Name) 即统一资源名称
URN 只命名资源而不指定如何定位资源, 比如:

urn:isbn:0451450523 （其 ISBN 编号，以确定一本书）
urn:uuid:6e8bc430-9c3a-11d9-9669-0800200c9a66 （一个全局唯一标识符）
urn:publishing:book （标识文档作为一个图书类型的 XML 命名空间）
urn: isbn:0451450523 指定了一本书的 ISBN, 可以唯一标识这本书，但是没有指定到哪里定位这本书

3.3.4 URI,URL,URN 的区别

URI，是 uniform resource identifier，统一资源标识符，用来唯一的标识一个资源。 Web 上可用的每种资源如 HTML 文档、图像、视频片段、程序等都是一个来 URI 来定位的 URI 一般由三部组成：
❖ 访问资源的命名机制
❖ 存放资源的主机名
❖ 资源自身的名称，由路径表示，着重强调于资源
URL 是 uniform resource locator，统一资源定位器，它是一种具体的 URI，即 URL 可以用来标识一个资源，而且还指明了如何 locate 这个资源。URL 是 Internet 上用来描述信息资源的字符串，主要用在各种 WWW 客户程序和服务器程
序上，特别是著名的 Mosaic。采用 URL 可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。
URL 一般由三部组成：
❖ 协议 (或称为服务方式)
❖ 存有该资源的主机 IP 地址 (有时也包括端口号)
❖ 主机资源的具体地址。如目录和文件名等
URN，uniform resource name，统一资源命名，是通过名字来标识资源，比如 mailto:[email protected] URI 是以一种抽象的，高层次概念定义统一资源标识，而 URL 和 URN 则是具体的资源标识的方式。URL 和 URN 都是一种 URI。笼统地说，每个 URL 都是 URI，但不一定每个 URI 都是URL。这是因为 URI 还包括一个子类，即统一资源名称 (URN)，它命名资源但不指定如何定位资源。上面的 mailto、news 和 isbn URI 都是 URN 的示例。
在 Java 的 URI 中，一个 URI 实例可以代表绝对的，也可以是相对的，只要它符合 URI 的语法规则。而 URL 类则不仅符合语义，还包含了定位该资源的信息，因此它不能是相对的。在 Java类库中，URI 类不包含任何访问资源的方法，它唯一的作用就是解析。相反的是，URL 类可以打开一个到达资源的流。

图 3.2: URL、URN 和 URI 的关系图

3.4 HTTP 协议与 HTTPS 协议

3.4.1 HyperText

超文本（英语：Hypertext）是一种可以显示在电脑显示器或电子设备上的文本，现时超文本普遍以电子文档的方式存在，其中的文字包含有可以链接到其他字段或者文档的超链接，允许从当前阅读位置直接切换到超链接所指向的文字。
浏览器里看到的网页就是超文本解析而成的，其网页源代码是一系列 HTML 代码，里面包含了一系列标签比如：
❖ img 显示图片
❖ P 指定显示段落等
浏览器解析这些标签后，便形成了我们平常看到的网页，而网页的源代码 HTML 就可以称作超文本

3.4.2 HTTP 与 HTTPS

https://www.taobao.com/ 中,URL 的开头会有 http 或 https 这个就是访问资源需要的协议类型，有时还会看到 ftp. sftp. smb 开头的 URL ftp 、sftpx smb 都是指的协议类型
❖ 超文本传输协议（英语：HyperText Transfer Protocol，缩写：HTTP）是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP 是万维网的数据通信的基础。设计 HTTP 最初的目的是为了提供一种发布和接收 HTML 页面的方法。通过 HTTP 或者HTTPS 协议请求的资源由统一资源标识符（Uniform Resource Identifiers，URI）来标识。HTTP 的发展是由蒂姆·伯纳斯-李于 1989 年在欧洲核子研究组织（CERN）所发起。HTTP 的标准制定由万维网协会（World Wide Web Consortium，W3C）和互联网工程任务组（InternetEngineering Task Force，IETF）进行协调，最终发布了一系列的 RFC，其中最著名的是 1999年 6 月公布的 RFC 2616，定义了 HTTP 协议中现今广泛使用的一个版本——HTTP 1.1。2014 年 12 月，互联网工程任务组（IETF）的 Hypertext Transfer Protocol Bis（httpbis）工作小组将HTTP/2 标准提议递交至 IESG 进行讨论，于 2015 年 2 月 17 日被批准。HTTP/2 标准于 2015 年 5 月以 RFC 7540 正式发表，取代 HTTP 1.1 成为 HTTP 的实现标准。
❖ 超文本传输安全协议（英语：HyperText Transfer Protocol Secure，缩写：HTTPS；常称为HTTP over TLS、HTTP over SSL 或 HTTP Secure）是一种通过计算机网络进行安全通信的传输协议。HTTPS 经由 HTTP 进行通信，但利用 SSL/TLS 来加密数据包。HTTPS 开发的主要目的，是提供对网站服务器的身份认证，保护交换资料的隐私与完整性。这个协议由网景公司（Netscape）在 1994 年首次提出，随后扩展到互联网上。历史上，HTTPS 连接经常用于万维网上的交易支付和企业信息系统中敏感信息的传输。在2000 年代末至 2010 年代初，HTTPS 开始广泛使用，以确保各类型的网页真实，保护账户和保持用户通信，身份和网络浏览的私密性。另外，还有一种安全超文本传输协议（S-HTTP）的 HTTP 安全传输实现，但是 HTTPS 的广泛应用而成为事实上的 HTTP 安全传输实现，S-HTTP 并没有得到广泛支持。

笔记 HTTP (Hyper Text Transfer Protoco I) 中文名叫作超文本传输协议用于从网络传输超文本数据
到本地浏览器的传送协议，能保证高效而准确地传送超文本文档由万维网协会 (World Wide Web Consortium) 和
Internet 工作小组 IETF (Internet Engineer ing Task Force) 共同合作制定的规范目前
广泛使用的是 HTTP 1.1 版本 HTTPS (Hyper Text Transfer Protocol over Secure
Socket Layer) 是以安全为目标的 HTTP 通道，简单讲是 HTTP 的安全版，即 HTTP 下加入 SSL 层，简称为
HTTPS 安全基础是 SSL, 因此通过它传输的内容都是经过 SSL 加密. 主要作用可以分为两种：
建立一个信息安全通道，来保证数据传输的安全确认网站的真实性，凡是使用了 HTTPS 的网站，都可以通过点击浏览器地址栏的锁头标志
来查看网站越来越多的网站和 App 都已经向 HTTPS 方向发展

苹果公司强制所有 iOS App 在 2017 年 1 月 1 日前全部改为使用 HTTPS 加密，否则 App 就无法在应用商店上架

谷歌从 2017 年 1 月推出的 Chrome 5 6 开始，对未进行 HTTPS 加密的网址链接亮出风险提示，即在地址栏的显著位置提醒用户“此网页不安全”

腾讯微信小程序的官方需求文档要求后台使用 HTTPS 请求进行网络通信，不道足条件的域名和协议无法请求

HTTPS 已经已经是大势所趋
HTTP 的 URL 是由“http://”起始与默认使用端口 80，而 HTTPS 的 URL 则是由“https://”起始与默认使用端口 443。
HTTP 不是安全的，而且攻击者可以通过监听和中间人攻击等手段，获取网站帐户和敏感信息等。HTTPS 的设计可以防止前述攻击，在正确配置时是安全的。

3.5 HTTP 请求过程

在浏览器中输入一个 URL, 回车之后便可以在浏览器中观察到页面内容这个过程是浏览器向网站所在的服务器发送了一个请求网站服务器接收到这个请求后进行处理和解析，然后返回对应的响应，接着传回给浏览器。

图 3.3: http 请求-响应模型
打开 Chrome 浏览器，右击并选择“检查”项即可打开浏览器的开发者工具

图 3.4: http 请求的过程
❖ Name: 请求的名称, 一般会把 URL 的最后一部分当作名称
❖ Status: 响应的状态码，一般 200 表示响应成功，通过状态码，可以判断发送的请求是否获得正常响应
❖ Type：请求的文档类型，document 表示这次的请求是一个 html
❖ Initiator: 请求源，用于标记请求是由那个对象或者端口发起的
❖ Size: 从服务器，下载的文件和请求内容的大小，如果是从缓存中得到的则该列会显示 from cash,
❖ Time: 发起请求到获取响应的总时间
❖ Waterfall: 网络请求的可视化瀑布流点击一个进去可以查看到详细信息

图 3.5: http 请求的信息
❖ General:HTTP 标头字段列表
❖ Request Headers: 请求头信息
❖ Response Headers: 响应头信息
❖ Query String Parameters：查询字符串参数：其实就是 get 请求中 url 后面要带的参数。也就是说，向对应网址服务器传递这些参数就可以获得请求的内容

3.5.1 General

HTTP 标头字段列表

图 3.6: HTTP 标头字段列表
❖ Request URL: 请求的网址
❖ Request Method: 请求方法
❖ Status Code: 响应状态码
❖ Remote Address：Remote Address 代表的是当前 HTTP 请求的远程地址，即 HTTP 请求的源地址。HTTP 协议在三次握手时使用的就是这个 Remote Address 地址，在发送响应报文时也是使用这个 Remote Address 地址。
❖ Referrer Policy: 当用户在浏览器上点击一个链接时，会产生一个 HTTP 请求，用于获取新的页面内容，而在该请求的报头中，会包含一个 Referrer，用以指定该请求是从哪个页面跳转页来的，常被用于分析用户来源等信息。但是也有成为用户的一个不安全因素，比如有些网站直接将 sessionid 或是 token 放在地址栏里传递的，会原样不动地当作 Referrer 报头的内容传递给第三方网站。所以就有了 Referrer Policy，用于过滤 Referrer 报头内容，目前是一个候选标准，不过已经有部分浏览器支持该标准。具体的可查看这里。

笔记 Remote Address 代表的是当前 HTTP 请求的远程地址，即 HTTP 请求的源地址。HTTP
协议在三次握手时使用的就是这个 Remote Address 地址，在发送响应报文时也是使用这个 RemoteAddress
地址。因此，如果请求者伪造 Remote Address 地址，他将无法收到 HTTP 的响应报文，此时伪造没有任何意义。这也就使得
Remote Address 默认具有防篡改的功能。如果 Http 请求经过代理服务器转发，则这种情况，用户的真实 ip
会丢失，所以才有了“X-Forwarded-For”的方式。当你使用了代理时，web 服务器就不知道你的真实 IP
了，为了避免这个情况，代理服务器通常会增加一个叫做 x_forwarded_for 的头信息，把连接它的客户端 IP（即你的上网机器
IP）加到这个头信息里，这样就能保证网站的 web 服务器能获取到真实 IP，X-Forwarded-For 是一个扩展头。
HTTP/1.1（RFC 2616）协议并没有对它的定义，它最开始是由 Squid 这个缓存代理软件引入，用来表示 HTTP 请求端真实
IP，现在已经成为事实上的标准，被各大 HTTP 代理、负载均衡等转发服务广泛使用，并被写入 RFC 7239 （Forwarded
HTTP Extension）标准之中。X-Forwarded-For 请求头格式非常简单，就这样：X-Forwarded-For:
client, proxy1, proxy2可以看到，XFF 的内容由「英文逗号 + 空格」隔开的多个部分组成，最开始的是离服务端最远的设备
IP，然后是每一级代理设备的 IP。如果一个 HTTP 请求到达服务器之前，经过了三个代理 Proxy1、Proxy2、Proxy3，IP
分别为IP1、IP2、IP3，用户真实 IP 为 IP0，那么按照 XFF 标准，服务端最终会收到以下信息：X-Forwarded-For:
IP0, IP1, IP2 总结是：在使用 nginx 等反向代理服务器的时候，是必须使用 X-Forward-For 来获取用户 IP
地址的（此时 Remote Address 是 nginx 的地址），因为此时 XForward-For 中的地址是由 nginx
写入的，而 nginx 是可信任的。不过此时要注意，要禁止 web 对外提供服务。

3.5.2 请求方法 (Request Method)

HTTP/1.1 协议中共定义了八种方法（也叫“动作”）来以不同方式操作指定的资源：
❖ GET
向指定的资源发出“显示”请求。使用 GET 方法应该只用在读取资料，而不应当被用于产生“副作用”的操作中，例如在网络应用程序中。其中一个原因是 GET 可能会被网络爬虫等随意访问。参见安全方法。浏览器直接发出的 GET 只能由一个 url 触发。GET 上要在 url之外带一些参数就只能依靠 url 上附带 querystring。
❖ HEAD
与 GET 方法一样，都是向服务器发出指定资源的请求。只不过服务器将不传回资源的本文部分。它的好处在于，使用这个方法可以在不必传输全部内容的情况下，就可以获取其中“关于该资源的信息”（元信息或称元数据）。
❖ POST
向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源，或二者皆有。每次提交，表单的数据被浏览器用编码到 HTTP 请求的 body 里。浏览器发出的 POST 请求的 body主要有两种格式，一种是 application/x-www-form-urlencoded 用来传输简单的数据，大概就是"key1=value1&key2=value2" 这样的格式。另外一种是传文件，会采用 multipart/form-data格式。采用后者是因为 application/x-www-form-urlencoded 的编码方式对于文件这种二进制的数据非常低效。
❖ PUT
向指定资源位置上传其最新内容。
❖ DELETE
请求服务器删除 Request-URI 所标识的资源。
❖ TRACE
回显服务器收到的请求，主要用于测试或诊断。
❖ OPTIONS
这个方法可使服务器传回该资源所支持的所有 HTTP 请求方法。用’*’ 来代替资源名称，向Web 服务器发送 OPTIONS 请求，可以测试服务器功能是否正常运作。
❖ CONNECT
HTTP/1.1 协议中预留给能够将连接改为隧道方式的代理服务器。通常用于 SSL 加密服务器的链接（经由非加密的 HTTP 代理服务器）。方法名称是区分大小写的。当某个请求所针对的资源不支持对应的请求方法的时候，服务器应当返回状态码 405（Method Not Allowed），当服务器不认识或者不支持对应的请求方法的时候，应当返回状态码 501（Not Implemented）。

笔记常见的请求方法有：GET 和 POST 在浏览器中直接输入 URL 并回车，便发起了一个 GET请求，请求的参数会直接包含到 URL
里例如：在百度中搜索 P yth o n , 这就是一个 GET 请求，链接为
https://www.baidu.com/s?wd=Python URL 中包含了请求的参数信息，这里参数 wd 表示要搜寻的关键字
POST 请求大多在表单提交时发起例如：对于一个登录表单，输入用户名和密码后，点击其数据通常以表单的形式传输，而不会体现在 URL
中“登录”按钮这通常会发起一个 POST 请求 GET 和 POST 请求方法有如下区别 GET 请求中的参数包含在 URL
里面，数据可以在 URL 中看到，而 POST 请求的 URL 不会包含这些数据数据都是通过表单形式传输的，会包含在请求体中GET
请求提交的数据最多只有 1024 字节，而 POST 请求没有限制。

3.5.3 状态码 (Status Code)

所有 HTTP 响应状态代码都分为五个类或类别。状态码的第一位数字定义响应的类别，而最后两位数字没有任何分类或分类作用。该标准定义了五类：
❀ 1xx 信息响应–收到请求，继续进行
❀ 2xx 成功–成功接收，理解并接受了请求
❀ 3xx 重定向–为了完成请求，需要采取进一步的措施
❀ 4xx 客户端错误–请求包含错误的语法或无法满足
❀ 5xx 服务器错误–服务器无法满足看似有效的请求
状态码详细说明
❖ 201-206 都表示服务器成功处理了请求的状态代码，说明网页可以正常访问。
➢ 200（成功）服务器已成功处理了请求。通常，这表示服务器提供了请求的网页。
➢ 201（已创建）请求成功且服务器已创建了新的资源。
➢ 202（已接受）服务器已接受了请求，但尚未对其进行处理。
➢ 203（非授权信息）服务器已成功处理了请求，但返回了可能来自另一来源的信息。
➢ 204（无内容）服务器成功处理了请求，但未返回任何内容。
➢ 205（重置内容）服务器成功处理了请求，但未返回任何内容。与 204 响应不同，此响应要求请求者重置文档视图（例如清除表单内容以输入新内容）。
➢ 206（部分内容）服务器成功处理了部分 GET 请求。
❖ 300-3007 表示的意思是：要完成请求，您需要进一步进行操作。通常，这些状态代码是永远重定向的。
➢ 300（多种选择）服务器根据请求可执行多种操作。服务器可根据请求者来选择一项操作，或提供操作列表供其选择。
➢ 301（永久移动）请求的网页已被永久移动到新位置。服务器返回此响应时，会自动将请求者转到新位置。您应使用此代码通知搜索引擎蜘蛛网页或网站已被永久移动到新位置。
➢ 302（临时移动）服务器目前正从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。会自动将请求者转到不同的位置。但由于搜索引擎会继续抓取原有位置并将其编入索引，因此您不应使用此代码来告诉搜索引擎页面或网站已被移动。
➢ 303（查看其他位置）当请求者应对不同的位置进行单独的 GET 请求以检索响应时，服务器会返回此代码。对于除 HEAD 请求之外的所有请求，服务器会自动转到其他位置。
➢ 304（未修改）自从上次请求后，请求的网页未被修改过。服务器返回此响应时，不会返回网页内容。如果网页自请求者上次请求后再也没有更改过，您应当将服务器配置为返回此响应。由于服务器可以告诉搜索引擎自从上次抓取后网页没有更改过，因此可节省带宽和开销。
➢ 305（使用代理）请求者只能使用代理访问请求的网页。如果服务器返回此响应，那么，服务器还会指明请求者应当使用的代理。
➢ 307（临时重定向）服务器目前正从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。会自动将请求者转到不同的位置。但由于搜索引擎会继续抓取原有位置并将其编入索引，因此您不应使用此代码来告诉搜索引擎某个页面或网站已被移动。。
❖ 4XXHTTP 状态码表示请求可能出错，会妨碍服务器的处理。
➢ 400（错误请求）服务器不理解请求的语法。
➢ 401（身份验证错误）此页要求授权。您可能不希望将此网页纳入索引。
➢ 403（禁止）服务器拒绝请求。
➢ 404（未找到）服务器找不到请求的网页。例如，对于服务器上不存在的网页经常会返回此代码。
例如：http://www.0631abc.com/20100aaaa，就会进入 404 错误页面
➢ 405（方法禁用）禁用请求中指定的方法。
➢ 406（不接受）无法使用请求的内容特性响应请求的网页。
➢ 407（需要代理授权）此状态码与 401 类似，但指定请求者必须授权使用代理。如果服务器返回此响应，还表示请求者应当使用代理。
➢ 408（请求超时）服务器等候请求时发生超时。
➢ 409（冲突）服务器在完成请求时发生冲突。服务器必须在响应中包含有关冲突的信息。服务器在响应与前一个请求相冲突的 PUT 请求时可能会返回此代码，以及两个请求的差异列表。
➢ 410（已删除）请求的资源永久删除后，服务器返回此响应。该代码与 404（未找到）代码相似，但在资源以前存在而现在不存在的情况下，有时会用来替代 404 代码。如果资源已永久删除，您应当使用 301 指定资源的新位置。
➢ 411（需要有效长度）服务器不接受不含有效内容长度标头字段的请求。
➢ 412（未满足前提条件）服务器未满足请求者在请求中设置的其中一个前提条件。
➢ 413（请求实体过大）服务器无法处理请求，因为请求实体过大，超出服务器的处理能力。
➢ 414（请求的 URI 过长）请求的 URI（通常为网址）过长，服务器无法处理。
➢ 415（不支持的媒体类型）请求的格式不受请求页面的支持。
➢ 416（请求范围不符合要求）如果页面无法提供请求的范围，则服务器会返回此状态码。
➢ 417（未满足期望值）服务器未满足" 期望" 请求标头字段的要求。
❖ 500 至 505 表示的意思是：服务器在尝试处理请求时发生内部错误。这些错误可能是服务器本身的错误，而不是请求出错。
➢ 500（服务器内部错误）服务器遇到错误，无法完成请求。
➢ 501（尚未实施）服务器不具备完成请求的功能。例如，当服务器无法识别请求方法时，服务器可能会返回此代码。
➢ 502（错误网关）服务器作为网关或代理，从上游服务器收到了无效的响应。
➢ 503（服务不可用）目前无法使用服务器（由于超载或进行停机维护）。通常，这只是一种暂时的状态。
➢ 504（网关超时）服务器作为网关或代理，未及时从上游服务器接收请求。
➢ 505（HTTP 版本不受支持）服务器不支持请求中所使用的 HTTP 协议版本。

3.5.4 请求头信息 (Request Headers)

请求头信息用来说明服务器要使用的附加信息，比较重要的信息有 Cookie、Referer、User-Agent

 Python Code:
GET /home.html HTTP/1.1
Host: developer.mozilla.org
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:50.0) Gecko/20100101
Firefox/50.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate, br
Referer: https://developer.mozilla.org/testpage.html
Connection: keep-alive
Upgrade-Insecure-Requests: 1
If-Modified-Since: Mon, 18 Jul 2016 02:36:04 GMT
If-None-Match: "c561c68d0ba92bbeb8b0fff2a9199f722e3a621a"
Cache-Control: max-age=0

请求头由 key/value 对组成，每行为一对，key 和 value 之间通过冒号 ( 分割。请求头的作用主要用于通知服务端有关于客户端的请求信息
❖ Accept：浏览器可接受的 MIME 类型；
❖ Accept-Charset：浏览器可接受的字符集；
❖ Accept-Encoding：浏览器能够进行解码的数据编码方式，比如 gzip。Servlet 能够向支持 gzip的浏览器返回经 gzip 编码的 HTML 页面。许多情形下这可以减少 5 到 10 倍的下载时间；
❖ Accept-Language：浏览器所希望的语言种类，当服务器能够提供一种以上的语言版本时要用到；
❖ Authorization：授权信息，通常出现在对服务器发送的 WWW-Authenticate 头的应答中；
❖ Connection：表示是否需要持久连接。如果 Servlet 看到这里的值为“Keep-Alive”，或者看到请求使用的是 HTTP 1.1（HTTP 1.1 默认进行持久连接），它就可以利用持久连接的优点，当页面包含多个元素时（例如 Applet，图片），显著地减少下载所需要的时间。要实现这一点，Servlet 需要在应答中发送一个 Content-Length 头，最简单的实现方是：先把内容写入ByteArrayOutputStream，然后在正式写出内容之前计算它的大小；
❖ Content-Length：表示请求消息正文的长度；
❖ Cookie：这是最重要的请求头信息之一；也常用复数形式 Cookies, 这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据它的主要功能是维持当前访问会话。例如，我们输入用户名和密码成功登录某个网站后，服务器会用会话保存登录状态信息，后面我们每次刷新或请求该站点的其他页面时，会发现都是登录状态，这就是 Cookies 的功劳 Cookies 里有信息标识了我们所对应的服务器的会话，每次浏览器在请求该站点的页面时，都会在请求头中加上 Cookies 并将其发送给服务器，服务器通过 Cookies 识别出是我们自己，并且查出当前状态是登录状态，所以返回结果就是登录之后才能看到的网页内容
❖ From：请求发送者的 email 地址，由一些特殊的 Web 客户程序使用，浏览器不会用到它；
❖ Host：初始 URL 中的主机和端口；
❖ If-Modified-Since：只有当所请求的内容在指定的日期之后又经过修改才返回它，否则返回304“Not Modified”应答；
❖ Pragma：指定“no-cache”值表示服务器必须返回一个刷新后的文档，即使它是代理服务器而且已经有了页面的本地拷贝；
❖ Referer：包含一个 URL，用户从该 URL 代表的页面出发访问当前请求的页面。此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理如做来源统计、防盗链处理等
❖ User-Agent：浏览器类型，如果 Servlet 返回的内容与浏览器类型有关则该值非常有用；简称UA , 它是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装为浏览器；如果不加，很可能会被识别出为爬虫
❖ UA-Pixels，UA-Color，UA-OS，UA-CPU：由某些版本的 IE 浏览器所发送的非标准的请求头，表示屏幕大小、颜色深度、操作系统和 CPU 类型。

3.5.5 响应头信息 (Response Headers)

响应报文：当收到 get 或 post 等方法发来的请求后，服务器就要对报文进行响应。

 Python Code:
200 OK
Access-Control-Allow-Origin: *
Connection: Keep-Alive
Content-Encoding: gzip
Content-Type: text/html; charset=utf-8
Date: Mon, 18 Jul 2016 16:06:00 GMT
Etag: "c561c68d0ba92bbeb8b0f612a9199f722e3a621a"
Keep-Alive: timeout=5, max=997
Last-Modified: Mon, 18 Jul 2016 02:36:04 GMT
Server: Apache
Set-Cookie: mykey=myvalue; expires=Mon, 17-Jul-2017 16:06:00 GMT; Max-Age=31449600;
Path=/; secure
Transfer-Encoding: chunked
Vary: Cookie, Accept-Encoding
X-Backend-Server: developer2.webapp.scl3.mozilla.com
X-Cache-Info: not cacheable; meta data too large
X-kuma-revision: 1085259
x-frame-options: DENY

❖ Allow：服务器支持哪些请求方法（如 GET、POST 等）；
❖ Content-Encoding：文档的编码（Encode）方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显著地减少HTML文档的下载时间。Java的GZIPOutputStream 可以很方便地进行 gzip 压缩，但只有 Unix 上的 Netscape 和 Windows 上的 IE 4、IE5 才支持它。因此，Servlet 应该通过查看 Accept-Encoding 头（即 request.getHeader(“AcceptEncoding”)）检查浏览器是否支持 gzip，为支持 gzip 的浏览器返回经 gzip 压缩的 HTML 页
面，为其他浏览器返回普通页面；
❖ Content-Length：表示内容长度。只有当浏览器使用持久 HTTP 连接时才需要这个数据。如果你想要利用持久连接的优势，可以把输出文档写入 ByteArrayOutputStram，完成后查看其大小，然后把该值放入Content-Length头，最后通过byteArrayStream.writeTo(response.getOutputStream()发送内容；
❖ Content-Type：表示后面的文档属于什么 MIME 类型。Servlet 默认为 text/plain，但通常需要显式地指定为text/html。由于经常要设置 Content-Type，因此 HttpServletResponse 提供了一个专用的方法 setContentTyep。可在 web.xml 文件中配置扩展名和 MIME 类型的对应关系；
❖ Date：当前的 GMT 时间。你可以用 setDateHeader 来设置这个头以避免转换时间格式的麻烦；
❖ Expires：指明应该在什么时候认为文档已经过期，从而不再缓存它。
❖ Last-Modified：文档的最后改动时间。客户可以通过 If-Modified-Since 请求头提供一个日期，该请求将被视为一个条件 GET，只有改动时间迟于指定时间的文档才会返回，否则返回一个 304（Not Modified）状态。Last-Modified 也可用 setDateHeader 方法来设置；
❖ Location：表示客户应当到哪里去提取文档。Location通常不是直接设置的，而是通过HttpServletResponse 的sendRedirect 方法，该方法同时设置状态代码为 302；
❖ Refresh：表示浏览器应该在多少时间之后刷新文档，以秒计。除了刷新当前文档之外，你还可以通过setHeader(“Refresh”, “5; URL=http://host/path”) 让浏览器读取指定的页面。注意这种功能通常是通过设置 HTML 页面 HEAD 区的实现，这是因为，自动刷新或重定向对于那些不能使用 CGI或 Servlet 的 HTML 编写者十分重要。但是，对于 Servlet 来说，直接设置 Refresh 头更加方便。注意 Refresh 的意义是“N 秒之后刷新本页面或访问指定页面”，而不是“每隔 N 秒刷新本页面或访问指定页面”。因此，连续刷新要求每次都发送一个 Refresh 头，而发送 204 状态代码则可以阻止浏览器继续刷新，不管是使用 Refresh 头还是。注意 Refresh 头不属于 HTTP 1.1 正式规范的一部分，而是一个扩展，但 Netscape 和 IE都支持它。

3.5.6 响应体 (Response Body)

最重要的当属响应体的内容，响应的正文数据都在响应体中比如：
请求网页时，它的响应体就是网页的 HTML 代码；请求一张图片时，它的响应体就是图片的二进制数据

3.6 Cookies 和 session

3.6.1 Cookies

HTTP Cookie（也叫 Web Cookie 或浏览器 Cookie）是服务器发送到用户浏览器并保存在本地的一小块数据，它会在浏览器下次向同一服务器再发起请求时被携带并发送到服务器上。通常，它用于告知服务端两个请求是否来自同一浏览器，如保持用户的登录状态。Cookie 使基于无状态的 HTTP 协议记录稳定的状态信息成为了可能。
Cookie 主要用于以下三个方面：
❖ 会话状态管理（如用户登录状态、购物车、游戏分数或其它需要记录的信息）
❖ 个性化设置（如用户自定义设置、主题等）
❖ 浏览器行为跟踪（如跟踪分析用户行为等）
Cookie 曾一度用于客户端数据的存储，因当时并没有其它合适的存储办法而作为唯一的存储手段，但现在随着现代浏览器开始支持各种各样的存储方式，Cookie 渐渐被淘汰。由于服务器指定 Cookie 后，浏览器的每次请求都会携带 Cookie 数据，会带来额外的性能开销（尤其是在移动环境下）。新的浏览器 API 已经允许开发者直接将数据存储到本地，如使用 Web storage API （本地存储和会话存储）或 IndexedDB 。

3.6.2 session

session 是另一种记录服务器和客户端会话状态的机制 session 是基于 cookie 实现的，session存储在服务器端，sessionId 会被存储到客户端的 cookie 中
session 认证流程：
❖ 用户第一次请求服务器的时候，服务器根据用户提交的相关信息，创建对应的 Session
❖ 请求返回时将此 Session 的唯一标识信息 SessionID 返回给浏览器浏览器接收到服务器返回的 SessionID 信息后，会将此信息存入到 Cookie 中，同时 Cookie 记录此 SessionID 属于哪个域名
❖ 当用户第二次访问服务器的时候，请求会自动判断此域名下是否存在 Cookie 信息，如果存在自动将 Cookie 信息也发送给服务端，服务端会从 Cookie 中获取 SessionID，再根据SessionID 查找对应的 Session 信息，如果没有找到说明用户没有登录或者登录失效，如果找到 Session 证明用户已经登录可执行后面操作。根据以上流程可知，SessionID 是连接 Cookie 和 Session 的一道桥梁，大部分系统也是根据此原理来验证用户登录状态。

3.6.3 Cookies 和 session 区别

Cookies 是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存，或是从客户端的硬盘读取数据的一种技术。Cookies 是当你浏览某网站时，由 Web 服务器置于你硬盘上的一个非常小的文本文件，它可以记录你的用户 ID、密码、浏览过的网页、停留的时间等信息。session:当用户请求来自应用程序的 Web 页时，如果该用户还没有会话，则 Web 服务器将自动创建一个Session 对象。当会话过期或被放弃后，服务器将终止该会话。cookie 机制：采用的是在客户端保持状态的方案，而 session 机制采用的是在服务端保持状态的方案。同时我们看到由于服务器端保持状态的方案在客户端也需要保存一个标识，所以 session 机制可能需要借助 cookie 机制来达到保存标识的目的。Session 是服务器用来跟踪用户的一种手段，每个 Session 都有一个唯一标识：session ID。当服务器创建了 Session 时，给客户端发送的响应报文包含了 Set-cookie 字段，其中有一个名为 sid的键值对，这个键值 Session ID。客户端收到后就把 Cookie 保存浏览器，并且之后发送的请求报表都包含 SessionID。HTTP 就是通过 Session 和 Cookie 这两个发送一起合作来实现跟踪用户状态，Session 用于服务端，Cookie 用于客户端。

你可能感兴趣的:(Python,爬虫,python,搜索引擎)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号