极客挖掘机

小白学 Python 爬虫（7）：HTTP 基础

人生苦短，我用 Python

前文传送门：

小白学 Python 爬虫（1）：开篇

小白学 Python 爬虫（2）：前置准备（一）基本类库的安装

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门

小白学 Python 爬虫（4）：前置准备（三）Docker基础入门

小白学 Python 爬虫（5）：前置准备（四）数据库基础

小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装

网络的起源

这个其实是一个冷知识，各位同学可以猜测一下计算机网络的起源是在哪里。

硅谷？大学？实验室？有点接近了，但还不够准确。

准确的答案是在美苏冷战背景下的美国国防部 。

对的，你没看错，是美国军方 ，最先进的技术总是先应用于军事领域，随着时间的推移才会慢慢的民用化。

1968年，在美国国防部高级计划局的领导下，阿帕网（ ARPANET ）诞生了。

ARPANET只有四个节点，连接起加利福尼亚州大学洛杉矶分校、加州大学圣巴巴拉分校、斯坦福大学、犹他州大学这四所学校的大型计算机。

阿帕网 ，是全球公认的计算机网络的始祖。

URI 、 URL 和 URN

爬虫是一个模拟浏览器进行 HTTP 请求的过程。这就需要我们了解从浏览器输入 URL 到获取到网页中间究竟发生了什么。

先介绍一组概念， URI 和 URL ：

URI = Universal Resource Identifier 统一资源标志符，用来标识抽象或物理资源的一个紧凑字符串。
URL = Universal Resource Locator 统一资源定位符，一种定位资源的主要访问机制的字符串，一个标准的URL必须包括：protocol、host、port、path、parameter、anchor。
URN = Universal Resource Name 统一资源名称，通过特定命名空间中的唯一名称或ID来标识资源。

没看懂是吧，没事儿，不需要懂，了解一下就好了，我们来举例子。

比如上面这张图片的地址：https://cdn.geekdigging.com/python-spider/uri-url-urn.png ，它是一个 URL 同时也是一个 URI ， URL 是 URI 的子集，也就是说每个 URL 都是 URI ，但不是每个 URI 都是 URL ，因为 URI 还包括一个子类叫 URN 。在目前的网络中 URN 的使用非常少，所以几乎所有的 URI 都是 URL ，一般的网页链接我们既可以称为 URL ，也可以称为 URI ，完全看个人喜好。

超文本

什么是超文本？

超文本是指可以链接到另一个文档或文本的单词，短语或大块文本。超文本涵盖了文本超链接和图形超链接。

我们在浏览器中访问的网页是由 HTML 编写而成，而 HTML 则被称作为“超文本标记语言”。在 HTML 代码中，包含了一系列的标签，包括图片等的超链接。

我们来看一下一个真实的网站的源代码是怎么样的，在 Chrome 浏览器中，使用 F12 打开开发者工具。

HTTP 和 HTTPS

什么是 HTTP ？

超文本传输协议，是一个基于请求与响应，无状态的，应用层的协议，常基于TCP/IP协议传输数据，互联网上应用最为广泛的一种网络协议,所有的WWW文件都必须遵守这个标准。设计HTTP的初衷是为了提供一种发布和接收HTML页面的方法。

什么是HTTPS？

《图解HTTP》这本书中曾提过HTTPS是身披SSL外壳的HTTP。HTTPS是一种通过计算机网络进行安全通信的传输协议，经由HTTP进行通信，利用SSL/TLS建立全信道，加密数据包。HTTPS使用的主要目的是提供对网站服务器的身份认证，同时保护交换数据的隐私与完整性。

PS:TLS是传输层加密协议，前身是SSL协议，由网景公司1995年发布，有时候两者不区分。

现在越来越多的网站和App都已经向HTTPS方向发展，例如：

苹果公司强制所有iOS App在2017年1月1日前全部改为使用HTTPS加密，否则App就无法在应用商店上架；
谷歌从2017年1月推出的Chrome 56开始，对未进行HTTPS加密的网址链接亮出风险提示，即在地址栏的显著位置提醒用户“此网页不安全”；
腾讯微信小程序的官方需求文档要求后台使用HTTPS请求进行网络通信，不满足条件的域名和协议无法请求。

HTTP协议

HTTP 协议本身是非常简单的。它规定，只能由客户端主动发起请求，服务器接收请求处理后返回响应结果，同时 HTTP 是一种无状态的协议，协议本身不记录客户端的历史请求记录。

为了比较直观的展示这个过程，我们依然打开 Chrome 浏览器，按 F12 开启开发者模式。

看第一行，www.geekdigging.com 那一行：

Name：请求的名称。
Status：状态码， 200 代表正常响应。
Type：文旦类型，这里我们是请求了一个 HTML 文档。
Initiator：请求源。用来标记请求是由哪个对象或进程发起的。
Size：资源大小，这个标识了我们请求的资源的大小。
Time：消耗的时间，单位是 ms 。
Watefall：网络请求的可视化瀑布流。

我们点击一下那一行，可以看到更加详细的内容：

包含了 Header 头信息， Preview （Response Preview）响应信息预览， Response 响应具体的 HTML 代码， Cookies ，Timing 整个请求周期耗时。

General部分： Request URL 为请求的URL， Request Method 为请求的方法， Status Code 为响应状态码， Remote Address 为远程服务器的地址和端口， Referrer Policy 为Referrer判别策略。

Request 请求

一个HTTP请求报文由请求行（request line）、请求头部（headers）、空行（blank line）和请求数据（request body）4个部分组成。

请求行

分为三个部分：请求方法、请求地址URL和HTTP协议版本，它们之间用空格分割。

例如，GET /index.html HTTP/1.1。

HTTP/1.1 定义的请求方法有8种：

GET ：请求页面，并返回页面内容。
POST ：大多用于提交表单或上传文件，数据包含在请求体中。
PUT ：从客户端向服务器传送的数据取代指定文档中的内容。
DELETE ：请求服务器删除指定的页面。
PATCH ：是对 PUT 方法的补充，用来对已知资源进行局部更新。
HEAD：类似于 GET 请求，只不过返回的响应中没有具体的内容，用于获取报头。
OPTIONS：允许客户端查看服务器的性能。
TRACE：回显服务器收到的请求，主要用于测试或诊断。
CONNECT ：HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。

常用的有 GET 和 POST 。

GET

在浏览器中直接输入URL并回车，这就发起了一个 GET 请求，请求的参数会直接包含在 URL 里，请求参数和对应的值附加在URL后面，利用一个问号 ? 代表URL的结尾与请求参数的开始，传递参数长度受限制。由于不同的浏览器对地址的字符限制也有所不同，一般最多只能识别1024个字符，所以如果需要传送大量数据的时候，也不适合使用GET方式。

POST

允许客户端给服务器提供信息较多。POST方法将请求参数封装在HTTP请求数据中，以名称/值的形式出现，可以传输大量数据，这样POST方式对传送的数据大小没有限制，而且也不会显示在URL中。

请求头

因为请求行所携带的信息量非常有限，以至于客户端还有很多想向服务器要说的事情不得不放在请求首部（Header），请求首部用于给服务器提供一些额外的信息，比如 User-Agent 用来表明客户端的身份，让服务器知道你是来自浏览器的请求还是爬虫，是来自 Chrome 浏览器还是 FireFox。HTTP/1.1 规定了47种首部字段类型。 HTTP 首部字段的格式很像 Python 中的字典类型，由键值对组成，中间用冒号隔开。

下面简要说明一些常用的头信息。

Accept：请求报头域，用于指定客户端可接受哪些类型的信息。
Accept-Language：指定客户端可接受的语言类型。
Accept-Encoding：指定客户端可接受的内容编码。
Host：用于指定请求资源的主机IP和端口号，其内容为请求URL的原始服务器或网关的位置。从HTTP 1.1版本开始，请求必须包含此内容。
Cookie：也常用复数形式 Cookies，这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它的主要功能是维持当前访问会话。例如，我们输入用户名和密码成功登录某个网站后，服务器会用会话保存登录状态信息，后面我们每次刷新或请求该站点的其他页面时，会发现都是登录状态，这就是Cookies的功劳。Cookies里有信息标识了我们所对应的服务器的会话，每次浏览器在请求该站点的页面时，都会在请求头中加上Cookies并将其发送给服务器，服务器通过Cookies识别出是我们自己，并且查出当前状态是登录状态，所以返回结果就是登录之后才能看到的网页内容。
Referer：此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理，如作来源统计、防盗链处理等。
User-Agent：简称UA，它是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装为浏览器；如果不加，很可能会被识别出为爬虫。
Content-Type：也叫互联网媒体类型（Internet Media Type）或者MIME类型，在HTTP协议消息头中，它用来表示具体请求中的媒体类型信息。例如，text/html代表HTML格式，image/gif代表GIF图片，application/json代表JSON类型，更多对应关系可以查看此对照表：http://tool.oschina.net/commons。

请求数据

请求体一般承载的内容是POST请求中的表单数据，而对于GET请求，请求体则为空。

注意这里提交数据的方式和请求头设置的 Content-Type 息息相关。

Response 响应

服务端接收请求并处理后，返回响应内容给客户端，同样地，响应内容也必须遵循固定的格式浏览器才能正确解析。HTTP 响应也由3部分组成，分别是：响应行、响应首部、响应体，与 HTTP 的请求格式是相对应的。

响应行

响应行同样也是3部分组成，由服务端支持的 HTTP 协议版本号、状态码、以及对状态码的简短原因描述组成。

状态码

响应状态码表示服务器的响应状态，常见的如200代表服务器正常响应，404代表页面未找到，500代表服务器内部发生错误。

响应头

响应头包含了服务器对请求的应答信息，如Content-Type、Server、Set-Cookie等。下面简要说明一些常用的头信息。

Date：标识响应产生的时间。
Last-Modified：指定资源的最后修改时间。
Content-Encoding：指定响应内容的编码。
Server：包含服务器的信息，比如名称、版本号等。
Content-Type：文档类型，指定返回的数据类型是什么，如text/html代表返回HTML文档，application/x-javascript则代表返回JavaScript文件，image/jpeg则代表返回图片。
Set-Cookie：设置Cookies。响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中，下次请求携带Cookies请求。
Expires：指定响应的过期时间，可以使代理服务器或浏览器将加载的内容更新到缓存中。如果再次访问时，就可以直接从缓存中加载，降低服务器负载，缩短加载时间。

响应体

最重要的当属响应体的内容了。响应的正文数据都在响应体中，比如请求网页时，它的响应体就是网页的HTML代码；请求一张图片时，它的响应体就是图片的二进制数据。

在做爬虫时，我们主要通过响应体得到网页的源代码、JSON数据等，然后从中做相应内容的提取。

参考

https://blog.csdn.net/koflance/article/details/79635240

https://blog.csdn.net/xiaoming100001/article/details/81109617

https://cuiqingcai.com/5465.html

https://blog.csdn.net/ailunlee/article/details/90600174

您的扫码关注，是对小编坚持原创的最大鼓励：）

Python练习（7）Python模块与方法：20道核心实战练习题（含答案与深度解析）（上）
目录引言基础篇（5题）练习1：模块导入方式对比练习2：模块别名应用练习3：条件导入模块练习4：模块搜索路径管理练习5：包结构初始化进阶篇（5题）练习6：模块重载机制练习7：类方法与静态方法区分练习8：魔术方法应用练习9：模块级变量作用域练习10：装饰器实现方法注册高级技巧篇（5题）练习11：动态模块导入练习12：命名空间包练习13：模块卸载陷阱练习14：元类方法控制练习15：上下文管理器方法实战案
python启动其他程序或命令（pandoc） SUN_SU3 python
编写python脚本时，有些功能由其他程序执行，直接在python脚本中启动对应的程序或命令执行即可，现记录用过的几种方法：查看程序的安装目录：whichpandoc1）subprocess:importsubprocessa=subprocess.Popen(['/opt/***/pandoc','/home/***/test.docx','-o','/home/***/test.html'])
全国青少年软件编程(Python)等级考试四级考试真题2024年3月——持续更新..... owbc_ 电子学会（python）三四级考试真题及答案（持续更新）python 算法开发语言青少年编程
青少年软件编程（Python）等级考试试卷（四级）分数：100题数：38一、单选题(共25题，共50分)1.运行如下代码，若输入整数3，则最终输出的结果为？（）deff(x):ifx==1:s=1else:s=f(x-1)*xreturnsn=int(input(“请输入一个大于1的整数：”))print(f(n)+f(n-1))A.2B.4C.8D.16标准答案：C试题解析：由于f(3)=f(2
【亲测免费】 PyPandoc 项目常见问题解决方案
PyPandoc项目常见问题解决方案基础介绍PyPandoc是一个为Pandoc提供的Python薄壳包装器。Pandoc是一个通用的文档转换工具，能够将标记格式的文档转换为多种格式。PyPandoc主要使用Python编程语言，旨在简化Pandoc在Python项目中的使用。新手常见问题及解决步骤问题1：如何安装PyPandoc问题描述：新手在使用PyPandoc时，首先需要了解如何正确安装。解
青少年人工智能Python编程水平测试四级模拟试卷9 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法数据结构排序算法
1、以下选项中，说法正确的是？（）A、条件1and条件2，表示条件满足其中1个即可B、条件1or条件2，表示2个条件需要同时满足C、and和or不能在一个条件表达式中同时使用D、andor一般和if语句搭配使用正确答案：D试题解析：and是逻辑与，同时满足结果才满足；or是逻辑或，满足一个结果就是满足；
青少年人工智能Python编程水平测试四级模拟试卷5 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法推荐算法
【单选题】（每题2分）1、运行下列代码后，输入4，输出的结果是？（）num_1=input()num_2="3"print(num_1+num_2)A、7B
十年老Python程序员：给我一个链接，没有我不能爬的视频，只有我顶不住的视频 IT孔乙己
一、写在前面真的，为什么别人发游戏这么多人看，我发了两次了加起来才一百个。算了算了，不整游戏了，反正你们也不爱看~python今天来试试把头条上扭腰上热门的那些妹子爬一爬，不知道我顶不顶得住~python二、准备工作1、使用的环境python3.8pycharm2021.2专业版2、要用的第三方模块seleniumrequestsparsel三、大致流程鉴于你们不喜欢我啰嗦，但是流程呢，我还是要给
Python中win32com的用法详解：自动化办公与COM交互的利器 detayun Python python 自动化交互 win32
在Python自动化办公场景中，win32com模块凭借其与WindowsCOM（ComponentObjectModel）的深度集成能力，成为操控MicrosoftOffice、工业设备甚至第三方软件的核心工具。本文将通过实战案例、技术细节和避坑指南，系统解析这一模块的核心用法。一、核心功能与安装配置1.1模块定位与优势win32com是pywin32扩展包的核心组件，其核心价值在于：跨软件交互
Python 进阶（一）：多线程
目录1.相关概念1.1解释器1.2GIL2.threading2.1方法属性2.2线程对象2.3锁对象2.4条件对象2.5信号量对象2.6事件对象1.相关概念1.1解释器Python解释器的主要作用是将我们在.py文件中写好的代码交给机器去执行，比较常见的解释器包括如下几种：CPython：官方解释器，我们从官网下载安装后获得的就是这个解释器，它使用C语言开发，是使用范围最广泛的Python解释器
Python 基础（十四）：错误和异常
目录1错误2异常2.1内置异常2.2异常处理2.3抛出异常2.4自定义异常程序中的错误我们通常称为bug，工作中我们不仅需要改自己程序中的bug，还需要改别人程序中的bug，新项目有bug要改，老项目也有bug要改，可以说bug几乎贯穿一个程序员的职业生涯…我们通常将bug分为Error（错误）和Exception（异常），我们下面来具体学习下Python中的错误和异常。1错误错误通常是指程序中的
word python 域操作_Python进阶：关于 Word 基本操作铃木大宝 word python 域操作
1.概述Word是一个十分常用的文字处理工具，通常我们都是手动来操作它，本节我们来看一下如何通过Python来操作。Python提供了python-docx库，该库就是为Word文档量身定制的，安装使用pipinstallpython-docx命令即可。2.写入首先，我们使用Python来创建一个Word文档并向其中写入一些内容。2.1标题我们先来创建Word文档并向其中添加标题，完整实现代码如下
华为OD机试2025 B卷 - 通过软盘拷贝文件 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考 2025B卷
通过软盘拷贝文件华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述有一名科学家想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到
盘点一个Python网络爬虫过程中中文乱码的问题皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫中文乱码的问题，提问截图如下：原始代码如下：importrequestsimportparselurl='https://news.p2peye.com/article-514723-1.html'headers={'Accept-Language':'zh-CN,zh;q=0.9','Accept':'a
Python训练营Day2 linaloos python 开发语言
学习内容：在完成第一天任务后，你已经具备执行简单Python代码的能力了，只要有人给你提供正确的代码，你都能够执行。但是离看懂上面AI提供的代码还有一段举例，你需要掌握一些基础内容。编程语言中为什么要使用变量Python中如何定义变量，变量的命名有什么规则编程语言中，逻辑控制的三大支柱是什么Python中数字类型和字符串类型有什么区别Python中还有哪些类型。有些问题需要思考如何进行增删改查，所
Python 并行新思路：不移除 GIL 的多核并发之道清水白石008 python Python题库 python 服务器开发语言
Python并行新思路：不移除GIL的多核并发之道引言大家好，我是[您的名字]，一位在Python领域深耕多年的软件专家。今天，我们来探讨一个Python开发者经常面临的挑战：全局解释器锁(GIL)以及如何在它的限制下，充分利用多核CPU的并行计算能力。GIL，这个Python语言的“老朋友”，长期以来一直备受争议。它确保了在CPython解释器中，同一时刻只有一个线程执行Python字节码。这简
python学智能算法（二十四）|SVM-最优化几何距离的理解
引言前序学习过程中，已经对几何距离的概念有了认知，学习链接为：几何距离这里先来回忆几何距离δ的定义：δ=min⁡i=1...myi(w∥w∥⋅xi+b∥w∥)\delta=\min_{i=1...m}y_{i}(\frac{w}{\left\|w\right\|}\cdotx_{i}+\frac{b}{\left\|w\right\|})δ=i=1...mminyi(∥w∥w⋅xi+∥w∥b)对上
树莓派i2c通信C语言,基于I2C的STM32与树莓派通信茶话股经树莓派i2c通信C语言
传统的串口通信会丢失数据，不可靠，故采用I2C(同步串行总线)通信。树莓派上使用python脚本，后期将使用c或java重写，目前没有需求。树莓派作主机(Master)，stm32作从机(Slave)。特别需要注意的是，I2C的通信虽然只需要两根线就能通信，但是需要第三根线接地GND(提供判断低电位的能力)，否则不能正常识别stm32从机使用ArduinoIDE编程以下是STM32的代码：#inc
华为OD机试2025C卷 - 计算三叉搜索树的高度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
计算三叉搜索树的高度华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述定义构造三叉搜索树规则如下：每个节点都存有一个数，当插入一个新的数时，从根节点向下寻找，直到找到一个合适的空节点插入。查找的规则是：如果数小于节点的数减去500，则将数插入节点的左子树如果数大于节点的数加上500，则将数插入节点的右子树否则，将数
华为OD面试手撕真题 - 字符串解码 (C++ & Python & JAVA & JS & GO) 无限码力华为OD面试手撕代码真题合集华为od 面试手撕真题华为OD面试手撕真题
题目描述给定一个经过编码的字符串，返回它解码后的字符串。编码规则为:k[encoded_string]，表示其中方括号内部的encoded_string正好重复k次。注意k保证为正整数。你可以认为输入字符串总是有效的；输入字符串中没有额外的空格，且输入的方括号总是符合格式要求的。此外，你可以认为原始数据不包含数字，所有的数字只表示重复的次数k，例如不会出现像3a或2[4]的输入。示例1输入：s="
Python编程：从入门到实践 YC运维 Python_study python 学习开发语言
这是基于《Python编程：从入门到实践》这本书以一个初学者的视角去学习而记录的笔记，浓缩了精华的部分以及分享了一些我自己的见解。做这个既是为了让自己边学边记录也是为了保留自己的问题去和小伙伴一起谈论。一，python是什么以及核心作用Python是一种高级、解释型、面向对象的编程语言，由荷兰人GuidovanRossum于1989年圣诞节期间创建，第一个公开发行版发行于1991年。它的设计哲学强
Python打卡day6 描述性统计荣582 python学习打卡 python 开发语言机器学习
@疏锦行针对其他特征绘制单特征图和特征和标签的关系图，并且试图观察出一些有意思的结论单特征可视化importmatplotlib.pyplotaspltimportseabornassnsimportpandasaspd#读取数据，这里假设数据文件名为data.csv，你需要根据实际情况修改文件名data=pd.read_csv('data.csv')#连续变量可视化示例plt.figure(fi
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
python中的字典类型_Python中字典数据类型石墨稀 python中的字典类型
一.创建字典方法①:>>>dict1={}>>>dict2={'name':'earth','port':80}>>>dict1,dict2({},{'port':80,'name':'earth'})方法②:从Python2.2版本起>>>fdict=dict((['x',1],['y',2]))>>>fdict{'y':2,'x':1}方法③:从Python2.3版本起,可以用一个很方便的内建
Python 中的列表（List）和元组（Tuple） shangjg3 Python python 开发语言
1.定义与语法差异1.列表的定义列表使用方括号`[]`定义，元素之间用逗号分隔。列表的元素可以是不同数据类型，甚至嵌套其他列表或元组。my_list=[1,"hello",True,[2,3]]2.元组的定义元组使用圆括号`()`定义，同样支持混合数据类型。需要注意的是，定义单元素元组时必须在元素后加逗号，以区别于数学表达式中的括号。my_tuple=(1,"world",False,(4,5))
Python 列表
列表是由一系列按特定顺序排列的元素组成。在python中用方括号（[]）来表示列表并用逗号来分隔其中的元素。例如：bicycles=['trek','cannondale','redline']。访问列表元素时，只需将该元素的索引值或位置告诉Python即可。（索引值由0开始）>>>names=['zhao','qian','sun','li']>>>print(names[0])zhao创建的大
列表简单数据类型天池小晨 python
整型浮点型布尔型容器数据类型列表元组字典集合字符串1.列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的Python对象，语法为[元素1,元素2,...,元素n]。关键点是「中括号[]」和「逗号,」中括号把所有元素绑在一起逗号将每个元素一一分开2.列表的创建创建一个普通列表【例子】1x=['Monday','Tuesday','Wednesday','Thursday','Frid
Python-难点-获取项目根目录
1需求2接口3示例4参考资料在Python中，“设置根目录”通常指指定项目的基准路径，以便统一管理文件路径。以下是几种常见方法，结合不同场景和兼容性需求：一、基于路径拼接（最常用）通过手动拼接路径来定义根目录，适用于结构固定的项目。importos#方法1：根据当前文件位置向上递归定义（推荐）defset_project_root():current_file=os.path.abspath(__
JSON和JSONL、python操作 weixin_668 json python
JSONJSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，基于文本、易于读写，并支持多种数据结构。以下是常见的JSON格式及示例：1.简单对象（键值对）{"name":"Alice","age":25,"isStudent":true}2.嵌套对象{"person":{"name":"Bob","address":{"city":"NewYork","zipc
python 抓取小红书小五咔咔咔 python 开发语言
python相关学习资料：https://edu.51cto.com/video/3832.htmlhttps://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlPython抓取小红书数据的科普文章小红书是一个流行的社交电商平台，用户可以分享购物心得、生活点滴等。本文将介绍如何使用Python语言抓取小红书的数据
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL