langtaosha1981

《从零开始学Scrapy网络爬虫》之网络爬虫基础（HTTP基本原理）1

近几年，随着人工智能呈现爆发式发展，网络爬虫也跟着火了起来，为什么？因为人工智能离不开海量数据，没有了数据，就没有所谓的人工智能，而从互联网中获取数据是最直接、最经济、最有效的方法。网络爬虫，就是用于从互联网中，以自动化的形式，获取海量数据。

网络爬虫实现的思想是模拟用户使用浏览器向网站发送请求，网站响应请求后，将HTML文档发送过来，爬虫再对网页做信息提取和存储。因此，了解浏览器与网站服务器之间的通信方式和交互过程，理解HTML页面的组织和结构，掌握页面信息的提取和存储技术，能进一步加深对网络爬虫原理的理解。

HTTP基本原理

来看一下用户从浏览器输入某个网址到获取网站内容的整个过程。该过程主要分为四个步骤，如图所示。

在浏览器中输入URL地址（如百度：https://www.baidu.com），回车。
浏览器向网站服务器发送请求访问的命令。
网站服务器响应请求后，向浏览器发送HTML文档（也可以是图片、视频、JSON数据等其他资源）。
浏览器解析、渲染HTML文档后，将页面展示给用户。

下面详细讲解一下这些步骤中的关键知识，这将有助于我们更深地了解爬虫的基本原理。

URL

我们把在浏览器的地址栏里输入的网址叫做URL。URL全称Uniform Resource Locator，即统一资源定位符。URL用于确定分散在互联网中各种资源的位置和访问方式。例如摄图网中故宫博物馆的图片地址为http://seopic.699pic.com/photo/50088/2824.jpg_wh1200.jpg。它包含了以下几种信息。

访问协议： http，用于确定数据传输的方式。
服务器名称：seopic.699pic.com，图片所在的网站服务器地址。
访问路径： /photo/50088/，图片目录。
资源名： 2824.jpg_wh1200.jpg，图片名称。

HTTP和HTTPS协议

首先来看一下访问协议。为了保证浏览器能够正确解析并显示网站服务器传送的资源，需要制定一套双方都遵守的协议，最常见的有HTTP和HTTPS协议。当然还有其他功能的协议，如FTP（文件传输协议）、TELNET（远程登录服务）、FILE（本地文件传输协议）等。在爬虫中，通常是通过HTTP或HTTPS协议获取到页面的。

下面就来了解一下这两个协议。

HTTP全称HyperText Transfer Protocol，即超文本传输协议。是用于从网络中传输超文本到本地浏览器的传输协议，是互联网中应用最为广泛的一种网络协议。它能保证高效而准确地传送超文本文档，我们平常看到的HTML文档就是超文本文档。

HTTP协议以明文方式发送内容，不提供任何方式的数据加密。像银行卡号、密码等对安全性要求高的信息传输，就不能使用HTTP，而要使用HTTPS协议了。

HTTPS全称HyperText Transfer Protocol over Secure Socket Layer，即安全套接字层超文本传输协议。是以安全为目标的HTTP通道，简单讲是HTTP的安全版。HTTPS在HTTP的基础上加入了SSL协议，SSL依靠证书来验证服务器的身份，并对浏览器和服务器之间的通信加密。

现在越来越多的网站都开始采用安全级别更高的HTTPS协议了。

HTTP请求（Request）

当用户通过浏览器访问某个网站时，浏览器会向网站服务器发送访问请求，这个请求就叫做HTTP请求。请求包含的内容主要有：

请求方法（Request Method）
请求网址（Request URL）
请求头（Request Headers）
请求体（Request Body）

为了更直观地说明这个过程，我们使用Chrome浏览器自带的“开发者工具”来查看浏览器发送的请求信息。以访问百度（https://www.baidu.com）为例。

打开Chrome浏览器，按F12键，显示“开发者工具”栏。
地址栏中输入百度网址：https://www.baidu.com，回车。
“开发者工具”栏抓取到了许多浏览器请求以及服务器响应信息。按下图所示顺序选中各个选项，在第4步的Headers选项卡中，就能查看到请求信息了。

下面来看一下浏览器向百度的网站服务器发送了哪些请求信息。

请求方法（Request Method）

HTTP协议定义了许多与服务器交互的方法，最常用的有GET和POST方法。

如果浏览器向服务器发送一个GET请求，请求的参数信息会直接包含在URL中。例如在百度搜索栏中输入“scrapy”，点击“百度一下”按钮，就形成了一个GET请求。搜索结果页面的URL变为https://www.baidu.com/s?wd=scrapy，URL中问号（？）后面的wd=scrapy就是请求的参数，表示要搜寻的关键字。

POST请求主要用于表单的提交。表单中输入的卡号、密码等隐私信息通过POST请求方式提交后，数据不会暴露在URL中，而是保存于请求体中，避免了信息的泄露。

请求网址（Request URL）

这里请求的网址为https://www.baidu.com/，即百度主页的URL地址。另外，还有一个选项Remote Address的值为180.97.33.107:443，这是百度服务器的IP地址，也可以使用IP地址来访问百度。

请求头（Request Headers）

请求头的内容在Headers选项卡中的Request Headers目录下，如图2-3所示。请求头中包含了许多有关客户端环境和请求正文的信息，比较重要的信息有Cookie、User-Agent等。

下面简单介绍一下常用的请求头信息。

Accept：浏览器端可以接受的媒体类型。text/html代表浏览器可以接受服务器发送的文档类型为text/html，也就是我们常说的HTML文档。
Accept-Encoding：浏览器接受的编码方式。
Accept-Language：浏览器所接受的语言种类。
Connection：表示是否需要持久连接。keep-alive表示浏览器与网站服务器保持连接；close表示一个请求结束后，浏览器和网站服务器就会断开，下次请求时需重新连接。
Cookie：有时也用复数形式Cookies，指网站为了辨别用户身份、进行会话跟踪而储存在用户本地的数据（通常经过加密），由网站服务器创建。例如当我们登录后，访问该网站的其他页面时，发现都是处于登录状态，这是Cookie在发挥作用。因为浏览器每次在请求该站点的页面时，都会在请求头中加上保存有用户名和密码等信息的Cookie并将其发送给服务器，服务器识别出该用户后，就将页面发送给浏览器。在爬虫中，有时需要爬取登录后才能访问的页面，通过对Cookie的设置，就可以成功访问登录后的页面了。
Host：指定被请求资源的Internet主机和端口号，通常从URL中提取出来。
User-Agent：告诉网站服务器，客户端使用的操作系统和浏览器的名称和版本、CPU版本、浏览器渲染引擎、浏览器语言等。在爬虫中，设置此项可以将爬虫伪装成浏览器。

请求体（Request Body）

请求体中保存的内容一般是POST请求发送的表单数据。对于GET请求，请求体为空。

HTTP响应（Response）

当网站服务器接收到浏览器的请求后，会发送响应消息给浏览器，这个响应就叫做HTTP响应。一个完整的响应消息主要包含：

响应状态码（Response Status Code）
响应头（Response Headers）
响应体（Response Body）

响应状态码（Response Status Code）

状态码表示服务器对请求的响应结果。例如200代表服务器响应成功，403代表禁止访问，404代表页面未找到，408代表请求超时。浏览器会根据状态码做出相应的处理。在爬虫中，可以根据状态码来判断服务器的状态，如果状态码为200，则继续处理数据，否则直接忽略。下表列举了常见的状态码。

表- 常见状态码及说明

状态码	说明	详情
100	继续	服务器已收到请求的一部分，客户端应该继续发送
101	切换协议	请求者已要求服务器切换协议，服务器已确认并准备切换
200	成功	服务器已成功处理了请求
201	已创建	请求成功并且服务器创建了新的资源
202	已接受	服务器已接受请求，但尚未处理
203	非授权信息	服务器成功处理了请求，但返回的信息可能来自另一来源
204	无内容	服务器成功处理了请求，但没有返回任何内容
205	重置内容	服务器成功处理了请求，但没有返回任何内容
206	部分内容	服务器成功处理了部分GET请求
300	多种选择	针对请求，服务器可执行多种操作
301	永久移动	请求的网页已永久移动到新位置
302	临时移动	请求的网页暂时跳转到其他页面
400	错误请求	服务器不理解请求的语法
401	未授权	请求要求身份验证
403	禁止	服务器拒绝请求
404	未找到	服务器找不到请求的网页
405	方法禁用	禁用请求中指定的方法
406	不接受	无法使用请求的内容特性响应请求的网页
407	需要代理授权	与401（未授权）类似，但指定请求者应当授权使用代理
408	请求超时	服务器等候请求时发生超时
409	冲突	服务器在完成请求时发生冲突
410	已删除	请求的资源已永久删除
411	需要有效长度	服务器不接受不含有效内容长度标头字段的请求
412	未满足前提条件	服务器未满足请求者在请求中设置的其中一个前提条件
413	请求实体过大	实体过大，超出服务器的处理能力
414	URI过长	请求的URI（通常为网址）过长
415	不支持的媒体类型	请求的格式不受请求页面的支持
500	服务器内部错误	服务器遇到错误，无法完成请求
501	尚未实施	服务器不具备完成请求的功能
502	错误网关	服务器作为网关或代理，从上游服务器收到无效响应
503	服务不可用	服务器目前无法使用
504	网关超时	没有及时从上游服务器收到请求
505	HTTP版本不支持	服务器不支持请求中所用的HTTP协议版本

响应头（Response Headers）

响应头包含了服务器对请求的应答信息。在Chrome浏览器的“开发者工具”中，响应头的内容在Headers选项卡中的Response Headers目录中，如图2-4所示。

下面简单介绍一下常用的头信息。

Date：服务器响应时间。
Content-Type：返回数据的文档类型，如text/html代表返回HTML文档；application/x-javascript代表返回JavaScript文件；image/jpeg代表返回图片。
Content-Encoding：服务器支持的返回内容压缩编码类型。
Server：服务器软件的名称。
Set-Cookie：设置HTTP Cookie。
Expires：响应过期的日期和时间。

响应体（Response Body）

响应体中存放服务器发送给浏览器的正文数据。在Chrome浏览器的“开发者工具”中，与Headers选项卡平行的Response选项卡中存储的就是响应体数据。比如请求访问百度首页时，它的响应体就是百度首页的HTML代码，如图所示。

当访问摄图网中故宫博物馆的图片（http://seopic.699pic.com/photo/50088/2824.jpg_wh1200.jpg）时，它的响应体就是一张图片的二进制数据。Response选项卡中无法显示图片数据，在左边的Preview选项卡中可以预览，如图所示。

在爬虫中，我们从响应体中获取HTML代码、JSON数据、网络图片等，然后从中提取相应的内容。

节选自书籍：《从零开始学Scrpay网络爬虫》，作者张涛

下一节继续讲解：《从零开始学网络爬虫》之网络爬虫基础（网页基础）

Ook密码快速辨认与解密迷茫&&前行密码解密 Ook密码
一.Ook在线解密网站Ook解密1Ook解密2二.Ook密码辨认Ook密码是一种基于Ook语言的编程语言，由DavidMorgan-Mar设计，灵感来自TerryPratchett的《碟形世界》系列中的猩猩语言。其特点如下：极简语法：仅包含三个基本符号：Ook.、Ook?、Ook!，通过不同组合表达指令。基于Brainfuck：Ook密码与Brainfuck一一对应，每个Ook指令对应一个Brai
（大模型微调大模型学习路线大模型入门）_大模型学习，吹爆！2025最详细的大模型学习路线已整理！手把手带你高效入门，大模型论文全打通！大模型老炮学习人工智能大模型学习 AI 大模型大模型微调大模型教程
一、初聊大模型1、什么是大模型？大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问
lvs、nginx、haproxy区别和使用场景？企鹅侠客 linux 聊聊运维 lvs nginx 运维
0.运维干货分享软考系统架构设计师三科备考经验附学习资料信息安全管理体系（ISMS）制度模板分享免费文档翻译工具(支持word、pdf、ppt、excel)PuTTY中文版安装包MobaXterm中文版安装包pinginfoview网络诊断工具中文版LVS（LinuxVirtualServer）、Nginx和HAProxy都是常见的负载均衡工具，它们在不同的场景中各有优势。以下是它们的区别、特点及
牛客练习赛135——小柒的逆序对(2) KyollBM 算法数据结构
这里还得说一下，调换一个排列中任意两个不同的数，该排列的逆序数奇偶会改变题目：思路：这道题的数据给的很大，如果我们用树状数组维护前缀和都没用，但是我们观察到英文字符只有26个，那我们可以开一个二维数组g[i][j]表示ij字符对有多少个如何维护这个数组呢，其实也很简单，遍历s每个字符c，同时开一个数组储存26个字符对于字符c，先遍历26个字符y，将g[y][c]加上y的个数，结束后再将c的数量加一
16、JavaEE核心技术-EL与 JSTL 跟着汪老师学编程 java-ee java
EL与JSTL实践一.EL（ExpressionLanguage）EL（表达式语言）是JSP2.0中引入的一种简单的脚本语言，用于在JSP页面中简化数据的访问和显示。它通过一种类似于JavaScript的语法，允许开发者在JSP页面中直接访问JavaBean的属性、集合、甚至是Java类的静态字段和方法。1、EL的基本语法EL表达式的语法格式为${}，例如：${requestScope.userN
OTSU算法（大津算法）天行者@ 算法 opencv 人工智能二值化
Otsu算法（大津算法）是一种经典的图像二值化方法，其核心是通过最大化类间方差自动确定全局阈值。以下是其具体工作原理和步骤：1.基本思想假设图像由前景（目标）和背景两部分组成，且两者的灰度分布存在明显差异（直方图呈现双峰）。Otsu算法通过寻找一个阈值，使得前景与背景之间的类间方差最大，从而将图像分割为二值图。2.数学推导（1）计算灰度直方图统计图像中每个灰度值的像素个数，得到直方图h[i]（i为
OnionArch：构建高效.NET Core应用的洋葱架构模板樊慈宜Diane
OnionArch：构建高效.NETCore应用的洋葱架构模板项目地址:https://gitcode.com/gh_mirrors/on/OnionArch项目介绍OnionArch是一个基于.NETCore的演示应用程序，采用了经典的洋葱架构（OnionArchitecture）。洋葱架构是一种分层架构模式，通过将核心业务逻辑与外部依赖（如数据库、UI等）分离，使得应用程序更加模块化、可维护和
国产 DeepSeek V3 被秒成“前浪“？谷歌开放最强 Gemini 2.0 全家桶：速度快60倍，上下文还长16倍！ Bryan Ding 人工智能深度学习
谷歌向所有人发布了Gemini2.0——迄今为止谷歌“功能最强大”的人工智能模型套件。1谷歌Gemini2.0向所有人开放去年12月，谷歌发布Gemini2.0Flash的实验版本，正式开启了代理型AI的新时代。Gemini2.0Flash是谷歌为开发者群体打造的高效主力模型，具有低延迟、高性能等优势。今年早些时候，谷歌在GoogleAIStudio中更新了2.0FlashThinkingExpe
嵌入式面试真题——上半部与下半部 70000cc 嵌入式面试真题面试单片机 linux c语言嵌入式硬件
软中断运行在中断上下文，它是静态分配的，内核编译时就已经确定，不能动态注册或删除。这限制了它们的灵活性，但提高了性能。软中断可以在多个CPU上并行运行，包括同一种类型的软中断，所以需要处理好同步问题，比如使用自旋锁。不过，软中断的代码必须是可以重入的，这增加了实现的复杂性。常见的应用例子是网络和块设备的数据处理。Tasklet也是在中断上下文中运行，它是在软中断的基础上构建的。比如，tasklet
IDEA下载依赖慢最懒的菜鸟 intellij-idea java
因为是境外所以慢，像kafka依赖这些等半天有时还出错，怎么决绝呢？切换阿里云镜像源即可首先找到settings.xml文件，位置一般在于C:\Users\你的用户名\.m2\settings.xmalimavenaliyunmavenhttps://maven.aliyun.com/repository/publiccentral找不到settings.xml文件打开idea，到项目中pom.x
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
让 Deepseek 写一个计算器（网页） —Qeyser Html JavaScript 前端 javascript Deepseek ai chatgpt
完整代码简单计算器body{font-family:Arial,sans-serif;display:flex;justify-content:center;align-items:center;height:100vh;background-color:#f4f4f4;}.calculator{background-color:#fff;padding:20px;border-radius:10
Git的详细使用方法 QMT量化交易 Python git
Git是一个分布式版本控制系统，用于跟踪和管理代码的变更。以下是Git的详细使用方法：1.安装GitWindows：从Git官网下载安装包。Linux（Ubuntu/Debian）sudoaptinstallgitmacOS：使用Homebrew。brewinstallgit验证安装git--version2.配置用户信息首次使用首次使用时，Git前需配置全局用户名和邮箱：gitconfig--g
ArkTs进阶万事顺心开发语言鸿蒙 typescript
字符串加号两边只要有字符串，就是拼接的作用。模版字符串（`xxx`）主要用于拼接多个变量的字符串拼接letname:string='Tom'console.log(`姓名：${name}`)类型转换1.字符串转数字Number():字符串直接转数字，转换失败返回NaN(字符串中包含非数字)（常用）parseInt():去掉小数部分转数字（取整），转换失败返回NaNparseFloat():保留小数
CESM1.2.1移植使用说明 ༊.枕星＇听光.ঌ 人工智能 linux
文章目录概述环境配置cesm1_2_1配置部分环境软件压缩包改变CLM陆面模式结果文件的输出变量、特征值及频率小结概述记录用户如何在Linux系统上移植CESM1.2.1模型，并且使用CLM4.5模式创建并单点模拟算例I_2000_CLM45。环境配置1.更新系统软件源2.更新系统安装软件安装git、make、python等。3.安装MPI(openmpi4.1.5)//下载并解压进入文件夹wge
PyTorch 中的维度操作详解萝卜小白 pytorch 人工智能 python
在PyTorch中，维度（dimension）是描述张量形状的一种方式。维度操作是PyTorch中非常重要的功能，常用于调整张量的形状以适配各种计算需求。以下是常见的维度操作及其示例。1.维度的概念回顾一个二维张量（矩阵）的形状是(行数,列数)。一个三维张量的形状是(深度,行数,列数)。维度的索引从0开始，最外层是axis=0，向内依次递增。2.维度的操作(1)求和（Sum）sum(dim)的作用
图像拼接-UDIS详细推导和精读Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images cccc来财算法计算机视觉深度学习
无监督粗对齐1.基于消融的策略主要是为了找到重叠区，去除无效区2.拼接域的TransformerLayer无监督图像重建1.低分辨率变形单应性变换仅能表示同一深度的空间变换，在实际的图像拼接任务中，由于输入图像的多样性和复杂性，经过第一阶段的粗对齐后，图像往往无法完全对齐。为了让网络能够感知到这些错位区域，特别是在高分辨率和大视差的情况下，设计了低分辨率变形分支，先在低分辨率下对图像进行处理和学习
Linux下共享内存和命名管道的使用誓约酱 Linux应用 linux 服务器 c++算法
文章目录Linux共享内存：完整代码展示与剖析共享内存：原理、接口与应用实践引言一、共享内存核心原理⚙️1.1共享内存的特点1.2生命周期管理⏳二、关键系统接口解析2.1生成唯一标识Key2.2创建/获取共享内存️2.3内存挂接与去关联2.4控制操作完整代码展示1.公用头文件`common.hpp`2.客户端代码`client.cc`3.服务端代码`server.cc`编译与运行编译命令运行步骤▶
torch.logical_and()方法 CodeWang_NC pytorch 深度学习 python
torch.logical_and()计算给定输入张量的元素逻辑AND。零被视为False，非零被视为True官方文档说明:https://pytorch.org/docs/stable/generated/torch.logical_and.html#torch.logical_andtorch.logical_and(input，other，*，out=None）→返回张量input（张量）–
解决Windows平台下 Visual Studio 中文显示乱码问题人生三渡 Visual Studio visual studio 代码规范预编码
目录常用编码格式介绍中文乱码的原因中文乱码的解决方式下载VisualStudio的扩展插件验证是否乱码问题是否解决常用编码格式介绍我们一般常用的就以下几种编码格式：GBK，UTF-8以及Unicode等。GBK：是一种汉字编码规范，它扩展了GB2312编码标准，增加了更多的汉字和符号。GBK详解UTF-8：是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符，而
QT基础 QPropertyAnimation简单学习路奇怪 QT基础 qt 学习
目录1.简单介绍2.使用步骤3.部分代码示例4.多项说明5.信号反馈6.自定义属性1.定义自定义属性2.使用QPropertyAnimation动画化自定义属性3.连接信号和槽4.注意事项7.更多高级示例1.简单介绍QPropertyAnimation是Qt中的一个类，用于实现属性动画效果。它通过改变对象的属性值来创建动画效果，可以实现平移、旋转、缩放等动画效果。QPropertyAnimatio
springboot kafka spring boot搭建单机集群集成入门木秀林环境配置 kafka spring boot docker
搭建kafka(单机版)使用虚拟机+docker参考https://blog.csdn.net/qq_35394891/article/details/84349955https://www.cnblogs.com/xiaohanlin/p/10078865.html拉取镜像(kafka依赖zookeeper,所有两个都要)dockerpullwurstmeister/zookeeperdocke
vs2019 Qt C++中调用python代码路奇怪 Visual Studio qt c++
目录1.添加依赖库，.lib，include2.修改python.h文件3.环境搭建好了下面是测试代码部分4.如果按照面上走可能会出现的问题：5.Qt+vs+python6.说一下这里调py的主要步骤借鉴几位大佬（吐槽一下各种坑啊）混合编程之——C++调用python2.7&python3.5-CSDN博客c++调用python(复杂版)_c++调用python复杂库-CSDN博客环境配置：1.添
python 基于混合式推荐算法的学术论文投稿系统 mosquito_lover1 python 知识图谱
基于混合式推荐算法的学术论文投稿系统是一个结合多种推荐技术（如基于内容的推荐、协同过滤、知识图谱等）来为研究者推荐合适期刊或会议投稿的系统。以下是实现该系统的关键步骤和Python代码示例。系统设计思路1.数据收集与预处理：-收集论文数据（标题、摘要、关键词、作者信息等）。-收集期刊/会议数据（领域、主题、影响因子、投稿要求等）。-对文本数据进行预处理（分词、去停用词、向量化等）。2.推荐算法设计
探索Hyperlane：用Rust打造轻量级、高性能的Web后端框架 LTPP rust 前端开发语言后端服务器算法
引言在Web开发的世界里，性能和效率是每个开发者追求的终极目标。如果你正在寻找一个兼具速度、安全性和开发便捷性的后端框架，那么基于Rust语言开发的Hyperlane绝对值得你的关注！Hyperlane是一个轻量级、高性能的HTTP服务器框架，专为现代Web服务设计，旨在让开发者以最小的代价构建出强大的网络应用。本文将带你深入了解Hyperlane的独特魅力，并通过实用示例和推广内容激发你立即尝试
Manus开源平替-开源通用智能体 galileo2016 人工智能
原文链接:https://i68.ltd/notes/posts/250306-opensource-agi-agent/OWL-比Manus还强的全能开源AgentOWL:OptimizedWorkforceLearningforGeneralMulti-AgentAssistanceinReal-WorldTaskAutomation，现实世界中执行自动化任务的通用多代理辅助优化学习框架项目仓
llm数据存储基础设施 galileo2016 人工智能
链接:https://i68.ltd/notes/posts/20250310-llm-db/infinity专为LLM应用程序构建的AI原生数据库，可提供对密集向量、稀疏向量、张量（多向量）和全文的快速混合搜索项目仓库:https://github.com/infiniflow/infinity关键特性令人难以置信的快在百万级矢量数据集上实现0.1毫秒查询延迟和15K+QPS在33M文档的全文搜
[Pytorch] Error:module ‘torch‘ has no attribute ‘logical_and‘ 江南蜡笔小新杂记 pytorch 深度学习神经网络
最近学习的模型用到了这个逻辑与的操作，Pytorch1.3.x报错。查阅官方文档，只有logical_not和logical_xor的实现。但在1.9的文档中有logical_and遂查阅相关更新，得知logical_and在1.5之后的新功能，pytorch更新到>=1.5即可解决问题。1.3.1搜索结果1.5.1搜索结果
CSS中粘性定位 ~废弃回忆 �༄ HTML css 前端 html CSS中粘性定位
1.如何设置为粘性定位?给元素设置posttion:sticky即可实现粘性定位.可以使用left,right,top,bottom四个属性调整位置,不过最常用的是top值.2.粘性定位的参考点在哪里?离他最近的一个拥有"滚动机制"的祖先元素,即便这个祖先不是最近的真实可滚动祖先.3.粘性定位元素的特点?不会脱离文档流,它是一种专门用于窗口滚动时的新的定位方式.最常用的值是top值;粘性定位和浮动
Orin NX 安装Jetpack 6.2 及部署pytorch tips MYVision_ MY视界 Python pytorch 人工智能 python
刷机tips:刷完系统之后，如果需要安装其它软件，这个时候不需要跳线，然后输入真实的IP，确保你的x86ubuntu能ping通OrinNX.其它安装环境时遇到的问题如下：1.GPUenable=False-installtorch-2.3.0-cp310-cp310-linux_aarch64.whl2.ImportError:/home/platform/miniconda3/envs/cel
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

《从零开始学Scrapy网络爬虫》之网络爬虫基础（HTTP基本原理）1

HTTP基本原理

URL

HTTP和HTTPS协议

​​​​​​​HTTP请求（Request）

​​​​​​​​​​​​​​HTTP响应（Response）

你可能感兴趣的:(《从零开始学Scrapy网络爬虫》之网络爬虫基础（HTTP基本原理）1)

HTTP请求（Request）

HTTP响应（Response）