仲君Johnny

Python爬虫的基本原理

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。

爬虫概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序，下面概要介绍一下。

1. 获取网页

爬虫首先要做的工作就是获取网页，这里就是获取网页的源代码。源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息了。

前面讲了请求和响应的概念，向网站的服务器发送一个请求，返回的响应体便是网页源代码。所以，最关键的部分就是构造一个请求并发送给服务器，然后接收到响应并将其解析出来，那么这个流程怎样实现呢？总不能手工去截取网页源码吧？

不用担心，Python 提供了许多库来帮助我们实现这个操作，如 urllib、requests 等。我们可以用这些库来帮助我们实现 HTTP 请求操作，请求和响应都可以用类库提供的数据结构来表示，得到响应之后只需要解析数据结构中的 Body 部分即可，即得到网页的源代码，这样我们可以用程序来实现获取网页的过程了。

2. 提取信息

获取网页源代码后，接下来就是分析网页源代码，从中提取我们想要的数据。首先，最通用的方法便是采用正则表达式提取，这是一个万能的方法，但是在构造正则表达式时比较复杂且容易出错。

另外，由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库，如 Beautiful Soup、pyquery、lxml 等。使用这些库，我们可以高效快速地从中提取网页信息，如节点的属性、文本值等。

提取信息是爬虫非常重要的部分，它可以使杂乱的数据变得条理清晰，以便我们后续处理和分析数据。

3. 保存数据

提取信息后，我们一般会将提取到的数据保存到某处以便后续使用。这里保存形式有多种多样，如可以简单保存为 TXT 文本或 JSON 文本，也可以保存到数据库，如 MySQL 和 MongoDB 等，也可保存至远程服务器，如借助 SFTP 进行操作等。

4. 自动化程序

说到自动化程序，意思是说爬虫可以代替人来完成这些操作。首先，我们手工当然可以提取这些信息，但是当量特别大或者想快速获取大量数据的话，肯定还是要借助程序。爬虫就是代替我们来完成这份爬取工作的自动化程序，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行。

能抓怎样的数据

在网页中我们能看到各种各样的信息，最常见的便是常规网页，它们对应着 HTML 代码，而最常抓取的便是 HTML 源代码。

另外，可能有些网页返回的不是 HTML 代码，而是一个 JSON 字符串（其中 API 接口大多采用这样的形式），这种格式的数据方便传输和解析，它们同样可以抓取，而且数据提取更加方便。

此外，我们还可以看到各种二进制数据，如图片、视频和音频等。利用爬虫，我们可以将这些二进制数据抓取下来，然后保存成对应的文件名。

另外，还可以看到各种扩展名的文件，如 CSS、JavaScript 和配置文件等，这些其实也是最普通的文件，只要在浏览器里面可以访问到，就可以将其抓取下来。

上述内容其实都对应各自的 URL，是基于 HTTP 或 HTTPS 协议的，只要是这种数据，爬虫都可以抓取。

JavaScript 渲染页面

有时候，我们在用 urllib 或 requests 抓取网页时，得到的源代码实际和浏览器中看到的不一样。

这是一个非常常见的问题。现在网页越来越多地采用 Ajax、前端模块化工具来构建，整个网页可能都是由 JavaScript 渲染出来的，也就是说原始的 HTML 代码就是一个空壳，例如：





This is a Demo

body 节点里面只有一个 id 为 container 的节点，但是需要注意在 body 节点后引入了 app.js，它便负责整个网站的渲染。

在浏览器中打开这个页面时，首先会加载这个 HTML 内容，接着浏览器会发现其中引入了一个 app.js 文件，然后便会接着去请求这个文件，获取到该文件后，便会执行其中的 JavaScript 代码，而 JavaScript 则会改变 HTML 中的节点，向其添加内容，最后得到完整的页面。

但是在用 urllib 或 requests 等库请求当前页面时，我们得到的只是这个 HTML 代码，它不会帮助我们去继续加载这个 JavaScript 文件，这样也就看不到浏览器中的内容了。

这也解释了为什么有时我们得到的源代码和浏览器中看到的不一样。

因此，使用基本 HTTP 请求库得到的源代码可能跟浏览器中的页面源代码不太一样。对于这样的情况，我们可以分析其后台 Ajax 接口，也可使用 Selenium、Splash 这样的库来实现模拟 JavaScript 渲染。

会话和 Cookies

在浏览网站的过程中，我们经常会遇到需要登录的情况，有些页面只有登录之后才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。还有一些网站，在打开浏览器时就自动登录了，而且很长时间都不会失效，这种情况又是为什么？其实这里面涉及会话（Session）和 Cookies 的相关知识，本节就来揭开它们的神秘面纱。

静态网页和动态网页

在开始之前，我们需要先了解一下静态网页和动态网页的概念。这里还是前面的示例代码，内容如下：





This is a Demo




Hello World
Hello, this is a paragraph.

这是最基本的 HTML 代码，我们将其保存为一个 .html 文件，然后把它放在某台具有固定公网 IP 的主机上，主机上装上 Apache 或 Nginx 等服务器，这样这台主机就可以作为服务器了，其他人便可以通过访问服务器看到这个页面，这就搭建了一个最简单的网站。

这种网页的内容是 HTML 代码编写的，文字、图片等内容均通过写好的 HTML 代码来指定，这种页面叫作静态网页。它加载速度快，编写简单，但是存在很大的缺陷，如可维护性差，不能根据 URL 灵活多变地显示内容等。例如，我们想要给这个网页的 URL 传入一个 name 参数，让其在网页中显示出来，是无法做到的。

因此，动态网页应运而生，它可以动态解析 URL 中参数的变化，关联数据库并动态呈现不同的页面内容，非常灵活多变。我们现在遇到的大多数网站都是动态网站，它们不再是一个简单的 HTML，而是可能由 JSP、PHP、Python 等语言编写的，其功能比静态网页强大和丰富太多了。

此外，动态网站还可以实现用户登录和注册的功能。再回到开头提到的问题，很多页面是需要登录之后才可以查看的。按照一般的逻辑来说，输入用户名和密码登录之后，肯定是拿到了一种类似凭证的东西，有了它，我们才能保持登录状态，才能访问登录之后才能看到的页面。

那么，这种神秘的凭证到底是什么呢？其实它就是会话和 Cookies 共同产生的结果，下面我们来一探究竟。

无状态 HTTP

在了解会话和 Cookies 之前，我们还需要了解 HTTP 的一个特点，叫作无状态。

HTTP 的无状态是指 HTTP 协议对事务处理是没有记忆能力的，也就是说服务器不知道客户端是什么状态。当我们向服务器发送请求后，服务器解析此请求，然后返回对应的响应，服务器负责完成这个过程，而且这个过程是完全独立的，服务器不会记录前后状态的变化，也就是缺少状态记录。这意味着如果后续需要处理前面的信息，则必须重传，这导致需要额外传递一些前面的重复请求，才能获取后续响应，然而这种效果显然不是我们想要的。为了保持前后状态，我们肯定不能将前面的请求全部重传一次，这太浪费资源了，对于这种需要用户登录的页面来说，更是棘手。

这时两个用于保持 HTTP 连接状态的技术就出现了，它们分别是会话和 Cookies。会话在服务端，也就是网站的服务器，用来保存用户的会话信息；Cookies 在客户端，也可以理解为浏览器端，有了 Cookies，浏览器在下次访问网页时会自动附带上它发送给服务器，服务器通过识别 Cookies 并鉴定出是哪个用户，然后再判断用户是否是登录状态，然后返回对应的响应。

我们可以理解为 Cookies 里面保存了登录的凭证，有了它，只需要在下次请求携带 Cookies 发送请求而不必重新输入用户名、密码等信息重新登录了。

因此在爬虫中，有时候处理需要登录才能访问的页面时，我们一般会直接将登录成功后获取的 Cookies 放在请求头里面直接请求，而不必重新模拟登录。

好了，了解会话和 Cookies 的概念之后，我们在来详细剖析它们的原理。

会话

会话，其本来的含义是指有始有终的一系列动作 / 消息。比如，打电话时，从拿起电话拨号到挂断电话这中间的一系列过程可以称为一个会话。

而在 Web 中，会话对象用来存储特定用户会话所需的属性及配置信息。这样，当用户在应用程序的 Web 页之间跳转时，存储在会话对象中的变量将不会丢失，而是在整个用户会话中一直存在下去。当用户请求来自应用程序的 Web 页时，如果该用户还没有会话，则 Web 服务器将自动创建一个会话对象。当会话过期或被放弃后，服务器将终止该会话。

Cookies

Cookies 指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。

会话维持

那么，我们怎样利用 Cookies 保持状态呢？当客户端第一次请求服务器时，服务器会返回一个响应头中带有 Set-Cookie 字段的响应给客户端，用来标记是哪一个用户，客户端浏览器会把 Cookies 保存起来。当浏览器下一次再请求该网站时，浏览器会把此 Cookies 放到请求头一起提交给服务器，Cookies 携带了会话 ID 信息，服务器检查该 Cookies 即可找到对应的会话是什么，然后再判断会话来以此来辨认用户状态。

在成功登录某个网站时，服务器会告诉客户端设置哪些 Cookies 信息，在后续访问页面时客户端会把 Cookies 发送给服务器，服务器再找到对应的会话加以判断。如果会话中的某些设置登录状态的变量是有效的，那就证明用户处于登录状态，此时返回登录之后才可以查看的网页内容，浏览器再进行解析便可以看到了。

反之，如果传给服务器的 Cookies 是无效的，或者会话已经过期了，我们将不能继续访问页面，此时可能会收到错误的响应或者跳转到登录页面重新登录。

所以，Cookies 和会话需要配合，一个处于客户端，一个处于服务端，二者共同协作，就实现了登录会话控制。

属性结构

接下来，我们来看看 Cookies 都有哪些内容。这里以知乎为例，在浏览器开发者工具中打开 Application 选项卡，然后在左侧会有一个 Storage 部分，最后一项即为 Cookies，将其点开，如图所示，这些就是 Cookies。

Cookies 列表

可以看到，这里有很多条目，其中每个条目可以称为 Cookie。它有如下几个属性。

Name，即该 Cookie 的名称。Cookie 一旦创建，名称便不可更改
Value，即该 Cookie 的值。如果值为 Unicode 字符，需要为字符编码。如果值为二进制数据，则需要使用 BASE64 编码。
Max Age，即该 Cookie 失效的时间，单位秒，也常和 Expires 一起使用，通过它可以计算出其有效时间。Max Age 如果为正数，则该 Cookie 在 Max Age 秒之后失效。如果为负数，则关闭浏览器时 Cookie 即失效，浏览器也不会以任何形式保存该 Cookie。
Path，即该 Cookie 的使用路径。如果设置为 /path/，则只有路径为 /path/ 的页面可以访问该 Cookie。如果设置为 /，则本域名下的所有页面都可以访问该 Cookie。
Domain，即可以访问该 Cookie 的域名。例如如果设置为 .zhihu.com，则所有以 zhihu.com，结尾的域名都可以访问该 Cookie。
Size 字段，即此 Cookie 的大小。
Http 字段，即 Cookie 的 httponly 属性。若此属性为 true，则只有在 HTTP Headers 中会带有此 Cookie 的信息，而不能通过 document.cookie 来访问此 Cookie。
Secure，即该 Cookie 是否仅被使用安全协议传输。安全协议。安全协议有 HTTPS，SSL 等，在网络上传输数据之前先将数据加密。默认为 false。

会话 Cookie 和持久 Cookie

从表面意思来说，会话 Cookie 就是把 Cookie 放在浏览器内存里，浏览器在关闭之后该 Cookie 即失效；持久 Cookie 则会保存到客户端的硬盘中，下次还可以继续使用，用于长久保持用户登录状态。

其实严格来说，没有会话 Cookie 和持久 Cookie 之分，只是由 Cookie 的 Max Age 或 Expires 字段决定了过期的时间。

因此，一些持久化登录的网站其实就是把 Cookie 的有效时间和会话有效期设置得比较长，下次我们再访问页面时仍然携带之前的 Cookie，就可以直接保持登录状态。

常见误区

在谈论会话机制的时候，常常听到这样一种误解 ——“只要关闭浏览器，会话就消失了”。可以想象一下会员卡的例子，除非顾客主动对店家提出销卡，否则店家绝对不会轻易删除顾客的资料。对会话来说，也是一样，除非程序通知服务器删除一个会话，否则服务器会一直保留。比如，程序一般都是在我们做注销操作时才去删除会话。

但是当我们关闭浏览器时，浏览器不会主动在关闭之前通知服务器它将要关闭，所以服务器根本不会有机会知道浏览器已经关闭。之所以会有这种错觉，是因为大部分会话机制都使用会话 Cookie 来保存会话 ID 信息，而关闭浏览器后 Cookies 就消失了，再次连接服务器时，也就无法找到原来的会话了。如果服务器设置的 Cookies 保存到硬盘上，或者使用某种手段改写浏览器发出的 HTTP 请求头，把原来的 Cookies 发送给服务器，则再次打开浏览器，仍然能够找到原来的会话 ID，依旧还是可以保持登录状态的。

而且恰恰是由于关闭浏览器不会导致会话被删除，这就需要服务器为会话设置一个失效时间，当距离客户端上一次使用会话的时间超过这个失效时间时，服务器就可以认为客户端已经停止了活动，才会把会话删除以节省存储空间。

由于涉及到一些专业名词知识，本节的部分内容参考来源如下：

Session 百度百科：session（计算机术语）_百度百科
Cookie 百度百科：cookie（储存在用户本地终端上的数据）_百度百科
HTTP Cookie 维基百科：https://en.wikipedia.org/wiki/HTTP_cookie
Session 和几种状态保持方案理解：华体会体育娱乐APPv1.3.9_码迷

集合的奇妙世界：Python集合的经典、避坑与实战李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享编程技巧案例学习干货满满
集合的奇妙世界：Python集合的经典、避坑与实战内容简介本系列文章是为Python3学习者精心设计的一套全面、实用的学习指南，旨在帮助读者从基础入门到项目实战，全面提升编程能力。文章结构由5个版块组成，内容层层递进，逻辑清晰。基础速通：n个浓缩提炼的核心知识点，夯实编程基础；经典范例：10个贴近实际的应用场景，深入理解Python3的编程技巧和应用方法；避坑宝典：10个典型错误解析，提供解决方案
基于Micropython利用ESP32-C3墨水屏电子时钟方法嵌入式开发星球单片机项目实战操作之优秀驱动开发
本篇笔记介绍一下我们设计制作的墨水屏时钟。1、所需硬件1）合宙的ESP32-C3：2）电子价签拆出来的2.9寸墨水屏：——电子价签型号为：Stellar-L，墨水屏型号为：E029A01。3）自己设计的一块墨水屏驱动板：——这块PCB比较复杂了，贴片电容、电阻、二极管有20多个，再加上贴片AHT20和24P的FPC，焊接难度有点大࿰
【雕爷学编程】MicroPython手册之 ESP32-S3-N8R8 使用参考驴友花雕 1024程序员节嵌入式硬件单片机 ESP32-S3 python ESP32-S3-N8R8 MicroPython
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
nodejs原生http简单搭建web服务器 wcgdecsdn 服务器 node.js http
原生搭建主要作为了解，真正搭建可以使用一些封装的模块express等简单搭建consthttp=require('http')constserve=http.createServer()serve.on('request',(request,response)=>{//防止乱码()response.setHeader('Content-Type','text/html;charset=utf-8'
Python扫盲之运行程序的两种模式盘龙七片 PYTHON
Python有两种运行模式，分别为交互模式和批处理模式，批处理模式简单而言就是类似于C和C++中的模式，程序完全编写完成后再点击运行；而交互模式就类似于一问一答的状态，各有千秋，并不能说交互模式鸡肋或者批处理模式繁琐，本篇博客依旧属于扫盲类型，主要说几种编译器下批处理模式和交互模式的使用，算小功能吧，大波图片即将来袭一、Python的IDLE1、交互模式直接选择IDLE打开即可如图进入交互模式交互
jwt权限验证原理深圳卢先生数据安全开发语言 java
1.JWT，全称是JsonWebToken，是一种JSON风格的轻量级的授权和身份认证规范，可实现无状态、分布式的Web应用授权！2.JWT由三部分组成：头部（Header）:通常包含令牌的类型（即JWT）和加密算法（如HMACSHA256或RSA）。例如：{"alg":"HS256","typ":"JWT"}载荷（Payload）:包含要传递的声明（Claims）。声明总共可以包括如下七项，但是
(附论文)JavaWeb基于ssm的毕业设计管理系统(213) KK ??? 课程设计开发语言 java 学习宠物
获取源码请滑到最底部访问官网项目配套调试视频和相对应的软件安装包1、项目描述本文以Java为开发技术，实现了一个毕业设计管理系统。毕业设计管理系统的主要实现功能包括：管理员：首页、个人中心、个人信息、学生管理、教师管理、文件模板管理、论坛管理、系统管理、在线选题管理、开题报告管理、中期报告管理、毕业论文管理等等。，教师管理：个人中心、个人信息、文件模板管理、在线选题管理、老师答疑管理、开题报告管理
原生 Node 开发 Web 服务器 yqcoder 前端服务器运维 javascript node.js
一、创建基本的HTTP服务器使用http模块创建Web服务器consthttp=require("http");//创建服务器constserver=http.createServer((req,res)=>{ //设置响应头 res.writeHead(200,{"Content-Type":"text/plain"}); //发送响应内容 res.end("Hello,World!");});
Python之读取文件指定字符串 Hi Man Python python
Python之读取文件指定字符串打开文件pmcdr，按行读取，取出以changeset：开头的行并保存到文本文件out.txt中importref=open('out.txt','w')withopen('pmcdr','rU')asfile_object:forlineinfile_object
web api 与html 部署,详解.net core webapi 前后端开发分离后的配置和部署万小柯要努力学习 web api 与html 部署
背景：现在越来越多的企业都采用了在开发上前后端分离，前后端开发上的分离有很多种，那么今天，我来分享一下项目中得的前后端分离。B/SSaas项目：(这个项目可以理解成个人中心，当然不止这么点功能)前端：node.js+vue后端：.netcorewebapi前端安装node.js跟创建vue项目这些不是这篇文章的重点，重点在于项目完成后的部署。.netcorewebapi创建后，默认就创建了一个ww
[Linux]Docker快速上手操作教程 wingaso 经验总结运维 linux docker 运维
前言以下命令并不是docker的所有，仅涉及日常使用时最最常用的命令。目的之一时给入门的朋友熟悉学习，其二时我自己偶尔使用时备忘。一、概念简单介绍下docker的相关概念：镜像：Docker镜像是一个轻量级、可执行的独立软件包，可以看作是一个构建容器的基础层。容器：Docker容器是镜像的运行实例，容器之间是隔离的。仓库：Docker仓库是用于存储和分发Docker镜像的地方如果你是初次学习以上概
linux指定脚本运行的python版本白蛇仙人笔记
1.使用which命令获得自己指定的python版本路径whichpython2.7输出：/usr/bin/python2.7whichpython3.4输出：/usr/bin/python3.42.将下列代码放入到脚本文件的开头#!/usr/bin/python2.73.就这样，就可以在其他IDE中运行该脚本了，此时python版本就是指定的版本
python 判断复杂包含 AI算法网奇 python基础 python
目录python判断复杂包含a和b都是拍好序的：python判断复杂包含a=[10,13,15]b=[[9,11],[11,13],[13,16]]b的子项是区间，返回b中子区间包含a其中元素的子项if__name__=='__main__':a=[10,11,15]b=[[9,11],[11,13],[13,16]]#筛选出包含a中任意元素的子区间result=[intervalforinter
跨平台物联网漏洞挖掘算法评估框架设计与实现申报书上 XLYcmy 漏洞挖掘网络安全漏洞挖掘物联网项目申报跨架构静态分析固件
本研究的研究目的主要有以下两个：1、基于此领域的相关方法，通过实验找出各个架构的最优方法2、通过设计实验，比较跨架构解决方案和各架构最优方法组合解决方案在函数识别、漏洞挖掘上的优劣性一、项目技术路线（1）构建统一规范全面的多架构物联网设备二进制程序数据集（2）针对跨架构下的二进制程序，利用逆向工具提取为图、抽象语法树等中间语言，对于不同中间语言，选择合适的深度学习方法提取出中间语言数据结构的特征，
Python之解析 Windows 下的 .ini 文件 Hi Man Python python windows 开发语言
在Python中解析Windows下的.ini文件，可以使用内置的configparser模块。configparser专门用于处理.ini格式的配置文件，支持分节、键值对、注释等特性。以下是一个完整的示例，展示如何解析和操作.ini文件。1..ini文件示例假设你有一个名为config.ini的文件，内容如下：[DEFAULT]sourcepatch=lijiedantargetpath=/ho
Python GIL（全局解释器锁）深度解析及其对多线程程序的影响清水白石008 python Python题库开源软件 python java 数据库
PythonGIL（全局解释器锁）深度解析及其对多线程程序的影响在Python编程世界中，GIL（全局解释器锁）是一个不可忽视的概念，尤其在涉及多线程编程时。GIL的存在对Python的多线程性能有着深远的影响，了解其工作原理和影响是写出高效Python多线程代码的关键。本文将深入剖析GIL的工作原理，探讨其对多线程程序的影响，并给出实用的编程建议。一、GIL是什么？GIL，全称GlobalInt
缓存的几种不同的实现方法？ ducode
一、1、文件缓存所谓文件缓存，就是根据逻辑判断，一段时间内某个asp的特定执行将不会很大的变动，因因而将内容以静态html的形式存放，然后以web的重定向技术让客户端访问静态文件，以达到减少CPU、数据库资源等的需求。这样的应用很多，譬如很多论坛就是在回复帖子的时候将整个帖子重新生成一个静态文件，然后进行重定向的，例如DONEWS,COM的论坛。该成静态还有一个副作用（好处）可以很容易被googl
Python | GIL锁 | 5分钟掌握【全局解释器锁】(GIL) 比特本特 Python -基础 python GIL 全局解释器锁多线程多进程
文章目录什么是GIL？为什么会有GIL？GIL是Python的语言特性吗？没有GIL会发生什么？举例有GIL为什么还需要线程锁？附注什么是GIL？GIL（GlobalInterpreterLock）全局解释器锁；GIL(GlobalInterpreterLock)是Python部分解释器的一个重要特性。GIL是一个全局锁，它限制了【一个进程】一次只能有【一个线程】在运行Python解释器中的字节码
类一定有基类?编程语言的基类型？基类？明明是一个通用指针类型, 为什么运行期可以找到正确的类对象?多继承的困扰？程序员小迷编程语言小话c++小话ios java jvm 开发语言 c语言 c++ios objective-c
类一定有基类?不是所有的牛奶都叫特仑苏，也不是所有的类都有基类。C++默认情况下不限定类一定有一个原始基类，C++这种处于C和纯面向对象的设计使得它格外有选择权。对于Smalltalk/ObjC/Java/C#/Eiffel/Python默认一定有原始基类，即使语言允许不指定基类，编译器也会默认加上。例如Python中，定义一个空类，用内置函数dir查看它有哪些属性和方法。编程语言的基类型大多数面
Web前端最全Koa 基础篇（二）—— 路由与中间件(1)，前端组件化架构实践 2401_84447112 程序员前端中间件架构
最后如果你已经下定决心要转行做编程行业，在最开始的时候就要对自己的学习有一个基本的规划，还要对这个行业的技术需求有一个基本的了解。有一个已就业为目的的学习目标，然后为之努力，坚持到底。如果你有幸看到这篇文章，希望对你有所帮助，祝你转行成功。开源分享：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】基本使用router.get(“/”,asyncctx=>{ctx.body=“h
python实现excel的自动化 yymm120 python学习+数据分析
python实现excel的自动化需要使用到的包读取excel工作表中的行/列读取单元格读取(单元格对象,单元格数据类型,单元格数据)excel的写入创建excel,创建sheet,以及另存为设置字体样式'xlwt.XFStyle()'设置单元格宽度日期向单元格添加公式向单元格添加链接合并行与列,创建字体格式单元格添加边框和背景色需要使用到的包importxlrd#readimportxlwtim
javaweb调用pyhton face_recognition传参和参数的返回（包含第三方库） mrhao61 python
fromPILimportImageimportface_recognitionimportcv2importmatplotlib.pyplotaspltfilename="3.jpg"#将jpg文件加载到numpy数组中image=face_recognition.load_image_file(filename)#使用CNN模型#face_locations=face_recognition.
python添加请求头和请求体_HTTP 请求头与请求体 weixin_39999781 python添加请求头和请求体
HTTPRequestHTTP的请求报文分为三个部分请求行、请求头和请求体，格式如图：一个典型的请求消息头域，如下所示：POST/GEThttp://download.microtool.de:80/somedata.exeHost:download.microtool.deAccept:*/*Pragma:no-cacheCache-Control:no-cacheReferer:http://
excel python脚本_Python自动化处理Excel脚本 Yu-Demon32~ excel python脚本
经常看到身边的同事(包括自己)在弄Excel表格的时候，各种复制粘贴非常麻烦，尤其是每天做一样的工作，重复枯燥费时间，于是打算写个小脚本自动更新Excel表格。image.png我们以这个表格为例，给大家看下表格长啥样儿，我们要更新的列是日期-字段9里面的数据，其中最后两列是套公式自动计算的。我们这里主要使用pandas和openpyxl这两个库进行操作。思路首先表格中肯定会存在制作好的公式，只要
[JavaWeb]搜索表单区域亓才孓 css css3 前端 java web
一.注意事项设置外边距:margin:(参数可省去部分)上下左右二.源代码Tlias智能学习辅助系统/*导航栏样式*/.navbar{background-color:#b5b3b3;/*灰色背景*/display:flex;/*flex弹性布局*/justify-content:space-between;/*左右对齐*/padding:10px;/*内边距*/align-items:cente
Python实现Excel自动化小肖学数据分析 Python python 自动化
个人网站文章首发于公众号：Excel是办公自动化的关键工具之一，用于数据存储、处理和分析。Python通过openpyxl库，提供了强大的Excel操作能力，让我们可以读取、写入、修改和创建复杂的Excel文件。安装openpyxl在开始之前，确保你已经安装了openpyxl库。如果还没有安装，可以使用以下命令：pip install openpyxl读取Excel文件假设我们有一个名为examp
w184校园网上店铺的设计与实现栗豆包 java spring boot 后端 java spring tomcat
作者简介：多年一线开发工作经验，原创团队，分享技术代码帮助学生学习，独立完成自己的网站项目。代码可以查看文章末尾⬇️联系方式获取，记得注明来意哦~赠送计算机毕业设计600个选题excel文件，帮助大学选题。赠送开题报告模板，帮助书写开题报告。作者完整代码目录供你选择：《Springboot网站项目》400套《ssm网站项目》800套《小程序项目》300套《App项目》500套《Python网站项目
编程语言中的常见Bug及解决方案李游Leo 前端 Python 编程语言 bug javascript php python go
在编程过程中，不同语言有其独特的特性和挑战，这也导致了各种常见Bug的出现。本文将总结几种主流编程语言中的常见Bug，包括JavaScript、Python、C/C++、Java和Go，并提供相应的解决方案和案例。一、JavaScript中小数相加精度不准确的Bug在JavaScript中，进行小数相加时，由于浮点数的精度问题，可能会导致结果不准确。例如：letadd1=0.1+0.2;conso
构建 Java Web 应用程序：实现简单的增删查改（Mysql） F2022697486 java 前端 mysql
简介本教程将指导您如何使用JavaServlet和JSP技术构建一个简单的Web应用程序。该应用程序将包括用户注册、登录、注销（删除用户信息）、修改密码以及根据性别查询用户信息等功能。我们将使用MySQL数据库来存储用户数据。环境准备JavaDevelopmentKit(JDK):安装JDK8或更高版本。IDE:推荐使用IntelliJIDEA或Eclipse。Servlet容器:如ApacheT
保障服务永不停歇：Nginx负载均衡中的健康检查与故障转移策略墨夶 Nginx学习资料1 nginx 负载均衡运维
在互联网的高速公路上，每一秒都可能产生数以亿计的数据交互。对于那些承载着关键业务的应用程序而言，确保服务的连续性和稳定性是至关重要的任务。而在这个过程中，Nginx作为一款高效能的Web服务器和反向代理工具，凭借其出色的负载均衡能力成为了许多企业的首选。今天，我们将深入探讨如何通过Nginx实现精准的健康检查和可靠的故障转移机制，为您的应用构建一个坚不可摧的服务架构。Nginx简介：高性能的Web
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，