sevieryang

爬虫笔记整理1 - 基础原理总结

2.0 网络框架

to be continued

2.1 HTTP基本原理

1 简介

超文本传输协议(HTTP，HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML©页面的方法。
HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。在2015年已推出HTTP/2版本，并被主要的web浏览器和web服务容器支持。但目前使用最广泛的还是HTTP/1.1版本。
HTTP协议的主要特点可概括如下：
1)支持客户/服务器模式(request/response模式)。
2)简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、POST、HEAD、OPTIONS。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。
3)灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。
4)无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。
5)无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

2 URL

URL(Uniform Resource Locator,统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

HTTP 是一个基于请求与响应模式的、无状态的、应用层的协议，常基于TCP的连接方式，HTTP1.1版本中给出一种持续连接的机制，绝大多数的Web开发，都是构建在HTTP协议之上的Web应用。

HTTP URL (URL是一种特殊类型的URI，包含了用于查找某个资源的足够的信息)的
格式如下：
http://host[":“port][abs_path]?参数A=value1&参数2=value2
或
https://host[”:"port][abs_path] ?参数A=value1&参数2=value2
http表示要通过HTTP协议来定位网络资源；host表示合法的Internet主机域名或者IP地址；port指定一个端口号，为空则使用缺省端口80(https是443)；abs_path指定请求资源的URI；如果URL中没有给出abs_path，那么当它作为请求URI时，必须以“/”的形式给出，通常这个工作浏览器自动帮我们完成。
eg:
a)输入：www.guet.edu.cn
浏览器自动转换成：http://www.guet.edu.cn/
b)http:192.168.0.116:8080/index.jsp

3 http请求

http请求由三部分组成，分别是：请求行、消息报头、请求正文

请求行以一个方法符号开头，以空格分开，后面跟着请求的URI和协议的版本，格式如下：Method Request-URI HTTP-Version CRLF
其中 Method表示请求方法；Request-URI是一个统一资源标识符；HTTP-Version表示请求的HTTP协议版本；CRLF表示回车和换行（除了作为结尾的CRLF外，不允许出现单独的CR或LF字符）。

请求方法（所有方法全为大写）有多种，各个方法的解释如下：

关于HTTP请求GET和POST的区别
(1) 提交形式：
GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连，如EditPosts.aspx?name=test1&id=123456.
POST方法是把提交的数据放在HTTP包的Body中.
(2) 传输数据的大小：
HTTP协议本身没有对传输的数据大小进行限制，HTTP协议规范也没有对URL长度进行限制。而在实际开发中存在的限制主要有：
GET: 特定浏览器和服务器对URL长度有限制，例如IE对URL长度的限制是2083字节(2K+35)。对于其他浏览器，如Netscape、FireFox等，理论上没有长度限制，其限制取决于操作系统的支持。
因此对于GET提交时，传输数据就会受到URL长度的限制。
POST:由于不是通过URL传值，理论上数据不受限。但实际各个WEB服务器会规定对post提交数据大小进行限制，Apache、IIS6都有各自的配置。
(3) 安全性：
POST的安全性要比GET的安全性高，具有真正的Security的含义。而且通过GET提交数据，用户名和密码将明文出现在URL上，因为登录页面有可能被浏览器缓存，其他用户浏览历史纪录就可以拿到账号和密码了。
请求头

4 http响应

在接收和解释请求消息后，服务器返回一个HTTP响应消息。
HTTP响应也是由三个部分组成，分别是：状态行、消息报头、响应正文

状态行格式如下：
HTTP-Version Status-Code Reason-Phrase CRLF
其中，HTTP-Version表示服务器HTTP协议的版本；Status-Code表示服务器发回的响应状态代码；Reason-Phrase表示状态代码的文本描述。

状态代码有三位数字组成，第一个数字定义了响应的类别，且有五种可能取值：
1xx：指示信息–表示请求已接收，继续处理
2xx：成功–表示请求已被成功接收、理解、接受
3xx：重定向–要完成请求必须进行更进一步的操作
4xx：客户端错误–请求有语法错误或请求无法实现
5xx：服务器端错误–服务器未能实现合法的请求
常见状态代码、状态描述、说明：
200 OK //客户端请求成功
400 Bad Request //客户端请求有语法错误，不能被服务器所理解
401 Unauthorized //请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden //服务器收到请求，但是拒绝提供服务
404 Not Found //请求资源不存在，eg：输入了错误的URL
500 Internal Server Error //服务器发生不可预期的错误
503 Server Unavailable //服务器当前不能处理客户端的请求，一段时间后可能恢复正常
eg：HTTP/1.1 200 OK (CRLF)
状态行格式如下：
HTTP-Version Status-Code Reason-Phrase CRLF
其中，HTTP-Version表示服务器HTTP协议的版本；Status-Code表示服务器发回的响应状态代码；Reason-Phrase表示状态代码的文本描述。

5 案例

利用python自带的库模拟http请求，为以后利用python做API测试做准备。只讲述模拟http的过程，具体到自己用的时候，要以自己的应用为准做出适当的调整。
http是一个包，里面含有多个模块：http.client，http.server，http.cookies，http.cookiejar。
客户端:
Get请求

import http.client
conn = http.client.HTTPSConnection("www.python.org")
conn.request("GET", "/")
r1 = conn.getresponse()
print(r1.status, r1.reason)
data1 = r1.read()  # This will return entire content.
# The following example demonstrates reading data in chunks.
conn.request("GET", "/")
r1 = conn.getresponse()
while not r1.isclosed():
    print(r1.read(200))  # 200 bytes

# Example of an invalid request
conn.request("GET", "/parrot.spam")
r2 = conn.getresponse()
print(r2.status, r2.reason)

data2 = r2.read()
conn.close()

Post请求

import http.client, urllib.parse
params = urllib.parse.urlencode({'@number': 12524, '@type': 'issue', '@action': 'show'})
headers = {"Content-type": "application/x-www-form-urlencoded",
            "Accept": "text/plain"}
conn = http.client.HTTPConnection("bugs.python.org")
conn.request("POST", "", params, headers)
response = conn.getresponse()
print(response.status, response.reason)

data = response.read()
print(data)
conn.close()

2.2 网页基础(HTML + CSS + JavaScript)

另辟博文分类

2.3 爬虫的基本原理

一、爬虫原理/基础/入门

1、什么是爬虫

请求网站，并提取数据的自动化程序

2、爬虫工作流程

 第一步：发起请求。一般是通过HTTP库，对目标站点进行请求。等同于自己打开浏览器，输入网址。
 第二步：获取响应内容（response）。如果请求的内容存在于服务器上，那么服务器会返回请求的内容，一般为：HTML，二进制文件（视频，音频），文档，Json字符串等。
 第三步：解析内容。对于用户而言，就是寻找自己需要的信息。对于Python爬虫而言，就是利用正则表达式或者其他库提取目标信息。
 第四步：保存数据。解析得到的数据可以多种形式，如文本，音频，视频保存在本地。

3、请求与响应

4、爬虫与反爬虫

二、开发工具

 Charles
 Chrome、firefox等浏览器
 Pycharm

三、 Python爬虫基础篇

1、 Urllib库使用详解与项目实战

 Urllib库的基本使用
 urllib.request 请求模块
 urllib.error 异常处理模块
 urllib.parse url 解析模块
 urllib.robotparser 解析robots.txt协议模块
 使用 urllib 抓取http://www.luoo.net 落网歌曲信息，并用正则表达式提取相关文本数据，保存成TXT文本文件

2、 Urllib3库的使用

 第三方库，最终也是使用python自带的http模块发送数据包给服务器
 requests使用了urllib3
 pip也使用了urllib3
 多次请求中可重复利用同一socket连接,应用了keepalive特性，减少TCP握手次数和慢启动次数
 支持File传输
 内置重定向和重试
 支持gzip和deflate解码
 线程安全
 支持代理

3、 Requests库安装使用与项目实战

to be continued

4、 Pyquery解析库详解与基本使用

to be continued

5、 BeautifulSoup解析库安装使用

to be continued

四、 Python爬虫进阶篇

破解反爬技术

1、 JS渲染与参数加密

to be continued

2、模拟浏览器

 Selenium（webdriver)
 Phantomjs

3、 Pyexecjs引擎解析JS

4、验证码识别

 图形验证码识别
 极验验证码识别
 点触验证码识别
 微博宫格验证码识别
 打码平台对接

5、 IP代理池实现

to be continued

6、 pyspider框架

to be continued

7、 APP的抓取

to be continued

8、 Scrapy框架

to be continued

9、分布式爬虫

to be continued

10、分布式爬虫部署

to be continued

笔记：

1、http的无连接&长连接

客户端每次请求都会新建一个连接，发送请求到服务器，服务器返回一个响应，确定客户端接收，服务器就会断开连接

优点：会释放 服务器的资源占用，节省服务器资源
缺点：每次请求都会建立新的连接，效率会比较低，频繁的建立连接会耽误时间

http1.1
进行了修改
Connection: keep-alive
当设置 request 的headers 中 connection 为  keep-alive 时，保持一个长连接(会有一个超时时间，很多都是30分钟)

2、http的无状态

服务器不记录客户端的任何信息，每次客户端发送请求时，服务器都当做是一个新的客户端

http1.1
在服务器中，引入一个 session 对象，保存当前连接的所有需要保存的信息
服务器通过 返回的响应中， 进行  Set-Cookie: session_id=142678abc245;

客户端接收到服务器的 set-cookie 时，就知道，需要保存这个 cookie的值， 保存到硬盘中

下次客户端继续访问同一个网站时，
传递参数 Cookie：session_id=142678abc245  给服务器
服务器就会检测这个 session_id=142678abc245
如果没有检测到 这个 session_id ，那么就会把 客户端当做一个全新的请求
如果检测到了这个 session_id ，那么服务器就把之前对应的信息全部提取出来，并且可以识别出客户端是之前进行过通信的对象

cookie 是有时效的

3、http的url

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E8%BD%AF%E7%9B%98&oq=%25E5%2588%2580%25E7%2589%2587%25E6%259C%258D%25E5%258A%25A1%25E5%2599%25A8&rsv_pq=ba85e6d50000ce3d&rsv_t=cfaafeb5t1CbvRz%2FCY%2FY3dVGug%2F3KgZjBZKNl9aknSocSGhtzmaDODpzgUA&rqlang=cn&rsv_enter=1&inputT=3972&rsv_sug3=17&rsv_sug1=33&rsv_sug7=101&bs=%E5%88%80%E7%89%87%E6%9C%8D%E5%8A%A1%E5%99%A8

https： 协议， 两种： http和https
://  ： 固定分隔符，  分割 协议 和 域
www.baidu.com:  域，或者是 ip:port
/s   ： 路径 path
?    ：  固定分隔符，分割  路径 和 参数
ie=utf-8&f=3  ： 参数

补充：
#   ： 锚点， 用于前端网页定位到一个特定的 位置

4、域名的分级

baidu.com   ：  一级域名、顶级域名
www.baidu.com  ：   二级域名， 比较特殊， 和 顶级域名对应同一个应用
index.baidu.com  ： 二级域名
image.baidu.com  ： 二级域名
test.image.baidu.com  ： 三级域名

5、http request的 headers：

Host: passport.tianya.cn  # 域， 不用处理
Connection: keep-alive # 保持长连接
Content-Length: 424  #  请求的字节长度， 不用处理
Cache-Control: max-age=0  #  缓存， 不用处理
Origin: https://passport.tianya.cn  #  来源网址， 不用理会
Upgrade-Insecure-Requests: 1   # 不用理会
Content-Type: application/x-www-form-urlencoded  #  内容 类型
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36   #  客户端的 系统和浏览器版本
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8  # 通知服务器，客户端接收的内容格式
Referer: https://passport.tianya.cn/m/login.jsp  #  上一个url地址，
Accept-Encoding: gzip, deflate, br   #  通知服务器，客户端支持的压缩格式， response 如果发现不管怎么处理都是乱码的话，
Accept-Language: zh-CN,zh;q=0.9   # 语言， 固定写法
Cookie: time=ct=1542961667.772;   # cookie值，  通知服务器我是谁

需要关注的headers：

五大常用的headers：
Connection: keep-alive
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
Accept: text/html， */*
Accept-Encoding: gzip, deflate, br  # 一般都需要发送这个header，但是如果服务器真的返回 压缩数据给我们，就去掉
Accept-Language: zh-CN,zh;q=0.9

重要，但不是每个请求都发送到：
Referer: https://passport.tianya.cn/m/login.jsp
Cookie: time=ct=1542961667.772;

6、 http request的请求体

GET 请求是没有 请求体的！
常见的几种：
1、form    ：   vwriter=mumuloveshine&action=b41 # form表单数据，  key=value&key1=value  这样的格式
2、json    ：   {'key': 'value', 'key1': 111}  # json字符串
3、file    ：
    zkS5V1qKkWmpsl+6jqxawKIbmPJkBvKMHPr1Xc0T2AF302CyDY3wkICQCxweS6kb
    ------WebKitFormBoundarygP5khbKIQx6S9Bk4
    Content-Disposition: form-data; name="filename"; filename="hehua.jpg"
    Content-Type: application/octet-stream

    ����
    #  类似这样的格式，相对使用会比较少

7、 http response 的headers

需要关注的：
Set-Cookie ： 最重要的，获取cookie， 但是一般不需要手动处理，网络请求库都会自动处理

Accept-Encoding: gzip   # 服务器通知客户端， 内容的压缩格式

8、响应中，最需要关注的是响应体

常见的：
1、html：  html网页内容
2、json：  json字符串

3、js： js文件，有些数据会藏在JS文件中，但是很少
4、图片： 除非是下载图片，保存到文件， 或者 验证码，需要识别图片内容

9、并发

同时发生

多进程：
    是真实的同时发生，但是能够同时进行几个进程，取决于服务器的 cpu 的核数
多线程：
    依附于  进程存在
    由于 GIL 的存在， 是一个伪多线程
    GIL  全局解释器锁

    CPU密集型：  大量的CPU操作的程序,   多线程没意义，甚至会降低速度！
    IO密集型：  大量的IO操作的程序,    多线程是有意义的，  爬虫直接使用 多线程
协程  ：
    微线程
    依附于 线程 存在
    我们自己编写的python程序控制 需要并发的代码之间的 执行顺序

10、 python 中的 http 库

所有的网络请求库，除了 aiohttp(协程实现并发访问)， 其他的最后都调用的 http 库进行网络请求

11、request 中 headers

	headers
    	Referer: 上一个url地址， 抓取浏览器提交的参数， 程序也提交一样的参数
    	UserAgent :  模拟浏览器的，  设置多个useragent，每次随机提交
    	cookie ： 一般都是用于需要登录的网页， 争取和浏览器提交一样的cookie
	IP被封 ： 单位时间内，请求数超过 阈值 ，就会拒绝该 IP 的后续请求，  更换IP 即可解决
	验证码 ： 进行图片识别，提交对应的信息， 最多的是 打码平台
	JS渲染 ： js后台程序在后台发送请求，获取数据，并且将数据显示在前端网页上，
              找到这个js发送的http请求，发送同样的请求，就可以得到想要的信息了
	接口加密与JS混淆：
        最复杂的部分，需要js功底比较深厚，要求能够看懂js加密算法，并且使用python实现同样的加密算法
	数据混淆
        在隐藏的地方查找相应数据
	行为分析
        必须分析出服务器的分析规则，实现和普通用户一样的行为，最后获取数据
        尽量不要有固定的参数

12、 urllib、 urllib2、 urllib3

urllib：    py2和py3 都有， python官方一个网络请求库
urllib2：   py2 特有的库， py3已经没有了
urllib3：   非官方的，是第三方的网络请求库， 比较完善的库（requests、pip  使用urllib3）

13、robots.txt

网站设置的允许爬虫访问的资源
User-agent:  Baiduspider   #  爬虫对象
Disallow: /baidu   #  不允许访问的 路径

allow：  /imgs     #  允许访问的 路径

User-agent: *      #  所有其他爬虫
Disallow: /        #  禁止爬所有资源

14、urllib库

基本不会直接使用该库做网络请求
如果出现调用，也是最简单的(一行代码搞定的网络请求)：
from urllib import request
text = request.urlopen(r'http://www.baidu.com').read().decode()

使用频率最高的是 urllib 中的 parse 模块
3个方法：
quote
unquote
urlencode

15、 http协议中编码集

request 的请求行、请求头、允许的编码集是 ISO-8859-1

16、代理

机器A 访问 机器B，  机器B是可以查看到 机器A的 ip地址
机器A 访问 代理E ，通过 代理E 再访问 机器B，  那么 机器B 查看到的来访IP就是  代理E 的ip

项目：

使用 urllib3 访问任意的 10个网页，
并且通过 re 获取想要的数据，进行打印

2.4 会话和cookies

to be continued

2.5 代理的基本原理

to be continued

【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
大模型RAG实战｜混合检索：BM25检索+向量检索的LlamaIndex实现 AIGC大模型吱屋猪 django python 后端 AI-native 人工智能 llama 百度
ThinkRAG大模型RAG实战系列文章，带你深入探索使用LlamaIndex框架，构建本地大模型知识库问答系统。本系列涵盖知识库管理、检索优化、模型本地部署等主题，通过代码与实例，讲解如何打造生产级系统，实现本地知识库的快速检索与智能问答。本文我将介绍一种效果更好的混合检索方法，在实际问答场景中，优于向量数据库自带的混合检索功能。1什么是混合检索目前，大模型RAG系统中普遍采用混合检索来提升检索
【网络安全 | 漏洞挖掘】价值14981$的Google点击劫持漏洞秋说 web安全漏洞挖掘
未经许可，不得转载。文章目录点击劫持前言漏洞1攻击场景漏洞2攻击场景漏洞3攻击场景漏洞4攻击场景漏洞5攻击场景漏洞6攻击场景点击劫持点击劫持是一种恶意的用户界面攻击技术，也被称为“UI覆盖攻击”或“透明劫持”。攻击者通过创建一个看似正常的网页，并在其中嵌入一个隐藏的、透明的iframe框架，该框架指向目标网站的某个功能页面，如支付页面、订阅页面等。同时，攻击者会在iframe上方放置一些虚假的按钮
java监听mq消息_Java ActiveMQ 讲解（二）Spring ActiveMQ整合+注解消息监听清风明月人间 java监听mq消息
对于ActiveMQ消息的发送，原声的api操作繁琐，而且如果不进行二次封装，打开关闭会话以及各种创建操作也是够够的了。那么，Spring提供了一个很方便的去收发消息的框架，springjms。整合Spring后，代码不仅变得非常优雅，而且易用性和扩展性更好。废话不多说，直接开搞。1.maven依赖org.apache.xbeanxbean-spring3.16org.springframewor
实现一个轻量级 C++ 单元测试框架獨梟单元测试 c++单元测试
如何实现一个轻量级C++单元测试框架——MiniTest在C++项目开发中，单元测试是保证代码质量的重要手段。尽管GoogleTest和Boost.Test是流行的测试框架，但它们较为复杂，适用于大型项目。如果你想要一个轻量级、易于理解的C++单元测试框架，本文将带你实现MiniTest，一个仅需几个头文件即可完成的C++单元测试框架。为什么需要自定义单元测试框架？在C++项目中，单元测试通常需要
# UniApp 微信登录项目前端node.js小程序
UniApp微信登录项目本项目是一个基于UniApp框架开发的微信登录应用。项目简介本应用旨在提供一个简洁高效的微信登录示例，适用于快速集成微信登录功能的UniApp项目。技术栈UniApp:跨平台应用开发框架uVue:UniApp的Vue风格组件UTS:Uni-AppTypeScript，UniApp的增强型TypeScript语言uni-id-common:uni-id模块的公共模块，用于用户
Spring Boot整合SA-Token的使用详解陈辰学长 spring boot 数据库后端
SpringBoot整合SA-Token的使用详解，涉及到SA-Token的基本介绍、整合步骤、配置、常用API以及实际使用场景等多个方面。以下将详细阐述这一过程，确保内容不少于2000字。一、SA-Token简介SA-Token是一个轻量级的Java权限认证框架，由国人开发，主要解决登录认证、权限认证、单点登录、OAuth2.0、分布式Session会话、微服务网关鉴权等一系列权限相关问题。SA
使用Python Flask构建Web应用程序代码快速拳 python flask 前端 Python
Flask是一个轻量级的PythonWeb框架，它提供了构建Web应用程序所需的基本功能。它简单易用，非常适合小型项目和原型开发。本文将介绍如何使用Flask构建一个简单的Web应用程序，并提供相应的源代码。首先，我们需要安装Flask。可以使用以下命令使用pip安装Flask：pipinstallflask一旦安装完成，我们就可以开始构建我们的Web应用程序了。首先，创建一个Python文件，命
【python web】一文掌握 Flask 的基础用法数据知道 python 前端 flask
文章目录一、Flask介绍1.1安装Flask二、Flask的基本使用2.1创建第一个Flask应用2.2路由与视图函数2.3请求与响应2.4响应对象2.5模板渲染2.6模板继承2.7静态文件管理2.8Blueprint蓝图2.9错误处理三、Flask扩展与插件四、部署Flask应用五、总结Flask是一个轻量级的PythonWeb框架，因其简单易用、灵活性高而受到广泛欢迎。本文将全面介绍Flas
C# WPF面试题：WPF中一些常见的设计模式令狐掌门 WPF面试题 wpf WPF中的设计模式
C#WPF(WindowsPresentationFoundation)是一个用于创建桌面应用程序的框架，它广泛使用了多种设计模式。以下是一些常见的设计模式：MVVM（Model-View-ViewModel）：这是WPF最常用的设计模式。它将数据模型（Model）、视图（View）和视图模型（ViewModel）分离，使得各部分可以独立进行开发和测试。视图模型是视图的抽象，它包含了视图的状态和行
uniapp实现页面左滑右滑切换内容浮桥 uni-app
uniapp+uview：使用uniapp的swiper和uview的tabs标签组合实现Tabs标签-uview-plus3.0-uni-appUI框架{{item.name}}import{onMounted,onUnmounted,ref,reactive,computed,markRaw,getCurrentInstance,nextTick}from"vue";import{format
Go 中间件学习 qq_17280559 golang 中间件学习 go
文章目录1.设计中间件接口2.创建中间件函数3.使用中间件4.中间件链5.使用第三方框架6.定义自定义中间件7.使用自定义中间件应用到整个路由组应用到单个路由8.访问上下文中的信息9.控制流程总结在Go中，中间件（Middleware）是一种设计模式，常用于在请求处理的各个阶段添加通用功能，如日志记录、身份验证、异常处理等。中间件通常应用于HTTP服务器（如net/http包或第三方框架如Gin）
spring security学习入门指引 LCY133 web开发 spring 学习 java
学习SpringSecurity可以从以下几个方面逐步深入，结合理论与实践，以下是具体的学习路径建议：1.基础准备•熟悉Spring框架：先掌握SpringCore、SpringMVC和SpringBoot的基础，理解依赖注入（DI）、AOP、Bean生命周期等核心概念。•理解安全基本概念：了解认证（Authentication）、授权（Authorization）、加密（Hashing/Encr
请编写一个Python程序，实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测功能。 2301_81121233 算法神经网络 python mongodb storm zookeeper spark
实现一个基于鲸鱼优化算法（WOA）优化的卷积双向长短期记忆神经网络（CNN-BiLSTM）的多输入单输出回归预测功能是一个复杂的任务，涉及到多个步骤和组件。由于完整的实现会非常冗长，我将提供一个简化的框架和关键部分的代码示例，帮助你理解如何实现这个功能。请注意，这个示例不会包含所有细节，比如数据集的准备、鲸鱼优化算法的具体实现（WOA是一个元启发式算法，需要单独实现或引用现有库），以及CNN-Bi
Spring(6）——Spring、Spring Boot 与 Spring MVC 的关系与区别南山不太冷 Spring spring spring boot mvc
Spring、SpringBoot与SpringMVC的关系与区别1.核心定位Spring定位：基础框架，提供IoC（控制反转）和DI（依赖注入）核心功能，管理对象生命周期及依赖关系。功能：支持事务管理、AOP（面向切面编程）、数据访问等，适用于所有Java应用（不限于Web）。SpringMVC定位：Spring的子框架，专注于Web层开发，基于MVC（Model-View-Controller
iOS 文件预览（PDF、Excel、World等）之QuickLook框架仰望星空01 Swift iOS QuickLook OC File PDF Excel Swift 5.0
iOS文件预览QuickLook之工程文件预览QuickLook之网络URL预览QuickLook之工程文件预览一、简介QuickLook库可以让我们的App在iPhone/iPad中直接预览各个文件了。官方的开发文档中说明其支持的文件类型有：iWorkdocumentsMicrosoftOfficedocuments(Office‘97andnewer)RichTextFormat(RTF)do
Java面试精选（1）:Spring，SpringMVC，SpringBoot，SpringCloud有什么区别和联系？ Java面试精选 spring java spring boot vue 编程语言
简单介绍Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器框架。Spring使你能够编写更干净、更可管理、并且更易于测试的代码。SpringMVC是Spring的一个模块，一个web框架。通过DispatcherServlet,ModelAndView和ViewResolver，开发web应用变得很容易。主要针对的是网站应用程序或者服务开发——URL路由、Session、模板引
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
open-webui使用searXNG插件连接自定义的联网搜索服务程序 chinayeren 教程 python ai llama chatgpt
项目背景因为国内无法访问内置的一些免费搜索插件，安装完searXNG本地服务端后根据教程中连接始终无法连接，docker方案国内也无法使用的情况下，本地使用python写一个Flask服务程序使用爬虫技术提供联网搜索数据。下面是实现代码V1#!/usr/bin/python3#_*_coding:utf-8_*_##Copyright(C)2025-2025#@Title:这是一个模拟searXN
前端初学者，有哪些适合的学习网站？四六的六前端学习个人开发
对于前端初学者而言，选择合适的学习网站至关重要，以下是一些我知道的优质学习平台，在这里分享给大家：菜鸟教程：该网站以其简洁明了的界面设计和通俗易懂的教程内容而受到广大初学者的欢迎。其前端教程体系涵盖了前端开发的大量入门知识，包括HTML、CSS、JavaScript等基础技术，以及当前主流的前端框架和工具的使用方法，如Vue.js、React、Webpack等。教程内容的讲解方式深入浅出，注重从基
PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架数据集
2025年1月7号，由杨德杰、赵子敬、刘洋联合提出PlanLLM，一种基于可微调大型语言模型（LLM）的跨模态联合学习框架，用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块，PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制，实现了对新步骤和任务的泛化能力。该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升，展现了其在弱监督学习中的有效性
ChatGPT智能聊天机器人实现云端源想 chatgpt 机器人
以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT-2/GPT-3.5TurboAPI/LLaMA2）轻量化方案：微软DeepSpeed或MetaFairScale（降低显存占用）训练框架PyTorchLightning+Acceler
为什么很多人喷 Java 开发者离了 spring 框架就不会写代码了 getapi java spring 开发语言
很多人批评Java开发者离开Spring框架后难以独立开发的原因可从技术特性与开发者习惯两方面分析：Java语言的历史设计局限Java的泛型实现存在缺陷，其原始值包装类（如Integer与int）的自动装拆箱机制出现较晚（Java5引入），且编译器无法彻底解决原始值与包装类的隐式转换问题[[1]][[2]]。这种设计导致开发者在处理基础类型与对象时需要额外关注类型转换，而Spring框架通过封装（
GitHub图床 Thinking_calculus Linux github
GitHub之图床github当图床使用的方法了解了，最简单的、安全的方式是创建一个私有库，通过发起issue的方式把想要保存的图片放在issue区title中可以添加便于记忆的字段，虽然大概率以后不会用到，但如果需要时可以使用爬虫爬取issue保存下来，也便于查找之前还有些照片以仓库的形式同步在这个仓库中，但取url这个过程十分麻烦，不过如果是用于储存大量照片的话，使用仓库同步的方式可能不会差,
MVC/MVP/MVVM框架学习总结（二）每次的天空 mvc 学习 java
上次已经了解到MVC的知识，现在是扩展实现MVP/MVVM的框架改进本身项目MVVM框架即Model-View-ViewModel框架，是一种软件架构设计模式，以下是具体介绍：核心组件Model（模型）：代表应用程序的数据结构和业务逻辑，负责数据的存储、检索、验证和处理，定义业务规则和算法，是应用程序的数据核心。比如在一个电商应用中，商品数据、用户订单数据等的存储和相关逻辑处理都属于Model层。
Spring Boot Security 实战指南：从零开始构建安全可靠的应用无眠_ spring boot 数据库网络
SpringBootSecurity实战指南：从零开始构建安全可靠的应用摘要：网络安全至关重要，SpringBootSecurity提供了强大的安全框架，帮助我们轻松构建安全可靠的应用。本文将从零开始，手把手教你如何在SpringBoot应用中集成SpringSecurity，实现用户认证、权限控制等核心安全功能，并结合代码示例，让你快速上手，打造坚如磐石的应用安全防线！1.引言：安全是应用开发的
Spring Boot 核心知识点精讲：助你快速上手与深度理解无眠_ spring boot 运维后端
SpringBoot核心知识点精讲：助你快速上手与深度理解摘要：SpringBoot以其约定优于配置、快速开发、易部署等特性，成为Java微服务开发的首选框架。本文将深入浅出地介绍SpringBoot的核心知识点，包括自动配置、起步依赖、依赖注入、外部化配置等，帮助读者快速上手SpringBoot并深入理解其运行机制，为高效开发SpringBoot应用打下坚实基础。关键词：SpringBoot,自
探秘Executor的生命周期：从启动到销毁 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
探秘Executor的生命周期：从启动到销毁作者：禅与计算机程序设计艺术1.背景介绍1.1Executor概述在并发编程领域，Executor框架扮演着至关重要的角色。它提供了一种高效、灵活且可管理的方式来执行异步任务，将任务的提交与执行过程解耦，从而简化了并发编程的复杂性。1.2Executor的优势Executor框架的优势主要体现在以下几个方面：提高资源利用率:通过线程池技术，Executo
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

爬虫笔记整理1 - 基础原理总结

2.0 网络框架

2.1 HTTP基本原理

1 简介

2 URL

3 http请求

4 http响应

5 案例

2.2 网页基础(HTML + CSS + JavaScript)

2.3 爬虫的基本原理

一、 爬虫原理/基础/入门

1、 什么是爬虫

2、 爬虫工作流程

3、 请求与响应

4、 爬虫与反爬虫

二、 开发工具

三、 Python爬虫基础篇

1、 Urllib库使用详解与项目实战

2、 Urllib3库的使用

3、 Requests库安装使用与项目实战

4、 Pyquery解析库详解与基本使用

5、 BeautifulSoup解析库安装使用

四、 Python爬虫进阶篇

1、 JS渲染与参数加密

2、 模拟浏览器

3、 Pyexecjs引擎解析JS

4、 验证码识别

5、 IP代理池实现

6、 pyspider框架

7、 APP的抓取

8、 Scrapy框架

9、 分布式爬虫

10、 分布式爬虫部署

笔记：

1、http的无连接&长连接

2、http的无状态

3、http的url

4、域名的分级

5、http request的 headers：

6、 http request的 请求体

7、 http response 的headers

8、响应中，最需要关注的是 响应体

9、并发

10、 python 中的 http 库

11、request 中 headers

12、 urllib、 urllib2、 urllib3

13、robots.txt

14、urllib库

15、 http协议中编码集

16、代理

项目：

2.4 会话和cookies

2.5 代理的基本原理

你可能感兴趣的:(爬虫=框架=)

一、爬虫原理/基础/入门

1、什么是爬虫

2、爬虫工作流程

3、请求与响应

4、爬虫与反爬虫

二、开发工具

2、模拟浏览器

4、验证码识别

9、分布式爬虫

10、分布式爬虫部署

6、 http request的请求体

8、响应中，最需要关注的是响应体