天天不吃饭阿

揭秘PC端爬虫工程师必备的网络请求技巧，让你轻松采集所需数据

网络请求是爬虫工程师采集数据的重要手段之一。在PC端爬虫中，网络请求通常使用HTTP协议进行通信，通过发送HTTP请求获取目标网站的数据。

爬虫工程师需要掌握HTTP协议的基本知识，包括HTTP请求和响应的格式、常见的HTTP请求方法（如GET、POST等）、HTTP请求头和响应头的常见字段等。

在进行网络请求时，爬虫工程师通常使用HTTP客户端库，如Python中的requests库、Java中的HttpClient等。这些库封装了HTTP协议的细节，提供了简单易用的API，方便爬虫工程师进行网络请求。

爬虫工程师还需要了解一些反爬虫技术，如User-Agent伪装、IP代理等，以应对目标网站的反爬虫策略。

关注公众号：python技术训练营，精选优质文档，好玩的项目

内容：

1.面试专题几十个大厂面试题
2.入门基础教程
3.11模块零基础到精通笔记
4.百个项目实战+爬虫教程+代码
5.量化交易，机器学习，深度学习
6.Python游戏源码
7.交流学习
8.了解接单市场
9.DNF自动识别打怪
10.3263页学习资料

一丶requests

1.requests源码解析

对于爬虫工程师来说，网络请求是常用的数据采集方式之一。而Python的requests库，作为一个高效且易用的HTTP请求库，被爬虫工程师广泛使用。在深入学习requests库前，建议先了解下其中的源码实现。

requests库是基于urllib3库封装的，所以在使用requests库时需要先安装对应的依赖库urllib3。

接下来，我们通过分析requests库的源代码，来了解其中的一些实现细节。

首先是发送请求的实现，即requests库中的Request类。Request类用于封装发送请求的参数，并通过一个Session对象发送请求并返回响应。以下是Request类的核心代码：

class Request:

    @staticmethod
    def send(session, method, url, **kwargs):
        # ...
        resp = session.request(method=method, url=url, **kwargs)
        return resp

我们可以看到，Request类中的send方法调用了Session对象的request方法，这个方法是整个库中负责发送请求和返回响应的核心方法。以下是Session类中request方法的核心代码：

class Session:

    def request(self, method, url, params=None, data=None, headers=None, cookies=None, files=None, auth=None,
                timeout=None, allow_redirects=True, proxies=None, hooks=None, stream=None, verify=None, cert=None,
                json=None):            
        # ...
        return self.send(prep, **send_kwargs)

我们可以看到，Session对象的request方法的参数和关键字参数与HTTP请求的相关部分一一对应，其中最重要的是prep参数（即经过预处理的Request对象），它包含了请求的相关信息，如请求方法，请求头，请求体等。Session对象的request方法最终调用了self.send方法，即发送HTTP请求并返回响应。

requests库实现了带有各种HTTP请求方法的函数接口，如requests.get()、requests.post()等，这些接口在内部会自动创建一个Session对象，然后调用Session对象的request方法，从而返回请求响应。

总体来说，requests是一个功能强大的HTTP请求库，它的源代码实现清晰、易于阅读和理解，掌握其中的实现细节可以帮助我们更好的使用这个库。

2.requests常用方法

requests是一个Python第三方库，用于发送HTTP请求。以下是requests常用方法：

requests.get(url, params=None, **kwargs)：发送GET请求，url为请求的URL地址，params为请求参数，kwargs为其他可选参数。
requests.post(url, data=None, json=None, **kwargs)：发送POST请求，url为请求的URL地址，data为请求数据，json为请求的JSON数据，**kwargs为其他可选参数。
requests.put(url, data=None, **kwargs)：发送PUT请求，url为请求的URL地址，data为请求数据，**kwargs为其他可选参数。
requests.delete(url, **kwargs)：发送DELETE请求，url为请求的URL地址，**kwargs为其他可选参数。
requests.head(url, **kwargs)：发送HEAD请求，url为请求的URL地址，**kwargs为其他可选参数。
requests.options(url, **kwargs)：发送OPTIONS请求，url为请求的URL地址，**kwargs为其他可选参数。
requests.request(method, url, **kwargs)：发送自定义请求，method为请求方法，url为请求的URL地址，**kwargs为其他可选参数。
requests.session()：创建一个Session对象，用于保持会话状态。
requests.get(url, headers=headers)：发送GET请求，并设置请求头。
requests.get(url, cookies=cookies)：发送GET请求，并设置请求的Cookies。
requests.get(url, proxies=proxies)：发送GET请求，并设置代理服务器。
requests.get(url, timeout=timeout)：发送GET请求，并设置超时时间。
requests.get(url, verify=verify)：发送GET请求，并设置SSL证书验证。
requests.get(url, allow_redirects=allow_redirects)：发送GET请求，并设置是否允许重定向。
requests.get(url, stream=stream)：发送GET请求，并设置是否使用流式传输

3.data/json/param参数传递

在使用requests库发送网络请求时，我们可以通过传递不同的参数来实现不同的请求方式和数据传递方式。常用的参数包括data、json和params。

1.data参数

data参数用于传递表单数据，通常用于POST请求。它可以是一个字典，也可以是一个字符串。如果是字典，requests会自动将其转换为表单形式；如果是字符串，则需要手动指定Content-Type为application/x-www-form-urlencoded。

示例代码：

import requests

data = {
    'username': 'admin',
    'password': '123456'
}

response = requests.post('http://www.example.com/login', data=data)

2.json参数

json参数用于传递JSON格式的数据，通常用于POST请求。它可以是一个字典，也可以是一个字符串。如果是字典，requests会自动将其转换为JSON格式；如果是字符串，则需要手动指定Content-Type为application/json。

示例代码：

import requests

data = {
    'username': 'admin',
    'password': '123456'
}

response = requests.post('http://www.example.com/login', json=data)

3.params参数

params参数用于传递URL参数，通常用于GET请求。它可以是一个字典，也可以是一个字符串。如果是字典，requests会自动将其转换为URL参数；如果是字符串，则需要手动拼接URL。

示例代码：

import requests

params = {
    'page': 1,
    'size': 10
}

response = requests.get('http://www.example.com/articles', params=params)

4.隧道代理使用

隧道代理是一种通过隧道连接到代理服务器的方式来进行网络请求的方法。这种方式可以帮助我们隐藏真实的IP地址，提高爬虫的稳定性和安全性。

使用隧道代理需要先购买代理服务，然后在代码中设置代理服务器的IP地址和端口号。以下是一个使用隧道代理的示例代码：

import requests

proxy = {
    'http': 'http://代理服务器IP地址:端口号',
    'https': 'https://代理服务器IP地址:端口号'
}

url = 'https://www.example.com'
response = requests.get(url, proxies=proxy)

print(response.text)

在上面的代码中，我们首先定义了一个代理字典，包含了http和https两种协议的代理服务器地址和端口号。然后使用requests库的get方法发送请求时，将代理字典作为proxies参数传入即可。

需要注意的是，使用隧道代理可能会降低请求速度，而且代理服务的质量也会影响到爬虫的效果。因此，在选择代理服务时需要谨慎，建议选择稳定可靠的服务商。

5.证书异常处理

在进行网络请求时，有些网站会进行证书认证以确保数据的安全。如果requests库在进行SSL证书验证时遇到了问题，会抛出“证书验证异常(Certificate Verification Error)”的异常。这个异常通常是由于请求响应的SSL证书无效或不受信任导致的。

以下是requests库中处理证书异常的方法：

1.忽略证书验证

在使用requests库进行网络请求时，可以通过设置verify参数为False来忽略SSL证书验证。这个方法会禁止requests库对证书进行验证，而是采用不安全的方式进行通信，因此在进行敏感操作时应慎重使用。

例如：

response = requests.get('https://example.com', verify=False)

2.设置证书文件

可以通过设置cert参数来指定一个证书文件，在请求时使用该证书进行验证。这个方法需要事先获得一个有效的证书文件，如果无法提供有效证书则无法进行安全通信。

例如：

response = requests.get('https://example.com', cert=('path/to/cert.crt', 'path/to/key'))

3.添加自定义证书

可以通过requests库提供的certifi库在运行时初始化一个自定义证书，从而进行证书验证。这种方式需要提供证书的SHA256指纹值，并将其添加到requests库已有的证书列表中。

例如：

import certifi

cert = certifi.where()
fingerprints = {'example.com': 'A1:B2:C3:...', ...}
with open(cert, 'a') as f:
    for host, fingerprint in fingerprints.items():
        f.write(f'{host} {fingerprint}\n')

response = requests.get('https://example.com', verify=True)

在以上代码中，certifi.where()用于获取当前Python环境中的证书路径，然后将每个需要验证的主机和其证书的SHA256指纹添加到证书文件中。

综上，要避免证书异常需要注意常见的安全规则，如设置SSL证书验证、使用CA颁发的证书、对外不开放不安全的通信端口等。需要快速扫描设备，确保组件升级到最新版本，在安全上下文中测试企业所依赖的所有服务并采用有力的加密技术以支持加密通信。

二丶httpx

1.httpx源码解析

httpx是一个Python异步HTTP客户端库，它提供了简单易用的API，支持异步和同步请求，支持HTTP/1.1和HTTP/2协议，支持代理、SSL/TLS、Cookie等功能。下面我们来看一下httpx的源码解析。

httpx的核心代码在client.py文件中，其中最重要的是Client类。Client类是httpx的主要接口，它提供了发送HTTP请求的方法，如get、post、put、delete等。下面是Client类的定义：

class Client:
    def __init__(
        self,
        timeout=UNSET,
        follow_redirects=UNSET,
        max_redirects=UNSET,
        verify=UNSET,
        cert=UNSET,
        trust_env=UNSET,
        http2=UNSET,
        backend=UNSET,
        default_headers=UNSET,
        base_url=UNSET,
        app=UNSET,
        auth=UNSET,
        cookies=UNSET,
        allow_redirects=UNSET,
        proxies=UNSET,
        dispatch=UNSET,
        limits=UNSET,
        pool_limits=UNSET,
        retry=UNSET,
        trust_env_proxies=UNSET,
        headers=UNSET,
        **extra_options,
    ):
        ...

Client类的构造函数接受很多参数，这些参数可以用来配置httpx的行为。其中比较重要的参数包括：

timeout：请求超时时间。
follow_redirects：是否自动跟随重定向。
max_redirects：最大重定向次数。
verify：是否验证SSL证书。
cert：客户端证书。
trust_env：是否信任环境变量。
http2：是否启用HTTP/2协议。
backend：HTTP客户端后端。
default_headers：默认请求头。
base_url：基础URL。
app：ASGI应用程序。
auth：HTTP认证。
cookies：请求Cookie。
allow_redirects：是否允许重定向。
proxies：代理服务器。
dispatch：请求分发器。
limits：请求限制。
pool_limits：连接池限制。
retry：请求重试。
trust_env_proxies：是否信任环境变量中的代理服务器。
headers：请求头。

Client类的方法包括：

request：发送HTTP请求。
get：发送GET请求。
post：发送POST请求。
put：发送PUT请求。
delete：发送DELETE请求。
head：发送HEAD请求。
options：发送OPTIONS请求。
patch：发送PATCH请求。
这些方法都是基于request方法实现的，只是参数不同。下面是request方法的定义：

async def request(
    self,
    method,
    url,
    *,
    params=UNSET,
    data=UNSET,
    json=UNSET,
    headers=UNSET,
    cookies=UNSET,
    files=UNSET,
    auth=UNSET,
    timeout=UNSET,
    allow_redirects=UNSET,
    cert=UNSET,
    verify=UNSET,
    stream=UNSET,
    trust_env=UNSET,
    max_redirects=UNSET,
    http2=UNSET,
    backend=UNSET,
    dispatch=UNSET,
    limits=UNSET,
    pool_limits=UNSET,
    retry=UNSET,
    trust_env_proxies=UNSET,
    **options,
):
    ...

request方法接受很多参数，包括HTTP请求方法、URL、请求参数、请求体、请求头、请求Cookie、文件、HTTP认证、请求超时时间、是否允许重定向、客户端证书、是否验证SSL证书、是否使用流式传输、是否信任环境变量、最大重定向次数、是否启用HTTP/2协议、HTTP客户端后端、请求分发器、请求限制、连接池限制、请求重试、是否信任环境变量中的代理服务器等。

httpx的源码比较清晰，代码结构清晰，注释详细，易于阅读和理解。如果你想深入了解httpx的实现原理，可以阅读httpx的源码。

2.httpx常用方法

httpx是一个Python的异步HTTP客户端库，它提供了许多常用的方法来发送HTTP请求和处理响应。以下是httpx常用的方法：

get(url, params=None, **kwargs): 发送GET请求，url为请求的URL，params为请求参数，kwargs为其他可选参数，如headers、timeout等。
post(url, data=None, json=None, **kwargs): 发送POST请求，url为请求的URL，data为请求数据，json为请求的JSON数据，kwargs为其他可选参数，如headers、timeout等。
put(url, data=None, **kwargs): 发送PUT请求，url为请求的URL，data为请求数据，kwargs为其他可选参数，如headers、timeout等。
delete(url, **kwargs): 发送DELETE请求，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
head(url, **kwargs): 发送HEAD请求，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
options(url, **kwargs): 发送OPTIONS请求，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
request(method, url, **kwargs): 发送自定义请求，method为请求方法，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
close(): 关闭httpx客户端。
request_stream(method, url, **kwargs): 发送流式请求，method为请求方法，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
request_raw(method, url, **kwargs): 发送原始请求，method为请求方法，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
request_bytes(method, url, **kwargs): 发送字节请求，method为请求方法，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
request_json(method, url, **kwargs): 发送JSON请求，method为请求方法，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
request_text(method, url, **kwargs): 发送文本请求，method为请求方法，url为请求的URL，kwargs为其他可选参数，如headers、timeout等。
request_files(method, url, files=None, **kwargs): 发送文件请求，method为请求方法，url为请求的URL，files为上传的文件，kwargs为其他可选参数，如headers、timeout等。
request_multipart(method, url, data=None, files=None, **kwargs): 发送多部分请求，method为请求方法，url为请求的URL，data为请求数据，files为上传的文件，kwargs为其他可选参数，如headers、timeout等。

3.httpx上下文处理

在httpx中，上下文处理是指在一个请求中，将一些共同的参数或配置信息保存在一个上下文对象中，以便在后续的请求中使用。这样可以避免在每个请求中都重复设置相同的参数或配置信息，提高代码的可读性和可维护性。

httpx中的上下文对象是一个字典，可以通过创建一个httpx.Context对象来获取。在创建Context对象时，可以传入一些默认的参数或配置信息，这些信息会被保存在Context对象中，以便在后续的请求中使用。

下面是一些常用的httpx上下文处理方法：

1.创建Context对象

import httpx

context = httpx.Context()

2.设置默认的请求头

context.headers.update({
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
})

3.设置代理

context.proxies = {
    'http': 'http://127.0.0.1:8888',
    'https': 'http://127.0.0.1:8888'
}

4.设置超时时间

context.timeout = httpx.Timeout(10.0, read=20.0)

5.设置SSL验证

context.verify = False

6.设置cookie

context.cookies['name'] = 'value'

7.设置认证信息

context.auth = httpx.BasicAuth('username', 'password')

8.设置重试次数

context.retry = httpx.Retry(total=3, backoff_factor=0.3)

9.设置连接池

context.http2 = True
context.max_keepalive_connections = 100
context.max_connections = 100

10.在请求中使用Context对象

import httpx

context = httpx.Context()
context.headers.update({
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
})

with httpx.Client(context=context) as client:
    response = client.get('https://www.example.com')

4.httpx异步请求

在进行网络请求时，有时候需要进行异步请求，以提高效率和性能。httpx是一个支持异步请求的Python HTTP客户端库，可以使用async/await语法进行异步请求。

下面是一个使用httpx进行异步请求的示例：

import httpx
import asyncio

async def fetch(url):
    async with httpx.AsyncClient() as client:
        response = await client.get(url)
        return response.text

async def main():
    urls = [
        'https://www.baidu.com',
        'https://www.google.com',
        'https://www.bing.com'
    ]
    tasks = [asyncio.create_task(fetch(url)) for url in urls]
    results = await asyncio.gather(*tasks)
    print(results)

if __name__ == '__main__':
    asyncio.run(main())

在上面的示例中，我们定义了一个fetch函数，用于异步请求指定的URL，并返回响应内容。然后在main函数中，我们定义了三个URL，使用asyncio.create_task创建了三个异步任务，并使用asyncio.gather等待所有任务完成，并打印结果。

需要注意的是，在使用httpx进行异步请求时，需要使用AsyncClient类，而不是普通的Client类。此外，需要使用async/await语法进行异步请求。

关注公众号：python技术训练营，精选优质文档，好玩的项目

内容：

1.面试专题几十个大厂面试题
2.入门基础教程
3.11模块零基础到精通笔记
4.百个项目实战+爬虫教程+代码
5.量化交易，机器学习，深度学习
6.Python游戏源码
7.交流学习
8.了解接单市场
9.DNF自动识别打怪
10.3263页学习资料

你可能感兴趣的:(python开发,python,python爬虫,爬虫,网络,python,数据库,开发语言)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s