Gavin_dinggengjia

Python正则表达式指南

本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。

注意：本文基于Python2.4完成；如果看到不明白的词汇请记得百度谷歌或维基，whatever。

尊重作者的劳动，转载请注明作者及原文地址 >.<

1. 正则表达式基础

1.1. 简单介绍

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。如果已经在其他语言里使用过正则表达式，只需要简单看一看就可以上手了。

下图展示了使用正则表达式进行匹配的流程：

正则表达式的大致匹配过程是：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界，这个过程会稍微有一些不同，但也是很好理解的，看下图中的示例以及自己多使用几次就能明白。

下图列出了Python支持的正则表达式元字符和语法：

1.2. 数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式"ab*"如果用于查找"abbbc"，将找到"abbb"。而如果使用非贪婪的数量词"ab*?"，将找到"a"。

1.3. 反斜杠的困扰

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

1.4. 匹配模式

正则表达式提供了一些可用的匹配模式，比如忽略大小写、多行匹配等，这部分内容将在Pattern类的工厂方法re.compile(pattern[, flags])中一起介绍。

2. re模块

2.1. 开始使用re

Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。

 
      
     # encoding: UTF-8
import re
 
# 将正则表达式编译成Pattern对象
pattern = re.compile(r'hello')
 
# 使用Pattern匹配文本，获得匹配结果，无法匹配时将返回None
match = pattern.match('hello world!')
 
if match:
    # 使用Match获得分组信息
    print match.group()
 
### 输出 ###
# hello 
    

re.compile(strPattern[, flag]):

这个方法是Pattern类的工厂方法，用于将字符串形式的正则表达式编译为Pattern对象。第二个参数flag是匹配模式，取值可以使用按位或运算符'|'表示同时生效，比如re.I | re.M。另外，你也可以在regex字符串中指定模式，比如re.compile('pattern', re.I | re.M)与re.compile('(?im)pattern')是等价的。
可选值有：

re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
M(MULTILINE): 多行模式，改变'^'和'$'的行为（参见上图）
S(DOTALL): 点任意匹配模式，改变'.'的行为
L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。以下两个正则表达式是等价的：

 
     a = re.compile(r"""\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

re提供了众多模块方法用于完成正则表达式的功能。这些方法可以使用Pattern实例的相应方法替代，唯一的好处是少写一行re.compile()代码，但同时也无法复用编译后的Pattern对象。这些方法将在Pattern类的实例方法部分一起介绍。如上面这个例子可以简写为：

m = re.match(r'hello', 'hello world!')
print m.group()

re模块还提供了一个方法 escape(string)，用于将string中的正则表达式元字符如*/+/?等之前加上转义符再返回，在需要大量匹配元字符时有那么一点用。

2.2. Match

Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

属性：

string: 匹配时使用的文本。
re: 匹配时使用的Pattern对象。
pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。
lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。

方法：

group([group1, …]):
获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。
groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。
groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。
start([group]):
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。
end([group]):
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
span([group]):
返回(start(group), end(group))。
expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。\id与\g<id>是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。

import re
m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!')
 
print "m.string:", m.string
print "m.re:", m.re
print "m.pos:", m.pos
print "m.endpos:", m.endpos
print "m.lastindex:", m.lastindex
print "m.lastgroup:", m.lastgroup
 
print "m.group(1,2):", m.group(1, 2)
print "m.groups():", m.groups()
print "m.groupdict():", m.groupdict()
print "m.start(2):", m.start(2)
print "m.end(2):", m.end(2)
print "m.span(2):", m.span(2)
print r"m.expand(r'\2 \1\3'):", m.expand(r'\2 \1\3')
 
### output ###
# m.string: hello world!
# m.re: <_sre.SRE_Pattern object at 0x016E1A38>
# m.pos: 0
# m.endpos: 12
# m.lastindex: 3
# m.lastgroup: sign
# m.group(1,2): ('hello', 'world')
# m.groups(): ('hello', 'world', '!')
# m.groupdict(): {'sign': '!'}
# m.start(2): 6
# m.end(2): 11
# m.span(2): (6, 11)
# m.expand(r'\2 \1\3'): world hello!

2.3. Pattern

Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方法可以对文本进行匹配查找。

Pattern不能直接实例化，必须使用re.compile()进行构造。

Pattern提供了几个可读属性用于获取表达式的相关信息：

pattern: 编译时用的表达式字符串。
flags: 编译时用的匹配模式。数字形式。
groups: 表达式中分组的数量。
groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典，没有别名的组不包含在内。

import re
p = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL)
 
print "p.pattern:", p.pattern
print "p.flags:", p.flags
print "p.groups:", p.groups
print "p.groupindex:", p.groupindex
 
### output ###
# p.pattern: (\w+) (\w+)(?P<sign>.*)
# p.flags: 16
# p.groups: 3
# p.groupindex: {'sign': 3}

实例方法[ | re模块方法]：

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
这个方法将从string的pos下标处起尝试匹配pattern；如果pattern结束时仍可匹配，则返回一个Match对象；如果匹配过程中pattern无法匹配，或者匹配未结束就已到达endpos，则返回None。
pos和endpos的默认值分别为0和len(string)；re.match()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。
注意：这个方法并不是完全匹配。当pattern结束时若string还有剩余字符，仍然视为成功。想要完全匹配，可以在表达式末尾加上边界匹配符'$'。
示例参见2.1小节。
search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern，如果pattern结束时仍可匹配，则返回一个Match对象；若无法匹配，则将pos加1后重新尝试匹配；直到pos=endpos时仍无法匹配则返回None。
pos和endpos的默认值分别为0和len(string))；re.search()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。
```
# encoding: UTF-8
import re
 
# 将正则表达式编译成Pattern对象
pattern = re.compile(r'world')
 
# 使用search()查找匹配的子串，不存在能匹配的子串时将返回None
# 这个例子中使用match()无法成功匹配
match = pattern.search('hello world!')
 
if match:
    # 使用Match获得分组信息
    print match.group()
 
### 输出 ###
# world
```
split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。
```
import re
 
p = re.compile(r'\d+')
print p.split('one1two2three3four4')
 
### output ###
# ['one', 'two', 'three', 'four', '']
```
findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
搜索string，以列表形式返回全部能匹配的子串。
```
import re
 
p = re.compile(r'\d+')
print p.findall('one1two2three3four4')
 
### output ###
# ['1', '2', '3', '4']
```
finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):
搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。
```
import re
 
p = re.compile(r'\d+')
for m in p.finditer('one1two2three3four4'):
    print m.group(),
 
### output ###
# 1 2 3 4
```
sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):
使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时，可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。
当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
count用于指定最多替换次数，不指定时全部替换。
```
import re
 
p = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
 
print p.sub(r'\2 \1', s)
 
def func(m):
    return m.group(1).title() + ' ' + m.group(2).title()
 
print p.sub(func, s)
 
### output ###
# say i, world hello!
# I Say, Hello World!
```

subn(repl, string[, count]) |re.sub(pattern, repl, string[, count]):
返回 (sub(repl, string[, count]), 替换次数)。

 
       import re
 
p = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
 
print p.subn(r'\2 \1', s)
 
def func(m):
    return m.group(1).title() + ' ' + m.group(2).title()
 
print p.subn(func, s)
 
### output ###
# ('say i, world hello!', 2)
# ('I Say, Hello World!', 2)

以上就是Python对于正则表达式的支持。熟练掌握正则表达式是每一个程序员必须具备的技能，这年头没有不与字符串打交道的程序了。笔者也处于初级阶段，与君共勉，^_^

另外，图中的特殊构造部分没有举出例子，用到这些的正则表达式是具有一定难度的。有兴趣可以思考一下，如何匹配不是以abc开头的单词，^_^

全文结束

本文转自：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

原作者：AstralWind

新手必看：TikTok卖家中心实用指南，附2025最新TikTok入驻教程菠萝派爱跨境人工智能网络大数据
对于跨境电商来说，TikTok卖家中心是一个强大的工具，它能够帮助卖家轻松管理产品、订单、数据和广告。然而，对于初次接触这个平台的卖家来说，如何入驻并高效使用，成为了一大难题。本篇文章将为您详细讲解TikTok卖家中心的使用方法及最新的入驻教程。一、入驻教程1.入驻前准备（1）TikTok的商业账号。（2）入驻材料：营业执照（或身份证明）、国际收款账户（如Payoneer）、物流和退货地址、产品清
《Stable Diffusion绘画完全指南：从入门到精通的Prompt设计艺术》第一章 Allen-Steven python相关应用 SD 创作实践 stable diffusion prompt 人工智能
第一章：认识StableDiffusion与Prompt设计基础1.1什么是StableDiffusion：生成原理与核心优势一、颠覆性生成逻辑：从噪声到艺术的魔法逆向降噪原理传统AI绘画：直接生成完整像素StableDiffusion：通过潜扩散模型（LDM），在低维潜空间（LatentSpace）逐步去除噪声，最终解码为高清图像类比解释：如同雕塑家从混沌的大理石中凿出形体，AI在噪声中「雕刻」
基于华为云镜像加速器的Docker环境搭建与项目部署指南阿俊仔（摸鱼版）云服务器管理实操华为云 docker 容器服务器
基于华为云镜像加速器的Docker环境搭建与项目部署指南一、安装Docker1.1更新系统包1.2安装必要的依赖包1.3移除原有的Docker仓库配置（如果存在）1.4添加华为云Docker仓库1.5安装DockerCE1.6启动Docker服务1.7验证Docker是否安装成功1.8添加华为云镜像加速器地址二、拉取NginxDocker镜像三、上传项目文件并解压四、启动Docker容器运行项目4
《Stable Diffusion绘画完全指南：从入门到精通的Prompt设计艺术》第三章 Allen-Steven python相关应用 SD 创作实践 stable diffusion prompt 人工智能
第三章：风格化Prompt专题解析3.1写实类：照片级细节的刻画技巧一、物理仿真引擎构建#写实类Prompt标准模板{"主体描述":"精确物种/型号/品牌（如：Mercedes-AMGGTBlackSeries2025款）","材质系统":[ "PBR材质规范（金属度/粗糙度/法线贴图）", "表面瑕疵（划痕0.2级，灰尘密度0.5）"],"光学系统":[ "镜头参数：佳能RF85mmf/1.2L
企业数字化转型：私有化部署办公软件的精选推荐
在数字化办公日益盛行的今天，企业对数据安全、定制化需求及成本控制的要求日益提高，私有化部署成为众多企业的首选。私有化部署不仅能够有效保障企业数据的安全性，还能根据企业的实际业务流程进行深度定制，提升工作效率。同时，在长期使用中，私有化部署在成本控制上可能更具优势。本文将深入探讨适用于私有化部署的办公软件，为企业决策者提供一份精选指南。一、私有化部署办公软件的重要性数据安全数据是企业的核心资产，私有
使用Python爬虫获取淘宝订单商品接口的全面指南 JelenaAPI小小爬虫 API Python python 爬虫数据库
引言淘宝作为中国最大的电商平台之一，拥有海量的商品数据和订单信息。对于开发者来说，获取淘宝订单商品接口是一个常见的需求。本文将介绍如何使用Python编写爬虫，获取淘宝订单商品信息。一、淘宝订单商品接口概览淘宝提供了多个与订单相关的API接口，以下是几个主要的接口：订单详情API接口：taobao.trade.fullinfo.get：获取订单的详细信息，包括订单状态、支付信息、物流信息等。订单批
利用Java爬虫按图搜索1688商品（拍立淘）：实战案例指南数据小小爬虫 java 爬虫图搜索算法
在电商领域，按图搜索功能（如1688的“拍立淘”）为用户提供了更直观、便捷的购物体验。通过上传图片，用户可以快速找到与图片相似的商品。本文将详细介绍如何利用Java爬虫技术实现按图搜索1688商品，并获取其详情数据。一、为什么选择Java爬虫？Java作为一种广泛使用的编程语言，以其稳健性和跨平台性在企业级应用中占据重要地位。通过Java，我们可以编写爬虫程序，模拟浏览器行为，从网页中提取所需的数
使用爬虫获取按图搜索1688商品（拍立淘）案例指南数据小小爬虫爬虫图搜索算法算法
在电商领域，按图搜索功能（如1688的“拍立淘”）为用户提供了更直观、便捷的购物体验。通过上传图片，用户可以快速找到与图片相似的商品。本文将详细介绍如何利用爬虫技术实现按图搜索1688商品，并获取其详情数据。一、技术背景按图搜索功能通常依赖于图像识别技术和搜索引擎。1688的“拍立淘”功能允许用户上传图片，系统会通过图像识别技术找到与上传图片相似的商品。通过爬虫技术，我们可以模拟这一过程，获取搜索
Spring Boot全局异常处理终极指南：从青铜到王者的实战演进没什么技术 java spring boot 后端 java
一、为什么需要全局异常处理？在用户中心这类核心服务中，优雅的异常处理是系统健壮性的生命线。未处理的异常会导致：服务雪崩：单点异常扩散到整个系统（✖️）信息泄露：暴露敏感堆栈信息（）体验灾难：前端收到不可读的错误格式（）排查困难：缺乏关键错误上下文（）通过全局异常处理器，我们可以实现：✅统一错误响应格式✅集中管理错误码✅自动记录关键日志✅防止敏感信息泄露二、全局异常处理器核心实现1.基础骨架代码解析
C语言——指针基础知识 Hello_O. c语言开发语言
引言指针（Pointer）是C语言中最核心、最强大的特性之一，也是许多初学者的“拦路虎”。它直接操作内存地址的能力，赋予了C语言高效灵活的特性，但也带来了潜在的风险。理解指针的底层逻辑和正确使用方式，是掌握C语言的关键一步。本文将以通俗易懂的方式，结合代码示例，系统讲解指针的基础概念、运算规则、常见应用场景及避坑指南。一、指针是什么？1.内存地址与指针变量内存地址：计算机内存被划分为连续的存储单元
团队领导者指南：如何选择和应用项目管理方法论项目管理软件
项目管理方法论是用于规划、执行和控制项目的系统化框架和流程。不同的方法论适用于不同类型的项目和团队需求。以下是几种常见的项目管理方法论：1.瀑布模型(Waterfall)●特点:线性顺序的项目管理方法，项目分为多个阶段（如需求分析、设计、开发、测试、部署），每个阶段完成后才能进入下一个阶段。●适用场景:需求明确、变更较少的项目，如建筑、制造业等。●优点:结构清晰，易于理解和执行。●缺点:缺乏灵活性
【C++指南】解锁C++ STL：从入门到进阶的技术之旅倔强的石头_ C++指南 c++开发语言
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《C++指南》期待您的关注目录一、STL是什么二、STL的核心组件2.1容器（Containers）2.2算法（Algorithms）2.3迭代器（Iterators）2.4其他组件三、STL的优势3.1高效开发3.2高性能3.3泛型与可扩展性3.4代码简洁与可维护性3.5跨平台兼容性四、结语一、STL是什么S
kotlin-kapt yzpyzp kotlin android
kotlin-kaptkotlin-kapt是Kotlin的一个插件，专门用于处理注解处理器（AnnotationProcessor）。以下是对该插件的详细解释和指南：kotlin-kapt是什么？kotlin-kapt是Kotlin官方提供的一个插件，用于在Kotlin项目中支持注解处理。KAPT（KotlinAnnotationProcessingTool）是JavaAPT（Annotatio
使用Spring Boot开发后端应用：在IntelliJ IDEA中的实践指南风亦辰739 后端 spring boot java intellij-idea
一、什么是SpringBoot？SpringBoot是一个开源框架，用于简化Java应用的构建过程，尤其是Web应用。它是基于Spring框架的，提供了许多开箱即用的功能，极大地简化了Spring应用的配置和开发过程。SpringBoot让开发者无需关注繁琐的配置，可以专注于业务逻辑的实现。SpringBoot的优势：自动配置：SpringBoot根据项目的依赖自动配置相关功能，避免手动配置繁琐的
Python库房管理系统开发指南 Tech Synapse python 开发语言
在现代仓储管理中，高效、准确的信息系统是提高运营效率的关键。Python作为一种强大且易于学习的编程语言，非常适合用来开发简易而功能齐全的库房管理系统。本文将详细介绍如何使用Python编写一个基本的库房管理系统，包括商品入库、出库、查询库存及生成报表等功能。通过本文，读者不仅能学习到Python编程技巧，还能理解库房管理系统的基本架构和逻辑。一、系统需求分析在开发库房管理系统之前，我们需要明确系
HoRain云--Teledb表分析与碎片处理实战指南：快速提升数据库性能 HoRain云小助手数据库
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
解锁全方位健康生活指南，拥抱元气日常 yy0821yy 生活
在追求美好生活的道路上，健康是我们最坚实的后盾。想要拥有活力满满的人生，就得从生活的各个角落入手，解锁全方位的健康密码。饮食是健康的基石。日常饮食中，要确保食物种类丰富多样，像富含蛋白质的鸡蛋、牛奶，为身体修复和生长提供原料；新鲜的果蔬，比如橙子、西兰花，满满都是维生素和矿物质，帮我们提升免疫力。同时，我们要学会给饮食做减法，拒绝高油、高盐、高糖的食物，比如油炸食品、腌制咸菜、奶茶等，这些食物不仅
Python环境搭建与量化交易开发入门指南量化投资技术量化科普 Python 量化 miniQMT QMT 量化交易量化投资
Python环境搭建与量化交易开发入门指南在量化交易领域，Python因其强大的数据处理能力和丰富的库支持而成为首选编程语言。本文将指导您如何在本地搭建一个适合量化交易的Python环境，并介绍一些常用的代码编辑器和工具。《QMT开通规则分享》更多内容，知识星球搜索：数据与交易Python安装方式一：官网安装（推荐）首先，访问Python官网下载适合的版本。由于xtquant库目前最高支持到Pyt
ES java客户端中关于BucketSortPipelineAggregationBuilder的问题 Sunager ElasticSearch elasticsearch java
es聚合后进行分页（非标准分页，涉及到es底层的检索方式）es桶聚合后排序介绍见ES指南介绍//kibana对聚合后的数据GET/_search{"query":{"bool":{"filter":[{"match":{"question":"好的"}},{"range":{
LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！大模型入门学习产品经理语言模型人工智能 DeepSeek 大模型学习 LLM
前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数
Day 4：API高级开发指南翻晒时光 DeepSeek python ai
目标：构建高可用、高并发的企业级API服务系统一、流式响应工程化实践1.1流式传输核心机制技术架构对比：传输方式延迟显存占用适用场景标准响应2.1s12GB短文本生成流式响应首包300ms4GB长文档/实时交互Python异步流处理：importasynciofromdeepseekimportAsyncDeepSeekasyncdefstream_response(prompt):client=
DBA | Oracle 数据库体系结构简述! 全栈工程师修炼指南企业IT运维实践数据库 dba oracle
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]前言简述描述：为了对得起作者UP主公众号【全栈工程师修炼指南】中的【全栈】二字，从今天开始作者选择一门自己工作中常常使用的到的以及全球最流行的关系型数据库Oracle来进行学习，并记录学习过程，以供后续的自己复习回顾和帮助各位看友快速上手，从入门到高新，请各位看友一定要关注、订阅【#Oracle学习之路】专栏。上一章，我们简单介绍了ORACLE
如何在生产环境中部署您的Python项目：一步步指南一休哥助手 python python
引言简介：为什么要了解部署？在软件开发的生命周期中，部署是一个至关重要的环节。它涉及将开发完成的应用程序从开发环境移植到生产环境，使其可以为用户提供服务。部署不仅是软件开发过程的延伸，更是确保应用程序高效、安全、可靠运行的关键步骤。部署的重要性正确和高效的部署能够确保软件在生产环境中稳定运行，减少由于配置错误、依赖问题或安全漏洞导致的问题。此外，合适的部署策略还能提高系统的可维护性和扩展性，为后续
warm Agent框架入门指南：构建与编排多智能体系统的利器 aiweker AI应用开发 agent 智能体 openai 人工智能
warmAgent框架入门指南：构建与编排多智能体系统的利器Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性，非常适合处理大量独立的功能和指令。Swarm专注于使代理的协调和执行轻量级、高度可控且易于测试。它通过两个原始抽象：Age
本地运行LangChain项目的完整指南 qq_37836323 langchain python
老铁们，今天我们来聊一聊如何在本地运行LangChain项目并提交你的第一段代码。对于开发容器来说，你可以查看.devcontainer文件夹。咱们的项目是通过Poetryv1.7.1+来管理依赖的。如果你用Conda，记得先创建并激活一个新的Conda环境，例如condacreate-nlangchainpython=3.9。Poetry的安装在安装Poetry之前，老铁们注意，如果你使用Con
Kivy 模块使用python语言编译android可用的apk——Android-for-Python 静候光阴 Kivy编译apk技术全面解析 android python kivy buildozer
将为Android构建的Kivy示例。例子，名词一种可以被模仿或不被模仿的模式平行或非常相似的案例，尤其是作为先例或模型时每个存储库（用户指南除外）都包含一个独立的可运行示例。所有示例都在Android上运行，大多数在桌面上运行，还有一些在iOS上运行。包含buildozer.spec或记录对buildozer.spec所需的修改。一、CloudStorageExamples（云存储示例）概述Fi
《深入了解Unstructured包：在LangChain中使用Unstructured.IO提取干净文本》 cgsayuclv langchain python
引言在现代数据处理和人工智能应用中，解析和清洗文本数据是一个重要的环节。无论是PDF文件、Word文档还是CSV文件，能够高效地提取有用信息对下游任务至关重要。这篇文章将介绍如何使用Unstructured.IO的Unstructured包来从原始文档中提取干净文本，并在LangChain框架中使用它。本文将包含安装与设置指南、详细教程、代码示例、常见问题及解决方案，并提供进一步学习的资源。主要内
三菱PLC大型项目实战指南：从零基础到成功实施 Mountain and sea 三菱plc入门系列学习自动化
三菱PLC大型项目实战指南：从零基础到成功实施作为一名刚入门的电气工程师，想要通过一个大型项目来实践三菱PLC可能会感到有些挑战，但这是一个非常有意义的过程。以下将详细介绍如何从零基础开始，一步步完成一个大型项目，并最终成功实施。一、前期准备学习基础知识了解PLC的基本组成：首先，熟悉三菱PLC的基本结构，包括中央处理单元（CPU）、程序存储器、数据存储器和输入输出端口。掌握Ladder语言：三菱
Python新手成长之路：语法基础与实践指南健胃消食片片片片 python 开发语言
一、Python简介与环境搭建Python是一种解释型、交互式、面向对象的高级程序设计语言。Python的设计哲学强调代码的可读性和简洁性。它提供了高效的高级数据结构，还能简单有效地面向对象编程。Python支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。在学习Python之前，需要先搭建Python开发环境，具体步骤如下：安装Python：从Python官网下载安装包，并安装最新版的
Python爬虫框架Scrapy入门指南健胃消食片片片片 python 爬虫 scrapy
Scrapy是一个高效、灵活、开放的Python爬虫框架，它可以帮助开发者快速地开发出高质量的网络爬虫，而不需要太多的编码工作。以下是对Scrapy的入门指南：一、Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。尽管Scrapy最初是为网络抓取而设计的，但它也可用于使用API提取数据或用作通用网络爬虫。Scra
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag