pipisorry

python re模块

http://blog.csdn.net/pipisorry/article/details/25909899
Python除了 str 对象自带的一些方法外，re文字处理能力也很强大。
正则表达式元字符说明
[python正则表达式]

基本规则

‘[‘ ‘]’ 字符集合设定符
由一对方括号括起来的字符，表明一个字符集合，能够匹配包含在其中的任意一个字符。比如 [abc123]，表明字符’a’ ‘b’ ‘c’ ‘1’ ‘2’ ‘3’都符合它的要求。可以被匹配。
在’[‘ ‘]’中还可以通过 ’-‘ 减号来指定一个字符集合的范围，比如可以用[a-zA-Z]来指定所以英文字母的大小写，不可以把大小的顺序颠倒了。
如果在’[‘ ‘]’里面的开头写一个 ‘^’ 号，则表示取非，即在括号里的字符都不匹配。如[^a-zA-Z]表明不匹配所有英文字母。但是如果 ‘^’不在开头，则它就不再是表示取非，而表示其本身，如[a-z^A-Z]表明匹配所有的英文字母和字符’^’。

s = ‘I have a dog , I have a cat’
re.findall( r’I have a (?:dog|cat)’ , s )
[‘I have a dog’, ‘I have a cat’] #正如我们所要的
下面再看看不用无捕获组会是什么后果：
re.findall( r’I have a dog|cat’ , s )
[‘I have a dog’, ‘cat’] #它将’I have a dog’ 和’cat’当成两个规则了
至于无捕获组的使用，后面将仔细说明。这里先跳过。

‘.’ 匹配所有字符
匹配除换行符’\n’外的所有字符。如果使用了’S’选项，匹配包括’\n’的所有字符。
例：

s=’123 \n456 \n789’
findall(r‘.+’,s)
[‘123’, ‘456’, ‘789’]
re.findall(r‘.+’ , s , re.S)
[‘123\n456\n789’]

皮皮Blog

精确匹配和最小匹配

Python正则式还可以精确指定匹配的次数。

指定的方式是 :

1. ‘{m}’ 精确匹配m次; ‘{m,n}’ 匹配最少m次，最多n次。(n>m)

2. 如果你只想指定一个最少次数或只指定一个最多次数，你可以把另外一个参数空起来。比如你想指定最少3次，可以写成 {3,} （注意那个逗号），同样如果只想指定最大为5次，可以写成{，5}，也可以写成{0,5}。

例寻找下面字符串中

a：3位数

b: 2位数到4位数

c: 5位数以上的数

d: 4位数以下的数

>>> s= ‘ 1 22 333 4444 55555 666666 ‘
>>> re.findall( r’\b\d{3}\b’ , s ) # a：3位数
['333']
>>> re.findall( r’\b\d{2,4}\b’ , s ) # b: 2位数到4位数
['22', '333', '4444']
>>> re.findall( r’\b\d{5,}\b’, s ) # c: 5位数以上的数
['55555', '666666']
>>> re.findall( r’\b\d{1,4}\b’ , s ) # 4位数以下的数
['1', '22', '333', '4444']

数量词的贪婪模式与非贪婪模式 ‘*?’ ‘+?’ ‘??’ 最小匹配

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式"ab*"如果用于查找"abbbc"，将找到"abbb"。而如果使用非贪婪的数量词"ab*?"，将找到"a"。[python正则表达式]

‘*’ ‘+’ ‘?’通常都是尽可能多的匹配字符。有时候我们希望它尽可能少的匹配。比如一个c语言的注释 ‘/* part 1 */ /* part 2 */’，如果使用最大规则：

>>> s =r ‘/* part 1 */ code /* part 2 */’
>>> re.findall( r’/\*.*\*/’ , s )
[‘/* part 1 */ code /* part 2 */’]

结果把整个字符串都包括进去了。如果把规则改写成

>>> re.findall( r’/\*.*?\*/’ , s ) #在*后面加上?，表示尽可能少的匹配
['/* part 1 */', '/* part 2 */']

结果正确的匹配出了注释里的内容

‘^’和’$’ 匹配字符串开头和结尾

注意’^’不能在‘[ ]’中，否则请看上面的’[‘ ‘]’说明。

在多行模式下，它们可以匹配每一行的行首和行尾。具体请看后面compile函数说明的’M’选项部分

‘\A’ 匹配字符串开头
匹配字符串的开头。它和’^’的区别是，’\A’只匹配整个字符串的开头（相当于单行模式），即使在’M’模式下，它也不会匹配其它行的行首。
‘\Z’ 匹配字符串结尾
匹配字符串的结尾。它和’$’的区别是，’\Z’只匹配整个字符串的结尾，即使在’M’模式下，它也不会匹配其它各行的行尾。
例：

s= ‘12 34\n56 78\n90’
re.findall( r’^\d+’ , s , re.M ) #匹配位于行首的数字
[‘12’, ‘56’, ‘90’]
re.findall( r’\A\d+’, s , re.M ) #匹配位于字符串开头的数字
[‘12’]
re.findall( r’\d+$’ , s , re.M ) #匹配位于行尾的数字
[‘34’, ‘78’, ‘90’]
re.findall( r’\d+\Z’ , s , re.M ) #匹配位于字符串尾的数字
[‘90’]

‘\d’ 匹配数字
’\d’表示匹配一个数字，即等价于[0-9]
‘\D’ 匹配非数字
匹配一个非数字的字符，等价于[^0-9]

‘\w’ 匹配字母和数字
匹配所有的英文字母和数字，即等价于[a-zA-Z0-9]。
‘\W’ 匹配非英文字母和数字
即’\w’的补集，等价于[^a-zA-Z0-9]。

‘\s’ 匹配间隔符
即匹配空格符、制表符、回车符等表示分隔意义的字符，它等价于[ \t\r\n\f\v]。（注意最前面有个空格)
‘\S’ 匹配非间隔符
即间隔符的补集，等价于[^ \t\r\n\f\v]

‘\b’ 匹配单词边界(相当于前向界定和后向界定)
它匹配一个单词的边界，比如空格等，不过它是一个‘0’长度字符，它匹配完的字符串不会包括那个分界的字符。而如果用’\s’来匹配的话，则匹配出的字符串中会包含那个分界符。
例：

s = ‘abc abcde bc bcd’
re.findall( r’\bbc\b’ , s ) #匹配一个单独的单词 ‘bc’ ，而当它是其它单词的一部分的时候不匹配
[‘bc’] ＃只找到了那个单独的’bc’
re.findall( r’\sbc\s’ , s ) ＃匹配一个单独的单词 ‘bc’
[’ bc ‘] #只找到那个单独的’bc’，不过注意前后有两个空格，可能有点看不清楚

‘\B’ 匹配非边界
和’\b’相反，它只匹配非边界的字符。它同样是个0长度字符。
接上例：

re.findall( r’\Bbc\w+’ , s ) #匹配包含’bc’但不以’bc’为开头的单词
[‘bcde’] #成功匹配了’abcde’中的’bcde’，而没有匹配’bcd’

‘(?:)’ 无捕获组
当你要将一部分规则作为一个整体对它进行某些操作，比如指定其重复次数时，你需要将这部分规则用’(?:’ ‘)’把它包围起来，而不能仅仅只用一对括号，那样将得到绝对出人意料的结果。
例：匹配字符串中重复的’ab’

s=’ababab abbabb aabaab’
re.findall( r’\b(?:ab)+\b’ , s )
[‘ababab’]
如果仅使用一对括号，看看会是什么结果：
re.findall( r’b(ab)+\b’ , s )
[‘ab’]
这是因为如果只使用一对括号，那么这就成为了一个组(group)。

‘(?# )’ 注释
Python允许你在正则表达式中写入注释，在’(?#’ ‘)’之间的内容将被忽略。

(?iLmsux) 编译选项指定
Python的正则式可以指定一些选项，这个选项可以写在findall或compile的参数中，也可以写在正则式里，成为正则式的一部分。这在某些情况下会便利一些。具体的选项含义请看后面的compile函数的说明。
此处编译选项’i’ 等价于IGNORECASE ，L 等价于 LOCAL ，m 等价于 MULTILINE ，s 等价于 DOTALL ，u 等价于 UNICODE ， x 等价于 VERBOSE 。
请注意它们的大小写。在使用时可以只指定一部分，比如只指定忽略大小写，可写为 ‘(?i)’，要同时忽略大小写并使用多行模式，可以写为 ‘(?im)’。
另外要注意选项的有效范围是整条规则，即写在规则的任何地方，选项都会对全部整条正则式有效。

皮皮Blog

前向界定与后向界定
有时候需要匹配一个跟在特定内容后面的或者在特定内容前面的字符串，Python提供一个简便的前向界定和后向界定功能，或者叫前导指定和跟从指定功能。它们是：
‘(?<=…)’ 前向界定
括号中’…’代表你希望匹配的字符串的前面应该出现的字符串。
‘(?=…)’ 后向界定
括号中的’…’代表你希望匹配的字符串后面应该出现的字符串。
例：你希望找出c语言的注释中的内容，它们是包含在’/’和’/’之间，不过你并不希望匹配的结果把’/’和’/’也包括进来，那么你可以这样用：

s=r'/* comment 1 */ code /* comment 2 */'
print(re.findall(r'(?<=/\*).*?(?=\*/)', s))
[' comment 1 ', ' comment 2 ']

Note:

1. 注意这里我们仍然使用了最小匹配，以避免把整个字符串给匹配进去了。
2. 前向界定括号中的表达式必须是常值，也即你不可以在前向界定的括号里写正则式或者变量。

比如你如果在下面的字符串中想找到被字母夹在中间的数字，你不可以用前向界定：
s = ‘aaa111aaa , bbb222 , 333ccc ‘
re.findall( r’(?<=[a-z]+)\d+(?=[a-z]+)’ , s ) # 错误的用法
它会给出一个错误信息：
error: look-behind requires fixed-width pattern

不过如果你只要找出后面接着有字母的数字，你可以在后向界定写正则式：

re.findall( r’\d+(?=[a-z]+)’, s )
[‘111’, ‘333’]
如果你一定要匹配包夹在字母中间的数字，你可以使用组（group）的方式
re.findall (r’[a-z]+(\d+)[a-z]+’ , s )
[‘111’]
组的使用将在后面详细讲解。

Note:小编皮建议用组()来代替

前向非界定和后向非界定
‘(?< !…)’前向非界定(<和!中间是没有空格的，makedown编辑器会将博客中的< !当成注释不显示， - -！给醉了。。。)
只有当你希望的字符串前面不是’…’的内容时才匹配
‘(?!…)’后向非界定
只有当你希望的字符串后面不跟着’…’内容时才匹配。
接上例，希望匹配后面不跟着字母的数字

re.findall( r’\d+(?!\w+)’ , s )
[‘222’]
注意这里我们使用了\w而不是像上面那样用[a-z]，因为如果这样写的话，结果会是：
re.findall( r’\d+(?![a-z]+)’ , s )
[‘11’, ‘222’, ‘33’]
这和我们期望的似乎有点不一样。它的原因，是因为’111’和’222’中的前两个数字也是满足这个要求的。因此可看出，正则式的使用还是要相当小心的，因为我开始就是这样写的，看到结果后才明白过来。不过Python试验起来很方便，这也是脚本语言的一大优点，可以一步一步的试验，快速得到结果，而不用经过烦琐的编译、链接过程。也因此学习Python就要多试，跌跌撞撞的走过来，虽然曲折，却也很有乐趣。

皮皮Blog

组的基本知识
上面那些规则的话，还是有很多情况下会非常麻烦，比如使用前向界定和后向界定取夹在字母中间的数字的例子。用前面讲过的规则都很难达到目的，但是用了组以后就很简单了。
‘(‘’)’ 无命名组
最基本的组是由一对圆括号括起来的正则式。比如上面匹配包夹在字母中间的数字的例子中使用的(\d+)，我们再回顾一下这个例子：

s = 'aaa111aaa , bbb222 , 333ccc '
print(re.findall (r'[a-z]+(\d+)[a-z]+' , s ) )
[‘111’]

Note:findall函数只返回了包含在’()’中的内容，而虽然前面和后面的内容都匹配成功了，却并不包含在结果中。

用组来实现前后向界定

s = 'dfidabc：dfidefdoildef'
pre = 'abc'
post = 'def'
patten = pre + '[:：].+?' + post
answer = re.findall(patten, s)
print(answer)
['abc：dfidef']

Note:其中还用到了上面的最小匹配规则
‘(?P…)’ 命名组
‘(?P’代表这是一个Python的语法扩展’<…>’里面是你给这个组起的名字，比如你可以给一个全部由数字组成的组叫做’num’，它的形式就是’(?P\d+)’。起了名字之后，我们就可以在后面的正则式中通过名字调用这个组，它的形式是
‘(?P=name)’ 调用已匹配的命名组
要注意，再次调用的这个组是已被匹配的组，也就是说它里面的内容是和前面命名组里的内容是一样的。
我们可以看更多的例子：请注意下面这个字符串各子串的特点。

s=’aaa111aaa,bbb222,333ccc,444ddd444,555eee666,fff777ggg’
我们看看下面的正则式会返回什么样的结果：
re.findall( r’([a-z]+)\d+([a-z]+)’ , s ) # 找出中间夹有数字的字母
[(‘aaa’, ‘aaa’), (‘fff’, ‘ggg’)]
re.findall( r ‘(?P[a-z]+)\d+(?P=g1)’ , s ) #找出被中间夹有数字的前后同样的字母
[‘aaa’]
re.findall( r’[a-z]+(/d+)([a-z]+)’ , s ) #找出前面有字母引导，中间是数字，后面是字母的字符串中的中间的数字和后面的字母
[(‘111’, ‘aaa’), (‘777’, ‘ggg’)]

我们可以通过命名组的名字在后面调用已匹配的命名组，不过名字也不是必需的。
‘\number’ 通过序号调用已匹配的组
正则式中的每个组都有一个序号，序号是按组从左到右，从1开始的数字，你可以通过下面的形式来调用已匹配的组
比如上面找出被中间夹有数字的前后同样的字母的例子，也可以写成：

re.findall( r’([a-z]+)\d+\1’ , s )
[‘aaa’]
结果是一样的。
我们再看一个例子
s=’111aaa222aaa111 , 333bbb444bb33’
re.findall( r’(\d+)([a-z]+)(\d+)(\2)(\1)’ , s ) #找出完全对称的数字－字母－数字－字母－数字中的数字和字母
[(‘111’, ‘aaa’, ‘222’, ‘aaa’, ‘111’)]

条件匹配功能(Python2.4以后的re模块)
‘(?(id/name)yes-pattern|no-pattern)’ 判断指定组是否已匹配，执行相应的规则
这个规则的含义是，如果id/name指定的组在前面匹配成功了，则执行yes-pattern的正则式，否则执行no-pattern的正则式。
举个例子，比如要匹配一些形如 usr@mail 的邮箱地址，不过有的写成< usr@mail >即用一对<>括起来，有点则没有，要匹配这两种情况，可以这样写

>>> s=<usr1@mail1> usr2@maill2'
>>> re.findall( r'(<)?\s*(\w+@\w+)\s*(?(1)>)' , s )
[('<', 'usr1@mail1'), ('', 'usr2@maill2')]

不过如果目标字符串如下

>>> s='<usr1@mail1>  usr2@maill2 <usr3@mail3   usr4@mail4>  < usr5@mail5  '

而你想得到要么由一对<>包围起来的一个邮件地址，要么得到一个没有被<>包围起来的地址，但不想得到一对<>中间包围的多个地址或不完整的<>中的地址，那么使用这个式子并不能得到你想要的结果

>>> re.findall( r'(<)?\s*(\w+@\w+)\s*(?(1)>)' , s )
[('<', 'usr1@mail1'), ('', 'usr2@maill2'), ('', 'usr3@mail3'), ('', 'usr4@mail4'), ('', 'usr5@mail5')]

它仍然找到了所有的邮件地址。想要实现这个功能，单纯的使用findall有点吃力，需要使用其它的一些函数，比如match或search函数，再配合一些控制功能。这部分的内容将在下面详细讲解。

皮皮Blog

导入正则表达式模块

3.1、导入正则表达式模块

import re
3.2、查看正则表达式模块方法
dir(re)
[‘DEBUG’, ‘DOTALL’, ‘I’, ‘IGNORECASE’, ‘L’, ‘LOCALE’, ‘M’, ‘MULTILINE’, ‘S’, ‘Scanner’, ‘T’,’TEMPLATE’, ‘U’, ‘UNICODE’, ‘VERBOSE’, ‘X’, ‘_MAXCACHE’, ‘all‘, ‘builtins‘, ‘doc‘,’file‘, ‘name‘, ‘package‘, ‘version‘, ‘_alphanum’, ‘_cache’, ‘_cache_repl’,’_compile’, ‘_compile_repl’, ‘_expand’, ‘_pattern_type’, ‘_pickle’, ‘_subx’, ‘compile’,’copy_reg’, ‘error’, ‘escape’, ‘findall’, ‘finditer’, ‘match’, ‘purge’, ‘search’, ‘split’,’sre_compile’, ‘sre_parse’, ‘sub’, ‘subn’, ‘sys’, ‘template’]

Match Object对象拥有的方法

1.group([group1,…])
　返回匹配到的一个或者多个子组。如果是一个参数，那么结果就是一个字符串，如果是多个参数，那么结果就是一个参数一个item的元组。group1的默认值为0(将返回所有的匹配值).如果groupN参数为0，相对应的返回值就是全部匹配的字符串，如果group1的值是[1…99]范围之内的,那么将匹配对应括号组的字符串。如果组号是负的或者比pattern中定义的组号大，那么将抛出IndexError异常。如果pattern没有匹配到，但是group匹配到了，那么group的值也为None。如果一个pattern可以匹配多个，那么组对应的是样式匹配的最后一个。另外，子组是根据括号从左向右来进行区分的。
　>m=re.match(“(\w+) (\w+)”,”abcd efgh, chaj”)
　>m.group() # 匹配全部
　‘abcd efgh’
　>m.group(1) # 第一个括号的子组.
　‘abcd’
　>m.group(2)
　‘efgh’
　>m.group(1,2) # 多个参数返回一个元组
　(‘abcd’, ‘efgh’)
　>m=re.match(“(?P\w+) (?P\w+)”,”sam lee”)

m.group(“first_name”) #使用group获取含有name的子组
‘sam’
m.group(“last_name”)
‘lee’

　下面把括号去掉
　>m=re.match(“\w+ \w+”,”abcd efgh, chaj”)
　>m.group()
　‘abcd efgh’
　>m.group(1)
　Traceback (most recent call last):
File “pyshell#32>”, line 1, in
m.group(1)
　IndexError: no such group

　If a group matches multiple times, only the last match is accessible:
如果一个组匹配多个，那么仅仅返回匹配的最后一个的。
　>m=re.match(r”(..)+”,”a1b2c3”)
　>m.group(1)
　‘c3’
　>m.group()
　‘a1b2c3’
　Group的默认值为0，返回正则表达式pattern匹配到的字符串

　>s=”afkak1aafal12345adadsfa”
　>pattern=r”(\d)\w+(\d{2})\w”
　>m=re.match(pattern,s)
　>print m
　None
　>m=re.search(pattern,s)
　>m
　<_sre.SRE_Match object at 0x00C2FDA0>
　>m.group()
　‘1aafal12345a’
　>m.group(1)
　‘1’
　>m.group(2)
　‘45’
　>m.group(1,2,0)
　(‘1’, ‘45’, ‘1aafal12345a’)

　2.groups([default])
　返回一个包含所有子组的元组。Default是用来设置没有匹配到组的默认值的。Default默认是”None”,
　>m=re.match(“(\d+).(\d+)”,”23.123”)
　>m.groups()
　(‘23’, ‘123’)
　>m=re.match(“(\d+).?(\d+)?”,”24”) #这里的第二个\d没有匹配到，使用默认值”None”
　>m.groups()
　(‘24’, None)
　>m.groups(“0”)
　(‘24’, ‘0’)

　3.groupdict([default])
　返回匹配到的所有命名子组的字典。Key是name值，value是匹配到的值。参数default是没有匹配到的子组的默认值。这里与groups()方法的参数是一样的。默认值为None
　>m=re.match(“(\w+) (\w+)”,”hello world”)
　>m.groupdict()
　{}
　>m=re.match(“(?P\w+) (?P\w+)”,”hello world”)
　>m.groupdict()
　{‘secode’: ‘world’, ‘first’: ‘hello’}
通过上例可以看出，groupdict()对没有name的子组不起作用
python re模块用法总结

皮皮Blog

常用的正则表达式处理函数

提示：

1. 当我们不会用模块方法的时候用help

2. pattern中的字符串要和string的编码一致，不然会找不到，这个经常出现。

1、re.search
re.search 函数会在字符串内查找模式匹配，直到找到第一个匹配然后返回一个对象k，k.group(0)代表整个匹配模式对应的字符串，k.group(1)代表匹配模式中的组对应的字符串

如果字符串没有匹配，则返回None。

help(re.search)
search(pattern, string, flags=0)
第一个参数：规则
第二个参数：表示要匹配的字符串
第三个参数：标致位，用于控制正则表达式的匹配方式

实例：下面的例子kuangl
name=”Hello,My name is kuangl,nice to meet you…”
k=re.search(r’k(uan)gl’,name)
if k:
… print k.group(0),k.group(1)
… else:
… print ”Sorry,not search!”
…
kuangl uan

2、re.match
re.match 尝试从字符串的开始匹配一个模式，也等于说是匹配第一个单词

help(re.match)
match(pattern, string, flags=0)

第一个参数：规则
第二个参数：表示要匹配的字符串
第三个参数：标致位，用于控制正则表达式的匹配方式

实例1：下面的例子匹配Hello单词

name=”Hello,My name is kuangl,nice to meet you…”
k=re.match(r”(\H….)”,name)
if k:
… print k.group(0),’\n’,k.group(1)
… else:
… print “Sorry,not match!”
…
Hello
Hello

Note: re.match与re.search的区别：re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

实例2：判断字符串i是否是一个数字串

if re.match('\d+', i)

3、re.findall
re.findall 在目标字符串查找符合规则的字符串

help(re.findall)
findall(pattern, string, flags=0)

第一个参数：规则
第二个参数：目标字符串
但三个参数：后面还可以跟一个规则选择项
返回的结果是一个列表(如果有括号()分组，则只返回所有分组的列表)，列表中存放的是符合规则的字符串，如果没有符合规则的字符串找到，就会返回一个空值。

实例：查找邮件账号

mail=’[email protected]@mail.com [email protected]’#第3个故意没有尖括号
re.findall(r’(\w+@m….[a-z]{3})’,mail)
[‘[email protected]’, ‘[email protected]’, ‘[email protected]’]

实例2：

post_ori_text = r'sinaSSOController.preloginCallBack({"retcode":0,"servertime":1441512360,"pcid":"gz-da3c627b7b8260ba5cfd453f4eb3347ca01f","nonce":"9OZ4S7","pubkey":
"EB2A385686618****","rsakv":"1330428213","exectime":3})'
re.findall('{"retcode":(.*?),"servertime":(.*?),"pcid":"(.*?)","nonce":"(.*?)","pubkey":"(.*?)","rsakv":"(.*?)","exectime":(.*?)}', post_ori_text, re.I)[0]

上面的结果为(u'0', u'1441512470', u'gz-eae72a8b0f6be469f4ac627ca38f7069d5c5', u'D2HXK0', u'EB2A38568661887FA18******', u'1330428213', u'2')

4、re.sub
re.sub 用于替换字符串的匹配项

help(re.sub)
sub(pattern, repl, string, count=0)

第一个参数：规则
第二个参数：替换后的字符串
第三个参数：字符串
第四个参数：替换个数。默认为0，表示每个匹配项都替换
实例：将空白处替换成-

test=”Hi, nice to meet you where are you from?”
re.sub(r’\s’,’-‘,test)
‘Hi,-nice-to-meet-you-where-are-you-from?’
re.sub(r’\s’,’-‘,test,5) #替换至第5个
‘Hi,-nice-to-meet-you-where are you from?’

5、re.split

re.split 用于来分割字符串

help(re.split)
split(pattern, string, maxsplit=0)

第一个参数：规则
第二个参数：字符串
第三个参数：最大分割字符串，默认为0，表示每个匹配项都分割
实例：分割所有的字符串

test=”Hi, nice to meet you where are you from?”
re.split(r”\s+”,test)
[‘Hi,’, ‘nice’, ‘to’, ‘meet’, ‘you’, ‘where’, ‘are’, ‘you’, ‘from?’]
re.split(r”\s+”,test,3) #分割前三个
[‘Hi,’, ‘nice’, ‘to’, ‘meet you where are you from?’]

python使用多个分隔符分割字符串

下面是使用汉语标点符号[。！？，]和英文标点符号[!?,]以及微博转发符号“//@”作为断句的分隔符的示例

line = '地丁 一。雪！地陪？霜 ，阿!地?地址,鄄鄄//@村鄄李'
print(re.split(r'[。！？，!?,]|//@', line))

['地丁一', '雪', '地陪', '霜 ', '阿', '地', '地址', '鄄鄄', '村鄄李']

6、re.compile
re.compile 可以把正则表达式编译成一个正则对象。可以把那些经常使用的正则表达式编译成正则表达式对象，这样可以提高一定的效率。

help(re.compile)
compile(pattern, flags=0)

第一个参数：规则
第二个参数：标志位
实例：

test=”Hi, nice to meet you where are you from?”
k=re.compile(r’\w*o\w*’) #匹配带o的字符串
dir(k)
[‘copy‘, ‘deepcopy‘, ‘findall’, ‘finditer’, ‘match’, ‘scanner’, ‘search’, ‘split’,’sub’, ‘subn’]
print k.findall(test) #显示所有包涵o的字符串
[‘to’, ‘you’, ‘you’, ‘from’]
print k.sub(lambdam: ‘[‘+m.group(0) +’]’,test) # 将字符串中含有o的单词用[]括起来
Hi, nice [to] meet [you] where are [you] [from]?

皮皮Blog

Python正则库API及正则选项

re选项

re库API中，一般都有flags参数，通过该参数指定正则表达式选项。传递时一般使用简写，比如开启DOTALL和MULTILINE使用re.I|re.M

A ASCII 使\w\W\b\B\d\D匹配ASCII字符 I IGNORECASE 忽略大小写 L LOCALE 使\w\W\b\B匹配本地字符集 M MULTILINE 多行模式，"^" 匹配每行开头，"$"匹配每行结尾 S DOTALL "." 匹配所有字符，包括"\n" X VERBOSE 详细模式，忽略空白可以加入注释 U UNICODE 使\w\W\b\B\d\D匹配unicode字符集

API速查

这里只是列出API，便于查阅，后面会详细介绍API的使用。建议先跳过这一段，直接看后面的Sample，再回过头来看这一段。

API分为三组，第一组是模块API(Module Contents),通过re.xx()使用；第二组是表达式API(Regular Expression Objects)，re.complie()函数会返回一个表达式对象，通过该对象使用的函数；第三组是匹配对象API(Match Objects)，像search这些函数都会返回一个匹配结果，这组API用于操作结果集。

re库对于很多函数，例如match，都提供了两种调用方式，一是直接通过re库调用，将正则表达式作为参数，二是先用complie编译表达式，通过返回的对象调用，方法二在正则表达式会被多次使用时会减少重复编译花费的时间。

模块APII(Module Contents)
re.compile(pattern, flags=0)                预编译一个正则表达式，返回一个表达式对象(Regular Expression Objects)
re.search(pattern, string, flags = 0)       在字符串中找匹配的串，返回第一个匹配到的匹配对象
re.match(pattern, string, flags=0)          从头开始匹配，返回匹配对象
re.split(pattern, string, maxsplit=0, flags=0)  使用pattern分割字符串，返回一个结果list
re.findall(pattern, string, flags=0)        search加强版，返回所有的匹配对象的list
re.finditer(pattern, string, flags=0)       返回一个迭代器，用户可以使用迭代器查看所有匹配对象
re.sub(pattern, repl, string, count=0, flags=0)  使用repl替换string中pattern匹配到的部分；
                                                 这里repl可以是一个函数，参数是匹配对象，返回要替代的串
re.subn(pattern, repl, string, count=0, flags=0) 类似sub，返回元组(new_string, number_of_subs_made)
re.escape(string)                           将所有的非字母数字字符前加"\"后返回
re.purge()                                  清空正则表达式缓存

表达式API(Regular Expression Objects)
flags                                       编译时的flag
groups                                      表达式中分组的数量
groupindex                                  以有别名的组别名为键、编号为值的字典
pattern                                     编译时用的表达式字符串
search(string[, pos[, endpos]])             从Pos处开始查找字符串，返回匹配对象
match(string[, pos[, endpos]])              从Pos处匹配字符串，返回匹配对象
split(string, maxsplit=0)                   同re.split
findall(string[, pos[, endpos]])            从Pos处查找所有匹配的字符串，返回所有匹配对象的list
finditer(string[, pos[, endpos]])           从Pos处查找所有的字符串，返回一个迭代器
sub(repl, string, count=0)                  同re.sub
subn(repl, string, count=0)                 同re.subn

匹配对象API(Match Objects)
pos                     传递给函数的pos
endpos                  传递给函数的endpos
lastindex               最后一个捕获的group的下标
lastgroup               最后一个捕获的group的名字
re                      调用match或者search的表达式对象
string                  match或者search的字符串
expand(template)        将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组
                        注意0不能使用，另外\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。
group([group1, ...])    获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回，0代表整个匹配串
groups([default])       以元组形式返回全部分组截获的字符串，相当于调用group((1,2,…n))
groupdict([default])    返回以有别名的组的别名为键、以该组截获的子串为值的字典
start([group])          返回指定组的串在原串中的起始索引
end([group])            返回指定组的串在原串中的结束索引
span([group])           返回(start(group), end(group))

[ 基于Python官方手册的翻译和整理]

from:http://blog.csdn.net/pipisorry/article/details/25909899

ref:通配符和正则表达式

Python正则式的基本用法

你可能感兴趣的:(正则表达式,python,re)

QT6.5+qt-quick学习笔记 m0_63052064 学习
为什么用QMLQML是一种声明式语言，这意味着开发者只需要描述用户界面的外观和行为，而不需要关心具体的实现细节。这种方式减少了代码量，使得界面设计更加直观和高效。QML提供了丰富的UI组件和动画效果，开发者可以快速创建出现代化、用户友好的应用程序QML基于JavaScript并且与JavaScript的结合使得创建交互式和动画效果变得简单且高效。开发以Debug方式可以按步运行，调试；releas
网上FLAC3D学习笔记 lqlong19922008 FLAC数值模拟 primitive plot interface filter ini table
建议：初学者将FLAC/FLAC3D版所有帖子都浏览一遍；学有所得后，再浏览一遍，会发现又有新的收获。第一部分（相关链接）1.FLAC3D知识基本介绍SimWehttp://www.simwe.com/forum/viewthread.php?tid=209662http://www.simwe.com/forum/viewthread.php?tid=573644http://www.simwe
探索Reflex：用纯Python构建高性能Web应用倪姿唯Kara
探索Reflex：用纯Python构建高性能Web应用项目地址:https://gitcode.com/gh_mirrors/re/reflex项目介绍Reflex，前身为Pynecone，是一个革命性的开源库，允许开发者使用纯Python构建全栈Web应用。Reflex的核心理念是简化Web开发的复杂性，通过提供一个统一的框架，让开发者能够专注于业务逻辑而非技术细节。无论是初学者还是经验丰富的开
机器学习：利用sklearn实现心脏病预测薄化克Oswald
机器学习：利用sklearn实现心脏病预测机器学习sklearn实现心脏病预测项目地址:https://gitcode.com/Resource-Bundle-Collection/171ff欢迎使用本资源仓库，本项目专注于利用Python的sklearn库进行心脏病预测的机器学习实践。通过详尽的步骤和示例代码，本项目为你展示了如何应用不同的机器学习算法来分析心脏病数据集，并预测患者是否有可能患有
探索灵活高效的UI开发新境界：Reflex库荣正青
探索灵活高效的UI开发新境界：Reflex库reflexjsAlibraryforrapidUIdevelopmentwithstyleprops,colormodes,themesandvariants+starterkits,themesandblockstohelpyoubuildGatsbyandNext.jssitesfaster.项目地址:https://gitcode.com/gh_
探索Reflex：纯Python打造高性能web应用的未来孔岱怀
探索Reflex：纯Python打造高性能web应用的未来去发现同类优质开源项目:https://gitcode.com/在快速迭代的Web开发领域，寻找一种既高效又能让开发者以熟悉的方式工作的框架至关重要。今天，我们来深入了解一个革新性的开源项目——Reflex，它承诺让你在纯Python的环境中构建响应式web应用，并且能在几秒钟内完成部署。1.项目介绍Reflex是一个新兴的全栈web框架，
docker部署spring-boot项目后，验证码获取报错解决阔海&空天异常解决 docker spring java
报错信息如下：2020-10-2116:13:03.603ERROR9---[XNIO-1task-2]c.e.c.s.handler.GlobalExceptionHandler:全局异常信息ex=nulljava.lang.NullPointerException:nullatsun.awt.FontConfiguration.getVersion(FontConfiguration.java
python | cudf，一个超实用的 Python 库！双木的木 python拓展学习 python库 python 开发语言人工智能深度学习算法 database 数据分析
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：cudf，一个超实用的Python库！大家好，今天为大家分享一个超实用的Python库-cudf。Github地址：https://github.com/rapidsai/cudf在数据分析和科学计算领域，Pandas是最常用的Python工具之一，然而随着数据规模的增长，其单线程CPU的处理性能往往成为瓶颈。cuDF是N
2025年8个热门Python Web开发框架极道Jdon javascript reactjs
Python拥有适合各种用例的框架，从全栈Web开发到数据可视化，为每位开发人员提供了所需的工具。得益于其活跃的社区和强大的生态系统，开发人员在构建Web应用时拥有广泛的选择。然而，选择数量之多可能会使您难以为您的项目选择合适的框架。这就是为什么我们回顾了用于构建Web应用程序的顶级Python框架，并比较了每个框架的优缺点。在本文中，我们将回顾以下框架：Reflex、Django、Flask、G
python | reflex，一个无敌的 Python 库！双木的木深度学习拓展阅读 python库 python拓展学习 python 开发语言算法人工智能深度学习硬件工程异步
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：reflex，一个无敌的Python库！大家好，今天为大家分享一个无敌的Python库-reflex。Github地址：https://github.com/reflex-dev/reflex在软件开发过程中，事件驱动编程模型越来越受欢迎，尤其是在处理复杂的系统和实时交互时。Reflex是一个轻量级的Python库，它专注
「SpringCloudAlibaba系列」分布式限流框架Sentinel基本引用｜我有一头小花驴分布式 sentinel
分布式限流框架Sentinel基本引用Sentinel的基本引用使用Sentinel的核心库实现限流，主要分以下几个步骤：定义资源定义限流规则校验规则是否生效Sentinel实现限流引入Sentinel核心库com.alibaba.cspsentinel-core1.8.2复制代码定义普通业务方法privatestaticvoiddoLimiting(){try(Entrylimiting=Sph
力扣LeetCode: 219 存在重复元素Ⅱ 不想编程小谭 LeetCode leetcode 算法数据结构
新年快乐！！！题目：给你一个整数数组nums和一个整数k，判断数组中是否存在两个不同的索引i和j，满足nums[i]==nums[j]且abs(i-j)&nums,intk){std::unordered_setwindow;//滑动窗口，存储当前窗口内的元素for(inti=0;ik){window.erase(nums[i-k]);//移除窗口最左边的元素}}returnfalse;//没有找
遗传算法GA特征选择Python 明天早下班YEAH python 笔记其他
一、遗传算法GA特征选择——代码importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportRandomForestRegressorfromsklearn.metricsimportmean_squared_error,r2_scorefromg
CTF-web: YAML是什么 A5rZ 网络安全
YAML（YAMLAin’tMarkupLanguage）是一种常见的序列化数据格式，主要用于配置文件和数据交换。它的设计目标是简洁、易读，并且易于与编程语言交互。YAML使用缩进来表示层次结构，类似于Python的语法。：基本语法结构键值对：YAML中最基本的结构是键值对，用于表示映射（类似于Python的字典）。name:JohnDoeage:30列表：用破折号（-）表示列表项。items:-
CTF-WEB:PHP伪协议用法总结 A5rZ php ctf web
php://伪协议：php://是PHP中的一个虚拟协议（或称为流包装器），用于访问PHP内部流资源。它是PHP提供的内置流协议之一，允许你通过流（stream）方式访问PHP内部的数据流、文件或其他资源。与file://等协议不同，php://并不直接映射到文件系统，而是用于处理PHP特有的资源，如输入输出流、临时文件、PHP自身的内存流等。php://协议是PHP流包装器的一部分，允许在PHP
CTF-RE 从0到N: 基本按位运算逻辑 A5rZ 算法 ctf ctf-RE
利用移位快速乘除2^n左移运算(>)等效于将数除以2的某个幂次（舍弃小数部分）。示例：计算8*4和32/4：intx=8;intresult1=x>2;//32/2^2=8printf("%d\n",result2);//输出：8intpower_of_2=1>=1;}printf("Numberof1s:%d\n",count);//输出：4作用：位计数在位图、数据压缩和错误检测中非常常见。2.
python3调用arcpy地理加权回归_混合地理加权回归python实现代码 weixin_39942995
【实例简介】通过python编码实现MGWR、MGWTR模型的求解。能够解决空间非平稳性问题。【实例截图】【核心代码】mgwr-py└──mgwr-master├──CHANGELOG.md├──LICENSE├──MANIFEST.in├──README.md├──doc│├──Makefile│├──_static││├──images│││├──gwr-mgwr.png│││└──pysal
python在abaqus中的应用_Python在ABAQUS中的使用【z】 weixin_39835925
【篇首语】首先说，我不懂abaqus。只是一次帮同学处理混合编程问题查到这些资料，借机贴过来。拷贝过程中有些混乱字符，时间关系我没有删干净。因为我也是从转帖转过来，原出处找不到了。#开头的为注释行.9_-m2r;n%h-G第一节,建立建模环境,这一步中py将从abaqus中导入建模所需的所有程序模块frompartimport*接下来定义草图环境mdb.models['Model-1'].Sket
ctf python大法好_【技术分享】记CTF比赛中发现的Python反序列化漏洞 weixin_39631370 ctf python大法好
预估稿费：200RMB投稿方式：发送邮件至linwei#360.cn，或登陆网页版在线投稿写在前面的话在前几天，我有幸参加了ToorConCTF(https://twitter.com/toorconctf)，而在参加此次盛会的过程中我第一次在Python中发现了序列化漏洞。在我们的比赛过程中，有两个挑战中涉及到了能够接受序列化对象的Python库，而我们通过研究发现，这些Python库中存在的安
python3调用arcpy地理加权回归_分析地理加权回归分析结果的操作方法 weixin_39545269
1从地理加权回归(GWR)工具生成的输出包括以下内容：输出要素类可选系数栅格表面整体模型结果的消息窗口报告显示模型变量和诊断结果的辅助表预测输出要素类2下文中将使用一系列运行GWR和解释GWR结果的步骤对以上每项输出进行说明。通常将以普通最小二乘法(OLS)开始回归分析。有关详细信息，请参阅回归分析基础知识和解释OLS回归结果。回归分析的一种常用方法是在移动到GWR之前识别可能的最佳OLS模型。此
python炫酷特效代码_推荐几个炫酷的 Python 开源项目高杉峻 python炫酷特效代码
推荐几个炫酷的Python开源项目项目一:Supervisor简介:Supervisor是实际企业常用的一款Linux/Unix系统下的一个进程管理工具,基于Python开发,可以很方便的监听,启动,停止,重启一个或多个进程,而且当进程意外被杀死时,其可以实现自动恢复,很方便的做到进程自动恢复的功能,提高系统,服务的稳定性,多用于生产环境.下载地址:https://github.com/Super
198、Django安全攻略：全方位防护Web应用常见漏洞多多的编程笔记 django 安全前端
Python开发框架Django之安全性：防止常见的Web安全漏洞本文将为大家介绍Python开发框架Django的安全性，重点关注如何防止常见的Web安全漏洞。我们将简要了解Web安全漏洞的背景知识，然后深入探讨Django框架在防止这些漏洞方面的优势，最后提供一些实用的技巧和案例。一、Web安全漏洞概述在互联网时代，Web安全漏洞已经成为黑客攻击的首选目标。常见的Web安全漏洞包括：跨站脚本攻
rate-limit 一款 java 开源渐进式分布式限流框架使用介绍老马啸西风动手写框架 java 开源 spring
项目简介rate-limit是一个为java设计的渐进式限流工具。目的是为了深入学习和使用限流，后续将会持续迭代。特性渐进式实现支持独立于spring使用支持整合spring支持整合spring-boot内置多种限流策略快速开始需求jdk1.7maven3.x+maven导入com.github.houbbrate-limit-core1.1.0入门例子方法定义@RateLimit限流注解放在方法
android定义前端布局单位新青年. android 前端
fungetWindowWidth(context:Activity):Int{//context.resources.configuration.screenWidthDpvalresources=context.resourcesvaldisplayMetrics=resources.displayMetricsreturnif(android.os.Build.VERSION.SDK_INT
修复ERR_ADDRESS_UNREACHABLE 新青年. 踩坑记录
引言今天在访问服务器地址时出现ERR_ADDRESS_UNREACHABLE,网上资料比较少.问题排查查看自己是不是副WiFi连接,辅助的wifi无法管理自己路由器排查防火墙.排查目标端口有无打开(可以在自己服务器上运行curl测试)地址输错了?是否开启了某种proxy，排查proxy的服务器问题#当然,你可以先排查一下设备的防火墙systemctlstatusfirewalld如果为inacti
twrp选择sdcard为0B的问题解决新青年. 踩坑记录刷机其他经验分享
如果刷入的twrp版本在3.2.3版本以下的有无法选择sdcard的bug,必须先格式化Data分区,尝试一下.,请更新twrp版本尝试解决,由于笔者没有找到适用于我手机的(oppor11)的刷机包,所以我选择了去奇兔下载twrp,他的是3.2.3来的,更新好之后进入Rec,继续格式化Data,把Data分区文件系统改为ext4,然后重启到Recovery,再重启到系统,传好文件,再进入rec,之
解决异步数据导致数据出现覆盖的问题 qq_38874734 前端
多次请求数据，A先请求，响应时间长B后请求，响应时间短，预期获得B数据，结果被A覆盖，解决办法：axios的cancelToken参考链接https://stackoverflow.com/questions/38329209/how-to-cancel-abort-ajax-request-in-axioshttps://blog.csdn.net/yexudengzhidao/article/
Python语言在Abaqus中的应用---2.3.1.1Abaqus对象模型之概述 Coder_Zeus python 经验分享
在Python语言基础上，Abaqus脚本接口增加了许多新的对象模型这些对象之间的层次（hierarchy）和关系（relationship）称为Abaqus对象模型（Abaqusobjectmodel）本文将详细介绍Abaqus对象模型的相关知识，包括：概述、导入模块、抽象基本模型、查询对象模型、[Tab]键自动完成功能等内容一、概述Abaqus对象模型描述了各个对象之间的关系1）定义对象的方法
Appium介绍 max500600 开发工具 appium
在使用不同版本的Appium包进行自动化测试时，出现警告问题可能是由于版本不兼容、配置不正确等原因导致的。下面将详细介绍解决这些问题的步骤，确保模拟器能够正常启动，并能在Appium查看器中同步显示。1.环境准备首先，确保你已经安装了以下工具和库：AppiumServer：可以从Appium官方网站下载并安装。AppiumPythonClient：使用以下命令安装：pipinstallAppium
磁盘调度算法 max500600 算法算法数据库服务器
先来先服务（FCFS）算法原理：按照进程请求访问磁盘的先后顺序进行调度。就像是排队买东西，先到的先服务。示例（Python）：deffcfs(requests):"""requests是一个包含磁盘请求序列的列表例如requests=[98,183,37,122,14,124,65,67]假设磁头初始位置为53"""head_position=53total_distance=0forreques
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR