iteye_7514

正则匹配

正则匹配模式
匹配模式指得是正则表达式引擎将以何种模式匹配字符串。

模式名称	启用，禁用	缺省启用	说明
UNIX_LINES	(?d)启用，(?-d)禁用	是	启用Unix行模式。在此模式下，只有'\n'被认为是行结束符。它会影响.,^, 和$的行为。
CASE_INSENSITIVE	(?i)启用，(?-i)禁用	否	启用忽略大小写模式。缺省时，忽略大小写模式只会影响 ASCII字符的匹配。而Unicode范围的忽略大小写匹配需要通过 UNICODE_CASE 标志与本标志联合使用。启用此模式会影响匹配性能。
COMMENTS	(?x)启用，(?-x)禁用	否	允许空格和注释出现在正则表达式中。在此模式下，空格被忽略，以#开始的单行注释被忽略。
MULTILINE	(?m)启用，(?-m)禁用	是	启用多行模式。 In multiline mode the expressions^and$match just after or just before, respectively, a line terminator or the end of the input sequence. By default these expressions only match at the beginning and the end of the entire input sequence.
DOTALL	(?s)启用，(?-s)禁用	否	让.可以匹配行结束符。在此模式下，元字符.可以匹配行结束符。缺省不允许如此匹配。
UNICODE_CASE	(?u)启用，(?-u)禁用	否	Enables Unicode-aware case folding. When this flag is specified then case-insensitive matching, when enabled by theCASE_INSENSITIVEflag, is done in a manner consistent with the Unicode Standard. By default, case-insensitive matching assumes that only characters in the US-ASCII charset are being matched. 启用此模式会影响性能。
CANON_EQ	(?c)启用，(?-c)禁用	否	Enables canonical equivalence. When this flag is specified then two characters will be considered to match if, and only if, their full canonical decompositions match. The expression"a\u030A", for example, will match the string"?"when this flag is specified. By default, matching does not take canonical equivalence into account. 启用此模式会影响性能。

字符子集　　字符子集可以含有别的字符子集，并且可以通过联合操作符（缺省）和交集操作符（&&）实现组合。联合操作符表示某个子集匹配它的子子集所匹配的任意字符。交集操作符表明某个字符子集只匹配它的子子集都匹配的字符。
　　字符子集所能够有的操作符的优先级如下，从高到低：

转义符\x
成组符 [...]
区间符 a-z
联合符 [a-e][i-u]
交集符 [a-z&&[aeiou]]

　　注意：在字符子集[]内部的语法根本不同于正则表达式其它部分中的语法。例如，在字符子集内部，正则表达式 . 失去了它原有的含义，而是成了一个匹配.的元字符。

行结束符　　行结束符是一个或两个字符序列，用以表明输入字符序列中一行的结束。下面的字符被认为是行结束符：

一个换行符('\n')。
一个回车符加上一个换行符("\r\n")。
一个单独的回车符('\r')。
代表下一行的字符('\u0085')。
行分隔符('\u2028')，Unicode中被定义。
一个分段符('\u2029)，Unicode中被定义。

　　如果 UNIX_LINES 模式被启用，则只有换行符被认为是行结束符。
　　如果 MULTILINE 模式被启用，。

分组和引用　　字符分组以它们的左括号的出现顺序来排序。例如在表达式((A)(B(C)))，有四个分组：

((A)(B(C)))
(A)
(B(C))
(C)

　　第0组永远表示表达式本身。
　　分组采用这样的命名方式，是因为，在一次匹配过程中，正则表达式会被匹配多次。以前的匹配子序列有可能在将来被使用；或者在匹配结束时，程序有可能需要重新获得所有匹配的子字符序列。
　　对于正则表达式中的某个分组而言，永远只保留最后匹配的字符序列。如果对某个分组匹配尝试失败，则会保留上次匹配成功的字符序列。例如，对于正则表达式(a(b)?)+而言，字符序列"aba"，将会让分组2匹配的字符序列为"b"。
　　以(?开始的分组，将不会计入分组数目，也不会被后续匹配所引用。

Unicode支持　　本正则表达式匹配引擎的实现遵循了《Unicode技术报告：Unicode正则表达式指南》，实现了该指南的第二层所需的功能，但是在细微处有一些简单语法修改。
　　Unicode块(Block)和分类(Category)通过\p和\P通配苻表示。\p{prop}匹配含有prop的输入序列，而\P{prop}匹配不含有prop的输入序列。Unicode块通过前缀In表示，如\p{InMongolian}。Unicode分类通过可选的前缀Is表示，因此\p{L}和\p{IsL}都代表Unicode分类 letters。Unicode块和分类都可以在正则表达式子集外部和内部使用。
　　目前支持的Unicode块和分类是《Unicode标准，第三版》中所指定的块和分类。 Unicode块名称在《Unicode 字符数据库》的第14章被定义，文件名称叫Blocks-3.txt，但是名称中的空格被去掉了。例如"Basic Latin"成了"BasicLatin"。无论是标准化的还是非标准化的分类，都在该标准的第88页的第4-5表中被全部定义。

与Perl 5正则表达式语法对比 [TBD]

正则表达式参考
字符

正则表达式字符串	匹配的字符串
X	字符X，包括 CJK ExtB 区汉字
\\	反斜杠\
\0n	八进制0n代表的字符(0<=n<=7)
\0nn	八进制0nn代表的字符(0<=n<=7)
\0mnn	八进制0mnn代表的字符(0<=m<=3,0<=n<=7)
\xhh	十六进制 0xhh所代表的字符
\uhhhh	十六进制 0xhhhh所代表的字符。注意，目前尚不支持CJK ExtB区汉字。
\t	制表符('\u0009')
\n	换行('\u000A')
\r	回车('\u000D')
\a	响铃符('\u0007')
\e	取消符Escape('\001B')
\cx	x所代表的控制字符

逻辑操作符

正则表达式字符串	匹配的字符串
XY	X后面跟随Y
X\|Y	X或者Y
(X)	X作为分组表达式

向后引用

正则表达式字符串	匹配的字符串
\n	第n个匹配的分组

边界元字符

边界字符	匹配的字符串
^	行首
$	行末
\b	字符边界
\B	非字符边界
\A	输入流的开始
\G	上次匹配的结束处
\Z	输入流的结束，或者是最后一个行结束符，参见[url=file:///D:/source/jtextpro/src/dist/jtextpro/docs/regexp.html#man_line_terminator]行结束符[/url]。
\z	输入流的结束

重复指示符

正则表达式字符串	匹配的字符串
X?	X重复一次，或者不重复
X*	X重复0次或多次
X+	X重复1次或多次
X{n}	X重复n次，不多也不少。
X{n,}	X至少重复n次
X{n,m}	X至少重复n次，至多重复m次。

注：X{n,m}、?、*、+方式可以联合使用。

字符子集

正则表达式字符串子集	匹配的字符串	组合方式
[abc]	字符a,b或c，包括 CJK ExtB 区汉字	简单子集
[^abc]	任意非a,b或c的字符。	排除
[a-zA-Z]	从a到z，或者A到Z，包含a,z,A,Z。	区间
[a-d[m-p]]	从a到d，或者m到p，等于[a-dm-p]。	联合
[a-z&&[def]]	d,e或者f。	交集
[a-z&&[^bc]]	从a到z，除了b和c，等于[ad-z]	扣除
[a-z&&[^m-p]]	从a到z，并且不包括从m到p，等于[a-lq-z]	扣除

预定义子集（元字符）

边界字符	匹配的字符串
.	任意字符，可能匹配行结束符。
\d	数字[0-9]
\D	非数字[^0-9]
\s	空白符[ \t\n\x0B\f\r]
\S	非空白符[^\s]
\w	单词符，包含有字母和数字[a-zA-Z_0-9]
\W	非单词符，不包含有字母和数字。

扩展子集（元字符）

正则表达式字符串	匹配的字符串

扩展中文子集（元字符）

名称	块名称（\p{InXXX}）	简化通配符	标准Unicode块，或者汉字列表
任意双字节字符（汉字或全角符号）	\p{InQuqnJiao}	\E	任意由GBK表示的汉字，不包括GB18030扩展部分，以及CJK ExtB区的汉字。
任意单字节字符	\p{InFQuanJiao}	\~E	任意单字节字符。
任意全角ASCII字符	\p{InQJAscii}	\H	标准HalfwidthandFullwidthForms块
任意收录在BIG5码集中的双字节字符	\p{InBig5}	\I	Big5可编码双字节字符
匹配未收录在BIG5码集中的双字节字符	\p{InFBig5}	\~I	非Big5可编码双字节字符
匹配任意汉字(不包括符号)	\p{InHanziOrCJKExtB}	\X	任意汉字，包括GB18030扩展部分。
匹配任意汉字(不包括符号)	\p{InHanzi}	\M	任意汉字，不包括GB18030扩展部分。
匹配非汉字的双字节字符	\p{InFHanzi}	\~M	任意非汉字的双字节字符，包括GB18030扩展部分。
地支字符	\p{InDiZhi}	\U	子丑寅卯辰巳午未申酉戌亥
匹配收录在GB码集中的双字节字符	\p{InGB}	\g	收录在GB码集中的双字节字符，不包括GB18030扩展部分。
匹配非收录在GB码集中的双字节字符	\p{InFGB}	\~g	未收录在GB码集中的双字节字符，不包括GB18030扩展部分。
匹配收录在GBK码集中的双字节字符	\p{InGBK}	\h	收录在GBK码集中的双字节字符，不包括GB18030扩展部分。
匹配非收录在GBK码集中的双字节字符	\p{InFGBK}	\~h	未收录在GBK码集中的双字节字符，不包括GB18030扩展部分。
大写希腊字母	\p{InDaXila}	\K	ΑΒΓΔΕΖΗΘΙΚΛΜΝ ΞΟΠΡΣΤΥΦΧΨΩ
日文片假名	\p{InPianJia}	\j	标准Katakana块
日文平假名	\p{InPingJia}	\J	标准Hiragana块
小写希腊字母	\p{InXiaoXila}	\k	αβγδεζηθικλμν ξοπρστυφχψω
数学符号	\p{InMathe}	\m	±×÷∶∧∨∑∏∪∩∈∷√⊥∥∠⌒⊙ ∫∮≡≌≈∽∝≠≮≯≤≥∞∵∴
中文数字	\p{InCnDigit}	\i	〇一二三四五六七八九十百千万亿兆吉京
大写中文数字	\p{InDaCnDigit}	\N	零壹贰叁肆伍陆柒捌玖拾佰仟萬亿兆吉京
全角标点符号	\p{InQJBiaoDian}	\o	、。·ˉˇ¨〃々—～‖…‘’“”〔〕〈〉《》「」『』〖〗【】！＂＇（），－．：；＜＝＞？［］｛｜｝｀﹉﹊﹋﹌﹍﹎﹏﹐﹑﹒﹔﹕﹖﹗﹙﹚ ﹛﹜﹝﹞︵︶︹︺︿﹀︽︾﹁﹂﹃﹄︻︼︷︸︱︳︴
小写俄文字母	\p{InXiaoEWen}	\l	абвгдеёжзийклмн опрстуфхцчшщъыьэюя
大写俄文字母	\p{InDaEWen}	\R	АБВГДЕЁЖЗИЙКЛМНО ПРСТУФХЦЧШЩЪЫЬЭЮЯ
中文序号	\p{InCnSN}	\q	ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ 再加上Unicode标准EnclosedAlphanumerics块
天干字符	\p{InTianGan}	\T	甲乙丙丁戊己庚辛壬癸
竖排标点符号	\p{InSPBiaoDian}	\V	︵︶︹︺︿﹀︽︾﹁﹂﹃﹄︻︼︷︸︱︳︴
拼音字符	\p{InPinyin}	\y	āáǎàēéěèīíǐìōóǒòūúǔùǖǘǚǜüêɑńňɡ GBK -> 0xA8A1- 0xA8C0 只是Unicode标准LatinExtended-A块的一部分。
注音字符	\p{InZhuyin}	\Y	标准Bopomofo块
制表字符	\p{InZhiBiao}	\C	标准BoxDrawing块。经检查发现 textpro 的算法含有部分非标准Unicode制表符：“∟∣≒≦≧⊿═”。

POSIX字符子集（只适用于ASCII）

正则表达式字符串	匹配的字符串
\p{Lower}	小写字母[a-z]
\p{Upper}	大写字母[A-Z]
\p{ASCII}	所有的ASCII字符[\x00-\x7F]
\p{Alpha}	大小写字母[\p{Lower}\p{Upper}]
\p{Digit}	数字[0-9]
\p{Alnum}	字母数字符，包含大小写字母和数字[\p{Alpha}\p{Digit}]
\p{Punct}	标点符号，!"#$%&'()*+,-./:;<=>?@[\]^_`{\|}~之一。
\p{Graph}	可显示字符[\p{Alnum}\p{Punct}]
\p{Print}	可打印字符[\p{Graph}]
\p{Blank}	空格或者制表符[ \t]
\p{Cntrl}	控制字符[\x00-\x1F\x7F
\p{XDigit}	十六进制数字[0-9a-fA-F]
\p{Space}	空白符[ \t\n\x0B\f\r]

Unicode块和分类

块	中文名称（摘自Word XP）	代码区域
BasicLatin	基本拉丁语	\u0000-\u007F
Latin-1Supplement	拉丁语-1	\u0080-\u00FF
LatinExtended-A	拉丁语扩充-A	\u0100-\u017F
LatinExtended-Bound	拉丁语扩充-B	\u0180-\u024F
IPAExtensions	国际音标扩充	\u0250-\u02AF
SpacingModifierLetters	进格的修饰字符	\u02B0-\u02FF
CombiningDiacriticalMarks	组合用发音符	\u0300-\u036F
Greek	基本希腊语	\u0370-\u03FF
Cyrillic	西里尔语	\u0400-\u04FF
Armenian		\u0530-\u058F
Hebrew		\u0590-\u05FF
Arabic		\u0600-\u06FF
Syriac		\u0700-\u074F
Thaana		\u0780-\u07BF
Devanagari		\u0900-\u097F
Bengali		\u0980-\u09FF
Gurmukhi		\u0A00-\u0A7F
Gujarati		\u0A80-\u0AFF
Oriya		\u0B00-\u0B7F
Tamil		\u0B80-\u0BFF
Telugu		\u0C00-\u0C7F
Kannada		\u0C80-\u0CFF
Malayalam		\u0D00-\u0D7F
Sinhala		\u0D800-\uDFF
Thai		\u0E00-\u0E7F
Lao		\u0E80-\u0EFF
Tibetan	藏语	\u0F00-\u0FFF
Myanmar		\u1000-\u109F
Georgian		\u10A0-\u10FF
HangulJamo		\u1100-\u11FF
Ethiopic		\u1200-\u137F
Cherokee		\u13A0-\u13FF
UnifiedCanadianAboriginalSyllabics		\u1400-\u167F
Ogham		\u1680-\u169F
Runic		\u16A0-\u16FF
Khmer		\u1780-\u17FF
Mongolian	蒙古语	\u1800-\u18AF
LatinExtendedAdditional		\u1E00-\u1EFF
GreekExtended		\u1F00-\u1FFF
GeneralPunctuation	广义标点	\u2000-\u206F
SuperscriptsandSubscripts		\u2070-\u209F
CurrencySymbols	货币符号	\u20A0-\u20CF
CombiningMarksforSymbols		\u20D0-\u20FF
LetterlikeSymbols	类似字母的符号	\u2100-\u214F
NumberForms	数字形式	\u2150-\u218F
Arrows	箭头	\u2190-\u21FF
MathematicalOperators	数学运算符	\u2200-\u22FF
MiscellaneousTechnical	零杂技术用符号	\u2300-\u23FF
ControlPictures		\u2400-\u243F
OpticalCharacterRecognition		\u2440-\u245F
EnclosedAlphanumerics	带括号的字母数字	\u2460-\u24FF
BoxDrawing	制表符	\u2500-\u257F
BlockElements	方块图形	\u2580-\u259F
GeometricShapes	几何图形	\u25A0-\u25FF
MiscellaneousSymbols	零杂丁贝符（示意符等）	\u2600-\u26FF
Dingbats		\u2700-\u27BF
BraillePatterns		\u2800-\u28FF
CJKRadicalsSupplement		\u2E80-\u2EFF
KangxiRadicals		\u2F00-\u2FDF
IdeographicDescriptionCharacters		\u2FF0-\u2FFF
CJKSymbolsandPunctuation	CJK符号和标点	\u3000-\u303F
Hiragana	平假名	\u3040-\u309F
Katakana	片假名	\u30A0-\u30FF
Bopomofo	注音	\u3100-\u312F
HangulCompatibilityJamo		\u3130-\u318F
Kanbun		\u3190-\u319F
BopomofoExtended	扩展注音	\u31A0-\u31BF
EnclosedCJKLettersandMonths	带括号的CJK字母及月份	\u3200-\u32FF
CJKCompatibility	CJK兼容字符	\u3300-\u33FF
CJKUnifiedIdeographsExtensionA	CJK统一汉字扩展-A	\u3400-\u4dBF
CJKUnifiedIdeographs	CJK统一汉字	\u4E00-\u9fAF
YiSyllables		\uA000-\uA48F
YiRadicals		\uA490-\uA4CF
HangulSyllables		\uAC00-\uD7A3
HighSurrogates		\uD800-\uDB7F
HighPrivateUseSurrogates		\uDB80-\uDBFF
LowSurrogates		\uDC00-\uDFFF
PrivateUse	专用区	\uE000-\uF8FF
CJKCompatibilityIdeographs	CJK兼容汉字	\uF900-\uFAFF
AlphabeticPresentationForms		\uFB00-\uFB4F
ArabicPresentationForms-A		\uFB50-\uFDFF
CombiningHalfMarks		\uFE20-\uFE2F
CJKCompatibilityForms	CJK兼容形式	\uFE30-\uFE4F
SmallFormVariants	小写变体	\uFE50-\uFE6F
ArabicPresentationForms-Bound		\uFE70-\ufeFF
Specials		\uFFF0-\uFFFF
HalfwidthandFullwidthForms	半形及全形字符	\uFF00-\uFFEF

分类	全称	说明
Cn		UNASSIGNED
Lu		UPPERCASE_LETTER
Ll		LOWERCASE_LETTER
Lt		TITLECASE_LETTER
Lm		MODIFIER_LETTER
Lo		OTHER_LETTER
Mn		NON_SPACING_MARK
Me		ENCLOSING_MARK
Mc		COMBINING_SPACING_MARK
Nd		DECIMAL_DIGIT_NUMBER
Nl		LETTER_NUMBER
No		OTHER_NUMBER
Zs		SPACE_SEPARATOR
Zl		LINE_SEPARATOR
Zp		PARAGRAPH_SEPARATOR
Cc		CNTRL
Cf		FORMAT
Co		PRIVATE_USE
Cs		SURROGATE
Pd		DASH_PUNCTUATION
Ps		START_PUNCTUATION
Pe		END_PUNCTUATION
Pc		CONNECTOR_PUNCTUATION
Po		OTHER_PUNCTUATION
Sm		MATH_SYMBOL
Sc		CURRENCY_SYMBOL
Sk		MODIFIER_SYMBOL
So		OTHER_SYMBOL
L		LETTER
M		MARK
N		NUMBER
Z		SEPARATOR
C		CONTROL
P		PUNCTUATION
S		SYMBOL
LD		LETTER_OR_DIGIT
L1		Latin-1
all		ALL
ASCII		ASCII
Alnum		字母数字(0-9,a-z,A-Z)
Alpha		字母(a-z,A-Z)
Blank		空格和制表符(' '\|\t)
Cntrl		控制字符，不可打印
Digit		数字(0-9)
Graph		可打印且可视字母（例如空格' '是可打印的但不是可视字母，而 `a' 两者都是。）
Lower		小写字母
Print		可打印字母（非控制字符）
Punct		标符号（字母、数字、控制、空白符以外的字母），如：!@#$%}{<>,./?[]等等。
Space		空白符(' ',\t,0x09,0x0A,0x0B,0x0C,0x0D,0x20)
Upper		大写字母
XDigit		十六进制数字(0-9，a-f, A-F)

替换表达式特殊字符

特殊字符介绍	描述
\n	换行
\b	向前删除一个字符。当这个字符位于替换串之首时，将删除匹配串之前的一个字符。若匹配串位于行首，将使匹配串所在行与前一行相合并。
\d	向后删除一个字符。当这个字符位于替换串之末时，将删除匹配串之后的一个字符。若匹配串位于行末，将使匹配串所在行与下一行相合并。
\e	插入一个ESC字符
\t	插入一个TAB字符
\n	n代表查找正则表达式中的子表达式（组）。\1代表第一个子表达式，\2代表第二个子表达式，依次类推。\0代表整个匹配到的字符串。
\v	大写下一个字母
\U	全部大写以后的字母，直到碰到其它指示符为止。
\l	小写下一个字母
\L	全部小写以后的字母，直到碰到其它指示符为止。
\E	取消所有的字母大小写指示符。

自定义替换表

在查找／替换中使用自定义替换表
有的时候，上述简单的自定义替换功能是不够的。例如，用户可能希望只把出现在括号内的源串替换为目标串。这种文本处理可以通过在查找/替换中使用自定义替换表来解决。

在查找/替换功能中使用自定义替换表的替换函数是\Tn，其中n是0-9的数字，注意n为0表示第10张替换表。如果略去n，其效果相当于\T1，即使用第一张替换表。例如要把所有放在方括号中的汉字替换为拼音，可以查找“\[(\E)\]”，替换为“\T{\1}”。即把第一个子表达式的匹配内容按自定义替换表转换。注意，如果\T函数的参数不在替换表的源串中，\T函数的结果与源串相同，即不做任何变换。

有些情况下，用户可能希望只使用替换表的一部分内容。还是以拼音为例，前面给出的替换表中包含了拼音的音调，如果在替换时不希望加上这些音调数字，可以使用“过滤”功能。所谓过滤，其实是用一个正则表达式去分析替换表的目标串，并把其中的某个子表达式取出来。

使用“过滤”时，在“设置自定义替换表”对话框中，点“过滤”按钮，在弹出的对话框中填入一个正则表达式。再以拼音为例，表达式可以写为“(\p{Alpha}+)(\d)”，其中第一对括号中的是不含音调的拼音，第二对括号是音调。在调用\T函数时，JTextPro会在目标串中查找这个正则表达式。但是如何把其中的子表达式取出来呢？\T函数还有一个可选的下标，取第n个子表达式的值就写作\T{...}[n]。所以，把放在方括号中的汉字替换为不带调的拼音，可以查找“\[(\E)\]”，替换为“\T{\1}[1]”

匹配汉字：

Regex r= new Regex(@"[\u4e00-\u9fa5]+");
MatchCollection m=r.Match(yourstring);

－－－－－－－－－－－－－－－－－－－－－－－－－
如果需要使用正则表达式匹配Unicode字符的话...
这里是几个主要非英文语系字符范围(google上找到的):

2E80～33FFh：中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符，中日韩的符号、标点、带圈或带括符文数字、月份，以及日本的假名组合、单位、年号、月份、日期、时间等。

3400～4DFFh：中日韩认同表意文字扩充A区，总计收容6,582个中日韩汉字。

4E00～9FFFh：中日韩认同表意文字区，总计收容20,902个中日韩汉字。

A000～A4FFh：彝族文字区，收容中国南方彝族文字和字根。

AC00～D7FFh：韩文拼音组合字区，收容以韩文音符拼成的文字。

F900～FAFFh：中日韩兼容表意文字区，总计收容302个中日韩汉字。

FB00～FFFDh：文字表现形式区，收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$
理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异
再到msn.co.jp复制了个'お', 也不得行..

PHP 常用正则表达式大全小小优化师 anny 正则表达式
$code=preg_replace("/$code=preg_replace("|(.*)|i","",$code);匹配标签及内的正则匹配非汉字字母数字preg_replace("/[^\x{4e00}-\x{9fa5}a-zA-Z0-9]/iu","",$filecontent);//hanzi汉字常用正则表达式大全！匹配中文字符的正则表达式：[u4e00-u9fa5]评注：匹配中文还真是个
python基础语法九-多进程和多线程 yunduor909 python python
书接上回：python基础语法一-基本数据类型python基础语法二-多维数据类型python基础语法三-类python基础语法四-数据可视化python基础语法五-函数python基础语法六-正则匹配python基础语法七-openpyxl操作excelpython基础语法八-异常1.多进程1.1创建多进程1)importmultiprocessing模块2)创建进程要执行的函数3)调用mult
python的正则匹配 CharlieBrownn python
defFilterTranslate(source):source.encode()temp=sourcexx=u"([\s\u30a0-\u30ff\u3040-\u309f\u4e00-\u9fa5\u3000-\u303f\ufb00-\ufffd\u0030-\u0039\u0041-\u005a\u0061-\u007a]+)"#日文片假名日文片假名中文标点符号数字大写字母小写patte
python使用hyperscan进行正则匹配性能提升demo Gu_fcsdn Python python 安全 hyperscan 正则高性能
目录hyperscan安装：其他依赖：安装详情过程：Hyperscanforpython安装：pythonhyperscan使用：完整Demo代码：hyperscan安装：hyperscan官方HomePage-Hyperscan.iohyperscanGithubhttps://github.com/intel/hyperscanhyperscanSource代码Downloads-Hypers
vue 批量自动引入并注册组件或路由 yang295242361 vue.js javascript 前端
有时候有大量的组件.vue后缀的,或.js,或.ts文件,需要一个个的手动引入很麻烦,那么你可以尝试这样创建一个index.js本项目使用vue3.x,vue2.x也可以照样用;这里在components里面创建了一个idnex.js文件require.context可以读取文件,第一个参数是指当前文件夹,第二个参数是是否递归遍历寻找子节点设为ture,第三个正则匹配//自动注册,不必一个个导入导
配置Nginx实现兼容pathinfo模式访问胡萝卜的兔 php Linux nginx apache 运维
Nginx总的配置文件位置/usr/local/nginx/conf/nginx.confnginx正则匹配一．正则表达式匹配，其中：为区分大小写匹配~*为不区分大小写匹配!和!*分别为区分大小写不匹配及不区分大小写不匹配二．文件及目录匹配，其中：-f和!-f用来判断是否存在文件-d和!-d用来判断是否存在目录-e和!-e用来判断是否存在文件或目录-x和!-x用来判断文件是否可执行三．rewrit
正则验证手机号是否符合条件想旅游的程序员
tel=13456898760#用正则匹配定义一个手机号以13*、145/147、15*、166、173/176/177、18*开头的11位整数数字phone_zz=re.compile('^(13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8}$')ifphone_zz.match(tel):print("手机号可用")else:print("手机号不可用")
nginx location和rewrite配置语法 penngo 持续交付 nginx 运维
nginx反射代理location和重定向rewrite正则匹配表达式文章目录1、nginx支持的正则表达式1.1、支持的正则表达1.2、常用匹配修饰符2、location配置示例和优先级2.1、root和alias区别3、rewrite3.1、rewrite使用语法3.2、rewrite常用判断表达式3.3、rewrite示例3.4、return和rewrite区别3.4.1、return规则基
Nginx的Rewrite和Location配置单字叶 nginx
目录一、Rewrite模块1.功能概述1.1URL重写1.2URL重定向1.3条件判断1.4重写规则的执行顺序2.语法格式2.1Flag说明3.Rewrite跳转实现4.常用的Nginx正则表达式二、Location模块1.概述2.分类2.1精准匹配（=）2.2前缀匹配（默认匹配）2.3优先前缀匹配（^~）2.4正则匹配（区分大小写~）2.5正则匹配（不区分大小写~*）2.6通配符匹配（/）2.7
go实现AI数字人 - 把流式内容转语音时，过滤掉markdown语法的内容 SoryeTong Go golang 开发语言后端 ai
近期，在处理AI数字人项目时，遇到需求：客户端呈现实时语音内容，但是转语音时又要过滤掉markdown语法，让这些内容只进行显示，不进行语音转义首先声明:本次大模型一个是使用公司自研的，另一个是使用的阿里云的通义千问以下是基于golang实现的，核心是正则匹配和markdown语法的判断，可以直接使用。如果遇到相关问题，可以通过调整正则匹配进行完善。typeMarkdownProcessorstr
2019-08-05 喜欢钱
{getFieldDecorator('name',{rules:[{required:true,message:'请输入名字',},//方式一：正则匹配（提示错误，阻止表单提交）{pattern:/^[^\s]*$/,message:'禁止输入空格',}],//方式二：粗暴点不允许输入空格(其实是将e.tartget.value转成控件自己的值)//这个方法的用途非常强大，还可以结合upload
Java Pattern正则匹配，并获取匹配内容 @航空母舰 java 开发语言
java.util.regex包主要包括以下三个类：Pattern类：pattern对象是一个正则表达式的编译表示。Pattern类没有公共构造方法。要创建一个Pattern对象，你必须首先调用其公共静态编译方法，它返回一个Pattern对象。该方法接受一个正则表达式作为它的第一个参数。Matcher类：Matcher对象是对输入字符串进行解释和匹配操作的引擎。与Pattern类一样，Matche
python正则匹配目录、文件名 snrnjhna python
#!/usr/bin/python#-*-coding:UTF-8-*-#vim:setshiftwidth=2tabstop=2expandtabtextwidth=79:importrefilename="/Users/frankyu/Develop/sso/socialbase/login/dcorators.py"inputstr='Uup'inputstr=re.escape(input
Node.js开发-MongoDB 中二Espresso Node.js开发 node.js mongodb 数据库
MongoDB1)Mongoose2)插入文档3)字段类型4)字段值验证5)CRUD1)增加2)删除3)更新4)查询6)条件控制1)运算符2)逻辑运算3)正则匹配7)个性化读取1)字段筛选2)数据排序3)数据截取1)Mongoose介绍Mongoose是一个对象文档模型库，官网http://www.mongoosejs.net/作用方便使用代码操作mongodb数据库使用流程//导入mongoos
爬虫之正则表达式 Lei宝啊 Python(语法爬虫数据分析)正则表达式
个人主页：Lei宝啊愿所有美好如期而遇概念：正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），正则匹配是一个模糊的匹配(不是精确匹配)如下四个方法经常使用：match()search()findall()finditer()匹配单个字符或数字：匹配说明.匹配除换行符以外的任意字符，当flags被设置为re.S时，可以匹配包含换行符以内的所有字符[]里面是
VS Code 搜索替换中正则匹配规则说明累了你就写会代码吧常用工具函数正则表达式 javascript
示例：json匹配规则(\S+)\s(\S+)\s(\S+){"store":"$1","provice":"$2","city”:"$3"},常用匹配符号含义：注意事项：在VSCode中使用时，要先把通配符开关打开（开关是查找输入框右边的".*"符号）转义字符匹配内容\ttab\r回车符号\r\n换行符号\n\uxxxx匹配Unicode编码为xxx的字符,如\u0020匹配
vscode正则表达式替换php数组,vscode怎么输入正则表达式进行匹配 weixin_39855634
vscode输入正则表达式进行匹配的方法：使用快捷键“Ctrl+F”调出查找框使用正则表达式进行匹配的方法示例：1). — 匹配任何字符点符号.用来匹配任何字符：b.t上面的正则匹配"bot"，`"bat"和任何以b开头、t结尾的三个字符的单词。但是如果你想搜索点符号，则需要用\来对它进行转义，所以下面这个正则只匹配确切的文本"b.t"：b\.t2).* — 匹配任何东西这里.表示“任何字符”，*
vscode里使用正则表达式 qq_17370937 正则表达式
正则真的好用，平时工作用正则最多的地方就是在编辑器里做查找替换，之前系统学习了一段时间的正则但有些技巧长时间不用有些生疏了，现在重新捡起来顺便记录一下。基本的替换操作ctrl+h可以唤出替换界面，选定.*可以开启正则匹配模式，在上面那行输入正则表达式，下面那行输入替换字符串括号匹配示例示例将字符串顺序交换字符串：example=test正则表达式:(\w+)\s*=\s*(\w+)替换表达式：$2
还在傻瓜式替换？VsCode正则匹配替换你学会了吗？衣服架子 vscode编译器正则表达式 vscode
日常开发中，我们经常会对一些字符串做替换，可是有些替换很不智能，只支持全文匹配，并不支持正则替换，接下来就整理一下我平常总结的技巧。样例1：如果需要将下面的每一行同步放入某段内容中，即newFieldType(“xxx”,“String”)你会怎么做呢？一个一个改吗？你可能觉得就这么几行，自己改能花多长时间，No，一切皆可代码，我们看看怎么用正则匹配替换！如果你还没有用过VsCode的话，强烈建议
javascript 正则匹配提取全部 preg_match_all matchAll方法用户昵称不能为空 javascript 正则 javascript 正则
javascript提取所有的的方法，javascript中没有matchAll这个方法。用while来实现类似PHP中的preg_match_all()：（bydefault7#zbphp.com）varhtml=document.getElementById('AgentIdP').getAttribute('onchange');varexp=/selectNull\([\'"]{1}([\
js 各种数值类型正则匹配检测 aguwky6611
随拿随用只js正则表达式，反正平时工作我是不写正则的，大神请自动绕行；验证数字的正则表达式集验证数字：^[0-9]*$验证n位的数字：^\d{n}$验证至少n位数字：^\d{n,}$验证m-n位的数字：^\d{m,n}$验证零和非零开头的数字：^(0|[1-9][0-9]*)$验证有两位小数的正实数：^[0-9]+(.[0-9]{2})?$验证有1-3位小数的正实数：^[0-9]+(.[0-9]{
java 全角空格正则表达式_关于JAVA正则匹配空白字符的问题(全角空格与半角空格)... 春光古大侠 java 全角空格正则表达式
今天遇到一个字符串，怎么匹配空格都不成功！！！我把空格复制到test.properties文件显示“\u3000”，这是什么？这是全角空格！！！查了一下\s不支持全角1、"\s"匹配的是哪一种空格?正则表达式中\s匹配任何空白字符，包括空格、制表符、换页符等等；中文全角空格\s并不能匹配中文全角空格。\s只能匹配下面六种字符(详见java.util.regex.Pattern的APIDOC)：半角
JS正则捕获的贪婪性金刚狼_3e31
letstr='你好2019@2020中国';//正则捕获的贪婪性：默认情况下，正则捕获的时候，是按照当前正则所匹配的最长结果俩获取的letreg=/\d+/g;console.log(str.match(reg));//['2019','2020']//在量词元字符后面设置?：取消捕获时候的贪婪性(按照正则匹配的最短结果来获取)reg=/\d+?/g;console.log(str.match(
Nginx location匹配规则说明 —— 筑梦之路筑梦之路 linux系统运维 nginx 正则表达式运维
1.语法规则说明=开头表示精确匹配；^~开头表示uri以某个常规字符串开头，理解为匹配url路径即可(非正则)；~开头表示区分大小写的正则匹配；~*开头表示不区分大小写的正则匹配；!~和!~*分别为区分大小写不匹配及不区分大小写不匹配的正则；/通用匹配，任何请求都会匹配到。2.优先级说明等号类型（=）的优先级最高。一旦匹配成功，则不再查找其他location的匹配项；^~和通用匹配。使用前缀匹配，
nginx location匹配规则哈皮97 nginx 正则表达式
(1.location/(通用匹配,匹配优先级最弱)(2.location=/a(完全匹配,匹配优先级最高)(3.location^~/a(无正则普通匹配,匹配优先级仅此=)(4.location~/\w(正则匹配(大小写敏感))(5.location~*/\w~(正则匹配(大小写不敏感),)*location的匹配优先级如下：1.先用所有前缀字符串和目标URI尝试匹配。2.如果“=”修饰符定义前
阿里规约其它天羽_f13a
【强制】在使用正则表达式时，利用好其预编译功能，可以有效加快正则匹配速度。说明：不要在方法体内定义：Patternpattern=Pattern.compile(规则);理解：看如下例子/***在使用正则表达式时，利用好其预编译功能，可以有效加快正则匹配速度。*说明：不要在方法体内定义：Patternpattern=Pattern.compile(规则);*/privatestaticPatter
[BJDCTF2020]ZJCTF，不过如此 ғᴀɴᴛᴀsʏ ctf web
伪协议读取next.php源码preg_replace()/e代码执行漏洞_preg_replace/e-CSDN博客查找资料我们发现，在php5.6及以下版本中，/e使得preg_replace的第二个参数可以被当作php代码执行，第二个参数中\\1指的是正则匹配到的第一组文本，是定死的，所以我们可以考虑第一个参数使用.*匹配任意文本，第三个参数${getFlag()}，从而让第二个参数的值取得
2020-01-08 Powershell 正则匹配黒渋茴米唐
$AliasName="Zhao,Janice(KDC/HR)";$matches=[System.Text.RegularExpressions.Regex]::Matches($AliasName,"(\w+)\,\s(\w+)\s");$first=$matches[0].Groups[2].Value;$last=$matches[0].Groups[1].Value;表达式的括号是代表匹
ES实战--wildcard正则匹配&exists过滤字段是否存在 wzerofeng elasticsearch
wildcard通配符中的*表示任意数量的字符?表示任意单个字符#正则匹配GET/wildcard-test/_search{"query":{"wildcard":{"title":{"wildcard":"ba*n"}}}}#响应:"hits":{"total":{"value":2,"relation":"eq"},"max_score":1,"hits":[{"_index":"wildc
正则表达式-匹配中英文、字母和数字时光会把你雕刻成你应有的样子
在做项目的过程中，使用正则表达式来匹配一段文本中的特定种类字符，是比较常用的一种方式，下面是对常用的正则匹配做了一个归纳整理。1、匹配中文:[\u4e00-\u9fa5]2、英文字母:[a-zA-Z]3、数字:[0-9]4、匹配中文，英文字母和数字及下划线：^[\u4e00-\u9fa5_a-zA-Z0-9]+$同时判断输入长度：[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}5、
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

正则匹配

你可能感兴趣的:(正则匹配)