正则表达式分析网页数据

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。

注意：本文基于Python2.4完成；如果看到不明白的词汇请记得百度谷歌或维基，whatever。

尊重作者的劳动，转载请注明作者及原文地址 >.<html

1. 正则表达式基础

1.1. 简单介绍

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。如果已经在其他语言里使用过正则表达式，只需要简单看一看就可以上手了。

下图展示了使用正则表达式进行匹配的流程：

正则表达式的大致匹配过程是：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界，这个过程会稍微有一些不同，但也是很好理解的，看下图中的示例以及自己多使用几次就能明白。

下图列出了Python支持的正则表达式元字符和语法：

1.2. 数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式"ab*"如果用于查找"abbbc"，将找到"abbb"。而如果使用非贪婪的数量词"ab*?"，将找到"a"。

1.3. 反斜杠的困扰

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

1.4. 匹配模式

正则表达式提供了一些可用的匹配模式，比如忽略大小写、多行匹配等，这部分内容将在Pattern类的工厂方法re.compile(pattern[, flags])中一起介绍。

2. re模块

2.1. 开始使用re

Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。

 
    ? 
   
         # encoding: UTF-8 
        
         import  
         re 
        
         # 将正则表达式编译成Pattern对象 
        
         pattern 
         =  
         re. 
         compile 
         (r 
         'hello' 
         ) 
        
         # 使用Pattern匹配文本，获得匹配结果，无法匹配时将返回None 
        
         match 
         =  
         pattern.match( 
         'hello world!' 
         ) 
        
         if  
         match: 
        
         # 使用Match获得分组信息 
        
         print  
         match.group() 
        
         ### 输出 ### 
        
         # hello

re.compile(strPattern[, flag]):

这个方法是Pattern类的工厂方法，用于将字符串形式的正则表达式编译为Pattern对象。第二个参数flag是匹配模式，取值可以使用按位或运算符'|'表示同时生效，比如re.I | re.M。另外，你也可以在regex字符串中指定模式，比如re.compile('pattern', re.I | re.M)与re.compile('(?im)pattern')是等价的。
可选值有：

re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
M(MULTILINE): 多行模式，改变'^'和'$'的行为（参见上图）
S(DOTALL): 点任意匹配模式，改变'.'的行为
L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。以下两个正则表达式是等价的：

 
    ? 
   
         a 
         =  
         re. 
         compile 
         (r 
         """\d +  # the integral part 
        
         \.    # the decimal point 
        
         \d *  # some fractional digits""" 
         , re.X) 
        
         b 
         =  
         re. 
         compile 
         (r 
         "\d+\.\d*" 
         )

re提供了众多模块方法用于完成正则表达式的功能。这些方法可以使用Pattern实例的相应方法替代，唯一的好处是少写一行re.compile()代码，但同时也无法复用编译后的Pattern对象。这些方法将在Pattern类的实例方法部分一起介绍。如上面这个例子可以简写为：

 
    ? 
   
         m 
         =  
         re.match(r 
         'hello' 
         , 
         'hello world!' 
         ) 
        
         print  
         m.group()

re模块还提供了一个方法escape(string)，用于将string中的正则表达式元字符如*/+/?等之前加上转义符再返回，在需要大量匹配元字符时有那么一点用。

2.2. Match（Match只找到一次可匹配的结果即返回）

Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

属性：

string: 匹配时使用的文本。
re: 匹配时使用的Pattern对象。
pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。
lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。

方法：

group([group1, …]):
获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。
groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。
groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。
start([group]):
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。
end([group]):
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
span([group]):
返回(start(group), end(group))。
expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。\id与\g<id>是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。

 
    ? 
   
         import  
         re 
        
         m 
         =  
         re.match(r 
         '(\w+) (\w+)(?P<sign>.*)' 
         , 
         'hello world!' 
         ) 
        
         print  
         "m.string:" 
         , m.string 
        
         print  
         "m.re:" 
         , m.re 
        
         print  
         "m.pos:" 
         , m.pos 
        
         print  
         "m.endpos:" 
         , m.endpos 
        
         print  
         "m.lastindex:" 
         , m.lastindex 
        
         print  
         "m.lastgroup:" 
         , m.lastgroup 
        
         print  
         "m.group(1,2):" 
         , m.group( 
         1 
         , 
         2 
         ) 
        
         print  
         "m.groups():" 
         , m.groups() 
        
         print  
         "m.groupdict():" 
         , m.groupdict() 
        
         print  
         "m.start(2):" 
         , m.start( 
         2 
         ) 
        
         print  
         "m.end(2):" 
         , m.end( 
         2 
         ) 
        
         print  
         "m.span(2):" 
         , m.span( 
         2 
         ) 
        
         print  
         r 
         "m.expand(r'\2 \1\3'):" 
         , m.expand(r 
         '\2 \1\3' 
         ) 
        
         ### output ### 
        
         # m.string: hello world! 
        
         # m.re: <_sre.SRE_Pattern object at 0x016E1A38> 
        
         # m.pos: 0 
        
         # m.endpos: 12 
        
         # m.lastindex: 3 
        
         # m.lastgroup: sign 
        
         # m.group(1,2): ('hello', 'world') 
        
         # m.groups(): ('hello', 'world', '!') 
        
         # m.groupdict(): {'sign': '!'} 
        
         # m.start(2): 6 
        
         # m.end(2): 11 
        
         # m.span(2): (6, 11) 
        
         # m.expand(r'\2 \1\3'): world hello!

2.3. Pattern

Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方法可以对文本进行匹配查找。

Pattern不能直接实例化，必须使用re.compile()进行构造。

Pattern提供了几个可读属性用于获取表达式的相关信息：

pattern: 编译时用的表达式字符串。
flags: 编译时用的匹配模式。数字形式。
groups: 表达式中分组的数量。
groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典，没有别名的组不包含在内。

 
    ? 
   
         import  
         re 
        
         p 
         =  
         re. 
         compile 
         (r 
         '(\w+) (\w+)(?P<sign>.*)' 
         , re.DOTALL) 
        
         print  
         "p.pattern:" 
         , p.pattern 
        
         print  
         "p.flags:" 
         , p.flags 
        
         print  
         "p.groups:" 
         , p.groups 
        
         print  
         "p.groupindex:" 
         , p.groupindex 
        
         ### output ### 
        
         # p.pattern: (\w+) (\w+)(?P<sign>.*) 
        
         # p.flags: 16 
        
         # p.groups: 3 
        
         # p.groupindex: {'sign': 3}

实例方法[ | re模块方法]：

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]): Match只找到一次可匹配的结果即返回

这个方法将从string的pos下标处起尝试匹配pattern；如果pattern结束时仍可匹配，则返回一个Match对象；如果匹配过程中pattern无法匹配，或者匹配未结束就已到达endpos，则返回None。
pos和endpos的默认值分别为0和len(string)；re.match()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。
注意：这个方法并不是完全匹配。当pattern结束时若string还有剩余字符，仍然视为成功。想要完全匹配，可以在表达式末尾加上边界匹配符'$'。
示例参见2.1小节。

search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]): （只要有一次匹配时，即返回匹配对象）
这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern，如果pattern结束时仍可匹配，则返回一个Match对象；若无法匹配，则将pos加1后重新尝试匹配；直到pos=endpos时仍无法匹配则返回None。
pos和endpos的默认值分别为0和len(string))；re.search()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。

 
      ? 
     
           # encoding: UTF-8  
          
           import  
           re 
          
           # 将正则表达式编译成Pattern对象  
          
           pattern 
           =  
           re. 
           compile 
           (r 
           'world' 
           ) 
          
           # 使用search()查找匹配的子串，不存在能匹配的子串时将返回None  
          
           # 这个例子中使用match()无法成功匹配  
          
           match 
           =  
           pattern.search( 
           'hello world!' 
           ) 
          
           if  
           match: 
          
           # 使用Match获得分组信息  
          
           print  
           match.group() 
          
           ### 输出 ###  
          
           # world

split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。

 
      ? 
     
           import  
           re 
          
           p 
           =  
           re. 
           compile 
           (r 
           '\d+' 
           ) 
          
           print  
           p.split( 
           'one1two2three3four4' 
           ) 
          
           ### output ### 
          
           # ['one', 'two', 'three', 'four', '']

findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
搜索string，以列表形式返回全部能匹配的子串。该函数需要找到所有可匹配的对象，并返回。

 
      ? 
     
           import  
           re 
          
           p 
           =  
           re. 
           compile 
           (r 
           '\d+' 
           ) 
          
           print  
           p.findall( 
           'one1two2three3four4' 
           ) 
          
           ### output ### 
          
           # ['1', '2', '3', '4']

finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):
搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。

 
      ? 
     
           import  
           re 
          
           p 
           =  
           re. 
           compile 
           (r 
           '\d+' 
           ) 
          
           for  
           m 
           in  
           p.finditer( 
           'one1two2three3four4' 
           ): 
          
           print  
           m.group(), 
          
           ### output ### 
          
           # 1 2 3 4

sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):
使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时，可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。
当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
count用于指定最多替换次数，不指定时全部替换。

 
      ? 
     
           import  
           re 
          
           p 
           =  
           re. 
           compile 
           (r 
           '(\w+) (\w+)' 
           ) 
          
           s 
           =  
           'i say, hello world!' 
          
           print  
           p.sub(r 
           '\2 \1' 
           , s) 
          
           def  
           func(m): 
          
           return  
           m.group( 
           1 
           ).title() 
           +  
           ' '  
           +  
           m.group( 
           2 
           ).title() 
          
           print  
           p.sub(func, s) 
          
           ### output ### 
          
           # say i, world hello! 
          
           # I Say, Hello World!

subn(repl, string[, count]) |re.sub(pattern, repl, string[, count]):
返回 (sub(repl, string[, count]), 替换次数)。

 
      ? 
     
           import  
           re 
          
           p 
           =  
           re. 
           compile 
           (r 
           '(\w+) (\w+)' 
           ) 
          
           s 
           =  
           'i say, hello world!' 
          
           print  
           p.subn(r 
           '\2 \1' 
           , s) 
          
           def  
           func(m): 
          
           return  
           m.group( 
           1 
           ).title() 
           +  
           ' '  
           +  
           m.group( 
           2 
           ).title() 
          
           print  
           p.subn(func, s) 
          
           ### output ### 
          
           # ('say i, world hello!', 2) 
          
           # ('I Say, Hello World!', 2)

以上就是Python对于正则表达式的支持。熟练掌握正则表达式是每一个程序员必须具备的技能，这年头没有不与字符串打交道的程序了。笔者也处于初级阶段，与君共勉，^_^

另外，图中的特殊构造部分没有举出例子，用到这些的正则表达式是具有一定难度的。有兴趣可以思考一下，如何匹配不是以abc开头的单词，^_^

全文结束

正则表达式的语法：

1.正则表达式简介

正则表达式（Regular expression,简写为Regexes）是一种用来操作和检验字符串数据的强大工具。它相当与一串特殊的字符，用它可以转换成算法，对文本进行匹配等操作。

事实上正则表达式有其自身的一套语法，这种语法对于初学者来说显得有些晦涩难懂。尤其是其构造比较困难，称为很多入门者的障碍。但当掌握后却可以轻易的解决以前不容易解决的很多文本类问题，如验证提取等。

其常用场合有如下三种：

Ø 测试字符串的某个模式。例如，可以对一个输入字符串进行测试，看在该字符串是否存在一个电话号码模式或一个信用卡号码模式。这称为数据有效性验证。

Ø 替换文本。可以在文档中使用一个正则表达式来标识特定文字，然后可以全部将其删除，或者替换为别的文字。

Ø 根据模式匹配从字符串中提取一个子字符串。可以用来在文本或输入字段中查找特定文字。

2.正则表达式基础语法

2.1匹配不同类型的字符

字符类	匹配的字符
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
.(点号)	任一字符
[...]	括号中的任一字符
[^…]	非括号中的任一字符

2.2定位控制字符

^	其后的模式必须在字符串的开始处，如果是多行则在任一行的开始C#需要设定Multiline标志
$	前面的模式必须在一行的末尾，如果是多行，则在任意行的末尾
\A	前面的模式必须在字符串的开始处；多行标志被忽略
\z	前面的模式必须在字符串的末尾处，多行标志被忽略
\Z	前面的模式必须位于字符串的末尾或位于换行符前
\b	匹配一个单词字符的开始，单词字符是[a-zA-Z0-9]中的一位
\B	匹配一个非单词边界的位置，不在一个单词的开始

2.3指定重复字符

{n}	匹配前面的字符n次
{n,}	匹配前面的字符最少n次
{n,m}	匹配前面的字符n至m次
?	匹配前面的字符0次或1次
+	匹配前面的字符至少1次
*	匹配前面的字符至少0次

2.4特殊控制类

\|	指定字符替换，即该位置可以是\|两边的任一个表达式

2.5 特殊字符转义序列

\\	匹配”\”
\.	匹配“.”
\*	匹配“*”
\(	匹配“（”
\)	匹配”)”
\?	匹配“？“
\+	匹配“+“
\\|	匹配“\|“
\{	匹配“{“
\}	匹配“}“
\^	匹配“^“
\$	匹配“$“
\n	匹配换行符
\r	匹配回车
\t	匹配Tab键
\v	匹配垂直制表符
\f	匹配换页符
\nnn	匹配一个三位八进制数指定的ASCII字符，如\103匹配C
\xnn	匹配一个二位16进制数指定的ASCII字符,例如\x43匹配C
\unnnn	匹配一个4位16进制数指定的Unicode字符
\cV	匹配一个控制字符，（如复制Ctrl+C）

2.6正则表达式分组、替换、反向引用等高级应用

以上只是正则表达式的基础部分，从这里开始才算真正开始正则表达式之旅。

² 分组

分组技术可以匹配在一个组中的所有字符，用（）来表示，是下面两个技术的基础所在。“（）“又称捕获符号。

1. 捕获：（）

例子：ABC1EDF2UU

匹配组表达式：（[A-Z]{3})\d --匹配3个连续大写字母和一个数字

匹配结果：1.ABC1,2.EDF2

如果用C#中的group，则为ABC,EDF。因为group搜集的是匹配组的内容。
2.非捕获（？：）

使用了非捕获就说明该（）中的内容将不作为捕获的组返回，而和其它表达式共同构成匹配项返回。也就是捕获组将不存在。

例：1AF3EDC

匹配表达式：（？:\d|[A-Z]）\w --匹配一个数字或字母加一个任意的字符。

匹配结果：1.1A 2.F3 3.ED

没有组被捕获

2. 通过名称捕获（？<name>）

定义了名称捕获的组可以在反向匹配中运用名称进行反向引用而不需要再使用数字进行反向捕获。注意组名区分大小写！

² 替换

替换，顾名思义，是将匹配的字符替换成其他指定的字符形式。这个功能是在分组的基础上的（当然或许可以单独存在，但是那样匹配的功能显然不够强大）。在这里有一个技巧是使用附加的匹配字符控制匹配内容。

$group	用group指定的组号进行替换
${name}	替换由<?name>匹配的最后一个子串
$$	替换字符$
$&	替换整个的匹配
$+	替换最后捕获的组
$	替换整个输入的字符串

² 反向引用

反向匹配可以引用前面组中的匹配形式。“\匹配组的数字表示（1为基数）“或者”\k<groupname>“

² 高级组

1. 正声明（？=）

规定了括号中的模式必须出现在声明的右侧。模式将不构成匹配的一部分。

2. 负声明（？!）

规定了括号中的模式不能出现在声明的右侧，模式将不构成匹配的一部分。

3. 反向正声明（？<=）

规定了括号中的模式必须出现在声明的左侧，模式将不构成匹配的一部分。

4. 反向负声明（？<!）

规定了括号中的模式必须出现在声明的左侧。模式不构成匹配的一部分。

5. 非回溯（？>）

防止了正则表达式引擎搜索失败时回溯，这称之为贪婪的子表达式。

如输入字符串：He was very trusting.

正则表达式：.*ing将匹配trusting但是如果加入（?>）ing则不能完成匹配。

非回溯组也是非捕获组。他对于提高正则表达式的效率很有效。

如匹配一个www.****.com的网址。使用www\.(.*)\.com显然要比www\.([^.]*)\.com效率要低的多，因为前者必须使用组中的回溯操作，回溯是很艰难的过程，所以当使用非回溯的正则表达式时时可以显著提高正则表达式的效率的。

其实正则表达式是只注重匹配结果的，所以会努力去匹配所存在的字符串。这就是它的贪婪性所在。（这点其实理解的不是太深）。

注意以上这些（1-5）都不能够用于反向引用，因为以上声明将不作为匹配的一部分。

2.7在正则表达式中做决策

高级决策的两种写法：

1=>（？（expression）yes|no)

2=>(?(?=expression)yes|no)

这两种方式中的的expression匹配则后面进行匹配yes，否则匹配no。

需要注意的一点是yes测试和决策测试是在同一个起点里进行的。

如以下字符串：77-77A 69-AA 57-B

匹配表达式为：(\d7)?-(?(1)\d\d[A-Z]|[A-Z][A-Z])

匹配结果为：

1.77-77A 2. –AA

这个正则表达式中用到了引用组，（？（1）**）中的1也可以换为\1,这样不影响匹配。这个匹配中如果将决策后面的\d\d去掉则会出现不同的结果，这时只会有一个-AA是匹配的。因为决策点和yes表达式是从同一个起点开始匹配所以即使决策点匹配了，但是后面的yes表达式仍然不匹配。就只匹配no部分的表达式。最终结果也必然改变，理解这一点很重要。

2.8 正则表达式的选项

快到结尾了，再说下正则表达式的选项。选项其实就是将正则表达式的设置改到组中来。如（？i:[a-z]）将忽略大小写进行匹配。实际上如果学过Javascript中的正则表达式，可以看出这个i在javascript中表示的还是这个意思。

N	规定只有显示命名的组标号的组才能有效的捕获
I	此选项匹配不区分大小写的匹配
X	此选项规定，非转义的空字符被排除在模式之外，并启用了一个前缀#的注释
M	指定多行模式，修改了^和$的定义
S	指定单行模式

2.9正则表达式的规则

1.正则表达式会对输入字符传进行最快的匹配，它一次搜索一个字符，知道实现第一次匹配。

2.发现一个匹配的开始后，正则表达式引擎将继续匹配，直到遇到一个不被模式接收的字符。

3.Regex引擎非常贪婪—只要模式匹配它将匹配尽可能多的字符。

4.Regex渴望实现匹配，所以将在需要时回溯以实现匹配。

5.Regex引擎总是先选择第一个选项。在|式表达式中。

以上的几点很重要。到这正则表达式的几乎所有规则也就讲完了。

最后附一个懒惰匹配常用修饰和其他的限定

*？	尽可能少地使用重复的第一个匹配
+？	尽可能少地使用重复但至少使用一次
？？	使用零次重复（如有可能）或一次重复
{n}？	等同于{n}
{n, }?	尽可能少地使用重复但至少使用n次
{n,m}?	介于n和m之间，尽可能少地使用重复

什么是RE?
　　想必各位大大在做文件查找的时侯都有使用过万用字符”*”，比如说想查找在Windows目录下所有的Word文件时，你可能就会用”*.doc”这样的方式来做查找，因为”*”所代表的是任意的字符。RE所做的就是类似这样的功能，但其功能更为强大。

　　写程序时，常需要比对字符串是否符合特定样式，RE最主要的功能就是来描述这特定的样式，因此可以将RE视为特定样式的描述式，举个例子来说，”\w+”所代表的就是任何字母与数字所组成的非空字符串(non-null string)。在.NET framework中提供了非常强大的类别库，藉此可以很轻易的使用RE来做文字的查找与取代、对复杂标头的译码及验证文字等工作。
接下来，就让我们来体验一些例子吧。

　　一些简单的例子
　　假设要查找文章中Elvis后接有alive的文字符串的话，使用RE可能会经过下列的过程，括号是所下RE的意思：

　　1. elvis (查找elvis)

　　上述代表所要查找的字符顺序为elvis。在.NET中可以设定乎略字符的大小写，所以”Elvis”、”ELVIS”或者是”eLvIs”都是符合1所下的RE。但因为这只管字符出现的顺序为elvis，所以pelvis也是符合1所下的RE。可以用2的RE来改进。

　　2. \belvis\b (将elvis视为一整体的字查找，如elvis、Elvis乎略字符大小写时)
“\b”在RE中有特别的意思，在上述的例子中所指的就是字的边界，所以\belvis\b用\b把elvis的前后边界界定出来，也就是要elvis这个字。

　　假设要将同一行里elvis后接有alive的文字符串找出来，此时就会用到另外二个特别意义的字符”.”及”*”。”.”所代表就是除了换行字符的任意字符，而”*”所代表的是重复*之前项目直到找到符合RE的字符串。所以”.*”所指的就是除了换行字符外的任意数目的字符数。所以查找同一行里elvis后接有alive的文字符串找出来，则可下如3之RE。

　　3. \belvis\b.*\balive\b (查找elvis后面接有alive的文字符串，如elvis is alive)

　　用简单之特别字符就可以组成功能强大的RE，但也发现当使用越来越多的特别字符时，RE就会越来越难看得懂了。

再看看另外的例子
　　组成有效的电话号码

　　假使要从网页上收集顾客格式为xxx-xxxx的7位数字的电话号码，其中x是数字，RE可能会这样写。

　　4. \b\d\d\d-\d\d\d\d (查找七位数字之电话号码，如123-1234)
　　每一个\d代表一个数字。”-”则是一般的连字符号，为避免太多重复的\d，RE可以改写成如5的方式。

　　5. \b\d{3}-\d{4} (查找七位数字电话号码较好的方法，如123-1234)
　　在\d后的{3}，代表重复前一个项目三次，也就是相等于\d\d\d。

　　RE的学习及测试工具 Expresso

　　因为RE不易阅读及使用者容易会下错RE的特性，Jim大大开发了一个工具软件Expresso，用来帮助使用者学习及测试RE，除了上面所述的网址之外，也可以上Ultrapico网站。安装完expresso后，在expression%20%20library中，jim大大把文章的例子都建立在其中，可以边看文章边测试，也可以试着修改范例所下的re，马上可以看到结果，小弟觉得非常好用。各位大大可以试试。/"。安装完Expresso后，在Expression Library中，Jim大大把文章的例子都建立在其中，可以边看文章边测试，也可以试着修改范例所下的RE，马上可以看到结果，小弟觉得非常好用。各位大大可以试试。

　　.NET中RE的基础概念
　　特殊字符

　　有些字符有特别的意义，比如之前所看到的”\b”、”.”、”*”、”\d”等。”\s”所代表的是任意空格符，比如说spaces、tabs、newlines等.。”\w”代表是任意字母或数字字符。

　　再看一些例子吧
　　6. \ba\w*\b (查找a开头的字，如able)
　　这RE描述要查找一个字的开始边界(\b)，再来是字母”a”，再加任意数目的字母数字(\w*)，再接结束这个字的结束边界(\b)。

　　7. \d+ (查找数字字符串)
　　“+”和”*”非常相似，除了+至少要重复前面的项目一次。也就是说至少有一个数字。

　　8. \b\w{6}\b (查找六个字母数字的字，如ab123c)

　　下表为RE常用的特殊字符

　　. 除了换行字符的任意字符
　　\w 任意字母数字字符
　　\s 任意空格符
　　\d 任意数字字符
　　\b 界定字的边界
　　^ 文章的开头，如”^The'' 用以表示出现于文章开头的字符串为”The”
　　$ 文章的结尾，如”End$”用以表示出现在文章的结尾为”End”
　　特殊字符”^”及”$”是用来查找某些字必需是文章的开头或结尾，这在验证输入是否符合某一样式时特别用有，比如说要验证七位数字的电话号码，可能会输入如下9的RE。

　　9. ^\d{3}-\d{4}$ (验证七位数字之电话号码)

　　这和第5个RE相同，但其前后都无其它的字符，也就是整串字符串只有这七个数字的电话号码。在.NET中如果设定Multiline这个选项，则”^”和”$”会每行进行比较，只要某行的开头结尾符合RE即可，而不是整个文章字符串做一次比较。

　　转意字符(Escaped characters)

　　有时可能会需要”^”、”$”单纯的字面意义(literal meaning)而不要将它们当成特殊字符，此时”\”字符就是用来移除特殊字符特别意义的字符，因此”\^”、”\.”、”\\”所代表的就是”^”、”.”、”\”的字面意义。

　　重复前述项目

　　在前面看过”{3}”及”*”可以用来重复前述字符，之后我们会看到如何用同样的语法重复整个次描述(subexpressions)。下表是使用重复前述项目的一些方式。

　　* 重复任意次数
　　+ 重复至少一次
　　? 重复零次或一次
　　{n} 重复n次
　　{n,m} 重复至少n次，但不超过m次
　　{n,} 重复至少n次

　　再来试一些例子吧

　　10. \b\w{5,6}\b (查找五个或六个字母数字字符的字，如as25d、d58sdf等)
　　11. \b\d{3}\s\d{3}-\d{4} (查找十个数字的电话号码，如800 123-1234)
　　12. \d{3}-\d{2}-\d{4} (查找社会保险号码，如 123-45-6789)
　　13. ^\w* (每行或整篇文章的第一个字)
　　在Espresso可试试有Multiline和没Multiline的不同。

　　匹配某范围的字符

　　有时需要查找某些特定的字符时怎么辨?这时中括号”[]”就派上了用场。因此[aeiou]所要查找的是”a”、”e”、”i”、”o”、”u”这些元音，[.?!]所要查找的是”.”、”?”、”!”这些符号，在中括号中的特殊字符的特别意义都会被移除，也就是解译成单纯的字面意义。也可以指定某些范围的字符，如”[a-z0-9]”，所指的就是任意小写字母或任意数字。

　　接下来再看一个比较初复杂查找电话号码的RE例子

　　14. \(?\d{3}[( ] \s?\d{3}[- ]\d{4} (查找十位数字之电话号码，如(080) 333-1234 )

　　这样的RE可查找出较多种格式的电话号码，如(080) 123-4567、511 254 6654等。”\(?”代表一个或零个左小括号”(“，而”[( ]”代表查找一个右小括号”)”或空格符，”\s

你可能感兴趣的:(正则表达式,String,python,语言,encoding,output)

Python 适合大型软件项目(不是基于 Web 的)吗? 潮易 python 开发语言
Python适合大型软件项目(不是基于Web的)吗?Python非常适合于大型软件项目的开发，尤其是那些不依赖于Web技术的项目。以下是一些关于如何在Python中开发大型软件项目的建议：1.设计明确的架构：在编写代码之前，你需要明确你的软件系统的架构。你应该考虑模块化的设计，以便更容易地扩展和维护。2.使用合适的数据结构和算法：根据你的需求，选择合适的数据结构或算法可以提高你的程序的性能。3.测
【AI论文】使用大型推理模型进行竞技编程东临碣石82 人工智能
摘要：我们的研究表明，将强化学习应用于大型语言模型（LLMs）能显著提升复杂编码和推理任务的性能。此外，我们将两个通用推理模型——OpenAI的o1模型和o3模型的一个早期检查点——与一个特定领域的系统o1-ioi进行了比较。o1-ioi采用了为参加2024年国际信息学奥林匹克竞赛（IOI）而手工设计的推理策略。我们使用o1-ioi实时参加了2024年IOI竞赛，并凭借手工制定的测试时策略取得了第
如何微调（Fine-tuning）大语言模型？看完这篇你就懂了！！ datian1234 语言模型人工智能 chatgpt LLM ai AI大模型大模型微调
前言本文介绍了微调的基本概念，以及如何对语言模型进行微调。从GPT3到ChatGPT、从GPT4到GitHubcopilot的过程，微调在其中扮演了重要角色。什么是微调（fine-tuning）？微调能解决什么问题？什么是LoRA？如何进行微调？本文将解答以上问题，并通过代码实例展示如何使用LoRA进行微调。微调的技术门槛并不高，如果微调的模型规模不大10B及10B以下所需硬件成本也不高（10B模
大型语言模型的核心机制解析耶耶Norsea 网络杂烩人工智能 Deepseek
摘要大型语言模型的核心机制依赖于Transformer架构，该架构通过嵌入层将输入数据转换为向量形式，并结合位置编码以保留序列中单词的顺序信息。随后，这些向量进入多头自注意力层，能够同时关注输入序列的不同部分。自注意力层的输出经过残差连接和层归一化处理，以增强模型的学习能力和稳定性。接着，数据流经前馈网络进一步处理，最终再次通过残差连接和层归一化，得到编码器层的输出。模型性能高度依赖大规模和高质量
高阶C语言|动态内存管理我想吃余 C语言篇 c语言 java jvm
欢迎讨论：在阅读过程中有任何疑问，欢迎在评论区留言，我们一起交流学习！点赞、收藏与分享：如果你觉得这篇文章对你有帮助，记得点赞、收藏，并分享给更多对C语言感兴趣的朋友文章目录@[toc]动态内存管理在C/C++编程中的重要性为什么需要动态内存管理？动态内存函数malloc和freecallocrealloc调整内存空间存在两种情况情况1情况2常见的动态内存错误对NULL指针的解引用操作对动态开辟空
【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch) Tasfa AI人工智能教程人工智能学习 gpt
前序文章【AI系列】从零开始学习大模型GPT(1)-BuildaLargeLanguageModel(FromScratch)BuildaLargeLanguageModel背景第1章：理解大型语言模型第2章：处理文本数据第3章：编码Attention机制什么是Attention机制？Attention机制的基本原理数学表示应用总结为什么要使用注意力机制如何实现？简单注意力机制带训练权重的注意力机
多模态大模型（LMMs）与大语言模型（LLMs）的比较大F的智能小课底层技术解析人工智能语言模型
前言现在的大模型分为两大类：大语言模型（LargeLanguageModels，简称LLMs）和多模态大模型（LargeMultimodalModels，简称LMMs）。本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。基础定义LLMs(LargeLanguageModels,大型语言模型)-深度学习的应用之一，是基于深度学习的大规模机器学习模型，通常由数十亿到数万亿个参数构
【好书推荐2】AI提示工程实战：从零开始利用提示工程学习应用大语言模型是Yu欸粉丝福利人工智能深度学习 bert AIGC prompt gpt AI写作
【好书推荐2】AI提示工程实战：从零开始利用提示工程学习应用大语言模型写在最前面AI辅助研发方向一：AI辅助研发的技术进展方向二：行业应用案例方向三：面临的挑战与机遇方向四：未来趋势预测方向五：与法规的影响方向六：人才培养与教育《AI提示工程实战：从零开始利用提示工程学习应用大语言模型》关键点内容简介作者简介你好呀！我是是Yu欸2024每日百字篆刻时光，感谢你的陪伴与支持~欢迎一起踏上探险之旅，挖
从零开始刷leetcode数组的“度”C语言编程解答多宝气泡水从零开始leetcode 算法数据结构 leetcode c语言哈希算法
描述给定一个非空且只包含非负数的整数数组nums，数组的度的定义是指数组里任一元素出现频数的最大值。你的任务是在nums中找到与nums拥有相同大小的度的最短连续子数组，返回其长度。示例1：输入：nums=[1,2,2,3,1]输出：2解释：输入数组的度是2，因为元素1和2的出现频数最大，均为2。连续子数组里面拥有相同度的有如下所示：[1,2,2,3,1],[1,2,2,3],[2,2,3,1],
手把手教你给 windows装个vmware虚拟机 python算法小白
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
LeetCode:两排序数组中位数(C语言版) 想考北航的小刺猬 LeetCode leetcode c语言算法
doublefindMedianSortedArrays(int*nums1,intnums1Size,int*nums2,intnums2Size){inta[nums1Size+nums2Size];inti=0;intj=0;intk=0;while(i
appium环境搭建 weixin_43516809 appium appuim
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言记录手机自动化环境搭建学习过程一、jdk安装配置（省略）二、AndroidSDK安装配置三、python环境安装配置四、pycharm开发工具安装五、安装node.js六、appium安装1.安装2.检查appium环境是否搭建成功七、appium工作原理总结前言记录手机自动化环境搭建学习过程一、jdk安装配置（省略）cm
VS Code 通知中一直显示“Reactivating terminals...”的问题解决随猿Fa IDE python ide vscode
VSCode通知中一直显示“Reactivatingterminals...”的问题解决问题截图解决方案修复截图相关链接问题截图解决方案点击顶部放大镜()->输入尖括号(>)->然后搜索(Python:ClearWorkspaceInterpreterSetting)->最后点击即可修复截图之后就没有这个烦人的通知啦!相关链接GitHubissueofvscode-pythonforReactiv
【Elasticsearch】分词器概述 risc123456 Elasticsearch elasticsearch
Elasticsearch分词与神经网络分词的区别Elasticsearch的分词过程产生的是优化用于搜索和检索的语言学分词。这与机器学习和自然语言处理中的神经分词不同。神经分词器将字符串转换为更小的子词分词，这些分词被编码为向量，供神经网络使用。Elasticsearch没有内置的神经分词器。分词器接收一个字符流，将其分解为单独的分词（通常是单个单词），并输出一个分词流。例如，`whitespa
LeetCode题库-1~10（C语言）等待另一个根号二 LeetCode题库 leetcode c语言
LeetCode题库-1~10-C语言1两数之和代码：2两数相加代码：3无重复字符的最长子串代码：4寻找两个正序数组的中位数代码：5最长回文子串代码：6Z字形变换代码：7整数反转代码：8字符串转换整数（atoi）代码：9回文数代码：10正则表达式匹配代码：1两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可
一、C语言编程LeetCode数据结构题失败才是人生常态考研初试准备 c语言数据结构
一、链表1、两数相加算法思想：1、设置两个指针p,q，分别指向两个链表的头结点2、设置一个临时变量temp，用来记录两个数相加时是否有进位，初始化为0。只要p,q指针不指向空，就循环把两个指针所指向节点的值和temp相加。如果大于9，就让一个临时变量设置为1，并把相加结果减10，把结果赋给两个指针所指向节点的值；如果小于9就直接赋值给两个节点所指向的值。然后p,q指针分别后移一个节点。3、最后，判
Python网络请求详解 wespten 全栈软件测试人工智能测试开发自动化测试性能测试软件测试
一、网络请求测试人员对于接口测试的理解总是停留在工具使用层面。很多情况下，测试人员会花很大的代价去学习一个工具。而测试工具本身的局限性，又导致测试人员陷入想直接用现成的测试框架却又无法进行扩展的僵局。最后由于项目的特殊性等客观因素，测试人员只能放弃工具，脱离了工具的可视化界面友好操作，发现自己连接口是什么都不明白，更不要说自行完成接口自动化测试了。随即接口自动化测试由于项目成本及人员能力问题宣告失
基于 Python 的云笔记平台分析与设计程序员奇奇计算机毕设 Python 云笔记毕业设计
完整代码：https://download.csdn.net/download/qq_38735017/873824351前言1.1背景苏联著名教育学家苏霍姆林斯基说得好：“如果学生的智力生活仅局限于教科书，如果他做完了功课就觉得任务已经完成，那么他是不可能有自己特别爱好的。”每一个学生要在书籍的世界里，有自己的生活。把读书，应视为自己的乐趣。当每读完一本有意思的书时，很多时候都想把书中感触深刻亦
deepseek和chatgpt对比 dev.null AI #NLP chatgpt
DeepSeek和ChatGPT都是自然语言处理领域的工具，但它们的设计目标和功能有所不同。功能定位：ChatGPT是一个基于OpenAIGPT-3或GPT-4的聊天机器人，旨在进行人机对话、文本生成、问题解答等，广泛应用于教育、客服、创意写作等领域。它的核心功能是生成自然、流畅的对话内容，并能够处理各种复杂的语言任务。DeepSeek（假设你是指某种搜索引擎工具或者特定的语义分析工具）通常聚焦于
Windows下安装CPU用的Tensorflow Coder LM Wang Python
刚在电脑上安装了Tensorflow，还是碰到了一些麻烦，记录一下：很多教程是介绍怎么在Linux平台下安装的，或者是Windows平台下GPU用的，很可惜，这些教程对我来说太麻烦了。安装步骤：1）安装Python。版本：python-3.6.4-amd64.exe。2）cmd，命令行输入：python，查看Python版本号，以验证Python是否安装成功了。3）继续在命令行输入：pipinst
Sealos的k8s高可用集群搭建 da pai ge kubernetes 容器云原生
Sealos介绍](https://sealos.io/zh-Hans/docs/Intro)Sealos是一个Go语言开发的简单干净且轻量的Kubernetes集群部署工具，能很好的支持在生产环境中部署高可用的Kubernetes集群。Sealos特性与优势支持离线安装，工具与部署资源包分离，方便不同版本间快速升级。证书有效期默认延期至99年。工具使用非常简单。支持使用自定义配置文件，可灵活完成
(接）C语言初学速通 April-spring c语言数据结构开发语言
第九章用户自己建立数据类型1.结构体定义：由不同类型数据组成的组合型数据结构，例如：一个人的基本信息（结构体）包括名字（字符）、性别（字符）、年龄（int)、籍贯（字符）；形式：struct结构体名{charname[20];charsex;intage;……};---------------------------->一定要注意这里有一个分号结构体里面的成员也可以是另一个结构体；structst
【算法】动态规划专题⑪ —— 区间DP python 查理零世动态规划专题算法动态规划 python
目录引入进入正题回归经典总结引入区间动态规划（区间DP）适用于解决涉及区间最优化的经典问题，如石子合并、最长回文子序列等。进入正题石子合并https://www.acwing.com/problem/content/284/有N堆石子排成一排，其编号为1,2,3,…,N。每堆石子有一定的质量，可以用一个整数来描述，现在要将这N堆石子合并成为一堆。每次只能合并相邻的两堆，合并的代价为这两堆石子的质量
解码DeepSeek家族系列：大语言模型赛道上的黑马传奇大F的智能小课语言模型人工智能自然语言处理
1.DeepSeek公司概况1.1成立背景与发展历程DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，于2023年7月17日正式成立。公司由知名量化资管巨头幻方量化孕育而生，其创始人梁文峰是幻方量化的联合创始人之一。DeepSeek自成立之初，便专注于开发先进的大语言模型（LLM）及相关技术，致力于通过数据蒸馏技术提取更精炼、有用的数据，以提升模型性能。在发展历程中，DeepSeek
python创建画布语句_canvas元素创建画布 weixin_39847945 python创建画布语句
Phaser桌面和手机游戏HTML5框架Phaser是一个流行的2D开源游戏框架，可以用来开发桌面或手机浏览器HTML5游戏，适合侧视或顶视风格：Phaser同时支持Canvas和WebGL渲染引擎，预置了完备的精灵动画、输入管理、瓦片地图、补间动画、资源加载器、物理系统、粒子系统等特性，几乎能够满足你开发一个2D游戏的任何...文章马拉喀什2017-11-021163浏览量HTML5学习手笔四：
scala kotlin比较_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性 weixin_39605296 scala kotlin比较 scala list 接受java string
本文原发于我的个人博客：https://hltj.me/java/2020/06/14/java-12-15-lang-features.html。本副本只用于知乎，禁止第三方转载。Java14发布已经过去了三个月，Java15目前也已经到了“RampdownPhaseOne”阶段，其新特性均已敲定。由于12-15都是短期版本，无需考虑也不应该将其用于生产环境。但可以提前了解新特性，以免在下一个L
java 协程 scala_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性小田linda java 协程 scala
Java14发布已经过去了三个月，Java15目前也已经到了“RampdownPhaseOne”阶段，其新特性均已敲定。由于12-15都是短期版本，无需考虑也不应该将其用于生产环境。但可以提前了解新特性，以免在下一个LTS(Java17)正式发布时毫无心理准备。Java12-15引入了一系列改进，本文只讨论语言层面的新特性，它们看起来似曾相识——没错，这些特性让人感觉Java在沿Kotlin/Sc
Go语言输入输出凉城未暖夜微凉 Golang golang
packagefmtfmt包实现了类似C语言printf和scanf的格式化I/O。主要分为向外输出内容和获取输入内容两大部分。Go语言输入输出01、获取输入1、fmt.Scan2、fmt.Scanf3、fmt.Scanln4、bufio.NewReader5、Fscan系列6、Sscan系列02、输出数据1、fmt.Print2、fmt.Printf3、fmt.Println4、Fprint5、
Python.pyecharts.charts折线图新旧版本对比详解！唔使般若 python
旧版本(0.5.10)实现frompyechartsimportLineline=Line("美国邮费阶梯图")datax=[1995,1996,1997,1998,1999,2001,2002,2003,2004,2005,2006,2007,2008,2009]datay=[0.32,0.32,0.32,0.32,0.33,0.33,0.34,0.37,0.37,0.37,0.37,0.39,
GO语言ACM输入输出 Thomas_YiSaYa go语言 go语言
GoACM常用的输入输出有时候用gofmt.ScanL会出现超时，这里用这个不会超时。scanner:=bufio.NewScanner(os.Stdin)scanner.Split(bufio.ScanWords)scanner.Scan()n,_:=strconv.Atoi(scanner.Text())参考文档ACM输入
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts