琦彦

Python正则表达式-总结

总结--常用正则表达式符号

    
    
    
    
     
     
     
     '.'     默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行
     
     
     
     '^'     匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
     
     
     
     '$'     匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以
     
     
     
     '*'     匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac")  结果为['abb', 'ab', 'a']
     
     
     
     '+'     匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
     
     
     
     '?'     匹配前一个字符1次或0次
     
     
     
     '{m}'   匹配前一个字符m次
     
     
     
     '{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
     
     
     
     '|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
     
     
     
     '(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
     
     
     
      
     
     
     
      
     
     
     
     '\A'    只从字符开头匹配，re.search("\Aabc","alexabc") 是匹配不到的
     
     
     
     '\Z'    匹配字符结尾，同$
     
     
     
     '\d'    匹配数字0-9
     
     
     
     '\D'    匹配非数字
     
     
     
     '\w'    匹配[A-Za-z0-9]
     
     
     
     '\W'    匹配非[A-Za-z0-9]
     
     
     
     's'     匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
     
     
     
      
     
     
     
     '(?P...)' 分组匹配 
     
     
     
     re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{4})","371481199306143242").groupdict("city") 
     
     
     
     结果{'province': '3714', 'city': '81', 'birthday': '1993'}

总结--最常用的匹配语法

    
    
    
    
     
     
     
     re.match 从头开始匹配
     
     
     
     re.search 匹配包含
     
     
     
     re.findall 把所有匹配到的字符放到以列表中的元素返回
     
     
     
     re.splitall 以匹配到的字符当做列表分隔符
     
     
     
     re.sub      匹配字符并替换

    
    
    
    
     
     
     
     Python中字符串前面加上 r   表示原生字符串

    
    
    
    

    
    
    
    
     
     
     
           
      
      
      
       
       
       
       在Python的string前面加上‘r’， 是为了告诉编译器这个string是个raw string，
       
       
       
       不要转意backslash '\' 。 
       
       
       
       

       
       
       
       例如，\n 在raw string中，是两个字符，\和n， 而不会转意为换行符。
       
       
       
       由于正则表达式和 \ 会有冲突，因此，当一个字符串使用了正则表达式后，最好在前面加上'r'。

反斜杠的困扰

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

总结--最常用的几个匹配模式

    
    
    
    
     
     
     
     re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
     
     
     
     M(MULTILINE): 多行模式，改变'^'和'$'的行为
     
     
     
     S(DOTALL): 点任意匹配模式，改变'.'的行为

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。

re 模块--使 Python 语言拥有全部的正则表达式功能。
compile 函数--根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
re 模块--也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

本文主要介绍Python中常用的正则表达式处理函数。

re.match函数

re.match 尝试从字符串的开始匹配一个模式。
- 函数语法：

    
    
    
    
     
     
     
     re.match(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.match方法返回一个匹配的对象，否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

实例：

    
    
    
    
     
     
     
     #!/usr/bin/python
     
     
     
     import re
     
     
     
     
     
     
     
     line = "Cats are smarter than dogs"
     
     
     
     
     
     
     
     matchObj = re.match(r'(.*) are (.*?) .*', line, re.M | re.I)
     
     
     
     
     
     
     
     if matchObj:
     
     
     
         print ("matchObj.group() : ", matchObj.group())
     
     
     
         print ("matchObj.group(1) : ", matchObj.group(1))
     
     
     
         print ("matchObj.group(2) : ", matchObj.group(2))
     
     
     
     else:
     
     
     
         print ("No match!!")

以上实例执行结果如下：

    
    
    
    
     
     
     
     matchObj.group() :  Cats are smarter than dogs
     
     
     
     matchObj.group(1) :  Cats
     
     
     
     matchObj.group(2) :  smarter

re.search方法

re.match 尝试从字符串的开始匹配一个模式。
- 函数语法：

    
    
    
    
     
     
     
     re.search(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.search方法方法返回一个匹配的对象，否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

实例：

       
       
       
       
        
        
        
        #!/usr/bin/python
        
        
        
        import re
        
        
        
        
        
        
        
        line = "Cats are smarter than dogs"
        
        
        
        
        
        
        
        searchObj = re.search(r'(.*) are (.*?) .*', line, re.M | re.I)
        
        
        
        
        
        
        
        if searchObj:
        
        
        
            print ("searchObj.group() : ", searchObj.group())
        
        
        
            print ("searchObj.group(1) : ", searchObj.group(1))
        
        
        
            print ("searchObj.group(2) : ", searchObj.group(2))
        
        
        
        else:
        
        
        
            print ("No search!!")

以上实例执行结果如下：

       
       
       
       
        
        
        
        searchObj.group() :  Cats are smarter than dogs
        
        
        
        searchObj.group(1) :  Cats
        
        
        
        searchObj.group(2) :  smarter

re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；
而re.search匹配整个字符串，直到找到一个匹配。
- 实例：

    
    
    
    
     
     
     
     #!/usr/bin/python
     
     
     
     import re
     
     
     
     
     
     
     
     line = "Cats are smarter than dogs";
     
     
     
     
     
     
     
     matchObj = re.match(r'dogs', line, re.M | re.I)
     
     
     
     if matchObj:
     
     
     
         print ("match --> matchObj.group() : ", matchObj.group())
     
     
     
     else:
     
     
     
         print ("No match!!")
     
     
     
     
     
     
     
     matchObj = re.search(r'dogs', line, re.M | re.I)
     
     
     
     if matchObj:
     
     
     
         print ("search --> matchObj.group() : ", matchObj.group())
     
     
     
     else:
     
     
     
         print ("No match!!")

以上实例运行结果如下：

    
    
    
    
     
     
     
     No match!!
     
     
     
     search --> matchObj.group() :  dogs

检索和替换

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

语法：

    
    
    
    
     
     
     
     re.sub(pattern, repl, string, count=0, flags=0)

返回的字符串是在字符串中用 RE 最左边不重复的匹配来替换。如果模式没有发现，字符将被没有改变地返回。
可选参数 count 是模式匹配后替换的最大次数；count 必须是非负整数。缺省值是 0 表示替换所有的匹配。

实例：

       
       
       
       
        
        
        
        # !/usr/bin/python
        
        
        
        import re
        
        
        
        
        
        
        
        phone = "2004-959-559 # This is Phone Number"
        
        
        
        
        
        
        
        # Delete Python-style comments
        
        
        
        num = re.sub(r'#.*$', "", phone)
        
        
        
        print ("Phone Num : ", num)
        
        
        
        
        
        
        
        # Remove anything other than digits
        
        
        
        num = re.sub(r'\D', "", phone)
        
        
        
        print ("Phone Num : ", num)

以上实例执行结果如下：

       
       
       
       
        
        
        
        Phone Num :  2004-959-559 
        
        
        
        Phone Num :  2004959559

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。
修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。
如 re.I | re.M 被设置成 I 和 M 标志：

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式模式

模式字符串使用特殊的语法来表示一个正则表达式：
字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。
多数字母和数字前加一个反斜杠时会拥有不同的含义。
标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。
反斜杠本身需要使用反斜杠转义。
由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'/t'，等价于'//t')匹配相应的特殊字符。
下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

正则表达式的符号与方法

      
      
      
      
       
       
       
       常用符号：点号，星号，问号与括号（小括号）
       
       
       
       
       
       
       
       . :匹配任意字符，换行符\n除外
       
       
       
       * :匹配前一个字符0次或无限次
       
       
       
       ? :匹配前一个字符0次或1次
       
       
       
       .* :贪心算法
       
       
       
       .*? :非贪心算法
       
       
       
       () :括号内的数据作为结果返回
       
       
       
       常用方法：findall， search， sub
       
       
       
       
       
       
       
       findall：匹配所有符合规律的内容，返回包含结果的列表
       
       
       
       search：匹配并提取第一个规律的内容，返回一个正则表达式对象(object)
       
       
       
       sub：替换符合规律的内容，返回替换后的值

表1.常用的元字符

代码说明

. 匹配除换行符以外的任意字符

\w 匹配字母或数字或下划线或汉字

\s 匹配任意的空白符

\d 匹配数字

\b 匹配单词的开始或结束

^ 匹配字符串的开始

$ 匹配字符串的结束

表1.常用的元字符
代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

表2.常用的限定符

代码/语法说明

* 重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

表2.常用的限定符
代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

表3.常用的反义代码
代码/语法	说明
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

表4.常用分组语法
分类	代码/语法	说明
捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
	(?exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
	(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp后面的位置
	(?!exp)	匹配后面跟的不是exp的位置
	(?	匹配前面不是exp的位置
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

表5.懒惰限定符

代码/语法说明

*? 重复任意次，但尽可能少重复

+? 重复1次或更多次，但尽可能少重复

?? 重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n次以上，但尽可能少重复

表5.懒惰限定符
代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

1)findall

a.点号.

      
      
      
      
       
       
       
       import re
       
       
       
       a = 'xzx23'
       
       
       
       b = re.findall('x.', a)
       
       
       
       print b

输出

       
       
       
       
        
        
        
         ['xz', 'x2']

点.是一个占位符，一个.代表一个符号

b.星号`*`

      
      
      
      
       
       
       
       import re
       
       
       
       a = 'xyxy123'
       
       
       
       b = re.findall('x*', a)
       
       
       
       print(b)

输出

       
       
       
       
        
        
        
        ['x', '', 'x', '', '', '', '', '']

依次匹配字符，有则显示，无则显示''(空)。

c.问号`?`

      
      
      
      
       
       
       
       import re
       
       
       
       a = 'xy123'
       
       
       
       b = re.findall('x?', a)
       
       
       
       print(b)

输出

       
       
       
       
        
        
        
        ['x', '', '', '', '', '']

单独与 *一样，前面附加其他的符号将做非贪心限制

d.贪心.*

      
      
      
      
       
       
       
       import re
       
       
       
       secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
       
       
       
       b = re.findall('xx.*xx', secret_code)
       
       
       
       print(b)

输出

       
       
       
       
        
        
        
        ['xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxx']

只要满足条件全部显示，贪心算法

e.非贪心 .*?

       
       
       
       
        
        
        
        import re
        
        
        
        secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
        
        
        
        b = re.findall('xx.*?xx', secret_code)
        
        
        
        print(b)

输出

        
        
        
        
         
         
         
         ['xxIxx', 'xxlovexx', 'xxyouxx']

以上只做了解，一般只用（.*?）

f.经典用法`(.*?)`

      
      
      
      
       
       
       
       import re
       
       
       
       secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
       
       
       
       b = re.findall('xx(.*?)xx', secret_code)
       
       
       
       print(b)

输出

       
       
       
       
        
        
        
        ['I', 'love', 'you']

()包围所需要的内容，括号内的内容作为结果返回，不需要的内容放在括号外面

2)re.S

      
      
      
      
       
       
       
       import re
       
       
       
       secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
       
       
       
       xxbvk14rgjhxxyouxxfj4286ykjhag2'''
       
       
       
       #love后有换行符
       
       
       
       b = re.findall('xx(.*?)xx', secret_code)
       
       
       
       print(b)
       
       
       
       # 因为.不能匹配换行符。所以会一行为一个搜索项去找。匹配任何字符除了新的一行

输出

      
      
      
      
       
       
       
       ['I', 'bvk14rgjh']

re.S

      
      
      
      
       
       
       
       import re
       
       
       
       secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
       
       
       
       xxbvk14rgjhxxyouxxfj4286ykjhag2'''
       
       
       
       #love后有换行符
       
       
       
       b = re.findall('xx(.*?)xx', secret_code, re.S)
       
       
       
       print(b)
       
       
       
       # re.S让.匹配所有行，包括了换行符（以\n的形式出现）

输出

       
       
       
       
        
        
        
        ['I', 'love\n', 'you']

3)search

对比search和findall的区别

     
     
     
     
      
      
      
      search 找到一个后返回，不继续，大大提高效率
      
      
      
      findall遍历全部，找到尽可能多的项

      
      
      
      
       
       
       
       import re
       
       
       
       s2 = '''ghkj08hs68xxIxx123xxlove
       
       
       
       xxbvk14rgjhxxfj4286ykjhag2'''
       
       
       
       b = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(1)
       
       
       
       print(b)
       
       
       
       c = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(2)
       
       
       
       print(c)
       
       
       
       d = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(3)
       
       
       
       print(d)

输出

      
      
      
      
       
       
       
       Traceback (most recent call last):
       
       
       
         File "D:/WorkSpace/python/Django/test.py", line 7, in <module>
       
       
       
           d = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(3)
       
       
       
       IndexError: no such group
       
       
       
       I
       
       
       
       123

group是按括号顺序匹配

     
     
     
     
      
      
      
      import re
      
      
      
      s2 = '''ghkj08hs68xxIxx123xxlovexxbvk14rgjhxxfj4286ykjhag2'''
      
      
      
      f2 = re.findall('xx(.*?)xx123xx(.*?)xx', s2, re.S)
      
      
      
      print (f2)
      
      
      
      print (f2[0][1])

输出

      
      
      
      
       
       
       
       [('I', 'love')]
       
       
       
       love

每一个匹配项为第一级列表，括号为二级列表

4)sub

      
      
      
      
       
       
       
       re.sub(pattern, repl, string, count=0, flags=0)
       
       
       
       
       
       
       
       找到 RE 匹配的所有子串，并将其用一个不同的字符串替换。
       
       
       
       
       
       
       
       
        
        
        
        
         
         
         
                   
          
          
          
           
           
           
           第一个参数：pattern
           
           
           
           pattern，表示正则中的模式字符串
           
           
           
           
           
           
           
           第二个参数：repl
           
           
           
           repl，就是replacement，被替换，的字符串的意思。
           
           
           
           
           
           
           
           第三个参数：string
           
           
           
           string，即表示要被处理，要被替换的那个string字符串。
           
           
           
            
           
           
           
           

           
           
           
           第四个参数：可选参数 count 是模式匹配後替换的最大次数；count 必须是非负整数。
           
           
           
           缺省值是 0 表示替换所有的匹配。如果无匹配，字符串将会无改变地返回。
           
           
           
           
          
          
          
          
        
        
        
        
        
        
        
        
         
         
         
         

        
        
        
        
 
       
       
       
       
       
       
       
       re.subn(pattern, repl, string, count=0, flags=0)
       
       
       
       与re.sub方法作用一样，但返回的是包含新字符串和替换执行次数的两元组。

      
      
      
      
       
       
       
       import re
       
       
       
       s = '123abcssfasdfas123'
       
       
       
       output = re.sub('123(.*?)123', '123789123', s)
       
       
       
       print (output)
       
       
       
       # sub将符合条件的()内内容提换

输出

123789123

        
        
        
        
         
         
         
         import re
         
         
         
         inputStr = "hello 123 world 456"
         
         
         
         replacedStr = re.sub("\d+", "222", inputStr)
         
         
         
         print (replacedStr)

输出

        
        
        
        
         
         
         
         hello 222 world 222

5)注意：

      
      
      
      
       
       
       
       from re import findall, search, S 
       
       
       
       最好不要引入，因为S等容易和变量等混淆，引起歧义

6)compile用法

      
      
      
      
       
       
       
       import re
       
       
       
       secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
       
       
       
       xxbvk14rgjhxxyouxxfj4286ykjhag2'''
       
       
       
       pattern = 'xx(.*?)xx'
       
       
       
       new_pattern = re.compile(pattern, re.S)
       
       
       
       b = re.findall(new_pattern, secret_code)
       
       
       
       print (b)

输出

       
       
       
       
        
        
        
        ['I', 'love\n', 'you']

因为findall自动调用compile方法，所以不先编译规律compile再匹配

7)匹配纯数字(\d+)

      
      
      
      
       
       
       
       import re
       
       
       
       a = 'dfhkgh43gfhja873y5t2167715'
       
       
       
       b = re.findall('(\d+)', a)
       
       
       
       print (b)

输出

      
      
      
      
       
       
       
       ['43', '873', '5', '2167715']

2.应用举例

1)用findall和search从大量文本中匹配内容

a.提取标题

      
      
      
      
       
       
       
       import re
       
       
       
       
       
       
       
       old_url = 'http://www.jikexueyuan.com/course/android/?pageNum=2'
       
       
       
       total_page = 20
       
       
       
       
       
       
       
       f = open('text.txt', 'r')
       
       
       
       html = f.read()
       
       
       
       f.close()
       
       
       
       
       
       
       
       title = re.search('(.*?)', html, re.S).group(1)
       
       
       
       print title

text.txt

      
      
      
      
       
       
       
       <html>
       
       
       
           <head>
       
       
       
               <title>极客学院爬虫测试title>
       
       
       
           head>
       
       
       
           <body>
       
       
       
               <div class="topic"><a href="http://jikexueyuan.com/welcome.html">欢迎参加《Python定向爬虫入门》a>
       
       
       
                   <div class="list">
       
       
       
                       <ul>
       
       
       
                           <li><a href="http://jikexueyuan.com/1.html">这是第一条a>li>
       
       
       
                           <li><a href="http://jikexueyuan.com/2.html">这是第二条a>li>
       
       
       
                           <li><a href="http://jikexueyuan.com/3.html">这是第三条a>li>
       
       
       
                       ul>
       
       
       
                   div>
       
       
       
               div>
       
       
       
           body>
       
       
       
       html>

输出

b.提取网址

      
      
      
      
       
       
       
       link = re.findall('href="(.*?)"', html, re.S)
       
       
       
       for each in link:
       
       
       
           print each

输出

      
      
      
      
       
       
       
       http://jikexueyuan.com/welcome.html 
       
       
       
       http://jikexueyuan.com/1.html 
       
       
       
       http://jikexueyuan.com/2.html 
       
       
       
       http://jikexueyuan.com/3.html

c.提取文字信息

先爬大再爬小

     
     
     
     
      
      
      
      text_fied = re.findall('(.*?)
', html, re.S)[0]
      
      
      
      the_text = re.findall('">(.*?)', text_fied, re.S)
      
      
      
      for every_text in the_text:
      
      
      
          print every_text

2)用sub实现翻页功能

     
     
     
     
      
      
      
      for i in range(2, total_page+1):
      
      
      
          new_link = re.sub('pageNum=\d+', 'pageNum=%d'%i, old_url, re.S)
      
      
      
          print new_link

完整代码

      
      
      
      
       
       
       
       import re
       
       
       
       a = 'xzx23'
       
       
       
       
       
       
       
       # . :匹配任意字符，换行符\n除外
       
       
       
       # 点.是一个占位符，一个.代表一个符号
       
       
       
       b = re.findall('x.', a)
       
       
       
       print(". :匹配任意字符，换行符\\n除外:",b)
       
       
       
       
       
       
       
       # * :匹配前一个字符0次或无限次
       
       
       
       # 依次匹配字符，有则显示，无则显示''(空)。
       
       
       
       c= re.findall('x*', a)
       
       
       
       print("* :匹配前一个字符0次或无限次:",c)
       
       
       
       
       
       
       
       # 问号?
       
       
       
       # ? :匹配前一个字符0次或1次
       
       
       
       # 单独与*一样，前面附加其他的符号将做非贪心限制
       
       
       
       d= re.findall('x?', a)
       
       
       
       print("? :匹配前一个字符0次或1次:",d)
       
       
       
       
       
       
       
       # 贪心.*
       
       
       
       # 只要满足条件全部显示，贪心算法
       
       
       
       secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
       
       
       
       e = re.findall('xx.*xx', secret_code)
       
       
       
       print ("贪心.*:",e)
       
       
       
       
       
       
       
       # 非贪心.*?
       
       
       
       secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
       
       
       
       f = re.findall('xx.*?xx', secret_code)
       
       
       
       print ("非贪心.*?:",f)
       
       
       
       
       
       
       
       # () :括号内的数据作为结果返回
       
       
       
       # ()包围所需要的内容，括号内的内容作为结果返回，不需要的内容放在括号外面
       
       
       
       secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
       
       
       
       g = re.findall('xx(.*?)xx', secret_code)
       
       
       
       print ("非贪心.*?:",g)
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       # sub将符合条件的()内内容提换
       
       
       
       # sub：替换符合规律的内容，返回替换后的值
       
       
       
       s = '123abcssfasdfas123'
       
       
       
       output = re.sub('123(.*?)123', '123789123', s)
       
       
       
       print ('sub将符合条件的()内内容提换:',output)
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       
       # re.S让.匹配所有行，包括了换行符（以\n的形式出现）
       
       
       
       
       
       
       
       # search 找到一个后返回，不继续，大大提高效率
       
       
       
       # findall遍历全部，找到尽可能多的项
       
       
       
       s2 = '''ghkj08hs68xxIxx123xxlove
       
       
       
       xxbvk14rgjhxxfj4286ykjhag2'''
       
       
       
       b = re.search('xx(.*?)xx(.*?)xx', s2, re.S)
       
       
       
       print ('search 找到一个后返回，不继续，大大提高效率:',b)
       
       
       
       #   输出
       
       
       
       # < _sre.SRE_Match
       
       
       
       # object;
       
       
       
       # span = (10, 20), match = 'xxIxx123xx' >
       
       
       
       
       
       
       
       # group是按括号顺序匹配
       
       
       
       b = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(1)
       
       
       
       print ('search 找到一个后返回，不继续，大大提高效率:',b)
       
       
       
       # .group(3)报错
       
       
       
       # Traceback (most recent call last):
       
       
       
       #   File "D:/WorkSpace/python/PycharmProjects/爬虫/代码/Python-master/ReDemo.py", line 61, in 
       
       
       
       #     b = re.search('xx(.*?)xx(.*?)xx', s2, re.S).group(3)
       
       
       
       # IndexError: no such group
       
       
       
       
       
       
       
       # 每一个匹配项为第一级列表，括号为二级列表
       
       
       
       s2 = '''ghkj08hs68xxIxx123xxlovexxbvk14rgjhxxfj4286ykjhag2'''
       
       
       
       f2 = re.findall('xx(.*?)xx123xx(.*?)xx', s2, re.S)
       
       
       
       print ('每一个匹配项为第一级列表，括号为二级列表:',f2[0][1])

参考来源： http://code.ziqiangxuetang.com/python/python-reg-expressions.html

参考来源：http://blog.csdn.net/SkyeyesXY/article/details/50837984

你可能感兴趣的:(python2,python3,python,python2,python3,python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

Python正则表达式-总结

re.match函数

re.search方法

re.match与re.search的区别

检索和替换

正则表达式修饰符 - 可选标志

正则表达式模式

表1.常用的元字符

代码说明

. 匹配除换行符以外的任意字符

\w 匹配字母或数字或下划线或汉字

\s 匹配任意的空白符

\d 匹配数字

\b 匹配单词的开始或结束

^ 匹配字符串的开始

$ 匹配字符串的结束

表2.常用的限定符

代码/语法说明

* 重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

表5.懒惰限定符

代码/语法说明

*? 重复任意次，但尽可能少重复

+? 重复1次或更多次，但尽可能少重复

?? 重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n次以上，但尽可能少重复

1)findall

a.点号`.`

`import re`

`a = 'xzx23'`

`b = re.findall('x.', a)`

`print b`

输出

`['xz', 'x2']`

点`.`是一个占位符，一个`.`代表一个符号

b.星号`*`

`import re`

`a = 'xyxy123'`

`b = re.findall('x*', a)`

`print(b)`

输出

`['x', '', 'x', '', '', '', '', '']`

c.问号`?`

`import re`

`a = 'xy123'`

`b = re.findall('x?', a)`

`print(b)`

输出

`['x', '', '', '', '', '']`

单独与 `*`一样，前面附加其他的符号将做非贪心限制

f.经典用法`(.*?)`

2)re.S

`import re`

`secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove`

`xxbvk14rgjhxxyouxxfj4286ykjhag2'''`

`#love后有换行符`

`b = re.findall('xx(.*?)xx', secret_code, re.S)`

`print(b)`

`# re.S让.匹配所有行，包括了换行符（以\n的形式出现）`

输出

`['I', 'love\n', 'you']`

3)search

5)注意：

`from re import findall, search, S`

`最好不要引入，因为S等容易和变量等混淆，引起歧义`

6)compile用法

7)匹配纯数字(\d+)

2.应用举例

1)用findall和search从大量文本中匹配内容

a.提取标题

b.提取网址

`link = re.findall('href="(.*?)"', html, re.S)`

`for each in link:`

`print each`

输出

`http://jikexueyuan.com/welcome.html`

`http://jikexueyuan.com/1.html`

`http://jikexueyuan.com/2.html`

`http://jikexueyuan.com/3.html`

c.提取文字信息

你可能感兴趣的:(python2,python3,python,python2,python3,python)

Python正则表达式-总结

re.match函数

re.search方法

re.match与re.search的区别

检索和替换

正则表达式修饰符 - 可选标志

正则表达式模式

表1.常用的元字符 代码 说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束

表2.常用的限定符 代码/语法 说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次

表5.懒惰限定符 代码/语法 说明 *? 重复任意次，但尽可能少重复 +? 重复1次或更多次，但尽可能少重复 ?? 重复0次或1次，但尽可能少重复 {n,m}? 重复n到m次，但尽可能少重复 {n,}? 重复n次以上，但尽可能少重复

1)findall

a.点号. import re a = 'xzx23' b = re.findall('x.', a) print b

输出 ['xz', 'x2'] 点.是一个占位符，一个.代表一个符号

b.星号*

import re a = 'xyxy123' b = re.findall('x*', a) print(b) 输出 ['x', '', 'x', '', '', '', '', '']

c.问号?

import re a = 'xy123' b = re.findall('x?', a) print(b) 输出 ['x', '', '', '', '', ''] 单独与 *一样，前面附加其他的符号将做非贪心限制

f.经典用法(.*?)

2)re.S

import re secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove xxbvk14rgjhxxyouxxfj4286ykjhag2''' #love后有换行符 b = re.findall('xx(.*?)xx', secret_code, re.S) print(b) # re.S让.匹配所有行，包括了换行符（以\n的形式出现） 输出 ['I', 'love\n', 'you']

3)search

5)注意： from re import findall, search, S 最好不要引入，因为S等容易和变量等混淆，引起歧义

6)compile用法

7)匹配纯数字(\d+)

2.应用举例

1)用findall和search从大量文本中匹配内容

a.提取标题

b.提取网址

link = re.findall('href="(.*?)"', html, re.S) for each in link: print each

输出

http://jikexueyuan.com/welcome.html http://jikexueyuan.com/1.html http://jikexueyuan.com/2.html http://jikexueyuan.com/3.html

c.提取文字信息

你可能感兴趣的:(python2,python3,python,python2,python3,python)

表1.常用的元字符

代码说明

. 匹配除换行符以外的任意字符

\w 匹配字母或数字或下划线或汉字

\s 匹配任意的空白符

\d 匹配数字

\b 匹配单词的开始或结束

^ 匹配字符串的开始

$ 匹配字符串的结束

表2.常用的限定符

代码/语法说明

* 重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

表5.懒惰限定符

代码/语法说明

*? 重复任意次，但尽可能少重复

+? 重复1次或更多次，但尽可能少重复

?? 重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n次以上，但尽可能少重复

a.点号`.`

`import re`

`a = 'xzx23'`

`b = re.findall('x.', a)`

`print b`

输出

`['xz', 'x2']`

点`.`是一个占位符，一个`.`代表一个符号

b.星号`*`

`import re`

`a = 'xyxy123'`

`b = re.findall('x*', a)`

`print(b)`

输出

`['x', '', 'x', '', '', '', '', '']`

c.问号`?`

`import re`

`a = 'xy123'`

`b = re.findall('x?', a)`

`print(b)`

输出

`['x', '', '', '', '', '']`

单独与 `*`一样，前面附加其他的符号将做非贪心限制

f.经典用法`(.*?)`

`import re`

`secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove`

`xxbvk14rgjhxxyouxxfj4286ykjhag2'''`

`#love后有换行符`

`b = re.findall('xx(.*?)xx', secret_code, re.S)`

`print(b)`

`# re.S让.匹配所有行，包括了换行符（以\n的形式出现）`

输出

`['I', 'love\n', 'you']`

5)注意：

`from re import findall, search, S`

`最好不要引入，因为S等容易和变量等混淆，引起歧义`

`link = re.findall('href="(.*?)"', html, re.S)`

`for each in link:`

`print each`

`http://jikexueyuan.com/welcome.html`

`http://jikexueyuan.com/1.html`

`http://jikexueyuan.com/2.html`

`http://jikexueyuan.com/3.html`