Python正则表达式


一、正则表达式(或RE)是一种小型的、高度专业化的编程语言

    --- 可以为想要匹配的相应字符串集指定规则

    --- 该字符串集可能包含英文语句、e-mail地址、命令或者任何你想搞定的东西

    --- 可以问诸如“这个字符串匹配该模式吗?”

    --- “在这个字符串中是否有部分匹配该模式呢?“

    --- 你也可以使用RE以各种方式来修改或分割字符


正则表达式模式被编译成一系列的字节码,然后有用C编写的匹配引擎执行

正则表达式语言相对小型和受限(功能有限)

  --并非所有字符串处理都能用正则表达式完成


二、  字符匹配

  --普通字符

        -大多数字母和字符一半都会和自身匹配

-如正则test会和字符串“test“完全匹配

  --元字符

    . ^ $ * + ? {} [] \ | ()

      []  常用来指定一个字符集:[abc] [a-z];元字符在字符集中不起作用:[akm$];补集匹配不在区间范围内的字符:[^5]

>>> import re

>>> s = r'abc'

>>> re.findall(s,"abcabcaaaaabc")

['abc', 'abc', 'abc']

>>> r = "t[abc$]"

>>> re.findall(r,'ta')

['ta']

>>> re.findall(r,'tax')

['ta']

>>> re.findall(r,'t$')

['t$']

>>> r = "x[0-9a-zA-Z]x"

>>> re.findall(r,'x1x x9x xzx xAx')

['x1x', 'x9x', 'xzx', 'xAx']

 ^    匹配行首

 $    匹配行尾

 \    反斜杠后面可以加不同的字符以表示不同特殊意义

\d   匹配任何十进制数:相当于类[0-9]

\D   匹配任何非数字字符: 相当于类[^0-9]

\s   匹配任何空白字符: 相当于类[\t\n\r\f\v]

\S   匹配任何非空白字符: 相当于类[^\t\n\r\f\v]

\w   匹配任何字母数字字符: 相当于类[a-zA-Z0-9]

\W   匹配任何非字母数字字符: 相当于类[^a-zA-Z0-9]


三、正则表达式使用:

re模块提供了一个正则表达式引擎的接口,可以让你将REstring编译成对象并用他们来进行匹配

编译正则表达式

>>> import re

>>> p = re.compile('ab*')

>>> print p

<_sre.SRE_Pattern object at 0x7fd77e27f960>

>>> import re

>>> r1 = r"\d{3,4}-?\d{8}"

>>> re.findall(r1,"010-12345678")

['010-12345678']

>>> p_tel = re.compile(r1)

>>> p_tel.findall("010-12321312")

['010-12321312']


>>> csvt_re = re.compile(r'csvt',re.I)  #不区分大小写

>>> csvt_re.findall('csVT')

['csVT']



四、执行匹配

   match() 决定RE是否在字符串刚开始的位置匹配

   search() 扫描字符串,找到这个RE匹配的位置

>>> csvt_re.match('csvt hello')

<_sre.SRE_Match object at 0x7fd77e1b8920>

>>> csvt_re.match('hello csvt')

>>> csvt_re.search('hello csvt heelo')

<_sre.SRE_Match object at 0x7fd77e1b8988>

>>> csvt_re.search('csvt hello')

<_sre.SRE_Match object at 0x7fd77e1b8920>


   findall() 找到RE匹配的所有子串,并把他们作为一个列表返回

   finditer() 找到RE匹配的所有子串,并把他们作为一个迭代器返回


MatchObject实例方法

group()  返回被RE匹配的字符串

start()  返回匹配开始的位置

end()    返回匹配结束的位置

span()   返回一个元组包含匹配(开始,结束)的位置

>>> m = csvt_re.match('csvt hello')

>>> if m:

...     print 'Match found:',m.group()

... else:

...     print 'No match'

...

Match found: csvt

五、正则表达式内置属性

S 使.匹配包含换行在内的所欧字符

>>> r1 = r"csvt.net"

>>> re.findall(r1,'csvtonet')

['csvtonet']

>>> re.findall(r1,'csvt\nnet',re.S)

['csvt\nnet']


I 使匹配对大小写不敏感

L 做本地化识别匹配

M 多行匹配,影响^和$

>>> s = """

... hello csvt

... csbt hello

... hello csvt hello

... """

>>> r = r"^csvt"

>>> s

'\nhello csvt\ncsbt hello\nhello csvt hello\n'

>>> r = r"^csbt"

>>> re.findall(r,s,re.M)

['csbt']


X 能够使用REs的verbose状态,使之被组织得更清晰易懂

>>> tel = r"""

... \d{3,4}

... -?

... \d{8}

... """

>>> tel

'\n\\d{3,4}\n-?\n\\d{8}\n'

>>> re.findall(tel,'010-12345678',re.X)

['010-12345678']


 六、正则分组

 通过用()来获取所需值

      >>> print s

      hhsdj hello src=csvt yes jsdjsd

      sdfsdfa src=123 yes sdfa

      src=234 yes

      hello src=python yes kas

      >>> r1 = r"hello src=.+ yes"

      >>> re.findall(r1,s)

      ['hello src=csvt yes', 'hello src=python yes']

      >>> r1 = r"hello src=(.+) yes"

      >>> re.findall(r1,s)

      ['csvt', 'python']


七、练习:利用正则表达式下载网页中所有的图片(小爬虫)

#!/usr/bin/python

import re

import urllib

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    return html

def getImg(html):

    reg = r'src="(http.+?\.jpg)"'

    imgre = re.compile(reg)

    imglist = re.findall(imgre,html)

    print imglist

    x = 0

    for imgurl in imglist:

        urllib.urlretrieve(imgurl,'%s.jpg' % x)

        x = x + 1

html = getHtml("http://www.webkaka.com/tutorial/zhanzhang/2015/040210/")

getImg(html)