python字符串截取多个指定内容,正则匹配

formats1 = "你所用的文本"

findAll 贪婪模式 或 非贪婪模式发现所有符合正则匹配的数据,输出格式为list

listStr = re.findall(r"(?s)此处分段(.*?)此处单页结束", formats1)

listStr2 = re.findall(r"(?s)文本1(.*?)文本2.*?文本3(.*?)此文本4",formats1)

re import re 正则匹配
r 表示正则匹配模式 隐式转换

(?s) 可以不用管它,就是一个路人甲,告诉你前面允许存在文本。

输出(.*?)里面的内容,?表示非贪婪模式,匹配一组就会输出一组,不会输出所有满足格式的内容,适用于存在多页多组平级的内容。

这里就会输出两个()里面的内容,当提取出想要的文本的时候就可以将它转换为str在进行下一步的字符串切割操作。

写示例么?好吧:

```python
import re
relink = '(.*?)'
info = 'baidugoogle'
cinfo = re.findall(relink,info)
print(cinfo)

输出结果:

[('http://www.baidu.com', 'baidu'), ('http://www.google.com', 'google')]

书山有路勤为径,绝知此事要躬行

你可能感兴趣的:(python,中文分词)