ocr票据证件信息抽取正则化

Python 正则表达式 | 菜鸟教程Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完全一致的函数,这..https://www.runoob.com/python/python-reg-expressions.html整体思路是检测识别的结果,通过缩小区域和正则匹配的方式进行查找。

1.re.findall

Python 正则表达re模块之findall()详解 - 知乎https://blog.csdn.net/qq_36556893/article/details/89182067目录 一、re.findall函数介绍 二、代码如下 三、re.findall中正则表达式(.*?) 四、re.findall中参数re.S的意义一、re.findall函数介绍它在 re.py中有…https://zhuanlan.zhihu.com/p/139596371example:

findall(pattern,string)
返回string中所有与pattern匹配的全部字符串,返回形式为数组

2.

^\d{1,5}$
^  字符串开头
$  字符串结尾
\d{1,5}  \d代表0-9,就是至少1个数字,最多5个数字

\S{1,5}
任意非空字符串,最少一个,最多5个
\S{0,}住址
匹配任意字符串后接住址

^[\u4e00-\u9fa5]+
匹配任意中文,是整体一个句子

^[A-Za-z]+$
匹配任意字母

\d{15,}X?
15位以上数字,最后一位X可有可无

(?=.*[0-9])(?=.*[a-zA-Z])(?=.*[^a-zA-Z0-9]).{6,30}
必须要有数字,字母和特殊符号,三个缺一不可

^(?![\d]+$)(?![a-zA-Z]+$)(?![^\da-zA-Z]+$).{6,20}$
数字、字母和特殊符号有就能匹配

3.re.sub

re.sub()用法的详细介绍_jackandsnow的博客-CSDN博客_re.sub目录一、前言二、函数原型三、使用案例1.匹配单个数字或字母2.匹配多个数字或字母3.匹配其他四、致谢一、前言在字符串数据处理的过程中,正则表达式是我们经常使用到的,python中使用的则是re模块。下面会通过实际案例介绍 re.sub() 的详细用法,该函数主要用于替换字符串中的匹配项。二、函数原型首先从源代码来看一下该函数原型,包括各个参数及其意义:def sub(pattern, ..._1671465600https://blog.csdn.net/jackandsnow/article/details/103885422example:

re.sub("\S{0,}住址", "", "云南省文山壮族苗族自治州砚山县维摩彝族乡阿伍村委会竹棚组6号")
将住址前的字段都给去除掉,地址在身份证上是住址后面的字段

你可能感兴趣的:(Python学习,正则表达式)