用这个正则校验密码,真的可以吗?

问题背景

最近帮同事解决了一个正则问题,挺有意思,分享给大家

背景是同事在做一个用户注册相关的功能,甲方提出了一些对密码复杂度的要求,要求长度8-32位,小写字母,大写字母,数字,符号四种必须都有,下面是匹配密码的最初的正则表达式

(?=.*[0-9])(?=.*[A-Z])(?=.*[a-z])(?=.*[^a-zA-Z0-9]).{8,32}

问题验证

大家可以看一下这个正则,感觉一下用这个正则能够满足上面的密码校验要求吗?可以花一点时间想一想

答案是:不能

我们来做个简单的测试,建议找一个在线工具,实际测试一下

把表达式输入进去,我们测如下几段文本

  • abc123A:没有匹配,长度不够
  • abcd12345:没有匹配,复杂度不够,没有大写和符号
  • abcdA123-:能够正常匹配,长度符合,复杂度符合

那这不是说明这个正则是OK的吗?我们再测下面这个文本

  • abcdA123-我:这怎么也匹配了
  • abc他dA★123:这怎么也匹配了

问题改进

这个正则里面有两个小问题

  • 符号限定过于宽泛:(?=.*[^a-zA-Z0-9])这个判非就把其他所有字符都囊括进来了
  • 没有输入文本的限定:.{8,32}这个点也囊括了除换行以外的所有字符

针对上面两个问题改进一下这个正则,首先要枚举我们允许出现的符号,假设我们只允许出现 “-_” 这两个字符

改进后的正则如下

^(?=.*[0-9])(?=.*[A-Z])(?=.*[a-z])(?=.*[-_])[0-9a-zA-Z-_]{8,32}$

这个问题一方面是缺乏测试验证,但更深层的原因其实是对正则不够了解,不能快速发现正则的问题,下一节我们就来看看这个正则里面比较困难的部分

扩展阅读

可能有同学有疑问前面这么一大堆括号是干什么的

这里复习一下正则表达式的一个基础概念:零宽断言

零宽断言是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,最终匹配结果只是一个位置而已。

(?=)就是一种零宽断言,叫做正向先行断言,主要作用是匹配表达式后面的内容

比如:\d(?=px),这个正则能匹配到1px中的1,不会匹配到2pm中的2,因为2后面跟的不是px,如果想同时把px也匹配上,那就得写\d(?=px)px,这看起来就跟\dpx一样了,在匹配单个条件的时候的确没有区别,但匹配多条件的时候就不一样了

我们还是用例子来解释一下

[a-z0-9]{4,10}

这样一个正则能表示英文小写和数字出现4-10次,但不能要求必须同时有英文和数字,可以是纯英文,也可以是纯数字

正则是一种顺序性的描述性语言,1a和a1是不同的,如果想描述这种不确定位置的组合,对于普通正则写法来说是比较困难的,基本就变成了排列组合了

这时我们就可以通过正向先行断言来帮助进行匹配,正向先行断言可以理解成对字符串的模式匹配

(?=.*[a-z])
表示后面必须出现一个英文小写,但是位置可以不定,使用.*来表达位置不定这个信息
同理
(?=.*[0-9])
表示后面必须出现一个数字,但是位置可以不定

[a-z0-9]{4,10}限定输入内容和长度

(?=.*[a-z])(?=.*[0-9])[a-z0-9]{4,10}
连接在一起就能表示英文小写和数字出现4-10次,且英文和数字都必须至少出现一次

你可能感兴趣的:(正则表达式后端前端程序员)