用这个正则校验密码，真的可以吗？

问题背景

最近帮同事解决了一个正则问题，挺有意思，分享给大家

背景是同事在做一个用户注册相关的功能，甲方提出了一些对密码复杂度的要求，要求长度8-32位，小写字母，大写字母，数字，符号四种必须都有，下面是匹配密码的最初的正则表达式

(?=.*[0-9])(?=.*[A-Z])(?=.*[a-z])(?=.*[^a-zA-Z0-9]).{8,32}

问题验证

大家可以看一下这个正则，感觉一下用这个正则能够满足上面的密码校验要求吗？可以花一点时间想一想

答案是：不能

我们来做个简单的测试，建议找一个在线工具，实际测试一下

把表达式输入进去，我们测如下几段文本

abc123A：没有匹配，长度不够
abcd12345：没有匹配，复杂度不够，没有大写和符号
abcdA123-：能够正常匹配，长度符合，复杂度符合

那这不是说明这个正则是OK的吗？我们再测下面这个文本

abcdA123-我：这怎么也匹配了
abc他dA★123：这怎么也匹配了

问题改进

这个正则里面有两个小问题

符号限定过于宽泛：(?=.*[^a-zA-Z0-9])这个判非就把其他所有字符都囊括进来了
没有输入文本的限定：.{8,32}这个点也囊括了除换行以外的所有字符

针对上面两个问题改进一下这个正则，首先要枚举我们允许出现的符号，假设我们只允许出现 “-_” 这两个字符

改进后的正则如下

^(?=.*[0-9])(?=.*[A-Z])(?=.*[a-z])(?=.*[-_])[0-9a-zA-Z-_]{8,32}$

这个问题一方面是缺乏测试验证，但更深层的原因其实是对正则不够了解，不能快速发现正则的问题，下一节我们就来看看这个正则里面比较困难的部分

扩展阅读

可能有同学有疑问前面这么一大堆括号是干什么的

这里复习一下正则表达式的一个基础概念：零宽断言

零宽断言是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,最终匹配结果只是一个位置而已。

(?=)就是一种零宽断言，叫做正向先行断言，主要作用是匹配表达式后面的内容

比如：\d(?=px)，这个正则能匹配到1px中的1，不会匹配到2pm中的2，因为2后面跟的不是px，如果想同时把px也匹配上，那就得写\d(?=px)px，这看起来就跟\dpx一样了，在匹配单个条件的时候的确没有区别，但匹配多条件的时候就不一样了

我们还是用例子来解释一下

[a-z0-9]{4,10}

这样一个正则能表示英文小写和数字出现4-10次，但不能要求必须同时有英文和数字，可以是纯英文，也可以是纯数字

正则是一种顺序性的描述性语言，1a和a1是不同的，如果想描述这种不确定位置的组合，对于普通正则写法来说是比较困难的，基本就变成了排列组合了

这时我们就可以通过正向先行断言来帮助进行匹配，正向先行断言可以理解成对字符串的模式匹配

(?=.*[a-z])
表示后面必须出现一个英文小写，但是位置可以不定，使用.*来表达位置不定这个信息
同理
(?=.*[0-9])
表示后面必须出现一个数字，但是位置可以不定

[a-z0-9]{4,10}限定输入内容和长度

(?=.*[a-z])(?=.*[0-9])[a-z0-9]{4,10}
连接在一起就能表示英文小写和数字出现4-10次，且英文和数字都必须至少出现一次

用这个正则校验密码，真的可以吗？

问题背景

问题验证

问题改进

扩展阅读

你可能感兴趣的:(正则表达式后端前端程序员)