零宽字符引发的问题

遇到问题,在系统界面搜索"MZ-0156"搜索不到商品,在navicat数据库直接搜索却可以搜索到。


image.png

image.png

可以看到数据库里面是有数据的, 而且为了确认是不是空格的问题,我还特别复制出来看是不是带有空格。
这时我注意到数据库的搜索条件是“包含”。把它改成“=”。出来的结果是:


image.png

明明长得一模一样的两个字符串,为什么会出现这种问题呢?'MZ-0156'和'MZ-0157'有什么区别?难道是数据库的bug?抱着试一试的心态,我把数据库里的两个数据拿了出来,进行了json格式化:


image.png

输出结果!
image.png

再试试urlencode 编码:

        $number1 = '​MZ-0156';
        $number2 = 'MZ-0157';
        //将字符串以URL编码,将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY格式。
        dump(urlencode($number1));
        dump(urlencode($number2));

结果:

image.png

居然多了一个看不见的字符在MZ-0156前面,而且还会跟着复制复制过来!
那么这个\u200b是什么字符呢?
在网上搜索到了结果,https://zh.wikipedia.org/wiki/%E9%9B%B6%E5%AE%BD%E7%A9%BA%E6%A0%BC

零宽空格zero-width space, ZWSP)是一种不可打印的Unicode字符,
在Unicode中,该字符为U+200B 零宽空格 ,HTML:
而且他还有家族成员:零宽连字 ,零宽不连字。

那么如何过滤零宽字符呢?

        $str= str_replace("\xe2\x80\x8b", '', $str);
        $str= str_replace("\xe2\x80\x8c", '', $str);
        $str= str_replace("\xe2\x80\x8d", '', $str);

怎么写出零宽空白:
1、html:​ ;等
2、代码生成

        $number1 = '"\u200B\u200C​MZ-0156"';
        dump(json_decode($number1));
        exit;

零宽字符的应用:
https://forum.huawei.com/enterprise/zh/thread-448695.html

1、存储隐藏信息
2、秘密传达消息
3、在文章中添加隐藏水印
总结:可能大家有些字符串,是从别处直接拷贝而来,出现了“令人震惊”的现象时,怎么排序呢?
查看字符串的unicode/html/...编码

你可能感兴趣的:(零宽字符引发的问题)