生僻字编码问题

  1、GBK编码:用2个字节表示一个中文字符。但是遇到生僻字每个字符的右半边其实都是\,也可以通过搜索\搜到字符

       

       比如:碶,GBK编码中右边的半边字符为5C(ue可以看),也就是“\”,我们通过搜索\也可以搜到这个字。

        

                  同样的,生僻字还有很多,比如黒、匼等等

                   碶=碶\ 

                   黒=黒\

                   匼=匼\

    2、UTF-8编码:用2或3个字节表示一个中文字符。遇到生僻字不存在GBK编码的问题

          生僻字编码问题_第1张图片

    3、 在某些场景,\是转义字符,如果我们不加以处理,会出现问题

           解决方法:1、将字符替换,在UTF8编码时将\转换为\\或其他字符

                             2、字符集转换,然后处理    GBK--->UTF8     iconv -f  GBK -t UTF-8 test.txt  -o test1.txt

                                                                           UTF-8-->GBK     iconv -f  UTF-8 -t GBK  test2.txt  -o test3.txt    

                 

你可能感兴趣的:(生僻字)