webserver日志中\xCF\xE3\xB8\xDB\xCA\xAE\xB4\xF3\xCE\xC4\xBB\xAF\xB7\xFB\xBA\xC5这种形式原因及处理

  如果在webserver日志里直接看到这种内容:\EF这种格式是因为发送过来的http请求包里,client端使用了二进制汉字编码,没有做urlencode。和具体的编码种类无关,就是原始的十六进制编码值。

  处理的方法:把\x替换为%,然后做urldecode,再识别编码。

  如果做了上述处理仍然看到这种结果,有可能数据原始内容(例如query)就是这个。

  如下是用php做的处理代码

  其中,第6行使用mb_detect_encoding函数进行编码识别,当字符串较短时,mb_detect_encoding会出现误判。这不算是一个bug,当需要处理文字类型时,建议优先将最大可能性的类型放在前面。

  如下为php.net中摘抄的参数列表:

string mb_detect_encoding ( string $str [, mixed $encoding_list = mb_detect_order() [, bool $strict = false ]] )
  str 待检查的字符串。
  encoding_list  是一个字符编码列表。 编码顺序可以由数组或者逗号分隔的列表字符串指定。
  如果省略了 encoding_list 将会使用 detect_order。
  strict 指定了是否严格地检测编码。 默认是 FALSE。

  在实际的处理中建议对输出的结果人工判断一下,准确率更好一些。

你可能感兴趣的:(webserver,web,server,乱码)