最近做一个小工具,把wireshark的报文进行解析,拿到请求。因为原始数据为16进制内容,例如“06e50284012e687474703a2f2f74656d707572692e6f7.....”需要进行解析,使用python3的函数
binascii.unhexlify(hex_str)
但是解析后,发现中文字符没有解析出来,还是乱码类似“\xe4\xbd\x8f\xe9\x99\xa2\xe8\x8d\xaf\xe6\x88\xbf”,应该是还需要进行一次编解码,使用了encode和decode,尝试了很多次还是不行,一直报错,其中有不支持的字符比如\xbf、\xbd。使用wireshark看,确实有很多乱码,但是正常的字符是可以解码的,偶然间看到这句话“出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可”,其实我的目的就时有异常就越过,只要正常字符可以解析就可以,然后按照提示,加了参数:binascii.unhexlify(hex_str).decode('utf8','ignore'),打印正常。
下面内容为从其他地方转载:
解码的四个参数,特别是出现乱码时很有必要应用这些参数
#decode解码的四个参数
print((b"\x80abc").decode("utf-8","strict"))#出现错误
#加上(U+FFFD)
print((b"\x80abc").decode("utf-8","replace"))
#加反斜杠
print((b"\x80abc").decode("utf-8","backslashreplace"))
#直接忽略
print((b"\x80abc").decode("utf-8","ignore"))
原文链接:https://blog.csdn.net/acflair/article/details/82909329