浅析python解析不规则json字符串

最近在开发爬虫过程中,遇到一些python在解析不规则json字符串时出现解析不了的情况,特些记录一下:

正常情况下我们取到的json字符串应该都是像下面这种情况,用"包起来的

{"name":"test"}

而在爬取网站中会遇到很多不规则的json字符串,这些json字符串在javascript之中是可以正常解析的,但是在python中就会抛出ValueError异常。对于这种不是用双引号包起来的不规则json字符串可以使用一个第三方包demjson来解决,安装命令如下:

pip install demjson

安装好后直接在代码中调用就可以直接把不规则的json字符串转化为标准python字典

import demjson

str = '{name: "test"}'

print demjson.decode(str)
浅析python解析不规则json字符串_第1张图片

第二种情况是得到的json字符串是经过unicode转码的,这时拿到的json字符串会像下面这样:

{name:\u0027test\u0027}

这种解决办法可以使用字符串替换函数把\u0027转化为",再使用demjson.decode就可以转化成功。

import demjson

str = '{name: \u0027test\u0027}'

str = str.replace('\u0027', '\"')

print demjson.decode(str)
浅析python解析不规则json字符串_第2张图片

第三种情况是拿回来的json字符串的键是有"的,但是这时的json字符串是经过特殊字符转义的,如下

{\"name\":\"test\"}

这种情况在控制台是能够直接处理,但是在我的scrpay程序中会遇到一些问题,我的解决思路是把字符串转回去再处理

import demjson

str = {\"name\":\"test\"}

print demjson.decode(str.decode("string_escape"))
浅析python解析不规则json字符串_第3张图片

以上就是我遇到的这三种问题的处理思路供大家参考。

你可能感兴趣的:(浅析python解析不规则json字符串)