撸一个JSON解析器

来源:https://gyl-coder.top/JSONParser/


JSON

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为理想的数据交换语言。

JSON与JS的区别以及和XML的区别具体请参考百度百科:

https://baike.baidu.com/item/JSON/2462549?fr=aladdin

JSON有两种结构:

第一种:对象

“名称/值”对的集合不同的语言中,它被理解为对象(object),纪录(record),结构(struct),字典(dictionary),哈希表(hash table),有键列表(keyed list),或者关联数组 (associative array)。

对象是一个无序的“‘名称/值’对”集合。一个对象以“{”(左括号)开始,“}”(右括号)结束。每个“名称”后跟一个“:”(冒号);“‘名称/值’ 对”之间使用“,”(逗号)分隔。

{"姓名": "张三", "年龄": "18"}

第二种:数组

值的有序列表(An ordered list of values)。在大部分语言中,它被理解为数组(array)。

数组是值(value)的有序集合。一个数组以“[”(左中括号)开始,“]”(右中括号)结束。值之间使用“,”(逗号)分隔。

值(value)可以是双引号括起来的字符串(string)、数值(number)、true、false、 null、对象(object)或者数组(array)。这些结构可以嵌套。

通过上面的了解可以看出,JSON存在以下几种数据类型(以Java做类比):

解析JSON

JSON解析器的基本原理

输入一串JSON字符串,输出一个JSON对象。

步骤

JSON解析的过程主要分以下两步:

第一步:对于输入的一串JSON字符串我们需要将其解析成一组token流。

例如 JSON字符串{“姓名”: “张三”, “年龄”: “18”} 我们需要将它解析成

{、 姓名、 :、 张三、 ,、 年龄、 :、 18、 }

这样一组token流

第二步:根据得到的token流将其解析成对应的JSON对象(JSONObject)或者JSON数组(JSONArray)

下面我们来详细分析下这两个步骤:

获取token流

根据JSON格式的定义,token可以分为以下几种类型

根据以上的JSON类型,我们可以将其封装成enum类型的TokenType

在TokenType中我们为每一种类型都赋一个数字,目的是在Parser做一些优化操作(通过位运算来判断是否是期望出现的类型)

在进行第一步之前JSON串对计算机来说只是一串没有意义的字符而已。第一步的作用就是把这些无意义的字符串变成一个一个的token,上面我们已经为每一种token定义了相应的类型和值。所以计算机能够区分不同的token,并能以token为单位解读JSON数据。

下面我们封装一个token类来存储每一个token对应的值

在解析的过程中我们通过字符流来不断的读取字符,并且需要经常根据相应的字符来判断状态的跳转。所以我们需要自己封装一个ReaderChar类,以便我们更好的操作字符流。

另外我们还需要一个TokenList来存储解析出来的token流

JSON解析比其他文本解析要简单的地方在于,我们只需要根据下一个字符就可知道接下来它所期望读取的到的内容是什么样的。如果满足期望了,则返回 Token,否则返回错误。

为了方便程序出错时更好的debug,程序中自定义了两个exception类来处理错误信息。(具体实现参考exception包)

下面就是第一步中的重头戏(核心代码):

在start方法中,我们将每个处理方法都封装成了单独的函数。主要思想就是通过一个死循环不停的读取字符,然后再根据字符的期待值,执行不同的处理函数。

下面我们详解分析几个处理函数:

该方法也是通过一个死循环来读取字符,首先判断的是JSON中的转义字符。

JSON中允许出现的有以下几种

"

\

\u four-hex-digits

/

具体的处理方法封装在了isEscape()方法中,处理Unicode 编码时要特别注意一下u的后面会出现四位十六进制数。当读取到一个双引号或者读取到了非法字符(’ ’或’、’ ’)循环退出。

判断数字的时候也要特别小心,注意负数,frac,exp等等情况。

通过上面的解析,我们可以得到一组token,接下来我们需要以这组token作为输入,解析出相应的JSON对象

解析出JSON对象

解析之前我们需要定义出JSON对象(JSONObject)和JSON数组(JSONArray)的实体类。

之后我们就可以写解析类了,由于代码较长,这里就不展示了。有兴趣的可以去GitHub上下载。实现逻辑比较简单,也易于理解。

解析类中的parse方法首先根据第一个token的类型选择调用parseJsonObject()或者parseJsonArray(),进而返回JSON对象或者JSON数组。上面的解析方法中利用位运算来判断字符的期待值既提高了程序的执行效率也有助于提高代码的ke’du’xi

完成之后我们可以写一个测试类来验证下我们的解析器的运行情况。我们可以自己定义一组JSON串也可以通过HttpUtil工具类从网上获取。最后通过FormatUtil类来规范我们输出。

具体效果如下图所示:

扩展阅读

Java转JSON串的几种方式

JSON是什么?它能带来什么?它和XML比较?

推荐几个IDEA插件,Java开发者撸码利器

最强解析:支付宝系统架构内部剖析

一个“Hello World”理解JVM运行时数据区

你可能感兴趣的:(撸一个JSON解析器)