spark 解析 Json 字符串

 

有这样的 json 字符串

{"date":"2019-04-04","$browser_version":"11.0"}
{"date":"2019-04-04","$browser_version":"7.0.3}

这里我用python来解析

  • Python 的Pyspark

如何用 pyspark 解析这段 json 字符串

首先想到的就是 read.json函数,点进去看源码

spark 解析 Json 字符串_第1张图片

我们可以传以下参数:

  1. string represents path to the JSON dataset(json数据集的字符串地址)
  2. a list of paths(路径列表)
  3. RDD of Strings storing JSON objects(json 字符串的RDD)

剩下的 param 目前用不到就先不说了

这里我们传的是RDD参数

不多BB,上代码:

from pyspark.sql import SparkSession, SQLContext,Row,HiveContext
from pyspark import SparkContext,SparkConf


conf = SparkConf()
conf.setAppName('TestDStream')
conf.setMaster('local')

sc = SparkContext(conf = conf)

spark = SparkSession.builder.config(conf=conf).getOrCreate()

data= """{"date":"2019-04-04","$browser_version":"11.0"}
{"date":"2019-04-04","$browser_version":"7.0.3}"""

# 将数据转为 RDD 
dataRDD = sc.parallelize(data.split("\t"))
df = spark.read.json(dataRDD)
print(df.show())

输出结果:

 

 

你可能感兴趣的:(大数据,spark,json)