Morgan_Mu

spark-sql操作array和map和struct类型数据

原文链接（很nice的一篇文章）：https://blog.csdn.net/wang_wbq/article/details/79678168

数组\列表array、字典map这两种数据类型的索引

首先我们还是先构造数据结构与DataFrame：
scala> case class A(a: String, b: Int) defined class A scala> case class B(c: List[A], d: Map[String, A], e: Map[Int, String], f: Map[A, String]) defined class B scala> def a_gen(i: Int) = A(s"str_$i", i) a_gen: (i: Int)A scala> def b_gen(i: Int) = B((1 to 10).map(a_gen).toList, (1 to 10).map(j => s"key_$j" -> a_gen(j)).toMap, (1 to 10).map(j => j -> s"value_$j").toMap, (1 to 10).map(j => a_gen(j) -> s"value_$j").toMap) b_gen: (i: Int)B scala> val data = (1 to 10).map(b_gen) scala> val df = spark.createDataFrame(data) df: org.apache.spark.sql.DataFrame = [c: array>, d: map> ... 2 more fields] scala> df.show +--------------------+--------------------+--------------------+--------------------+ \| c\| d\| e\| f\| +--------------------+--------------------+--------------------+--------------------+ \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| \|[[str_1, 1], [str...\|[key_2 -> [str_2,...\|[5 -> value_5, 10...\|[[str_8, 8] -> va...\| +--------------------+--------------------+--------------------+--------------------+

首先我们还是先构造数据结构与DataFrame：

scala> case class A(a: String, b: Int)

defined class A

scala> case class B(c: List[A], d: Map[String, A], e: Map[Int, String], f: Map[A, String])

defined class B

scala> def a_gen(i: Int) = A(s"str_$i", i)

a_gen: (i: Int)A

scala> def b_gen(i: Int) = B((1 to 10).map(a_gen).toList, (1 to 10).map(j => s"key_$j" -> a_gen(j)).toMap, (1 to 10).map(j => j -> s"value_$j").toMap, (1 to 10).map(j => a_gen(j) -> s"value_$j").toMap)

b_gen: (i: Int)B

scala> val data = (1 to 10).map(b_gen)

scala> val df = spark.createDataFrame(data)

df: org.apache.spark.sql.DataFrame = [c: array>, d: map> ... 2 more fields]

scala> df.show

+--------------------+--------------------+--------------------+--------------------+

| c| d| e| f|

+--------------------+--------------------+--------------------+--------------------+

+--------------------+--------------------+--------------------+--------------------+

--主要看schema信息
scala> df.printSchema root：c字段是array类型，d字段是map嵌套struct类型，e是map类型，f是map类型key是struct类型 \|-- c: array (nullable = true) \| \|-- element: struct (containsNull = true) \| \| \|-- a: string (nullable = true) \| \| \|-- b: integer (nullable = false) \|-- d: map (nullable = true) \| \|-- key: string \| \|-- value: struct (valueContainsNull = true) \| \| \|-- a: string (nullable = true) \| \| \|-- b: integer (nullable = false) \|-- e: map (nullable = true) \| \|-- key: integer \| \|-- value: string (valueContainsNull = true) \|-- f: map (nullable = true) \| \|-- key: struct \| \|-- value: string (valueContainsNull = true) \| \| \|-- a: string (nullable = true) \| \| \|-- b: integer (nullable = false)

--主要看schema信息

scala> df.printSchema

root：c字段是array类型，d字段是map嵌套struct类型，e是map类型，f是map类型key是struct类型

|-- c: array (nullable = true)

| |-- element: struct (containsNull = true)

| | |-- a: string (nullable = true)

| | |-- b: integer (nullable = false)

|-- d: map (nullable = true)

| |-- key: string

| |-- value: struct (valueContainsNull = true)

| | |-- a: string (nullable = true)

| | |-- b: integer (nullable = false)

|-- e: map (nullable = true)

| |-- key: integer

| |-- value: string (valueContainsNull = true)

|-- f: map (nullable = true)

| |-- key: struct

| |-- value: string (valueContainsNull = true)

| | |-- a: string (nullable = true)

| | |-- b: integer (nullable = false)

c的数据类型为array，我们可以单纯使用点的方式把数组中的某个结构给提取出来

//同样可以使用expr("c['a']")或col("c")("a")的方式获得相同的结果。
scala> df.select("c.a").show(10, false) +-----------------------------------------------------------------------+ \|a \| +-----------------------------------------------------------------------+ \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| \|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]\| +-----------------------------------------------------------------------+ scala> df.select("c.a").printSchema root \|-- a: array (nullable = true) \| \|-- element: string (containsNull = true)

//同样可以使用expr("c['a']")或col("c")("a")的方式获得相同的结果。

scala> df.select("c.a").show(10, false)

+-----------------------------------------------------------------------+

|a |

+-----------------------------------------------------------------------+

|[str_1, str_2, str_3, str_4, str_5, str_6, str_7, str_8, str_9, str_10]|

+-----------------------------------------------------------------------+

scala> df.select("c.a").printSchema

root

|-- a: array (nullable = true)

| |-- element: string (containsNull = true)

//这里介绍一个很有用的表达式explode，它能把数组中的元素展开成多行数据 //比如： //> SELECT explode(array(10, 20)); // 10 // 20 //还有一个比较有用的函数是（posexplode），顾名思义，这个函数会增加一列原始数组的索引
scala> df.select(expr("explode(c.a)")).show +------+ \| col\| +------+ \| str_1\| \| str_2\| \| str_3\| \| str_4\| \| str_5\| \| str_6\| \| str_7\| \| str_8\| \| str_9\| \|str_10\| \| str_1\| \| str_2\| \| str_3\| \| str_4\| \| str_5\| \| str_6\| \| str_7\| \| str_8\| \| str_9\| \|str_10\| +------+ only showing top 20 rows scala> df.select(expr("explode(c.a)")).printSchema root \|-- col: string (nullable = true) scala> df.select(expr("explode(c)")).show +------------+ \| col\| +------------+ \| [str_1, 1]\| \| [str_2, 2]\| \| [str_3, 3]\| \| [str_4, 4]\| \| [str_5, 5]\| \| [str_6, 6]\| \| [str_7, 7]\| \| [str_8, 8]\| \| [str_9, 9]\| \|[str_10, 10]\| \| [str_1, 1]\| \| [str_2, 2]\| \| [str_3, 3]\| \| [str_4, 4]\| \| [str_5, 5]\| \| [str_6, 6]\| \| [str_7, 7]\| \| [str_8, 8]\| \| [str_9, 9]\| \|[str_10, 10]\| +------------+ only showing top 20 rows scala> df.select(expr("explode(c)")).printSchema root \|-- col: struct (nullable = true) \| \|-- a: string (nullable = true) \| \|-- b: integer (nullable = false)

//这里介绍一个很有用的表达式explode，它能把数组中的元素展开成多行数据

//比如：

//> SELECT explode(array(10, 20));

// 10

// 20

//还有一个比较有用的函数是（posexplode），顾名思义，这个函数会增加一列原始数组的索引

scala> df.select(expr("explode(c.a)")).show

+------+

| col|

+------+

| str_1|

| str_2|

| str_3|

| str_4|

| str_5|

| str_6|

| str_7|

| str_8|

| str_9|

|str_10|

| str_1|

| str_2|

| str_3|

| str_4|

| str_5|

| str_6|

| str_7|

| str_8|

| str_9|

|str_10|

+------+

only showing top 20 rows

scala> df.select(expr("explode(c.a)")).printSchema

root

|-- col: string (nullable = true)

scala> df.select(expr("explode(c)")).show

+------------+

| col|

+------------+

| [str_1, 1]|

| [str_2, 2]|

| [str_3, 3]|

| [str_4, 4]|

| [str_5, 5]|

| [str_6, 6]|

| [str_7, 7]|

| [str_8, 8]|

| [str_9, 9]|

|[str_10, 10]|

| [str_1, 1]|

| [str_2, 2]|

| [str_3, 3]|

| [str_4, 4]|

| [str_5, 5]|

| [str_6, 6]|

| [str_7, 7]|

| [str_8, 8]|

| [str_9, 9]|

|[str_10, 10]|

+------------+

only showing top 20 rows

scala> df.select(expr("explode(c)")).printSchema

root

|-- col: struct (nullable = true)

| |-- a: string (nullable = true)

| |-- b: integer (nullable = false)

//inline也是一个非常有用的函数，它可以把array[struct[XXX]]直接展开成XXX
scala> df.select(expr("inline(c)") as.(Seq("a","b"))).show +------+---+ \| a\| b\| +------+---+ \| str_1\| 1\| \| str_2\| 2\| \| str_3\| 3\| \| str_4\| 4\| \| str_5\| 5\| \| str_6\| 6\| \| str_7\| 7\| \| str_8\| 8\| \| str_9\| 9\| \|str_10\| 10\| \| str_1\| 1\| \| str_2\| 2\| \| str_3\| 3\| \| str_4\| 4\| \| str_5\| 5\| \| str_6\| 6\| \| str_7\| 7\| \| str_8\| 8\| \| str_9\| 9\| \|str_10\| 10\| +------+---+ only showing top 20 rows scala> df.select(expr("inline(c)")).printSchema root \|-- a: string (nullable = true) \|-- b: integer (nullable = false)

//inline也是一个非常有用的函数，它可以把array[struct[XXX]]直接展开成XXX

scala> df.select(expr("inline(c)") as.(Seq("a","b"))).show

+------+---+

| a| b|

+------+---+

| str_1| 1|

| str_2| 2|

| str_3| 3|

| str_4| 4|

| str_5| 5|

| str_6| 6|

| str_7| 7|

| str_8| 8|

| str_9| 9|

|str_10| 10|

| str_1| 1|

| str_2| 2|

| str_3| 3|

| str_4| 4|

| str_5| 5|

| str_6| 6|

| str_7| 7|

| str_8| 8|

| str_9| 9|

|str_10| 10|

+------+---+

only showing top 20 rows

scala> df.select(expr("inline(c)")).printSchema

root

|-- a: string (nullable = true)

|-- b: integer (nullable = false)

下面我们来介绍map的类型的索引方式，其实也无外乎就是我们之前常用的几点

1、点表达式 a.b 2、中括号表达式 expr(“a[‘b’]”) 3、小括号表达式 col(“a”)(“b”) 只是最后取得的列名不同
scala> df.select(expr("posexplode(d)")).printSchema root \|-- pos: integer (nullable = false) // 索引 \|-- key: string (nullable = false) \|-- value: struct (nullable = true) \| \|-- a: string (nullable = true) \| \|-- b: integer (nullable = false) scala> df.select(expr("posexplode(e)")).printSchema root \|-- pos: integer (nullable = false) \|-- key: integer (nullable = false) \|-- value: string (nullable = true) scala> df.select(expr("posexplode(f)")).show +---+------------+--------+ \|pos\| key\| value\| +---+------------+--------+ \| 0\| [str_8, 8]\| value_8\| \| 1\|[str_10, 10]\|value_10\| \| 2\| [str_3, 3]\| value_3\| \| 3\| [str_1, 1]\| value_1\| \| 4\| [str_6, 6]\| value_6\| \| 5\| [str_5, 5]\| value_5\| \| 6\| [str_7, 7]\| value_7\| \| 7\| [str_2, 2]\| value_2\| \| 8\| [str_4, 4]\| value_4\| \| 9\| [str_9, 9]\| value_9\| \| 0\| [str_8, 8]\| value_8\| \| 1\|[str_10, 10]\|value_10\| \| 2\| [str_3, 3]\| value_3\| \| 3\| [str_1, 1]\| value_1\| \| 4\| [str_6, 6]\| value_6\| \| 5\| [str_5, 5]\| value_5\| \| 6\| [str_7, 7]\| value_7\| \| 7\| [str_2, 2]\| value_2\| \| 8\| [str_4, 4]\| value_4\| \| 9\| [str_9, 9]\| value_9\| +---+------------+--------+ scala> df.select(expr("posexplode(f)")).printSchema root \|-- pos: integer (nullable = false) \|-- key: struct (nullable = false) \| \|-- a: string (nullable = true) \| \|-- b: integer (nullable = false) \|-- value: string (nullable = true)

1、点表达式 a.b
2、中括号表达式 expr(“a[‘b’]”)
3、小括号表达式 col(“a”)(“b”)
只是最后取得的列名不同

scala> df.select(expr("posexplode(d)")).printSchema

root

|-- pos: integer (nullable = false) // 索引

|-- key: string (nullable = false)

|-- value: struct (nullable = true)

| |-- a: string (nullable = true)

| |-- b: integer (nullable = false)

scala> df.select(expr("posexplode(e)")).printSchema

root

|-- pos: integer (nullable = false)

|-- key: integer (nullable = false)

|-- value: string (nullable = true)

scala> df.select(expr("posexplode(f)")).show

+---+------------+--------+

|pos| key| value|

+---+------------+--------+

| 0| [str_8, 8]| value_8|

| 1|[str_10, 10]|value_10|

| 2| [str_3, 3]| value_3|

| 3| [str_1, 1]| value_1|

| 4| [str_6, 6]| value_6|

| 5| [str_5, 5]| value_5|

| 6| [str_7, 7]| value_7|

| 7| [str_2, 2]| value_2|

| 8| [str_4, 4]| value_4|

| 9| [str_9, 9]| value_9|

| 0| [str_8, 8]| value_8|

| 1|[str_10, 10]|value_10|

| 2| [str_3, 3]| value_3|

| 3| [str_1, 1]| value_1|

| 4| [str_6, 6]| value_6|

| 5| [str_5, 5]| value_5|

| 6| [str_7, 7]| value_7|

| 7| [str_2, 2]| value_2|

| 8| [str_4, 4]| value_4|

| 9| [str_9, 9]| value_9|

+---+------------+--------+

scala> df.select(expr("posexplode(f)")).printSchema

root

|-- pos: integer (nullable = false)

|-- key: struct (nullable = false)

| |-- a: string (nullable = true)

| |-- b: integer (nullable = false)

|-- value: string (nullable = true)

//我们可以使用点表达式去用map的key取value //如果key不存在这行数据会为null
scala> df.select("d.key_1").show +----------+ \| key_1\| +----------+ \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| \|[str_1, 1]\| +----------+ scala> df.select("d.key_1").printSchema root \|-- key_1: struct (nullable = true) \| \|-- a: string (nullable = true) \| \|-- b: integer (nullable = false)

//我们可以使用点表达式去用map的key取value

//如果key不存在这行数据会为null

scala> df.select("d.key_1").show

+----------+

| key_1|

+----------+

|[str_1, 1]|

+----------+

scala> df.select("d.key_1").printSchema

root

|-- key_1: struct (nullable = true)

| |-- a: string (nullable = true)

| |-- b: integer (nullable = false)

//数字为key同样可以使用 //对于数字来讲，expr("e[1]")、expr("e['1']")、col("e")(1)、col("e")("1")这四种表达式都可用 //只是最后取得的列名不同
scala> df.select("e.1").show +-------+ \| 1\| +-------+ \|value_1\| \|value_1\| \|value_1\| \|value_1\| \|value_1\| \|value_1\| \|value_1\| \|value_1\| \|value_1\| \|value_1\| +-------+ scala> df.select("e.1").printSchema root \|-- 1: string (nullable = true)

//数字为key同样可以使用

//对于数字来讲，expr("e[1]")、expr("e['1']")、col("e")(1)、col("e")("1")这四种表达式都可用

//只是最后取得的列名不同

scala> df.select("e.1").show

+-------+

| 1|

+-------+

|value_1|

+-------+

scala> df.select("e.1").printSchema

root

|-- 1: string (nullable = true)

在学习了struct和array的取值后，再看map的取值是不是就特别简单了，下面我们来看一个难一点的例子

最有意思的就是f这个map了，我们用struct作为map的key 这种情况下，我们可以用namedExpressionSeq表达式类构造这个struct
scala> df.select(expr("f[('str_1' AS a, 1 AS b)]")).show +---------------------------------------------+ \|f[named_struct(a, str_1 AS `a`, b, 1 AS `b`)]\| +---------------------------------------------+ \| value_1\| \| value_1\| \| value_1\| \| value_1\| \| value_1\| \| value_1\| \| value_1\| \| value_1\| \| value_1\| \| value_1\| +---------------------------------------------+ scala> df.select(expr("f[('str_1' AS a, 1 AS b)]")).printSchema root \|-- f[named_struct(a, str_1 AS `a`, b, 1 AS `b`)]: string (nullable = true)

最有意思的就是f这个map了，我们用struct作为map的key
这种情况下，我们可以用namedExpressionSeq表达式类构造这个struct

scala> df.select(expr("f[('str_1' AS a, 1 AS b)]")).show

+---------------------------------------------+

|f[named_struct(a, str_1 AS `a`, b, 1 AS `b`)]|

+---------------------------------------------+

| value_1|

+---------------------------------------------+

scala> df.select(expr("f[('str_1' AS a, 1 AS b)]")).printSchema

root

|-- f[named_struct(a, str_1 AS `a`, b, 1 AS `b`)]: string (nullable = true)

以上这种构造方式当然不是凭空想出来的，依据呢当然还是我之前提到的另一个博客里介绍的查看方式

https://blog.csdn.net/wang_wbq/article/details/79673780

primaryExpression
: #前面太长不看
| '(' namedExpression (',' namedExpression)+ ')' #rowConstructor
#中间太长不看
| value=primaryExpression '[' index=valueExpression ']' #subscript
#后面太长不看
;

valueExpression
: primaryExpression
#后面太长不看
;

namedExpression
: expression (AS? (identifier | identifierList))?
;

从上面我们可以看出：
1、中括号里需要放置valueExpression
2、valueExpression可以是一个primaryExpression
3、primaryExpression可以是一个'(' namedExpression (',' namedExpression)+ ')'结构
4、namedExpression又是一个exp AS alias的结构

你可能感兴趣的:(spark-sql)

编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
spark任务优化参数整理尘世壹俗人大数据Spark技术 spark 大数据分布式
以下参数中有sql字眼的一般只有spark-sql模块生效，例外的时候会另行说明，此外由于总结这些参数是在不同时间段，当时使用的spark版本也不一样，因此要注意是否有效，如果本博主已经试过的会直接说明。1、任务使用资源限制，基本参数，注意，这些资源配置有spark前缀是因为他们是标准的conf配置，也就是submit脚本，你调用–conf参数写的，和–driver.memory这种属于不同的优先
Spark - SQL查询文件数据 kikiki5
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数不想起的昵称 hive spark hive 数据仓库
背景：在数仓任务中，经常要解决小文件的问题。有时间为了解决小文件问题，我们把spark.sql.shuffle.partitions这个参数调整的很小，但是随着时间的推移，数据量越来越大，当初设置的参数就不合适了，那有没有一个可以自我伸缩的参数呢？看看这个参数如何运用：我们的spark-sql版本：[hadoop@666~]$spark-sql--versionWelcometo______/__
hive join中出现的数据暴增（数据重复）不想起的昵称 hive 大数据 hadoop hive
什么是join过程中导致的数据暴增？例如：给左表的每个用户打上是否是新用户的标签，左表的用户数为100，但是关联右表之后，得到的用户数为200甚至更多什么原因导致的数据暴增呢？我们来看一下案例：spark-sql>withtest1as>(select'10001'asuid,'xiaomi'asqid>unionall>select'10002'asuid,'huawei'asqid>union
记一次spark-sql数据倾斜解决方案王糍粑的小夕 spark spark sql 大数据
spark-sql数据倾斜解决方案背景今天在做一张埋点事实表，需要关联几张维表，补充一些维度属性。经过两三个小时，终于把sql写出来，提交到spark集群，跑的时候发现跑了二十多分钟没跑完，心想肯定是倾斜，因为并没有做什么复杂的处理，仅仅是解析一下字段，补充点维度信息。如何发现倾斜从sparkwebui中可以看到，只有这一个人task跑了21分钟，其他都是几十秒就跑完了，而且这个task处理了几个
Spark - SQL查询文件数据 kikiki4
>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.`/tmp/demo.csv`").sho
spark-sql字段血缘实现王糍粑的小夕 spark spark sql 大数据
spark-sql字段血缘实现背景ApacheSpark是一个开源的大数据处理框架，它提供了一种高效、易于使用的方式来处理大规模数据集。在Spark中，数据是通过DataFrame和Dataset的形式进行操作的，这些数据结构包含了一系列的字段（也称为列）。字段血缘是Spark中的一个关键概念，它帮助我们理解数据的来源和流向，从而更好地理解和控制数据处理过程。字段血缘是指在数据处理过程中，一个字段
Spark - SQL查询文件数据大猪大猪
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki4
>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.`/tmp/demo.csv`").sho
Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error smileyboy2009 spark
在spark2.4中报ArrayIndexOutOfBoundsException原因是Spark2.4.0中引用的paranamer版本是2.7导致问题。在spark-core/spark-sql之前添加以下依赖项为我解决了这个问题。com.thoughtworks.paranamerparanamer2.8
阻断血缘关系以及checkpoint文件清理 Keep hunger Spark spark
spark-sql读写同一张表，报错Cannotoverwriteapaththatisalsobeingreadfrom1.增加checkpoint，设置检查点阻断血缘关系sparkSession.sparkContext.setCheckpointDir("/tmp/spark/job/OrderOnlineSparkJob")valoldOneIdTagSql="selectone_id,t
Spark - SQL查询文件数据 kikiki5
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
大数据基础知识偶余杭
为了一场紧急考试，没有正经系统学习过大数据知识的我开始恶补概念涉及Hadoop、Hbase、Spark、Flink、Flume、Kafka、Sqoop、HDFS、Hive、Mapreduce、Impala、Spark-Sql、Elasticsearch、Yarn、Hue、ClouderaManager，这篇文章的目的就是作为小白要把这些相关的知识概念还有可能的考点整理出来。大数据-概念什么是大数据
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Spark - SQL查询文件数据 kikiki2
有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.`/tmp/demo.csv`").show(fals
Hudi-集成Spark之spark-sql方式迷雾总会解大数据数据库 spark sql 大数据 hudi
Hudi集成Spark之spark-sql方式启动spark-sql#启动spark-sql之前需要先启动Hive的Metastorenohuphive--servicemetastore&#针对Spark3.2spark-sql\--conf'spark.serializer=org.apache.spark.serializer.KryoSerializer'\--conf'spark.sql
spark-sql 指定metastore地址、读取mysql qzWsong spark spark sql hive
spark-sql-hivespark-sql--databasesrc--hiveconfhive.metastore.uris=thrift://hdp02:2083-e"select*fromsrc_db2"--driver-java-options'-Djava.net.preferIPv4Stack=true'spark-sql-jdbc1.启动spark-sql##--driver-c
【Spark九十四】spark-sql工具的使用 axxbc123 Spark 大数据数据库
spark-sql是Sparkbin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过hive>输入的指令可以通过spark-sql>输入的指令来完成。spark-sql可以使用内置的Hivemetadata-store，也可以使用已经独立安装的Hive的metadatastore关于HivebuildintoSpark1.SparkSQLcanbebuiltwithor
高效率：使用DBeaver连接spark-sql open_test01 SparkSQL-巩固篇 spark sql 大数据
提高运行效率一般采取底层使用spark引擎替换成hive引擎的方式提高效率，但替换引擎配置较为复杂考虑到兼容版本且容易出错，所以本篇将介绍使用DBeaver直接连接spark-sql快速操作hive数据库。在spark目录下运行以下命令，创建一个SparkThirdService端口号为10016sudo-uroot./sbin/start-thriftserver.sh\--hiveconfhi
SPARK-SQL中join问题 marvinbb SPARK-SQL SPARK SPARK-SQL
首先抛出Dataset的join算子在spark-sql_2.11版本2.3.0中所有重载方法：由于本人公司产品在执行挖掘任务时任务过长，划分stage过多，并且在过程中存在着关联关系，因此不得不进行数据关联。首次本人在编写代码时使用Seq的join方式：Datasetselect=json1.select("id","callID");SeqcallID=JavaConverters.asSca
Spark-sql离线抽取全量数据到hive分区表中 77zhi spark hive 大数据
先建立spark连接valspark:SparkSession=SparkSession.builder().appName("test").master("local[*]).enableHiveSupport().getOrCreate()控制日期格式并获取当前日期(这里做了-1)valdateStr=newSimpleDateFormat("yyyyMMdd")valcalendar=Cal
SPARK-SQL - RDD/Dataset/DataFrame的互相转换小哇666 #spark spark
转换用到的方法如下rdd()，as()，toDF()代码示例importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.rdd.RDD;importorg.apache.spark.sql.*;importpojo.Dog;import
SparkSQL项目实战 shangjg3 Spark spark 大数据 sql
1准备数据我们这次Spark-sql操作所有的数据均来自Hive，首先在Hive中创建表，并导入数据。一共有3张表：1张用户行为表，1张城市表，1张产品表。1）将city_info.txt、product_info.txt、user_visit_action.txt上传到/opt/module/data[atguigu@hadoop102module]$mkdirdata2）将创建对应的三张表hi
spark创建DataFrame的N种方式阿民啊 SparkSql spark 大数据
注：本篇介绍基于scala（pyspark选择性参考）一、maven配置基础依赖scala-library（scala基础环境）spark-sql（sparksql执行环境）mysql（要访问mysql数据库的驱动包）spark-hive（访问hive，配合方法enableHiveSupport()使用）org.scala-langscala-library2.11.11org.apache.sp
spark进行数据清洗时，如何读取xlsx表格类型文件枯槁橘子皮大数据 spark excel apache 大数据
首先可以确定的是spark有专门对应excel表格读取的工具，在用spark-sql对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了添加依赖如下com.crealyticsspark-excel_2.110.12.2org.codehaus.janinojanino3.0.8com.fasterxml.jackson.corejackson-databind2.10.0
hive和spark-sql中日期和时间相关函数测试对比 Data_IT_Farmer hive hive 数据仓库日期函数时间函数
测试版本：hive2.3.4spark3.1.1hadoop2.7.71、增加月份add_months(timestampdate,intmonths)add_months(timestampdate,bigintmonths)Returntype:timestampusage:add_months(now(),1)2、增加日期adddate(timestampstartdate,intdays)
Spark-SQL 相关 zhixingheyi_tian Spark Sql sql 数据库 database 1024程序员节
相关链接DESCRIBETABLEhttps://spark.apache.org/docs/3.3.2/sql-ref-syntax-aux-describe-table.htmlSQLconceptSQL（StructureQueryLanguage）结构化查询语言DQL（dataquerylanguage）数据查询语言select操作。DQL即数据查询语言，实现数据的简单查询，主要操作命令有
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http