一铭

Spark Sql实战--合并数据

数据的合并

概述

本文介绍如何通过spark sql对数据进行各种的合并操作，包括：列合并，行合并，相同key的合并等等。

在实际的数据处理场景中，数据的合并操作非常常用，这里介绍如何通过spark sql来完成常用的合并操作。

数据准备

例子数据

准备以下数据：

name,address,age,id,time
david,shenzhen,31,1,201903
eason,shenzhen,27,2,201904
jarry,wuhan,35,3,201904
aarry2,wuhan1,34,4,201904
barry3,wuhan2,33,5,201904
carry4,wuhan3,32,6,201904
darry5,wuhan4,31,7,201903
earry6,wuhan9,30,8,201903
david,shenzhen,31,1,201903
eason,shenzhen,27,2,201904
jarry,wuhan,35,3,201904
aarry2,wuhan1,34,4,201904
barry3,wuhan2,33,5,201904
carry4,wuhan3,32,6,201904
darry5,wuhan4,31,7,201903
earry6,wuhan9,30,8,201903
david,shenzhen,31,1,201903
eason,shenzhen,27,2,201904
carry4,wuhan3,32,6,201904

把以上数据保存到文件：idtimedata.csv中，并把该文件保存到hdfs的/curdata/目录下。

sparksession初始化

然后先在代码前进行sparksession的初始化：

from pyspark.sql import SparkSession
import pyspark.sql.functions as F

spark = SparkSession.builder.enableHiveSupport().appName("spark sql merge data").getOrCreate()

# 可以把文件放在本地，也可以放到hdfs中，这里放到本地为例
df = spark.read.csv("/Users/hover/work/testdata/idtimedata.csv", header=True)

列数据合并

通过SparkSql的接口函数可以方便的对数据进行合并操作。

1. 把多列合并成一列字符串，并按指定分隔符分割。

假设你有一个dataframe：df1，可以通过以下方法来合并该df1的字段。

>>df = spark.createDataFrame([('abcd', '123')], ['s', 'd'])
>>df.select(F.concat_ws('-', "s", "d").alias('s')).show()

也可以使用以下方便的写法

# 合并多个列
>> merge_cols = [c for c in df.columns if c != 'id']
>> df.select(F.concat_ws(";", *merge_cols).alias("merged_data")).show(truncate=False)
+------------------------+
|merged_data             |
+------------------------+
|david;shenzhen;31;201903|
|eason;shenzhen;27;201904|
|jarry;wuhan;35;201904   |
|aarry2;wuhan1;34;201904 |
|barry3;wuhan2;33;201904 |
|carry4;wuhan3;32;201904 |
|darry5;wuhan4;31;201903 |
|earry6;wuhan9;30;201903 |
...

2. 把多列的值合并成一个list

collect_list函数：

该函数可以把一列的数据合并成一行，并按python的List方式保存，但注意：该函数不会去重。

>> df.select(F.collect_list("id").alias("id_merged")).show(truncate=False)
+---------------------------------------------------------+
|id_merged                                                |
+---------------------------------------------------------+
|[1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 6]|
+---------------------------------------------------------+

对list的值进行排序

可以通过sort_array对合并的lis值进行排序。

>> df.select(F.sort_array(F.collect_list("id"))).show(truncate=False)
+---------------------------------------------------------+
|sort_array(collect_list(id), true)                       |
+---------------------------------------------------------+
|[1, 1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 8, 8]|
+---------------------------------------------------------+

对聚合的值进行先进行去重

通过collect_set函数对合并的数据进行去重。

>> df.select(F.sort_array(F.collect_set("id"))).show(truncate=False)
+---------------------------------+
|sort_array(collect_set(id), true)|
+---------------------------------+
|[1, 2, 3, 4, 5, 6, 7, 8]         |
+---------------------------------+

先group by，再合并

这种情况更加常用。先按某个列聚合，再合并其他列的数据。

# 把相同id的人的name聚合成一个list
>> df.groupby("id").agg(F.collect_list("name").alias("name_merge")).show(truncate=False)
+---+------------------------+
|id |name_merge              |
+---+------------------------+
|7  |[darry5, darry5]        |
|3  |[jarry, jarry]          |
|8  |[earry6, earry6]        |
|5  |[barry3, barry3]        |
|6  |[carry4, carry4, carry4]|
|1  |[david, david, david]   |
|4  |[aarry2, aarry2]        |
|2  |[eason, eason, eason]   |
+---+------------------------+

计算list的长度

>> df.select(F.size(F.collect_list("id"))).show(truncate=False)
+----------------------+
|size(collect_list(id))|
+----------------------+
|19                    |
+----------------------+

3. 合并成一个map格式的数据

通过函数pyspark.sql.functions.create_map(*cols)可以把一个或多个key-value，其中key对应一列的值，而valu对应一列的值。

单个key-value列对

>> df.withColumn("finRes", F.create_map([df.id, df.name])).select("finRes").show(truncate=False)

+----------------+
|finRes          |
+----------------+
|Map(1 -> david) |
|Map(2 -> eason) |
|Map(3 -> jarry) |
|Map(4 -> aarry2)|
|Map(5 -> barry3)|
|Map(6 -> carry4)|
|Map(7 -> darry5)|
|Map(8 -> earry6)|
|Map(1 -> david) |
|Map(2 -> eason) |
|Map(3 -> jarry) |
|Map(4 -> aarry2)|
...

一次完成多个key-value的map创建

create_map函数的参数是多个列名，它们必须成对出现。作为key-value。

>> df3 = df.withColumn("finRes", F.create_map([df.id, df.name, df.name, df.age])).select("finRes")

+------------------------------+
|finRes                        |
+------------------------------+
|Map(1 -> david, david -> 31)  |
|Map(2 -> eason, eason -> 27)  |
|Map(3 -> jarry, jarry -> 35)  |
|Map(4 -> aarry2, aarry2 -> 34)|
|Map(5 -> barry3, barry3 -> 33)|
|Map(6 -> carry4, carry4 -> 32)|
|Map(7 -> darry5, darry5 -> 31)|
|Map(8 -> earry6, earry6 -> 30)|
|Map(1 -> david, david -> 31)  |
|Map(2 -> eason, eason -> 27)  |
|Map(3 -> jarry, jarry -> 35)  |
|Map(4 -> aarry2, aarry2 -> 34)|
|Map(5 -> barry3, barry3 -> 33)|
|Map(6 -> carry4, carry4 -> 32)|
|Map(7 -> darry5, darry5 -> 31)|
|Map(8 -> earry6, earry6 -> 30)|
|Map(1 -> david, david -> 31)  |
|Map(2 -> eason, eason -> 27)  |
|Map(6 -> carry4, carry4 -> 32)|
+------------------------------+

需要注意的是：create_map不会对相同的key值进行合并。若想把相同key的值进行合并，需要自己来完成。比如先进行groupby，在进行create_map操作。

合并多列的值再创建map

>> df.withColumn("finRes", F.create_map([df.id, F.concat_ws(',', df.name, df.age)])).select("finRes").show(truncate=False)

+-------------------+
|finRes             |
+-------------------+
|Map(1 -> david,31) |
|Map(2 -> eason,27) |
|Map(3 -> jarry,35) |
|Map(4 -> aarry2,34)|
|Map(5 -> barry3,33)|
|Map(6 -> carry4,32)|
|Map(7 -> darry5,31)|
|Map(8 -> earry6,30)|

4. 数组值操作（spark-2.4）

在spark-2.4中提供了多个对数组值进行操作的函数：

合并两个数组值的列: array_union

array_union函数可以把两个数组值的列合并在一起。

from pyspark.sql import Row
df = spark.createDataFrame([Row(c1=["b", "a", "c"], c2=["c", "d", "a", "f"])])
df.select(F.array_union(df.c1, df.c2)).collect()
[Row(array_union(c1, c2)=['b', 'a', 'c', 'd', 'f'])]

注意：在使用该函数时，合并的值必须是[]类型。

取数组值的交集：array_except

pyspark.sql.functions.array_except(col1, col2)

array_except返回一个值的数组，该值出现在col1的数组中，但不在col2数组中，返回的值不会重复。

>>> df = spark.createDataFrame([Row(c1=["b", "a", "c", "e", "e"], c2=["c", "d", "a", "f"])])
>>> df.show()
+---------------+------------+
|             c1|          c2|
+---------------+------------+
|[b, a, c, e, e]|[c, d, a, f]|
+---------------+------------+

>>> df.select(F.array_except(df.c1, df.c2)).show()
+--------------------+
|array_except(c1, c2)|
+--------------------+
|              [b, e]|
+--------------------+

说明：可以看到，该函数返回其值在col1数组中出现，而不在col2数组中出现过的值。并以数组的形式返回。

去数组值的交接：array_intersect

pyspark.sql.functions.array_intersect(col1, col2)

该函数求同时出现在col1和col2的数组中的值，并以数组返回。结果会进行去重。

>>> df = spark.createDataFrame([Row(c1=["b", "a", "c", "c", "e"], c2=["c", "d", "a", "f"])])
>>> df.select(F.array_intersect(df.c1, df.c2)).show()
+-----------------------+
|array_intersect(c1, c2)|
+-----------------------+
|                 [a, c]|
+-----------------------+

说明：可以看到a,c是同时出现在col1和col2数组值中的元素，结果也去重了。

把数组合并成字符串：array_join

pyspark.sql.functions.array_join(col, delimiter, null_replacement=None)

可以指定分隔符，若为None，则忽略。若为NULL则替换成NULL值。

>>> df = spark.createDataFrame([(["a", "b", "c"],), (["a", None],)], ['data'])
>>> df.select(F.array_join(df.data, "-").alias("joined")).show()
+------+
|joined|
+------+
| a-b-c|
|     a|
+------+
>>> df.select(F.array_join(df.data, ",", "NULL").alias("joined")).show()
+------+
|joined|
+------+
| a,b,c|
|a,NULL|
+------+

返回数组值中的最小和最大值

array_min：返回每个数组值中的最小值。

array_max：返回每个数组值中的最大值。

返回一个新的值，重复一个值count次，并形成一个数组值

pyspark.sql.functions.array_repeat(col, count)

其中count是重复的次数。

>>> df = spark.createDataFrame([('ab',)], ['data'])
>>> df.show()
+----+
|data|
+----+
|  ab|
+----+

>>> df.select(F.array_repeat(df.data, 3).alias('r')).show()
+------------+
|           r|
+------------+
|[ab, ab, ab]|
+------------+

对数组值进行排序：array_sort

pyspark.sql.functions.array_sort(col)

以升序对输入数组进行排序。输入数组的元素必须是可排序的。空元素将放置在返回数组的末尾。

>>> df = spark.createDataFrame([([2, 1, None, 3],),([1],),([],)], ['data'])
>>> df.show()
+----------+
|      data|
+----------+
|[2, 1,, 3]|
|       [1]|
|        []|
+----------+

>>> df.select(F.array_sort(df.data).alias('r')).show()
+----------+
|         r|
+----------+
|[1, 2, 3,]|
|       [1]|
|        []|
+----------+

对数组列的值去重:array_distinct

pyspark.sql.functions.array_distinct(col)

>>> df = spark.createDataFrame([([1, 2, 3, 2],), ([4, 5, 5, 4],)], ['data'])
>>> df.show()
+------------+
|        data|
+------------+
|[1, 2, 3, 2]|
|[4, 5, 5, 4]|
+------------+

>>> df.select(F.array_distinct(df.data)).show()
+--------------------+
|array_distinct(data)|
+--------------------+
|           [1, 2, 3]|
|              [4, 5]|
+--------------------+

对数组对应位置的数据进行合并：arrays_zip

pyspark.sql.functions.arrays_zip(*cols)

>>> df = spark.createDataFrame([(([1, 2, 3], [2, 3, 4]))], ['vals1', 'vals2'])
>>> df.show()
+---------+---------+
|    vals1|    vals2|
+---------+---------+
|[1, 2, 3]|[2, 3, 4]|
+---------+---------+
>>> df.select(F.arrays_zip(df.vals1, df.vals2).alias('zipped')).show(truncate=False)
+------------------------+
|zipped                  |
+------------------------+
|[[1, 2], [2, 3], [3, 4]]|
+------------------------+

# 若数组值中对应的位置没有值，则合并时设置为空
>>> df = spark.createDataFrame([(([1, 2], [2, 3, 4]))], ['vals1', 'vals2'])
>>> df.select(F.arrays_zip(df.vals1, df.vals2).alias('zipped')).show(truncate=False)
+-----------------------+
|zipped                 |
+-----------------------+
|[[1, 2], [2, 3], [, 4]]|
+-----------------------+

行数据合并

合并一个或多个dataframe：union

在使用该函数时需要注意：两个dataframe的列的个数必须相同，并且两个dataframe的列的类型也必须相同，否则会报错。

>>> d2 = [([1], 1), ([3], 2)]
>>> df2 = spark.createDataFrame(d2, ['c1', 'c2'])
>>> df2.show()
+---+---+
| c1| c2|
+---+---+
|[1]|  1|
|[3]|  2|
+---+---+

>>> d1 = [{'name': 'Alice', 'age': 1}]
>>> df1 = spark.createDataFrame(d1, ['c1', 'c2'])
>>> df1.show()
+-----+---+
|   c1| c2|
+-----+---+
|Alice|  1|
|  bob|  2|
+-----+---+

>>> df2.union(df1).show()
报错，错误信息如下：
pyspark.sql.utils.AnalysisException: u"Union can only be performed on tables with the compatible column types. string <> array at the first column of the second table;;\n'Union\n:- LogicalRDD [c1#684, c2#685L], false\n+- LogicalRDD [c1#609, c2#610L], false\n"

找出两个dataframe中的相同数据行: intersect

intersect(other)

intersect函数返回同时在两个dataframe中存在的行。要注意：该函数要求两个dataframe的列和列的类型必须相同。否则会报错。

>>> d2 = [('name1', 1), ('name2', 2)]
>>> df2 = spark.createDataFrame(d2, ['c1', 'c2'])
>>> d1 = [('bob', 3)]
>>> df1 = spark.createDataFrame(d1, ['c1', 'c2'])
>>> df1.intersect(df2).show()
+---+---+
| c1| c2|
+---+---+
+---+---+

>>> d1 = [('bob', 3), ('name1', 1)]
>>> df1 = spark.createDataFrame(d1, ['c1', 'c2'])
>>> df1.intersect(df2).show()
+-----+---+
|   c1| c2|
+-----+---+
|name1|  1|
+-----+---+

总结

本节讲述了如何通过spark-sql(python)来完成数据的合并。包括列和行的合并，对于日常的数据处理来说这些操作都非常有用，需要熟练掌握。但本节没有包括join的操作讲解，join操作情况比较多，放在另外一节进行讲解。

Vue.js 入门指南：从基础到实战阿绵前端 vue.js 前端 javascript
Vue.js是一款流行的渐进式JavaScript框架，广泛用于构建交互式Web界面。它具有简单易学、轻量级、高性能的特点，适合前端新手入门。本文将从Vue的基本概念入手，详细介绍Vue的生命周期及常见用法，帮助你快速上手Vue开发官网：https://cn.vuejs.org/1.Vue.js介绍1.1Vue的特点易学易用：Vue采用直观的模板语法，降低了学习成本响应式数据绑定：使用双向绑定(v
Deepseek开源周第四天：从 DualPipe 到 EPLB deepseek开源
Deepseek开源周第四天：从DualPipe到EPLB前言上周deepseek宣布，将在本周陆续发布五个开源项目，这些库已经在生产环境中经过了记录、部署和实战测试。今天是deepseek开源周的第四天，deepseek发布了三个开源项目，分别是GitHub-deepseek-ai/DualPipeGitHub-deepseek-ai/eplbGitHub-deepseek-ai/profile
第七日八股文是钤不是铃八股文 java
1.mysql常见的存储引擎有哪些InnoDB：支持事务、外键、行级锁，是mysql默认的存储引擎，适用于并发环境下；MyISAM：不支持事务和外键，使用的是表级锁，适用于读多写少的场景；MEMORY：使用内存存储，速度快，但是关机数据就会丢失。2.mysql的事务隔离级别有哪些？读未提交：一个事务能够读取到另外一个事务未提交的数据，会存在脏读现象；读已提交：一个事务只能看到另外一个事务已经提交的
Python自动化运维实战，怎么构建分布式质量监控平台好知识传播者 Python实例开发实战运维 python 自动化分布式质量监控平台 linux
注意：本文的下载教程，与以下文章的思路有相同点，也有不同点，最终目标只是让读者从多维度去熟练掌握本知识点。下载教程：Python自动化运维项目开发实战_构建分布式质量监控平台_编程案例解析实例课程教程.pdf一、引言随着企业业务的不断扩展和复杂化，系统运维面临着越来越多的挑战。传统的运维方式已经无法满足现代企业的需求，因此，自动化运维成为了企业提升运维效率、保障系统稳定性的重要手段。在自动化运维中
fastapi 大型应用_FastApi项目实战 - 爱投票管理系统（一）赌徒梦 fastapi 大型应用
一、闲来无事，在工作之余自己研究了一下python的异步框架-fastapi，并写包括1、部门管理2、角色管理3、用户管理4、菜单管理5、登录日志6、操作日志7、添加反爬机制六个基础功能模块，演示链接：https://www.lovevote.cn，账号：admin，密码：admin由于我的电脑问题，下载的vue依赖包有几个发生了版本冲突，打包部署后偶尔会在点击菜单按钮时发生前端延时(这时表现为缓
ubuntu14.04 sqlite3 及可视化工具安装 Andre-S linux工具可视化工具 sqlite3 界面数据库 ubuntu
1.安装sqlite3sudoapt-getinstallsqlite3检查版本：sqlite3-version2.使用方法查看帮助信息.help创建数据库sqlite3test.db查询数据库信息.database查看该数据库内的表信息.tables退出.exit3.安装图形化界面sudoapt-getinstallsqlitebrowser4.使用方法sqlitebrowsertest.db注
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
RabbitMQ实战：构建可靠的异步消息系统 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
RabbitMQ实战：构建可靠的异步消息系统1.背景介绍1.1异步消息系统的重要性在现代软件系统中,各个组件和服务之间通常需要进行大量的通信和数据交换。同步通信会导致系统耦合度高,可扩展性差。异步消息系统应运而生,通过将消息发送者和接收者解耦,提高了系统的灵活性、可靠性和性能。1.2RabbitMQ的优势RabbitMQ是一个开源的消息队列系统,基于AMQP(AdvancedMessageQueu
前端学习资料集合 mdnbnb 前端
针对前端的学习，不同阶段采用的方式是不一样的。本文把前端的学习分为入门、实战、进阶三个阶段。下面分开来说一、入门阶段入门阶段的目标是学会前端的基本语法和知识，能够解决一些简单的问题。这个阶段不建议看书学习，效率太慢。这个阶段不追求知识广度，只要求能够快速上手就行。建议直接找一些介绍前端的基础知识的视频课程来看。推荐一个比较经典的课程。前端基础班就业班实战项目全套课程聊聊前端开发的基础知识4小时带你
sqlite 安装可视化笔记 AI算法网奇 python宝典 sqlite 笔记数据库
目录免费可视化工具：python安装免费可视化工具：SQLiteStudio（免费）DBBrowserforSQLite（免费）实用的SQLite数据库可视化管理工具推荐_sqllite工具-CSDN博客python安装pipinstallpysqlite3，这个有的电脑报错，dll找不到。在网址SQLiteDownloadPage下载
第二十二天学习HarmonyOS的分布式软总线技术，了解跨设备通信的原理 MarkHD HarmonyOS 学习学习 harmonyos 分布式
前言在万物互联时代，跨设备协同成为智能生态系统的核心需求。HarmonyOS通过创新的分布式软总线技术，实现了设备间的高效通信与资源共享。本文将从零开始，带领开发者深入理解这项核心技术，通过代码实战演示如何构建跨设备应用。我们将从技术原理到具体实现，系统性地剖析分布式软总线的运作机制。一、分布式软总线技术概述1.1什么是分布式软总线？HarmonyOS的分布式软总线就像一条虚拟的高速公路，连接着各
京东商品信息高效抓取：利用API实现数据获取的实战指南技术猿18870278351 自动化
在当今的电商时代，数据成为了企业决策和市场分析的重要基石。对于希望深入了解京东平台商品信息、优化供应链管理、或进行市场调研的商家和开发者而言，如何高效地获取京东商品信息成为了一项关键技能。本文将引导您通过API（应用程序接口）的方式，实战学习如何快速、准确地抓取京东商品信息，为您的业务赋能。一、了解京东开放平台与API京东开放平台（JDP）是京东为第三方开发者提供的一个接入京东电商生态系统的门户，
Python 异常：深度剖析与实战应用秋夜Autumn python windows 开发语言
目录一、引言二、异常的基本概念（一）定义与本质（二）常见异常类型详解三、异常处理机制（一）try-except语句（二）try-except-else语句（三）try-finally语句（四）嵌套异常处理四、主动抛出异常（一）raise语句的使用方法（二）自定义异常类五、断言（assert）（一）断言的语法与功能（二）断言在调试和测试中的应用六、异常处理的最佳实践（一）具体的异常处理策略（二）异常
Python 实战：构建分布式文件存储系统全解析 tekin Python网络编程 python 分布式 Python分布式文件存储系统
Python实战：构建分布式文件存储系统全解析在当今数据爆炸的时代，分布式文件存储系统凭借其高可扩展性、高可靠性等优势，成为了数据存储领域的热门选择。本文将详细介绍如何使用Python构建一个简单的分布式文件存储系统。从系统架构设计，包括中央控制器、存储节点和客户端的功能介绍，到具体的代码实现，涵盖网络通信、文件操作等关键技术，再到运行步骤的说明，让你全面了解分布式文件存储系统的构建过程。即使你是
ASFF改进YOLOv8检测头：提升目标检测精度与效率的创新方法【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测目标跟踪 ASFF YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录ASFF改进YOLOv8检测头：提升目标检测精度与效率的创新方法【YOLOv8】1.背景介绍1.1Y
HTML5期末大作业：基于 html css js仿腾讯课堂首页 web学生网页设计 web前端 css dreamweaver html html5期末作业
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
Xxl-job 3.0.0 切换postgresql数据库执行器无法注册 lbyxkey java
项目场景：提示：这里简述项目相关背景：例如：项目场景：示例:通过蓝牙芯片(HC-05)与手机APP通信，每隔5s传输一批传感器数据(不是很大)问题描述提示：这里描述项目中遇到的问题：例如：数据传输过程中数据不时出现丢失的情况，偶尔会丢失一部分数据APP中接收数据代码：@Overridepublicvoidrun(){bytes=mmInStream.read(buffer);mHandler.ob
VQ-Diffusion 深度解析与实战指南晏灵昀Odette
VQ-Diffusion深度解析与实战指南VQ-Diffusion项目地址:https://gitcode.com/gh_mirrors/vqd/VQ-Diffusion1.项目介绍VQ-Diffusion是一个用于文本到图像合成的深度学习模型，基于矢量量化变分自编码器（VQ-VAE）和去噪扩散概率模型（DenoisingDiffusionProbabilisticModel）。该模型通过将DDP
sql注入总结(时间盲注，布尔盲注，无列名注入，regexp盲注，order by注入，二次注入，update注入，报错注入) 尘佑不尘 sql 数据库 web安全网络安全笔记学习
一、update注入query="updatemembersetsex=′query="updatemembersetsex='query="updatemembersetsex=′sex’,phonenum=‘phonenum′,address=′phonenum',address='phonenum′,address=′add,email=‘emailwhereusername=’$ueser
【Python爬虫(67)】Python爬虫实战：探秘旅游网站数据宝藏奔跑吧邓邓子 Python爬虫 python 爬虫开发语言旅游网站
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫前期准备2.1目标网站分析2.2技术栈选择2.3环
python获取当月最后工作日实现在数据库查询指定日期数据(python+sql) 桃子是唯一的水果 python 开发语言 sql
问题描述：处理数据库业务数据的时候，会遇到查询某一月最后一个工作日的数据此时可以使用sql+python结合实现自动获取当月最后一个工作日日期作为变量代码实现：python:defget_workingday(self):self.now=pd.Timestamp.now()#self.now.year:本年#self.now.month:当月,在这个基础上+-可以实现查询前几个月份的工作日sel
Python客服机器人编织幻境的妖 python 机器人开发语言
1.功能概述实现一个简单的客服机器人应用，使用Python的Tkinter库构建了图形用户界面(GUI)，并通过与MySQL数据库交互来查询和回复用户的提问。此外，它还支持从CSV或Excel文件中导入话术模板，并提供下载模板的功能。2.实现逻辑初始化与GUI设置：通过tkinter库创建了一个窗口应用程序，设置了文本显示区、用户输入区、发送按钮、导入话术按钮和下载模板按钮。连接到数据库：尝试连接
DAT 560G: Database Design and SQL 后端
DAT560G:DatabaseDesignandSQLSpring2025,MiniAAssignment#4:SQLPart3Instructions1.Thisisanindividualassignment.Youmaynotdiscussyourapproachtosolvingthesequestionswithanyone,otherthantheinstructororTA.2.P
JAVA面试常见题_基础部分_Mysql调优茂茂在长安 mysql JAVA java 面试 mysql
性能监控使用showprofile查询剖析工具，可以指定具体的type此工具默认是禁用的，可以通过服务器变量在绘画级别动态的修改setprofiling=1;当设置完成之后，在服务器上执行的所有语句，都会测量其耗费的时间和其他一些查询执行状态变更相关的数据。select*fromemp;在mysql的命令行模式下只能显示两位小数的时间，可以使用如下命令查看具体的执行时间showprofiles;执
zabbix安装使用吃不到的烤鱼运维 zabbix
文章目录1.zabbix安装1.1安装zabbix-release1.2安装server/proxy/前端1.2创建数据库1.2.1安装mysql(如果已有数据库可以跳过)1.2.2创建zabbix账号和数据库1.2.3导入zabbix数据库1.3配置zabbix服务1.4启动zabbix1.4.1启动zabbix服务1.4.2zabbixphp相关配置(主要为时区配置)1.4.3SELinux配
深入miniqmt：掌握创建交易对象的关键步骤量化投资技术量化软件 Python 量化 miniQMT QMT 量化交易量化投资
深入miniqmt：掌握创建交易对象的关键步骤量化软件开通量化实战教程在量化交易的世界中，miniqmt是一个强大的工具，它允许开发者通过编程方式执行复杂的交易策略。本文将详细介绍如何在miniqmt中创建和配置交易对象，这是实现自动化交易的第一步。技术背景与应用场景在程序化交易系统中，交易对象是执行下单、撤单等操作的核心组件。通过创建并配置这些对象，我们可以与交易平台建立连接，订阅账户信息，并注
MySQL面试学习 hxung 面试学习使用 mysql 面试学习
MySQL1.事务事务的4大特性事务4大特性：原子性、一致性、隔离性、持久性原⼦性：事务是最⼩的执⾏单位，不允许分割。事务的原⼦性确保动作要么全部完成，要么全不执行一致性：执⾏事务前后，数据保持⼀致，多个事务对同⼀个数据读取的结果是相同的；隔离性：并发访问数据库时，⼀个⽤户的事务不被其他事务所⼲扰，各并发事务之间数据库是独⽴的；持久性：⼀个事务被提交之后。它对数据库中数据的改变是持久的，即使数据库
Python 列表与元组全攻略：从新手到高手的必备指南吴师兄大模型 python 开发语言列表（List）元组（Tuple）算法编程 PYTHON
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
解锁C++学习密码，从入门到精通不是梦大雨淅淅 C++开发 c++学习开发语言
目录一、为什么选择C++二、新手入门：夯实基础（一）前置知识储备（二）C++基础语法学习（三）开发环境搭建三、进阶提升：深入学习（一）C++标准库探秘（二）面向对象编程（OOP）（三）泛型编程与模板四、高阶拓展：掌握高级特性（一）内存管理与指针（二）异常处理（三）多线程编程五、实战演练：项目实践（一）小型项目实践（二）参与开源项目六、持续学习：保持进步（一）阅读优秀代码（二）关注行业动态（三）参加
鸿蒙Harmony开发实战（Input Kit）输入设备开发实践我很英俊小名男男 OpenHarmony 鸿蒙开发 HarmonyOS harmonyos 华为前端开发语言鸿蒙移动开发鸿蒙系统
鸿蒙开发实战往期文章必看：HarmonyOSNEXT应用开发性能实践总结一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）<
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

Spark Sql实战--合并数据

数据的合并

概述

数据准备

列数据合并

1. 把多列合并成一列字符串，并按指定分隔符分割。

也可以使用以下方便的写法

2. 把多列的值合并成一个list

collect_list函数：

对list的值进行排序

对聚合的值进行先进行去重

先group by，再合并

计算list的长度

3. 合并成一个map格式的数据

单个key-value列对

一次完成多个key-value的map创建

合并多列的值再创建map

4. 数组值操作（spark-2.4）

行数据合并

总结

你可能感兴趣的:(spark,sql实战,spark,sql原理分析)