Data_IT_Farmer

Spark DataFrame 的窗口函数使用的两种形式介绍

1、概述

上文介绍了spark dataframe常用操作算子。除此外，spark还有一类操作比较特别——窗口函数。

窗口函数常多用于sql，spark sql也集成了，同样，spark dataframe也有这种函数，spark sql的窗口函数与spark dataframe的写法不太一样。

1.1、spark sql 写法

select pcode,event_date,sum(duration) over (partition by pcode order by event_date asc) as sum_duration
from userlogs_date
where dt=20210720

1.2、spark dataframe

import org.apache.spark.sql.expressions._
val first_2_now_window = Window.partitionBy("pcode").orderBy("event_date")
df_userlogs_date.select(
    $"pcode",
    $"event_date",
    sum($"duration").over(first_2_now_window).as("sum_duration")
).show

1.3、窗口函数形式及示意

窗口函数形式为 over(partition by A order by B)，意为对A分组，对B排序，然后进行某项计算，比如求count，max等。

count(...) over(partition by ... order by ...)--求分组后的总数。
sum(...) over(partition by ... order by ...)--求分组后的和。
max(...) over(partition by ... order by ...)--求分组后的最大值。
min(...) over(partition by ... order by ...)--求分组后的最小值。
avg(...) over(partition by ... order by ...)--求分组后的平均值。
rank() over(partition by ... order by ...)--rank值可能是不连续的。
dense_rank() over(partition by ... order by ...)--rank值是连续的。
first_value(...) over(partition by ... order by ...)--求分组内的第一个值。
last_value(...) over(partition by ... order by ...)--求分组内的最后一个值。
lag() over(partition by ... order by ...)--取出前n行数据。　　
lead() over(partition by ... order by ...)--取出后n行数据。
ratio_to_report() over(partition by ... order by ...)--Ratio_to_report() 括号中就是分子，over() 括号中就是分母。
percent_rank() over(partition by ... order by ...)-- 计算当前行所在前百分位

2、spark-sql形式窗口函数示例

窗口函数可以实现如下逻辑：

a.求取聚合后个体占组的百分比
b.求解历史数据累加

2.1、求取聚合后个体占组的百分比

val data = spark.read.json(spark.createDataset(
      Seq(
         """{"name":"A","lesson":"Math","score":100}""",
         """{"name":"B","lesson":"Math","score":100}""",
         """{"name":"C","lesson":"Math","score":99}""",
         """{"name":"D","lesson":"Math","score":98}""",
         """{"name":"A","lesson":"English","score":100}""",
         """{"name":"B","lesson":"English","score":99}""",
         """{"name":"C","lesson":"English","score":99}""",
         """{"name":"D","lesson":"English","score":98}"""
      )))

data.show

scala> data.show
+-------+----+-----+
| lesson|name|score|
+-------+----+-----+
|   Math|   A|  100|
|   Math|   B|  100|
|   Math|   C|   99|
|   Math|   D|   98|
|English|   A|  100|
|English|   B|   99|
|English|   C|   99|
|English|   D|   98|
+-------+----+-----+

data.registerTempTable("score") 

//求取每个人的单科成绩占自己总成绩的百分比   
 spark.sql(
      s"""
         |select name, lesson, score, (score/sum(score) over()) as y1, (score/sum(score) over(partition by name)) as y2
         |from score
         |""".stripMargin).show


+----+-------+-----+-------------------+-------------------+
|name| lesson|score|                 y1|                 y2|
+----+-------+-----+-------------------+-------------------+
|   B|   Math|  100|0.12610340479192939| 0.5025125628140703|
|   B|English|   99|0.12484237074401008|0.49748743718592964|
|   D|   Math|   98| 0.1235813366960908|                0.5|
|   D|English|   98| 0.1235813366960908|                0.5|
|   C|   Math|   99|0.12484237074401008|                0.5|
|   C|English|   99|0.12484237074401008|                0.5|
|   A|   Math|  100|0.12610340479192939|                0.5|
|   A|English|  100|0.12610340479192939|                0.5|
+----+-------+-----+-------------------+-------------------+

2.2、求解历史数据累加

比如，有个需求，求取从2018年到2020年各年累加的物品总数。

val data1 = spark.read.json(spark.createDataset(
      Seq(
        """{"date":"2020-01-01","build":1}""",
        """{"date":"2020-01-01","build":1}""",
        """{"date":"2020-04-01","build":1}""",
        """{"date":"2020-04-01","build":1}""",
        """{"date":"2020-05-01","build":1}""",
        """{"date":"2020-09-01","build":1}""",
        """{"date":"2019-01-01","build":1}""",
        """{"date":"2019-01-01","build":1}""",
        """{"date":"2018-01-01","build":1}"""
      )))

data1.show()
+-----+----------+
|build|      date|
+-----+----------+
|    1|2020-01-01|
|    1|2020-01-01|
|    1|2020-04-01|
|    1|2020-04-01|
|    1|2020-05-01|
|    1|2020-09-01|
|    1|2019-01-01|
|    1|2019-01-01|
|    1|2018-01-01|
+-----+----------+


data1.createOrReplaceTempView("data1")
/**
     * 历史累加
     */
    //统计build字段的历史累加数据
spark.sql(
      s"""
         |select c.dd,sum(c.sum_build) over(partition by 1 order by dd asc) from
         |(select  substring(date,0,4) as dd, sum(build) as sum_build  from data1 group by dd) c
         |""".stripMargin).show

+----+------------------------------------------------------------------------------------------------------------------+
|  dd|sum(sum_build) OVER (PARTITION BY 1 ORDER BY dd ASC NULLS FIRST RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)|
+----+------------------------------------------------------------------------------------------------------------------+
|2018|                                                                                                                 1|
|2019|                                                                                                                 3|
|2020|                                                                                                                 9|
+----+------------------------------------------------------------------------------------------------------------------+


spark.sql(
      s"""
         |select c.dd,sum(c.sum_build) over (partition by 1) from
         |(select  substring(date,0,4) as dd, sum(build) as sum_build  from data1 group by dd) c
         |""".stripMargin).show    

+----+---------------------------------------------------------------------------------------------+
|  dd|sum(sum_build) OVER (PARTITION BY 1 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)|
+----+---------------------------------------------------------------------------------------------+
|2020|                                                                                            9|
|2019|                                                                                            9|
|2018|                                                                                            9|
+----+---------------------------------------------------------------------------------------------+

3、spark-dataframe 形式窗口函数示例

3.1、准备数据

val df1=Seq(
 ("a","10","m1"),
 ("b","20","m1"),
 (null,"30","m1"),
 ("b","30","m2"),
 ("c","40","m2"),
 (null,"50","m2")
 )toDF("val","count","id")

scala> df1.show()
+----+-----+---+
| val|count| id|
+----+-----+---+
|   a|   10| m1|
|   b|   20| m1|
|null|   30| m1|
|   b|   30| m2|
|   c|   40| m2|
|null|   50| m2|
+----+-----+---+

3.2、用row_number()和窗口函数来做一个分组内排序

import org.apache.spark.sql.expressions.Window

df1.withColumn("rank_num", row_number().over(Window.partitionBy("id").orderBy("count"))).show

scala> import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.expressions.Window

scala> df1.withColumn("rank_num", row_number().over(Window.partitionBy("id").orderBy("count"))).show
+----+-----+---+---------+
| val|count| id|rank_num|
+----+-----+---+---------+
|   a|   10| m1|        1|
|   b|   20| m1|        2|
|null|   30| m1|        3|
|   b|   30| m2|        1|
|   c|   40| m2|        2|
|null|   50| m2|        3|
+----+-----+---+---------+

过滤那些val为空值的记录之后：

df1.withColumn("rank_num", row_number().over(Window.partitionBy("id").orderBy("count"))).where("val <> 'null'").show()

scala> df1.withColumn("rank_num", row_number().over(Window.partitionBy("id").orderBy("count"))).where("val <> 'null'").show()
+---+-----+---+--------+
|val|count| id|rank_num|
+---+-----+---+--------+
|  a|   10| m1|       1|
|  b|   20| m1|       2|
|  b|   30| m2|       1|
|  c|   40| m2|       2|
+---+-----+---+--------+

3.3、用row_number()和窗口函数来做一个全局排序

如果不进行partitionBy，只进行orderBy，则是全局排序：

scala> df1.withColumn("rank_num", row_number().over(Window.orderBy("count"))).show
2021-07-26 09:41:47,061 WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
+----+-----+---+--------+
| val|count| id|rank_num|
+----+-----+---+--------+
|   a|   10| m1|       1|
|   b|   20| m1|       2|
|null|   30| m1|       3|
|   b|   30| m2|       4|
|   c|   40| m2|       5|
|null|   50| m2|       6|
+----+-----+---+--------+

3.4、指定切片partitionSize大小，将根据全局排序结果进行切片，求出每个切片的上下界限

scala> val partitionSize=3
partitionSize: Int = 3

scala> val df=df1.withColumn("rank_num", row_number().over(Window.orderBy("count"))).where(s"rank_num % $partitionSize == 0").show
2021-07-27 11:43:00,567 WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
+----+-----+---+--------+
| val|count| id|rank_num|
+----+-----+---+--------+
|null|   30| m1|       3|
|null|   50| m2|       6|
+----+-----+---+--------+

df: Unit = ()


scala> val df=df1.withColumn("rank_num", row_number().over(Window.orderBy("count"))).where(s"rank_num % $partitionSize == 0").select(col("rank_num"))
df: org.apache.spark.sql.DataFrame = [rank_num: int]

scala> df.show
2021-07-26 09:50:19,415 WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
+--------+
|rank_num|
+--------+
|       3|
|       6|
+--------+


scala> val partitionSize=2
partitionSize: Int = 2

scala> val df=df1.withColumn("rank_num", row_number().over(Window.orderBy("count"))).where(s"rank_num % $partitionSize == 0").show
2021-07-27 11:44:03,205 WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
+----+-----+---+--------+
| val|count| id|rank_num|
+----+-----+---+--------+
|   b|   20| m1|       2|
|   b|   30| m2|       4|
|null|   50| m2|       6|
+----+-----+---+--------+

df: Unit = ()


scala> val df=df1.withColumn("rank_num", row_number().over(Window.orderBy("count"))).where(s"rank_num % $partitionSize == 0").select(col("rank_num"))
df: org.apache.spark.sql.DataFrame = [rank_num: int]

scala> df.show
2021-07-26 09:51:13,534 WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
+--------+
|rank_num|
+--------+
|       2|
|       4|
|       6|
+--------+

3.5、循环遍历每个切片的上界和下界

scala> val ids = df.collect().map(_.get(0).asInstanceOf[Number].longValue)
ids: Array[Long] = Array(2, 4, 6)

val partitionColumn="main_idx"

import scala.collection.mutable.ArrayBuffer

val results = ArrayBuffer[String]()

results += s"$partitionColumn < ${ids(0)}"
for (i <- 1 until ids.length) {
      val start = ids(i - 1)
      val end = ids(i)
      results += s"$partitionColumn >= ${start} and $partitionColumn < ${end}"
    }

results += s"$partitionColumn >= ${ids(ids.length - 1)}"
results.toArray


scala> ids
res31: Array[Long] = Array(2, 4, 6)

scala> import scala.collection.mutable.ArrayBuffer
import scala.collection.mutable.ArrayBuffer

scala> val results = ArrayBuffer[String]()
results: scala.collection.mutable.ArrayBuffer[String] = ArrayBuffer()

scala> results += s"$partitionColumn < ${ids(0)}"
res51: results.type = ArrayBuffer(main_idx < 2)

scala> for (i <- 1 until ids.length) {
     |       val start = ids(i - 1)
     |       val end = ids(i)
     |       results += s"$partitionColumn >= ${start} and $partitionColumn < ${end}"
     |     }

scala> results += s"$partitionColumn >= ${ids(ids.length - 1)}"
res53: results.type = ArrayBuffer(main_idx < 2, main_idx >= 2 and main_idx < 4, main_idx >= 4 and main_idx < 6, main_idx >= 6)

scala> 

scala> results.toArray
res54: Array[String] = Array(main_idx < 2, main_idx >= 2 and main_idx < 4, main_idx >= 4 and main_idx < 6, main_idx >= 6)

scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
R语言dataframe数据索引、访问: 使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据 omhdxgb R语言123 r语言数据挖掘人工智能机器学习数据分析
R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据目录R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据R语言特点R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列
Spark-TTS：基于大模型的文本语音合成工具 CITY_OF_MO_GY 魅力语音语音识别深度学习人工智能
GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成；旨在高效、灵活、强大地用于研究和生产用途。一、介绍SparkTTS完全基于Qwen2.5构建，无需额外的生成模型，它不依赖于单独的模型来生成声学特征，而是直接从LLM预测的代码中重建音频。这种方
df.explode() 及等价写法 Cheer-ego Coding随手记 python pandas
数据场景以下面的DataFrame为例，每行数据都有多个site，以、分隔我想把数据分成多行，即一个query对应一个site，效果如下。如何实现？代码写法1：df.explode()#将site列的字符串按、拆分成列表df['site']=df['site'].str.split('、')#使用explode方法将列表元素展开成多行df_exploded=df.explode('site')注意
WHALE: TOWARDS GENERALIZABLE AND SCALABLE WORLD Models for Embodied Decision-making 翻译 Doc2X 经典论文翻译人工智能
Doc2X|PDF到Markdown一步搞定只需几秒，Doc2X即可将PDF转换为Markdown，支持批量处理和深度翻译功能。Doc2X|One-StepPDFtoMarkdownConversionInjustseconds,Doc2XconvertsPDFstoMarkdown,withsupportforbatchprocessingandadvancedtranslationfeatur
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
大数据实战：Spark + Hive 逐笔计算用户盈亏 WuJiWeb3 区块链链上数据分析从0到1搭建区块链大数据平台 spark hive 大数据 web3 区块链 hadoop
简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。由于我们是进行离线计算，所以我们的数据源是Hive表数据，Sink表也是Hive表，即Spark读取Hive表数据进行批计算之后写回到Hive表并供后续使用。通过本文你将会学到：如何使用SparkSQLAPI读取Hive数据源如何通过读取配置文件进行传参执行SQL如何将SparkSQL转换为JavaRDD进行处理如何
dataframe数据常用python操作 shlay 统计分析软件 python 信息可视化数据分析
dataframe数据常用python操作dataframe数据常用知识点1.创建dataframe1.1使用字典创建DataFrame：1.2使用列表创建DataFrame：1.3使用numpy数组创建DataFrame：1.4从TXT文件中创建DataFrame：1.5从CSV文件中创建DataFrame：1.6从Excel文件中创建DataFrame：2.dataframe数据保存3.dat
DataFrame中添加和删处‘行’ 手机忘记时间 pandas
添加：在Pandas中，df.loc[len(df)]=new_values这行代码用于在DataFramedf的末尾添加一行新数据。这里的len(df)返回的是DataFrame当前的行数，因此df.loc[len(df)]指向的是一个新的行索引，这个索引在当前DataFrame中还不存在。以下是这行代码的详细解释：df：代表你的DataFrame对象。loc：是Pandas提供的基于标签的索引
python Dataframe操作 whale fall python进阶 python 开发语言
目录：一、在Dataframe的最后插入一列二、指定Dataframe一列的数据类型三、遍历Dataframe的每一行，为什么修改行里的数据不会同步修改到Dataframe中四、Dataframe删除重复的行五、Dataframe删除列六、Dataframe重排索引七、给Dataframe增加一列，每次遍历给该新增列中的元素赋值八、将字典嵌套列表转换为Dataframe九、Dataframe中at
分布式计算入门（PySpark处理NASA服务器日志）闲人编程 Python数据分析实战精要服务器运维统计分析日志 NASA服务器分布式计算 PySpark
目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2数据格式与挑战4.PySpark基础与分布式日志处理4.1PySpark基本架构4.2日志数据加载与解析4.3数据清洗与内存优化4.4GPU加速与SparkRAPIDS5.实验环境与依赖库6.数
Dask vs. Apache Spark: 大数据处理的利器对比与应用实例步入烟尘 Python超入门指南全册 apache spark 大数据
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
spark yum配置 Amu_Yalo spark
yum配置Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你
深入探索Deeplearning4j（DL4J）：Java深度学习的全面指南软件职业规划 java 深度学习开发语言
一、DL4J框架概述Deeplearning4j（DL4J）是一个开源的深度学习框架，专为Java和Scala设计，运行在Java虚拟机（JVM）上。它由Skymind公司开发并维护，旨在将深度学习技术应用于大规模商业应用。DL4J支持多种深度学习模型，包括卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）等。自2014年首次发布以来，DL4J已经成为Java深度学习领域的
Hadoop、Spark、Flink Shuffle对比逆袭的小学生 hadoop spark flink
一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认
Scala_Spark_RDD_parttwo Gadaite Spark基础 scala spark big data
只做记录不展示结果(部分结果放在了代码的注释中)：packagespark_rddimportorg.apache.spark.sql.SparkSessionobjectrdd_fiveextendsApp{overridedefmain(args:Array[String]):Unit={/***key-valueRDD*pairRDD*2021-10-31*/valp="-----"*20v
Spark scala api（一）RDD编程 weixin_42521881 spark学习
基础初始化sparkvalconf=newSparkConf().setAppName("wordcount")valsc=newSparkContext(conf)转化操作和行动操作的区别在于spark计算rdd的方式不同，只有在第一次在一个行动操作中用到转化操作中的rdd时，才会真正计算这些rdd。创建rdd//驱动器程序对一个集合进行并行化vallines=sc.parallelize(Li
2025自动化采集豆瓣选电影20年代以来的推荐数据并进行结构化分析及数据缺失值处理方案 BigWiggins python 开发语言单元测试
今天在豆瓣数据中采集20年代以来的电影时遇到了取得电影标题/评分/年份等大量缺失值核心功能动态分页采集：通过API参数迭代获取全量数据反爬策略：请求头模拟、Cookies自动化、随机延迟数据清洗：缺失值填充、嵌套JSON解析持久化存储：JSON结构化存储与PandasDataFrame转换技术栈请求处理：requests库实现API调用数据解析：json模块处理结构化响应异常管理：try-exce
Scala ：identity 函数 WZMeiei Scala scala 开发语言
在Scala中，identity函数是一个简单而有用的函数，主要用于返回其输入参数的值，而不进行任何修改。以下是关于identity函数的详细介绍：函数定义identity函数的定义非常简洁，它接受一个参数并返回该参数本身。在Scala的标准库中，identity函数的定义如下：defidentity[A](x:A):A=x这里的A是一个类型参数，表示identity函数可以接受任何类型的参数，并
Scala 中生成一个RDD的方法闯闯桑 scala 开发语言大数据
在Scala中，生成RDD（弹性分布式数据集）的主要方法是通过SparkContext（或SparkSession）提供的API。以下是生成RDD的常见方法：1.从本地集合创建RDD使用parallelize方法将本地集合（如Seq、List、Array等）转换为RDD。valspark=SparkSession.builder.appName("RDDExample").getOrCreate(
大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件 2401_84181942 程序员大数据 flink 架构
于是人们提出了“不共享任何东西”（share-nothing）的分布式架构。从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构，都是以分布式作为系统架构的基本形态的。我们已经知道，Flink就是一个分布式的并行流处理系统。简单来说，它会由多个进
大数据运维实战指南：零基础入门与核心技术解析（第一篇） emmm形成中大数据运维
大数据运维实战指南：零基础入门与核心技术解析（第一篇）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark运维指南第六篇：大数据监控体系与自动化运维第七篇：云原生时代的大数据运维实践第八篇：数据安全与合规性管理第九篇：性能调优与故障排查案例集第
论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer 不会&编程图神经网络论文阅读论文阅读 transformer 深度学习图神经网络人工智能
RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN+Transformer的混合模型GraphTransformer)论文和代码地址论文地址：https://arxiv.org/pdf/2205.12454v4代码地址：https://git
spark集群，kafka集群和zookeeper的docker集群快速搭建醉与浮 tools docker spark kafka
准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务，是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke
大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化晴天彩虹雨大数据 spark big data
1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。如何优化Spark作业的性能，是大数据开发者必须掌握的关键技能。本文将深入探讨SparkSQL、DataFrame和RDD的性能优化方法，并结合实际案例进行分析。2.SparkSQL性能优化(1)使用P
python的pandas函数 soputasmile11 python python pandas 开发语言
Pandas是Python中一个强大且广泛使用的数据分析库，它提供了高效的数据结构和数据操作工具，主要的数据结构有Series（一维数组）和DataFrame（二维表格）。下面将详细介绍Pandas中一些常用函数和方法的用法。1.安装与导入使用pip安装Pandas：pipinstallpandas在Python代码中导入Pandas，通常使用pd作为别名：importpandasaspd2.创建
Scala的正则表达式3 痕517 scala
贪婪模式与非贪婪模式objecttest{//正则表达式defmain(args:Array[String]):Unit={//贪婪模式//正则匹配默认是贪婪模式的//?非贪婪模式,加在量词的后面//在如下字符串中查找满足正则表达式要求的内容//找全部的手机号//规则：//1.11位数字.//2.第一个数字是1.//3.第二个数字是3-9的数.valreg1="1[3-9]\\d{9}".rreg
演示Scala的lazy变量的惰性求值步骤痕517 scala
**Scala的lazy变量的惰性求值步骤如下：**1.声明一个lazy变量。2.在首次访问该变量时，触发计算。3.计算结果被存储起来。4.后续对该变量的访问直接使用存储的结果，不再重新计算。例如：```scalaobjectLazyDemo{//声明一个lazy变量**lazyval**lazyValue:Int={println("计算lazyValue...")42//假设这是一个复杂的计算
flink入门 Thomas2143 总结 flink scala kafka
flink安装flink本地安装demo运行本地模式安装|ApacheFlinkflink1.13.1为例:cd/optwgethttps://mirrors.advancedhosters.com/apache/flink/flink-1.13.1/flink-1.13.1-bin-scala_2.12.tgz
【Flink】（二）详解 Flink 运行架构_flink的运行架构负荷分担是什么 2301_82242724 flink 架构大数据
作业管理器（JobManager）、资源管理器（ResourceManager）、任务管理器（TaskManager），以及分发器（Dispatcher）。因为Flink是用Java和Scala实现的，所以所有组件都会运行在Java虚拟机上。每个组件的职责如下：作业管理器（JobManager）控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的JobManager所控制执行。Jo
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S