lzw2016

《Spark: The Definitive Guide 》Chapter 7：聚合操作

文章目录

Chapter 7：聚合操作
- Group分组和聚合函数
- - 聚合函数
  - - count 和 countDistinct
    - approx_count_distinct
    - first 和 last
    - min 和 max
    - sum 和 sumDistinct
    - avg 和 mean
    - 方差和标准差
    - 偏度和峰度
    - 协方差和相关性
    - 复杂数据类型的聚合
  - 在表达式中使用分组（Grouping with Expressions）
  - 通过Maps映射使用分组（Grouping with Maps）
- 窗口函数
- 分组集（Grouping Sets）
- 用户自定义聚合函数（UDAF）
- 其他

Chapter 7：聚合操作

聚合操作相关函数的性质是对每一个group而言是多输入单输出。Spark 有复杂和成熟的聚合操作，具有各种不同的使用方法和可能性。在 Spark 中也可以对任何数据类型进行聚合，包括复杂数据类型

Spark 允许我们创建以下group分组：

最简单的group分组仅仅是在select子句中通过聚合来汇总一个完整的DataFrame
通过group by来指定一或多个key并通过一或多个聚合函数来转换Columns的值
通过窗口函数来分组，功能上和group by类似，但输入聚合函数的rows和当前row有关（就是说窗口大小如何指定）
通过分组集（grouping sets），这是可以用来在不同层级上进行聚合操作。在SQL中可以直接使用分组集，而在DataFrame中可通过rollup和cube操作

我理解是这样的，原文是Grouping sets are available as a primitive in SQL and via rollups and cubes in DataFrames.

通过rollup（汇总）来指定一或多个key并通过一或多个聚合函数来转换Columns的值，这些列的值将按照层次结构进行汇总
通过cube（多维数据集）来指定一或多个key并通过一或多个聚合函数来转换Columns的值，不过这些列的值将在所有列组合中进行汇总

每个分组都返回一个 RelationalGroupedDataset，我们在其上指定聚合操作

其实上面讲的这么多都是SQL中哪些进行分组的聚合函数，rollup也是，cube也是

作者这里提了一个注意点：
一个需要考虑的重要事情是你需要一个多么精确的答案。在对大数据进行计算时，要得到一个问题的精确答案可能相当昂贵，而且简单地要求一个近似到合理程度的精确度通常要便宜得多。你会注意到我们在整本书中提到了一些近似函数，通常这是一个很好的机会来提高 Spark 作业的速度和执行，特别是对于交互式和特别分析
就是用近似值代替精确值

这次用的数据集是目录retail-data/下的数据，这里还指定了DataFrame的分区数并且cache持久化缓存了它

# 通过coalesce指定分区，因为coalesce只能减少分区数，而我初识读入这个df时只有4个分区（和机器有关），不过可以通过repartition来增加分区
# df.rdd.getNumPartitions 可以获取DataFrame的分区数
scala> val df = spark.read.format("csv").option("header","true").option("inferSchema","true").load("data/retail-data/all/*.csv").coalesce(5)
df: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [InvoiceNo: string, StockCode: string ... 6 more fields]
# 缓存
scala> df.cache
res11: df.type = [InvoiceNo: string, StockCode: string ... 6 more fields]
#创建临时表
scala> df.createOrReplaceTempView("dfTable")
scala> df.show(5)
+---------+---------+--------------------+--------+----------------+---------+----------+--------------+
|InvoiceNo|StockCode|         Description|Quantity|     InvoiceDate|UnitPrice|CustomerID|       Country|
+---------+---------+--------------------+--------+----------------+---------+----------+--------------+
|   548704|    84077|WORLD WAR 2 GLIDE...|     576|  4/3/2011 11:45|     0.21|     17381|United Kingdom|
|   538641|    21871| SAVE THE PLANET MUG|      12|12/13/2010 14:36|     1.25|     15640|United Kingdom|
|   546406|    22680|FRENCH BLUE METAL...|       1| 3/11/2011 16:21|     2.46|      null|United Kingdom|
|   538508|    22577|WOODEN HEART CHRI...|       6|12/12/2010 13:32|     0.85|     15998|United Kingdom|
|   543713|    22624|IVORY KITCHEN SCALES|       1| 2/11/2011 11:46|    16.63|      null|United Kingdom|
+---------+---------+--------------------+--------+----------------+---------+----------+--------------+

最基本也是最简单的作用于整个DataFrame上的聚合操作就是统计行数

scala> df.count
res15: Long = 541909

count 是一个Action算子，它不仅用来统计数据集的大小，这里另一个作用是执行df的持久化到内存的cache操作（不过我之前用了show，它也是Action算子，所以我这里之前就缓存过了）

Now, this method is a bit of an outlier because it exists as a method (in this case) as opposed to a function and is eagerly evaluated instead of a lazy transformation. In the next section, we will see count used as a lazy function, as well.

Group分组和聚合函数

聚合函数

除了可能出现的特殊情况之外，比如在DataFrames或通过.stat，Chapter 6中有相关描述，所有聚合操作都可作为一个函数。你可以在org.apache.spark.sql.functions的包下找到大多数聚合函数

作者提出一个注意点：
可用的SQL函数与我们可以在Scala和Python中导入的函数之间存在一些差距。这会更改每个版本，因此没有包含明确的差异函数列表。在本节中会介绍最常见的聚合操作

count 和 countDistinct

就是统计行数,后者是去掉重复值后的行数,用法同SQL中一样

# import org.apache.spark.sql.functions._

scala> df.select(count($"StockCode")).show
+----------------+
|count(StockCode)|
+----------------+
|          541909|
+----------------+
scala> df.select(countDistinct($"StockCode")).show
+-------------------------+                                                     
|count(DISTINCT StockCode)|
+-------------------------+
|                     4070|
+-------------------------+

当你要统计整个DataFrame的行数时，SQL 中可以用count(*)/count(1)，而DataFrame 中我测试是可以df.select(count("*"))/df.select(count(lit(1))) （因为count接受Column参数，只传个1进去会以为1是Column的名字，会报错）

还有就是 countDistinct 是一个DataFrame函数，在SQL不能这样用的，SQL 中是 count(distinct xxx)

approx_count_distinct

这个函数我也是头一次见，从字面意思看是近似无重复统计。书上也说是，如果你的数据集非常大，但准确的去重统计是无关紧要的，而某种精度的近似统计值也可以正常工作，你就可以使用approx_count_distinct函数：

scala> df.select(approx_count_distinct($"StockCode",0.1)).show
+--------------------------------+
|approx_count_distinct(StockCode)|
+--------------------------------+
|                            3364|
+--------------------------------+

approx_count_distinct的第二个参数（rsd:Double）是指定“允许的最大估计误差”（默认0.05）。在这种情况下，我们指定了一个相当大的错误，并因此得到一个相差甚远的答案，但比countDistinct完成得更快。如果使用更大的数据集，性能将提升更多

Saprk 2.1.0之前还有一个approxCountDistinct函数，不过之后废弃了

first 和 last

这个和SQL中用法一样，返回组内Column列中第一个和最后一个value，当然first和last取决于窗口rows。其次这个函数的返回结果是不确定性的，取决于rows顺序（如果进行shuffle操作，rows的顺序就是不确定性的）

first(columnName: String, ignoreNulls: Boolean): Column，ignoreNulls是否忽略null，即返回第一个非null值，但全为null时只能返回null
first(columnName: String): Column，默认ignoreNulls为false
last(columnName: String): Column，同上
last(columnName: String, ignoreNulls: Boolean): Column

min 和 max

没啥说的

df.select(min("Quantity"), max("Quantity")).show()
+-------------+-------------+
|min(Quantity)|max(Quantity)|
+-------------+-------------+
|       -80995|        80995|
+-------------+-------------+

sum 和 sumDistinct

也没啥说的，求组内总和以及不含重复值的组内总和

scala> df.select(sum("Quantity"),sumDistinct("Quantity")).show
+-------------+----------------------+                                          
|sum(Quantity)|sum(DISTINCT Quantity)|
+-------------+----------------------+
|      5176450|                 29310|
+-------------+----------------------+

avg 和 mean

求平均值的，当然也可以用sum/count表示

scala> df.select(avg("Quantity"),mean("Quantity")).show
+----------------+----------------+
|   avg(Quantity)|   avg(Quantity)|
+----------------+----------------+
|9.55224954743324|9.55224954743324|
+----------------+----------------+

方差和标准差

方差和标准差是统计中另外两个评估量，书里这里写了一大串废话，不过提到了方差是平方差与均值的平均值，标准差是方差的平方根。Spark 也提供了样本标准差（the sample standard deviation）公式和总体标准差（the population standard deviation）公式，默认在使用方差或 stddev 函数时是用的样本标准差公式

# var 是方差，stddev是标准差，samp结尾的就是样本xxx，pop结尾就是总体xxx
df.select(var_pop("Quantity"),var_samp("Quantity"),stddev_pop("Quantity"),stddev_samp("Quantity")).show()
+-----------------+------------------+--------------------+---------------------+
|var_pop(Quantity)|var_samp(Quantity)|stddev_pop(Quantity)|stddev_samp(Quantity)|
+-----------------+------------------+--------------------+---------------------+
|47559.30364660923| 47559.39140929892|  218.08095663447835|   218.08115785023455|
+-----------------+------------------+--------------------+---------------------+

偏度和峰度

这两是极值点的度量值，偏度度量的是数据中围绕平均值的不对称性，而峰度度量的是数据的尾部，Spark 中提供相关函数：

df.select(skewness("Quantity"), kurtosis("Quantity")).show()
+--------------------+------------------+
|  skewness(Quantity)|kurtosis(Quantity)|
+--------------------+------------------+
|-0.26407557610528376|119768.05495530753|
+--------------------+------------------+

协方差和相关性

这两方法涉及两列之间联系

covar_samp(columnName1: String, columnName2: String): Column，返回两列的样本协方差
covar_pop(columnName1: String, columnName2: String): Column，返回两列的总体协方差
corr(columnName1: String, columnName2: String): Column，返回两列间的皮尔逊相关系数

复杂数据类型的聚合

Spark 不仅可以在数值上聚合操作，也可以在复杂类型上执行聚合。比如收集给定列的值列表list，或者只收集给定列的唯一值集合set

scala> df.agg(collect_set("country"),collect_list("Country")).show
+--------------------+---------------------+
|collect_set(country)|collect_list(Country)|
+--------------------+---------------------+
|[Portugal, Italy,...| [United Kingdom, ...|
+--------------------+---------------------+

在表达式中使用分组（Grouping with Expressions）

表达式中使用和使用agg函数都是一样用的

// in Scala
import org.apache.spark.sql.functions.count

df.groupBy("InvoiceNo").agg(
  count("Quantity").alias("quan"),
  expr("count(Quantity)")).show()

通过Maps映射使用分组（Grouping with Maps）

有时，可以更容易地将转换指定为一系列映射，其中Key为列，Value为希望执行的聚合函数(以字符串形式)。如果你在行内指定多个列名，你也可以重复使用它们:

df.groupBy("InvoiceNo").agg("Quantity"->"avg","UnitPrice"->"max").show
df.groupBy("InvoiceNo").agg(expr("mean(Quantity)"),expr("max(UnitPrice)")).show

# sql
spark.sql("select mean(Quantity),max(UnitPrice) from dfTable group by InvoiceNo").show

待续。。。

窗口函数

分组集（Grouping Sets）

用户自定义聚合函数（UDAF）

其他

收录于此：josonle/Spark-The-Definitive-Guide-Learning
同步更新在掘金：《Spark 权威指南学习计划》

更多推荐：
Coding Now

学习记录的一些笔记，以及所看得一些电子书eBooks、视频资源和平常收纳的一些自己认为比较好的博客、网站、工具。涉及大数据几大组件、Python机器学习和数据分析、Linux、操作系统、算法、网络等

Mysql 主从复制架构百里自来卷 mysql 架构数据库
MySQL主从复制（Master-SlaveReplication）是一种常见的数据库架构，广泛用于提高数据库的可扩展性、读写分离以及数据备份和容灾恢复。主从复制架构中，一个MySQL实例作为主库（Master），负责处理所有的写操作，而一个或多个从库（Slave）从主库复制数据，并负责处理读操作。主库（Master）：主库负责处理数据库的所有写操作（如INSERT、UPDATE和DELETE），
Linux下C方式操作GPIO 大牛攻城狮 c语言 Linux 操作GPIO /sys/class/gpio MCU操作IO方式
1摘要嵌入式编程中对GPIO的读写操作是最常见的应用的了，这里介绍一种C语言方式操作GPIO，涉及代码，以源代码的形式提供，方便快速嵌入实际项目开发；这种操作GPIO的方法类似MCU，实现一行代码拉高、拉低GPIO，直接一行代码实现IO的读写，其实质是封装了/sys/class/gpio的读写。代码实现了GPIO初始化、读、写等操作，针对Linux下操作GPIO提供了一套标准流程，同时可以应用于多
ES 使用geo point 查询离目标地址最近的数据 DavidSoCool elasticsearch Mysql elasticsearch 搜索引擎 mysql
需求描述：项目中需要通过经纬度坐标查询目标地所在的行政区。解决思路大致有种，使用es和mysql分别查询。1、使用es进行查询将带有经纬度坐标的省市区数据存入es中，mappings字段使用geopoint类型，索引及查询dsl如下。geopoint文档地址：Geo-distancequery|ElasticsearchGuide[8.6]|ElasticSortsearchresults|Ela
MySQL锁开发小呆瓜数据库数据库 mysql
一、MySQL锁的分类1.按锁的粒度说明适用引擎表锁锁定整个表，并发性低，但开销小。MyISAM、InnoDB（部分场景）行锁仅锁定需要操作的行，并发性高，但开销较大。InnoDB页锁锁定数据页（介于表锁和行锁之间），较少使用。BDB（已废弃）2.按锁的模式说明共享锁（S锁）允许其他事务读取被锁定的行，但禁止修改（读锁）。排他锁（X锁）禁止其他事务读取或修改被锁定的行（写锁）。二、锁的应用场景1.
原生微信小程序实现导航漫游（Tour）多喜乐长安宁微信小程序微信小程序小程序
效果：小程序实现导航漫游1、组件miniprogram/components/tour/index.wxml{{guideList[index].tips}}{{index+1}}/{{guideList.length}}跳过0}}">上一步{{index===guideList.length-1?'完成':'下一步'}}miniprogram/components/tour/index.ts//
MySql的MVCC实现原理 zyrr mysql mysql mvcc java
MySql的MVCC实现原理前言MVCC解决什么问题MVCC的实现3个隐式字段UndoLogReadView读视图大致流程读已提交和可重复隔离级别下的快照读前言什么是MVCC？MVCC(Multi-VersionConcurrencyControl)即多版本并发控制，是乐观锁的一种实现方式，在MySql数据库中主要是为了提高数据库的并发性能，做到读写冲突不加锁，这里的读指的是快照读。快照读与当前读
【MySQL】MVCC详解与MVCC实现原理（MySQL专栏启动） 2401_89317296 mysql android 数据库
如果此文还不错的话，还请关注、点赞、收藏三连支持一下博主~本文目录本文导读一、什么是MVCC二、MVCC的实现原理1、MVCC多版本实现2、MVCC实现原理3、什么是ReadView3.1、ReadView解析3.2、ReadView含义3.3、ReadView如何判断版本链可用三、当前读，快照读与MVCC1、什么是当前读和快照读
Linux C++ 编程死锁详解 PM简读馆 Linux嵌入式驱动开发开发语言 c++linux
作者简介：程序员转项目管理领域优质创作者个人邮箱：[[email protected]]PMP资料导航：PM菜鸟（查阅PMP大纲考点）座右铭：上善若水，水善利万物而不争。绿泡泡：PM简读馆（包含更多PM常用免费资料）目录概要一、死锁的四个必要条件二、常见死锁场景三、代码解释1、资源申请顺序不一致问题描述解决方案2.优先级倒置问题描述解决方案3.线程间循环等待问题描述解决方案4.锁嵌套（LockNe
vuejs相关链接和格式化插件推荐醉酒的李白、 vue.js javascript 前端
vue官网：https://cn.vuejs.org/配合路由设置：https://router.vuejs.org/zh/guide/elementplus(vue3)|elementUI(vue2)：https://element-plus.org/zh-CN/#/zh-CN构建工具vite：https://cn.vitejs.dev/右键选择Prettier作为格式化工具，el-tree组件
新科研神器！这回读英文论文真跟读中文没两样了量子位
原创关注前沿科技量子位大模型时代，读论文这事儿真是越来越爽了~你敢信，这样式儿的论文并非中文原版，而是出自翻译软件之手的翻译版。原文长这样：不仅译文流畅，公式图表也丝毫不乱，原模原样清晰美观不说，各种图注表头该翻译也都能翻译到位。并且在大模型加持之下，有什么疑点划线引用直接就能问，再也不怕没人一起讨论最新前沿科技进展，被导师一问一个不吱声了。都说搞科研英语必须过硬，但毕竟作为非母语者，想要如阅读中
react组件设计原则_前端组件设计原则 weixin_39825259 react组件设计原则
原标题：前端组件设计原则译者：@没有好名字了译文：https://github.com/lightningminers/article/issues/36，https://juejin.im/post/5c49cff56fb9a049bd42a90f作者：@AndrewDinihan原文：https://engineering.carsguide.com.au/front-end-componen
闪存读重试机制（Read Retry）为什么能降低误码率，以及RIF如何提升读性能炸毛小怪 nand flash 硬件架构算法 c语言 vscode
闪存读重试机制（ReadRetry）为什么能降低误码率，以及RIF如何提升读性能前言一、闪存为什么会产生误码1、闪存单元架构：2、为什么会导致误码二、readretry如何降低误码率三、RIF：提升读性能【1】1、背景2、实现个人总结Reference前言昨天由于考试加上课，稍微有些疲惫，加上论文和实验碰到了点难题，所以也有点畏难心态，就没什么心思学习。索性昨晚直接就和舍友出去逛逛商场聊聊天，
鸿蒙 HarmonyOS 开发问题 piggy514 harmonyos 华为
Q001:文档问题-开启开发者模式文档中心https://developer.huawei.com/consumer/cn/doc/quickApp-Guides/quickapp-open-developer-option-0000001137005543实际上文档描述错误：连续多次点击“Harmony版本”无效A001:应为：连续多次点击“软件版本”Q002：真机调试-签名问题InstallF
零基础使用鸿蒙NDK开发最简步骤 piggy514 笔记
懒得去读华为文档，又臭又长，估计读了后能用到5%就不错了。1、File>New>CreateProject>Application>TemplateMarket>NativeC++这个NativeC++工程不是说它是一个Native专用工程（即：不是说这个工程只能编译出动态库，然后放其它普通工程里用；一开始我是这么以为的），而是说它就是一个普通工程，只不过支持你在里边增删改c/cpp代码并在ets
AI工具使用手册：笑着学会让DeepSeek叫你主人 skyksksksksks AI个人杂记人工智能深度学习神经网络自然语言处理机器学习
【别慌！你的智商还没欠费】各位父老乡亲兄弟姐妹们，今天我们要研究的是这个号称"赛博菩萨"的DeepSeek。先说好了啊，这玩意儿绝对比你家二哈听话，比前男友靠谱，关键还不用买狗粮！下面这张表请含泪收藏：功能对比DeepSeek你家二哈前男友响应速度0.5秒拆家2小时起已读不回3天+知识储备全网数据只会要饭王者荣耀段位售后服务24小时在线随地大小便人间蒸发术使用成本网费电费狗粮+沙发钱青春损失费—我
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
PMP冲刺每日一题(29)答案解析 PM简读馆 PMP每日打卡产品经理
作者简介：程序员转项目管理领域优质创作者个人邮箱：[[email protected]]PMP资料导航：PM菜鸟（查阅PMP大纲考点）座右铭：上善若水，水善利万物而不争。绿泡泡：PM简读馆（包含更多PM常用免费资料）目录试题1试题2试题3试题4试题5试题1标题：尽管出现了资源到位和范围变更的问题，但是项目相对来说进展还是比较顺利。到目前为止，项目第一阶段已经完成。发起人在阶段结束后的评审会议上所考
C#控制台应用程序学习——3.11 宣宣猪的小花园. c#开发语言无人机
一、整型数字计算如果我们想执行以下程序：程序提示用户输入一个数字并输出num+20的结果，我们的思维应该是这样的：usingSystem;publicclassClass1{publicstaticvoidMain(string[]args){Console.WriteLine("Enterthefirstnumber:");//提示用户输入数字num=Console.ReadLine();//读
C语言笔记——第8章对文件的输入输出誓死守护发际线 C语言 c语言 linux 服务器
文章目录一、c文件的有关基本知识二、打开与关闭文件三、顺序读写数据文件四、随机读写数据文件五、文件读写的出错检测前言：在我看来，书应该越读越薄的，所以我的笔记尽量记录了每一个点，可供复习与查阅，但没有详细的解释。我的C语言的笔记是在谭浩强老师的C程序设计(第五版)的基础上总结归纳的，结合了一些我自己的见解。如果是有其他见解,也欢迎大家提出。一、c文件的有关基本知识1.什么是文件（1）程序文件包括源
大数据面试之路 (三) mysql 愿与狸花过一生大数据面试职场和发展
技术选型通常也是被问道的问题，一方面考察候选人对技术掌握程度，另一方面考察对项目的理解，以及项目总结能力。介绍项目是从数据链路介绍，是一个很好来的方式，会让人觉得思路清晰，项目理解透彻。将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型）数据库，
【大数据入门】第三章·数据预处理十二月的猫《小白读透AI原理》大数据大数据入门人工智能入门数据处理
个人主页：十二月的猫-CSDN博客系列专栏：《小白读透AI原理》_十二月的猫的博客-CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.为什么要进行数据预处理2.1脏数据3.数据预处理分类4.数据清理4.1数据填充4.1.1数据缺失的类型1.完全随机缺失（MissingCompletelyatRandom,MCAR）2.随机缺失（MissingatRandom
四补：网络部署思路-网络搭建的步骤薛定谔的码* 智能路由器网络
网络部署思路-网络搭建的步骤1.拓扑设计——IP地址的划分（子网划分、子网汇总）2.实施2.1搭建拓扑2.2底层-给左右需要配置IP地址读的网络节点，配置一个合法的IP地址2.3路由——全网可达2.4优化策略-安全1.测试-2.排错3.维护4.升级EG：40人规模若干交换机实现通通讯（建议：骨干连路不连设备）路由器的转发原理-路由表—一个数据包将基于数据包的目标IP地址查询自身的路由表，如果路由表
Mysql高频面试题 GentleDevin #Java面试宝典 mysql java 数据库
MVCC相关面试题1.什么是MVCC？它解决了什么问题？答：MVCC是多版本并发控制机制，它通过维护数据多个版本，实现非锁定读，解决了读写互斥问题，通过保存数据的多个版本，让读操作可以在不获取锁的情况下读取数据，提高了并发性能。同时，MVCC还能保证事务的隔离性，例如在可重复读隔离级别下，事务在整个执行过程中看到的数据是一致的。2.InnoDB中MVCC的实现原理是什么？答：主要通过为每行数据增加
崖山YashanDB：下一代国产分布式数据库的架构革新与行业实践 Lethehong 热点时事数据库架构分布式
嗨，我是Lethehong！立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页IT深度知识智能体欢迎使用：深探助手deepGuide网页deepseek智能体目录第一章：YashanDB的崛起背景与战略定位1.1国产数据库的破局时刻1.2YashanDB的差异化定位第二章：核心技术架构解析2.1存储引擎：LSM-Tree的革新设计2.2分布式事务引擎：YTSI协议
利用busybox和mkfs.jffs2制作根文件系统浪子--赟 Working Notes mkfs.jffs2工具用法嵌入式根文件系统移植 jffs2根文件系统制作 hi3518c
PC机系统：Ubuntu12.04LTS目标板：海思3518CFlash类型：SPIFlash（16M）Busybox：BusyBox-1.16.1.tgz嵌入式交叉编译工具链：arm-hisiv100nptl-linux-gcc目标板根文件系统格式：JFFS2（在闪存上使用非常广泛的读/写文件系统）根文件系统制作工具：mkfs.jffs2一、mkfs.jffs2工具使用说明：mkfs.jffs2
【光流】——liteflownet论文与代码浅读农夫山泉2号光流计算机视觉深度学习人工智能光流 liteflownet
光流，liteflownetcode:mmflowCVPR20181.前言FlowNet2是最先进的光流估计卷积神经网络(CNN)，需要超过160M的参数来实现精确的流量估计。在本文中，我们提出了一种替代网络，它在Sintel和KITTI基准测试上优于FlowNet2，同时在模型尺寸上要小30倍，在运行速度上要快1.36倍。这是通过深入研究当前框架中可能被遗漏的架构细节而实现的：（1）我们通过轻量
如何使用 SparkLLM 进行自然语言处理 shuoac python
在当代自然语言处理领域，拥有强大的跨域知识和语言理解能力的模型至关重要。iFLYTEK开发的SparkLLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像，SparkLLM能够理解和执行基于自然对话的任务。在本文中，我们将深入探讨如何配置和使用SparkLLM来处理自然语言任务。技术背景介绍大规模语言模型（LLM）近年来在各个领域中获得了广泛的应用，它们在处理自然语言任务时表现出色。iF
RDD 行动算子阿强77 RDD Spark
在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。以下是Scala中常见的RDD行动算子：1.collect()将RDD中的所有数据收集到驱动程序中，并返回一个数组。注意：如果数据集很大，可能会导致内存不足。valdata:Array[T]=rdd.collect()2.count()返回RDD中元素的总数。valcount
深度学习复习笔记（6）线性回归——新冠预测项目 Kriol 深度学习初学深度学习笔记线性回归
importmatplotlib.pyplotaspltimporttorch#框架importnumpyasnp#矩阵处理importcsv#读excel文件fromtorch.utils.dataimportDataLoader,Dataset#两个与数据处理相关的包，类Datasetimporttorch.nnasnn#类nn.Module需要用，损失函数需要用fromtorchimport
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">