Spark常用函数讲解之键值RDD转换 - MOBIN - 博客园

摘要：

RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集
RDD有两种操作算子：

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作
Ation（执行）：触发Spark作业的运行，真正触发转换算子的计算

本系列主要讲解Spark中常用的函数操作：
1.RDD基本转换
2.键-值RDD转换
3.Action操作篇

本节所讲函数

1.mapValus

2.flatMapValues

3.comineByKey

4.foldByKey

5.reduceByKey

6.groupByKey

7.sortByKey

8.cogroup

9.join

10.LeftOutJoin

11.RightOutJoin

1.mapValus(fun):对[K,V]型数据中的V值map操作

(例1)：对每个的的年龄加2

 
              object MapValues { 
               
   def main(args: Array[String]) { 
               
     val conf = new SparkConf().setMaster("local").setAppName("map") 
               
     val sc = new SparkContext(conf) 
               
     val list = List(("mobin",22),("kpop",20),("lufei",23)) 
               
     val rdd = sc.parallelize(list) 
               
     val mapValuesRDD = rdd.mapValues(_+2) 
               
     mapValuesRDD.foreach(println) 
               
   } 
               
 }

输出：

        
        (mobin,24)
(kpop,22)
(lufei,25)

(RDD依赖图：红色块表示一个RDD区，黑色块表示该分区集合，下同)

2.flatMapValues(fun)：对[K,V]型数据中的V值flatmap操作

(例2):

 
              //省略
val list = List(("mobin",22),("kpop",20),("lufei",23)) 
               
 val rdd = sc.parallelize(list) 
               
 val mapValuesRDD = rdd.flatMapValues(x => Seq(x,"male")) 
               
 mapValuesRDD.foreach(println)

输出：

        
        (mobin,22)
(mobin,male)
(kpop,20)
(kpop,male)
(lufei,23)
(lufei,male)

如果是mapValues会输出：

        
        (mobin,List(22, male))
(kpop,List(20, male))
(lufei,List(23, male))

（RDD依赖图）

3.comineByKey(createCombiner,mergeValue,mergeCombiners,partitioner,mapSideCombine)

comineByKey(createCombiner,mergeValue,mergeCombiners,numPartitions)

comineByKey(createCombiner,mergeValue,mergeCombiners)

createCombiner:在第一次遇到Key时创建组合器函数，将RDD数据集中的V类型值转换C类型值（V => C），

如例3:

mergeValue：合并值函数，再次遇到相同的Key时，将createCombiner道理的C类型值与这次传入的V类型值合并成一个C类型值（C,V）=>C，

如例3：

mergeCombiners:合并组合器函数，将C类型值两两合并成一个C类型值

如例3：

partitioner：使用已有的或自定义的分区函数，默认是HashPartitioner

mapSideCombine：是否在map端进行Combine操作,默认为true

注意前三个函数的参数类型要对应；第一次遇到Key时调用createCombiner，再次遇到相同的Key时调用mergeValue合并值

（例3）：统计男性和女生的个数，并以（性别，（名字，名字....），个数）的形式输出

 
              object CombineByKey { 
               
   def main(args: Array[String]) { 
               
     val conf = new SparkConf().setMaster("local").setAppName("combinByKey") 
               
     val sc = new SparkContext(conf) 
               
     val people = List(("male", "Mobin"), ("male", "Kpop"), ("female", "Lucy"), ("male", "Lufei"), ("female", "Amy")) 
               
     val rdd = sc.parallelize(people) 
               
     val combinByKeyRDD = rdd.combineByKey( 
               
       (x: String) => (List(x), 1), 
               
       (peo: (List[String], Int), x : String) => (x :: peo._1, peo._2 + 1), 
               
       (sex1: (List[String], Int), sex2: (List[String], Int)) => (sex1._1 ::: sex2._1, sex1._2 + sex2._2)) 
               
     combinByKeyRDD.foreach(println) 
               
     sc.stop() 
               
   } 
               
 }

输出：

        
        (male,(List(Lufei, Kpop, Mobin),3))
(female,(List(Amy, Lucy),2))

过程分解：

Partition1:
K="male"  -->  ("male","Mobin")  --> createCombiner("Mobin") =>  peo1 = (  List("Mobin") , 1 )
K="male"  -->  ("male","Kpop")  --> mergeValue(peo1,"Kpop") =>  peo2 = (  "Kpop"  ::  peo1_1 , 1 + 1 )    //Key相同调用mergeValue函数对值进行合并
K="female"  -->  ("female","Lucy")  --> createCombiner("Lucy") =>  peo3 = (  List("Lucy") , 1 )
 
Partition2:
K="male"  -->  ("male","Lufei")  --> createCombiner("Lufei") =>  peo4 = (  List("Lufei") , 1 )
K="female"  -->  ("female","Amy")  --> createCombiner("Amy") =>  peo5 = (  List("Amy") , 1 )
 
Merger Partition:
K="male" --> mergeCombiners(peo2,peo4) => (List(Lufei,Kpop,Mobin))
K="female" --> mergeCombiners(peo3,peo5) => (List(Amy,Lucy))

（RDD依赖图）

4.foldByKey(zeroValue)(func)

foldByKey(zeroValue,partitioner)(func)

foldByKey(zeroValue,numPartitiones)(func)

foldByKey函数是通过调用CombineByKey函数实现的

zeroVale：对V进行初始化，实际上是通过CombineByKey的createCombiner实现的 V => (zeroValue,V)，再通过func函数映射成新的值，即func(zeroValue,V),如例4可看作对每个V先进行 V=> 2 + V

func: Value将通过func函数按Key值进行合并（实际上是通过CombineByKey的mergeValue，mergeCombiners函数实现的，只不过在这里，这两个函数是相同的）

例4：

 
              //省略 
               
     val people = List(("Mobin", 2), ("Mobin", 1), ("Lucy", 2), ("Amy", 1), ("Lucy", 3)) 
               
     val rdd = sc.parallelize(people) 
               
     val foldByKeyRDD = rdd.foldByKey(2)(_+_) 
               
     foldByKeyRDD.foreach(println)

输出：

 
          (Amy,2)
(Mobin,4)
(Lucy,6) 
         

先对每个V都加2，再对相同Key的value值相加。

5.reduceByKey(func,numPartitions):按Key进行分组，使用给定的func函数聚合value值, numPartitions设置分区数，提高作业并行度

例5

 
                //省略 
                 
 val arr = List(("A",3),("A",2),("B",1),("B",3)) 
                 
 val rdd = sc.parallelize(arr) 
                 
 val reduceByKeyRDD = rdd.reduceByKey(_ +_) 
                 
 reduceByKeyRDD.foreach(println) 
                 
 sc.stop

输出：

 
          (A,5)
(A,4)

（RDD依赖图）

6.groupByKey(numPartitions):按Key进行分组，返回[K,Iterable[V]]，numPartitions设置分区数，提高作业并行度

例6：

 
                //省略 
                 
 val arr = List(("A",1),("B",2),("A",2),("B",3)) 
                 
 val rdd = sc.parallelize(arr) 
                 
 val groupByKeyRDD = rdd.groupByKey() 
                 
 groupByKeyRDD.foreach(println) 
                 
 sc.stop

输出：

 
          (B,CompactBuffer(2, 3))
(A,CompactBuffer(1, 2))

以上foldByKey,reduceByKey,groupByKey函数最终都是通过调用combineByKey函数实现的

7.sortByKey(accending，numPartitions):返回以Key排序的（K,V）键值对组成的RDD，accending为true时表示升序，为false时表示降序，numPartitions设置分区数，提高作业并行度

例7：

 
               //省略sc 
                
 val arr = List(("A",1),("B",2),("A",2),("B",3)) 
                
 val rdd = sc.parallelize(arr) 
                
 val sortByKeyRDD = rdd.sortByKey() 
                
 sortByKeyRDD.foreach(println) 
                
 sc.stop

输出：

        
        (A,1)
(A,2)
(B,2)
(B,3)

8.cogroup(otherDataSet，numPartitions)：对两个RDD(如:(K,V)和(K,W))相同Key的元素先分别做聚合，最后返回(K,Iterator,Iterator)形式的RDD,numPartitions设置分区数，提高作业并行度

例8：

 
              //省略 
               
 val arr = List(("A", 1), ("B", 2), ("A", 2), ("B", 3)) 
               
 val arr1 = List(("A", "A1"), ("B", "B1"), ("A", "A2"), ("B", "B2")) 
               
 val rdd1 = sc.parallelize(arr, 3) 
               
 val rdd2 = sc.parallelize(arr1, 3) 
               
 val groupByKeyRDD = rdd1.cogroup(rdd2) 
               
 groupByKeyRDD.foreach(println) 
               
 sc.stop

输出：

        
        (B,(CompactBuffer(2, 3),CompactBuffer(B1, B2)))
(A,(CompactBuffer(1, 2),CompactBuffer(A1, A2)))

（RDD依赖图）

9.join(otherDataSet,numPartitions):对两个RDD先进行cogroup操作形成新的RDD，再对每个Key下的元素进行笛卡尔积，numPartitions设置分区数，提高作业并行度

例9

 
              //省略 
               
 val arr = List(("A", 1), ("B", 2), ("A", 2), ("B", 3)) 
               
 val arr1 = List(("A", "A1"), ("B", "B1"), ("A", "A2"), ("B", "B2")) 
               
 val rdd = sc.parallelize(arr, 3) 
               
 val rdd1 = sc.parallelize(arr1, 3) 
               
 val groupByKeyRDD = rdd.join(rdd1) 
               
 groupByKeyRDD.foreach(println)

输出：

(B,(2,B1))
(B,(2,B2))
(B,(3,B1))
(B,(3,B2))
 
(A,(1,A1))
(A,(1,A2))
(A,(2,A1))
(A,(2,A2)

（RDD依赖图）

10.LeftOutJoin(otherDataSet，numPartitions):左外连接，包含左RDD的所有数据，如果右边没有与之匹配的用None表示,numPartitions设置分区数，提高作业并行度

例10：

 
              //省略 
               
 val arr = List(("A", 1), ("B", 2), ("A", 2), ("B", 3),("C",1)) 
               
 val arr1 = List(("A", "A1"), ("B", "B1"), ("A", "A2"), ("B", "B2")) 
               
 val rdd = sc.parallelize(arr, 3) 
               
 val rdd1 = sc.parallelize(arr1, 3) 
               
 val leftOutJoinRDD = rdd.leftOuterJoin(rdd1) 
               
 leftOutJoinRDD .foreach(println) 
               
 sc.stop

输出：

(B,(2,Some(B1)))
(B,(2,Some(B2)))
(B,(3,Some(B1)))
(B,(3,Some(B2)))
 
(C,(1,None))
 
(A,(1,Some(A1)))
(A,(1,Some(A2)))
(A,(2,Some(A1)))
(A,(2,Some(A2)))

11.RightOutJoin(otherDataSet, numPartitions):右外连接，包含右RDD的所有数据，如果左边没有与之匹配的用None表示,numPartitions设置分区数，提高作业并行度

例11：

 
             //省略 
              
 val arr = List(("A", 1), ("B", 2), ("A", 2), ("B", 3)) 
              
 val arr1 = List(("A", "A1"), ("B", "B1"), ("A", "A2"), ("B", "B2"),("C","C1")) 
              
 val rdd = sc.parallelize(arr, 3) 
              
 val rdd1 = sc.parallelize(arr1, 3) 
              
 val rightOutJoinRDD = rdd.rightOuterJoin(rdd1) 
              
 rightOutJoinRDD.foreach(println) 
              
 sc.stop

输出：

(B,(Some(2),B1))
(B,(Some(2),B2))
(B,(Some(3),B1))
(B,(Some(3),B2))
 
(C,(None,C1))
 
(A,(Some(1),A1))
(A,(Some(1),A2))
(A,(Some(2),A1))
(A,(Some(2),A2))

以上例子源码地址：https://github.com/Mobin-F/SparkExample/tree/master/src/main/scala/com/mobin/SparkRDDFun/TransFormation/RDDBase

你可能感兴趣的:(spark,函数,rdd)

Java运行jar包需要读取arguments配置文件好人静 Java java 配置argument
在项目中有时候要把一些代码打包成jar，只要运行jar就可以执行。同时为了方便设置代码执行的一些外部参数，通常会配置arguments。1、Intelidea配置arguments在菜单栏找到Run－>EditConfiguration弹出的窗口中选择配置文件所在的路径即可。2、Eclipse配置arguments在main函数，右击，在弹出的菜单中选择EditConfiguration，在弹出的
指令系统（2017统考真题）海大超级无敌暴龙战士计算机组成原理学习方法
指令系统（2017统考真题）原始C语言函数为intf1(unsignedn){intsum=1,power=1;for(unsignedi=0;i
3分钟带你了解Vue3的nextTick() 嫣嫣细语 vue.js 前端 javascript vue.js javascript 前端
前言Vue实现响应式并不是数据发生变化之后DOM立即变化，而是按一定的策略进行DOM的更新。简单来说，Vue在修改数据后，视图不会立刻更新，而是等同一事件循环中的所有数据变化完成之后，再统一进行视图更新，nextTick()方法就会在这样的DOM更新循环结束后调用指定的函数。概念在Vue3中nextTick()方法的行为和Vue2中基本相似，但它进行了一些优化，以提高性能和稳定性。nextTick
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
高级前端面试题-React 圣诞小子 javascript 面试
react概念类组件和函数组件,什么时候用类组件获取组件实例类组件如何实现逻辑复用？高阶组件、renderprops选择hooks的优点状态逻辑复用；状态逻辑集中，易于理解；类组件不利于优化，比如不能很好的压缩为什么要用hooks,解决了什么问题同上react的context的使用场景共享对一个组件树全局的信息，不需要一层层传参受控组件和非受控组件非受控组件：数据只保存在内部state中；受控组件
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
计算机二级c语言知识点6 xu_hhh_ 计算机二级c语言选择题 c语言开发语言
函数形参的值，不会改变对应实参的值函数可以返回地址值&x不可以给指针变量赋一个整数作为地址值当在程序的开头包含头文件stdio.h时，可以给指针变量赋NULLfun（char*a，char*b）{while(（*b=*a）！=‘\0’){a++;b++;}}这个函数实现的功能是将a所指的字符串赋给b所指的空间，此函数也会将\0赋给b，因为括号里的表达式（*b=*a）先执行，后判断是否=\0若有定义
Fuzzy Control | Degree of Membership Function 斐夷所非 mathematics 隶属度函数
注：本文为“隶属度函数”相关文章合辑。如有内容异常，请看原文。隶属函数（MembershipFunction），又称归属函数或模糊元函数，是用于表征模糊集合的重要数学工具。在经典集合中，元素与集合的关系只有属于或不属于两种明确情况，分别用111和000表示。但对于模糊集合而言，元素与集合的隶属关系具有不分明性。隶属函数正是为描述元素uuu对论域UUU上的一个模糊集合的隶属关系而引入的，它将用区间[
用Babel操作AST实现JavaScript代码的自动化生成与转换
目录目录环境搭建代码：修改AST的逻辑重命名函数名重命名变量并修改变量值函数调用替换控制流扁平化还原删除未使用的变量对象属性简化条件表达式优化表达式还原环境搭建安装环境npminstall@babel/parser@babel/traverse@babel/generator@babel/typesast转换的代码框架constfs=require('fs');constvm=require('n
ucOS的互斥所mutex和信号量semaphore的区别 louis.johnson ucOS 信号量互斥锁 mutex
mutex和semaphore都是计数器，计数器被拿完了，其他任务再想拿（pend函数），就要等有人归还（post函数），mutex可以理解为最大计数值为1的semaphore，只有1个人可以拿到这个球，其他人要玩，只能等这个人归还。
【Lua】实现面向对象 xiaoaiyu___ Lua lua 开发语言
面向对象面向对象的三大特性：封装、继承、多态。封装：就是把对象的属性和行为（数据）结合为一个独立的整体，并尽可能隐藏对象的内部实现细节。继承：从已有的类中派生出新的类称为子类，子类继承父类的数据属性和行为，并能根据自己的需求扩展出新的行为，可以提高代码的复用性。多态：指允许不同的对象对同一消息做出响应。即同一消息可以根据发送对象的不同而采用多种不同的行为方式（发送消息就是函数调用）。1.封装。在L
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
STM32f429串口通信-基于HAL库大大大冯小小串口通信 stm32 嵌入式
STM32f429串口通信接收-基于HAL库串口接收配置步骤1.调用函数HAL_UART_Init(UART_HandleTypeDef*huart)。通过定义结构体类型句柄UART_HandleTypeDef并初始化相关参数来配置串口通信的选用串口、字长、波特率、停止位、奇偶校验位、硬件流控、收发模式、DMA等。UART_HandleTypeDefusart1_handler;//UART句柄结
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
SQL中where与having的区别 WD技术 #mysql面试 sql 数据库 database
1.where和having的区别2.聚合函数和groupby3.where和having的执行顺序4.where不能使用聚合函数、having中可以使用聚合函数1.where和having的区别where:where是一个约束声明,使用where来约束来自数据库的数据;where是在结果返回之前起作用的;where中不能使用聚合函数。having:having是一个过滤声明;在查询返回结果集以后
HAL库操作STM32串口 2021.09 STM32-CubeMX stm32 单片机 arm
本次博客知识来自于韦东山老师的7天物联网课程。一、cubeMX产生工程框架先从左侧选择串口1，再选择异步通信。二、分析程序如下图，cubeMX自动生成了串口初始化函数。三、编写程序以上初始化完成后，就可以使用HAL库提供的“HAL_UART_Transmit()”从串口发送数据，使用“HAL_UART_Receive()”接收数据，但这样使用不方便，需要自己处理数据类型。在学习C语言时，通常使用p
Lua重点：面向对象（封装、继承、多态）码穿地球 Lua程序设计 lua
Lua重点：面向对象1，封装--面向对象类基于table来实现--面向对象的封装Object={}Object.id=1functionObject:Test()--冒号自动调用这个函数的对象（Object）作为第一个参数传入的方法print("id是"..self.id)--相当于将Test作为Object的成员方法endfunctionObject:new()localobj={}--建立一个
写leetcode常用的库函数和常量 xsh219 golang小知识点算法数据结构 golang
在Go中刷LeetCode，以下是一些常用的标准库函数和数据类型的最大值、最小值：✅常用标准库函数数学与排序math包math.Max(x,y)：返回两个float64类型数中的较大值。math.Min(x,y)：返回两个float64类型数中的较小值。math.Abs(x)：取绝对值。math.Pow(x,y)：计算x^y。math.Sqrt(x)：计算平方根。sort包sort.Ints(sl
js原型链与自动装箱机制 CC Cian javascript 开发语言 ecmascript 前端
目录前言基于原型生成对象修改原型对象构造函数的机制原型对象与原型链原型链相关方法补充1.自动装箱机制2.__proto__的存在原因3.关键区别4.示例验证5.总结前言在如今的主流语言中，大部分语言都是通过类来产生对象但js是基于原型生成对象javapublicclassPerson{privateStringname;privateintage;publicPerson(Stringname,i
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
数据结构之单链表（C语言）渴望脱下狼皮的羊初阶数据结构学习（C语言实现）数据结构 c语言开发语言
数据结构之单链表（C语言）1链表的概念2节点创建函数与链表打印函数2.1节点创建函数2.2链表打印函数3单链表尾插法与头插法3.1尾插函数3.2头插函数4单链表尾删法与头删法4.1尾删函数4.2头删函数5指定位置的插入与删除5.1在指定位置之前插入数据5.2在指定位置之后插入数据5.3删除指定位置节点5.4删除指定位置之后节点6链表数据的查找与链表的销毁6.1链表数据的查找6.2链表的销毁7单链表
rust学习笔记16-206.反转链表(递归) 水蜜桃one 学习笔记链表
rust函数递归在14中已经提到，接下来我们把206.反转链表，用递归法实现递归函数通常包含两个主要部分：基准条件（BaseCase）：递归终止的条件，避免无限递归。递归步骤（RecursiveStep）：将问题分解为更小的子问题，并调用自身来解决这些子问题。//Definitionforsingly-linkedlist.#[derive(PartialEq,Eq,Clone,Debug)]pu
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
c语言中longjmp()函数,C语言的反人类函数:setjmp和longjmp的详细剖析 weixin_39822629 c语言中longjmp()函数
我希望看这篇文章的你对C++的传统异常处理，即try...catch...throw有了解(不是WindowsSEH)，这样才能方便你最深入的理解这2个C语言的反人类函数。当然如果不了解就先看下面的“C++式的异常处理”，如果感觉自己了解了，可以直接skip看到“C语言中的模拟”。【C++式的异常处理】首先，我们写一个类，请不要想这个类有什么特别的地方，其只是为了打印出来构造和析构。classCF
C语言异常处理就机制setjmp()和longjmp() red98 C语言基础知识 c语言开发语言
C语言setjmp()和longjmp()实现异常处理机制。setjmp()用于保存当前的程序执行状态。longjmp()用于在后面的某个时刻返回到setjmp()点的状态。类似goto。但goto是本地的，只能在函数内部跳转。setjmp()和longjmp()是非局部跳转语句，可在调用栈上，返回到调用路径上的某一个函数中。头文件#include#includestaticjmp_bufbuf;
[模拟实现]unique_ptr、shared_ptr智能指针--C++版本的代码实现北顾南栀倾寒 c++开发语言
一、unique_ptrunique_ptr是在auto_ptr的基础之上，解决了多个智能指针同时指向一个对象，发生管理权转移，只有一个智能指针指向了对象，其他的都是管理的空对象的行为。这里的多个智能指针指向同一个对象是通过拷贝构造或者赋值重载实现的，unique_ptr的解决办法就是将这两种方式禁用掉，不让其进行这类操作，保证了同一时间只有一个智能指针指向该对象。1.构造函数与析构函数std::
【新品发售】NVIDIA 发布全球最小个人 AI 超级计算机 DGX Spark segmentfault
GTC2025大会上，NVIDIA正式推出了搭载NVIDIAGraceBlackwell平台的个人AI超级计算机——DGXSpark。赞奇可接受预订，直接私信后台即刻预订！DGXSpark(前身为ProjectDIGITS)支持AI开发者、研究人员、数据科学家和学生，在台式电脑上对大模型进行原型设计、微调和推理。用户可以在本地运行这些模型，或将其部署在NVIDIADGXCloud或任何其他加速云或
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb