m0_67614284

Spark的RDD转换算子

[](()4. flatMap

函数定义

def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]

说明

将处理的数据进行扁平化后再进行映射处理，所以算子也称之为扁平映射。

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark04_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子

//输出每个数字

val rdd = sc.makeRDD(List(List(1,2),List(3,4)))

val flatRDD: RDD[Int] = rdd.flatMap(

list => {

list

}

)

flatRDD.collect().foreach(println)

//TODO 关闭环境

sc.stop()

}

[](()5. glom

函数定义

def glom(): RDD[Array[T]]

说明

将同一个分区的数据直接转换为相同类型的内存数组进行处理，分区不变

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark05_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子

val rdd = sc.makeRDD(List(1,2,3,4),2)

//List => Int

//Int => Any

val glomRDD: RDD[Array[Int]] = rdd.glom()

glomRDD.collect().foreach(data => println(data.mkString(“,”)))

//TODO 关闭环境

sc.stop()

}

[](()6. groupBy

函数定义

def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])]

说明

将数据根据指定的规则进行分组, 分区默认不变，但是数据会被打乱重新组合，我们将这样

的操作称之为shuffle。极限情况下，数据可能被分在同一个分区中。

一个组的数据在一个分区中，但是并不是说一个分区中只有一个组

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark06_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -groupBy

val rdd = sc.makeRDD(List(1,2,3,4),2)

//groupBy会将数据源中的每一个数据进行分组判断，根据返回的分组key进行分组

//相同的key值的数组会放到一个组中

def groupByFunction(num :Int) : Int ={

num % 2

}

val groupRDD: RDD[(Int, Iterable[Int])] = rdd.groupBy(groupByFunction)

groupRDD.collect().foreach(println)

//TODO 关闭环境

sc.stop()

}

[](()7. filter

函数定义

def filter(f: T => Boolean): RDD[T]

说明

将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出

现数据倾斜。

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark07_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -filter

//筛选奇数

val rdd = sc.makeRDD(List(1,2,3,4))

val filterRDD: RDD[Int] = rdd.filter(_ % 2 != 0)

filterRDD.collect().foreach(println)

//TODO 关闭环境

sc.stop()

}

[](()8. sample

函数定义

def sample(

withReplacement: Boolean,

fraction: Double,

seed: Long = Utils.random.nextLong): RDD[T]

说明

根据指定的规则从数据集中抽取数据

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.{SparkConf, SparkContext}

object Spark08_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -sample

val rdd = sc.makeRDD(List(1,2,3,4,5,6,7,8,9,10))

//sample算子需要传递三个参数

//1. 第一个参数表示，抽数数据后是否将数据返回true（放回），false（丢弃）

//2. 第二个参数表示，

// 抽取不放回的场合：数据源中每条数据被抽取的概率

// 基准值的概念

//抽取放回的场合：数据

//3.第三个参数表示，抽取数据时随机算法的种子

// 如果不使用第三个参数，那么使用的当前的系统时间

// val sampleRDD: String = rdd.sample(

// false,

// 0.4,

// ).collect().mkString(“,”)

val sampleRDD: String = rdd.sample(

true,

0.5,

// 2

).collect().mkString(“,”)

println(sampleRDD)

//TODO 关闭环境

sc.stop()

}

[](()9. distinct

函数定义

def distinct()(implicit ord: Ordering[T] = null): RDD[T]

def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

说明

将数据集中重复的数据去重

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark09_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -distinct

//map(x => (x, null)).reduceByKey((x, ) => x, numPartitions).map(._1)

val rdd = sc.makeRDD(List(1,2,3,4,1,2,3,4))

val rdd1: RDD[Int] = rdd.distinct()

rdd1.collect().foreach(println)

//TODO 关闭环境

sc.stop()

}

[](()10. coalesce

函数定义

def coalesce(numPartitions: Int, shuffle: Boolean = false,

partitionCoalescer: Option[PartitionCoalescer] = Option.empty)

(implicit ord: Ordering[T] = null)

RDD[T]

说明

根据数据量缩减分区，用于大数据集过滤后，提高小数据集的执行效率。

当spark 程序中，存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少

分区的个数，减小任务调度成本。

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark10_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -coalesce

//coalesce默认不会打乱分区重新组合

//这种情况下的缩减分区可能会导致分区不均衡，出现数据倾斜

//如果想让数据均衡，可以进行shuffle处理

val rdd = sc.makeRDD(List(1,2,3,4,5,6),3)

// val newRDD: RDD[Int] = rdd.coalesce(2)

val newRDD: RDD[Int] = rdd.coalesce(2,true)

newRDD.saveAsTextFile(“output”)

//TODO 关闭环境

sc.stop()

}

[](()11. repartition

函数定义

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

说明

该操作内部其实执行的是 coalesce 操作，参数shuffle 的默认值为true。无论是将分区数多的RDD 转换为分区数少的RDD，还是将分区数少的 RDD 转换为分区数多的RDD，repartition操作都可以完成，因为无论如何都会经shuffle 过程。

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.{SparkConf, SparkContext}

object Spark11_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -repartition

val rdd = sc.makeRDD(List(6,2,5,4,1,3),2)

val dataRDD1 = dataRDD.repartition(4)

dataRDD1 .saveAsTextFile(“output”)

//TODO 关闭环境

sc.stop()

}

[](()12. sortBy

函数定义

def sortBy[K](

f: (T) => K,

ascending: Boolean = true,

numPartitions: Int = this.partitions.length)

(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

说明

该操作用于排序数据。在排序之前，可以将数据通过f 函数进行处理，之后按照 f 函数处理

的结果进行排序，默认为升序排列。排序后新产生的 RDD 的分区数与原RDD 的分区数一

致。中间存在shuffle 的过程

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.{SparkConf, SparkContext}

object Spark11_RDD_Operator_Transform1 {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -sortBy

//sortBy方法可以 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源威信搜索公众号【编程进阶路】 根据指定的规则进行对数据源中的数据进行排序，默认为升序(true)，第二个参数可以改(false,降序)

//sortBy默认情况下不会改变分区，但中间存在shuffle操作

val rdd = sc.makeRDD(List((“1”,1),(“11”,2),(“6”,3)),2)

val newRDD = rdd.sortBy(num => num._1.toInt,false)

newRDD.collect().foreach(println)

//TODO 关闭环境

sc.stop()

}

[](()双Value类型

[](()13. intersection

函数定义

def intersection(other: RDD[T]): RDD[T]

说明

对源RDD 和参数RDD 求交集后返回一个新的RDD

[](()14. union

函数定义

def union(other: RDD[T]): RDD[T]

说明

对源RDD 和参数RDD 求并集后返回一个新的RDD

[](()15. subtract

函数定义

def subtract(other: RDD[T]): RDD[T]

说明

以一个RDD 元素为主，去除两个RDD 中重复元素，将其他元素保留下来。求差集

[](()16. zip

函数定义

def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)]

说明

将两个RDD 中的元素，以键值对的形式进行合并。其中，键值对中的Key 为第 1 个RDD

中的元素，Value 为第 2 个RDD 中的相同位置的元素。

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.{SparkConf, SparkContext}

object Spark12_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -双value类型

//并集、交集和差集要求数据源类型一致

//拉链数据源类型可以不一致

val rdd1 = sc.makeRDD(List(1,2,3,4))

val rdd2 = sc.makeRDD(List(5,6,3,4))

val rdd3 = sc.makeRDD(List(“3”,“4”,“6”,“7”))

//交集

val newrdd1 = rdd1.intersection(rdd2)

println(newrdd1.collect().mkString(“,”))

//并集

val newrdd2 = rdd1.union(rdd2)

println(newrdd2.collect().mkString(“,”))

//差集

val newrdd3 = rdd1.subtract(rdd2)

println(newrdd3.collect().mkString(“,”))

//拉链

val newrdd4 = rdd1.zip(rdd2)

val newrdd5 = rdd1.zip(rdd3)

println(newrdd4.collect().mkString(“,”))

println(newrdd5.collect().mkString(“,”))

//TODO 关闭环境

sc.stop()

}

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.{SparkConf, SparkContext}

object Spark12_RDD_Operator_Transform1 {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -双value类型

//并集、交集和差集要求数据源类型一致

//拉链数据源类型可以不一致

val rdd1 = sc.makeRDD(List(1,2,3,4,5,6),2)

val rdd2 = sc.makeRDD(List(5,6,3,4),2)

//拉链

//Can’t zip RDDs with unequal numbers of partitions: List(2, 4)

//两个数据源的分区数量要求一致

//Can only zip RDDs with same number of elements in each partition

//两个数据源的分区中数据的数量要求一致

val newrdd4 = rdd1.zip(rdd2)

println(newrdd4.collect().mkString(“,”))

//TODO 关闭环境

sc.stop()

}

[](()Key-Value类型

[](()17. partitionBy

函数定义

def partitionBy(partitioner: Partitioner): RDD[(K, V)]

说明

将数据按照指定Partitioner 重新进行分区。Spark 默认的分区器是HashPartitioner

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}

object Spark13_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -key-value类型

//并集、交集和差集要求数据源类型一致

//拉链数据源类型可以不一致

val rdd = sc.makeRDD(List(1,2,3,4))

val mapRDD = rdd.map((_,1))

//RDD => PairRDDFunctions

//隐式转换(二次编译)

//根据指定的分区规则，对数据进行重新分区

val newRDD = mapRDD.partitionBy(new HashPartitioner(2))

newRDD.partitionBy(new HashPartitioner(2))

//TODO 关闭环境

sc.stop()

}

[](()18. reduceByKey

函数定义

def reduceByKey(func: (V, V) => V): RDD[(K, V)]

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

说明

可以将数据按照相同的Key 对Value 进行聚合

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark14_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -key-value类型

val rdd = sc.makeRDD(List((“a”,1), (“b”,2), (“a”,2), (“b”,3)))

//reduceByKey:相同的key的数据进行value数据的聚合操作

//scala中一般的操作都是两两聚合，spark是基于scala开发的，所以它的聚合也是两两聚合

val reduceRDD: RDD[(String, Int)] = rdd.reduceByKey((x: Int, y: Int) => {

println(s"x = $x, y= $y")

x + y

})

reduceRDD.collect().foreach(println)

//TODO 关闭环境

sc.stop()

}

[](()19. groupByKey

函数定义

def groupByKey(): RDD[(K, Iterable[V])]

def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

说明

将数据源的数据根据 key 对 value 进行分组。

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark15_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -key-value类型

val rdd = sc.makeRDD(List((“a”,1), (“b”,2), (“a”,2), (“b”,3)))

//groupByKey：将数据源中的数据，相同的key的数据放在一个组中，形一个对偶元组

// 元组中的第一个元素就是key

// 元组中的第二个元素就是相同key的value的集合

val groupRDD: RDD[(String, Iterable[Int])] = rdd.groupByKey()

val groupRDD1: RDD[(String, Iterable[(String, Int)])] = rdd.groupBy(_._1)

groupRDD.collect().foreach(println)

groupRDD1.collect().foreach(println)

//TODO 关闭环境

sc.stop()

}

[](()reduceByKey 和groupByKey 的区别

从 shuffle 的角度：reduceByKey 和groupByKey 都存在 shuffle 的操作，但是reduceByKey

可以在shuffle 前对分区内相同 key 的数据进行预聚合（combine）功能，这样会减少落盘的

数据量，而groupByKey 只是进行分组，不存在数据量减少的问题，reduceByKey 性能比较

高。

从功能的角度：reduceByKey 其实包含分组和聚合的功能。GroupByKey 只能分组，不能聚

合，所以在分组聚合的场合下，推荐使用reduceByKey，如果仅仅是分组而不需要聚合。那

么还是只能使用groupByKey。

[](()20. aggregateByKey

函数定义

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,

combOp: (U, U) => U): RDD[(K, U)]

说明

将数据根据不同的规则进行分区内计算和分区间计算；

取出每个分区内相同 key 的最大值然后分区间相加

案例实操

package com.atguigu.bigdata.spark.core.rdd.operator.transform

import org.apache.spark.{SparkConf, SparkContext}

object Spark16_RDD_Operator_Transform {

def main(args: Array[String]): Unit = {

//TODO 准备环境

val sparkConf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“Operator”)

val sc = new SparkContext(sparkConf)

//TODO 算子 -key-value类型

val rdd = sc.makeRDD(List((“a”,1), (“a”,2), (“a”,3), (“a”,4)),2)

//aggregateByKey存在函数的柯里化，有两个参数列表

//第一个参数列表:需要传递一个参数，表示为初始值

// 主要用于当碰到第一个key的时候，和value进行分区内的计算

//第二个参数列表需要传递两个参数

// 第一个参数表示分区内的计算规则

// 第二个参数表示分区间的计算规则

// math.max(x,y)取最大值

rdd.aggregateByKey(0)(

(x,y) => math.max(x,y),

(x,y) => x + y

).collect().foreach(println)

你可能感兴趣的:(Java,经验分享,架构,java)

Golang可选参数实践 yzh_1346983557 golang 可选参数
背景：go不支持类似java的方法重载，但对于函数的可选参数和默认参数配置，通常要在不影响不破坏现有逻辑基础上进行参数的添加。实现：通过options选项，使用函数进行参数的初始化和可选值的设置。代码：packagemainimport"fmt"//go实现可选参数实践//背景：go不支持方法重载，但对于函数的可选参数和默认参数配置，通常要在不影响不破坏现有逻辑基础上进行参数的添加//实现：通过o
MySQL的多租户和多云部署架构设计 vipfanxu mysql 数据库
引言MySQL是一种流行的关系型数据库管理系统，被广泛应用于大型企业和云计算环境中。随着云计算的兴起，多租户和多云部署的需求逐渐增加。本文将探讨MySQL在多租户和多云部署架构设计方面的考虑和实践。一、多租户部署架构设计多租户是指在一个系统中，通过虚拟化技术将多个租户隔离开来，每个租户都拥有自己的独立环境和资源。在MySQL的多租户部署架构设计中，需要考虑以下几个方面：数据库隔离、数据安全和性能优
JavaScript常用函数测试demo sunny05296 JavaScript javascript 开发语言 ecmascript
JavaScript常用函数测试demovimJavaScriptTestDemo.html内容如下：JavaScriptfunctionstestdemoEnterF12toviewtheconsoleoutputmessageofconsole.log()EnterF5torefresh//JavaScriptint2string/string2inttestfunctiontest01(){
麒麟服务器操作系统PostgreSQL环境部署手册太极淘麒麟操作系统管理工具 linux 服务器
软件简介PostgreSQL是一个免费的对象-关系数据库服务器(ORDBMS)，在灵活的BSD许可证下发行。ORDBMS（对象关系数据库系统）是面向对象技术与传统的关系数据库相结合的产物，查询处理是ORDBMS的重要组成部分，它的性能优劣将直接影响到DBMS的性能。软件环境操作系统环境操作系统版本操作系统架构银河麒麟服务器操作系统V10SP系列X86-64银河麒麟服务器操作系统V10SP系列ARM
在华为鲲鹏服务器银河麒麟V10操作系统中安装docker及docker-pose qinfeng1991 服务器 docker eureka
背景最近客户寄来几台为鲲鹏服务器，需要在上面安装docker及docker-compose以便运行我们的程序，跟常规的X86架构下安装docker和docker-compose稍微有些区别，特此记录。操作步骤0.系统版本查看[root@localhostcrcs-compile]#cat/etc/kylin-releaseKylinLinuxAdvancedServerreleaseV10(Lan
异步编程与流水线架构：从理论到高并发长安er 学习心得高性能并行计算光电架构数学建模 GUI 全息异步多线程流水线
目录一、异步编程核心机制解析1.1同步与异步的本质区别1.1.1控制流模型1.1.2资源利用对比1.2阻塞与非阻塞的技术实现1.2.1阻塞I/O模型1.2.2非阻塞I/O模型1.3异步编程关键技术1.3.1事件循环机制1.3.2Future/Promise模式1.3.3协程（Coroutine）1.4同步与异步的混合编程1.4.1同步转异步模式1.4.2异步转同步模式二、全息成像流水线中的异步实践
阿里云+华为云双活架构：头部企业的云端生存法则云上的阿七阿里云华为云架构
如何在云端构建高可用、高可靠的业务架构，依然是企业IT决策者面临的挑战。面对单一云厂商可能带来的故障风险，越来越多的头部企业开始采用“阿里云+华为云”双活架构，以提升业务连续性，实现跨云容灾，打造更稳健的云端生存法则。什么是双活架构？双活架构（Active-ActiveArchitecture）指的是企业在两个云平台（如阿里云和华为云）上同时运行核心业务，实现数据同步和业务负载均衡。一旦某一云平台
探寻制造型企业MES管理系统：功能、架构与应用全解析深蓝易网数字工厂制造架构人工智能 1024程序员节大数据运维
在当今制造业蓬勃发展的背景下，制造执行MES系统对于制造型企业的高效运营起着举足轻重的作用。MES管理系统作为连接企业上层管理与底层生产的关键桥梁，其功能模块设计、架构搭建、系统集成以及实际应用都对企业的生产效能和竞争力有着深远影响。一、MES管理系统功能模块设计MES系统具备一系列功能强大的模块，以满足企业复杂的生产管理需求。计划管理模块：此模块主要负责生产计划的编制、下达和灵活调度。它依据订单
位宽512bit显卡_6144 CUDA/512bit位宽 Maxwell架构曝光李涛PS 位宽512bit显卡
【IT168资讯】NVIDIA目前一代的显卡有GK104和GK110两大分支，它们的侧重点不同，但都是基于Kepler(开普勒，天文学家)架构的，下一代架构名为Maxwell(麦克斯韦尔，物理学家)，根据之前的传闻Maxwell最快将在明年Q1季度问世，制程有可能继续使用TSMC的28nm工艺。现在网上又流传开Maxwell的架构设计了，旗舰GM100将有6144个CUDA核心，512bit位宽显
显卡（Graphics Processing Unit，GPU）架构详细解读 m0_74824112 面试学习路线阿里巴巴架构大数据网络
显卡架构主要分为两大类：GPU核心架构（也称为图形处理单元架构）和显卡的其他组件（如内存、控制器、输出接口等）。本篇文章将对显卡架构进行详细分析，重点介绍GPU核心架构、显卡计算单元、显存结构、显卡管线、以及显卡与主机系统的协同工作等。1.显卡架构的基本组成显卡架构可以分为以下几个主要部分：1.1GPU核心（计算单元）GPU核心是显卡的核心部分，负责执行图形渲染和计算任务。GPU核心通常由多个流处
Maxwell 架构 QTVLC nvidia
http://digi.163.com/14/0218/23/9LDCTFON00162DSP.html【IT168评测】随着一句“娘娘，封神啦（宝鸡口音）”，中国的观众迅速认识到了两个极其出彩的相声演员。如果说关键词是引发关注的最大因素，那么提到“GeForce”，各位想到的又是什么？相信不少读者第一次真正认识到NVIDIA（以下简称NV）这个公司还是从一款叫GeForce256的显卡开始，当年
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
【以太网RDMA网卡功能分析和网卡架构】中古传奇 IC每日一题 RDMA 架构
2以太网RDMA网卡功能分析和网卡架构【博客首发于微信公众号《漫谈芯片与编程》，欢迎专注一下，多谢大家】标准以太网卡只具备物理层串并转换、数据链路层以太网帧头封装和解析、DMA等功能，无法支持RDMA的通信原语和传输方式等，因此需要专用的以太网RDMA网卡在兼容标准以太网卡功能的基础上增加对RDMA功能的支持；对于RDMA通信原语，如应用程序下发的WRITE请求，网卡需要DMA从用户空间中取出要写
JVM 的类加载机制原理冰糖心书房 JVM 2025 Java面试系列 java
JVM的类加载机制是指JVM将.class文件（包含Java字节码）加载到内存，并对其进行校验、解析、初始化，最终转换为JVM可以直接使用的Java类型的过程。类加载过程(5个阶段):加载(Loading):查找并加载类的二进制数据：通过类的全限定名（FullyQualifiedName）查找.class文件。类加载器（ClassLoader）负责查找和加载.class文件。类加载器有多种，包括启
jmeter安装和jmeter历史版本下载 weixin_30432007 java
一、jmete下载：1、最新版本下载地址：http://jmeter.apache.org/download_jmeter.cgi2、历史版本下载地址：https://archive.apache.org/dist/jmeter/binaries/二、软件安装及设置环境变量1、JDK安装目录在D:\ProgramFiles\Java，其环境变量设置为：JAVA_HOME值为：D:\ProgramF
nginx性能优化及使用方面技巧智慧源点 nginx 性能优化 linux
优化Nginx进程数量配置参数如下：代码语言：javascript复制worker_processes1;#指定Nginx要开启的进程数，结尾的数字就是进程的个数，可以为auto这个参数调整的是Nginx服务的worker进程数，Nginx有Master进程和worker进程之分，Master为管理进程、真正接待“顾客”的是worker进程。进程个数的策略：worker进程数可以设置为等于CPU的
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
【达梦数据库学习】数据库体系架构-逻辑结构理解合作愉快：）数据库数据库架构学习
1.1数据库和实例在有些情况下，数据库的概念包含的内容会很广泛。如在单独提到DM数据库时，可能指的是DM数据库产品，也有可能是正在运行的DM数据库实例，还可能是DM数据库运行中所需的一系列物理文件的集合等。但是，当同时出现DM数据库和实例时，DM数据库指的是磁盘上存放在DM数据库中的数据的集合，一般包括：数据文件、日志文件、控制文件以及临时数据文件等。实例一般是由一组正在运行的DM后台进程/线程以
蓝桥杯——算法训练——粘木棍大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述有N根木棍，需要将其粘贴成M个长木棍，使得最长的和最短的的差距最小。输入格式第一行两个整数N,M。一行N个整数，表示木棍的长度。输出格式一行一个整数，表示最小的差距样例输入32102040样例输出10数据规模和约定N,M<=7packagecom.study.蓝桥杯.算法训练;importjava.util.Arrays;importjava.util.Scanner;/***@autho
蓝桥杯——算法训练——共线大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述给定2维平面上n个整点的坐标，一条直线最多能过几个点？输入格式第一行一个整数n表示点的个数以下n行，每行2个整数分别表示每个点的x,y坐标。输出格式输出一个整数表示答案。样例输入50011220323样例输出3数据规模和约定n<=1500，数据保证不会存在2个相同的点。点坐标在int范围内importjava.util.Scanner;/***@authorsjn*@date2022-2-
RK3568平台（音频篇）音频ALSA框架嵌入式_笔记瑞芯微音视频
一.ALSA框架简介ALSA表示先进linux声音架构（AdvancedLinuxSoundArchiecture），它由一系列的内核驱动、应用程序编程接口（API）以及支持linux下声音的应用程序组成、ALSA项目发起的原有是linux下的声卡驱动（OSS）没有获得积极的维护，而且落后于新的声卡技术。JaroslavKysela早先写了一个声卡驱动，并由此开始了ALSA项目，随后，更多的开发者
深入解析 Java Stream API：从 List 到 Map 的优雅转换！！！小丁学Java #Lambda表达式 #方法引用 #Stream java list Stream Lambda 表达式方法引用 map Collectors
深入解析JavaStreamAPI：从List到Map的优雅转换大家好！今天我们来聊聊Java8中一个非常常见的操作：使用StreamAPI将List转换为Map。具体来说，我们将深入分析以下代码片段：MapinviteCodeMap=inviteCodes.stream().collect(Collectors.toMap(InviteCode::getId,ic->ic));这段代码看似简单，
java用来模块化开发和扩展很有用的服务加载器 ServiceLoader类实现SPI机制爱的叹息 Java 基础整理 java 开发语言
java.util.ServiceLoader是Java中用于实现服务提供者接口（ServiceProviderInterface,SPI）机制的一个工具。SPI允许你在不修改现有代码的情况下，动态地加载和使用第三方实现。这在插件化设计、模块化开发和扩展性需求中非常有用。基本概念服务接口（ServiceInterface）：定义了服务的接口。服务提供者（ServiceProvider）：实现了服务
js在html有几种存在方式,JavaScript输出方式有哪些？王若琳 js在html有几种存在方式
JavaScript输出方式有哪些？下面本篇文章给大家介绍一下JavaScript常见的输出方式。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。1.通过弹窗的形式来输出alert(需要输出的内容);alert("helloworld");confirm(需要输出的内容);confirm("你好吗?");prompt(需要输出的内容);prompt("请输入内容：");注意点:如果
判断html标签是否存在,jquery怎么判断标签元素是否存在？ BugHunter666 判断html标签是否存在
jquery怎么判断标签元素是否存在？下面本篇文章给大家介绍一下在jquery中判断页面标签元素是否存在的方法。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。jquery判断页面标签元素是否存在在传统的Javascript里，当我们对某个页面元素进行某种操作前，最好先判断这个元素是否存在。原因是对一个不存在的元素进行操作是不允许的。例如：document.getElementBy
python列表操作计算列表长度并输出,Python基础2：列表想吃草莓干
一、列表列表是按照特定顺序的排列组合，就像数学中的数列，列表中的元素具有⼀定的排列顺序。在Python中，列表用方括号[]来表示列表，比如：>>>a=['Python','C','Java']1、访问列表中的元素索引开始：0如果我们想要打印上述列表中Python，就需要我们访问列表中第一个元素，在Python中，列表的访问从0开始，索引数为元素的位置减去1，访问的元素位置放在方括号里面，如果我们想
JavaScript数组-遍历数组咖啡の猫 javascript 开发语言
在JavaScript开发过程中，数组是一种非常常见且强大的数据结构，用于存储一系列有序的数据项。遍历数组是处理这些数据项的基础操作之一，无论是为了显示、转换还是过滤数据。本文将详细介绍几种常见的遍历数组的方法及其应用场景，帮助你选择最适合当前任务的方式。一、为什么需要遍历数组？遍历数组意味着逐一访问数组中的每个元素，以便执行特定的操作，如打印输出、修改值或基于条件筛选数据。不同的场景可能需要不同
摸鱼神器（保持Teams一直处于绿色状态） PhilipJ0303 java
packageorg.cloud.sonic.controller.tools;importjava.awt.*;importjava.time.DayOfWeek;importjava.time.LocalDateTime;importjava.time.LocalTime;/***@authorPhilipLee*@date2024/1/916:10*/publicclassTest{publ
请列举你所了解的测试工具 cfjybgkmf 软件工程课程作业软件工程
测试管理：svn、git白盒测试工具：jtestjava代码扫描工具：findbugs、TscanCode网络测试工具：wireshark、tcapp自动化工具：uiautomator
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后