BIT_666

Spark 3.0 - 2.机器学习核心 DataFrame 应用 API 与操作详解

目录

一.引言

二.创建 DataFrame

1.CreateDataFrame

2.RDD toDF By Spark implicits

3.By Read Format File

三.常用处理 API

1.select 选择

2.selectExpr 表达式

3.collect / collectAsList 收集

4.count 统计

5.limit 限制

6.distinct 去重

7.filter 过滤

8.map 一对一

9.flatMap 一对多

10.drop 删除列

11.sort / orderBy 排序

四.常用采样 API

1.sample 采样

2.randomSplit 划分

五.数据互转

1.DF -> RDD

2.DF -> DS

3.DS -> DF

4.DS -> RDD

5.RDD -> DF

6.RDD -> DS

六.总结

一.引言

DataFrame 实质上是存在于不同节点计算机中的一张关系型数据表，RDD 可以看做是 DataFrame 的前身，DataFrame 是 RDD 的扩展。RDD 中可以存储任何类型的数据，但是直接使用 RDD 在字段需求明显时存在算子难以复用的缺点，这时候如果需要使用 RDD 我们需要定义相对复杂的处理逻辑，而通过 DataFrame 则可以通过列式存储数据的优势，快速将算子应用在多个列上，提高开发效率，例如我们可以一行代码求 A 列的 SUM，B 列的 MAX，C 列的 MIN，而使用 RDD 则需要 GroupBy 或者相对复杂的 ProcessFunction。

二.创建 DataFrame

DataFrame 可以看做是 RDD[Row] + Schema，通过 Schema 指定每一列的属性，从而使得框架能够了解数据的结构与类型，Spark 实际使用中 Schema 需要通过 StrucType 类并指定每个字段的 StructFields ，域中明确了列名、数据类型以及一个 Boolean 参数代表该字段是否可以为空。

1.CreateDataFrame

首先通过二元数组生成 RDD[Row]，随后通过 StructType + StrucField 定义每一列数据的类型，这里第一列为 Name，String 类型，不可以为 null，第二列为 Age，Int 类型，可以为 null。

import org.apache.spark.internal.Logging
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}  

    val spark = SparkSession
      .builder()
      .master("local")
      .appName("TestDataFrame")
      .getOrCreate()

    val sc = spark.sparkContext
    sc.setLogLevel("error")

    // 1.1 Create DataFrame
    val schema =
      StructType(
        StructField("name", StringType, false) ::
        StructField("age", IntegerType, true) :: Nil
      )

    val random = scala.util.Random
    val peoples = sc.parallelize((0 to 100).map(_ => {
      val name = random.nextString(5)
      val age = random.nextInt(50)
      (name, age)
    }))

    val dataFrame = spark.createDataFrame(peoples.map(p => Row(p._1, p._2)), schema)

    dataFrame.printSchema()

    dataFrame.createOrReplaceTempView("people")
    spark.sql("select name from people").collect().foreach(println(_))

可以通过 printSchema 输出 DataFrame 的 schema，也可以通过 createOrReplaceTempView 注册临时表，并最终通过 sql 执行相关语句，这在一定程度上与 Flink SQL 很类似：

Tips：

这里初始化 Schema 的 StructType 时用到了 Scala List 的简易写法，其中 :: 代表连接列表元素，例如 A :: B :: C :: Nil 可以看做是 List[A, B, C]，除此之外，还可以通过 ::: 三个冒号连接两个列表，代表二者的 concat 合并，例如 A :: B :: C :: Nil ::: DDD :: Nil，其实就是 List[A, B, C, D]。感兴趣的同学可以自己本地测试下述 Demo。

     val site = "A" :: "B" :: "C" :: Nil ::: "DDD" :: Nil
     println(site.length)
     site.foreach(println(_))

2.RDD toDF By Spark implicits

常见的方法除了生成 RDD 再指定 Schema 外，也可以引入 spark.implicits._ 隐式转换，通过 RDD.toDF() 方法转换生成 DataFrame，此时 Spark 可以自动推断 DF 的 Schema。

    import spark.implicits._
    val peopleDF = peoples.toDF("name", "age")
    peopleDF.printSchema()

可以看到自动 infer 推断得到的 Schema nullable 与我们上面自定义的 Schema 是反的，上面是 Name 不为空， Age 可以为空，自动推断的结果是 Name: String 可以为空，而 Age: Int 不能为空。

3.By Read Format File

上面两种方法都用到了 RDD 并做转换，还有一种方式可以直接生成 DataFrame，即读取指定 format 的文件，例如 CSV、Json、Parquet 等等，下面示例 Json 的读取方法：

    val peopleFromJson = spark.read.schema(schema).json("people.json")
    peopleFromJson.collect().foreach(println(_))

Json 文件中数据如下：

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

三.常用处理 API

1.select 选择

    peopleDF.select("name").take(10)

select 用于选择 dataframe 中某些列：

2.selectExpr 表达式

    peopleDF.selectExpr("name as NAME").printSchema()

基于 dataframe 原有列进行特殊处理，可以指定不同 SQL 表达式，修改列名后 DataFrame 对应的 schema 也相应改变：

3.collect / collectAsList 收集

    peopleDF.collect().take(5).foreach(println(_))

    peopleDF.collectAsList().forEach(x => println(x))

二者均可以将 DataFrame 的数据拉取到本级内存或任务 Master 上，唯一区别在于返回值类型，前者为 Scala Array[T]，后者为 Java List。

4.count 统计

    println(peopleDF.count())

count 用于获取 DataFrame 的行数，除此之外，count 也视为 Spark 的 Action 算子，可以触发 Spark 执行逻辑。

5.limit 限制

    peopleDF.limit(5).show()

用于限制表中数据，这里可以理解为 TopN。

6.distinct 去重

    println(peopleDF.distinct().count())

可以实现数据集中的重复项。

7.filter 过滤

    println(peopleDF.filter("age > 18").count())

按照条件对数据集进行过滤。

8.map 一对一

    val rdd = sc.parallelize(Seq("hello,spark", "hello,hadoop"))

    rdd.toDF("id").map(x => "str:" + x).show()

用于数据集处理的一一映射。

9.flatMap 一对多

    val rdd = sc.parallelize(Seq("hello,spark", "hello,hadoop"))
   
    rdd.toDF("id").flatMap(x => x.toString().split(",")).show()

对数据集整体操作，并最终展平，可以看做是 map + flatten 的组合体。

10.drop 删除列

    peopleDF.drop("name").printSchema()

删除某一列。

11.sort / orderBy 排序

   dataFrame.sort(dataFrame("age").asc_nulls_first).show()

   dataFrame.orderBy(dataFrame("age").asc_nulls_first).show()

根据数据集中某个字段排序，其中 asc 与 desc 可以选择升序与降序，除此之外还新添加了 asc_nulls_first、desc_nulls_first、asc_nulls_last、desc_nulls_last 分别指定排序类型与排序结果中缺失值在前还是在后展示。

四.常用采样 API

除了基础处理函数外，DataFram 还提供采样 API，这对于机器学习场景中数据集的划分十分有效。

1.sample 采样

    dataFrame.sample(false, 0.8, 10).show()

三个参数分比为：

withReplacement : 是否放回，false 代表不放回，true 为放回

ratio : 代表采样比例，注意最终数量不一定完全符合比例

seed : 随机种子，如果 seed 不变，则采样结果不变

上述代码代表以 seed=10，不放回采样原始数据的 80% 左右数据

2.randomSplit 划分

   val split = dataFrame.randomSplit(Array(0.25, 0.75), 10) // 按比例划分
    println(split(0).count())
    println(split(1).count())

通过 Array 指定划分比例，数组中有多少权重就会生成多少个 DataFrame，如果权重和不为1，spark 会自动将其标准化，这在生成训练集、测试集、验证集时非常常用，除此之外，划分分组也需要指定随机种子 seed。

上述代码代表以 seed = 10，以 1:3 的比例划分数据集。

五.数据互转

前面我们已经提到 DataFrame = RDD[Row] + schema，除此之外，还有 DataFrame = DataSet[Row]，可以看到 RDD 是特殊的 DataFrame，DataFrame 又是特殊的 DataSet，通过 spark.implicits._ 可以实现三者的轻松转换。

1.DF -> RDD

    val rdd1 = dataFrame.rdd // DF -> RDD

2.DF -> DS

    val ds = dataFrame.as[Person] // DF -> DS

这里 Person 为 case class：

  case class Person(name: String, age: Int)

注意不要将 case class 放下 main 函数内，否则代码编译会报错无法编码。

3.DS -> DF

    val df = ds.toDF() // DS -> DF

4.DS -> RDD

    val rdd2 = ds.rdd // DS -> RDD

5.RDD -> DF

    val df2 = rdd.toDF("name") // RDD -> DF

6.RDD -> DS

    val ds2 = rdd.map(x => Person(x, 1)).toDS() // RDD -> DS

Tips：

从上面的转换可以看出，携带信息多的数据类型向携带数据少的类型转换无需提供额外信息，例如 DS 或者 DF 转 RDD，只需要 .rdd 方法即可，而信息少的数据向信息多的数据转换时则需补充额外信息，例如 RDD 或者 DF 转换至 DS，都需要补充 DS[T] 的类信息 T，上述实例中 T 为 Person。

六.总结

DataFrame 是 Spark 机器学习的基础也是核心，后续章节的大部分 DataFrame 操作都将基于上述操作实现或拓展。

你可能感兴趣的:(Spark,3.0,x,机器学习,Scala,spark,dataframe)

数学分析(十八)-隐函数定理及其应用1-隐函数4：隐函数极值问题 u013250861 数学分析数学分析
f′(x)=−Fx(x,y)Fy(x,y)(5)f^{\prime}(x)=-\cfrac{F_{x}(x,y)}{F_{y}(x,y)}\quad\quad(5)f′(x)=−Fy(x,y)Fx(x,y)(5)y′′=−1Fy(Fxx+2Fxyy′+Fyyy′2)=2FxFyFxy−Fy2Fxx−Fx2FyyFy3,(
单双链表及其反转醇醛酸醚酮酯开发语言
一，空指针的补充1.空指针的定义在C语言中，空指针通常被定义为NULL，或者在C++中为nullptr。它的本质是一个指针，指向无效的地址，用来表示一个指针当前没有指向有效的内存空间。空指针并不指向实际的内存地址，因此可以用于表示指针没有被初始化或者没有指向任何有效的对象。例如：int*ptr=NULL;//ptr是一个空指针在许多编译器中，空指针通常会被定义为0，或者一个特定的常量值（例如0x0
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
区块链技术概述：从比特币到Web3.0 闲人编程 Python区块链50讲区块链 web3 python 元宇宙比特币安全
目录区块链技术概述：从比特币到Web3.0引言：数字革命的下一篇章1.区块链技术基础1.1区块链定义与核心特征1.2区块链数据结构可视化2.比特币：区块链的开端2.1比特币的核心创新2.2比特币交易生命周期3.以太坊与智能合约革命3.1以太坊的核心创新3.2智能合约执行流程4.Web3.0：互联网的新范式4.1Web3.0的核心特征4.2Web3技术栈5.Python实现简易区块链系统5.1区块类
GEO引领品牌大模型种草：迈向Web3.0与元宇宙的认知新空间 GEO科技经验分享
在数字技术的演进历程中，我们正经历着从Web2.0到Web3.0、从平面互联网到沉浸式元宇宙的范式转变。这一转变不仅重塑了数字空间的形态和交互方式，更深刻改变了品牌与用户的连接模式和价值创造逻辑。而在这个新兴的数字疆域中，生成式引擎优化（GEO）正展现出前所未有的战略价值和应用潜力，成为品牌构建元宇宙和Web3.0存在的关键能力，特别是在“品牌大模型种草”场景下，品牌如何被理解、记住、推荐，正成为
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
【Pandas】pandas DataFrame resample liuweidong0802 DataFrame pandas
Pandas2.2DataFrameTimeSeries-related方法描述DataFrame.asfreq(freq[,method,how,…])用于**将时间序列数据转换为指定频率（resampletofrequency）**的方法DataFrame.asof(where[,subset])用于查找时间序列中最接近指定时间点的非NaN值的方法DataFrame.shift([period
【Pandas】pandas DataFrame max liuweidong0802 DataFrame pandas python 数据挖掘
Pandas2.2DataFrameComputationsdescriptivestats方法描述DataFrame.abs()用于返回DataFrame中每个元素的绝对值DataFrame.all([axis,bool_only,skipna])用于判断DataFrame中是否所有元素在指定轴上都为TrueDataFrame.any(*[,axis,bool_only,skipna])用于判断
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
【ElementUI】日期选择器时间选择范围限制前端Joy姐 element UI
ElementUI是饿了么推出的一套基于vue2.x的一个ui框架。官方文档也很详细，这里做一个element-ui日期插件的补充。官方文档中使用picker-options属性来限制可选择的日期，这里举例子稍做补充。单个输入框的组件代码：情景1:设置选择今天以及今天之后的日期data(){return{pickerOptions0:{disabledDate(time){returntime.g
软件架构师论文_论基于架构(ABSD)的软件设计方法及应用 June_Xiao 软件架构师架构
2022年的论文题目是基于CBSD的软件设计方法及应用，本人写了基于ABSD的软件设计方法及应用，论文离题拿了3x分，悲催，这是我的第一次考架构师，是最后一次手写版考试，是最有可能通过的一次。下面是我的论文。论基于架构的软件设计方法及应用摘要2020年5月，我司中标了某省联网收费的省站直传项目，该项目将建设一套全省收费站与省中心相互通信传输数据的平台，主要分为上传、下发、监控三个子系统。，包括收费
支持java8的kafka版本兮动人 kafka 分布式支持java8的kafka版本
文章目录1.Kafka支持Java8的版本范围2.官方建议与兼容性3.版本迁移建议4.关键时间点5.注意事项6.总结1.Kafka支持Java8的版本范围Kafka2.x和3.x版本：Kafka2.x和3.x版本（如2.8.0、3.0.0等）理论上支持Java8，但官方已逐步弃用对Java8的支持。Kafka3.0：官方在3.0版本中弃用Java8（但仍允许使用），并强烈建议升级到Java11或更
Python各版本发布时间和重要特性 mosquito_lover1 python
1.Python1.x:-Python1.0(1994年1月):第一个正式版本。-Python1.6(2000年9月):最后一个1.x版本。2.Python2.x:-Python2.0(2000年10月):引入了列表推导、垃圾回收等特性。-Python2.7(2010年7月):Python2.x系列的最后一个版本，长期支持至2020年1月1日。3.Python3.x:-Python3.0(2008
结构化数据增强的生成式算法案例：客户交易数据增强 python游乐园数据深度学习大数据算法学习
1基础信息1.1案例背景这是一个用于增强结构化客户交易数据的生成式算法。这种类型的数据增强在金融、电子商务等领域非常有用，可以帮助解决数据不平衡问题或在小数据集上提高模型性能。1.2问题定义给定原始交易数据集D={x₁,x₂,...,xₙ}，其中每条记录包含：交易金额交易时间客户年龄客户收入水平交易类别地理位置是否为欺诈交易(标签)目标：生成与原始数据分布相似但多样化的新样本，同时保持字段间的合理
2024年BCSP-X小高组基础知识题目（模拟题）天秀信奥编程培训 #BCXP-X模拟题北京BCSP-X试题讲解专栏 BCSP-X c++算法数据结构
一、单项选择计算机的核心部件是什么（）？A.显示器B.键盘C.中央处理器（CPU)D.鼠标将十进制小数9.375转换为二进制小数，其正确的二进制表示是（）。A.1001.11B.1011.11C.1001.011D.1011.011假设有一个内存显示为96MB的文件夹，里面存储的都是分辨率为1024×2048的24位图像，请问理论上存储了（）张图像？(不考虑图像技术压缩对内存的优化)A.16张B.
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
如何将数的第n位置0 或者置1，查询第n位是否为0 盼雨落，等风起计算机基础 C语言技巧 c语言数据结构 c++开发语言
一先让1向左移n-1位得到a；二如果置1那么就数|a；三如果置0那么就数&（~a）#includeintmain(){inttemp=0xfff3ffff;printf("tempis%x\n",temp);temp=temp|(3<<18);printf("tempis%x\n",temp);temp=temp&(~(3<<18));printf("tempis%x\n",temp);}使用位运
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
linux的常用命令 Flying Fish（HHH） linux 服务器运维
一、进程相关：查看进程：ps-aux|grep进程id查看僵尸进程：ps-ef|grepdefunct（进程名称）如何查看线程使用哪个so库？lsof-ppid|grepbasecat/proc/376421/maps|grep'\.so'查看对应的.so文件是否已经成功转成汇编yuminstallbinutils-2.37-14.oe2203sp1.x86_64objdump-Sllibbase
Spring启动流程简要分析 synsdeng spring spring java web 框架
本文基于SpringBoot1.4.x所写，最新源代码可到https://github.com/spring-projects/spring-boot上去下载。SpringBoot伴随Spring4.x发布，可以说是JavaWeb开发近几年来最有影响力的项目之一，极大的提高了开发效率。据我说知，很多公司新起的项目当中都用起了SpringBoot框架。SpringBoot项目启动非常简单，调用Spr
libpng使用 weixin_30856965 c/c++php
自己的实现1unsignedintcomponent(png_const_byteprow,png_uint_32x,unsignedintc,unsignedintbit_depth,unsignedintchannels){2png_uint_32bit_offset_hi=bit_depth*((x>>6)*channels);3png_uint_32bit_offset_lo=bit_de
如何使用 ligpng 库进行图片解码应用开发openwrt linux sdd20x平台 ruihuan_2000 SSD20X openwrt linux 嵌入式 c++
文章目录前言一、libpng是什么？二、使用步骤1.引入库及头文件2.解码过程总结前言如何使用libpng库进行图片解码应用开发。一、libpng是什么？libpng是一个开源的、跨平台的图像处理库，用于处理和支持PNG（PortableNetworkGraphics）图像格式。PNG是一种无损压缩的图像格式，广泛用于互联网上的图像传输和存储。libpng提供了一系列的API和函数，使开发者可以在
管家婆订货易在线商城 VshopProcess 任意文件上传漏洞复现 0xSecl 漏洞复现v1 安全 web安全
0x01产品简介管家婆订货易，帮助传统企业构建专属的订货平台，PC+微信+APP+小程序+h5商城5网合一，无缝对接线下的管家婆ERP系统，让用户订货更高效。支持业务员代客下单，支持多级推客分销，以客带客，拓展渠道。让企业的生意更轻松。0x02漏洞概述管家婆订货易在线商城VshopProcess.ashx接口处存在任意文件上传漏洞，未经身份认证的攻击者可以通过该漏洞，上传恶意后门文件，深入利用可造
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
华为OD机试 2025 B卷 - 抢7游戏 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考2025B卷
抢7游戏华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述A、B两个人玩抢7游戏，游戏规则为：A先报一个起始数字X（10≤起始数字≤10000），B报下一个数字Y（X-Y<3），A再报一个数字Z（Y-Z<3），以此类推，直到其中一个抢到7，抢到7即为胜者；在B赢得比赛的情况下，一共有多少种组合？输入描述起始数字M。
【数字IC前端笔试真题精刷（2022.7.28）】芯动——数字IC验证工程师（1号卷-验证） ReRrain #数字IC 笔试
声明：本专栏所收集的数字IC笔试题目均来源于互联网，仅供学习交流使用。如有侵犯您的知识产权，请及时与博主联系，博主将会立即删除相关内容。笔试时间：2022-7-28；题目类型：不定项（10x1’=10’）【错选不得分，少选得1/3分】问答（9x10’=90’）文章目录不定项1、(单选)在verilog语言中，a=4'b1011，那么&a=()2、(单选)SystemVerilog中类默认的成员属性
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他