霸敛

spark考试（练习题）

点击下载练习题word文档！
点击下载RDD编程笔记！
编程题：

rddobj=sc. textFile("d: /words. txt"). flatMap(_ .split("")) . map((_ _,1)). reduceByKey(_+_ .)
rddobj . foreach(println)

1.(1.5分)单选题
1.5
下列选项中，哪个不属于消息系统（）。

A Kafka
B RabbitMQ
C ActiveMQ
D Zookeeper
参考答案： D
解析：
无
2.(1.5分)单选题
1.5
下列选项中,说法正确的是()

A 批处理时间间隔必须是窗口滑动时间间隔的整数倍
B Kafka是SparkStreaming的基础数据源
C reduce(func)是DStream的输出操作
D DStream不可以通过外部数据源获取
参考答案： B
解析：
无
3.(1.5分)单选题
1.5
下列选项中，哪个不属于消息系统（）。

A Kafka
B RabbitMQ
C ActiveMQ
D Zookeeper
参考答案： D
解析：
无
4.(1.5分)单选题
1.5
DStream的转换操作方法中，哪个方法可以直接调用RDD上的操作方法（）。

A countByKey()
B updateStateByKey(func)
C cogroup(otherStream,[numTasks])
D transform(func)
参考答案： D
解析：
无
5.(1.5分)单选题
1.5
DStream的输出操作，不包括（）。

A foreachRDD(func)
B print()
C flatMap(func)
D saveAsTextFiles(prefix)
参考答案： C
解析：
无
6.(1.5分)单选题
1.5
以下不属于实时计算框架的是（）。

A Spark Streaming
B Flink
C Storm
D Spark SQL
参考答案： D
解析：
无
7.(1.5分)单选题
1.5
Spark Streaming中对DStream的转换操作会转变成对（）的操作。

A sql
B dataset
C rdd
D dataframe
参考答案： C
解析：
无
8.(1.5分)单选题
1.5
关于DStream窗口操作函数，以下说法错误的是（）。

A window()返回基于源DStream的窗口进行批计算后的一个新的DStream
B countByWindow()返回基于滑动窗口的DStream中的元素数
C reduceByWindow()做聚合操作并返回一个新的DStream
D 以上说法都不对
参考答案： D
解析：
无
9.(1.5分)单选题
1.5
关于Spark Streaming的优点，不包括哪个（）

A 易用性
B 容错性
C 易整合性
D 低吞吐量
参考答案： D
解析：
无
10.(1.5分)单选题
1.5
HBase官方版本不可以安装在什么操作系统上？（）

A Ubuntu
B RedHat
C CentOS
D Windows
参考答案： D
解析：
无
11.(1.5分)单选题
1.5
下列选项中,HBase是将哪个作为其文件存储系统的？（）

A HDFS
B GFS
C MySQL
D MongoDB
参考答案： A
解析：
无
12.(1.5分)单选题
1.5
关于HBase的数据模型，以下说法错误的是（）

A 每个HBase表中只能有一个行键
B HBase表的列是由列族名、限定符以及列名组成的。
C 列族中只能包括一个列
D Timestamp时间戳通常作为数据的版本号
参考答案： C
解析：
无
13.(1.5分)单选题
1.5
当MemStore存储的数据达到一个阈值（）时，MemStore里面的数据就被flush到StoreFile文件。

A 128MB
B 256MB
C 512MB
D 64MB
参考答案： A
解析：
无
14.(1.5分)单选题
1.5
kafka集群中消息的消费模式有两种，分别是()

A 异步模式和同步模式
B 推送模式和拉取模式
C 并发模式和串行模式
D 独立模式和集群模式
参考答案： B
解析：
无
15.(1.5分)单选题
1.5
kafka集群中消息的传递模式有两种，分别是()

A 点对点模式和发布订阅模式
B 点对点模式和点对面模式
C 异步模式和同步模式
D 独立模式和集群模式
参考答案： A
解析：
无
16.(1.5分)单选题
1.5
关于kafka，以下描述错误的是（）

A kafka使用scala和java语言编写的
B kafka是一个开源的流处理平台
C kafka只能在离线的大数据框架中处理数据
D kafka是分布式消息系统
参考答案： C
解析：
无
17.(1.5分)单选题
1.5
关于kafka的优点，不包括以下哪项（）。

A 解耦
B 高吞吐量
C 高延迟
D 扩展性
参考答案： C
解析：
无
18.(1.5分)单选题
1.5
kafka的重要组件，不包括以下哪项（）。

A Topic主题
B Partition分区
C Leader领导者
D MySQL组件
参考答案： D
解析：
无
19.(1.5分)单选题
1.5
以下哪项中，哪个选项是每个分区消息的唯一序列标识？（）。

A Topic
B Broker
C Offset
D Partition
参考答案： C
解析：
无
20.(1.5分)单选题
1.5
关于SparkSQL,以下描述错误的是()

A SparkSQL使用的数据抽象并非是DataFrame，而是RDD
B 在Spark的早期版本中,DataFrame被称为SchemaRDD
C DataFrame是一种以RDD为基础的分布式数据集
D DataFrame可以完成RDD的绝大多数功能
参考答案： A
解析：
无
21.(1.5分)单选题
1.5
关于DataFrame与RDD在结构上的区别，以下描述错误的是（）

A DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型。
B RDD是分布式的Java对象的集合
C RDD在转换数据形式时效率相对较高
D DataFrame提供了比RDD更丰富的算子
参考答案： C
解析：
无
22.(1.5分)单选题
1.5
关于DataFrame的优势，以下描述错误的是（）

A DataFrame提升了Spark框架的执行效率
B DataFrame减少了数据读取时间
C DataFrame可以优化执行计划
D DataFrame可以完全替换RDD
参考答案： D
解析：
无
23.(1.5分)单选题
1.5
将一个RDD转换为DataFrame的方法是（）

A dataFrame()
B toDataFrame()
C DF()
D toDF()
参考答案： D
解析：
无
24.(1.5分)单选题
1.5
SparkSQL可以处理的数据源包括（）

A Hive表
B Hive表、数据文件
C Hive表、数据文件、RDD
D Hive表、数据文件、RDD、外部数据库
参考答案： D
解析：
无
25.(1.5分)单选题
1.5
SparkSQL中,model函数可以接收的参数有哪些()

A Override、Ignore
B Override、Ignore、Append
C Ignore、Append、ErrorIfExists
D Override、Ignore、Append、ErrorIfExists
参考答案： D
解析：
无
26.(1.5分)单选题
1.5
关于SparkSQL,以下说法正确的是（）

A HiveContext继承了SqlContext
B DataFrame其实就是RDD
C HiveContext只支持SQL语法解析器
D SparkSQL的前身是Hive
参考答案： A
解析：
无
27.(1.5分)单选题
1.5
Dataset最终在（）版本中被定义成Spark新特性

A Spark1.6
B Spark1.8
C Spark2.0
D Spark2.2
参考答案： C
解析：
无
28.(1.5分)单选题
1.5
关于Dataset，下列说法错误的是（）

A Dataset能从RDD中构建
B Dataset提供了特定域对象中的弱类型集合
C Dataset结合了RDD和DataFrame的优点
D Dataset可以通过SparkSession中的createDataset来创建。
参考答案： B
解析：
无
29.(1.5分)单选题
1.5
下列选项中，（）不属于HBase的特点

A 面向列
B 扩展性
C 多版本
D 容量小
参考答案： D
解析：
无
30.(1.5分)单选题
1.5
下列方法或属性中，哪个可以正确获取数组arr的长度？

A count()
B take()
C tail()
D length
参考答案： D
解析：
无
31.(1.5分)单选题
1.5
下列关于List的定义，哪个是错误的（）

A val list=List(1,22,3)
B val list=List(“Hello”,”Scala”)
C val list:String=List(“A”,”B”)
D val list=ListInt
参考答案： C
解析：
无
32.(1.5分)单选题
1.5
在Scala中，获取元组的值是通过（）

A 下划线加脚标
B 下标
C 索引
D 键名称
参考答案： A
解析：
无
33.(1.5分)单选题
1.5
在Scala中，模式匹配是由关键字（）组成的

A switch case
B switch default
C match switch
D match case
参考答案： D
解析：
无
34.(1.5分)单选题
1.5
下列选项中，哪个不是Spark生态系统中的组件（）

A Spark Streaming
B Mlib
C Graphx
D Spark R
参考答案： D
解析：
无
35.(1.5分)单选题
1.5
下面哪个端口不是Spark自带服务的端口（）

A 8080
B 4040
C 8090
D 18080
参考答案： C
解析：
无
36.(1.5分)单选题
1.5
下列选项中，针对Spark运行的基本流程哪个说法是错误的（）

A Driver端提交任务，向Master申请资源
B Master与Worker进行TCP通信，使得Worker启动Executor
C Executor启动会主动连接Driver，通过Driver-> Master->WorkExecutor,从而得到Driver在哪
D Driver 会产生Task，提交给Executor中启动Task去做真正的计算
参考答案： B
解析：
无
37.(1.5分)单选题
0
下列方法中，不能创建RDD的方法是?（）

A makeRDD
B parallelize
C textFile
D testFile
参考答案： D
解析：
无
38.(1.5分)单选题
1.5
下列选项中，哪个不属于转换算子操作?（）

A filter(func)
B map(func)
C reduce(func)
D reduceByKey(func)
参考答案： C
解析：
无
39.(1.5分)单选题
1.5
下列选项中，能使RDD产生宽依赖的是?（）

A map(func)
B filter(func)
C union
D groupByKey()
参考答案： D
解析：
无
40.(1.5分)单选题
1.5
下列选项中，哪个是Scala编译后文件的扩展名?

A .class
B .bash
C .pyc
D .sc
参考答案： A
解析：
无
41.(1.5分)多选题
1.5
Spark集群的部署模式有（）。

A Standalone模式
B Yarn模式
C Local模式
D mesos模式
参考答案： A B D
解析：
无
42.(1.5分)多选题
0
Spark集群的运行框架由（）、Cluster Manage和( ) 组成。

A Task
B SparkContext
C Worker
D Executor
参考答案： B C
解析：
无
43.(1.5分)多选题
1.5
RDD的操作主要是哪2种操作（）。

A 转换算子操作
B 分组操作
C 读写操作
D 行动算子操作
参考答案： A D
解析：
无
44.(1.5分)多选题
1.5
下列属于RDD的转换算子的是（）。

A groupByKey()
B reduce()
C reduceByKey()
D map()
参考答案： A C D
解析：
无
45.(1.5分)多选题
1.5
下列属于RDD的行动算子的是（）。

A count()
B first()
C take()
D filter()
参考答案： A B C
解析：
无
46.(1.5分)多选题
1.5
Spark要想很好的支持SQL，需要完成三大过程。这三大过程包括（）

A 加载load
B 解析parser
C 优化optimizer
D 执行execution
参考答案： B C D
解析：
无
47.(1.5分)多选题
1.5
Spark生态系统包含（）、Spark Sql、（）、MLib、（）以及独立调度器组件。

A Spark Core
B Spark Streaming
C GraphX
D Spark R
参考答案： A B C
解析：
无
48.(1.5分)多选题
1.5
Scala语言的特性包含（）、函数式编程、（）、可扩展的、（）

A 面向过程
B 面向对象
C 静态类型
D 可以交互操作
参考答案： B C D
解析：
无
49.(1.5分)多选题
1.5
在Scala数据类型层级结构的底部有两个数据类型，分别是（）

A Nothing
B Null
C AnyVal
D AnyRef
参考答案： A B
解析：
无
50.(1.5分)多选题
1.5
在Scala中，声明变量的关键字有（）

A val
B int
C var
D String
参考答案： A C
解析：
无
51.(1分)判断题
1
宽依赖是指每一个父RDD的分区最多被子RDD的一个分区使用

A) 正确
B) 错误
参考答案： B
解析：
无
52.(1分)判断题
1
窄依赖是划分Stage的依据

A) 正确
B) 错误
参考答案： B
解析：
无
53.(1分)判断题
1
安装Scala之前必须配置JDK

A) 正确
B) 错误
参考答案： A
解析：
无
54.(1分)判断题
1
Scala语言是一种面向过程编程语言

A) 正确
B) 错误
参考答案： B
解析：
无
55.(1分)判断题
1
在Scala中定义变长数组时，需要导入可变数组包

A) 正确
B) 错误
参考答案： A
解析：
无
56.(1分)判断题
1
Scala语言和Java语言一样，都有静态方法或静态字段

A) 正确
B) 错误
参考答案： B
解析：
无
57.(1分)判断题
1
Spark比Hadoop计算的速度快

A) 正确
B) 错误
参考答案： A
解析：
无
58.(1分)判断题
1
部署Spark高可用集群不需要用到 Zookeeper服务

A) 正确
B) 错误
参考答案： B
解析：
无
59.(1分)判断题
1
Spark Master HA 主从切换过程不会影响集群已有的作业运行

A) 正确
B) 错误
参考答案： A
解析：
无
60.(1分)判断题
1
RDD采用了惰性调用，即在RDD的处理过程中，真正的计算发生在RDD的“行动”操作

A) 正确
B) 错误
参考答案： A
解析：
无
61.(15分)问答题
简述如何在Spark中划分Stage

spark任务会根据rdd之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分互相依赖的多个stage，划分依据就是宽窄依赖，遇到宽依赖就划分stage，每个stage包含一个或多个stage，每个stage包含一个或多个task，然后将这些task以taskSet的形成提交给TaskScheduler运行，stage是由一组并行的task组成。
参考答案：
会根据RDD之间的依赖关系将DAG图划分为不同的阶段，对于窄依赖，由于partition依赖关系的确定性，partition的转处理就可以在同一个线程里完成，窄依赖就被spark划分到同一个stage中，而对于宽依赖，只能等父RDD shuffle处理完成后，下一个stage才能开始接下来的计算。之所以称之为ShuffleMapTask是因为它需要将自己的计算结果通过shuffle到下一个stage中。spark划分stage的整体思路是:从后往前推，遇到宽依赖就断开，划分为一个stage;遇到窄依赖就将这个RDD加入该stage中
解析：
无

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

spark考试（练习题）

你可能感兴趣的:(笔记,spark,hbase,big,data)