刘新源870

Spark期末考试练习题

一、单选题

1. 下面的端口不是 Spark 自带的服务端口的是___________。

A. 8080 B. 4040 C. 8090 D. 18080

2. 下面的描述不是 RDD 的特点的是___________。

A. 可分区 B. 可序列化 C. 可修改 D. 可持久化

3. 关于广播变量的描述错误的是___________。

A. 任何函数调用 B. 是只读的

C. 存储在各个节点 D. 存储在磁盘或 HDFS

4. 在启动 pyspark 交互式界面时，采用默认的不指定参数的启动方式属于___________部署方式。

A. standalone B. Spark on mesos

C. Spark on YARN D. Spark on local

5. pyspark 中，Spark DataFrame 和 Spark SQL 的上下文入口是___________。

A.pyspark.SparkConf B. pyspark.SparkSession

C. pyspark.SparkContext D. pyspark.StreamingContext

6. 下面的操作中，___________肯定是宽依赖。

A. map B. flatMap C. reduceByKey D. sample

7. Spark 持久化默认的存储级别是___________。

A. MEMORY_ONLY B. MEMORY_ONLY_SER

C. MEMORY_AND_DISK D. MEMORY_AND_DISK_SER

8. DataFrame 和 RDD 的最大的区别是___________。

A. 科学统计支持 B. 多了 schema C. 存储方式不一样 D. 外部数据源支持

9. 与 spark 日志相关的配置文件是___________。

A. spark-env.sh B. log4j.properties C. slaves D. profile

10. spark 机器学习库有两种，其中 ml 库是基于___________数据结构的 API。

A. Spark SQL B. DataFrame C. Spark Streaming D. RDD

11. 关于累加器，下列描述错误的是___________。

A. 支持加法 B. 支持数值类型 C. 可并行 D. 不支持自定义类型

12. 下面操作属于窄依赖的是___________。

A. join B. filter C. group D. sort

13. pyspark 中，Spark RDD 的上下文入口是___________。

A. pyspark.SparkConf B. pyspark.SparkSession

C. pyspark.SparkContext D. pyspark.StreamingContext

14. pyspark 中，提供广播变量的操作方法的类是___________。

A. pyspark.SparkConf B. pyspark.Accumulator

C. pyspark.RDD D. pyspark.Broadcast

15.需要基于DataFrame创建出临时表，才能使用SQL语句的是？___________。

A.Spark SQL B.DataFrame

C.Spark Streaming D.GraphX

16.以下哪项是由一系列RDD构成的？___________。

A.StreamingContext B.DStream

C.Spark Streaming D.DAG

17.哪个选项提供常用的学习算法，如分类、回归、聚类等算法？___________。

A.Utilities B.Featurization

C.Pipelines D.ML Algorithms

18.下列RDD操作以数组的形式返回数据集的所有元素的是？___________。

A.reduce B.count

C.collect D.first

19.含有自环的图被称为？___________。

A.多重图 B.伪图

C.二分图 D.连通图

20. 在不改变原有 Key 键的基础上，对 Key-Value 结构 RDD 的 Vaule 值进行

一个 map 操作，分区保持不变。这种操作使用的算子是___________。

mapValues B. flatMapValues

C. combineByKey D. reduceByKey

21. Spark SQL 的创建需要依赖于___________。

A. Spark RDD B. spark DataFrame

C. Spark Streaming D. GraphX

22. Spark Streaming 提供的基础抽象是___________，它表示一系列的数据流。

A. StreamingContext B. Discretized Streams

C. Spark Streaming D. RDD

23. Spark 机器学习库 ml 中，提供用于构建，评估和调整 ML Pipelines 的工具是___________。

A. ML Algorithms B. Featurization

C. Pipelines D. Utilities

24. 下列 RDD 算子中，属于 transform 算子的是___________。

A. collect B. reduce

C. foreach D. union

25.下列RDD操作哪一个返回结构的类型不是以数组形式的？___________。

A.first B.top

C.collect D.take

26.Spark的四大组件中不包括下列哪个选项？___________。

A.Spark Streaming B.MLlib

C.Spark R D.GraphX

27.Spark为包含键值对（key-value）类型的RDD提供了一些专有的操作。这些RDD被称为___________。

A.PairRDD B.KeyRDD

C.key-value RDD D.Value RDD

28.Spark主要有几个特点？___________。

A.3 B.4

C.5 D.6

29.Spark的运行环境搭建不依赖于？___________。

A.Java B.Scala

C.Spark D.Python

30.哪个选项以 RDD 为基础并将数据整理成表格形式？___________。

A.Spark SQL B.DataFrame

C.Spark Streaming D.GraphX

31.下列选项属于DStream输出操作的是？___________。

A.map B.flatMap

C.reduceByKey D.pprint

32. 下列方法可以对 Spark RDD 进行持久化的是___________。

A. persist B. save

C. print D. collect

33.哪个选项是Spark为Python开发者提供的API？___________。

A.PySpark B.Python Spark

C.Scala D.Spark SQL

34.进入web监控页面看到Spark Master at spark://host:port,属于哪种启动模式？___________。

A.local B.mesos

C.yarn D.standalone

35.哪个选项是Spark最基础最核心的部分？___________。

A.Spark Streaming B.Spark SQL

C.RDD D.MLlib

二、填空题

1.mllib是基于RDD的api，ml是基于 DataFrame 的api。

2. 根据代码填空：

sc=SparkContext("spark://10.92.16.21:7077","app")

sc.setLogLevel("WARN")

data =[1,2,3,4,5,6]

dist =sc.paralellize(data,3)

dist2 =rdd.map(lambda x:x*2)

dist2.persist()

dist3 =dist.intersection(dist2)

dist3.collect()

上述代码使用的 Spark 运行模式是___Standalone____；日志级别是____WARN____；变量名为 dist 的这个 RDD 变量有___3__分区（partition）；代码 dist2.persist()的作用是__统计文件中字符数量_______；代码dist3.collect()的输出结果是__[(1,2),(2,4),(3,6),(4,8),(5,10),(6,12)]

3.已知rdd=sc.parallelize([21,17,19,4,15,6,22])，则rrd.take(4)和rrd.top(5)的运行结果分别为 [21,17,19,4] [22,21,19,17,15] 。

4.根据代码填空：

file =sc.parallelize(["1","2","","3","","4","","","5"])

blanks =sc.accumulator(0)

def countblanks(line):

global blanks

if(len(line) ==0):

blanks +=1

return line

file.map(countblanks).collect()

print(blanks.value)

上述代码的目的是__统计一个RDD中有多少元素为空__；使用的共享变量是__accumulator______，该共享变量的变量名是__blanks____；代码 len(line)的含义是__line的长度_____；最后一句代码print(blanks.value)的输出结果是_4_____。

5.RDD算子包括 transform算子和action算子（执行算子）两种类型。

6. 根据代码填空：

a =sc.textFile(“/root/index.txt”)

b =a.collect()

c =sc.broadcast(b)

d =sc.parallelize([0,0,0,0]).flatMap(lambda x: c.value)

d.collect()

c.unpersist()

上述代码使用的共享变量是__broadcast_____；该共享变量的变量名为_c__；查看该共享变量的值的方法是_c.value__；假设 a.collect()的结果是[3,2,1,0]，则代码 d.collect()的输出结果是_[3,2,1,0,3,2,1,0,3,2,1,0,3,2,1,0]___；代码 c.unpersist()的作用是__解除广播变量的持久化操作_______。

简答题

如何理解 Spark RDD 中的血统概念。

RDD只支持粗粒度转换,即在大量记录上执行单个操作。RDD的血统(Lineage)会记录 RDD的元数据信息和转换行为,当该RDD自内部分分区数据丢失时,它可以根据这些信息重新运算并恢复丢失的分区数据。

请写出 Spark RDD 的四种创建方式。

1).从集合中创建RDD，Spark主要提供了两个方法：parallelize和makeRDD

2).从外部存储文件创建RDD
3).从其它RDD创建
4).直接创建RDD（new）
5).基于Nosql创建rdd，如hbase
6).基于s3创建rdd，
7).基于数据流，如socket创建rdd

简述 Spark Streaming 获取数据的方式，并写出其使用的方法。

socket获取，socketTextStream()
HDFS获取，textFileStream()
Kafka获取，pyspark.streaming.kafka.KafkaUtils
Flume获取，pyspark.streaming.flume.flumeUtils

简述 Spark 中广播变量基本原理和用途。

请简述Spark SQL与DataFrame的区别与联系？

区别：RDD是分布式的java对象的集合，但是对象内部结构对于RDD而言却是不可知的。DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息，相当于关系数据库中的一张表

联系1.都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利2、都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action才会运算3.都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出4、三者都有partition的概念5.三者有许多共同的函数，如filter，排序等

6.请简述SparkStreaming的工作原理？

SparkStreaming从数据流接受实时数据流，并将数据分为若干批，然后由spark引擎进行处理，最后批量生成结果流。

7.spark运行模式有哪些，并简要说明每种运行模式？

local模式：spark单机运行，一般用于开发测试。

standalone模式：构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。

spark on Yarn模式：Spark客户端直接连接Yarn，不需要额外构建Spark集群。

spark on Mesos模式：Spark客户端直接连接Mesos，不需要额外构建Spark集群。

8.请列举7个 Spark RDD 的action算子，并简述功能。

答：

reduce(f)：通过指定的聚合方法对 RDD 中的元素进行聚合操作。

collect()：返回一个包含 RDD 所有元素的列表。

count()：统计 RDD 中元素的个数。

take(n)：获取 RDD 中前 n 个元素的值，返回的结果为列表类型。

first()：返回 RDD 中的第一个元素，返回的数据类型为元素类型。

top(n)：返回 RDD 中最大的前 n 个元素，返回的结果为列表类型。

saveAsTextFile()：将 RDD 中的元素以字符串的格式存储于文件系统中。

foreach(f)：遍历 RDD 中的每个元素，同时通过传递自定义的处理函数 f,对 RDD 中的每个元素进行处理。

foreachPartition(f)：遍历 RDD 的每个分区，同时通过传递的 f 对每个分区进行操作。

9.列举7个Spark RDD 的transformation 算子，并简述功能。

答：

map：对RDD中的数据逐条进行映射，可以是类型转换，也可是值转换。

flatMap：先对RDD中的所有元素进行map操作，然后将结果平坦化。

filter：按照指定条件对RDD中的元素进行过滤。

union：将两个RDD求并集，并返回一个新的RDD。

intersection：将两个RDD求交集，并返回一个新的RDD，其输出不包含任何重复元素。

sortBy：通过指定key对RDD中的元素进行排序。

mapPartitions：对RDD的每个分区进行map运算。

四、编程题

1. 微博数据分析。

假设有一个数据文件，存储路径为“/home/ubuntu/data/blogInfo.txt”，它包含如下格式的两列数据（其中第一列和第二列都表示用户 ID，每行数据的含义是第一列的用户关注了第二列的用户。数据使用“\t”分隔符隔开）：

数据示例：

11111111 12743457

11111111 16386587

11111112 12356363

现使用 pyspark 交互式界面，请使用 Spark RDD 的相关知识编写代码回答下列问题：

（1）将数据读成 RDD 格式。

（2）统计一共有多少个不同的用户 ID。

（3）统计出每个用户的粉丝数量。

（4）将步骤（3）的结果写入到 HDFS 文件中（具体路径为：hdfs://linux01:9000/out/result.txt）。

答

（1）Lines = sc.textFile(“/home/ubuntu/data/blogInfo.txt”)
（2）Data = lines.flatMap(lambda x:x.split(“\t”))
Result = data.distinct().count()
（3）Data3 = lines.map(lambda x: x.split(\t)[1])
Result3 = data3.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y).collect()
（4）Result3.saveAsTextFile(hdfs://linux01:9000/out/result.txt)

2. 网页流量日志分析。

假设有一个数据文件，存储路径为“/home/ubuntu/data/log.txt”，它包含如下格式的三列数据（其中第一列表示访问时间，第二列表示网页名称，第三列表示访问次数。数据使用“\t”分隔符隔开）：

数据示例：

time name num

20200501 baidu 2

20200501 sina 3

20200502 qq 3

20200502 baidu 5

现使用 pyspark 交互式界面，请使用 Spark SQL 的相关知识编写代码回答下列问题：

（1）将数据读成 DataFrame 类型，列名分别为“time”、“name”和“num”。

（2）将数据注册为 SQL 表，表名为“log”。

（3）统计同一天里同一网页的总访问量。

（4）统计每个网页的总访问量，并按照总访问量降序排序。

答

（1）data = spark.read.load(“/home/ubuntu/data/log.txt”, format =”csv”, sep=”\t”, header=True)
（2）data.registerTempTable(“log”)
（3）spark.sql(“select time,name,sum(num) from log groupby time,name”).show()
（4）sql = “select name,sum(num) fangwenliang from log groupby name order by fangwenliang desc”
spark.sql(sql).show()

3. 员工数据分析。

假设有员工数据，存储路径为

“/home/ubuntu/data/employee.json”，其数据格式如下：

{“id”: 1,“name”: “Ella”, “age”: 36}

{“id”: 2,“name”: “Bob”, “age”: 29}

{“id”: 3, “name”: “Jim”, “age”: 28}

假设编程环境为 pyspark 交互式界面，请使用 Spark DataFrame 的相关知识编写代码回答下列问题：

（1）将数据加载为 DataFrame 格式。

（2）查询所有数据，并删除重复的数据。

（3）将数据按照 name 升序排列。

（4）将数据保存为 parquent 格式，仍旧保存在/home/ubuntu/data/目录下。

答：
（1） employee = spark.read.json(“/home/ubuntu/data/employee.json”)
（2） employee.select(“id”,”name”,”age”).distinct().show()
（3） employee.select(“id”,”name”,”age”).orderBy(“name”).show()
（4） employee.write.save(“/home/ubuntu/data/employee.paquent”)

4. Spark Streaming 计算。

现通过本地的 9999 端口发送日志流数据，数据格式如下（数据中有三个字段，含义分别为：访问网址，访问流量，访问时间戳。各字段使用“,”隔开）：

数据示例：

www.baidu.com,12853,2586213654

假设编程环境为 pyspark 交互式界面，请使用 Spark Streaming 的相关知识编写代码回答下列问题：

（1）创建一个 DStream，监听该端口的数据，时间间隔为 5 秒。（提示：注意导入 streaming 包和上下文的创建）

（2）使用有状态转换 updateStateByKey 统计每个网站的总访问流量。

转发标明出处

你可能感兴趣的:(Spark,spark,big,data,大数据)

一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
redis持久化 xing.xing redis
目录redis持久化RDB（RedisDatabase）持久化AOF（AppendOnlyFile）持久化redis持久化在Redis中，持久化是确保数据在Redis服务器重启后不丢失的关键功能。Redis提供了两种主要的数据持久化方式：RDB（RedisDatabase）持久化和AOF（AppendOnlyFile）持久化。Redis的默认持久化方式是RDB（快照）。在Redis启动时，它会定期
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
ARM64环境部署EFK8.15.3收集K8S集群容器日志 llody_55 kubernetes 容器云原生运维 es java elasticsearch
环境规划主机IP系统部署方式ES版本CPU架构用户名密码192.168.1.225Ubuntu22.04.4LTSdockerelasticsearch:8.15.3ARM64elasticllodyi4TMmZDES集群部署创建持久化目录(所有节点)mkdir-p/data/es/{data,certs,logs,plugins}mkdir-p/data/es/certs/{ca,es01}服务
vue3新增修改页面，字段来源于其他表大波V5 vue.js elementui javascript
确定取消constunitOptions=ref([]);constlistAdspunitAllLocal=async()=>{if(!unitOptions.value.length){constresUnit=awaitlistAdspunitAll();unitOptions.value=resUnit.data;}}//单位生成ID-Name映射字典constidToNameUnitMa
scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
获取表格指定行指定列数据故事里故去自用 javascript 前端开发语言
//获取表格元素vartable=document.getElementsByTagName("table")[0];//获取表格的tbody元素vartbody=table.querySelector("tbody");//获取所有tr元素varrows=tbody.querySelectorAll("tr");//初始化结果数组vardata=[];//遍历行，从第200行开始，到第1000行
数字IP转换成字符串IP 故事里故去 C#C#字符串处理时间性能 IP地址构造字节操作
DateTimelulu=DateTime.Now;byte[][]data=newbyte[256][];for(inti=0;i<256;i++){data[i]=Encoding.Default.GetBytes("."+i.ToString());}byte[]buff1=newbyte[4];buff1[0]=230;buff1[1]=220;buff1[2]=123;buff1[3]=
mongodb自动分片 Tgor mongodb
mongodb自动分片标签（空格分隔）：Mongodb操作步骤1、config配置库启动：mongodb--dbpath=D:\Data\dbs\shard\config--port22222、mongos指定config库启动：mongos--port3333--configdb=morton:22223、mongod分片库1启动：mongod--dbpath=D:\Data\dbs\shard
istio从入门到精通（1) weixin_43806846 istio kubernetes
1、以单个的nginx举例部署nginx服务#nginx-deployment.yamlapiVersion:apps/v1kind:Deploymentmetadata:name:nginxspec:replicas:2selector:matchLabels:app:nginxtemplate:metadata:labels:app:nginxspec:containers:-name:ngi
架构生命周期（演进史）技术应服务于业务 Limbo1213 java架构生命周期演进史
架构生命周期简介本篇幅主要讲述架构的各阶段出现的需求问题、业务问题、性能问题以及相应的解决方案。1、web1.0时代（1996年左右）2、web2.0时代（2006年左右）3、互联网时代（2012年左右）–》互联网±-》智慧城市。滴滴打车。饿了么（工商局）4、大数据+云计算5、AI未来以来时代…第一时期单一应用架构allinone。所有的模块和代码都在一起。技术也不分层。(2000年左右)网站的初
vue中为组建添加样式的方式晨枫阳 javascript 前端
在Vue中，可以通过多种方式为view添加样式，并且支持动态绑定样式。以下是几种常见的方式：1.内联样式直接在模板中使用style属性来添加样式。这是一个内联样式的示例2.使用:style动态绑定样式可以通过:style动态绑定样式对象或数组。2.1绑定样式对象这是一个动态绑定样式对象的示例exportdefault{data(){return{styleObject:{color:'red',f
MySQL-关于如何保存“大数据” 赵师的工作日 mysql 大数据数据库
作者：赵师的工作日（赵明中）现役OracleACE、MySQL8.0ocp、TiDBPCTA\PCTP、ElasticsearchCertifiedEngineer微信号：mzzhao23微信公众号：赵师的工作日墨天轮社区：赵师的工作日CSND：赵师的工作日数据库的种类有很多，各类数据库充分发挥各自的优势从而保证业务稳定运行，mysql轻量级、关键数据，redis缓存、快，ES搜索，Mongodb
Redis过期机制 2301_76723322 redis 数据库缓存 golang go
const(cacheDuration=24*time.Hour)funcSetToCache(rdb*redis.Client,keystring,data[]byte)error{returnrdb.Set(rdb.Context(),key,data,cacheDuration).Err()}以上函数中的rdb.Set(rdb.Context(),key,data,cacheDuration
（六）Java-BigDecimal Kyrie_Li Java体系 java 开发语言
一、概述BigDecimal类用于高精度计算，特别适用于需要进行精确浮点数运算的场合，例如货币计算、金融应用或科学计算。二、优势由于double和float类型是浮点数类型，它们在表示一些十进制数时会出现精度丢失问题，而BigDecimal则可以避免这些问题，提供任意精度的数值表示。三、特点1.任意精度：BigDecimal的精度仅受限于计算机的内存，而不像float和double有固定的精度限制
PIPCA个人信息保护合规审计师认证介绍！熙丫 13381482386 大数据
个人信息保护合规审计师"（PersonalInformationProtectionComplianceAuditor-CCRC）是中国网络安全审查认证中心与市场监管大数据中心为深入贯彻实施《个人信息保护法》，推动个人信息处理者切实履行合规审计职责，针对企事业单位及第三方机构中从事个人信息保护合规审计（简称“个保审计”）的专业人员，依据《个人信息保护法》、《网络安全从业人员能力基本要求》
Apache Doris 实现毫秒级查询响应随风九天匠心数据库服务 java apache Apache Doris
1.引言1.1数据分析的重要性随着大数据时代的到来，企业对实时数据分析的需求日益增长。快速、准确地获取数据洞察成为企业在竞争中脱颖而出的关键。传统的数据库系统在处理大规模数据时往往面临性能瓶颈，难以满足实时分析的需求。例如，一个电商公司需要实时监控销售数据以调整库存和营销策略，而传统的数据库可能需要数分钟甚至数小时才能生成报表，这显然无法满足业务需求。1.2ApacheDoris简介ApacheD
小米便签——ui包详细解读一号言安软件工程——Android Studio小米便签项目 ui
目录ui:用户界面类1AlarmAlertActivity2AlarmInitReceiver3AlarmReceiver4DateTimePicker5DateTimePickerDialog6DropdownMenu7FoldersListAdapter8NoteEditActivity9NoteltemData10NotesListActivity11NoteEditText12NotesL
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
Java基于redis实现进度条冰糖码奇朵 java redis
一.问题背景为了提升用户体验，开发中有很多场景需要用到进度条，比如导入、导出、大规模更新操作等。进度条在许多大型系统中使用频率较高，反复编写既麻烦又不利于维护，因此基于Redis抽成公共方法供不同功能调用。二.实现方案1.引入依赖如果系统已集成Redis，直接跳到第5步，进度条实现。org.springframework.bootspring-boot-starter-data-redis2.配置
R语言dataframe数据索引、访问: 使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据 omhdxgb R语言123 r语言数据挖掘人工智能机器学习数据分析
R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据目录R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据R语言特点R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列
（9）异步Mongo驱动的性能测试——响应式Spring的道法术器享学IT 【道法术器】响应式Spring 响应式异步 Mongo 性能
本系列其他文章见：《响应式Spring的道法术器》。前情提要：SpringWebFlux快速上手|SpringWebFlux性能测试|SpringWebClient性能测试1.4.4同步与异步数据库驱动的性能对比许多数据库已陆续推出官方的异步驱动，在SpringDataReactive中，已经集成了Mongo、Casandra、Redis、CouchDB的异步驱动。在SpringWebFlux中使
ClickHouse Keeper 源码解析阿里云云栖号云栖号技术分享 java 开发语言后端
简介：ClickHouse社区在21.8版本中引入了ClickHouseKeeper。ClickHouseKeeper是完全兼容Zookeeper协议的分布式协调服务。本文对开源版本ClickHousev21.8.10.19-lts源码进行了解析。作者简介：范振（花名辰繁），阿里云开源大数据-OLAP方向负责人。内容框架背景架构图核心流程图梳理内部代码流程梳理Nuraft关键配置排坑结论关于我们R
centos安装mysql报错：mysql-community-client-plugins-8.0、o Presto metadata available for mysql80-community 其实她不懂 centos mysql linux
执行sudoyum-yinstallmysql-community-server命令刚开始报错mysql-community-client-plugins-8.0.40-1.el7.x86_64.rpm的公钥尚未安装失败的软件包是：mysql-community-client-plugins-8.0.40-1.el7.x86_64GPG密钥配置为：file:///etc/pki/rpm-gpg/R
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
java 金额转中文大写两眼墨黑 java python 开发语言
publicclassNumberChinese{publicstaticStringnumberChinese(Stringstr){BigDecimalnum=newBigDecimal(str);StringstrOutput;StringstrUnit="仟佰拾亿仟佰拾万仟佰拾元角分";StringstrNum="零壹贰叁肆伍陆柒捌玖";num=num.setScale(2,Roundin
数据实时增量同步之CDC工具—Canal、mysql_stream、go-mysql-transfer、Maxwell caihuayuan4 面试题汇总与解析 spring sql java 大数据课程设计
@TOC[Mysql数据实时增量同步之CDC工具—Canal、mysql_stream、go-mysql-transfer、Maxwell：https://blog.csdn.net/weixin_42526326/article/details/121148721什么是CDC？CDC(ChangeDataCapture)是变更数据获取的简称。可以基于增量日志，以极低的侵入性来完成增量数据捕获的工
Clickhouse负载均衡客户端BalancedClickhouseDataSource源码分析颍天 clickhouse clickhouse
文章目录BalancedClickhouseDataSource源码分析结论BalancedClickhouseDataSource源码分析BalancedClickhouseDataSource的完整路径是ru.yandex.clickhouse.BalancedClickhouseDataSource，源码主要包括三部分，构造方法、获取连接、以及生成可用的地址列表。BalancedClickh
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 (quickselect@163.com), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu