laughing1997

CDH6.0、6.1篇：8、CDH的 hive on spark配置及解析、优化

分三个章节

1、版本展示

2、CDH安装spark

3、优化配置信息

----------------------分割线----------------------------------------

1、版本展示

1.所有版本：https://www.scala-lang.org/download/all.html

2.11.8版本：https://www.scala-lang.org/download/2.11.8.html
2.12.8版本：

tar -zxvf scala-2.12.8.tgz
mv scala-2.12.8 scala
scp -r /root/scala root@node2:/root
scp -r /root/scala root@node3:/root

2.配置环境变量，将scala加入到PATH中：

vim /etc/profile
主要添加蓝色字体处 
export PATH=$PATH:$JAVA_HOME/bin:/root/scala/bin
或者
PATH=$JAVA_HOME/bin:$PATH:/root/scala/bin
export JAVA_HOME CLASSPATH PATH
source /etc/profile

3.scala的命令行模式：

输入 scala ，执行1+1，输出结果2

2、CDH 安装 spark

1.spark的命令行模式

1.第一种进入方式：执行 pyspark进入，执行exit()退出
	1.注意报错信息：java.lang.IllegalArgumentException: 
	Required executor memory (1024+384 MB) is above the (最大阈值)max threshold (1024 MB) of this cluster! 
	表示 执行器的内存(1024+384 MB) 大于 最大阈值(1024 MB)
	Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or'yarn.nodemanager.resource.memory-mb'

2.初始化RDD的方法

		本地内存中已经有一份序列数据(比如python的list)，可以通过sc.parallelize去初始化一个RDD。
		当执行这个操作以后，list中的元素将被自动分块(partitioned)，并且把每一块送到集群上的不同机器上。

1.第一种进入方式：

import pyspark from pyspark 
import SparkContext as sc from pyspark 
import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")

#任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。
#初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。
#Spark shell会自动初始化一个SparkContext(在Scala和Python下可以，但不支持Java)。
#getOrCreate表明可以视情况新建session或利用已有的session
sc=SparkContext.getOrCreate(conf) 

# 利用list创建一个RDD;使用sc.parallelize可以把Python list，NumPy array或者Pandas Series,Pandas DataFrame转成Spark RDD。
rdd = sc.parallelize([1,2,3,4,5])
rdd  打印 ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:195

# getNumPartitions() 方法查看list被分成了几部分
rdd.getNumPartitions()  打印结果：2
# glom().collect()查看分区状况
rdd.glom().collect() 打印结果： [[1, 2], [3, 4, 5]]

2.第二种进入方式：
可直接执行 spark-shell，也可以执行 spark-shell --master local[2]
多线程方式：运行 spark-shell --master local[N] 读取 linux本地文件数据
通过本地 N 个线程跑任务，只运行一个 SparkSubmit 进程
利用 spark-shell --master local[N] 读取本地数据文件实现单词计数
master local[N]：采用本地单机版的来进行任务的计算，N是一个正整数，它表示本地采用N个线程来进行任务的计算，会生成一个SparkSubmit进程
3.需求：
读取本地文件，实现文件内的单词计数。
本地文件 /root/scala/words.txt 内容如下：
hello me
hello you
hello her
4.编写 scala 代码：
此处应使用spark-shell --master local[2]进行操作，如果使用spark-shell会报错

sc.textFile("file:///root///scala///words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

输出

 res0: Array[(String, Int)] = Array((hello,3), (me,1), (you,1), (her,1))

在hive中执行 select * from 表名;即能运行 hive on spark引擎进行计算，yarn的web UI页面中，点击对应运行的spark程序查看运行信息和报错信息

如果再执行 hive on spark任务时出现以下错误信息（要看该yarn任务程序对应的日志信息）：

ERROR client.RemoteDriver: Failed to start SparkContext: java.lang.IllegalArgumentException: Executor memory 456340275 must be at least 471859200. 
	Please increase executor memory using the --executor-memory option or spark.executor.memory in Spark configuration

解决：在 Hive中搜索 spark.executor.memory 进行配置到可使用的范围大小

1.运行hive on spark的sql语句进行计算时，报错信息可在yarn的web UI页面中，点击对应运行的spark程序查看运行信息和报错信息
2.如果spark程序没有成功运行结束而导致永远卡在运行任务中而不结束时，可以使用 yarn application -kill 命令加上程序ID 进行结束某程序

杀死程序的命令：yarn application -kill 程序的ID
因为/usr/bin/yarn 已经存在，所以不需要执行下面的创建软连接的操作
cd /opt/cloudera/parcels/CDH-6.0.0-1.cdh6.0.0.p0.537114/lib/hadoop-yarn/bin
ln -s /opt/cloudera/parcels/CDH-6.0.0-1.cdh6.0.0.p0.537114/lib/hadoop-yarn/bin/yarn /usr/bin/yarn

3.在使用 yarn HA时，运行 hive on yarn 的任务无法得出结果时，并且出现以下错误

Caused by:javax.servlet.ServletException: Could not determine the proxy server for redirection
问题：无法确定用于重定向的代理服务器
解决：禁用 YARN HA，即ResourceManager只使用一个主节点，其实一般yarn HA仍然能运行 hive on yarn 的任务并且能得出正常结果，但是还是会报出同样错误
4.当前运行的环境是 YARN HA(node1、node2均部署了ResourceManager)的情况下，执行 hive on spark 的程序，虽然能得出正常执行成功得出结果

但是对应该程序的日志信息仍然报错：无法确定用于重定向的代理服务器 Could not determine the proxy server for redirection。
select * from test_tb;
select count(*) from test_tb;
insert into test_tb values(2,‘ushionagisa’);

spark-sql命令操作的数据库存储在hdfs文件系统中

脚本中定义任务提交的命令：

Default Hive database：hdfs://nameservice1/user/hive/warehouse spark.master：spark://master:7077
/root/spark/bin/spark-sql --master spark://node1:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://nameservice1/user/hive/warehouse

3、优化配置信息

yarn配置信息

1.Hive默认使用的计算框架是MapReduce，在我们使用Hive的时候通过写SQL语句，Hive会自动将SQL语句转化成MapReduce作业去执行
但是MapReduce的执行速度远差与Spark。通过搭建一个Hive On
Spark可以修改Hive底层的计算引擎，将MapReduce替换成Spark，从而大幅度提升计算速度。接下来就如何搭建Hive
On Spark展开描述。
2.配置Yarn

Yarn需要配置两个参数：
1.yarn.nodemanager.resource.cpu-vcores：
可以为container分配的CPU 内核的数量
为每个服务分配一个core，为操作系统预留2个core，剩余的可用的core分配给yarn。
我使用的伪集群（3个node，每个node8个核core）一共有24个core，留出3个给其他任务使用，剩余的21个核core分配给yarn，每个节点提供7个核core。

2.yarn.nodemanager.resource.memory-mb：
可分配给容器的物理内存大小
设置Yarn内存一共为3G，每个节点提供1G，根据自己的电脑性能分配多少，应大于1G

3.yarn.scheduler.maximum-allocation-mb：scheduler 调度程序所能申请的最大内存，根据自己的电脑性能分配多少，应大于1G

3.配置Spark以及对应参数解析

 参数项			默认值	参数解释
spark.executor.instances	无	一个Application拥有的Executor数量。取决于spark.executor.memory + spark.yarn.executor.memoryOverhead
spark.executor.cores	1	单个Executor可用核心数
spark.executor.memory	512m	单个Executor最大内存。
计算大小的公式 yarn.nodemanager.resource.memory-mb *（spark.executor.cores / yarn.nodemanager.resource.cpu-vcores）


spark.executor.memory  		每个执行程序进程使用的内存量 
spark.executor.cores 		每个执行程序的核心数 
spark.yarn.executor.memoryOverhead  在Yarn上运行Spark时，每个执行程序要分配的堆外内存量（以兆字节为单位）。
这是内存，可以解决诸如VM开销，插入字符串，其他本机开销等问题。
除了执行程序的内存之外，启动执行程序的容器还需要一些额外的内存用于系统进程。
计算大小的公式：spark.executor.memory的15-20％
spark.executor.instances 		分配给每个应用程序的执行程序数 
spark.driver.memory 		分配给远程Spark上下文（RSC）的内存量。我们建议4GB 
spark.yarn.driver.memoryOverhead 	我们建议400（MB）

1.spark.executor.cores 单个Executor可用核心数

1.在某些情况下，HDFS客户端没有并行处理多个写请求，在有多个请求竞争资源的时候会出现一个执行程序executor使用过多的core。
尽可能的减少空闲的core的个数，cloudera推荐设置spark.executor.cores为4、5、6，这取决于给yarn分配的资源。
 比如说，因为我们把21个核core分配给yarn，所以有21个核core可用，那么我们可以设置为3，这样21/3余数为0，设置为4的话会剩余1个空闲。
设置3个可使得空闲的core尽可能的少。这样配置之后我们可以最多同时运行7个执行程序executor，每个执行程序executor最多可以运行3个任务（每个核core为1个任务）。

2.在YARN模式下，工作站上的所有可用内核都是独立模式和Mesos粗粒度模式。每个执行程序使用的核心数。 

3.Executors Scheduling 执行程序调度
分配给每个执行程序的核心数是可配置的。当spark.executor.cores显式设置时，如果worker具有足够的内核和内存，则可以在同一工作程序上启动来自同一应用程序的多个执行程序executor。否则，每个执行程序默认获取worker上可用的所有核心，在这种情况下，每个应用程序 在一次调度迭代期间 只能启动一个执行器executor 。

4.Executor和分区
Executor是一个独立的JVM进程，每个任务会有独立的线程来执行，Executor最大可并发任务数量与其拥有的核心数量相同，执行过程中的数据缓存放在Executor的全局空间中。
根据以上我们可以得出：
同一个Executor中执行的任务，可以共享同一个数据缓存。这也是Spark称之为Process local级别的数据本地性。
Executor可并发执行的任务数量，与其所拥有的核心数相同。
并发任务之间可能会产生相互干扰，如有些任务占用内存较大会导致其他并发任务失败。
Executor都需要注册到Driver上并与其通信，过多的Executor数量会增加Driver负担。
在阶段划分为任务时，会得到与分区数相同的任务数量。减少分区的数量将减少任务数，同时每个任务所处理的计算量会增大。
考虑到任务本身的序列化，发送，运行环境准备，结果收集都需要占用Driver资源和Executor资源，减少任务数能够减少此类开销。
在实践中，每个Executor可以配置多个核心，从而降低Executor数量，还可以得到更好的数据本地性。
根据所配置的核心数量与分区数据量，可以估计出Executor所需最小内存 = 并发任务数 单分区大小 + 内存缓存分区数 单分区大小。
分区数的配置与具体业务逻辑相关，为了将计算资源充分利用，可以参考：分区数 并发Job数 >= Executor数 Executor核心数。
其中并发Job数是RDD在调用动作（action）类型的操作时产生的Job，Job之间的阶段是没有依赖关系的因此可并发执行。

2.spark.executor.memory 单个Executor最大内存

在配置executor的内存大小的时候，需要考虑以下因素：
1.增加executor的内存可以优化map join。但是会增加GC的时间。
2.还有一点是要求 spark.executor.memory 
不能超过 yarn.scheduler.maximum-allocation-mb
(scheduler调度程序所能申请的最大内存) 设置的值。

3.配置Driver内存

JVM申请的memory不够会导致无法启动SparkContext
		1.spark.driver.memory 当hive运行在spark上时，driver端可用的最大Java堆内存。
		2.spark.yarn.driver.memoryOverhead 每个driver可以额外从yarn请求的堆内存大小。
			spark.yarn.driver.memoryOverhead 加上 spark.driver.memory 就是yarn为driver端的JVM分配的总内存。
　　			Spark在Driver端的内存不会直接影响性能，但是在没有足够内存的情况下在driver端强制运行Spark任务需要调整。
		3.SparkContext的重用
			1.有些场景需要一个SparkContext持续接收计算任务，这种场景往往对计算任务的时效性要求较高（秒级别），
			  并且可能会有并发的计算任务（如多用户提交任务）。这种场景适合采用yarn-client模式，让Driver位于应用内部，
			  应用可以不断向Driver提交计算任务，并处理返回结果。这种模式的潜在风险在于Driver和Executor都会长时间持续运行，可能会有内存泄露的问题。
			2.在实践中，在RDD被persist缓存到内存后，调用unpersist并不能立即释放内存，而是会等待垃圾回收器对其进行回收。
			  在垃圾回收器的选择上，建议使用CMS类型的垃圾回收器，用于避免垃圾回收过程中的顿卡现象。
			3.在Driver和Executor的垃圾回收不出问题的情况下，还是可以得到稳定的计算任务性能的。但如果某些情况下计算性能还是随时间推移而下降，
			  则可以重启SparkContext以解决问题。因为重启SparkContext后Driver和Executor都会全新创建，因此能回到最初的性能。
			  重启的方法是在当前所有任务都完成后，在应用中调用SparkContext.stop()方法，并移除SparkContext引用，然后创建新的SparkContext。
			4.Driver在启动时需要将Spark的Jar包上传到集群，用于启动每个Executor。这个jar包的大小约130M。
			  Executor在接收任务时，会将任务所依赖的文件、Jar包传输到本地，这里的jar包是应用包，一般包含了应用的各类依赖一般也得100M，
			  Jar包分发的耗时在10秒左右。在对计算任务时效性要求较高的场景，Jar包分发的10秒将是无法接受的。
			  在这里可以采用预先分发的方式解决此问题。我们首先将Spark Jar和应用Jar上传到各个节点的某个相同位置，例如/root/sparkjar。
			5.避免Driver启动时分发Jar包：
				将Driver机上的SPARK_JAR环境变量设置为空，避免Jar包上传动作。
				在yarn-site.xml配置文件中，设置yarn.application.classpath为spark jar的位置与此项默认值。
			6.避免Task启动时分发依赖和Jar包：
				将spark.files和spark.jars中的路径配置为local:/root/sparkjar的模式，从而让Executor从本地复制。

4.设置executor个数

1.集群的executor个数设置由集群中每个节点的executor个数和集群的worker个数决定，
		  如果集群中有3个worker，每个worker有8个核心，则Hive On Spark可以使用的executor最大个数是24个（3 * 8）。
		  Hive的性能受可用的executor的个数影响很明显，一般情况下，性能和executor的个数成正比，4个executor的性能大约是2个executor性能的一倍，
		  但是性能在executor设置为一定数量的时候会达到极值，达到这个极值之后再增加executor的个数不会增加性能，反而有可能会为集群增加负担。

		2.动态分配executor：
			spark.executor.instances 一个Application拥有的Executor数量，默认值为无
　　				设置spark.executor.instances到最大值可以使得Spark集群发挥最大性能。但是这样有个问题是当集群有多个用户运行Hive查询时会有问题，
				应避免为每个用户的会话分配固定数量的executor，因为executor分配后不能回其他用户的查询使用，
				如果有空闲的executor，在生产环境中，计划分配好executor可以更充分的利用Spark集群资源。
				Spark允许动态的给Spark作业分配集群资源，cloudera推荐开启动态分配。

		3.设置并行度
　　			为了更加充分的利用executor，必须同时允许足够多的并行任务。在大多数情况下，hive会自动决定并行度，但是有时候我们可能会手动的调整并行度。
			在输入端，map task的个数等于输入端按照一定格式切分的生成的数目，Hive On Spark的输入格式是CombineHiveInputFormat，
			可以根据需要切分底层输入格式。调整hive.exec.reducers.bytes.per.reducer控制每个reducer处理多少数据。
			但是实际情况下，Spark相比于MapReduce，对于指定的hive.exec.reducers.bytes.per.reducer不敏感。
			我们需要足够的任务让可用的executor保持工作不空闲，当Hive能够生成足够多的任务，尽可能的利用空闲的executor。

4.配置Hive

1.Hive on Spark的配置大部分即使不使用Hive，也可以对这些参数调优。
	  但是hive.auto.convert.join.noconditionaltask.size这个参数是将普通的join转化成map join的阈值，这个参数调优对于性能有很大影响。
	  MapReduce和Spark都可以通过这个参数进行调优，但是这个参数在Hive On MR上的含义不同于Hive On Spark。
	2.数据的大小由两个统计量标识：
		totalSize 磁盘上数据的大小
		rawDataSize 内存中数据的大小
	3.Hive On MapReduce使用的是totalSize，Spark使用rawDataSize。
		数据由于经过一系列压缩、序列化等操作，即使是相同的数据集，也会有很大的不同，对于Hive On Spark，
		需要设置 hive.auto.convert.join.noconditionaltask.size，将普通的join操作转化成map join来提升性能，
		集群资源充足的情况下可以把这个参数的值适当调大，来更多的触发map join。
		但是设置太高的话，小表的数据会占用过多的内存导致整个任务因为内存耗尽而失败，所有这个参数需要根据集群的资源来进行调整。
　　	4.Cloudera推荐配置两个额外的配置项：
		hive.stats.fetch.column.stats=true
		hive.optimize.index.filter=true

	5.以下还整理了一些配置项用于hive调优：
		hive.merge.mapfiles=true
		hive.merge.mapredfiles=false
		hive.merge.smallfiles.avgsize=16000000
		hive.merge.size.per.task=256000000
		hive.merge.sparkfiles=true
		hive.auto.convert.join=true
		hive.auto.convert.join.noconditionaltask=true
		hive.auto.convert.join.noconditionaltask.size=20M(might need to increase for Spark, 200M)
		hive.optimize.bucketmapjoin.sortedmerge=false
		hive.map.aggr.hash.percentmemory=0.5
		hive.map.aggr=true
		hive.optimize.sort.dynamic.partition=false
		hive.stats.autogather=true
		hive.stats.fetch.column.stats=true
		hive.compute.query.using.stats=true
		hive.limit.pushdown.memory.usage=0.4 (MR and Spark)
		hive.optimize.index.filter=true
		hive.exec.reducers.bytes.per.reducer=67108864
		hive.smbjoin.cache.rows=10000
		hive.fetch.task.conversion=more
		hive.fetch.task.conversion.threshold=1073741824
		hive.optimize.ppd=true

	6.官方的推荐配置 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started
		mapreduce.input.fileinputformat.split.maxsize=750000000
		hive.vectorized.execution.enabled=true

		hive.cbo.enable=true
		hive.optimize.reducededuplication.min.reducer=4
		hive.optimize.reducededuplication=true
		hive.orc.splits.include.file.footer=false
		hive.merge.mapfiles=true
		hive.merge.sparkfiles=false
		hive.merge.smallfiles.avgsize=16000000
		hive.merge.size.per.task=256000000
		hive.merge.orcfile.stripe.level=true
		hive.auto.convert.join=true
		hive.auto.convert.join.noconditionaltask=true
		hive.auto.convert.join.noconditionaltask.size=894435328
		hive.optimize.bucketmapjoin.sortedmerge=false
		hive.map.aggr.hash.percentmemory=0.5
		hive.map.aggr=true
		hive.optimize.sort.dynamic.partition=false
		hive.stats.autogather=true
		hive.stats.fetch.column.stats=true
		hive.vectorized.execution.reduce.enabled=false
		hive.vectorized.groupby.checkinterval=4096
		hive.vectorized.groupby.flush.percent=0.1
		hive.compute.query.using.stats=true
		hive.limit.pushdown.memory.usage=0.4
		hive.optimize.index.filter=true
		hive.exec.reducers.bytes.per.reducer=67108864
		hive.smbjoin.cache.rows=10000
		hive.exec.orc.default.stripe.size=67108864
		hive.fetch.task.conversion=more
		hive.fetch.task.conversion.threshold=1073741824
		hive.fetch.task.aggr=false
		mapreduce.input.fileinputformat.list-status.num-threads=5
		spark.kryo.referenceTracking=false
		spark.kryo.classesToRegister=org.apache.hadoop.hive.ql.io.HiveKey,org.apache.hadoop.io.BytesWritable,org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch

	7.设置Pre-warming Yarn Container
　　		我们使用Hive On Spark的时候，提交第一个查询时，看到查询结果可能会有比较长的延迟，但是再次运行相同的SQL查询，完成速度要比第一个查询快得多。
		当Spark使用yarn管理资源调度时，Spark executor需要额外的时间来启动和初始化，在程序运行之前，Spark不会等待所有的executor准备好之后运行，
		所有在任务提交到集群之后，仍有一些executor处于启动状态。在Spark上运行的作业运行速度与executor个数相关，
		当可用的executor的个数没有达到最大值的时候，作业达不到最大的并行性，所有Hive上提交的第一个SQL查询会慢。
		如果是在长时间会话这个应该问题影响很小，因为只有执行第一个SQL的时候会慢，问题不大，但是很多时候我们写的Hive脚本，
		需要用一些调度框架去启动（如Oozie）。这时候我们需要考虑进行优化。
		为了减少启动时间，我们可以开启container pre-warming机制，开启后只有当任务请求的所有executor准备就绪，作业才会开始运行。
		这样会提升Spark作业的并行度。

你可能感兴趣的:(CDH)

2023 下半年信息安全工程师考试真题答案 rockmelodies 安全网络安全
一、单项选择如下有关信息安全管理员职责旳论述，不对旳旳是（）A.信息安全管理员应当对网络旳总体安全布局进行规划B.信息安全管理员应当对信息系统安全事件进行处理C.信息安全管理员应当负责为顾客编写安全应用程序D.信息安全管理员应当对安全设备进行优化配置国家密码管理局于2023年公布了“无线局域网产品须使用旳系列密码算法”，其中规定密钥协商算法应使用旳是（）A.DHB.ECDSAC.ECDHD.CPK
kafka消费者重复消费同一个topic 小琳ai 大数据 kafka 重复消费 consumer
我的需求是我有多个消费者，需要重复消费某一个topic。场景是sparkstreaming消费kafka数据在这里sparkstream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用，发现会发生后起来的应用消费不到数据。按理来讲不同的groupid属于不同的消费组，不会相互影响。由于是使用的cdh集成的kafka，不知道cdh里的zookeeper管理kafka的数据存在了
Django HelloWorld 部署 SkTj
第一阶段：搭建Django框架mkdirdjango//创建一个文件夹命名为djangocddjango//进入django文件夹django-adminstartprojectHelloWorld//创建一个Project命名为HelloWorldcdHelloWorld//进入HelloWorld查看一下目录，结果有两个文件：HelloWorld//该目录用于存放一些配置信息manage.py
hue升级文档 101之歌
首先，确定我们的两个安装包：hue.zip（这个包也可以从我们的git仓库下载，具体链接我会发给你）huetool.zip然后，在CDH的管理界面停止hue的服务：1，进入hue2，选择实例3，选择HueServer4，选择“操作”-->“停止此HueServer”停止了hue服务以后，进入shell，开始安装kerberos：1，解压huetool.zip2，进入，打开krb5.conf3，修改
实训day37（8.27） Tʀᴜsᴛ⁴¹⁷487 linux
一、dockerfile应用[root@docker~]#mkdirhttp0[root@docker~]#cdhttp0/[root@dockerhttp0]#vimabc.sh[root@dockerhttp0]#lsabc.sh[root@dockerhttp0]#vimabc.sh#!/bin/bashrm-rf/run/*httpd*exec/sbin/httpd-DFOREGROUND
CDH 之 hive 数据迁移啊这 CDH hive hadoop 大数据迁移学习
当你想切换了集群想把hive迁移至新集群，两个集群之间又互不相通，一个最简单快捷的方法，就是批量导出元数据信息，同时把数据文件下载上传至新服务器的数据文件存放目录下1.导出元数据信息#database即是数据库名称hive-e"use;showtables;"|xargs-I'{}'sh-c'hive-e"use;showcreatetable'{}';"'>tables.sql2.将原服务器中h
Gitlab CI/CD 配置 netkiller- 运维手札编程手札 gitlab ci/cd git
CI/CDhttps://gitlab.com/gitlab-examplesGitlab(仓库)->GitlabRunner（持续集成/部署）->Remotehost（远程部署主机）11.5.1.远程服务器配置为远程服务器创建www用户，我们将使用该用户远程部署，远程启动程序。[root@netkiller~]#groupadd-g80www[root@netkiller~]#adduser-o
在linux机器中安装配置hadoop BigData_C linux hadoop
1.首先我们要把hadoop包上传到我们的liunx机器中（运用外链软件上传如：Xshell+xftp）（用我们的外链软件连接成功后，进行hadoop包的上传）上传到我们想要的目录路径下，比如我的是上传到/home/hadoop目录下。（我们可以看到红色字体的hadoop包已经上传成功）2.进行解压，运用命令：tar-zxvfhadoop-2.6.0-cdh5.7.6.tar.gz进行解压，解压后
天猫超市优惠获取渠道，天猫超市内部优惠劵领取方法使用教程氧惠全网优惠
天猫超市是一个不错的购物平台，满足用户所需，基本次日达，很方便的购物平台，那么有人问我，天猫超市优惠获取渠道在哪？怎么能够优惠的购买，今天分享给大家；1、天猫超市优惠券抢好券：天猫超市首页每天可以领取满199减30、满235减35、满299减50、满399减60、满166减30等优惠券，领劵方法复制下条口令打开淘宝进入领劵会场；隐藏神券、实时爆款、天天更新！戳>(CZ9185ZatcdhNADlJ
CDH 启停使用HiveServer2 金刚_30bf
翻译：https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hiveserver2_start_stop.html版本：5.14.2HiveServer2是HiveServer的改进版本，支持Kerberos身份验证和多客户端并发访问。您可以使用Beeline客户端访问HiveServer2。警告：如果以远程模
大数据开源框架技术汇总浪尖聊大数据-浪尖数据仓库 hive flume 分布式 scipy makefile crm lighttpd
主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。目录系统平台（Hadoop、CDH、HDP）监控管理（CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle）文件系统（HDFS、GPFS、Ceph、Gluster
【python】密码字典生成器 HarryXYC 我的Python朋友 python 网络安全密码字典生成
项目源码仓库：harry-passwd-dict-creator:根据简单的表达式生成密码字典文件(gitee.com)一、介绍harry-passwd-dict-creator（下简称pdc）集合了一些哈里自写的密码字典生成工具。二、安装确保已安装gitgitclonehttps://gitee.com/harryxiaocn/harry-passwd-dict-creator.gitcdhar
开源大数据管理平台选型大数据AI 大数据从入门到精通大数据
随着CDH和HDP的闭源，还有国内信创需求，经过前期调研和后期实践，目前主要有两个产品满足要求：apachebigtop和DataSophon符合要求。因为这两个产品都是完全开源的，自助可控。一apachebigtop项目地址：https://bigtop.apache.orgApacheBigtop是一个开源项目，旨在提供一套完整的开源软件栈，用于构建、测试和部署大数据应用程序。该项目的主要目标
16.用Hadoop命令向CDH集群提交MR作业大勇任卷舒
16.1实验环境介绍内容概述环境准备Kerberos环境和非Kerberos集群测试环境Kerberos集群CDH5.11.2，OS为Redhat7.2非Kerberos集群CDH5.13，OS为CentOS6.5前置条件CDH集群运行正常本地开发环境与集群网络互通且端口放通16.2示例这里使用的代码是没有加载CDH集群的xml配置的，因为使用hadoop命令提交时会加载集群的配置信息（如hdfs
[CDH] Spark 属性、内存、CPU相关知识梳理枪枪枪 Spark spark scala big data
version：2.4.0-cdh6.3.0文章目录sparkproperties常用配置sparktasksparktask使用的cpu核数sparkarchitecturesparkmemorysparkonyarn问题1：什么情况下使用spark.executor.memoryOverhead问题2:什么情况下使用spark.executor.memory小总结：归根结底，spark中的cp
大数据分析学习第十五课自建云服务器集群离线安装Ambari2.7.5和HDP3.1.5(一) 猫头鹰数据分析大数据 Java Hive hadoop ambari 大数据 centos hdfs
之前了解了很多关于大数据平台一站式部署管理的工具，比如ApacheAmbari和CDH，目前最新的CDH已经没有了社区版，也就是说以后使用新版本的ClouderaManager和CDH都是要收费的，这对于很多小公司来说，可能无法承受。转向Ambari是他们的一个可选项。Ambari是Apache的一个顶级开源项目，开源是其最大的优势，开源也意味着Ambari可以灵活地进行扩展，集成更多的数据组件，
生产环境下，应用模式部署flink任务，通过hdfs提交但行益事莫问前程 flink flink
前言通过通过yarn.provided.lib.dirs配置选项指定位置，将flink的依赖上传到hdfs文件管理系统1.实践（1）生产集群为cdh集群，从cm上下载配置文件，设置环境exportHADOOP_CONF_DIR=/home/conf/authexportHADOOP_CLASSPATH=`hadoopclasspath` （2）上传flink的lib和plugins、自己
Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案 DolphinScheduler社区大数据
背景看到ApacheDolphinScheduler社区群有很多用户反馈和讨论这块问题，针对不兼容的问题，不仅需要自己重新编译各一个新包，而且因为默认是使用zk-3.8的配置，所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x解决办法（一）#切换到项目源码的根路径中执行mvncleanpackage-T1C-Prelease'-Dmaven.test.skip=true''-Dcheck
linux7软件选择最小,[CentOS7] - 最小化安装CentOS7后可以选择安装的软件 weixin_39946429 linux7软件选择最小
所有命令最后一个‘--’后面是这命令的注释，无需执行选择需要安装的软件进行安装1.登陆root使用root的账户和密码登陆root。2.连接网络如果要连接无线网络使用以下步骤：ipaddrshow--列出网卡信息，找到你的无线网卡wpa_supplicant-B-i无线网卡名称-cdhclient无线网卡名称--获取动态ip如果要使用静态IP连接网络使用一下步骤：ipaddrshow--列出网卡信
最小化安装centos7配置ip_最小化安装CentOS7后的步骤 h8liu
所有命令最后一个‘--’后面是这命令的注释，无需执行选择需要安装的软件进行安装1.登陆root使用root的账户和密码登陆root。2.连接网络如果要连接无线网络使用以下步骤：ipaddrshow--列出网卡信息，找到你的无线网卡wpa_supplicant-B-i无线网卡名称-cdhclient无线网卡名称--获取动态ip如果要使用静态IP连接网络使用一下步骤：ipaddrshow--列出网卡信
Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案数据库
背景看到ApacheDolphinScheduler社区群有很多用户反馈和讨论这块问题，针对不兼容的问题，不仅需要自己重新编译各一个新包，而且因为默认是使用zk-3.8的配置，所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x解决办法（一）切换到项目源码的根路径中执行mvncleanpackage-T1C-Prelease'-Dmaven.test.skip=true''-Dchecks
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
华为OD机试】连续字母长度-python 小念念不唠叨华为od python 开发语言
python-连续字母长度题目代码总结用到知识点代码编写总结题目题目描述给定一个字符串：只包含大写字母：求在包含同一个字母的子串中,长度第k长的子串的长度;相同字母只取最长的那个子串。若子串中只包含同一个字母的子串数小于k;则输出-1.输入描述：第一行有一个字符串：只包含大写字母第二行有一个数字：表示k的值输出描述：输出连续出现次数第k多的字母的次数示例1：输入AAAAHHHBBCDHHHH3输出
FPGA_工程_基于rom的vga显示哈呀_fpga fpga开发 fpga 图像处理学习信号处理系统架构
一框图二代码修改moduleDisplay#(parameterH_DISP=1280,parameterV_DISP=1024,parameterH_lcd=12'd150,parameterV_lcd=12'd150,parameterLCD_SIZE=15'd10_000)(inputwireclk,inputwirerst_n,inputwire[11:0]lcd_xpos,//lcdho
2022-04-13--SecureCRT SSH 失败 Key exchange failed 解决方法 lyx_lyx
1.连接报错:Keyexchangefailed2.仔细看报错提示:3.Nocompatiblekey-exchangemethod.Theserversupportsthesemethods:curve25519-sha256,[email protected],ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521
nginx 配置https hibigger
http{server{listen443;server_namewww.qiyuanwang.cn;sslon;roothtml;indexindex.htmlindex.htm;ssl_certificatecert/server.pem;ssl_certificate_keycert/server.key;ssl_session_timeout5m;ssl_ciphersECDHE-RSA-
天猫双十一红包口令玩法 m0_51290176
双十一最强红包攻略来了啦，今年没什么红包雨，只有超级红包。今天是天猫双十一红包加码的日子，大家一定要抓紧时间领取一下天猫双十一红包，中奖概率高达80%以上，有大概率中现金，而且如果你是首次领取的话，那么必中两个现金红包!必中!所以千万不要错过，天猫双十一红包的领取方式如下。天猫红包手机端：￥YkdnciQvcdh$(复制口令打开手淘或天猫即可)电脑端红包地址：https://1111.tmall.
Rust语言入门（4）—— Hello world& Cargo 王丰博 Rust rust 开发语言后端
Helloworld上一篇我们完成了Rust环境的搭建，本章我们会介绍如何创建Rust的第一个工程，以及后续如何使用cargo构建项目1.编写运行Helloworld(1)创建一个hello_world文件夹，然后创建hello_world.rsmkdirhello_worldcdhello_worldtouchhello_world.rs(2)打开hello_world.rs,并输入如下代码：f
Rust入门01——HelloWorld Mungbean Gliese Rust通用入门 rust 开发语言后端
1、简单编译方式打开终端新建名为”hello_world“的工程文件夹mkdirhello_worldcdhello_world在文件夹内创建main.rs，并写上入口函数fnmain(){println!("HelloWorld";)}调用rustc进行编译rustcmain.rs编译后可以看到在目录下有main.exe，在终端执行它即可看到打印的字符串。2、包创建方式编译打开终端新建名为”he
CM 部署，CDH安装一守望的天空_9a6e
一，基础环境配置1，安装一台miniCentos7，完整克隆3台。2，修改静态ip输入ifconfig，查看ip，vi/etc/sysconfig/network-scripts/ifcfg-ens33，修改为静态ip。BOOTPROTO=static设置网卡引导协议为静态ONBOOT=yesIPADDR=192.168.1.111NETMASK=255.255.255.0GATEWAY=192.
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h