sealhunter

1-0 三台PC集群的搭建（noHA）

1.部署

搭建方案(no_HA)：

project	hadoop	hadoop	Hbase	zookeeper
主机	hadoop	hadoop	Hbase	zookeeper
master1	Namenode	datanode（NM）	HMaster HRegionServer	zk
slave1	SNM,JHS	datanode（NM）	HMaster HRegionServer	zk
slave2	RM	datanode（NM）	HRegionServer	zk

2.LINUX基础环境搭建

(1) JDK

安装JDK（jdk-7u40-linux-i586.tar.gz）；（此步骤所有机子都要做）

部署目录 /opt/ jdk1.7.0_45

配置环境变量

(1) vi/etc/profile.d/java.sh (编辑文件)

(2) 添加

#set java environment

export JAVA_HOME=/opt/jdk1.7.0_45

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATH

export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

(3) 验证是否安装成功：java –version

(2) hosts

修改hosts

（此步骤所有机子都要做）

vi /etc/hosts

修改为：ip自定义

192.168.1.101 master1

192.168.1.102 slave1

192.168.1.103 slave2

(3) hostname

修改hostname（此步骤所有机子都要做）

vi/etc/sysconfig/network

修改为：

NETWORKING=yes

HOSTNAME=master1（slave1，slave2）

(4) ssh

配置ssh访问（看说明）

1）在（master1）当前用户(hadoop)主目录下执行

（1）$ ssh-keygen-t rsa

（2）cat.ssh/id_rsa.pub >> .ssh/authorized_keys

（3）chmod700 .ssh

（4）chmod644 .ssh/authorized_keys

2）master1到slave1,slave2机器的SSH无密码登录

接下来把authorized_keys复制到的slave1,slave2上。

scp~/.ssh/authorized_keys 远程用户名@远程服务器IP:~/

现在是master1可以无密码访问slave1,slave2.

要想实现任意两台机器互访，就在每台机器上都生成id_rsa和id_rsa.pub，然后把每台机器的公钥都添加进authorized_keys，然后把authorized_keys分发到所有机器上。

(5) 防火墙和selinux

关闭机器的防火墙和selinux（此步骤所有机子都要做）

关闭防火墙:

#/etc/init.d/iptables stop #关闭防火墙。

#chkconfig iptables off #关闭开机启动。

关闭selinux：

vi/etc/selinux/config，

把SELINUX=enforcing改成SELINUX=disable；需要重启机器

(6) 时间一致

授时服务（此步骤所有机子都要做）

配置时间同步

crontab-e

/usr/sbin/ntpdatecn.pool.ntp.org

手动同步时间

/usr/sbin/ntpdatecn.pool.ntp.org

(7)用户和本地目录

创建用户账号和Hadoop部署目录和数据目录（此步骤所有机子都要做）

#创建hadoop 用户

/usr/sbin/groupaddhadoop

#分配hadoop 到 hadoop组中

/usr/sbin/useraddhadoop -g hadoop

#创建hadoop,hbase,zookeepr部署目录

opt/hadoop-2.2.0

opt/hbase-0.96.0-hadoop2

opt/zookeeper-3.4.5

#修改目录结构权限为为hadoop

#本地文件系统涉及到的目录

mkdir -p /data/tmp_hadoop /data/hdfs/dn /data/hdfs/nn

/data/log/hadoop-hdfs /data/log/hadoop-yarn /data/log/hadoop-mapred

/data/yarn/local /data/yarn/logs

mkdir -p

/data/zookeeper/data/data/zookeeper/datalog

/data/tmp_hbase

/data/hbase

/data/journal

3.zookeeper集群安装

(1)部署

部署3个节点的 ZooKeeper，分别部署在master1、slave1、slave2三台机器上。ZooKeeper 部署的节点数为奇数个。

每个 ZooKeeper节点：

部署目录：/opt/zookeeper-3.4.5

创建目录

mkdir –p/data/zookeeper/data

mkdir –p/data/zookeeper/datalog

(2)环境变量

vi/etc/profile.d/zookeeper.sh

添加

#set zookeeper environment

export ZOOKEEPER_HOME=/opt/zookeeper-3.4.5

export PATH=$PATH:$ZOOKEEPER_HOME/bin

export ZOO_LOG_DIR=/data/zookeeper/datalog

(3)zoo.cfg

#编辑zookeeper-3.4.5 /conf/zoo.cfg

tickTime=2000

initLimit=10

syncLimit=5

dataDir= /data/zookeeper/data

dataLogDir=/data/zookeeper/datalog

clientPort=2181

server.1=master1:2888:3888

server.2=slave1:2888:3888

server.3=slave2:2888:3888

(4)同步zookeeper集群

(5) myid

在各个zookeepr节点上修改myid

在dataDir目录中创建名为 “myid” 的文件，在 server.1 的myid 文件中写入”1”这个数字，在 server.2 的myid 文件写入”2”， server.3 写”3”。

比如：在master3上

echo 1 > /data/zookeeper/data/myid

(6)启动

zookeeper（所有zookeeper服务器都要运行）

zkServer.sh start

jps: QuorumPeerMain

4.HADOOP 集群

(1)部署

部署目录：/opt/hadoop-2.2.0

创建目录

master1，slave1（NN,SNN）

mkdir –p /data/hdfs/nn

所有hadoop节点：

mkdir–p /data/tmp_hadoop /data/hdfs/dn /data/log/hadoop-hdfs /data/log/hadoop-yarn /data/log/hadoop-mapred /data/yarn/local /data/yarn/logs

(2)环境变量

vi/etc/profile.d/hadoop.sh

添加

#set hadoop environment

export HADOOP_HOME=/opt/hadoop-2.2.0

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

(3)配置文件修改

1）配置masters,(这里指定Secondarynamenode)

slave1

2）配置slaves

#标识集群的datanode

master1

lave1

slave2

3）配置hadoop-env.sh

export JAVA_HOME=/opt/jdk1.7.0_45

export HADOOP_LOG_DIR=/data/log/hadoop-hdfs

export YARN_LOG_DIR=/data/log/hadoop-yarn

export HADOOP_MAPRED_LOG_DIR=/data/log/hadoop-mapred

4）配置yarn-env.sh

export JAVA_HOME=/opt/jdk1.7.0_45

5）编辑core-site.xml

hadoop.tmp.dir

/data/tmp_hadoop

Abasefor other temporary directories.

fs.defaultFS

hdfs://master1:9000

fs.trash.interval

1440

fs.trash.checkpoint.interval

1440

io.file.buffer.size

131072

dfs.blocksize

67108864

6）编辑hdfs-site.xml

dfs.namenode.name.dir

/data/hdfs/nn

dfs.datanode.data.dir

/data/hdfs/dn

dfs.permissions.superusergroup

hadoop

dfs.namenode.secondary.http-address

master2:9001</value>

dfs.namenode.handler.count

100

dfs.replication

7）编辑mapred-site.xml

mapreduce.framework.name

yarn

mapreduce.map.memory.mb

1536

mapreduce.map.java.opts

-Xmx1024M

mapreduce.reduce.memory.mb

3072

mapreduce.reduce.java.opts

-Xmx2560M

mapreduce.task.io.sort.mb

512

mapreduce.task.io.sort.factor

100

mapreduce.reduce.shuffle.parallelcopies

mapreduce.jobhistory.address

slave1:10020

mapreduce.jobhistory.webapp.address

slave1:19888

mapreduce.jobhistory.intermediate-done-dir

/mr-history/tmp

mapreduce.jobhistory.done-dir

/mr-history/done

mapreduce.shuffle.port

13562

8）编辑yarn-site.xml

yarn.nodemanager.local-dirs

/data/yarn/local

yarn.nodemanager.log-dirs

/data/yarn/logs

yarn.nodemanager.remote-app-log-dir

/tmp/logs

yarn.nodemanager.remote-app-log-dir-suffix

logs

dfs.datanode.max.xcievers

4096

yarn.log-aggregation-enable

true

yarn.resourcemanager.webapp.address

slave2:8088

yarn.resourcemanager.admin.address

slave2:8033

yarn.resourcemanager.address

slave2:8032

yarn.resourcemanager.scheduler.address

slave2:8030

yarn.resourcemanager.resource-tracker.address

slave2:8031

yarn.resourcemanager.scheduler.class

org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler

yarn.scheduler.minimum-allocation-mb

512

yarn.scheduler.maximum-allocation-mb

4096

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class

org.apache.hadoop.mapred.ShuffleHandler

yarn.nodemanager.resource.memory-mb

8192

yarn.nodemanager.vmem-pmem-ratio

2.1

yarn.nodemanager.log.retain-seconds

10800

yarn.log-aggregation.retain-seconds

-1

yarn.log-aggregation.retain-check-interval-seconds

-1

(4)同步hadoop节点

(5) 启动

master1(第一次需要格式化namenode)

hadoop namenode -format

启动（namenode,secondarynamenode,datanode）

start-dfs.sh

slave2,启动yarn（RM,NM）

start-yarn.sh

slave1，启动JHS

mr-jobhistory-daemon.sh start historyserver

访问：http://master1:50070

http://slave2:8088

http://slave1:19888

5.Hbase集群安装

(1)部署

前提：Hadoop集群，zookeeper集群已搭建好。

部署目录：/opt/hbase-0.96.0-hadoop2

Hbase节点上创建目录：

mkdir –p/data/hbase/logs

mkdir –p/data/hbase/tmp_hbase

(2)环境变量

vi/etc/profile.d/java.sh (编辑文件)

#set HBase environment

export HBASE_HOME=/opt/hbase-0.96.0-hadoop2

export PATH=$PATH:$HBASE_HOME/bin

export HBASE_HEAPSIZE=4096

(3)修改最大文件句柄限制

HBase是数据库，会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的，

（ubuntu为例）

gedit /etc/security/limits.conf

hadoop -nofile 32768

hadoop soft/hard nproc 32000

gedit /etc/pam.d/ common-session

session required pam_limits.so

(4)替换包

在分布式模式下，Hadoop版本必须和HBase下的版本一致。用你运行的分布式Hadoop版本jar文件替换HBaselib目录下的Hadoop jar文件，以避免版本不匹配问题。确认替换了集群中所有HBase下的jar文件。Hadoop版本不匹配问题有不同表现，但看起来都像挂掉了。（habse-0.96.0+hadoop-2.2.0，其中替换17个jar包）

(5) 配置文件

1）修改/conf/regionservers文件，增加regionserver

master1

slave1

slave2

2）修改 /conf/hbase-env.sh

export JAVA_HOME=/opt/jdk1.7.0_45

export HBASE_CLASSPATH=/opt/hadoop-2.2.0/etc/hadoop

export HBASE_MANAGES_ZK=false

export HBASE_LOG_DIR=/data/hbase/logs

3）修改/conf/hbase-site.xml文件

hbase.master

master1:60000

hbase.rootdir

hdfs://master1:9000/hbase

hbase.cluster.distributed

true

hbase.zookeeper.property.clientPort

2181

hbase.zookeeper.quorum

master1,slave1,slave2

The directory shared by regionservers.

zookeeper.session.timeout

60000

hbase.tmp.dir

/data/hbase/tmp_hbase

hbase.regionserver.restart.on.zk.expire

true

hbase.regionserver.handler.count

处理用户请求的线程数量，默认10

(6)同步hbase节点

(7)启动

master1上

bin/start-hbase.sh

访问 http://master1:60010

测试：bin/hbase shell

你可能感兴趣的:(hadoop集群)

解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
基于分布式计算的电商系统设计与实现【系统设计、模型预测、大屏设计、海量数据、Hadoop集群】王小王-123 hadoop 大数据分布式电商系统分析分布式计算
文章目录==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==项目展示项目介绍目录摘要Abstract1引言1.1研究背景1.2国内外研究现状1.3研究目的1.4研究意义2关键技术理论介绍2.1Hadoop相关组件介绍2.2分布式集群介绍2.3Pyecharts介绍2.4Flask框架3分布式集群搭建及数据准备3.1Hadoop全套组件搭建3.2数据集介绍3.3数据预处理4分布式计
Hive 运行在 Tez 上爱吃酸梨大数据
Tez介绍Tez是一种基于内存的计算框架，速度比MapReduce要快解释：浅蓝色方块表示Map任务，绿色方块表示Reduce任务，蓝色边框的云朵表示中间结果落地磁盘。Tez下载Tez官网Tez在Hive上的运用前提要有Hadoop集群上传Tez压缩包到Hive节点上tar-zxvfapache-tez-0.9.1-bin.tar.gz-C/opt/module/tez-0.9.1修改$HIVE_
基于Hadoop的高校教学管理平台设计与实现这是辰辰啊 hadoop hadoop 大数据
摘要：随着信息化的推进，高校已经建设了很多信息化系统，积累了大量的数据。如何从海量数据中，挖掘有用、有价值的信息，支撑智慧校园的建设，成为需要迫切解决的问题。文中就高校大数据平台的关键技术和架构进行阐述，结合高校实际情况，设计高校大数据平台架构，通过搭建Hadoop集群环境，以业务系统和平台之间的数据交互验证平台设计的可行性和优势。通过研究，文中以高校建设大数据平台提出一种设计方案，为高校信息化建
Ubuntu下部署Hadoop集群+Hive（三）岩屿 hadoop ubuntu hive
Hive部署准备环境apache-hive-4.0.0-bin.tar.gz、mysql-connector-j-8.1.0.jar如果是离线安装的话，使用mysql-8.0.34-1.el7.x86_64.rpm-bundle.tar，在线安装的话则不用；hive下载地址：Indexof/hive(apache.org)mysqlconnector下载地址：MySQL::DownloadConn
Hadoop入门基础（五）：Hadoop 常用 Shell 命令一网打尽，提升你的大数据技能！ william.zhang(张) 大数据 Hadoop 容器大数据 hadoop 分布式
1.Hadoop基本命令1.1查看版本信息hadoopversion用于检查Hadoop的版本信息以及编译信息。1.2启动和停止Hadoop集群start-dfs.shstart-yarn.shstop-dfs.shstop-yarn.shstart-dfs.sh和stop-dfs.sh分别用于启动和停止HDFS，而start-yarn.sh和stop-yarn.sh用于管理YARN服务。1.3格
Hadoop入门基础（二）：Hadoop集群安装与部署详解（超详细教程） william.zhang(张) hadoop 大数据分布式
一、环境准备1.集群规划首先，需要为集群中的每台机器设置角色和网络配置。在此示例中，我们使用三台机器：角色主机名IP地址NameNodemaster192.168.1.101DataNode1slave1192.168.1.102DataNode2slave2192.168.1.1032.软件要求操作系统：CentOS7或Ubuntu20.04JavaJDK：Hadoop需要JDK8或更高版本安装
Ubuntu下部署Hadoop集群+Hive（一）岩屿 hadoop ubuntu hive 大数据
准备环境：3台Ubuntu服务器（版本20.04），自建的虚拟机也可以；推荐内存：8GB以上；部署也支持Ubuntu20.04以上版本，或是Centos也可以。配置主机Host在三台服务器上添加主机名与IP的映射，以方便在局域网内进行主机间的快速访问和后续的文件配置；配置方法：vi/etc/hosts为方便配置：我的三台主机取名为HadoopMaster、HadoopSlave01、HadoopS
Ubuntu下部署Hadoop集群+Hive（二）岩屿 hadoop hive
Hadoop集群搭建准备环境hadoop-3.3.6.tar.gz，jdk-8u421-linux-x64.tar.gz根据自己的使用下载对的hadoop和jdk版本hadoop下载地址：ApacheHadoopJDK下载地址：JavaDownloads|Oracle在3台服务器上的/opt/目录下新建module和software文件夹，其中software文件夹用来存放软件包，module用来
(17)Hive ——MR任务的map与reduce个数由什么决定？爱吃辣条byte #Hive hive 数据仓库
一、MapTask的数量由什么决定？MapTask的数量由以下参数决定文件个数文件大小blocksize一般而言，对于每一个输入的文件会有一个mapsplit，每一个分片会开启一个map任务，很容易导致小文件问题（如果不进行小文件合并，极可能导致Hadoop集群资源雪崩）hive中小文件产生的原因及解决方案见文章：(14)Hive调优——合并小文件-CSDN博客文章浏览阅读779次，点赞10次，收
记一次 Flink 作业启动缓慢卢说 Hadoop 大数据 Flink flink 大数据 hadoop hdfs
记一次Flink作业启动缓慢背景应用发现，Hadoop集群的hdfs较之前更加缓慢，且离线ELT任务也以前晚半个多小时才能跑完。此前一直没有找到突破口所以没有管他，推测应该重启一下Hadoop集群就可以了。今天突然要重启一个Flink作业，发现有一个过程卡了五分钟。现象由上图可知09:36到09:41这两个过程中间花了五分钟，这两条都是Flink的日志，所以推测中间是Flink的某些过程卡住了。那
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
Hadoop搭建之 start-yarn.sh 报错万里长江雪 java hadoop hdfs 大数据运维网络
在搭建伪分布式的Hadoop集群环境时，在配置基础环境了并成功开启了HDFS组件后，jps查看已运行的名称节点和数据节点进程，[hadoop@masterhadoop]$jps8994NameNode10396Jps9087DataNode9279SecondaryNameNode然后尝试开启YARN组件，但是报错：[hadoop@masterhadoop]$start-yarn.shstarti
MapReduce 诺冰1314 大数据 haoop MapReduce hadoop mapreduce 大数据
MapReduce定义mapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架。mapreduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并运行在一个hadoop集群上。MapReduce的优缺点优点：易于编程良好的扩展性高容错性适合tb/pb级以上海量数据的离线处理缺点：不擅长实时计算不擅长流式计算不擅长DAG
Hive入门，Hive是什么？ JayGboy hive hadoop 数据仓库
1.1Hive是什么？Hive是一个开源的数据仓库工具，主要用于处理大规模数据集。它是建立在Hadoop生态系统之上的，利用Hadoop的分布式存储和计算能力来处理和分析数据。Hive的本质是一个数据仓库基础设施，它提供了一种类似于SQL的查询语言，称为HiveQL，用于处理和分析存储在Hadoop集群中的数据。HiveQL允许用户使用类似于传统关系型数据库的查询语法来查询和分析数据，而无需编写复
MapReduce的uber运行模式盗梦者_56f2
背景在有些情况下，运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大，如果此时的任务分片很多，那么为每个map任务或者reduce任务频繁创建Container，势必会增加Hadoop集群的资源消耗，并且因为创建分配Container本身的开销，还会增加这些任务的运行时延。如果能将这些小任务都放入少量的Container中执行，将会解决这些问题。Uber运行模式就是解决此类
CentOS7虚拟机 enss33没有ip地址我想吃新疆炒米粉！ tcp/ip hadoop 网络协议
参考链接：CentOS7虚拟机enss33没有ip地址的解决方法_ens33没有ip地址_weixin_45307968的博客-CSDN博客在搭建Hadoop集群时，需要修改ip地址，但是当我查看时发现并没有显示ip地址根据作者的方法修改成功了以下是命令行需要输入的命令1、查询ip地址ipaddr2、发现不存在ip地址，分别输入命令，每次输入命令都会提示需要输入密码systemctlstopNet
数据中台 pdf_数据中台到底怎么建设，有人把他说清楚了 weixin_39699121 数据中台 pdf
各位朋友，大家晚上好，我给大家分享的是《关于数据中台建设之思考》。本人断断续续从事数据仓库约有五六年经验，在移动公司前三年是负责数据仓库项目实施，后四年开发搞大数据平台，见证了从传统数据仓库转型到大数据平台的全历程，见证了大数据平台从0到1的全部过程，包括第一个MPP数据集市、第一个Hadoop集群项目、第一个流式数据处理项目，第一个完整的大数据平台的融合和构建，混搭式大数据平台的融合构建，大数据
Hadoop集群所有进程查看脚本在下区区俗物 hadoop 大数据 linux
1、在/home/atguigu/bin目录下创建脚本xcall.shcd/home/atguigu/binvimxcall.sh脚本编写如下内容#!/bin/bashforiinhadoop102hadoop103hadoop104doecho---------$i----------ssh$i"$*"done2、赋予文件运行权限chmod+xxcall.sh3、使用案例xcall.shjps相
HDFS执行balance报错：hdfs balance java.io.IOException: Another Balancer is running.. Exiting 不会吐丝的蜘蛛侠。 Hadoop hdfs hadoop java
现象：1、大数据Hadoop集群，HDFS扩容后，为了使各节点数据均衡，执行balance操作。2、启动hdfsbalance时，一直出现其他的balance在执行中，其实并没有执行。java.io.IOException:AnotherBalancerisrunning…Exiting…解决方法：网上的思路：①HDFS在运行Balancer的时候，会将运行Balancer的主机名写入到balan
CentOS7搭建Hadoop集群在下区区俗物 Hadoop集群安装部署 hadoop eclipse java
准备工作1、准备三台虚拟机，参考：CentOS7集群环境搭建（3台）-CSDN博客2、配置虚拟机之间免密登录，参考：CentOS7集群配置免密登录-CSDN博客3、虚拟机分别安装jdk，参考：CentOS7集群安装JDK1.8-CSDN博客4、下载Hadoop安装包，下载地址：链接：https://pan.baidu.com/s/1f1DmqNNFBvBDKi5beYl3Jg?pwd=6666搭建
hadoop集群搭建踩坑实录温文尔雅的流氓 Hadoop
由于不可控以及不可知的原因我搭建的hadoop集群突然显示虚拟机出现了问题导致某一个DataNode数据丢失并且无法通过Xshell远程访问其他的DataNode主机和虚拟机无法互相ping通网上能找的解决办法基本都找了依然无法解决因此我能想到的是只能删除虚拟机重新克隆一台机器然而还是无法通过远程连接无奈之下我重启电脑发现又可以通过Xshell远程访问了具体原因尚不知晓克隆成功后发现集群先格式化集
kyuubi 接入starrocks | doris 甜甜的巧克力阿大数据相关大数据 kyuubi starrocks doris
kyuubi接入starrocks一、环境Hadoop集群组件版本Hadoop3.1.1spark3.Xzookeeper3.XHive3.Xkyuubi版本1.7.1starrocks2.X 已将kyuubi部署到yarn上，并且接入了spark3引擎，并通过Ambari进行kyuubi组件的管理，下面步骤为新增对starrocks集群的访问。二、接入步骤假设安排hostA、hostB两个节点
Hadoop集群（第10期副刊）_常用MySQL数据库命令阿布2 Hadoop学习之道 hadoop集群 hadoop mapreduce 集群数据挖掘
1、系统管理1.1连接MySQL格式：mysql-h主机地址-u用户名－p用户密码举例：例1：连接到本机上的MySQL。首先在打开DOS窗口，然后进入目录mysqlbin，再键入命令"mysql–uroot–p"，回车后提示你输密码，如果刚安装好MySQL，超级用户"root"是没有密码的，故直接回车即可进入到MySQL中了，MySQL的提示符是：mysql>。例2：连接到远程主机上的MYSQL。
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装 WaiSaa
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟Hadoop等开源软件一样，也是ApacheSoftwareFoundation中的一个项目，并且是顶级项目。就Ambari的作用来说，就是创建、管理、监视Hadoop集群，但是这里的Hadoop指的是Hadoop整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper等），而并不仅是特指Had
hadoop调优-HDFS集群数据不均衡处理hdfs balancer 不会吐丝的蜘蛛侠。 Hadoop hadoop hdfs big data
查看当前的数据分布情况：hdfsdfsadmin-report现象一：集群上经常会增添新的DataNode节点，或者人为干预将数据的副本数降低或者增加。会造成datanode数据存储不均衡，一个datanode使用了70%，而有一个只使用了30%.解决：通过执行hadoop提供的balancer，来进行datanode之间数据balance。步骤：1、命令行设置宽带（如果在启动Hadoop集群前已
绝对完美解决hdfs datanode数据和磁盘数据分布不均调整（hdfs balancer ）——经验总结 ZhaoYingChao88 Hadoop hdfs
Hadoop集群Datanode数据倾斜，个别节点hdfs空间使用率达到95%以上，于是新增加了三个Datenode节点，由于任务还在跑，数据在不断增加中，这几个节点现有的200GB空间估计最多能撑20小时左右，所以必须要进行balance操作。通过观察磁盘使用情况，发现balance的速度明显跟不上新增数据的速度！！！跟踪了一下balance的日志，发现两个问题：一是balance时原有的十几个
6.Linux虚拟机下的Hadoop集群搭建之完全分布式配置学习BigData 关于Hadoop的学习笔记 hadoop 分布式 linux
Hadoop及相关组件搭建指导WeChat：h19396218469hadoop-3.1.3jdk-8u162-linux-x64本案例软件包：链接：https://pan.baidu.com/s/1ighxbTNAWqobGpsX0qkD8w提取码：lkjh（若链接失效在下面评论，我会及时更新）一、配置Hadoop集群主节点1.进入目标文件夹。cd/usr/local/hadoop/etc/ha
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &