王若蠢

hadoop、hive、sqoop、spark、livy、jdk单节点伪分布式集群一键部署shell脚本

ards.1.0安装说明

注：脚本tgz包后续上传，欢迎留言与我交流讨论

一、使用说明

本脚本可实现快速自动安装（hadoop-2.7.3/hive-1.1.0/sqoop-1.4.6/spark-2.3.0/livy/jdk1.8）集群功能，提前阅读以下说明（脚本内亦有提示）有助于您使用此脚本
1、脚本经centos6.5、centos7.4/7.5测试安装正常,脚本内输入错误可使用Ctrl+Backspace进行删除
2、要求服务器上有安装好的mysql并设置登陆账号和密码，脚本执行中按会提示输入mysql用户名和密码
3、服务器需配置正确的hostname（hostname前面不可跟回环地址127.0.0.1）例：

[root@SHELL2 tgz]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.110.133 SHELL2

4、可解压tar包至任意位置（命令：tar -zxvf ardh.spark.1.0.tgz）
5、脚本当前状态为自动获取系统JAVA_HOME，默认安装位置为/data/arbd
6、如需修改默认安装参数请编辑下面两个配置文件或在脚本执行时输入：（实际安装中优先级为：脚本输入 > 配置 > 脚本自动获取）
7、编辑ardh-spark/conf/jvm.conf的JAVA_HOME参数（置则为空则自动获取系统环境变量）

[root@SHELL2 tgz]# cd ardh-hbase/
[root@SHELL2 ardh-ardh-spark]# vi conf/jvm.conf

JAVA_HOME=

修改后:wq保存退出编辑

8、编辑ardh-spark/conf/env.conf的安装位置参数：arbdDir（置则为空则默认安装在/data/arbd下）

[root@SHELL2 ardh-spark]# vi conf/env.conf

#软件安装位置，绝对路径，末尾不要带/
arbdDir=
#mysql数据库主机名(本机请输入localhost)
host_name=
#自定义的mysql中hive的元数据库名称(如hive)
d_name=
#mysql数据库用户名（如root）
u_name=
#mysql数据库密码
ps_word=

修改后:wq保存退出编辑

9、编辑ardh-spark/conf/env.conf有关hive元数据库的参数

操作参考第8条

10、切换至root用户，（命令：su - root）
11、用source方式执行脚本！！！（命令：source ./setup.sh）
12、JDK版本要求1.8，若选择自动获取系统JAVA_HOME且系统未安装JDK1.8，会触发JDK安装选项（默认位置：/usr/java下）
13、脚本内按中文提示操作即可，需要注意的是首次安装hadoop需要输入两个yes：

14、配置hive元数据库时脚本中会提示输入mysql的hostname（本机就用localhost）、自定义的hive元数据库名、用户名和密码
15、只要不更改安装位置，重复执行setup.sh即可重装整套软件。若更改安装位置，需手动清空/etc/profile的hadoop、hive环境变量，再执行setup.sh
16、已按上面说明操作，仍然安装出错可能存在的原因：
（1）环境变量配置异常：检查/etc/profile
（2）检查配置文件格式：jvm.conf与env.conf
（3）未在setup.sh所在目录执行脚本：cd到ardh-spark目录

二、安装架构

三、配置列表：

以下配置中带$的变量脚本中都会自行使用当前服务器实际值或配置值替换，除$JAVA_HOME外$带_的变量为手动输入的参数

（一）、hadoop部分

1、core-site.xml


fs.defaultFS
hdfs://$hostname:8020


hadoop.tmp.dir
${arbdDir}/hadoop-2.7.3/data/tmp

2、hadoop-env.sh

export JAVA_HOME=$JAVA_HOME
export HADOOP_CONF_DIR=${arbdDir}/hadoop-2.7.3/etc/hadoop/

3、hdfs-site.xml



dfs.replication
1


dfs.namenode.name.dir
${arbdDir}/hadoop-2.7.3/data/namenode


dfs.datanode.data.dir
${arbdDir}/hadoop-2.7.3/data/datanode



dfs.permissions
false



dfs.webhdfs.enabled
true

4、mapred-env.sh

export JAVA_HOME=$JAVA_HOME

5、mapred-site.xml



mapreduce.framework.name
yarn

6、slaves

$hostname

7、yarn-env.sh

export JAVA_HOME=$JAVA_HOME

8、yarn-site.xml


yarn.resourcemanager.address
$hostname:8032



yarn.nodemanager.aux-services
mapreduce_shuffle

9、hadoop-daemon.sh

HADOOP_PID_DIR=${arbdDir}/hadoop-2.7.3/pids

10、yarn-deamon.sh

YARN_PID_DIR=${arbdDir}/hadoop-2.7.3/pids

（二）、hive部分

1、hive-env.sh

HADOOP_HOME=${arbdDir}/hadoop-2.7.3
export HIVE_CONF_DIR=${arbdDir}/hive-1.1.0/conf

2、hive-site.xml


javax.jdo.option.ConnectionURL
jdbc:mysql://$host_name:3306/$database_name?createDatabaseIfNotExist=true&useSSL=false


javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver


javax.jdo.option.ConnectionUserName
$user_name


javax.jdo.option.ConnectionPassword
$pass_word


hive.querylog.location
${arbdDir}/hive-1.1.0/tmp/username


hive.exec.local.scratchdir
${arbdDir}/hive-1.1.0/tmp/username


hive.downloaded.resources.dir
${arbdDir}/hive-1.1.0/tmp/${hive.session.id}_resources


hive.server2.logging.operation.log.location
${arbdDir}/hive-1.1.0/tmp/logs

3、创建hadoop配置文件(core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml)软连接到hive/conf下

ln -sf ${arbdDir}/hadoop-2.7.3/etc/hadoop/core-site.xml ${arbdDir}/hive-1.1.0/conf/core-site.xml
ln -sf ${arbdDir}/hadoop-2.7.3/etc/hadoop/hdfs-site.xml ${arbdDir}/hive-1.1.0/conf/hdfs-site.xml
ln -sf ${arbdDir}/hadoop-2.7.3/etc/hadoop/yarn-site.xml ${arbdDir}/hive-1.1.0/conf/yarn-site.xml
ln -sf ${arbdDir}/hadoop-2.7.3/etc/hadoop/mapred-site.xml ${arbdDir}/hive-1.1.0/conf/mapred-site.xml

4、lib目录下添加

mysql-connector-java-5.1.38-bin.jar

（三）、sqoop部分

1、sqoop-env.sh

export HADOOP_COMMON_HOME=${arbdDir}/hadoop-2.7.3
export HADOOP_MAPRED_HOME=${arbdDir}/hadoop-2.7.3

2、lib目录下添加

ojdbc5.jar

（四）、spark部分

1、spark-env.sh

export SPARK_PID_DIR=${arbdDir}/spark-2.3.0/pids
export JAVA_HOME=$JAVA_HOME
#export SCALA_HOME=${arbdDir}/scala-2.11.8
export HADOOP_HOME=${arbdDir}/hadoop-2.7.3
SPARK_LOCAL_IP=$localIP
SPARK_CONF_DIR=${arbdDir}/spark-2.3.0/conf
HADOOP_CONF_DIR=${arbdDir}/hadoop-2.7.3/etc/hadoop
YARN_CONF_DIR=${arbdDir}/hadoop-2.7.3/etc/hadoop
SPARK_MASTER_HOST=$hostname

2、slaves

$hostname

3、创建hive-site.xml配置文件软连接到spark/conf下

ln -sf ${arbdDir}/hive-1.1.0/conf/hive-site.xml ${arbdDir}/spark-2.3.0/conf/hive-site.xml

（五）、livy部分

1、livy-env.sh

SPARK_HOME=${arbdDir}/spark-2.3.0
HADOOP_CONF_DIR=${arbdDir}/hadoop-2.7.3/etc/hadoop
LIVY_PID_DIR=${arbdDir}/livy/pids

四、脚本原文

(1)setup.sh

#!/bin/bash
source /etc/profile
lpath=$(pwd)
arbd1='JAVA_HOME=/usr/java/jdk1.8.0_181'
arbd2='HADOOP_HOME=/opt/arbd/hadoop-2.7.3'
arbd3='PATH=$JAVA_HOME/bin:$PATH'
arbd4='CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar'
arbd5='export JAVA_HOME PATH CLASSPATH'

check_user(){
if [ "$EUID" == "0" ]
then
echo "当前用户为root"
else
echo "请切换至root用户"
read -p "ctrl+c退出"
clear
exit
fi
}

input_javahome(){
chmod 777 ./conf/jvm.conf
#为避免JAVA_HOME与系统环境变量JAVA_HOME冲突，不采用source方式加载配置文件
#source ./conf/jvm.conf
JAVAHOME=`cat ./conf/jvm.conf | grep JAVA_HOME | awk -F'=' '{ print $2 }'`
if [ ! $JAVAHOME ]
then
echo "./conf/jvm.conf未配置JAVA_HOME参数"
echo "默认值JAVA_HOME=$JAVA_HOME"
check_javahome
JAVA_HOME=$JAVA_HOME
sleep 1
else
echo "将使用配置文件jvm.conf安装，JAVA_HOME参数值为：$JAVAHOME"
JAVA_HOME=$JAVAHOME
sleep 1
fi
echo "是否输入并应用新的JAVA_HOME？（ctrl+Backspace为删除）"
echo "是==>输入新的JAVA_HOME 否==>直接回车"
read read1
if [ "$read1" = "" ]
then
JAVA_HOME=$JAVA_HOME
else
while !([[ "$read1" =~ ^/ ]])
do
echo "路径错误，请输入正确的绝对路径"
read read1
done
JAVA_HOME=$read1
echo "配置文件jvm.conf已更新"
echo "将使用新的JAVA_HOME=$JAVA_HOME进行安装"
sed -i 's#JAVA_HOME.*#JAVA_HOME='"$JAVA_HOME"'#g' ./conf/jvm.conf
fi
}

input_arbdDir(){
chmod 777 ./conf/env.conf
source ./conf/env.conf
#否则换行符严重影响后续操作
arbdDir=$(echo $arbdDir | sed 's/\r//')
if [ ! $arbdDir ]
then
echo $arbdDir
echo "./conf/env.conf未配置安装位置参数"
echo "将使用默认安装位置/data/arbd进行安装"
arbdDir=/data/arbd
sleep 1
else
echo "读取配置文件env.conf"
echo "将使用配置文件arbdDir=$arbdDir进行安装"
arbdDir=$(echo $arbdDir | sed 's/\r//')
sleep 1
fi
echo "是否输入新的安装位置？（ctrl+Backspace为删除）"
echo "是==>输入一个绝对路径（结尾不带/） 否==>直接回车"
read read2
if [ "$read2" = "" ]
then
arbdDir=$(echo $arbdDir | sed 's/\r//')
else
while !([[ "$read2" =~ ^/ ]])
do
echo "路径错误，请输入正确的绝对路径"
read read2
done
arbdDir=$read2
echo "配置文件env.conf已更新"
echo "将使用新的路径arbdDir=$arbdDir进行安装"
sed -i 's#arbdDir.*#arbdDir='"$arbdDir"'#g' ./conf/env.conf
fi
sleep 1
if [ -d "$arbdDir" ] ; then
echo "文件夹$arbdDir存在！"
else
echo "文件夹$arbdDir不存在，正在创建..."
arbdDir=$(echo $arbdDir | sed 's/\r//')
mkdir -p $arbdDir
fi
arbdDir=$(echo $arbdDir | sed 's/\r//')
echo "设置安装位置中。。。"
sleep 1
chmod 777 ./scripts/start.sh
chmod 777 ./scripts/stop.sh
sed -i 's#arbdDir=.*#arbdDir='"$arbdDir"'#g' ./scripts/start.sh
sed -i 's#arbdDir=.*#arbdDir='"$arbdDir"'#g' ./scripts/stop.sh
sleep 1
sed -i '/>hadoop.tmp.dir'"$arbdDir"'/hadoop-2.7.3/data/tmp|}' ./applications/hadoop-2.7.3/etc/hadoop/core-site.xml
sleep 0.5
sed -i 's#HADOOP_CONF_DIR=.*#HADOOP_CONF_DIR='"$arbdDir"'/hadoop-2.7.3/etc/hadoop/#g' ./applications/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
sleep 0.5
sed -i '/>dfs.namenode.name.dir'"$arbdDir"'/hadoop-2.7.3/data/namenode|}' ./applications/hadoop-2.7.3/etc/hadoop/hdfs-site.xml
sleep 0.5
sed -i '/>dfs.datanode.data.dir'"$arbdDir"'/hadoop-2.7.3/data/datanode|}' ./applications/hadoop-2.7.3/etc/hadoop/hdfs-site.xml
sleep 0.5
sed -i 's#export HIVE_CONF_DIR=.*#export HIVE_CONF_DIR='"$arbdDir"'/hive-1.1.0/conf#g' ./applications/hive-1.1.0/conf/hive-env.sh
sleep 0.5
sed -i 's#HADOOP_HOME=.*#HADOOP_HOME='"$arbdDir"'/hadoop-2.7.3#g' ./applications/hive-1.1.0/conf/hive-env.sh
sleep 0.5
sed -i '#>hive.querylog.location<#{n;s|.*| '"$arbdDir"'/hive-1.1.0/tmp/username|}' ./applications/hive-1.1.0/conf/hive-site.xml
sleep 0.5
sed -i '#>hive.exec.local.scratchdir<#{n;s|.*| '"$arbdDir"'/hive-1.1.0/tmp/username|}' ./applications/hive-1.1.0/conf/hive-site.xml
sleep 0.5
sed -i '#>hive.downloaded.resources.dir<#{n;s|.*| '"$arbdDir"'/hive-1.1.0/tmp/${hive.session.id}_resources|}' ./applications/hive-1.1.0/conf/hive-site.xml
sleep 0.5
sed -i '#>hive.server2.logging.operation.log.location<#{n;s|.*| '"$arbdDir"'/hive-1.1.0/tmp/logs|}' ./applications/hive-1.1.0/conf/hive-site.xml
sleep 0.5
sed -i 's#export HADOOP_COMMON_HOME=.*#export HADOOP_COMMON_HOME='"$arbdDir"'/hadoop-2.7.3#g' ./applications/sqoop-1.4.6/conf/sqoop-env.sh
sleep 0.5
sed -i 's#export HADOOP_MAPRED_HOME=.*#export HADOOP_MAPRED_HOME='"$arbdDir"'/hadoop-2.7.3#g' ./applications/sqoop-1.4.6/conf/sqoop-env.sh
sleep 0.5
sed -i 's#HADOOP_HOME=.*#HADOOP_HOME='"$arbdDir"'/hadoop-2.7.3#g' ./applications/spark-2.3.0/conf/spark-env.sh
sleep 0.5
sed -i 's#SPARK_CONF_DIR=.*#SPARK_CONF_DIR='"$arbdDir"'/spark-2.3.0/conf#g' ./applications/spark-2.3.0/conf/spark-env.sh
sleep 0.5
sed -i 's#HADOOP_CONF_DIR=.*#HADOOP_CONF_DIR='"$arbdDir"'/hadoop-2.7.3/etc/hadoop#g' ./applications/spark-2.3.0/conf/spark-env.sh
sleep 0.5
sed -i 's#YARN_CONF_DIR=.*#YARN_CONF_DIR='"$arbdDir"'/hadoop-2.7.3/etc/hadoop#g' ./applications/spark-2.3.0/conf/spark-env.sh
sleep 0.5
sed -i 's#SPARK_HOME=.*#SPARK_HOME='"$arbdDir"'/spark-2.3.0#g' ./applications/livy/conf/livy-env.sh
sleep 0.5
sed -i 's#HADOOP_CONF_DIR=.*#HADOOP_CONF_DIR='"$arbdDir"'/hadoop-2.7.3/etc/hadoop#g' ./applications/livy/conf/livy-env.sh
}

host_conf(){
echo "正在更改配置中hostname为当前主机名：$(hostname)..."
sed -i "/>fs.defaultFShdfs://$(hostname):8020|}" $arbdDir/hadoop-2.7.3/etc/hadoop/core-site.xml
#sleep 0.5
#sed -i "/>dfs.namenode.http-address$(hostname):50070|}" $arbdDir/hadoop-2.7.3/etc/hadoop/hdfs-site.xml
sleep 0.5
sed -i "/>yarn.resourcemanager.address$(hostname):8032|}" $arbdDir/hadoop-2.7.3/etc/hadoop/yarn-site.xml
sleep 0.5
sed -i "s/localhost/$(hostname)/" $arbdDir/hadoop-2.7.3/etc/hadoop/slaves
sleep 0.5
#sed -i "/>hive.metastore.uristhrift://$(hostname):9083|}" $arbdDir/hive-1.1.0/conf/hive-site.xml
sleep 0.5
sed -i "s/localhost/$(hostname)/" $arbdDir/spark-2.3.0/conf/slaves
sleep 0.5
local_ip=$(/sbin/ifconfig -a|grep inet|grep -v 127.0.0.1|grep -v inet6|awk '{print $2}'|tr -d "addr:")
sed -i "s/SPARK_LOCAL_IP=.*/SPARK_LOCAL_IP=${local_ip}/" $arbdDir/spark-2.3.0/conf/spark-env.sh
sleep 0.5
sed -i "s/SPARK_MASTER_HOST=.*/SPARK_MASTER_HOST=$(hostname)/" $arbdDir/spark-2.3.0/conf/spark-env.sh
}

check_cp(){
arbdDir=$(echo $arbdDir | sed 's/\r//')
if [[ $(jps) =~ " NameNode" || $(jps) =~ "Worker" && $(jps) =~ "NodeManager" ]]
then
echo "关闭集群中..."
source $arbdDir/bin/stop.sh
fi
sleep 1
if [ -d "$arbdDir" ] ; then
echo "文件夹$arbdDir存在！正在拷贝hadoop至$arbdDir..."
\cp -rf $(pwd)/applications/hadoop-2.7.3 $arbdDir/
sleep 1
echo "正在拷贝hive至$arbdDir..."
\cp -rf $(pwd)/applications/hive-1.1.0 $arbdDir/
sleep 1
echo "正在拷贝sqoop至$arbdDir..."
\cp -rf $(pwd)/applications/sqoop-1.4.6 $arbdDir/
sleep 1
echo "正在拷贝spark至$arbdDir..."
\cp -rf $(pwd)/applications/spark-2.3.0 $arbdDir/
sleep 1
echo "正在拷贝livy至$arbdDir..."
\cp -rf $(pwd)/applications/livy $arbdDir/
sleep 1
echo "拷贝完毕"
else
echo "文件夹$arbdDir不存在，正在创建..."
mkdir $arbdDir
echo "文件夹$arbdDir创建完毕，正在拷贝hadoop至$arbdDir..."
\cp -rf $(pwd)/applications/hadoop-2.7.3 $arbdDir/
sleep 1
echo "正在拷贝hive至$arbdDir..."
\cp -rf $(pwd)/applications/hive-1.1.0 $arbdDir/
sleep 1
echo "正在拷贝sqoop至$arbdDir..."
\cp -rf $(pwd)/applications/sqoop-1.4.6 $arbdDir/
sleep 1
echo "正在拷贝spark至$arbdDir..."
\cp -rf $(pwd)/applications/spark-2.3.0 $arbdDir/
sleep 1
echo "正在拷贝livy至$arbdDir..."
\cp -rf $(pwd)/applications/livy $arbdDir/
sleep 1
echo "拷贝完毕"
fi
if [ -d "$arbdDir/bin" ] ; then
echo "文件夹$arbdDir/bin存在！"
else
echo "文件夹$arbdDir/bin不存在，正在创建..."
arbdDir=$(echo $arbdDir | sed 's/\r//')
mkdir -p $arbdDir/bin
fi
echo "正在拷贝start.sh/stop.sh至$arbdDir/bin..."
\cp -rf ./scripts/start.sh $arbdDir/bin/
\cp -rf ./scripts/stop.sh $arbdDir/bin/
echo "完毕"
}

check_javahome(){
if [ "$JAVA_HOME" = "" ]
then
echo "未配置JAVA_HOME环境变量!手动在/etc/profile中配置！"
read -p "按回车键退出"
clear
exit 1
fi
if [ "$JAVA_HOME" != "" ]
then
JAVA_HOME=$JAVA_HOME
echo "JAVA_HOME:$JAVA_HOME"
fi
}

check_fwall(){
echo "注：防火墙检查功能暂不支持ubuntu系统"
service iptables status 1>/dev/null 2>&1
if [[ $? -ne 0 && `firewall-cmd --state` != 'running' ]]; then
echo "防火墙已关闭"
else
read -p "防火墙未关闭，关闭防火墙及selinux请按回车" comde
echo "正在关闭防火墙..."
echo "----本操作若提示xxx not (be) found、没有那个文件或目录为正常现象----"
/sbin/service iptables stop
/sbin/chkconfig iptables off
/sbin/service iptables status
systemctl stop firewalld.service
systemctl disable firewalld.service
firewall-cmd --state
setenforce 0
sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config
echo "防火墙已关闭-------------------------------------------------------"
fi
#ufw status
#wfw disable
}

auth_load(){
read -p "是否配置单节点免密登陆？：（y/n）" startnow
while !([ "$startnow" = "Y" ]||[ "$startnow" = "y" ]||[ "$startnow" = "N" ]||[ "$startnow" = "n" ])
do
echo "输入错误，请输入大写或者小写的y或n"
read startnow
done
if [ "$startnow" = "Y" ]||[ "$startnow" = "y" ]
then
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
fi
}

java_export(){
echo ${arbd1}>>/etc/profile
echo ${arbd3}>>/etc/profile
echo ${arbd4}>>/etc/profile
echo ${arbd5}>>/etc/profile
sleep 1
echo "jdk1.8配置完成"
source /etc/profile
echo "环境变量生效"
}

java_install(){
if [ -d "/usr/java" ] ; then
echo "文件夹/usr/java存在！正在拷贝数据至/usr/java..."
\cp -rf $(pwd)/applications/jdk1.8.0_181 /usr/java/jdk1.8.0_181
sleep 1
java_export
else
echo "文件夹/usr/java不存在！正在创建...正在拷贝数据至/usr/java..."
mkdir /usr/java
echo "正在拷贝数据至/usr/java..."
\cp -rf $(pwd)/applications/jdk1.8.0_181 /usr/java/jdk1.8.0_181
sleep 1
java_export
fi
}

java_conf(){
sed -i "s#^export JAVA_HOME=.*#export JAVA_HOME=$JAVA_HOME#" $arbdDir/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
sleep 1
sed -i "s#^export JAVA_HOME=.*#export JAVA_HOME=$JAVA_HOME#" $arbdDir/hadoop-2.7.3/etc/hadoop/mapred-env.sh
sleep 1
sed -i "s#^export JAVA_HOME=.*#export JAVA_HOME=$JAVA_HOME#" $arbdDir/hadoop-2.7.3/etc/hadoop/yarn-env.sh
echo "HADOOP配置完成"
sleep 1
sed -i "s#^export JAVA_HOME=.*#export JAVA_HOME=$JAVA_HOME#" $arbdDir/spark-2.3.0/conf/spark-env.sh
echo "SPARK配置完成"
sleep 1
}

check_jdk(){
check_results=`java -version 2>&1`
if [[ $check_results =~ 'version "1.8' ]]
then
echo "当前jdk版本为1.8，符合要求"
else
echo "jdk版本需要1.8，请安装jdk1.8"
while true
do
echo "-------------请选择操作--------------"
echo "1)退出shell后，手动更改jdk版本。*建议*"
echo "2)shell脚本自动安装并配置jdk1.8*请勿重复安装*"
echo "0)跳过。注：jdk版本低于1.8将导致spark不可用"
echo "-------------------------------------"
read -p "请选择 : " comdk
case $comdk in
1)
break
;;
2)
java_install
;;
0)
break
;;
*)
continue
;;
esac
echo "操作完成，请按回车键继续..."
read t
break
done
fi
}

hadoop_export(){
if grep -q '$HADOOP_HOME/bin' /etc/profile && grep -q '$HADOOP_HOME/sbin' /etc/profile
then
echo 'HADOOP_HOME已配置'
elif grep -q '$JAVA_HOME/bin:' /etc/profile
then
echo "正在添加hadoop环境变量..."
sed -i '/JAVA_HOME=/a\zrarbd-' /etc/profile
sleep 1
echo "正在添加hive环境变量..."
sed -i 's#zrarbd-#HADOOP_HOME='"$arbdDir"'/hadoop-2.7.3\nHIVE_HOME='"$arbdDir"'/hive-1.1.0#' /etc/profile
#sed -i 's#zrarbd-#HADOOP_HOME=/opt/arbd/hadoop-2.7.3#' /etc/profile
sleep 1
sed -i 's#$JAVA_HOME/bin:#$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:#g' /etc/profile
sleep 1
sed -i '/$JAVA_HOME\/bin:/a\export HADOOP_HOME HIVE_HOME' /etc/profile
sleep 0.5
source /etc/profile
echo "环境变量生效"
elif grep -q ':$JAVA_HOME/bin' /etc/profile
then
echo "正在添加hadoop环境变量..."
sed -i '/JAVA_HOME=/a\zrarbd-' /etc/profile
sleep 1
echo "正在添加hive环境变量..."
sed -i 's#zrarbd-#HADOOP_HOME='"$arbdDir"'/hadoop-2.7.3\nHIVE_HOME='"$arbdDir"'/hive-1.1.0#' /etc/profile
#sed -i 's#zrarbd-#HADOOP_HOME='"$arbdDir"'/hadoop-2.7.3#' /etc/profile
sleep 1
sed -i 's#:$JAVA_HOME/bin#:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin#g' /etc/profile
sleep 1
sed -i '/:$JAVA_HOME\/bin/a\export HADOOP_HOME HIVE_HOME' /etc/profile
sleep 1
source /etc/profile
echo "环境变量生效"
else
echo '错误！请正确配置JAVA_HOME和PATH!'
fi
}

hadoop_format(){
if [ -d "$arbdDir/hadoop-2.7.3/data/datanode" ] ; then
echo "$arbdDir/hadoop-2.7.3/data/datanode已存在，正在删除"
rm -rf $arbdDir/hadoop-2.7.3/data/datanode/*
ls $arbdDir/hadoop-2.7.3/data/datanode/
fi
if [ -d "$arbdDir/hadoop-2.7.3/data/namenode" ] ; then
echo "$arbdDir/hadoop-2.7.3/data/namenode已存在，正在删除"
rm -rf $arbdDir/hadoop-2.7.3/data/namenode/*
ls $arbdDir/hadoop-2.7.3/data/namenode/
fi
rm -rf $arbdDir/hadoop-2.7.3/data/tmp/*
ls $arbdDir/hadoop-2.7.3/data/tmp/
sleep 1
echo "已删除临时文件"
sleep 1
echo "开始初始化Hadoop"
sleep 1
cd $arbdDir/hadoop-2.7.3
yes | hdfs namenode -format
echo "初始化Hadoop完成"
cd $lpath
sleep 1
}

check_jps(){
echo "检查jps进程中..."
if [[ $(jps) =~ " NameNode" && $(jps) =~ "SecondaryNameNode" && $(jps) =~ "DataNode" ]]
then
echo "HDFS启动成功"
elif [[ $(jps) =~ " NameNode" ]]
then
echo "DataNode启动失败"
else
echo "NameNode启动失败"
fi
if [[ $(jps) =~ "NodeManager" && $(jps) =~ "ResourceManager" ]]
then
echo "YARN启动成功"
elif [[ $(jps) =~ "NodeManager" ]]
then
echo "ResourceManager启动失败"
else
echo "NodeManager启动失败"
fi
if [[ $(jps) =~ "Master" && $(jps) =~ "Worker" ]]
then
echo "SPARK启动成功"
elif [[ $(jps) =~ "Master" ]]
then
echo "Worker启动失败"
else
echo "Master启动失败"
fi
if [[ $(jps) =~ "LivyServer" ]]
then
echo "Livy启动成功"
else
echo "Livy启动失败"
fi
}

run_test(){
echo "正在HDFS功能测试（若无报错则功能正常），请稍后..."
$arbdDir/hadoop-2.7.3/bin/hdfs dfs -mkdir /testInput
sleep 1
$arbdDir/hadoop-2.7.3/bin/hdfs dfs -put $arbdDir/hadoop-2.7.3/README.txt /testInput
sleep 1
echo "正在运行MR任务测试，请稍后..."
$arbdDir/hadoop-2.7.3/bin/yarn jar $arbdDir/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /testInput /testOutput
sleep 1
echo "WordCount测试结果："
$arbdDir/hadoop-2.7.3/bin/hdfs dfs -cat /testOutput/*
sleep 1
$arbdDir/hadoop-2.7.3/bin/hdfs dfs -rm -r /testInput
$arbdDir/hadoop-2.7.3/bin/hdfs dfs -rm -r /testOutput
sleep 1
echo "正在使用spark自带jar包运行测试，请稍后..."
if [[ $($arbdDir/spark-2.3.0/bin/run-example SparkPi 2>&1 | grep "Pi is") =~ "Pi is roughly 3.1" ]]
then
echo "spark jar包结果达到预期，功能测试正常"
else
$arbdDir/spark-2.3.0/bin/run-example SparkPi
echo "spark功能测试异常"
read -p "按回车键退出"
clear
fi
#echo "正在测试sqoop功能..."
echo "正在测试hive功能..."
if [[ $host_name == ''||$u_name == ''||$ps_word == ''||$d_name == '' ]] ; then
read -p "请输入mysql数据库主机名(本机请输入localhost):" host_name
read -p "请输入自定义的mysql中hive的元数据库名称:" d_name
read -p "请输入mysql数据库用户名:" u_name
read -p "请输入mysql数据库密码:" ps_word
fi
$arbdDir/hive-1.1.0/bin/hive -e "show tables;"
mysql -h${host_name} -u${u_name} -p${ps_word} -e "desc ${d_name}.TABLE_PARAMS;" 2>&1 | grep "doesn't exist"
rtstatus=$?
echo $rtstatus
if [ $rtstatus -ne 0 ]; then
echo "hive配置mysql元数据库成功!"
else
echo "hive配置mysql元数据库失败!"
fi
}

hive_conf(){
host_name=$(echo $host_name | sed 's/\r//')
if [ ! $host_name ]
then
echo "未配置mysql数据库主机名"
read -p "请输入mysql数据库主机名(本机请输入localhost)：" host_name
echo "配置文件env.conf已更新"
sed -i 's#host_name.*#host_name='"$host_name"'#g' ./conf/env.conf
else
echo "将使用配置文件host_name=$host_name进行安装"
host_name=$(echo $host_name | sed 's/\r//')
sleep 1
fi
d_name=$(echo $d_name | sed 's/\r//')
if [ ! $d_name ]
then
echo "未配置hive的元数据库名称"
read -p "请输入自定义的mysql中hive的元数据库名称(如hive)：" d_name
echo "配置文件env.conf已更新"
sed -i 's#d_name.*#d_name='"$d_name"'#g' ./conf/env.conf
else
echo "将使用配置文件d_name=$d_name进行安装"
d_name=$(echo $d_name | sed 's/\r//')
sleep 1
fi
u_name=$(echo $u_name | sed 's/\r//')
if [ ! $u_name ]
then
echo "未配置mysql数据库用户名"
read -p "请输入mysql数据库用户名：" u_name
echo "配置文件env.conf已更新"
sed -i 's#u_name.*#u_name='"$u_name"'#g' ./conf/env.conf
else
echo "将使用配置文件u_name=$u_name进行安装"
u_name=$(echo $u_name | sed 's/\r//')
sleep 1
fi
ps_word=$(echo $ps_word | sed 's/\r//')
if [ ! $ps_word ]
then
echo "未配置mysql数据库密码"
read -p "请输入mysql数据库密码" ps_word
echo "配置文件env.conf已更新"
sed -i 's#ps_word.*#ps_word='"$ps_word"'#g' ./conf/env.conf
else
echo "将使用配置文件ps_word=$ps_word进行安装"
ps_word=$(echo $ps_word | sed 's/\r//')
sleep 1
fi
sleep 1
#read -p "请输入mysql数据库主机名(本机请输入localhost)：" host_name
#read -p "请输入自定义的mysql中hive的元数据库名称(如hive)：" d_name
sed -i "/>javax.jdo.option.ConnectionURLjdbc:mysql://${host_name}:3306/${d_name}?createDatabaseIfNotExist=true\&useSSL=false|}" $arbdDir/hive-1.1.0/conf/hive-site.xml
#read -p "请输入mysql数据库用户名：" u_name
sed -i "/>javax.jdo.option.ConnectionUserName${u_name}|}" $arbdDir/hive-1.1.0/conf/hive-site.xml
#read -p "请输入mysql数据库密码" ps_word
sed -i "/>javax.jdo.option.ConnectionPassword${ps_word}|}" $arbdDir/hive-1.1.0/conf/hive-site.xml
sleep 1
echo "创建软连接hive-site.xml到spark/conf"
ln -sf $arbdDir/hive-1.1.0/conf/hive-site.xml $arbdDir/spark-2.3.0/conf/hive-site.xml
echo "创建hadoop配置软连接到hive/conf"
ln -sf $arbdDir/hadoop-2.7.3/etc/hadoop/core-site.xml $arbdDir/hive-1.1.0/conf/core-site.xml
ln -sf $arbdDir/hadoop-2.7.3/etc/hadoop/hdfs-site.xml $arbdDir/hive-1.1.0/conf/hdfs-site.xml
ln -sf $arbdDir/hadoop-2.7.3/etc/hadoop/yarn-site.xml $arbdDir/hive-1.1.0/conf/yarn-site.xml
ln -sf $arbdDir/hadoop-2.7.3/etc/hadoop/mapred-site.xml $arbdDir/hive-1.1.0/conf/mapred-site.xml
sleep 1
echo "连接mysql创建元数据库中..."
echo "若提示ERROR Can't drop database '${d_name}'; database doesn't exist为正常现象"
mysql -h${host_name} -u${u_name} -p${ps_word} -e "drop database ${d_name};"
mysql -h${host_name} -u${u_name} -p${ps_word} -e "create database ${d_name} character set latin1;"
sleep 1
mysql -h${host_name} -u${u_name} -p${ps_word} -e "GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '${ps_word}' WITH GRANT OPTION;"
mysql -h${host_name} -u${u_name} -p${ps_word} -e "FLUSH PRIVILEGES;"
echo "创建元数据库完成"
}

start_now(){
read -p "是保持集群启动状态？：（y/n）" startnow
while !([ "$startnow" = "Y" ]||[ "$startnow" = "y" ]||[ "$startnow" = "N" ]||[ "$startnow" = "n" ])
do
echo "输入错误，请输入大写或者小写的y或n"
read startnow
done
#if [ "$startnow" = "Y" ]||[ "$startnow" = "y" ]
#then
# source $arbdDir/bin/start.sh
#fi
if [ "$startnow" = "N" ]||[ "$startnow" = "n" ]
then
source $arbdDir/bin/stop.sh
fi
}
check_conf(){
echo "******************************正式安装前请确认**********************************"
echo "*** 1、已使用source方式执行此脚本！！！！！ （source ./setup.sh）* *"
echo "*** 2、已检查过conf目录配置文件内容！ （脚本输入 > 配置 > 脚本自动获取）* *"
echo "*** 3、已配置正确的hostname （hostname前面不可跟回环地址127.0.0.1）* *"
echo "********************************************************************************"
read -p "是否已按上述要求进行操作？：（y/n）" startnow
while !([ "$startnow" = "Y" ]||[ "$startnow" = "y" ]||[ "$startnow" = "N" ]||[ "$startnow" = "n" ])
do
echo "输入错误，请输入大写或者小写的y或n"
read startnow
done
if [ "$startnow" = "Y" ]||[ "$startnow" = "y" ]
then
clear
fi
if [ "$startnow" = "N" ]||[ "$startnow" = "n" ]
then
exit
fi
}
check_conf
check_user
input_javahome
input_arbdDir
check_jdk
check_fwall
auth_load
check_cp
hadoop_export
java_conf
host_conf
hadoop_format
hive_conf
source $arbdDir/bin/start.sh
run_test
start_now

(2)start.sh

#!/bin/bash
arbdDir=
check_jps(){
echo "检查jps进程中..."
if [[ $(jps) =~ " NameNode" && $(jps) =~ "SecondaryNameNode" && $(jps) =~ "DataNode" ]]
then
echo "HDFS启动成功"
elif [[ $(jps) =~ " NameNode" ]]
then
echo "DataNode启动失败"
else
echo "NameNode启动失败"
fi
if [[ $(jps) =~ "NodeManager" && $(jps) =~ "ResourceManager" ]]
then
echo "YARN启动成功"
elif [[ $(jps) =~ "NodeManager" ]]
then
echo "ResourceManager启动失败"
else
echo "NodeManager启动失败"
fi
if [[ $(jps) =~ "Master" && $(jps) =~ "Worker" ]]
then
echo "SPARK启动成功"
elif [[ $(jps) =~ "Master" ]]
then
echo "Worker启动失败"
else
echo "Master启动失败"
fi
if [[ $(jps) =~ "LivyServer" ]]
then
echo "Livy启动成功"
else
echo "Livy启动失败"
fi
}
all_start(){
echo "hadoop启动中。。。"
echo "**********若为第一次启动，需按提示输入两次yes**********"
$arbdDir/hadoop-2.7.3/sbin/start-all.sh
echo "spark启动中。。。"
$arbdDir/spark-2.3.0/sbin/start-all.sh
echo "livy启动中。。。"
$arbdDir/livy/bin/livy-server start
}
all_start
check_jps

(3)stop.sh

#!/bin/bash
arbdDir=
check_jps(){
echo "检查jps进程中..."
if [[ $(jps) =~ " NameNode" || $(jps) =~ "SecondaryNameNode" || $(jps) =~ "DataNode" ]]
then
echo "HDFS未关闭"
else
echo "HDFS已关闭"
fi
if [[ $(jps) =~ "NodeManager" || $(jps) =~ "ResourceManager" ]]
then
echo "YARN未关闭"
else
echo "YARN已关闭"
fi
if [[ $(jps) =~ "Master" || $(jps) =~ "Worker" ]]
then
echo "SPARK未关闭"
else
echo "SPARK已关闭"
fi
if [[ $(jps) =~ "LivyServer" ]]
then
echo "Livy未关闭"
else
echo "Livy已关闭"
fi
}
all_stop(){
echo "livy关闭中。。。"
$arbdDir/livy/bin/livy-server stop
echo "spark关闭中。。。"
$arbdDir/spark-2.3.0/sbin/stop-all.sh
echo "hadoop关闭中。。。"
$arbdDir/hadoop-2.7.3/sbin/stop-all.sh
}
all_stop
check_jps

(4)jvm.conf

JAVA_HOME=

(5)env.conf

#软件安装位置，绝对路径，末尾不要带/
arbdDir=
#mysql数据库主机名(本机请输入localhost)
host_name=
#自定义的mysql中hive的元数据库名称(如hive)
d_name=
#mysql数据库用户名（如root）
u_name=
#mysql数据库密码
ps_word=

你可能感兴趣的:(hadoop、hive、sqoop、spark、livy、jdk单节点伪分布式集群一键部署shell脚本)

【每日八股】Redis篇（七）：集群 YGGP 数据库 redis 数据库
目录Redis集群模式有哪些？Redis切片集群的工作原理？哈希槽和Redis节点如何对应？主从模式的同步过程？全量同步增量同步主服务器如何知道要将哪些增量数据发送给从服务器？如何避免主从数据不一致？主从架构中过期key如何处理？主从模式是同步复制还是异步复制？哨兵机制是什么？哨兵机制的工作原理？什么是集群的脑裂？如何减少主从切换带来的数据丢失？Redis集群模式有哪些？主从（Replicatio
Linux(Centos 7.6)命令详解：unzip 豆是浪个 linux centos 运维
1.命令作用unzip用于在一个ZIP存档压缩文件中进行陈列/检测/提取文件(list,testandextractcompressedfilesinaZIParchive)；unzip命令是Linux系统中用于解压缩ZIP格式压缩文件的常用工具。它能够快速、方便地将ZIP文件解压到当前目录或指定目录。2.命令语法Usage:unzip[-Z][-opts[modifiers]]file[.zip
聊天服务器分布式改造 jforgame 基于Netty的仿QQ聊天室分布式 QQ 聊天室 spring cloud
目前的聊天室是单节点的，无论是http接口还是socket接口都在同一个进程，无法承受太多人同时在线，容灾性也非常差。因此，一个成熟的IM产品一定是做成分布式的，根据功能分模块，每个模块也使用多个节点并行部署。1.技术选型SpringCloudAlibaba和Netflix都是用于构建分布式系统的工具集，它们在微服务架构中发挥着重要作用，但在多个方面存在差异：发展与维护Netflix：部分核心组件
Linux(Centos 7.6)命令详解：zip 豆是浪个 linux 运维服务器
1.命令作用打包和压缩(存档)文件(packageandcompress(archive)files)；该程序用于打包一组文件进行分发；存档文件；通过临时压缩未使用的文件或目录来节省磁盘空间；且压缩文件可以在Linux、Windows和macOS中轻松提取。2.命令语法usage:zip[-options][-bpath][-tmmddyyyy][-nsuffixes][zipfilelist][
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
基于SpringBoot农产品智慧物流系统的设计与实现四金学长计算机毕业设计参考案例 spring boot 后端 java 农产品智慧物流系统
1.引言在当今的软件开发领域，企业级应用的开发和部署速度直接影响着业务的竞争力。SpringBoot以其轻量级、快速启动和强大的集成能力，成为构建现代企业级应用的首选框架。本文将带您深入了解SpringBoot框架的核心特性，并展示如何利用它构建一个高效、可扩展的系统。2.开发环境开发语言：Java框架：springbootJD版本：JDK1.8服务器：tomcat7数据库：mysql5.7（一定
linux 设置服务开机自启动 jiarg linux 运维服务器
创建服务文件进入服务文件路：/etc/systemd/system/创建服务文件vigetway-serve.service[Unit]Description=getway-serveAfter=network.target[Service]User=rootWorkingDirectory=/home/app/jars/ExecStart=/usr/local/jdk1.8/bin/java-j
后端架构师必知必会系列：分布式计算与任务调度 AI天才研究院 AI大模型企业级应用开发实战架构师必知必会系列大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍分布式计算与任务调度随着互联网公司对数据量和业务处理需求的提升，单体应用已无法满足用户对高性能、可靠性及快速响应时间的要求。为了应对这些挑战，目前各大互联网公司都在寻求将单体应用拆分为微服务架构。但是由于系统的复杂度及开发人员的增加，引入微服务架构带来的复杂度也是需要考虑的问题。比如：服务之间如何通信？如何做服务发现？什么时候集群化？部署方式又该怎样？……等
后端架构师必知必会系列：分布式锁与并发控制 AI天才研究院 AI大模型企业级应用开发实战架构师必知必会系列编程实践大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介现在互联网大环境下，网站流量和并发访问量日益增长，网站的高可用性及可伸缩性越来越成为企业考虑的问题。因此，如何有效地保障并发访问、高可用、及时响应用户请求等需求成为企业面临的一大难题。在互联网发展的早期，基于集中式服务器部署模式的网站在高并发访问下性能一般般，不过随着大规模集群的出现，如今很多网站已经将应用部署在分布式集群上，特别是在微服务架构兴起之后。为了提高
K8s 1.18.6版本基于 ingress-nginx 实现金丝雀发布（灰度发布） zerchin kubernetes ingress-nginx kubernetes ingress-nginx
K8s1.18.6版本基于ingress-nginx实现金丝雀发布（灰度发布）环境软件版本kubernetesv1.18.6nginx-ingress-controller0.32.0Rancherv2.4.5本次实验基于Rancher-v2.4.5部署了1.18.6版本的k8s集群，nginx-ingress版本为0.32.0，理论上ingress-nginx>=0.21.0都是可以的。介绍金丝
Hadoop的mapreduce的执行过程画纸仁大数据 hadoop mapreduce 大数据
一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp
Hadoop：分布式计算平台初探 dccrtbn6261333 大数据运维 java
Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释M
MapReduce：分布式计算的基石 Earth explosion mapreduce 大数据
MapReduce是一种用于处理和生成大数据集的编程模型，以及一个用于执行该模型的关联实现。它使得在大型商用硬件集群（数千台机器）上进行并行处理海量数据成为可能。本文将深入探讨MapReduce的核心概念、工作原理、应用场景以及一些高级主题。核心概念：分而治之MapReduce的核心思想是“分而治之”。它将复杂的计算任务分解成两个主要阶段：Map阶段和Reduce阶段。Map阶段:输入数据被分割成
【Hadoop】如何理解MapReduce？ 2302_79952574 hadoop mapreduce 数据库
MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌
大数据实战：Spark + Hive 逐笔计算用户盈亏 WuJiWeb3 区块链链上数据分析从0到1搭建区块链大数据平台 spark hive 大数据 web3 区块链 hadoop
简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。由于我们是进行离线计算，所以我们的数据源是Hive表数据，Sink表也是Hive表，即Spark读取Hive表数据进行批计算之后写回到Hive表并供后续使用。通过本文你将会学到：如何使用SparkSQLAPI读取Hive数据源如何通过读取配置文件进行传参执行SQL如何将SparkSQL转换为JavaRDD进行处理如何
redis热key 杏花春雨江南 redis redis 数据库缓存
在Redis中，热Key（HotKey）是指被频繁访问的Key，可能会导致以下问题：性能瓶颈：单个Redis实例的CPU或网络带宽被耗尽。数据倾斜：在Redis集群中，热Key可能导致某个节点的负载过高。缓存击穿：热Key过期或被删除时，大量请求直接打到数据库，导致数据库压力骤增。以下是处理热Key的常见方法和最佳实践：1.检测热Key1.1使用Redis自带的命令redis-cli--hotke
Apache Kafka 实践：优化与脚本操作指南无畏道人
本文还有配套的精品资源，点击获取简介：本文深入探讨了ApacheKafka核心概念及其在IT环境中的应用，特别是与Shell脚本的关联。ApacheKafka是一个分布式流处理平台，通过主题和分区的结构提供高吞吐量和低延迟的消息处理。文章介绍了Kafka架构、生产者和消费者的角色、Shell脚本与Kafka的交互，以及Kafka命令行工具的使用。同时，还涉及了Kafka的配置选项，例如数据持久化策
Apache Doris 现行版本 Docker-Compose 运行教程 atbigapp.com 大数据 doris 大数据 mpp
特别注意！DorisOnDocker部署方式仅限于开发环境或者功能测试环境，不建议生产环境部署！如有生产环境或性能测试集群部署诉求，请使用裸机/虚机部署或K8SOperator部署方案！原文阅读：ApacheDoris现行版本Docker-Compose运行教程引言随着ApacheDoris项目的火热，很多想尝鲜或者试用的小伙伴都希望通过Docker来快速拉起一个功能测试或者开发的集群，但由于一些
Apache Kafka 在生产环境中的管理与优化：从理论到实践 Echo_Wish 运维探秘让你快速入坑运维 apache kafka 分布式
ApacheKafka在生产环境中的管理与优化：从理论到实践在当今这个数据驱动的时代，ApacheKafka已经成为企业流处理和实时数据管道的核心工具。作为一名运维工程师，确保Kafka在生产环境中的高效运行不仅是挑战，更是体现专业能力的绝佳舞台。那么，如何管理并优化Kafka集群，提升其在复杂生产环境下的表现呢？接下来，我将通过经验总结和代码示例，带你逐步了解生产环境下Kafka的管理与优化。一
Hadoop：全面深入解析 CloudJourney hadoop 大数据分布式
Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨，帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是HadoopHadoop是由Apache软件基金会开发的开源软件框架，用于存储和处理大规模数据。其核心组件包括Hadoop分布式文件系统（HDFS）
Hadoop介绍：什么是Hadoop？了解Hadoop的应用 Zzzxt007 hadoop 大数据分布式
一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA
员工管理系统（简单版） java王不二后端 java
1、项目介绍员工管理系统9功能简单，实现了用户的注册和登录、增删改查用户，适合新手学习2、项目技术后端框架：Servlet、mvc模式前端技术：jsp、css、JavaScript、JQuery3、开发环境JAVA版本：JDK1.8IDE类型：IDEA、Eclipse都可运行tomcat版本：Tomcat7-10版本均可数据库类型：MySql（5.x和8.x版本都可）maven项目：否硬件环境：W
分布式计算入门（PySpark处理NASA服务器日志）闲人编程 Python数据分析实战精要服务器运维统计分析日志 NASA服务器分布式计算 PySpark
目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2数据格式与挑战4.PySpark基础与分布式日志处理4.1PySpark基本架构4.2日志数据加载与解析4.3数据清洗与内存优化4.4GPU加速与SparkRAPIDS5.实验环境与依赖库6.数
Dask vs. Apache Spark: 大数据处理的利器对比与应用实例步入烟尘 Python超入门指南全册 apache spark 大数据
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
spark yum配置 Amu_Yalo spark
yum配置Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你
MySQL集群：高可用架构的利与弊异常驯兽师 mysql 架构数据库
在互联网应用快速发展的今天，数据库的高可用性和扩展性成为许多团队关注的焦点。MySQL集群作为一种常见的解决方案，被广泛用于解决单点故障和性能瓶颈的问题。但它是否适合所有场景？本文将从实际应用的角度，分析MySQL集群的核心特点、优势与不足。1.什么是MySQL集群？MySQL集群（MySQLCluster）并不是指简单的“多个MySQL服务器”，而是一种基于分布式架构的数据库解决方案。它通过将数
Linux学习笔记--shell脚本（二）运维派C shell脚本学习 Linux shell脚本
20.1什么是shell脚本shell脚本并不能作为正式的编程语言，因为它是在linux的shell中运行的，所以称为shell脚本。事实上，shell脚本就是一些命令的集合。假如完成某个需求需要一口气输入10条命令，对于简单的命令，我们可以直接在shell窗口中输入，但如果是比较长且复杂的命令，一次一次敲就会显得很麻烦。我们可以把这10条命令都记录到一个文档中，然后去调用文档中的命令，这样就能一
Ubuntu系统下交叉编译szip linux运维
一、交叉编译szip1.下载源码下载Szip：https://docs.hdfgroup.org/archive/support/doc_resource/SZIP/i...下载并解压源码。tar-xvzfszip-2.1.1.tar.gzcdtar-xvzfszip-2.1.1mkdirszipbuild2.设置环境变量设置交叉编译工具链的环境变量：exportPATH=/home/yoyo/3
jdk-8u121-windows-x64 安装步骤及下载心灵宝贝 java windows 开发语言
1.下载JDK安装包JDK安装包下载链接：https://pan.quark.cn/s/50b825f5c31f2.运行安装程序双击下载的jdk-8u121-windows-x64.exe文件启动安装程序。3.选择安装路径安装程序会提示选择JDK的安装路径，默认路径为C:\ProgramFiles\Java\jdk1.8.0_121\，可自定义路径。4.安装JDK点击“下一步”开始安装，安装完成后
DeepSeek smallpond搅动大数据风云彭铖洋 javascript reactjs
DuckDB走向分布式？DeepSeek的smallpond涉足大数据DuckDB！降维打击传统大数据领域，搅动中台数据工程风云！DeepSeek正在利用smallpond（一种新的、简单的分布式计算方法）推动DuckDB超越其单节点根源。但它是否解决了可扩展性挑战——还是带来了新的权衡？DeepSeek最近搞了个大新闻。他们的R1模型在2025年1月发布时，就直接干翻了OpenAI的O1等竞争对
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "xxxxx@xxxxx.com"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri