start-all.sh
stop-all.sh
jps
jps -m
ps -ef |grep 进程名称
mapred --daemon start historyserver
vi yarn-site.xml 新增如下内容:
yarn.log-aggregation-enable
true
yarn.log.server.url
http://bigdata01:19888/jobhistory/logs/
注意:需要重启集群
hdfs dfs -ls /
hdfs dfs -put hello.txt /
hdfs dfs -cat /hello.txt
hdfs dfs -get /hello.txt ./
hdfs dfs -mkdir -p /test/hello
hdfs dfs -ls -R /
hdfs dfs -rm -r /test/hello
hdfs dfs -rm /hello.txt
# 统计根目录下文件的个数
hdfs dfs -ls / |grep /| wc -l
# 统计根目录下每个文件的大小,最终把文件名称和大小打印出来
hdfs dfs -ls / |grep / | awk '{print $8,$5}'
hadoop jar db_hadoop-1.0-SNAPSHOT-jar-with-dependencies.jar com.imooc.mr.WordCountJob /test/hello.txt /out
hadoop:表示使用hadoop脚本提交任务,其实在这里使用yarn脚本也是可以的,从hadoop2开始支持使用yarn,不过也兼容hadoop1,也继续支持使用hadoop脚本,所以在这里使用哪个都可以,具体就看你个人的喜好了,我是习惯于使用hadoop脚本
jar:表示执行jar包
db_hadoop-1.0-SNAPSHOT-jar-with-dependencies.jar:指定具体的jar包路径信息
com.imooc.mr.WordCountJob:指定要执行的mapreduce代码的全路径
/test/hello.txt:指定mapreduce接收到的第一个参数,代表的是输入路径,这里的输入路径可以直接指定hello.txt的路径,也可以直接指定它的父目录,因为它的父目录里面也没有其它无关的文件,如果指定目录的话就意味着hdfs会读取这个目录下所有的文件,所以后期如果我们需要处理一批文件,那就可以把他们放到同一个目录里面,直接指定目录即可。
/out:指定mapreduce接收到的第二个参数,代表的是输出目录,这里的输出目录必须是不存在的,MapReduce程序在执行之前会检测这个输出目录,如果存在会报错,因为它每次执行任务都需要一个新的输出目录来存储结果数据
yarn logs -applicationId application_1587713567839_0001
yarn logs -applicationId application_1587713567839_0001 | grep k1,v1
yarn application -kill application_1587713567839_0003
修改集群中etc/hadoop目录下的capacity-scheduler.xml配置文件
[root@bigdata01 hadoop]# vi capacity-scheduler.xml
yarn.scheduler.capacity.root.queues
default,online,offline
队列列表,多个队列之间使用逗号分割
yarn.scheduler.capacity.root.default.capacity
70
default队列70%
yarn.scheduler.capacity.root.online.capacity
10
online队列10%
yarn.scheduler.capacity.root.offline.capacity
20
offline队列20%
yarn.scheduler.capacity.root.default.maximum-capacity
70
Default队列可使用的资源上限.
yarn.scheduler.capacity.root.online.maximum-capacity
10
online队列可使用的资源上限.
yarn.scheduler.capacity.root.offline.maximum-capacity
20
offline队列可使用的资源上限.
flume-ng agent --name a1 --conf conf --conf-file conf/example.conf -Dflume.root.logger=INFO,console
后面指定agent,表示启动一个Flume的agent代理
--name:指定agent的名字
--conf:指定flume配置文件的根目录
--conf-file:指定Agent对应的配置文件(包含source、channel、sink配置的文件)
-D:动态添加一些参数,在这里是指定了flume的日志输出级别和输出位置,INFO表示日志级别,console表示是控制台的意思,也就是说默认会把日志数据打印到控制台上,方便查看,一般在学习测试阶段会指定这个参数
flume-ng agent -n $agent_name -c conf -f conf/flume-conf.properties.template
这里面的-n属于简写,完整的写法就是–name
-c完整写法的–conf
-f完整写法是–conf-file
nohup bin/flume-ng agent --name a1 --conf conf --conf-file conf/example.conf &
jps
出现:Application
或者使用
jps -m
信息更加详细:Application --name a1 --conf-file conf/example.conf
或者使用
ps -ef|grep flume
root 9581 1500 0 10:54 pts/0 00:00:00 /data/soft/jdk1.8/bin/java -Xmx20m -cp /data/soft/apache-flume-1.9.0-bin/conf:/data/soft/apache-flume-1.9.0-bin/lib/*:/lib/* -Djava.library.path= org.apache.flume.node.Application --name a1 --conf-file conf/example.conf
root 9672 1500 0 10:57 pts/0 00:00:00 grep --color=auto flume
hive
要开启hiveserver2才能连接进去
开启hiveserver2
hiveserver2
然后进行连接
beeline -u jdbc:hive2://localhost:10000
beeline -u jdbc:hive2://192.168.18.100:10000
beeline -u jdbc:hive2://localhost:10000 -n root
beeline -u jdbc:hive2://localhost:10000 -n root
hive -e "select * from t1"
zkServer.sh start
zkServer.sh stop
zkServer.sh status
或者
jps
jps -m
zkCli.sh
start-hbase.sh
stop-hbase.sh
jps
jps -m
http://bigdata01:16010/
hbase shell
无常用命令
注意,这里的start-all.sh和hadoop注意区别。
cd /data/soft/spark-2.4.3-bin-hadoop2.7
sbin/start-all.sh
cd /data/soft/spark-2.4.3-bin-hadoop2.7
sbin/stop-all.sh
jps
Master进程、Worker进程
web页面:
http://bigdata01:8080/
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://bigdata01:7077 examples/jars/spark-examples_2.11-2.4.3.jar 2
无需启动,可以直接提交任务。
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster examples/jars/spark-examples_2.11-2.4.3.jar 2
方便在本地环境调试代码
使用spark-submit提交到集群执行,实际工作中会使用这种方式
[root@bigdata04 sparkjars]# vi wordCountJob.sh
spark-submit \
--class com.imooc.scala.WordCountScala \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--num-executors 1 \
db_spark-1.0-SNAPSHOT-jar-with-dependencies.jar \
hdfs://bigdata01:9000/test/hello.txt
这种方式方便在集群环境中调试代码
spark-shell
指定–master spark://bigdata01:7077
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://bigdata01:7077 examples/jars/spark-examples_2.11-2.4.3.jar 2
指定–master yarn --deploy-mode client
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client examples/jars/spark-examples_2.11-2.4.3.jar 2
指定–master yarn --deploy-mode cluster
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster examples/jars/spark-examples_2.11-2.4.3.jar 2
bin/kafka-server-start.sh -daemon config/server.properties
jps
bin/kafka-topics.sh --create --zookeeper localhost:2181 --partitions 2 --replication-factor 2 --topic hello
bin/kafka-topics.sh --list --zookeeper localhost:2181
bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic hello
注:只能增加
bin/kafka-topics.sh --alter --zookeeper localhost:2181 --partitions 5 --topic hello
bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic hello
删除Kafka中的指定Topic
bin/kafka-topics.sh --delete --zookeeper localhost:2181 --topic hello
[root@bigdata01 kafka_2.12-2.4.1]# bin/kafka-topics.sh --create --zookeeper localhost:2181 --partitions 5 --replication-factor 2 --topic hello
Created topic hello.
[root@bigdata01 kafka_2.12-2.4.1]# bin/kafka-console-producer.sh --broker-list localhost:9092 --topic hello
>hehe
# 默认消费最新的数据
[root@bigdata01 kafka_2.12-2.4.1]# bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic hello
# 从头消费
[root@bigdata01 kafka_2.12-2.4.1]# bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic hello --from-beginning
hehe
redis-server redis.conf
ps -ef|grep redis
redis-cli
[root@bigdata04 redis-5.0.9]# redis-cli
127.0.0.1:6379> shutdown
not connected>
或者
[root@bigdata04 redis-5.0.9]# redis-cli shutdown
bin/start-cluster.sh
jps
bin/stop-cluster.sh
Flink ON YARN两种使用方式
在Yarn中初始化一个Flink集群,以后提交任务都提交到这个Flink集群中,这个Flink集群会常驻在Yarn集群中,除非手工停止。
适合运行规模小,短时间运行的作业。
使用yarn-session.sh脚本
bin/yarn-session.sh -jm 1024m -tm 1024m -d
bin/flink run ./examples/batch/WordCount.jar
yarn application -kill application_1768906309581_0005
每次提交任务都会创建一个新的Flink集群,任务之间互相独立,互不影响,方便管理,任务执行完成后创建的集群也会消失。
适合长时间运行的作业
bin/flink run -m yarn-cluster -yjm 1024 -ytm 1024 ./examples/batch/WordCount.jar
bin/flink run -m yarn-cluster -c com.imooc.scala.SocketWindowWordCountScala -yjm 1024 -ytm 1024 db_flink-1.0-SNAPSHOT-jar-with-dependencies.jar
bin/elasticsearch
bin/elasticsearch -d
jps
web页面:
http://bigdata01:9200/
ES的相关日志都在ES_HOME的logs目录下,ES服务的核心日志在elasticsearch.log日志文件中。
[root@bigdata01 elasticsearch-7.13.4]# cd logs/
[root@bigdata01 logs]# ll
total 208
-rw-rw-r--. 1 es es 0 Feb 26 10:48 elasticsearch_audit.json
-rw-rw-r--. 1 es es 554 Feb 26 11:20 elasticsearch_deprecation.json
-rw-rw-r--. 1 es es 332 Feb 26 11:20 elasticsearch_deprecation.log
-rw-rw-r--. 1 es es 0 Feb 26 10:48 elasticsearch_index_indexing_slowlog.json
-rw-rw-r--. 1 es es 0 Feb 26 10:48 elasticsearch_index_indexing_slowlog.log
-rw-rw-r--. 1 es es 0 Feb 26 10:48 elasticsearch_index_search_slowlog.json
-rw-rw-r--. 1 es es 0 Feb 26 10:48 elasticsearch_index_search_slowlog.log
-rw-rw-r--. 1 es es 23653 Feb 26 11:10 elasticsearch.log
-rw-rw-r--. 1 es es 42094 Feb 26 11:10 elasticsearch_server.json
-rw-rw-r--. 1 es es 37878 Feb 26 11:10 gc.log
-rw-rw-r--. 1 es es 1996 Feb 26 10:48 gc.log.00
-rw-rw-r--. 1 es es 85728 Feb 26 11:37 gc.log.01
-rw-rw-r--. 1 es es 1996 Feb 26 11:10 gc.log.02