大数据框架使用文档

文章目录

  • 关于mysql
        • 开启/关闭/重启 数据库
        • 登录数据库
  • 关于hadoop
      • 启动进程
        • 第一种:全部启动集群所有进程
        • 第二种:单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程
        • 第三种:单独启动某一个进程
        • 访问hdfs的web界面 http://master:50070
        • 访问yarn的web界面 http://master:8088
      • hdfs – HA
      • yarn – HA
  • 关于Redis
        • 启动/停止/重启 systemctl start/stop/restart redis
        • 开机自启 systemctl enable redis
  • 关于Hive
        • 登录hive
        • 开启元服务
  • 关于HBase
        • 启动hbase之前先启动zk,每一台服务器都要启动
        • 再启动hbase集群
        • 进行hbase命令行
        • 访问web界面:http://master:16010
  • 关于zookeeper
        • 启动/停止zk,所有节点都要执行
        • 查看状态
        • 连接zk
  • 关于kafka
        • 1、启动kafka之前先启动zk,需要在所有节点启动
        • 2、在每台节点启动broker,kafka是去中心化的架构
        • 3、kafka不依赖hadoop,所以不需要启动hadoop
        • 4、kafka的使用
  • 关于Spark
      • 集群模式
        • 启动集群,在master中执行
        • 访问web界面 http://master:8080
        • 提交任务
        • 1、standalone client模式 日志在本地输出,一般用于上线前测试(bin/下执行)
        • 2、standalone cluster模式 上线使用,不会再本地打印日志
      • 整合yarn模式:在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架
        • 1、停止Spark集群,并且配置文件需要重新配置
        • 2、启动yarn
        • 3、spark on yarn client模式 日志在本地输出,一般用于上线前测试
        • 4、4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
        • 5、获取yarn程序执行日志 执行成功之后才能获取到
        • 访问hdfs的web页面:http://node1:50070
        • 访问yarn的web页面:http://node1:8088
  • 关于Flink
      • 集群模式
        • 启动集群
        • 访问web界面 http://master:8081
        • 提交任务—先将任务打包
      • flink on yarn 只需要部署一个节点,可以停掉独立集群
        • 启动方式 yarn-session
        • 提交任务
        • 关闭 yarn-session
      • 直接提交任务到yarn 每一个任务都会有一个jobManager
        • 杀掉yarn上的任务
        • 查看日志
  • 常见进程
  • 关于FineBI
        • 在虚拟机中启动FineBI
        • 在web端查看: http://IP:37799/webroot/decision

关于mysql

开启/关闭/重启 数据库

命令:service mysqld start/stop/restart

登录数据库

命令:mysql –u用户名 –p密码

关于hadoop

启动进程

第一种:全部启动集群所有进程

启动:sbin/start-all.sh
停止:sbin/stop-all.sh

第二种:单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程

启动:sbin/start-dfs.sh sbin/start-yarn.sh
停止:sbin/stop-dfs.sh sbin/stop-yarn.sh
每次重新启动集群的时候使用

第三种:单独启动某一个进程

启动hdfs:sbin/hadoop-daemon.sh start (namenode | datanode)
停止hdfs:sbin/hadoop-daemon.sh stop (namenode | datanode)
启动yarn:sbin/yarn-daemon.sh start (resourcemanager | nodemanager)
停止yarn:sbin/yarn-daemon.sh stop(resourcemanager | nodemanager)
用于当某个进程启动失败或者异常down掉的时候,重启进程

访问hdfs的web界面 http://master:50070

访问yarn的web界面 http://master:8088

hdfs – HA

  1. 启动zookeeper 三台都需要启动

    命令:zkServer.sh start

  2. 启动JN 存储hdfs元数据

    三台JN上执行

    启动命令: /usr/local/soft/hadoop-2.7.6/sbin/hadoop-daemon.sh start journalnode关于Hive

  3. 格式化 在一台NN上执行,这里选择master
    hdfs namenode -format
    启动当前的NN
    hadoop-daemon.sh start namenode

  4. 执行同步 没有格式化的NN上执行 在另外一个namenode上面执行 这里选择node1
    /usr/local/soft/hadoop-2.7.6/bin/hdfs namenode -bootstrapStandby

  5. 格式化ZK 在master上面执行
    !!一定要先 把zk集群正常 启动起来
    /usr/local/soft/hadoop-2.7.6/bin/hdfs zkfc -formatZK

  6. 启动hdfs集群,在master上执行
    start-dfs.sh

yarn – HA

  1. 启动yarn 在master启动
    命令:start-yarn.sh

  2. 在node1上启动另一个RM
    命令:/usr/local/soft/hadoop-2.7.6/sbin/yarn-daemon.sh start resourcemanager

    master:8088
    node1:8088

关于Redis

启动/停止/重启 systemctl start/stop/restart redis

开机自启 systemctl enable redis

关于Hive

登录hive

  • 命令:hive

开启元服务

  • 命令:nohup hive --service metastore &

关于HBase

启动hbase之前先启动zk,每一台服务器都要启动

  • 命令:zkServer.sh start

再启动hbase集群

  • start-hbase.sh

进行hbase命令行

  • 命令:hbase shell

访问web界面:http://master:16010

关于zookeeper

启动/停止zk,所有节点都要执行

通过jps可以查看zk的进程:QuorumPeerMain

当有一个leader的时候启动成功

  • 命令:zkServer.sh start/stop

查看状态

  • 命令:zkServer.sh status

连接zk

zk 是一个目录结构 ,每个节点可以存数据,同时可以有子节点

  • 命令:zkCli.sh

关于kafka

1、启动kafka之前先启动zk,需要在所有节点启动

  • 命令:zkServer.sh start

2、在每台节点启动broker,kafka是去中心化的架构

-daemon 后台启动 需要在所有节点启动

  • 命令:kafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.properties

注意:后面的路径是指定配置时的配置文件

3、kafka不依赖hadoop,所以不需要启动hadoop

4、kafka的使用

1、创建topic

–replication-factor —每一个分区的副本数量
–partition --分区数, 根据数据量设置

kafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3 --topic test_topic2

2、查看topic描述信息
kafka-topics.sh --describe --zookeeper master:2181 --topic test_topic1

3、获取所有topic
kafka-topics.sh --list --zookeeper master:2181

4、创建控制台生产者
kafka-console-producer.sh --broker-list master:9092 --topic test_topic1

5、创建控制台消费者 --from-beginning 从头消费,, 如果不在执行消费的新的数据
kafka-console-consumer.sh --bootstrap-server master:9092 --from-beginning --topic student3

关于Spark

集群模式

启动集群,在master中执行

  • 命令:./sbin/start-all.sh

访问web界面 http://master:8080

提交任务

1、standalone client模式 日志在本地输出,一般用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

2、standalone cluster模式 上线使用,不会再本地打印日志

  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512M --total-executor-cores 1 --deploy-mode cluster spark-examples_2.11-2.4.5.jar 100

整合yarn模式:在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架

1、停止Spark集群,并且配置文件需要重新配置

2、启动yarn

  • 命令:start-yarn.sh

3、spark on yarn client模式 日志在本地输出,一般用于上线前测试

  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100

4、4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io

  • 命令:spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100

5、获取yarn程序执行日志 执行成功之后才能获取到

  • 命令:yarn logs -applicationId application_1560967444524_0003

访问hdfs的web页面:http://node1:50070

访问yarn的web页面:http://node1:8088

关于Flink

集群模式

启动集群

  • 命令:start-cluster.sh

访问web界面 http://master:8081

提交任务—先将任务打包

  1. 在web页面提交任务
  2. 同flink命令提交任务
    • 命令:flink run -c com.shujia.flink.soure.Demo4ReadKafka flink-1.0.jar
  3. rpc方式提交任务— 远程提交

flink on yarn 只需要部署一个节点,可以停掉独立集群

启动方式 yarn-session

在yarn里面启动一个flink集群 jobManager(ApplicationMaster),yarn-session是所有任务共享同一个jobmanager
先启动hadoop

  • 命令:yarn-session.sh -jm 1024m -tm 1096m

提交任务

  1. 在web页面提交任务
  2. 同flink命令提交任务
    • 命令:flink run -c com.shujia.flink.soure.Demo4ReadKafka flink-1.0.jar
  3. rpc方式提交任务

关闭 yarn-session

  • 命令:yarn application -kill application_1647657435495_0000

直接提交任务到yarn 每一个任务都会有一个jobManager

yarn-session先在yarn中启动一个jobMansager ,所有的任务共享一个jobmanager (提交任务更快,任务之间共享jobmanager , 相互有影响)
直接提交任务模型,为每一个任务启动一个joibmanager (每一个任务独立jobmanager , 任务运行稳定)

  • 命令: flink run -m yarn-cluster -yjm 1024m -ytm 1096m -c com.shujia.flink.core.Demo1WordCount flink-1.0.jar

杀掉yarn上的任务

  • 命令:yarn application -kill application_1599820991153_0005

查看日志

  • 命令:yarn logs -applicationId application_1647657435495_0002

常见进程

  • YarnTaskExecutorRunner flink的taskmanager
  • QuorumPeerMain zk的进程
  • RunJar 可能是hive的元数据服务
  • FlinkYarnSessionCli yarn-session的进程
  • NameNode hdfs主节点
  • DataNode hdfs从节点
  • ResourceManager yarn主节点
  • NodeManager yarn从节点
  • CanalLauncher canal的进程
  • YarnSessionClusterEntrypoint flink的jobmanager
  • SqlClient flink sql的命令行
  • Kafka kafka进程
  • SecondaryNameNode hdfs合并元数据的进程

关于FineBI

在虚拟机中启动FineBI

进入到 /opt/FineBI5.1/bin 下

  • 命令:./finebi

在web端查看: http://IP:37799/webroot/decision

你可能感兴趣的:(大数据,数据仓库,数据库,hive,hadoop)