物流实时数仓:环境搭建
之前学校安排了实训,所以有一堆事情要处理。现在基本算是搞完了,继续进行学习的提升,这次进行的是实时数仓的学习,可以算是大数据学习的最后阶段了。
以下是实时数仓的框架图。
我们需要准备好以下环境
jdk、hadoop、zookeeper、kafka、mysql。
这些环境在之前的离线数仓都安装过,这里就不再重复了。
线上问诊
hbase专栏
接下来整合phoenix,这个软件可以让我们用SQL操作hbase
# PHOENIX_HOME
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin
cp phoenix-server-hbase-2.4-5.1.3.jar /opt/module/hbase/lib/
vim /opt/module/hbase/conf/hbase-site.xml
<property>
<name>phoenix.schema.isNamespaceMappingEnabled</name>
<value>true</value>
</property>
<property>
<name>phoenix.schema.mapSystemTablesToNamespace</name>
<value>true</value>
</property>
vim /opt/module/phoenix/bin/hbase-site.xml
<property>
<name>phoenix.schema.isNamespaceMappingEnabled</name>
<value>true</value>
</property>
<property>
<name>phoenix.schema.mapSystemTablesToNamespace</name>
<value>true</value>
</property>
xsync /opt/module/hbase/lib/phoenix-server-hbase-2.4-5.1.3.jar
xsync /opt/module/hbase/conf/hbase-site.xml
之后我们启动zk、hadoop和hbase测试一下。
然后访问以下hbase的webui
http://hadoop102:16010/
之后连接Phoenix
/opt/module/phoenix/bin/sqlline.py hadoop102,hadoop103,hadoop104:2181
sudo yum install centos-release-scl scl-utils-build
sudo yum install -y devtoolset-8-toolchain
sudo scl enable devtoolset-8 bash
tar -xvf redis-6.0.8.tar.gz -C /opt/module/
cd ../module/redis-6.0.8/
make
make install
注意上边命令是用root完成,现在我们用atguigu进行下边的命令。
cp /opt/module/redis-6.0.8/redis.conf ~/my_redis.conf
vim ~/my_redis.conf
redis-server ./my_redis.conf
具体内容参考之前的博客不写了
ClickHouse
Flink安装
cd /opt/module/
mkdir tms
cd tms
修改一下
application.yml
这里的信息根据自己的数据库信息进行修改。
java -jar tms-mock-2023-01-06.jar
由于我们模拟的是实时数仓,所以他会不停的生成数据,所以等个半分钟,就可以终止进程然后去数据库看数据了。
这就是生成数据的实时时间,说明数据进行了更新,但这不是模拟数据的时间,模拟数据的时间可以在application.yml设置。
至此,物流实时数仓采集通道搭建完成。