大体流程

⽐赛系统使⽤
1.
界⾯介绍
2.
主机登录
基础环境
1.
主机名修改 , 主机与 ip 地址映射关系 (ip 地址使⽤的是局域⽹ )
2.
ssh 免密登录
3.
时间同步
4.
关闭防⽕墙
5.
本地 repo ⽂件
6.
配置 JDK
集群搭建
Zookeeper 集群搭建
1.
下载⽂件 wget http://xxxxx
2.
解压 tar- -xzvf xxx.tar.gz
3.
配置系统环境变量 ZOOKEEPER_HOME
4.
配置
zoo.cfg ⽂件
5.
配置
myid ⽂件 注意 id 的号码
6.
分发⽂件 scp -r source_dir user@host:/dest_dir
7.
3 台主机分别启动 zk 服务 zkServe.sh start && zkServer.sh status Hadoop 集群搭建
1.
下载⽂件 2.7.3
2.
解压⽂件
3.
配置系统环境变量 HADOOP_HOME
, bin sbin2 个⽬录都添加到系统环境变量 PATH ,不
要忘记⽣效和分发到另外 2 台服务器
4.
配置⽂件:参考地址 https://hadoop.apache.org/docs/r2.7.3/
1.
hadoop-env.sh
: 配置 JAVA_HOME 系统环境变量
2.
core-site.xml
Hadoop 的核⼼配置, uri ,临时⽬录等
3.
hdfs-site.xml
hdfs 分布式⽂件系统的配置,副本因⼦、 namenode
datanode 的元数据路径等
4.
mapred-site.xml :MapReduce 计算框架使⽤的资源调度框架
5.
yarn-site.xml :yarn 资源调度框架相关的配置,
resourcemanager,nodemanager
6.
slaves
:DataNode,NodeManager
7.
master
:NameNode,ResourceManager
5.
分发⽂件到另外 2 台服务器
6.
master 上格式化 namenode hdfs namenode -format
7.
启动 Hadoop 分布式集群 start-all.sh
8.
3 台服务器上分别执⾏ jps
查看启动的进程
Hbase 集群搭建
1.
下载软件
2.
解压
3.
配置系统环境变量 HBASE_HOME
4.
修改配置⽂件参考地址: http://hbase.apache.org/book.html#distributed
1.
hbase-env.sh : 配置系统环境变量 JAVA_HOME ,关闭 hbase ⾃带的 zk 集群
2.
hbase-site.xml :配置 hbase hdfs 上的存储位置,使⽤的 zk 集群, zk 集群元数
据存放位置,开启分布式等
3.
regionservers :RegionServer 服务器节点 5.
Hadoop 集群的 core-site.xml,hdfs-site.xml ⽂件软连到 Hbase 配置⽬录
ln -s
$HADOOP_HOME/etc/hadoop/core-site.xml $HBASE_HOME/conf/
6.
将⽂件分发到另外 2 台服务器
7.
启动 Hbase 集群 start-hbase.sh
Hive 数仓集群
安装 MySQL 服务
1.
确认是否使⽤了本地源及是否有 mysql
2.
安装 yum install mysql-community- y
3.
启动服务 systemctl start mysqld
4.
查看初始密码 cat /var/log/mysqld.log | grep password
5.
使⽤初始密码登陆 mysql -u root -p
6.
修改全局密码安全策略 set global validate_password_policy=0;set global
validate_password_length=4;
7.
修改 root ⽤户密码 alter user 'root'@'localhost' identified by '123456';
8.
创建远程可登陆的 root ⽤户
create user 'root'@'%' with grant option;flush
privileges;
9.
创建数据库
安装 Hive
1.
下载软件
2.
解压
3.
配置系统环境变量
HIVE_HOME
4.
下载 jdbc 驱动到 $HIVE_HOME/lib
5.
将⽂件分发到指定的服务器;
6.
修改制定节点上的 jlin cp $HIVE_HOME/lib/jlin-2.12.jar
$HADOOP_HOME/share/hadoop/yarn/lib
7.
配置⽂件 ( 按照题⽬要求,将哪个节点作为 master)
1.
hive-site.xml : 使⽤ jdbc 连接 MySQL 数据库, jdbc 启动器、数据库⽤户名、密
码、 hive 数仓在 HDFS 上的位置
2.
hive-env.sh : 配置 HADOOP_HOME 系统环境变量 8.
到指定的服务器上进⾏配置 (hive slave 节点 )
1.
系统环境变量 HIVE_HOME
2.
hive-site.xml : 配置数仓在 HDFS 上的位置、 thrift 地址等 ( 可以多 client 同时登录
Hive)
3.
hive-env.sh : 配置 HADOOP_HOME 系统环境变量
9.
在指定的 hive master 节点上启动 hive metastore 服务 nohup hive --service
metastore > /dev/null 2>&1 &
10.
在指定的 hive slave 节点上启动 hive client 或直接执⾏创建数据库命令
hive -e
'create database hive_db;show databases;'
Spark 集群
安装 Scala
1.
下载软件
2.
解压
3.
配置系统环境变量
SCALA_HOME
3 个节点执⾏
scala -version
安装 Spark
1.
下载软件
2.
解压
3.
配置系统环境变量
SPARK_HOME
4.
配置⽂件,参考地址 https://spark.apache.org/docs/2.4.0/
1.
spark-env.sh :
JAVA_HOME,SCALA_HOME,HADOOP_CONF_DIR,SPARK_MASTER_IP,SPARK_WORKER
_MEMORY
2.
slaves 中添加⼯作节点的主机名
5.
分发⽂件
6.
在指定的节点上启动 Spark 集群 $SPARK_HOME/sbin/start-all.sh
7.
在节点上分别执⾏ jps 查看进程信息 PYTHON 爬⾍
1.
使⽤ requests,bs4,lxml 等模块爬取论坛内所有的帖⼦;注意: 将爬取下的数据存⼊
指定的⽂件,字段与字段之间使⽤逗号分隔,注意写⼊⽂件中字段的顺序
2.
hive 中创建数据库和数据表,注意:使⽤的数据库和数据表中字段的名称
3.
将本地⽂件系统的⽂件导⼊到 hive 数据表中 load data local inpath 'path'
overwrite into table table_name
决赛
Hive 集群
安装及注意事项同选拔赛
安装 sqoop
1.
下载
2.
解压
3.
配置系统环境变量 SQOOP_HOME ,⽣效 ( 指定的节点 )
4.
复制 jdbc 驱动到 $SQOOP_HOME/lib
5.
配置⽂件
1.
sqoop-env.sh
HADOOP_COMMON_HOME,HADOOP_MAPRED_HOME,HIVE_HOME,ZOOCFGDIR
系统环境
变量
2.
复制 $HIVE_HOME/conf/hive-site.xml $SQOOP_HOME/conf/
6.
查看 sqoop 版本号 sqoop version
7.
通过 sqoop 查询 MySQL 数据库中的所有数据库 sqoop list-databases --connection
jdbc xxxx --username root --password 数据分析及可视化
数据分析
1. 数据集
共享单⻋数据集
⼈⼝数据集
样例数据:
197068,2017-10-1 0:00,2017-10-1 0:03,31214,17th & Corcoran
St NW,31229,New Hampshire Ave & T St NW,W21022,Member
数据集字段:
骑⾏时间(毫秒为单位): duration (ms)
开始时间: startdate
结束时间: enddate
开始地点数: startnum
开始地点: startstation
结束地点数: endnum
结束地点: dndstation
单⻋⻋号: bikenum
⽤户类型: type Member 会员 / Casual 临时会员) 2.
上传数据 hdfs put xxxx
3.
建表导⼊数据 create table xxxx
4.
分析,常⽤的聚合函数及关键词
avg(),round(),limit group by order by
,以及对
⽇期的处理
数据挖掘
1. 主要是使⽤
Apriori
算法,计算⽀持度和置信度
1.
⽀持度:同时包含 A B 的事务占所有事务的⽐例;
2.
置信度:包含 A 的事务中同时包含 B 的事务所占的⽐例;
可视化
1.
使⽤的是 echarts ,在本地 repo 中提供了 echarts 配置说明和样例图,注意: 在最终提
交的时候需要将 js 转成 json 提交, JSON.stringify(option)
2.
柱状图、折线图、饼图

你可能感兴趣的:(大体流程)