数据仓库是一种分析数据库,用于存储和处理数据,以便对数据进行分析。数据仓库有两个主要功能:存储分析数据和处理分析数据。
1、分析数据来自于不同的系统
2、需要将分析数据与事务数据分离
3、原始数据源不适合用来查询
这时候就需要创建数仓
数据库承担简单的查询,而数仓的分析工作有一些重量级的查询
他们的数据库底层设计也是非常不一样的。业务数据库的优化目标是高并发的快速短查询,而数仓分析数据库的优化目标是长时间运行的资源密集型查询。
Hadoop的功能是用来存储海量数据的,可以把他简单看做一个提供服务的软件
狭义来看hadoop由大数据分布式文件存储系统HDFS,资源调度平台YARN,和分布式计算MapReduce三个组件组成。数据存储就是在HDFS中
广义来看就是hadoop生态组件,最底层作为支撑的hdfs文件存储系统(全拼,不用背hadoop data file system),yarn资源管理系统,hive数仓工具(能够使用sql操作hdfs),HBASE(nosql数据库),,kafka(消息队列),zookper(分布式协作服务),flume(数据收集)等
在ETL工具中配置好数据源,直接在表输入或者表输出组件中使用
hadoop集群由HDFS集群和YARN集群构建,这两个集群物理上在一起,但是逻辑分离,二者之间没有依赖,互不影响
先让几台服务器做好映射、做好免密配置、做好时间同步
以三台服务器为例,
HDFS集群
第一台服务器防止NameNode主节点,和DataNode数据节点
第二台服务器放置SecondNameNode,DataNode
第三台服务器放置DataNode
YARN集群
第一台服务器放置ResourcesManager
第二三台放置NodeManager
我当时搭建的时候,是给的一个shell脚本,能够一键式安装搭建
namenode作为管理节点,它负责整个文件系统的命名空间,并且维护着文件系统树和整棵树内所有的文件和目录,这些信息以两个文件的形式(命名空间镜像文件和编辑日志文件)永久存储在namenode 的本地磁盘上。
datanode作为文件系统的工作节点,根据需要存储并检索数据块,定期向namenode发送他们所存储的块的列表
在主节点上,用软件自带的shell脚本一键启动,前提:配置好机器的SSH免密登录和workers文件
HDFS集群
start-dfs.sh
stop-dfs.sh
YARN集群
start-yarn.sh
stop-yarn.sh
Hadoop集群
start-all.sh
stop-all.sh
就说其他的就不太清楚了,因为当时只是进行一些安装以及操作,只是用到它来存储,没有深入去操作过
ps -ef |grep tomcat 查看具体进程的id
kill -9 pid 强制结束进程
tail -f 动态监控日志
top -h 查看所有进程的cpu、内存占用情况
df -h 查看磁盘占用情况
free -h 查看内存占用
tar -zxvf 解压
tar -zcvf 压缩
/bin 存放可执行文件的
/boot 存放系统启动用的核心文件,镜像文件等
/dev 存放linux外部设备
/ROOT root用户的home
/home 非root用户的home
/var 存储日志
/usr 下载文件默认位置
/opt 给主机额外的安装软件放置的位置,一般oracle等程序都放在这里
在Linux属性中第一位表示文件的类型,2—10位表示权限,三个为一组
权限r w x - 分别表示的含义为:
i.读(r/4):Read对文件而言,具有读取文件内容的权限;对目录来说,具有浏览该目录信息的权限
ii.写(w/2):Write对文件而言,具有修改文件内容的权限;对目录来说具有删除移动目录内文件的权限
iii.执行(x/1):execute对文件而言,具有执行文件的权限;对目录来说,具有进入目录的权限
iv.“—”表示不具有该项权限
r-x r-x —
拥有者的权限 所属组的权限 其他人的权限
下列例子: 第一位来看,这是一个目录
2-4位看,对于拥有者来说,®该目录可以浏览、(-)不可以删除或者移动目录内文件,(x)可以进入目录。
5-7位看,对于所属组,一样的权限
最后三位,对于其他人来说,没有任何权限
给其他人赋权怎么做?
1、使用rwx表示对应权限
给oracle用户,赋予root的可执行权限,首先oracle对于/root目录来说是其他用户
chmod o+x /root
2、或者使用数字赋权
chmod (-u) (-R) 777
-u : 拥有者
-R :当前目录及目录下所有文件
777 :可读、可写、可执行
bin 可执行文件,用来启动停止等
conf 配置文件,用来配置各种参数,比如端口号
logs 存放日志文件的,tomcat日志文件名字为catalina.out
webapps 存放应用的,访问时用 ip:8080/应用名称
temp 存放临时文件
windows系统应该在startup.bat里面加入 最大最小内存等
linux下是在startup.sh里面加入
…