DPnice

集群上独立运行Alluxio1.8使用HA HDFS为底层存储系统

软件版本：

软件	版本
jdk	jdk1.8.0_191
zookeeper	zookeeper-3.4.12
hadoop	hadoop-2.8.5
alluxio	alluxio-1.8.0-hadoop-2.8

配置JDK：

解压并创建软链接：

$ sudo ln -s /opt/Software/jdk1.8.0_191/ /jdk

配置环境变量：

$ vi /etc/profile

添加以下内容：

export JAVA_HOME=/jdk
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

更新环境变量文件：

$ source /etc/profile

配置免密钥：

查看本地是否装有SSH 协议：

$ sudo rpm -qa|grep ssh

如果没有需要yum安装 ssh

在用户目录下进入.ssh目录检查是否需要配置免密钥

默认没有 .ssh 目录

如果没有配置执行就生成 SSH 密钥：

$ ssh-keygen -t rsa

连续四个回车执行完毕

将公钥拷贝到目标远程主机和自己：

$ ssh-copy-id dpnice@cdh1
$ ssh-copy-id dpnice@cdh2
$ ssh-copy-id dpnice@cdh3

安装配置zookeeper：

解压zookeeper：

进入解压后zookeeper 目录创建文件夹：

$ mkdir log
$ mkdir data

进入conf目录

$ cp zoo_sample.cfg zoo.cfg 
$ vi zoo.cfg

添加或修改以下内容：

dataDir=/opt/Software/zookeeper-3.4.12/data
dataLogDir=/opt/Software/zookeeper-3.4.12/log

server.1=cdh1:2222:2225
server.2=cdh2:2222:2225
server.3=cdh3:2222:2225

在数据目录/opt/Software/zookeeper-3.4.12/data下面新建名为myid的文件：

$ vi /opt/Software/zookeeper-3.4.12/data/myid

添加cdh1的myid文件内容为

各个主机对应的内容是不同的，cdh1的内容是1，cdh2的内容是2，cdh3的内容是3，分别对应配置文件中server.x中的x

将配置文件发送到其他节点：

$ scp -r /opt/Software/zookeeper-3.4.12/conf/zoo.cfg dpnice@cdh2:/opt/Software/zookeeper-3.4.12/conf/
$ scp -r /opt/Software/zookeeper-3.4.12/conf/zoo.cfg dpnice@cdh3:/opt/Software/zookeeper-3.4.12/conf/

所有节点执行启动：

$ /opt/Software/zookeeper-3.4.12/bin/zkServer.sh start

查看节点的身份状态：

$ /opt/Software/zookeeper-3.4.12/bin/zkServer.sh status

安装Haoop 配置HA HDFS 、HA YARN：

解压Hadoop：

进入Hadoop目录

$cd /opt/Software/hadoop-2.8.5/

创建文件夹：

mkdir /opt/Software/hadoop-2.8.5/tmp
mkdir /opt/Software/hadoop-2.8.5/data

进入Hadoop配置文件目录：

$ cd etc/hadoop/

编辑配置文件：

$ vi core-site.xml 追加如下内容：



  fs.defaultFS
  hdfs://nns



     hadoop.tmp.dir
     /opt/Software/hadoop-2.8.5/tmp


     io.file.buffer.size
     4096



     ha.zookeeper.quorum
     cdh1:2181,cdh2:2181,cdh3:2181


 fs.trash.interval
 1440
 默认0，表示不开启垃圾箱功能，大于0时，表示删除的文件在垃圾箱中存留的分钟数，


 fs.trash.checkpoint.interval
 1440
 垃圾回收检查的时间间隔，值应该小于等于 fs.trash.interval。默认0，此时按fs.trash.interval的值大小执行

$ vi hdfs-site.xml

NameNode的名字不能带有 “_” 下划线



	dfs.nameservices
	nns



	dfs.ha.namenodes.nns
	nn0,nn1



	dfs.namenode.rpc-address.nns.nn0
	cdh1:9000



	dfs.namenode.http-address.nns.nn0
	cdh1:50070



	dfs.namenode.rpc-address.nns.nn1
	cdh2:9000



	dfs.namenode.http-address.nns.nn1
	cdh2:50070


    dfs.namenode.shared.edits.dir
    qjournal://cdh1:8485;cdh2:8485;cdh3:8485/nns



    dfs.journalnode.edits.dir
    /opt/Software/hadoop-2.8.5/journal



      dfs.ha.automatic-failover.enabled
      true



    dfs.client.failover.proxy.provider.nns
    org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider



    dfs.ha.fencing.methods
    sshfence



    dfs.ha.fencing.ssh.private-key-files
    /home/dpnice/.ssh/id_rsa



    dfs.namenode.name.dir
    file:///opt/Software/hadoop-2.8.5/data/namenode



    dfs.datanode.data.dir
    file:///opt/Software/hadoop-2.8.5/data/datanode


	dfs.replication
	2


	dfs.permissions.enabled
    false


    dfs.web.ugi
    dpnice,supergroup


    dfs.permissions.superusergroup
    supergroup

$ cp mapred-site.xml.template mapred-site.xml

$ vi mapred-site.xml


    mapreduce.framework.name
    yarn


	mapreduce.jobhistory.address
	cdh2:10020


	mapreduce.jobhistory.webapp.address
	cdh2:19888

$ vi yarn-site.xml


    yarn.nodemanager.aux-services
    mapreduce_shuffle
    NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序


    yarn.resourcemanager.ha.enabled
    true
是否启用 ResourceManager 高可用，默认 false


    yarn.resourcemanager.cluster-id
    cluster1
    ResourceManager 集群名


  yarn.resourcemanager.ha.rm-ids
  rm1,rm2


  yarn.resourcemanager.hostname.rm1
  cdh1


  yarn.resourcemanager.hostname.rm2
  cdh2


    yarn.resourcemanager.webapp.address.rm1
    cdh1:8088


    yarn.resourcemanager.webapp.address.rm2
    cdh2:8088


    yarn.resourcemanager.zk-address
    cdh1:2181,cdh2:2181,cdh3:2181


    yarn.log-aggregation-enable
    true
    是否开启日志聚集功能，默认false。应用执行完成后，Log Aggregation 收集每个 Container 的日志到 HDFS 上


  yarn.log-aggregation.retain-seconds
  25200
  聚集日志最长保留时间

追加：hadoop-env.sh文件:

$ vi /opt/Software/hadoop-2.8.5/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/jdk

把配置文件发送到其他节点：

$ scp -rp /opt/Software/hadoop-2.8.5/etc/hadoop/core-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/hdfs-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/yarn-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/mapred-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/hadoop-env.sh cdh2:/opt/Software/hadoop-2.8.5/etc/hadoop/
$ scp -rp /opt/Software/hadoop-2.8.5/etc/hadoop/core-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/hdfs-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/yarn-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/mapred-site.xml /opt/Software/hadoop-2.8.5/etc/hadoop/hadoop-env.sh cdh3:/opt/Software/hadoop-2.8.5/etc/hadoop/

在Zookeeper中创建一个存储NameNode HA相关数据的 zNode

$ /opt/Software/hadoop-2.8.5/bin/hdfs zkfc -formatZK

使用zkCli查看zookeeper：

$ /opt/Software/zookeeper-3.4.12/bin/zkCli.sh -server 192.168.137.130:2181

zkCli查看是否有hadoop-ha目录：

$ ls /

启动所有 JournalNode 进程：

$ /opt/Software/hadoop-2.8.5/sbin/hadoop-daemons.sh start journalnode

执行格式化：

$ /opt/Software/hadoop-2.8.5/bin/hdfs namenode -format

如果需要重新格式化 NameNode，需要先将原来 NameNode 和 DataNode 下的文件全部删除，不然会报错，NameNode 和 DataNode 所在目录是在 core-site.xml 中 hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir属性配置的。因为每次格式化，默认是创建一个集群ID，并写入NameNode和DataNode的VERSION文件中，重新格式化时，默认会生成一个新的集群ID,如果不删除原来的目录，会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID，不一致时会报错。

在其中一台节点上启动Active NameNode:

$ /opt/Software/hadoop-2.8.5/sbin/hadoop-daemon.sh start namenode

在另一台节点同步 Standby NameNode:

$ /opt/Software/hadoop-2.8.5/bin/hdfs namenode -bootstrapStandby

启动 Standby NameNode:

$ /opt/Software/hadoop-2.8.5/sbin/hadoop-daemon.sh start namenode

至此可以关闭所有组件，然后启动hdfs了

切换第一台为 Active 状态：

$ /opt/Software/hadoop-2.8.5/bin/hdfs haadmin -transitionToActive --forcemanual nn0

–forcemanual 强制使用手动故障转移

关闭：journalnode

$ /opt/Software/hadoop-2.8.5/sbin/hadoop-daemons.sh stop journalnode

关闭：namenode

$ /opt/Software/hadoop-2.8.5/sbin/hadoop-daemon.sh stop namenode

启动HDFS:

$ /opt/Software/hadoop-2.8.5/sbin/start-dfs.sh

[dpnice@cdh1 hadoop-2.8.5]$ jps
13985 NameNode
14737 DFSZKFailoverController
14881 Jps
14147 DataNode
14454 JournalNode
8847 QuorumPeerMain

[dpnice@cdh2 hadoop-2.8.5]$ jps
11760 NameNode
12145 Jps
11942 JournalNode
12056 DFSZKFailoverController
11834 DataNode
8219 QuorumPeerMain

安装配置Alluxio 1.8

简介：

在大数据生态系统中，Alluxio介于计算框架(如Apache Spark，Apache MapReduce，Apache HBase，Apache Hive，Apache Flink)和现有的存储系统（如Amazon S3，OpenStack Swift，GlusterFS，HDFS，MaprFS，Ceph，NFS，OSS）之间。Alluxio为大数据软件栈带来了显著的性能提升。Alluxio与Hadoop是兼容的。现有的数据分析应用，如Spark和MapReduce程序，可以不修改代码直接在Alluxio上运行。

设计：

Alluxio的设计使用了单Master和多Worker的架构。从高层的概念理解，Alluxio可以被分为三个部分，Master，Worker和Client。Master和Worker一起组成了Alluxio的服务端，它们是系统管理员维护和管理的组件。Client通常是应用程序，如Spark或MapReduce作业，或者Alluxio的命令行用户。Alluxio用户一般只与Alluxio的Client组件进行交互。

进程：

AlluxioProxy：该进程使用一个内部Alluxio Java客户端对REST接口和Alluxio服务器之间的通信进行代理。
AlluxioMaster：负责管理元数据
AlluxioWorker：负责数据读写

前提条件:

Java(JDK 8或更高版本)
开启远程登录服务
已经安装HDFS且正在运行
已经安装Zookeeper且正在运行
用户具有sudo权限

安装：

解压，配置环境变量，创建软链接

ln -s /opt/Software/alluxio-1.8.0-hadoop-2.8/ /alluxio

进入Alluxio 的conf目录开始配置：

创建软链接：

$ ln -s /opt/Software/hadoop-2.8.5/etc/hadoop/core-site.xml ./core-site.xml
$ ln -s /opt/Software/hadoop-2.8.5/etc/hadoop/hdfs-site.xml ./hdfs-site.xml

使用HA HDFS 为存储或者在alluxio-site.properties中配置 alluxio.underfs.hdfs.configuration=/opt/Software/hadoop-2.8.5/etc/hadoop/core-site.xml:/opt/Software/hadoop-2.8.5/etc/hadoop/hdfs-site.xml

配置alluxio-site.properties文件：

$ cp alluxio-site.properties.template alluxio-site.properties
$ vi alluxio-site.properties

添加或追加以下内容：
alluxio.master.hostname=cdh1
alluxio.underfs.address=hdfs://nns/
alluxio.zookeeper.enabled=true
alluxio.zookeeper.address=cdh1:2181,cdh2:2181,cdh3:2181
alluxio.master.journal.folder=hdfs://nns/alluxio/journal

nns为 dfs.nameservices
alluxio.master.hostname 配置只需要在master 节点配置
worker 节点只需要配置 alluxio.zookeeper.enabled和alluxio.zookeeper.address

把配置信息发送到其他节点：

$ /opt/Software/alluxio-1.8.0-hadoop-2.8/bin/alluxio copyDir /opt/Software/alluxio-1.8.0-hadoop-2.8/conf/

同步文件和文件夹到所有的alluxio/conf/workers中指定的主机。如果你只在Alluxio master节点上下载并解压了Alluxio压缩包，你可以使用copyDir命令同步worker节点下的Alluxio文件夹，你同样可以使用此命令同步conf/alluxio-site.properties中的变化到所有worker节点。

注意使用HA：cdh2需要修改为alluxio.master.hostname=cdh2 保证有两台master

第一次启动需要格式化：

$ /alluxio/bin/alluxio format

格式化后hdfs存在 /alluxio 文件夹：

[dpnice@cdh3 hadoop]$ /hadoop/bin/hdfs dfs -ls /
Found 4 items
drwxr-xr-x   - dpnice supergroup          0     2018-11-29 02:06 /alluxio

sudo 免密钥
在Linux文件 /etc/sudoers下添加下面一行，赋予当前用户(“alluxio”)有限的sudo权限 alluxio ALL=(ALL) NOPASSWD: /bin/mount*/mnt/ramdisk, /bin/umount*/mnt/ramdisk, /bin/mkdir*/mnt/ramdisk, /bin/chmod*/mnt/ramdisk 这允许”alluxio”用户应用sudo权限在一个具体路径/mnt/ramdisk 下执行命令mount, umount, mkdir 和 chmod (假设命令在 /bin/) ，并且不需要输入密码。

验证本地环境：

$ /alluxio/bin/alluxio validateEnv local

在cdh1、cdh2启动 master：

$ /alluxio/bin/alluxio-start.sh master

在cdh1、cdh2、cdh3启动 worker：

$ sudo /alluxio/bin/alluxio-start.sh worker Mount

$ /alluxio/bin/alluxio-start.sh worker 使用这种方式需要创建ramfs 并在配置文件中配置路径

运行简单程序：

$ /alluxio/bin/alluxio runTests

验证：

[dpnice@cdh3 hadoop]$ /hadoop/bin/hdfs dfs -ls /
Found 4 items
drwxr-xr-x   - dpnice supergroup          0     2018-11-29 02:06 /alluxio
drwxr-xr-x   - dpnice dpnice              0     2018-11-29 02:28 /default_tests_files

查看leader节点：

$ /alluxio/bin/alluxio fs leader

[dpnice@cdh3 hadoop]$ /alluxio/bin/alluxio fs leader
cdh2

当leader宕机或者挂掉的时候其他master会在短暂初始化操作后对外提供服务，未初始化完时显示：
[dpnice@cdh1 conf]$ /alluxio/bin/alluxio fs leader
cdh1
The leader is not currently serving requests.

访问leader节点 http://cdh2:19999

此时standby节点不可用

上传文件到alluxio根目录

$ /alluxio/bin/alluxio fs copyFromLocal simple-start-app.sh /

alluxio 文件持久化到HDFS

$ /alluxio/bin/alluxio fs persist /simple-start-app.sh

关闭命令：

$ /alluxio/bin/alluxio-stop.sh master
$ /alluxio/bin/alluxio-stop.sh worker

操作demo：

创建文件word

$ vi word.txt
内容为：
spark hadoop
spark hadoop alluxio dpnice
spark hadoop alluxio
spark hadoop alluxio

上传到HDFS：

[dpnice@cdh1 ~]$ /hadoop/bin/hdfs dfs -put ./word.txt /

查看文件：

[dpnice@cdh1 ~]$ /alluxio/bin/alluxio fs ls /
drwxr-xr-x dpnice         supergroup                   1       PERSISTED 11-29-2018 02:06:29:240  DIR /alluxio
drwxr-xr-x dpnice         dpnice                      24       PERSISTED 11-29-2018 02:28:51:060  DIR /default_tests_files
drwxr-xr-x dpnice         dpnice                       0       PERSISTED 11-30-2018 01:14:47:538  DIR /efault_tests_files
drwxr-xr-x dpnice         dpnice                       0   NOT_PERSISTED 11-30-2018 01:18:21:146  DIR /mnt 
-rw-r--r-- dpnice         dpnice                     421       PERSISTED 11-29-2018 18:31:08:737 100% /simple-start-app.sh
drwxr-xr-x dr.who         supergroup                   0       PERSISTED 11-29-2018 01:34:41:034  DIR /test
-rw-r--r-- dpnice         supergroup                  84       PERSISTED 11-30-2018 01:08:06:984   0% /word.txt

HDFS上的word.txt会自动映射到alluxio里，但是Not In Memory，没有存在内存中。

统计word.txt中spark的数量：

[dpnice@cdh1 ~]$ time /alluxio/bin/alluxio fs cat /word.txt | grep -c spark
4

real	0m11.023s
user	0m3.490s
sys     0m1.136s

再次查看文件word.txt：

[dpnice@cdh1 ~]$ /alluxio/bin/alluxio fs ls /word.txt
-rw-r--r-- dpnice         supergroup                  84       PERSISTED 11-30-2018 01:08:06:984 100% /word.txt

显示已经全部加载到内存中

再次统计hadoop的数量：

[dpnice@cdh1 ~]$ time /alluxio/bin/alluxio fs cat /word.txt | grep -c hadoop
4

real	0m3.649s
user	0m2.289s
sys     0m0.670s

会看到相比第一次明显快了很多（其实还是慢的因为虚拟机的缘故），因为数据已经存放到了Alluxio。

操作列表：

操作	语法	描述
cat	cat “path”	将Alluxio中的一个文件内容打印在控制台中
checkConsistency	checkConsistency “path”	检查Alluxio与底层存储系统的元数据一致性
checksum	checksum “path”	计算一个文件的md5校验码
chgrp	chgrp “group” “path”	修改Alluxio中的文件或文件夹的所属组
chmod	chmod “permission” “path”	修改Alluxio中文件或文件夹的访问权限
chown	chown “owner” “path”	修改Alluxio中文件或文件夹的所有者
copyFromLocal	copyFromLocal “source path” “remote path”	将“source path”指定的本地文件系统中的文件拷贝到Alluxio中"remote path"指定的路径如果"remote path"已经存在该命令会失败
copyToLocal	copyToLocal “remote path” “local path”	将"remote path"指定的Alluxio中的文件复制到本地文件系统中
count	count “path”	输出"path"中所有名称匹配一个给定前缀的文件及文件夹的总数
cp	cp “src” “dst”	在Alluxio文件系统中复制一个文件或目录
du	du “path”	输出一个指定的文件或文件夹的大小
fileInfo	fileInfo “path”	输出指定的文件的数据块信息
free	free “path”	将Alluxio中的文件或文件夹移除，如果该文件或文件夹存在于底层存储中，那么仍然可以在那访问
getCapacityBytes	getCapacityBytes	获取Alluxio文件系统的容量
getfacl	getfacl “path”
getUsedBytes	getUsedBytes	获取Alluxio文件系统已使用的字节数
help	help “cmd”	打印给定命令的帮助信息，如果没有给定命令，打印所有支持的命令的帮助信息
leader	leader	打印当前Alluxio leader master节点主机名
load	load “path”	将底层文件系统的文件或者目录加载到Alluxio中
loadMetadata	loadMetadata “path”	将底层文件系统的文件或者目录的元数据加载到Alluxio中
location	location “path”	输出包含某个文件数据的主机
ls	ls “path”	列出给定路径下的所有直接文件和目录的信息，例如大小
masterInfo	masterInfo	打印Alluxio master容错相关的信息，例如leader的地址、所有master的地址列表以及配置的Zookeeper地址
mkdir	mkdir “path1” … “pathn”	在给定路径下创建文件夹，以及需要的父文件夹，多个路径用空格或者tab分隔，如果其中的任何一个路径已经存在，该命令失败
mount	mount “path” “uri”	将底层文件系统的"uri"路径挂载到Alluxio命名空间中的"path"路径下，"path"路径事先不能存在并由该命令生成。没有任何数据或者元数据从底层文件系统加载。当挂载完成后，对该挂载路径下的操作会同时作用于底层文件系统的挂载点。
mv	mv “source” “destination”	将"source"指定的文件或文件夹移动到"destination"指定的新路径，如果"destination"已经存在该命令失败。
persist	persist “path1” … “pathn”	将仅存在于Alluxio中的文件或文件夹持久化到底层文件系统中
pin	pin “path”	将给定文件锁定到内容中以防止剔除。如果是目录，递归作用于其子文件以及里面新创建的文件
report	report “path”	向master报告一个文件已经丢失
rm	rm “path”	删除一个文件，如果输入路径是一个目录该命令失败
setfacl	setfacl “newACL” “path”
setTtl	setTtl “path” “time”	设置一个文件的TTL时间，单位毫秒
stat	stat “path”	显示文件和目录指定路径的信息
tail	tail “path”	将指定文件的最后1KB内容输出到控制台
test	test “path”	测试路径的属性，如果属性正确，返回0，否则返回1
touch	touch “path”	在指定路径创建一个空文件
unmount	unmount “path”	卸载挂载在Alluxio中"path"指定路径上的底层文件路径，Alluxio中该挂载点的所有对象都会被删除，但底层文件系统会将其保留。
unpin	unpin “path”	将一个文件解除锁定从而可以对其剔除，如果是目录则递归作用
unsetTtl	unsetTtl “path”	删除文件的ttl值

ramfs和tmpfs的区别：https://www.cnblogs.com/dosrun/p/4057112.html

http://www.alluxio.org/docs/1.8/cn/deploy/Running-Alluxio-on-a-Cluster.html#配置alluxio
http://www.alluxio.org/docs/1.8/cn/ufs/HDFS.html#基本配置
http://www.alluxio.org/docs/1.8/cn/basic/Command-Line-Interface.html#操作列表

你可能感兴趣的:(Hadoop,Alluxio)

HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后