Life_Cycle_

基于Docker的Hadoop集群搭建

本文为在阿里云服务器上基于docker的Hadoop集群搭建

安装思路为

安装docker -> 运行docker导入ubuntu镜像 -> 运行ubuntu系统 -> 在系统中配置好单个节点 -> 
将配置好的单个节点系统导出为镜像 -> 根据镜像启动多个docker容器 -> 多个docker容器就是集群了。
总结：就是说你要先刻好一个模板，然后用这个模板去生成多个一样的东西，然后由这些来组成集群

安装docker

wget -qO- https://get.docker.com/ | sh

补充：wget是Linux中的一个下载文件的工具，用在命令行下，是一个非常强大的必不可少工具。
wget支持自动下载，就是说你可以登录系统启动一个wget任务，然后退出系统，这个任务将会一直执行，
如果这个任务被系统打断，再次启动的时候会从停止的地方继续下载，这对限定了链接时间的服务器非常有用。
同时支持多种协议HTTP，HTTPS，支持代理。
更多wget知识参考链接

启动docker

安装完成以后如下指令启动docker：

sudo service docker start

docker常用指令参考链接

docker help—检查最新 Docker 可用命令；
docker attach—将本地输入、输出、错误流附加到正在运行的容器；
docker commit—从当前更改的容器状态创建新镜像；
docker exec—在活动或正在运行的容器中运行命令；
docker history—显示镜像历史记录；
docker info—显示系统范围信息；
docker inspect—查找有关 docker 容器和镜像的系统级信息；
docker login—登录到本地注册表或 Docker Hub；
docker pull—从本地注册表或 Docker Hub 中提取镜像或存储库；
docker ps—列出容器的各种属性；
docker restart—停止并启动容器；
docker rm—移除容器；
docker rmi—删除镜像；
docker run—在隔离容器中运行命令；
docker search—在 Docker Hub 中搜索镜像；
docker start—启动已停止的容器；
docker stop—停止运行容器；
docker version—提供 docker 版本信息。

使用docker构建虚拟桥接网络

由于docker网络自带了DNS解析功能，可以使用如下命令来构建一个名为hadoop的虚拟化桥接网络，该网络提供了了内部的DNS借下服务，会给集群内的机器分配IP，供之后的集群使用。

sudo docker network create --driver=bridge hadoop

如果需要查看docker中的网络，可以使用如下命令来查看

sudo docker network ls
root@iZ2ze8dsxce9ufrpvxlluxZ:~# docker network ls
NETWORK ID          NAME                DRIVER              SCOPE
22836c77585e        bridge              bridge              local
714594f681c1        hadoop              bridge              local
08965f3ddcd7        host                host                local
2d1234b6fccd        none                null                local

查找ubuntu容器

sudo docker search ubuntu

下载ubuntu16.04版本镜像

sudo docker pull ubuntu:16.04

如果需要查看已经下载的镜像
sudo docker images

启动容器

sudo docker run -it ubuntu:16.04 /bin/bash

启动容器后就会默认进入容器，如果需要退出容器，输入exit即可。
使用exit退出容器后，容器的状态为exit，并没有运行，如果需要运行容器，输入sudo docker start 容器ID
同样，需要停止已给容器，输入sudo docker stop 容器ID
重新进入容器：sudo docker exec -it 容器ID /bin/bash
可以输入docker ps -a获取容器ID

配置单个容器，作为模板

配置单个容器，首先需要进入容器，在这之后的操作都是默认是进入容器内部的操作，所以你一定要进入容器，不要在外面自己一通瞎几把输入，然后发现配置了半天是在配置服务器本身而不是在配置容器，你将原地气哭。
敲黑板：sudo docker exec -it 容器ID /bin/bash进入容器，然后再进行后面的操作

安装JDK1.8和Scala

spark的运行需要Scala，Scala的运行需要JDK1.8

更换源

由于这个ubuntu16.04的镜像是刚刚得到的，其中的apt源需要更换，此处将其更换为阿里源。
备份源，以防翻车：

cp /etc/apt/sources.list /etc/apt/sources_backup.list

删除源文件

rm /etc/apt/sources.list

使用echo命令将源写入到新文件中

echo "deb http://mirrors.aliyun.com/ubuntu/ xenial main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial main

deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates main

deb http://mirrors.aliyun.com/ubuntu/ xenial universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates universe

deb http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb http://mirrors.aliyun.com/ubuntu/ xenial-security universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security universe" > /etc/apt/sources.list

之后，输入apt update来更新
好了，现在可以放开手脚使用apt install了。

安装JDK1.8

apt install openjdk-8-jdk

测试安装是否成功

java -version
root@iZ2ze8dsxce9ufrpvxlluxZ:~# java -version
openjdk version "1.8.0_242"
OpenJDK Runtime Environment (build 1.8.0_242-8u242-b08-0ubuntu3~16.04-b08)
OpenJDK 64-Bit Server VM (build 25.242-b08, mixed mode)

安装Scala

apt install scala

安装完后Ctrl+D退出Scala命令行

安装Hadoop

安装vim和net-tools网络工具包

apt install vim
apt install net-tools

补充一下后面会用到的vim的相关操作：

编辑一个文件可以直接:vim 文件名
然后会进入到文件中，这时你还不能直接在文件中写东西，因为当前处于命令模式，编辑文本要进入编辑模式才行。
你要按键盘的i键(insert)，才能进入编辑模式。
按下i键后，你就可以在文件中输入内容了;
vim也不支持鼠标点击，只可以通过鼠标滚轮上下移动行或者方向键来操控光标位置。
编辑完毕后按ESC退出编辑模式重新回到命令模式，此时文件并没有保存。
输入键盘中的冒号":"这时你在冒号后面可输入命令了
然后输入"wq!"回车，就保存退出了。"w"表示保存(write);“q"表示退出(quite);”!"表示强制。
如果你不想保存，或者担心文件改错了，想直接退出，那把"wq!"换成"q!"就可以了，表示直接退出，不保存修改。

安装SSH

apt-get install openssh-server
apt-get install openssh-client

要配置SSH的免密登录，然后后面的容器都是根据这个镜像启动的，就是一个模板出来的，具有相同的密钥，这样他们互相可以免密通信了。

配置SSH免密通信

进入用户根目录：

cd ~

生成公钥，输入一下指令后，一直回车，不用输入其他内容，这样生成的密钥文件会保存在默认位置
一定要复制这个指令，因为指令里面的P是大写，要是小写会报错。

ssh-keygen -t rsa -P ""

将公钥追加到authorized_keys中

cat .ssh/id_rsa.pub >> .ssh/authorized_keys

启动SSH服务

service ssh start

免密登录自己

ssh 127.0.0.1

修改.bashrc文件，启动shell的时候，自动启动SSH服务。打开文件vim ~/.bashrc追加如下代码在末尾。

service ssh start

补充:SSH基本知识

第一次登录主机的时候会提示：
The authenticity of host 'host (12.18.429.21)' can't be established.
RSA key fingerprint is 98:2e:d7:e0:de:9f:ac:67:28:c2:42:2d:37:16:58:4d.
Are you sure you want to continue connecting (yes/no)?
这是因为第一次登录的时候，无法确认远程主机的主机的真实性，只知道他的公钥指纹，询问连接是否继续，
输入yes即可。

用户经过风险衡量以后决定接受这个远程主机的公钥，在下面提示中输入yes即可：
Are you sure you want to continue connecting (yes/no)? yes

当系统出现如下提示，表示主机已经得到认可：
Warning: Permanently added 'host,12.18.429.21' (RSA) to the list of known hosts.

然后，会要求输入密码。
Password: (enter password)

当远程主机的公钥被接受后，就会保存在本地文件$HOME/.ssh/known_hosts之中。
下次再连接这台主机，系统就会认出它的公钥已经保存在本地了，从而跳过警告部分，直接提示输入密码。
每个SSH用户都有自己的known_hosts文件，此外系统也有一个这样的文件，
通常是/etc/ssh/ssh_known_hosts，保存一些对所有用户都可信赖的远程主机的公钥。

公钥登录：
所谓"公钥登录"，原理很简单，就是用户将自己的公钥储存在远程主机上。
登录的时候，远程主机会向用户发送一段随机字符串，用户用自己的私钥加密后，再发回来。
远程主机用事先储存的公钥进行解密，如果成功，就证明用户是可信的，直接允许登录shell，不再要求密码。
生成公钥：要想实现公钥登录，用户就必须提供自己的公钥，可以直接使用ssh-keygen生成一个
ssh-keygen -t rsa -P ""
运行上面的命令以后，系统会出现一系列提示，可以一路回车。
其中有一个问题是，要不要对私钥设置口令（passphrase），如果担心私钥的安全，可以设置一个，此处就没有设置。
运行结束以后，在$HOME/.ssh/目录下，会新生成两个文件：id_rsa.pub和id_rsa。
前者是你的公钥，后者是你的私钥。
如果是要实现远程公钥登录，就可以使用ssh-copy-id user@host将公钥传送到远程主机host上面，这里不需要。

authorized_keys文件：
远程主机将用户的公钥，保存在登录后的用户主目录的$HOME/.ssh/authorized_keys文件中。
公钥就是一段字符串，只要把它追加在authorized_keys文件的末尾就行了。
写入authorized_keys文件后，公钥登录的设置就完成了。

用户如何知道远程主机的公钥？
没有什么好办法，远程主机必须在自己的网站上贴出自己的公钥，以便用户核对。

中间人攻击：
SSH的连接过程为：1).远程主机接收到用户的登录请求；
2).远程主机把公钥发送给用户，用户使用这个公钥将  登录密码进行加密，然后发送给远程主机；
3).远程主机使用自己的私钥，解密登录密码，如果密码正确就同意用户登录。
这个过程本身是安全的，但是实施的过程中有一个风险，如果有人截获了登录请求，然后冒充远程主机给用户发送一个伪造的公钥，
用户在不知情的情况下使用这个伪造的公钥将密码发送给伪造者，然后伪造者收到加密报文，解密后就知道了用户的远程登录密码和账户，这就是中间人攻击。  

解释一下公钥私钥：
一台机器为了保证与其他机器通信过程中的可靠性和安全性，有公钥和私钥两把钥匙。
其中公钥是对外开放的，私钥是自己私有的。
外面的机器想要发送信息，就用公钥对信息进行加密，本机收到后，使用私钥对信息进行解密即可。
本机向外面机器发送信息，首先使用Hash函数，生成信件的摘要(Digest)；然后使用私钥对摘要进行加密，
生成数字签名(Signature)；然后将数字签名附在要发送信息的后面发送给对方。
对方收到后，首先取下数字签名，使用公钥对Signature进行解密，得到摘要Digest；然后再对信息本身使用
Hash函数，将得到的结果与解密得到的摘要Digest对比，如果两者一致，就证明信息没有被修改过。
为了防止公钥被人篡改，可以到证书中心CA(certificate authority)验证，但是有些协议没有CA(比如SSH)

SSH的配置非常重要，在后面的集群启动中，遇到了错误Host key verification failed.，具体的解决方案为，使用ssh 172.19.0.x逐个连接容器，然后在启动集群，在遇到是否继续连接是，每个都输入yes，随后就启动成功。

安装Hadoop

拉取Hadoop安装文件，你可以更换其他的镜像源，或其他的版本。

wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz

解压到/usr/local

tar -zxvf hadoop-3.2.0.tar.gz -C /usr/local/
补充：tar指令参数-C为切换到指定的目录，格式为：-C<目的目录>或--directory=<目的目录>

输入cd /usr/local进入到目录下，将解压后的文件重命名，方便使用

mv hadoop-3.2.0 hadoop

在/etc/profile中修改环境变量vim /etc/profile，追加如下内容：

#java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=${JAVA_HOME}/jre    
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib    
export PATH=${JAVA_HOME}/bin:$PATH
#hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME 
export HADOOP_INSTALL=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_CONF_DIR=$HADOOP_HOME 
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_NAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

要使环境变量生效，还需要source一下：

source /etc/profile

配置Hadoop

进入Hadoop配置目录

cd /usr/local/hadoop/etc/hadoop

正常启动需要配置五个文件，slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml。

core-site.xml：核心配置文件，定义了集群是分布式，还是本机运行
hdfs-site.xml：分布式文件系统的核心配置，决定了数据存放路径，数据的副本，数据的block块大小等等
mapred-site.xml：定义了mapreduce运行的一些参数
yarn-site.xml：定义yarn集群
slaves：定义了从节点是哪些机器datanode，nodemanager运行在哪些机器上
hadoop-env.sh：配置jdk的home路径
可参考《Hadoop权威指南》，第十章10.3hadoop配置。

官方配置文档说明链接

配置mapred-site.xml

默认没有mapred-site.xml文件，但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

修改mapred-site.xml为：


    
        mapreduce.framework.name
        yarn
    
    
        mapreduce.application.classpath
        
            /usr/local/hadoop/etc/hadoop,
            /usr/local/hadoop/share/hadoop/common/*,
            /usr/local/hadoop/share/hadoop/common/lib/*,
            /usr/local/hadoop/share/hadoop/hdfs/*,
            /usr/local/hadoop/share/hadoop/hdfs/lib/*,
            /usr/local/hadoop/share/hadoop/mapreduce/*,
            /usr/local/hadoop/share/hadoop/mapreduce/lib/*,
            /usr/local/hadoop/share/hadoop/yarn/*,
            /usr/local/hadoop/share/hadoop/yarn/lib/*

mapreduce.framework.name：指定mapreduce运行框架
mapred.job.tracker：运行jobtracker的主机名和端口号
mapred.local.dir：存储作业中间数据的目录，作业终止时，目录被清空，以逗号分隔多个目
mapred.system.dir：作业运行期间存储共享文件的位置，相对于fs.default.name，默认是${hadoop.tmp.dir}/mapred/system
mapred.tasktracker.map.tasks.maximum：同一时间允许运行的最大map任务数，默认为2
mapred.tasktracker.reduce.tasks.maximum：同一时间允许运行的最大map任务数，默认为2

配置slaves

文件slaves，将作为DataNode的主机名写入该文件，每行一个，默认为localhost，所以在伪分布式配置时，节点即作为NameNode也作为DataNode。分布式配置可以保留localhost，也可以删掉，让Master节点仅作为NameNode使用。此处让Master节点仅作为NameNode使用，因此将文件中原来的localhost删除。

masters记录的是需要启动secondary namenode的节点, 不是namenode，它也和mapreduce没任何关系。
slaves记录的是执行start-all.sh（或相关命令）时，需要远程启动tasktracker与datanode的节点。
这2个文件不需要分发至各个工作节点。
哪个机器执行启动脚本，那它就是jobtracke与namenode，再根据masters确定secondary namenode, 根据slaves文件确定tasktracker与datanode，并远程启动这些守护进程。

此处只是给主机取一个名字而已，后面启动容器的时候将对应的容器命名为h01,h02,h05就是。
由于疫情，加上学校的服务器断电了用不了，我在10块一个月的阿里云学生服务器上测试的，事实证明，五个节点直接撑爆了服务器，后期修改为了三个，勉强能跑，所以建议服务器性能不佳的兄弟写h01,h02,h03就行了。。。

配置core-site.xml

configuration内修改为：


    
        fs.default.name
        hdfs://h01:9000
    
    
        hadoop.tmp.dir
        /home/hadoop3/hadoop/tmp

fs.defaultFS.name：默认文件系统，配置的地址就是java代码访问的时候的路径，需要配置在java代码中，代码中要用IP:9000不能用localhost
hadoop.tmp.dir：配置临时文件存放位置。默认是/tmp/hadoop-$user，此位置有可能在重启时被清空，因此必须另外配置。这个属性会影响namenode/secondary namenode中的元数据与datanode中的数据文件存放位置。

配置hdfs-site.xml

修改为：


    
        dfs.replication
        2
    
    
        dfs.namenode.name.dir
        /home/hadoop3/hadoop/hdfs/name
    
    
        dfs.namenode.data.dir
        /home/hadoop3/hadoop/hdfs/data

dfs.data.dir：保存datanode数据文件的位置，可以指定多个目录，这多个目录位于不同的磁盘可以提高IO使用率。默认是${hadoop.tmp.dir}/dfs/data
dfs.replication：hdfs的冗余复本数量，默认为3
dfs.namenode.name.dir：保存namenode元数据的位置，也就是namenode元数据存放的地方，记录了hdfs系统中文件的元数据。可以指定多个目录，元数据文件会同时写入这几个目录，从而支持冗余备份。最好有一个是NFS网络硬盘。

配置yarn-site.xml

修改为：


    
        yarn.resourcemanager.hostname
        h01
    
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle

配置hadoop-env.sh

在文件末尾添加：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

JAVA_HOME必须设置，其余均为可选项
HADOOP_HEAPSIZE：分配给各个守护进程的内存大小，默认为1000M。另外，可以使用HADOOP_NAMENODE_OPTS等单独设置某一守护进行的内存大小。大型集群一般设置2000M或以上，开发环境中设置500M足够了。
HADOOP_LOG_DIR：日志文件的存放目录，可以设置为/var/log/hadoop

至此，hadoop配置基本可以了，接下来就将这个容器导出为镜像，然后依次启动

在docker中启动集群

首先将容器导出为镜像

sudo docker commit -m "haddop" -a "hadoop" fab4da838c2f newuhadoop

可以输入docker images查看镜像列表

随后，分别启动五个节点，

首先是启动h01作为主节点

由于是主节点，所以打开端口，提供web页面访问。

sudo docker run -it --network hadoop -h "h01" --name "h01" -p 9870:9870 -p 8088:8088 newuhadoop /bin/bash

–network hadoop将当前容器加入到名为hadoop的虚拟桥接网络中，此网站提供自动的DNS解析功能。

然后`Ctrl+P+Q`退出当前容器

补充：如果使用exit退出容器，后续可能出现无法运行的情况，可以docker ps -a查看容器状态，如果为exit状态，需要输入如下指令启动容器：
docker start 容器id
这是由于输入exit退出容器后，容器就停止运行了。
这里exit后，容器的状态为exit；但是start启动之后，进入容器再exit退出，容器还是会继续运行，我也不知道这是为啥!!!
后续查了一下docker的运行机制，docker容器在后台运行，必须要有一个前台进程，不知道是不是这个原因。如果有大佬知道，希望大佬不吝赐教

启动其余四个从节点

从节点的启动命令相同，只需要更改一下容器名称h02,h03,h04,h05

sudo docker run -it --network hadoop -h "h02" --name "h02" newuhadoop /bin/bash
然后Ctrl+P+Q退出当前容器
sudo docker run -it --network hadoop -h "h03" --name "h03" newuhadoop /bin/bash
Ctrl+P+Q退出
sudo docker run -it --network hadoop -h "h04" --name "h04" newuhadoop /bin/bash
Ctrl+P+Q退出
sudo docker run -it --network hadoop -h "h05" --name "h05" newuhadoop /bin/bash
Ctrl+P+Q退出

启动hadoop集群：

要进入到h01主机中，首先需要找到h01的ID：
docker ps -a

可以看到h01容器的id为42998fcef962，输入如下指令进入容器：

docker exec -it 42998fcef962  /bin/bash
友情提示：这里的容器id要换成你主机上自己的。

格式化hdfs

切记：一定是先格式化hdfs再启动hadoop集群；如果是先启动了然后在格式化,会报错,那就需要停止所有./stop-all.sh，然后格式化之后再启动参考链接
进入h01主机后，首先要进行格式化操作，不格式化hdfs系统启动不起来。
进入目录:

cd /usr/local/hadoop/bin

格式化hdfs:

./hadoop namenode -format

补充：把hadoop命令设置为全局命令。
安装完Hadoop后，为了使用方便，需要将Hadoop命令加到系统命令中，
如果在没有添加到环境变量之前，执行“hadoop fs”命令时，
则会提示命令不存在的错误：'hadoop: command not found'。
**使用方法三**

方法一：此方法设置后只对当前用户有效，因为~/.bash_profile文件表示的是当前用户的环境变量。
vim ~/.bash_profile
在文件末尾添加：
export PATH=$PATH:/usr/local/hadoop/bin
然后执行source命令：
source ~/.bash_profile

方法二：此方法对所有用户都有效，修改的是系统的环境变量文件。
vim /etc/profile
在文件末尾追加：
export PATH=$PATH:/usr/local/hadoop/bin
然后执行source命令：
source /etc/profile
注意：$PATH变量前的"$"千万不要漏掉，我在改的时候手贱漏掉了，把环境变量改崩了。

**方法三：将环境变量设置在/root/.bashrc中(强烈推荐这个方法)**
我用方法二配置好环境变量后，每次退出容器重新进入环境变量就失效了，必须要重新输入"source /etc/profile"才行，日了狗了。
查找资料发现，这是由于/etc/profile中的变量不是自动export的，完整的os在启动的过程中
会有自动启动程序依次读取系统和用户的配置文件，但是在容器中就没有这一步了。所以要自己导出才可以。
解决的方法可以写一个entrypoint脚本，在脚本中export那些基本不发生变化的环境变量。
我最后采用的方法是将环境变量配置到/root/.bashrc中，重新进入服务器，环境变量也生效。
所以，再来一次，把一下代码添加到/root/.bashrc中。。。。。然后source /root/.bashrc
#java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=${JAVA_HOME}/jre    
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib    
export PATH=${JAVA_HOME}/bin:$PATH
#hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME 
export HADOOP_INSTALL=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_CONF_DIR=$HADOOP_HOME 
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_NAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

启动

进入hadoop的sbin目录

cd /usr/local/hadoop/sbin

启动

./start-all.sh 
报错：
root@h01:/usr/local/hadoop/sbin# ./start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Error: Cannot find configuration directory: /etc/hadoop
starting yarn daemons
Error: Cannot find configuration directory: /etc/hadoop
解决：
这是因为使用了 hadoop-env.sh 默认的关于 hadoop 配置文件所在目录的配置，这里需要根据你自己的安装路径重新设置。
修改 hadoop-env.sh：
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/
然后：source hadoop-env.sh

现在可以通过8088端口访问到集群了，地址为IP地址:8088如下所示：

查看分布式文件系统的状态：

查看状态

hdfs dfsadmin -report
输出如下：
root@h01:/usr/local/hadoop# hdfs dfsadmin -report
Configured Capacity: 126421438464 (117.74 GB)
Present Capacity: 88464736256 (82.39 GB)
DFS Remaining: 88463831040 (82.39 GB)
DFS Used: 905216 (884 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0
Pending deletion blocks: 0

-------------------------------------------------
Live datanodes (3):

Name: 172.19.0.2:50010 (h01)
Hostname: h01
Decommission Status : Normal
Configured Capacity: 42140479488 (39.25 GB)
DFS Used: 401408 (392 KB)
Non DFS Used: 10702790656 (9.97 GB)
DFS Remaining: 29487943680 (27.46 GB)
DFS Used%: 0.00%
DFS Remaining%: 69.98%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Apr 03 15:34:37 UTC 2020
Last Block Report: Fri Apr 03 15:10:28 UTC 2020


Name: 172.19.0.3:50010 (h02.hadoop)
Hostname: h02
Decommission Status : Normal
Configured Capacity: 42140479488 (39.25 GB)
DFS Used: 77824 (76 KB)
Non DFS Used: 10703114240 (9.97 GB)
DFS Remaining: 29487943680 (27.46 GB)
DFS Used%: 0.00%
DFS Remaining%: 69.98%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Apr 03 15:34:36 UTC 2020
Last Block Report: Fri Apr 03 15:10:24 UTC 2020


Name: 172.19.0.4:50010 (h03.hadoop)
Hostname: h03
Decommission Status : Normal
Configured Capacity: 42140479488 (39.25 GB)
DFS Used: 425984 (416 KB)
Non DFS Used: 10702766080 (9.97 GB)
DFS Remaining: 29487943680 (27.46 GB)
DFS Used%: 0.00%
DFS Remaining%: 69.98%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Fri Apr 03 15:34:36 UTC 2020
Last Block Report: Fri Apr 03 15:10:24 UTC 2020

运行内置WordCount实例

用本地的licence.txt文件做统计文件。
首先新建input文件夹：

hadoop fs -mkdir /input

将licence.txt文件拷贝到hdfs文件夹中：

hadoop fs -put ../licence.txt /input

查看是否拷贝到/input文件夹下了

hadoop fs -ls /input

运行内置的wordcount程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input /output
等待时间长短取决于服务器性能。
输出如下：
20/04/03 15:19:44 INFO mapreduce.JobSubmitter: number of splits:1
20/04/03 15:19:44 INFO Configuration.deprecation: yarn.resourcemanager.system-metrics-publisher.enabled is deprecated. Instead, use yarn.system-metrics-publisher.enabled
20/04/03 15:19:44 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1585925475976_0001
20/04/03 15:19:45 INFO impl.YarnClientImpl: Submitted application application_1585925475976_0001
20/04/03 15:19:45 INFO mapreduce.Job: The url to track the job: http://h01:8088/proxy/application_1585925475976_0001/
20/04/03 15:19:45 INFO mapreduce.Job: Running job: job_1585925475976_0001
20/04/03 15:19:58 INFO mapreduce.Job: Job job_1585925475976_0001 running in uber mode : false
20/04/03 15:19:58 INFO mapreduce.Job:  map 0% reduce 0%
20/04/03 15:20:08 INFO mapreduce.Job:  map 100% reduce 0%
20/04/03 15:20:18 INFO mapreduce.Job:  map 100% reduce 100%
20/04/03 15:20:18 INFO mapreduce.Job: Job job_1585925475976_0001 completed successfully
20/04/03 15:20:18 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=36735
                FILE: Number of bytes written=471793
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=106306
                HDFS: Number of bytes written=27714
                HDFS: Number of read operations=6
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=7250
                Total time spent by all reduces in occupied slots (ms)=6419
                Total time spent by all map tasks (ms)=7250
                Total time spent by all reduce tasks (ms)=6419
                Total vcore-milliseconds taken by all map tasks=7250
                Total vcore-milliseconds taken by all reduce tasks=6419
                Total megabyte-milliseconds taken by all map tasks=7424000
                Total megabyte-milliseconds taken by all reduce tasks=6573056
        Map-Reduce Framework
                Map input records=1975
                Map output records=15433
                Map output bytes=166257
                Map output materialized bytes=36735
                Input split bytes=96
                Combine input records=15433
                Combine output records=2332
                Reduce input groups=2332
                Reduce shuffle bytes=36735
                Reduce input records=2332
                Reduce output records=2332
                Spilled Records=4664
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=248
                CPU time spent (ms)=1450
                Physical memory (bytes) snapshot=368164864
                Virtual memory (bytes) snapshot=3870294016
                Total committed heap usage (bytes)=170004480
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=106210
        File Output Format Counters
                Bytes Written=27714

至此，基于docker的hadoop集群安装就差不多了，接下来是安装Hbase。

安装Hbase

后台下载

wget -b https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.2.4/hbase-2.2.4-bin.tar.gz
root@h01:~# wget -b https://downloads.apache.org/hbase/2.2.4/hbase-2.2.4-bin.tar.gz
Continuing in background, pid 4297.
Output will be written to 'wget-log'.

实时查看下载进度

tail -f wget-log 或者 cat wget-log

解压到目录
tar -zxvf hbase-2.2.4-bin.tar.gz -C /usr/local/

修改环境变量

由于上文所说的docker容器的原因，没有通过修改/etc/profile实现，而是修改的.bashrc。
进入到根目录

cd ~

修改文件

vim .bashrc

末尾添加代码如下：

#hbase
export HBASE_HOME=/usr/local/hbase-2.2.4
export PATH=$PATH:$HBASE_HOME/bin
使环境变量生效
source .bashrc

同样修改其他容器的环境变量，通过ssh连接进入到其他容器

由上文的查看hdfs的命令
hdfs dfsadmin -report
可以知道h02和h03的地址为172.19.0.3和172.19.0.4
进入h02
ssh 172.19.0.3
修改.bashrc文件，在末尾添加同样的内容，然后source使环境变量生效。
进入h03
ssh 172.19.0.4
同样操作，然后回到h01
ssh 172.19.0.2

配置hbase(进入到/usr/local/hbase-2.2.4/conf中)

修改hbase-env.sh，末尾追加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HBASE_MANAGES_ZK=true

修改hbase-site.xml为


    
            hbase.rootdir
            hdfs://h01:9000/hbase
    
    
            hbase.cluster.distributed
            true
    
    
            hbase.master
            h01:60000
    
    
            hbase.zookeeper.quorum
            h01,h02,h03
    
    
            hbase.zookeeper.property.dataDir
            /home/hadoop/zoodata

修改regionservers文件为

h01
h02
h03

至此，hbase配置完毕，接下来通过scp命令将配置好的hbase复制到其余两个容器中。

scp -r /usr/local/hbase-2.2.4 root@h02:/usr/local/
scp -r /usr/local/hbase-2.2.4 root@h03:/usr/local/

启动hbase

在h01中，进入到/usr/local/hbase-2.2.4/bin中

root@h01:/usr/local/hbase-2.2.4# cd bin/
root@h01:/usr/local/hbase-2.2.4/bin# ls
considerAsDead.sh     hbase-config.sh         master-backup.sh          start-hbase.sh
draining_servers.rb   hbase-daemon.sh         region_mover.rb           stop-hbase.cmd
get-active-master.rb  hbase-daemons.sh        region_status.rb          stop-hbase.sh
graceful_stop.sh      hbase-jruby             regionservers.sh          test
hbase                 hbase.cmd               replication               zookeepers.sh
hbase-cleanup.sh      hirb.rb                 rolling-restart.sh
hbase-common.sh       local-master-backup.sh  shutdown_regionserver.rb
hbase-config.cmd      local-regionservers.sh  start-hbase.cmd

启动hbase

./start-hbase.sh 
root@h01:/usr/local/hbase-2.2.4/bin# ./start-hbase.sh
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/hbase-2.2.4/lib/client-facing-thirdparty/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/hbase-2.2.4/lib/client-facing-thirdparty/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
h02: running zookeeper, logging to /usr/local/hbase-2.2.4/bin/../logs/hbase-root-zookeeper-h02.out
h01: running zookeeper, logging to /usr/local/hbase-2.2.4/bin/../logs/hbase-root-zookeeper-h01.out
h03: running zookeeper, logging to /usr/local/hbase-2.2.4/bin/../logs/hbase-root-zookeeper-h03.out
running master, logging to /usr/local/hbase-2.2.4/logs/hbase-root-master-h01.out
h02: running regionserver, logging to /usr/local/hbase-2.2.4/bin/../logs/hbase-root-regionserver-h02.out
h03: running regionserver, logging to /usr/local/hbase-2.2.4/bin/../logs/hbase-root-regionserver-h03.out
h01: running regionserver, logging to /usr/local/hbase-2.2.4/bin/../logs/hbase-root-regionserver-h01.out
root@h01:/usr/local/hbase-2.2.4/bin#

至此，阿里云学生服务器内存彻底耗尽，卡死到分钟级响应，后面再更如何安装spark。

你可能感兴趣的:(大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo