一只瘦熊啊

【Hadoop】伪分布式集群搭建（CentOS7）

在VMware中创建虚拟机
修改主机名、关闭防火墙、设置固定IP
ssh上传jdk和hadoop安装包
配置jdk环境变量、配置hadoop
虚拟机克隆
配置ip映射和节点免密登陆
启动hadoop
hadoop集群功能测试：测试HDFS、测试MapReduce

一、在vmware中创建虚拟机

这里用的VMware Workstation版本为15.0.1，CentOS操作系统版本为7.5（1804）

01.在VMware Workstation中新建虚拟机，选择【典型】安装

02.选择【稍后安装操作系统】

03.选择虚拟机操作系统为【Linux】，版本为【CentOS 7 64位】

04.虚拟机名称改为【CentOS01】，位置自定义

05.指定磁盘容量，这里默认为【20G】，虚拟磁盘拆分

06.完成创建

07.【编辑虚拟机设置】，选择【使用IOS映像文件】，使用在CentOS官网下载的【CentOS-7-x86_64-DVD-1804.iso】

08.开启虚拟机，出现下图界面按【ENTER】进入

09.选择语言为【简体中文】，点击【继续】

10.【安装源】为默认；【软件选择】为【GNOME桌面】，右侧的附加选项可以根据需要进行勾选，也可以不选择，此处不进行勾选；【安装位置】为默认自动选择；可以单击【网络和主机名】选项，查看虚拟机的IP地址，开启以太网卡，使虚拟机连接上网络，也可以不进行配置，在操作系统完成安装时手动配置，此处不进行配置。

11.设置【root】密码，并创建一个名为hadoop的管理员用户



12.安装完成后【重启】

13.重启后进入初始化设置，点击【LICENSE INFORMATION】后勾选【我同意许可协议】，点击左上角【完成】，点击【完成配置】

14.为避免此后操作出现用户权限不够而切换身份的麻烦，此处选择以root身份登入



15.进入图形界面，默认选择【汉语】，然后一直点击【前进】，【跳过】

至此，第一台虚拟机创建成功。

二、修改主机名、关闭防火墙、设置固定IP

1.修改主机名

在分布式集群中，主机名用于区分不同的节点，并方便节点之间相互访问，因此需要修改主机的主机名。

查看主机名
hostname
执行以下命令，修改hostname文件内容，将主机名改为centos01：
vi /etc/hostname

重启系统使修改生效。
reboot
注意：修改主机名需要重启才能生效。

2.关闭防火墙

集群一般都是内网搭建的，如果内网内开启防火墙，内网集群通讯会容易出现很多问题。因此需要关闭集群中每个节点的防火墙。

执行以下命令进行关闭防火墙：
systemctl stop firewalld.service
然后执行以下命令，禁止防火墙开机启动：
systemctl disable firewalld.service

查看防火墙状态：
systemctl status firewalld

3.设置固定IP

为了避免后续启动操作系统后，IP地址改变了，导致本地SSH连接不上，节点间无法访问，需要将操作系统设置为固定IP，这里配centos01的IP地址为192.168.170.133

执行以下命令，修改文件ifcfg-ens33：
vi /etc/sysconfig/network-scripts/ifcfg-ens33
修改内容如下：

BOOTPROTO=static 
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
DEVICE=ens33
ONBOOT=yes#开机启用本配置
IPADDR=192.168.170.133#IP地址
NETMASK=255.255.255.0#子网掩码
GATEWAY=192.168.170.2 #默认网关，虚拟机安装的话，通常是2，也就是VMnet8的网关设置
DNS2=114.114.114.114 #DNS 配置，虚拟机安装的话，DNS就网关就行

修改完成后重启网络服务：
service network restart
查看改动后的IP：
ifconfig

三、 ssh上传jdk和hadoop安装包

这里使用的工具是SSH Secure Shell Client，jdk版本jdk1.8.0_144,hadoop版本为hadoop-2.8.2

1.在虚拟机创建文件存放目录
在/opt下创建目录softwares（存软件压缩包）、modules（存软件解压包）、data（存数据），分别用于存放软件安装包、软件安装数据和其它数据：
mkdir /opt/softwares
mkdir /opt/modules
mkdir /opt/data
修改目录权限为hadoop用户：
chown -R hadoop:hadoop /opt/*
查看目录权限是否修改成功：
ll /opt

2.设置本地网络，将本地VMNATE8的设置改为固定IP，与centos01在同一号段

3.ssh上传
打开ssh，点击【Quick Connect】，配置如图

输入密码连接成功后将本地jdk1.8.0_144和hadoop-2.8.2的安装包上传到centos01下的/opt/softwares目录下

传输完成后在centos01输入命令ll /opt/softwares验证是否传输成功

如图，上传成功。

四、配置jdk环境变量，配置hadoop

1.首先删除原有的jdk

输入rpm -qa|grep java命令查看系统已有的jdk

挨个执行以下命令，将系统已有的java环境全部删除
rpm -e --nodeps \python-javapackages-3.4.1-11.el7.noarch
rpm -e --nodeps \java-1.8.0-openjdk-headless-1.8.0.161-2.b14.el7.x86_64
rpm -e --nodeps \tzdata-java-2018c-1.el7.noarch
rpm -e --nodeps \java-1.7.0-openjdk-1.7.0.171-2.6.13.2.el7.x86_64
rpm -e --nodeps \java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64
rpm -e --nodeps \javapackages-tools-3.4.1-11.el7.noarch
rpm -e --nodeps \ java-1.7.0-openjdk-headless-1.7.0.171-2.6.13.2.el7.x86_64

执行rpm -qa|grep java验证是否都已删除

2.解压jdk和hadoop

分别执行以下命令解压上传的jdk和hadoop-2.8.2到/opt/modules目录下
tar -zxvPf jdk-8u144-linux-x64.tar.gz -C /opt/modules/
tar -zxvPf hadoop-2.8.2.tar.gz -C /opt/modules/

3.配置jdk

修改文件/etc/profile，配置JDK环境变量：
vi /etc/profile
在文件末尾加入以下内容：

export JAVA_HOME=/opt/modules/jdk1.8.0_144
export PATH=$JAVA_HOME/bin:$PATH

刷新profile文件，使修改生效。
source /etc/profile

执行java -version命令，查看是否能成功输出JDK版本信息，信息如下：

至此，jdk环境变量配置成功

4.配置hadoop
4.1配置hadoop环境变量
Hadoop所有的配置文件都存在于安装目录/opt/modules/hadoop-2.8.2/etc/hadoop中，修改如下配置文件：
vi hadoop-env.sh
vi mapred-env.sh
vi yarn-env.sh

三个文件分别加入JAVA_HOME环境变量，如下：

export JAVA_HOME=/opt/modules/jdk1.8.0_144

4.2配置HDFS
（1）修改配置文件core-site.xml，加入以下内容：


   
	 fs.defaultFS
	 hdfs://centos01:9000
   
    
        hadoop.tmp.dir
        file:/opt/modules/hadoop-2.8.2/tmp

fs.defaultFS：HDFS的默认访问路径。
hadoop.tmp.dir：Hadoop临时文件的存放目录，可自定义。

（2）修改配置文件hdfs-site.xml，加入以下内容：


   
	  dfs.replication
	  2
	
    
	  dfs.permissions.enabled
	  false
	
	
	  dfs.namenode.name.dir
	  file:/opt/modules/hadoop-2.8.2/tmp/dfs/name
	
	
	  dfs.datanode.data.dir
	  file:/opt/modules/hadoop-2.8.2/tmp/dfs/data

dfs.replication：文件在HDFS系统中的副本数。
dfs.namenode.name.dir：HDFS名称节点数据在本地文件系统的存放位置。
dfs.datanode.data.dir：HDFS数据节点数据在本地文件系统的存放位置。

（3）修改slaves文件，配置DataNode节点。slaves文件原本无任何内容，需要将所有DataNode节点的主机名都添加进去，每个主机名占一整行。本次搭建过程，DataNode为三个节点：

centos01
centos02
centos03

4.3配置YARN

（1）重命名mapred-site.xml.template文件为mapred-site.xml，修改mapred-site.xml文件
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
添加以下内容，指定以yarn集群方式运行。

  
      
       mapreduce.framework.name  
       yarn

（2）修改yarn-site.xml文件，添加以下内容：

  
      
       yarn.nodemanager.aux-services  
       mapreduce_shuffle

yarn.nodemanager.aux-services ：NodeManager上运行的附属服务。需配置成mapreduce_shuffle才可运行MapReduce程序。

五、虚拟机克隆

1.将centos01关机，右键【centos01】，选择菜单栏中的【管理】，点击【克隆】，克隆centos01的当前状态，点击【下一步】

2.点击【创建完整克隆】，下一步

3.自定义名称为centos02，自定义安装位置，点击【完成】

centos03的克隆同centos02

六、配置IP映射和节点间免密登录

启动三台虚拟机，均以root身份登入。

将主机centos02的主机名改为centos02，将主机centos03的主机名改为centos03,重启生效。
使用ifconfig命令查看三台虚拟机的IP，并将centos02与centos03的IP分别改为固定IP。本次搭建三台主机IP分别为：
192.168.170.133
192.168.170.134
192.168.170.135

1.配置IP映射
在各个节点上分别执行以下命令，修改hosts文件：
vi /etc/hosts
在hosts文件中加入以下内容：

192.168.170.133       centos01  
192.168.170.134       centos02  
192.168.170.135       centos03

每个节点的hosts文件中都要加入同样的内容，这样可以保证每个节点都可以通过主机名访问到其它节点。
配置完后，使用ping命令检查是否配置成功：
ping centos01
ping centos02
ping centos03
最后，配置一下本地Windows系统的主机IP映射，方便本地通过主机名直接访问虚拟机。进入Windows操作系统的目录C:\Windows\System32\drivers\etc编辑hosts文件，加入以下内容：

192.168.170.133 centos01
192.168.170.134 centos02
192.168.170.135 centos03

2.配置各节点间免密登录

Hadoop的进程间通信使用SSH（Secure Shell）方式。SSH是一种通信加密协议，使用非对称加密方式，可以避免网络窃听。为了使Hadoop各节点之间能够无密码相互访问，需要配置各节点的SSH无秘钥登录。

【登录原理】
使用一种被称为"公私钥"认证的方式来进行ssh登录. "公私钥"认证方式简单的解释是首先在客户端上创建一对公私钥（公钥文件：~/.ssh/id_rsa.pub；私钥文件：/.ssh/id_rsa）然后把公钥放到服务器上（~/.ssh/authorized_keys）, 自己保留好私钥当ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了

ssh-copy-id命令可以把本地主机的公钥复制并追加到远程主机的authorized_keys文件中，ssh-copy-id命令也会给远程主机的用户主目录（home）和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限。

若没有cd ~/.ssh/目录，请先执行一次ssh localhost
分别在三个节点中执行以下命令，生成秘钥文件：
ssh-keygen -t rsa
生成秘钥文件时，会有提示，都按回车就可以

分别在三个节点中执行以下命令，将公钥信息拷贝并追加到对方节点的授权文件authorized_keys中：
ssh-copy-id centos01
ssh-copy-id centos02
ssh-copy-id centos03
测试centos01无秘钥登录centos02和centos03
ssh centos02
ssh centos03

不用输入密码则配置免密登录成功
centos02和centos03的测试方法与centos01相同

七、启动hadoop

启动Hadoop之前，需要先格式化NameNode。格式化NameNode可以初始化HDFS文件系统的一些目录和文件，在centos01节点上执行以下命令，进行格式化操作：
vim /etc/profile
追加内容：

export HADOOP_HOME=/opt/modules/hadoop-2.8.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

刷新生效
source /etc/profile

然后可以在任意目录下执行以下命令：
hadoop namenode -format

格式化成功后，在centos01节点上执行以下命令，启动Hadoop集群：
start-all.sh

也可以执行start-dfs.sh和start-yarn.sh分别启动HDFS和YARN集群。

在各个节点执行命令jps查看各节点启动进程，各节点结果显示如下，则hadoop集群启动成功。

centos01

centos02

centos03

八、hadoop集群功能测试：测试HDFS、测试MapReduce

1.测试HDFS

访问网址：http://192.168.170.133 :50070可以查看HDFS的NameNode信息，界面如下：

2.测试MapReduce

在centos01节点的HDFS根目录创建文件夹input，并将Hadoop安装目录下的文件README.txt上传到新建的input文件夹中。命令如下：
hdfs dfs -mkdir /input
hdfs dfs -put /opt/modules/hadoop-2.8.2/README.txt /input

运行Hadoop自带的MapReduce单词计数程序，统计/input文件夹中的所有文件的单词数量：
hadoop jar /opt/modules/hadoop-2.8.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.2.jar wordcount /input /output
统计完成后，执行以下

如果以上测试没有问题，则Hadoop集群搭建成功。

ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
Centos7_安装爱喝兽奶 Linux基础 linux ubuntu centos
一.Linux哲学思想一切都是一个文件（包括硬件）小型，单一用途的程序链接程序，共同完成复杂的任务避免令人困惑的用户界面配置数据存储在文本中二.Linux生产主流版本Linux各种版本CentOS各版本介绍https://zh.wikipedia.org/wiki/CentOSRHEL各版本介绍https://zh.wikipedia.org/wiki/Red_Hat_Enterprise_Lin
CentOS 7.x 快速搭建ARK服务器 Aorsion Linux ark server ark server centos 方舟服务器搭建Linux 方舟开服教程方舟多人联机
本人菜鸟一枚，最近喜欢上了ark，也找到了2个基友，但是在别的服玩的不是很开心（非人民币玩家，你们懂），刚好有台闲置的拯救者14笔记本，i7-4720HQ、16G内存、128G三星970pro，1T机械，索性拿来装个Centos7.6搭个服自己玩,就多点电费的事，下面把自己折腾一天的开服经历做个笔记留给和我一样的童鞋，喜欢开服工具的请绕道友情提醒：ARK需要大量内存，建议使用至少具有6GBRAM以
k8s往secret里导入证书_Kubernetes K8S之存储Secret详解 weixin_39604598 k8s往secret里导入证书
K8S之存储Secret概述与类型说明，并详解经常使用Secret示例html主机配置规划服务器名称(hostname)系统版本配置内网IP外网IP(模拟)k8s-masterCentOS7.72C/4G/20G172.16.1.11010.0.0.110k8s-node01CentOS7.72C/4G/20G172.16.1.11110.0.0.111k8s-node02CentOS7.72C/
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
基于BCLinux制作Apache HTTPD 2.4.63 的RPM安装包 IT布道 apache
在这之前，我写过一篇《基于CentOS7制作ApacheHTTPD2.4.58的RPM安装包》的文章。本文大部分内容和之前差不多，但因为操作系统由CentOS7变成了BC-Linux，所以，有些内容就可以删减了。编译环境：操作系统：BC-Linuxhttpd版本：2.4.63制作工具：rpmbuild（这个之前的文章有介绍，看这里）下载httpd源码：官网目前的最新版本是2.4.63(2025.1
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
centOS7使用yum安装报错的解决办法小泊客 lLinux学习开发语言 linux 运维 ssh 网络运维开发
一、错误提示信息：[root@localhost/]#sudoyuminstallbash-completionCouldnotretrievemirrorlisthttp://mirrorlist.centos.org/?release=7&arch=x86_64&repo=os&infra=stockerrorwas14:curl#7-"Failedtoconnectto2a05:d012:8
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Docker入门篇-安装Docker CE 极客编程玩家
安装DockerCE有两种方法可以在Centos上安装DockerCE：YUM存储库：设置Docker存储库并从中安装DockerCE。这是推荐的方法，因为使用YUM管理安装和升级更容易。(后面我们使用这种方式)RPM包：下载RPM包，手动安装，手动管理升级。在无法访问互联网的系统上安装DockerCE时，这非常有用。先决条件要安装DockerCE，您需要CentOS7的维护版本。不支持或测试存档
2025实战指南：基于VMware 17与Linux的Dify私有化部署——从零构建企业级AI开发平台 Tec_Bit 人工智能 centos linux 人工智能 chatgpt
一、环境准备与系统配置1.1VMware17虚拟机创建‌新建虚拟机‌：选择“典型”安装模式，指定CentOS7镜像文件（建议使用阿里云镜像源获取最新稳定版）‌1‌硬件资源配置‌：内存：≥4GB（推荐8GB）处理器：2核以上磁盘空间：≥40GB（选择“将虚拟磁盘存储为单个文件”）安装完系统使用远程工具连接centos，我这里使用的是华为的远程工具codearts,纯属个人习惯！！！其他工具也可以使用
Centos7 Jenkins的部署 shgh_2004 配置管理 jenkins linux 运维
1.下载rpm安装包wgethttps://mirrors.tuna.tsinghua.edu.cn/jenkins/redhat/jenkins-2.275-1.1.noarch.rpm--no-check-certificate2.yum安装rpm-ivhjenkins-2.275-1.1.noarch.rpm安装完以后重要的目录说明：/usr/lib/jenkins/jenkins.war
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Linux虚拟机安装Redis lllsure Redis linux 运维服务器 redis
1.前提准备安装好虚拟机，这里使用Centos7演示；安装好Xshell，Xftp，一个用来远程登录虚拟机，一个用来远程传输文件。Xshell，Xftp下载地址：家庭/学校免费-NetSarangWebsiteRedis源码包，下载地址：Indexof/releases/2.将安装包通过Xftp传到虚拟机上并解压解压指令：tar-zxvfredis-6.2.6.tar.gz3.引入gcc依赖因为R
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
在centos7里面安装 mysql5.6.44 SAFE20242034 #三 MySQL 运维 mysql
一查询系统自带的mysqlroot@obdserver~]#rpm-qa|grepmysql二卸载系统自带的mysql因为没有mysql，所以也不用卸载三下载安装官方的yum源[root@obdserver~]#ll/etc/yum.repos.d/总用量40-rw-r--r--.1rootroot25233月1201:22CentOS-Base.repo-rw-r--r--.1rootroot1
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息