大数据集群第7页

那些年，我们迁移过的集群

大数据集群迁移这件事，不知道有多少同学做过。我说的不是把一个集群的数据备份到另一个集群上。我指的是整个数据平台与大数据相关的所有集群及业务的迁移工作，从一个机房到另一个机房。

彩色蚂蚁·2020-08-22 23:44

大数据集群搭建（七）——Hbase-2.2.3安装

Hbase-2.2.3安装下载hbase-2.2.3压缩包将文件上传到dn1节点~/pkg目录下执行以下命令，分别在dn1、dn2、dn3三台节点安装#解压到/opt目录tar-zxvfhbase-2.2.3-bin.tar.gz-C/opt#创建hbase的软连接cd/optln-shbase-2.2.3/hbase#在hbase-env.sh中添加以下内容，然后保存exportJAVA_HOM

no_hot·2020-08-22 17:39

数据分析师涨薪70%，该如何自我提升？

、平安等一线大厂资深数据分析师倾力打造；多个企业级项目实战，为你的简历加分；名企内推、简历修改等就业服务；不定期职场及就业经验分享，每日定时答疑辅导，助你轻松学习；深度还原职场中公司数据处理流程、提供大数据集群及环境运行服务器

数据分析v·2020-08-22 12:14

大数据集群zookeeper配置教程

1下载下来解压后，然后符号链接(ln-sxxxzk)如图这符号链接我自己弄着玩的你想弄也行不想弄也行2：配置环境变量vim/etc/profile#setzkenvexportZK_HOME=/soft/zkexportPATH=$PATH:$ZK_HOME/binsource/etc/profile保存退出3：复制一份配置文件的副本4；修改配置文件5：然后就可以启动了6：检查下有没有这个端口7：

陈冲_河南漯河·2020-08-21 21:59

大数据集群搭建 - 2. CDH集群安装 - NTP,MYSQL,nginx安装

五、安装ntpd时间服务器按照Cloudera的官方建议，所有的CDH节点和CloudeaManager节点都需要启动ntpd服务。要不然会报如下错误：1.此角色的主机的运行状况为不良。以下运行状况测试不良：时钟偏差.2.Thehost'sNTPserviceisnotsynchronizedtoanyremoteserver.解决方法:配置一台ntp服务器，所有的CDH节点作为此ntp服务器的客

星空·2020-08-20 20:04

大数据集群搭建 - 2. CDH集群安装 - NTP,MYSQL,nginx安装

五、安装ntpd时间服务器按照Cloudera的官方建议，所有的CDH节点和CloudeaManager节点都需要启动ntpd服务。要不然会报如下错误：1.此角色的主机的运行状况为不良。以下运行状况测试不良：时钟偏差.2.Thehost'sNTPserviceisnotsynchronizedtoanyremoteserver.解决方法:配置一台ntp服务器，所有的CDH节点作为此ntp服务器的客

星空·2020-08-20 20:03

大数据学习笔记——大数据学习过程中的重点

1.linuxlinux系统肯定是基础了，大数据集群是运行在这上面的。linux在服务器上面一般是用centos系统，还分6.x版本

新宿一次狼·2020-08-20 05:26

解决CentOS 7 df命令卡住问题

再说问题大数据集群中某几台机器执行df-h命令会hang住，没有任何输出，CTRL+C无效。执行stracedf命令，发现是卡在了/proc/sys/fs/binfmt_misc这里。execve

LittleMagics·2020-08-20 03:24

Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found

cdh或者hdp增加kerberos验证后，python链接大数据集群的调用都需要增加认证这一个环节：如下报错的解决方案：thriftpy.transport.TTransportException:TTransportException

tianjun2012·2020-08-18 22:54

大数据集群票据碰撞问题

kdc-kerberos票据缓存在默认的/tmp/krb5cc_*这个文件，会导致个严重的问题：linux系统会定期删除/tmp，这回导致偶发性的票据验证失败问题；多用户并发执行任务的时候，票据会碰撞导致意外结果：shell:设置环境变量exportKRB5CCNAME=/home/keytab/krb5ccpython：改变缓存票据的存放路径#!/usr/bin/envpython#-*-cod

tianjun2012·2020-08-18 22:23

给Clouderamanager集群里安装可视化分析利器工具Hue步骤（图文详解）

CDH版本大数据集群下搭建Hue（hadoop-2.6.0-cdh5.5.4.gz+hue-3.9.0-cdh5.5.4.tar.gz）（博主推荐）以下，是我在Ambari集群平台下，安装Hue。

weixin_30877755·2020-08-14 20:25

centOS 7安装Ambari2.6.2 HDP2.6.5 大数据集群搭建

本文基于root用户操作一、安装环境准备操作系统centos7.6三台服务器以上主机名IP映射配置vi/etc/hosts#添加如下地址映射及FQDN（ambari注册时需要）192.168.133.XXnl-bd1192.168.133.XXnl-bd2192.168.133.XXnl-bd3配置ip,修改ifcfg-ens192vi/etc/sysconfig/network-scripts/

皎夜既明·2020-08-14 16:22

Grafana安装部署

1Grafana安装部署Prometheus+Grafana=监控全家桶Grafana支持ClouderaManager数据源，因此可以搞一波把大数据集群中各种组件的监控都做到Grafana上。

Eights-Li·2020-08-14 16:20

给Ambari集群里安装可视化分析利器工具Hue步骤（图文详解）

CDH版本大数据集群下搭建Hue（hadoop-2.6.0-cdh5.5.4.gz+hue-3.9.0-cdh5.5.4.tar.gz）（博主推荐）以下，是我在Clouderamanager平台下，安装

weixin_33970449·2020-08-14 15:23

Kettle对比Sqoop

适用于能与大数据集群直接通信的关系数据库间的大批量数据传输

刘李404not found·2020-08-14 01:22

网络配置、防火墙（大数据集群环境）Linux防火墙

网络配置、防火墙1.大数据集群环境，形成集群局域网，使用机器名替代真实IP，如何完成IP地址与机器名的映射？

wth_97·2020-08-13 23:44

基于Docker搭建大数据集群（三）Hadoop部署

主要内容Hadoop安装前提zookeeper正常使用JAVA_HOME环境变量安装包微云下载|tar包目录下Hadoop2.7.7角色划分角色分配NNDNSNNcluster-master是否否cluster-slave1否是是cluster-slave1否是否cluster-slave1否是否一、环境准备上传到docker镜像dockercphadoop-2.7.7.tar.gzcluster

njpkhuan·2020-08-11 22:06

sqoop学习文档(2){Sqoop import、Sqoop export}

sqoop学习文档(2)【有问题或错误，请私信我将及时改正；借鉴文章标明出处，谢谢】接我上一篇文章，sqoop学习文档（1）三、Sqoopimport导入数据Sqoopimport：将数据从关系型数据库导入大数据集群导入工具将单个表从

fy_1852003327·2020-08-11 03:29

一种处理Sqoop导出过程中数据的方法

文章目录一、Java代码调用SqoopAPI导出数据二、部分导出过程分析三、一种处理Sqoop导出过程中数据的方法参考链接一、Java代码调用SqoopAPI导出数据当前测试用大数据集群版本:cdh6.3.2

0x3E6·2020-08-10 19:04

Hive版本信息对比0.14.0-2.1.1

Hive版本信息对比0.14.0-2.1.1目前大数据集群的hive主要版本为0.14.0，版本日期为2014.11.13。

James_Page·2020-08-10 07:00

HDFS

知识回顾传统服务器系统安装系统硬盘（100%完全独立，不要存储业务数据）物理磁盘做raid1（两个硬盘物理备份）/boot200M/SWAP内存的1-2被（大数据集群中要关闭）/所有的空间数据硬盘多块小的硬盘做一个大的硬盘

玖拾丶·2020-08-09 16:16

从0开始一步一步搭大数据集群平台，小白也能玩，超详细！！！

从零开始の大数据生活（始める！！！）一、集群概况二、服务器搭建（一）创建虚拟机1.开启windows虚拟化服务2.创建第一台虚拟机3.克隆虚拟机4.设置新用户三、hadoop生态各框架安装与配置（一）.jdk1.8安装与配置(环境准备)1.下载jdk2.解压安装3.配置JAVA_HOME4.测试是否安装成功5.顺便配置下hosts文件（二）搭建前准备ssh通信与shell脚本1.主机间ssh通信2

不存在的四月·2020-08-09 15:38

Ambari2.6.2 HDP2.6.5 大数据集群搭建

Ambari2.6.2中HDFS-2.7.3YARN-2.7.3HIVE-1.2.1HBASE-1.1.2ZOOKEEPER-3.4.6SPARK-2.3.0注：本文基于root用户操作一、安装环境准备操作系统centos7.5hdc-data1：192.168.163.51hdc-data2：192.168.163.52hdc-data3：192.168.163.53【安装环境准备每台集群机器一

weixin_30500105·2020-08-09 13:26

大数据集群搭建之Linux安装hadoop3.0.0

目录一、安装准备1、下载地址2、参考文档3、ssh免密配置4、zookeeper安装5、集群角色分配二、解压安装三、环境变量配置四、修改配置文件1、检查磁盘空间2、修改配置文件五、初始化集群1、启动zookeeper2、在zookeeper中初始化元数据3、启动zkfc4、启动JournalNode5、格式化NameNode6、启动hdfs7、同步备份NameNode8、启动备份NameNode9

静谧星空·2020-08-09 10:33

Docker部署SQL Server 2019 Always On集群

随着2017和2019版本的发布，它开始支持Linux和容器平台上的HA/DR、Kubernetes和大数据集群解决方案。

Expect-乐·2020-08-09 10:45

大数据集群搭建（四）——Hadoop-3.1.3安装

Hadoop-3.1.3安装下载hadoop-3.1.3压缩包将文件上传到nn1节点~/pkg目录下执行以下命令，在nn1、nn2、dn1、dn2、dn3五台节点安装#解压到/opt目录tar-zxvfhadoop-3.1.3.tar.gz-C/opt#创建hadoop的软连接cd/optln-sfhadoop-3.1.3hadoop#配置环境变量vim/etc/profile#在末尾增加以下内容

no_hot·2020-08-09 10:11

大数据集群安装01之Linux配置

Linux配置1.下载上传插件rz【安装命令】：yuminstall-ylrzsz2.关闭Linux防火墙1:查看防火状态systemctlstatusfirewalldserviceiptablesstatus2:暂时关闭防火墙systemctlstopfirewalldserviceiptablesstop3:永久关闭防火墙systemctldisablefirewalldchkconfigi

钟兴宇·2020-08-09 01:28

大数据集群安装02之Hadoop配置

Hadoop配置1.下载上传插件rz【安装命令】：yuminstall-ylrzsz2.上传hadoop压缩包【上传命令】：##上传压缩包rz##压缩tar-zxvf[包名]3.配置hadoop(1)编辑.bashrc文件在所有节点的.bashrc文件中添加如下内容：(也可以在profile文件中添加)#jdkexportJAVA_HOME=/root/jdk1.8.0_241exportPATH

钟兴宇·2020-08-09 01:28

大数据集群安装03之spark配置

spark配置必看配置千万条，网络第一条。配置不规范，bug改到吐。内外ip要分清，本机配置内ip，连接请用外ip1.下载上传插件rz【安装命令】：yuminstall-ylrzsz2.上传spark压缩包【上传命令】：##上传压缩包rz##压缩tar-zxvf[包名]3.配置spark(1)编辑.bashrc文件在所有节点的.bashrc文件中添加如下内容：(也可以在profile文件中添加)#

钟兴宇·2020-08-09 01:28

hadoop大数据集群搭建详细教程

1.集群结构(hadoop3.1.1+zookeeper3.5.5+hbase2.0.0+spark2.3.4+phoenix5.0.0)类型zookeeperHbaseSparkPhoenixmasterNameNode否HMasterMastercore+serverjar包slave1DataNode是HRegionServerWorkercore+serverjar包slave2DataN

mythsc·2020-08-04 20:51

Spark大型项目实战：电商用户行为分析大数据平台

课程名称：Spark大型项目实战：电商用户行为分析大数据平台（高端大数据项目实战课程）价值2250元课程目录：一、大数据集群搭建第1讲-课程介绍第2讲-课程环境搭建：CentOS6.4集群搭建第3讲-课程环境搭建

hr868686·2020-08-04 14:37

Yarn-Client 模式下执行spark任务， Error initializing SparkContext. Failed to connect to driver!

redhat7.3系统大数据集群4台机器--集群外1台机器通过集群外的机器向大数据集群提交spark-sql任务，任务如下：任务执行失败。

Ru_ach·2020-08-03 20:27

Sqoop案例

导入数据导入从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，关键字import。

梁云亮·2020-08-03 19:57

大数据集群搭建和使用之五——Hive配置与使用

HiveMySQL配置卸载先前的MySQL（安全起见）安装MySQL下载mysql的repo源，例如5.7.20版本安装MySQL测试安装是否成功更换密码（mysql的要求，否则后续造作不能进行）使用新密码登录，并刷新远程登录权限修改mysql的root密码远程登录配置hive&mysql建立相关hadoop文件夹修改hive-site.xml修改hive-env.sh驱动包启动使用Hive建表导

ColonyAlbert·2020-08-01 13:06

（十九）插件化原理及深入讲解笔记1

（二）解决方案基于android的动态加载技术的支持1.将一个大的apk按照业务分割成多个小的apk2.每个小的apk即可以独立运行又可以作为插件运行，类似于大数据集群处理，将一个服务器耗时处理放到多

黑暗世界的微光·2020-08-01 00:38

大数据集群环境配置

目录大数据环境环境准备MySQL的安装部署1.查看系统自带的mysql的rpm包2.mysql数据库的安装Hadoop的安装部署1.hadoop下载地址2.hadoop安装部署Yarn的安装部署1.1Configureparametersasfollows1.2StartResourceManagerdaemonandNodeManagerdaemon1.3查看resourcemanager进程2

Nice_N·2020-07-31 23:37

从零搭建大数据集群环境：Hadoop2.7.4 + Spark2.4.5 分布式部署

此部署教程为基于虚拟机的Hadoop2.7.4+Spark2.4.5完全分布式部署文档，虚拟机系统为centos7，读者可根据自己实际部署环境情况进行相应调整。其中第三节Hadoop安装为可选安装：如果你的Spark应用涉及到HDFS或者使用YARN来调度集群资源，则必须安装；如果你只会用到Spark的local模式或者standalone模式并且不会涉及HDFS文件则可跳过（都点开本文了，建议全

单字一个箫·2020-07-31 10:04

有心有梦·2020-07-31 09:00

cdh集群布局

最近开始从事大数据技术，看到公司采用cdn作为大数据集群工具，于是自己尝试了安装，但是在最后的角色划分时，由于对组件的一些架构和原理及服务器方面的知识欠缺，茫茫然。

selectgoodboy·2020-07-30 16:06

SparkStreaming读取Kafka对接Flume抽取到的数据库数据并保存到HBase中，Hive映射HBase进行查询

公司使用的是CDH6.3.1搭建的大数据集群~目录一、配置Flume，抽取数据到Kafka二、SparkStreaming对接Kafka保存数据到HBase三、Hive映射HBase四、测试一、配置Flume

象在舞·2020-07-30 13:21

CDH集群禁用kerberos

大数据集群启用了kerberos，但有时因为种种原因需要暂时禁用，因此可以通过如下方法来进行操作：一、停止集群所有服务二、修改ZOOKEEPER配置1、Zookeeper的enableSecurity为

Moon_魔宽·2020-07-30 02:07

[Linux基础]阿里云大数据集群配置免密

1、生成密钥主节点上:ssh-keygen连续按四次回车，完成后可在~/.ssh/下查看生成的密钥[root@Yiyu~]#ll-a~/.ssh/total24drwx------2rootroot4096Jul1222:10.dr-xr-x---.6rootroot4096Jul1222:23..-rw-------1rootroot1679Jul1213:38id_rsa-rw-r--r--1

NBA首席形象大使阿坤·2020-07-29 23:56

Cloudera Manager 中角色迁移和配置的一些操作记录

最近大数据集群中有一台节点磁盘坏掉，因为用的aliyun服务器，在考虑现有业务不需要太多的服务器资源，准备下架这台坏掉的服务器，记录一下其中的一些操作版本信息：CDH6.0.11.先需要造的是zookeeper

dengxt·2020-07-29 18:14

CDH(6.2.2)集群禁用kerberos

大数据集群启用了kerberos，但因为认证太过麻烦，需要禁用，因此可以通过如下方法来进行操作：一、停止集群所有服务二、修改ZOOKEEPER配置1、Zookeeper的enableSecurity为false

summer089089·2020-07-29 14:31

CDH搭建大数据集群环境准备-阿里云主机

首先声明，这篇博文相对比较长，大约需要10min1、阿里云官网登录，购买ecs云服务器www.aliyun.com/如果你是新用户，需要注册，之后充值100购买ecs服务器我们可以看到公网和内网IP，将公网IP配置笔记本上的hosts文件，地址自己去找吧，这里不说了，我配置后的结果：这里顺便说下停止ecs服务器2、配置远程连接我这里使用的远程连接工具是xshell,你们也可以使用crt或者Moba

流一恩典·2020-07-29 13:20

一文理解kafka端到端的延迟

前言:在大规模的使用kafka过程中，我们通常会遇到各种各样的问题，比如说，通常会有一些大数据集群中的Job发现总有几个task会比较慢，导致整体的任务迟迟不能完成运行，这种情况通常问题会比较复杂，想要知道具体延迟在哪里

BGBiao·2020-07-29 06:28

使用 Jupiter Notebook 运行 Delta Lake 入门教程

人员经历了阿里内部大数据集群的上线和发展壮大，现在阿里云EMR团队，负责Spark、Hadoop等计算引擎研发。本文的例子来自DeltaLake官方教程。

weixin_45906054·2020-07-28 23:53

趣头条大数据部技术专栏

3.大数据集群规模：2000台高配机器，数据量～50PB。

weixin_44678266·2020-07-28 22:53

Idea开发Spark直接以yarn-cluster模式提交到Ambari集群的解决方案

一.背景介绍许多中小型企业使用Ambari去管理自己的大数据集群，以Spark作为主要的计算框架去实现数据的分析。

人唯优·2020-07-28 20:23

饿了么大数据计算引擎实践与应用

其中6人的离线团队需要维护大数据集群规模如下：Hadoop集群规模1300+HDFS存量数据40+PB，Read3.5PB+/天，Write500TB+/天14WMRJob/天，10WSparkJob/

weixin_34406796·2020-07-28 19:47

推荐频道

大数据集群

那些年，我们迁移过的集群

大数据集群搭建（七）——Hbase-2.2.3安装

数据分析师涨薪70%，该如何自我提升？

大数据集群zookeeper配置教程

大数据集群搭建 - 2. CDH集群安装 - NTP,MYSQL,nginx安装

大数据集群搭建 - 2. CDH集群安装 - NTP,MYSQL,nginx安装

大数据学习笔记——大数据学习过程中的重点

解决CentOS 7 df命令卡住问题

Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found

大数据集群票据碰撞问题

给Clouderamanager集群里安装可视化分析利器工具Hue步骤（图文详解）

centOS 7安装Ambari2.6.2 HDP2.6.5 大数据集群搭建

Grafana安装部署

给Ambari集群里安装可视化分析利器工具Hue步骤（图文详解）

Kettle对比Sqoop

网络配置、防火墙 （大数据集群环境）Linux防火墙

基于Docker搭建大数据集群（三）Hadoop部署

sqoop学习文档(2){Sqoop import、Sqoop export}

一种处理Sqoop导出过程中数据的方法

Hive版本信息对比0.14.0-2.1.1

HDFS

从0开始一步一步搭大数据集群平台，小白也能玩，超详细！！！

Ambari2.6.2 HDP2.6.5 大数据集群搭建

大数据集群搭建之Linux安装hadoop3.0.0

Docker部署SQL Server 2019 Always On集群

大数据集群搭建（四）——Hadoop-3.1.3安装

大数据集群安装01之Linux配置

大数据集群安装02之Hadoop配置

大数据集群安装03之spark配置

hadoop大数据集群搭建详细教程

Spark大型项目实战：电商用户行为分析大数据平台

Yarn-Client 模式下执行spark任务， Error initializing SparkContext. Failed to connect to driver!

Sqoop案例

大数据集群搭建和使用之五——Hive配置与使用

（十九）插件化原理及深入讲解笔记1

大数据集群环境配置

从零搭建大数据集群环境：Hadoop2.7.4 + Spark2.4.5 分布式部署

大数据集群相关组件的群起脚本

cdh集群布局

SparkStreaming读取Kafka对接Flume抽取到的数据库数据并保存到HBase中，Hive映射HBase进行查询

CDH集群禁用kerberos

[Linux基础]阿里云大数据集群配置免密

Cloudera Manager 中角色迁移和配置的一些操作记录

CDH(6.2.2)集群禁用kerberos

CDH搭建大数据集群环境准备-阿里云主机

一文理解kafka端到端的延迟

使用 Jupiter Notebook 运行 Delta Lake 入门教程

趣头条 大数据部 技术专栏

Idea开发Spark直接以yarn-cluster模式提交到Ambari集群的解决方案

饿了么大数据计算引擎实践与应用

网络配置、防火墙（大数据集群环境）Linux防火墙

趣头条大数据部技术专栏