大数据集群第10页

Hadoop Yarn 生产资源配置

我司生产环境的大数据集群是用CDH部署的版本有5.11.15.14.15.16.1这三个版本.这里主要是讲一下生产上面Hadoop的资源配置情况一、DataNode配置为了计算时保证数据本地化，DataNode

guaren2009·2020-05-22 11:16

ambari大数据集群+HIVE安装配置

ambari及CDH的诞生极大简化了大数据集群的配置安装及监控管理。这篇文章以ambari大数据集群的安装配置为例，记录整个过程。PS：本文中用到的安装包均可从百度网盘获取：https://pan.b

TaoismLi·2020-05-21 11:47

系统综合实践第4次实践作业

nginx代理tomcat集群1.文件配置2.nginx负载均衡策略实现(二)使用Docker-compose部署javaweb运行环境1）文件配置2）执行javaweb实例(三）使用Docker搭建大数据集群环境

叶叶叶子·2020-05-18 22:00

Linux 部署JDK

一、JDK部署公司里的大数据集群用的是CDH的，所以JDK的版本选择参考：https://docs.cloudera.com/documentation/enterprise/release-notes

guaren2009·2020-05-13 16:13

2020系统综合实践4 Dokcer专题实践 - 负载均衡、JavaWeb、Hadoop大数据集群

使用Docker-compose实现Tomcat+Nginx负载均衡nginx反向代理原理使用nginx代理tomcat项目结构├──docker-compose.yml├──nginx│└──default.conf├──tomcat1│└──index.html├──tomcat2│└──index.html└──tomcat3└──index.html为了区分是哪一个服务器，为3只tomca

zaqny·2020-05-10 21:00

TinkerPop中使用Spark on Yarn模式运行OLAP

TinkerPop中可以结合SparkGraphComputer和HadoopGraph实现使用大数据集群资源分布式对图进行OLAP。

Woople·2020-04-02 22:54

day39.ansible参数

大数据集群也需要。服务器越多价值越大2.批量管理工具历史SSH+脚本CFEngine、Puppet、saltstack、ansible08年以前07-08年10-13年14-17（python开发

DenyCwen·2020-03-26 00:33

Ubuntu 下完整搭建大数据集群+Hive

[toc]搭建Hadoop环境hadoop从1.x到2.x有巨大的变化，如果大家是工作在1.x环境下，那么这个文档可能有些地方会不一定符适下载安装#下载Hadoop安装包#在墙内，当然优选清华的源啦wgethttp://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz#解压Hadoo

semanticyong·2020-03-20 02:53

Windows下idea远程调试Spark Streaming接收Kafka数据

大数据集群环境说明Spark版本：2.0.2Kafka版本：0.9.1Linux系统：CentOS6.5场景做SparkStreaming开发，在Win7下使用IDE进行开发，希望在本地IDEA上远程连接服务器上的大数据集群进行调试

荒野雄兵·2020-03-15 08:50

大数据实战项目《大型电商日志分析》的知识点

大数据实战项目的知识点1、大数据集群环境的搭建CentOS6.8、hadoop-2.7.3、hive-0.13.1zookeeper-3.4.10kafka_2.10-0.10.2.0、flume-ng

Albert陈凯·2020-03-14 01:55

实战｜Hadoop大数据集群搭建

一个执着于技术的公众号前言今天来为粉丝圆梦啦话不多说，咱直接进入实战环节实验环境：主机名IP地址角色qll251192.168.1.251NameNodeqll252192.168.1.252DataNode1qll253192.168.1.253DataNode2所需软件包：hadoop-2.9.2.tar.gzjdk-8u241-linux-x64.tar.gz软件包下载地址：Hadoop软件

开源Linux·2020-03-12 19:33

大数据学习环境准备[3] - Linxu及其他软件配置

[email protected]:05写在前面的废话我们至少需要三台虚拟机来组建大数据集群,所以,重复第1篇和第2篇的操作,再创建两个虚拟机,这三台不一样的地方就只是配置"网络和主机名

qdice007·2020-03-12 07:47

猛犸系统

目录前言猛犸系统特点猛犸抽象分层猛犸原型猛犸如何和已知应用交互猛犸如何提供高可用存储支持组件猛犸打通应用集群和大数据集群前言统一的，高效的分布式系统诞生的条件已经成熟：资源管理/调度系统。

祝威廉·2020-03-10 19:59

搭建CM(ClouderaManager)

我们这里采用CM的方式搭建大数据集群环境，所以现在开始搭建CM。废话不多说，下面开始搭建本地y

z小赵·2020-03-02 18:27

centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

转载请务必注明原创地址为：https://dongkelun.com/2018/04/25/ambariConf/前言本文是讲如何在centos7（64位）安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装，需要先将集群服务停掉，然后将不需要的环境变量注释掉即可，如果不注释掉，后面虽然可以安装成功，但是在启动某些服务的时候可能会有异常，比如最后提到的hive启动异常。本文适合系

董可伦·2020-03-02 14:23

(图文)用Ambari部署hadoop集群

Ambari部署大数据集群传送门：如何部署Ambarihttp://www.jianshu.com/p/9b651ffa21ee访问Ambari节点IP，端口8080进入安装向导，点击launchinstallwizard

辉耀辉耀·2020-02-25 02:51

大数据集群的一些命令

一、启动zookeeper切换到/usr/local/zookeeper/binzkServer.shstart需要在每台机器都逐一启动常用命令启动zkServer.shstart查看状态zkServer.shstatus重启zkServer.shrestart关闭zkServer.shstop二、hadoopstart-all.shstop-all.shstart-yarn.shyarn-dae

jason_罗·2020-02-24 15:18

5堂Hadoop必修课，高手锻造之路

第一堂课：大数据集群搭建葵花宝典由浅入深，四步成“狮”1）快速搞定伪分布Hadoop集群搭建2）高可用的5节点Hadoop分布式集群搭建（Hadoop2.6.0）3）生产环境：CDH5高可用集群环境搭建

小讲嘚吧嘚·2020-02-19 07:11

大数据集群安全实战：目录

隶属于文章系列：大数据安全实战https://www.jianshu.com/p/76627fd8399c理论说明工具调研sentrysentry执行机制Kerberosldap安全方案基础ansible最简单教程实战搭建基础集群javahdfshive部署sentry部署openLDAPhdfs集成ldaphive集成ldaphue集成ldap部署Kerberoshdfs集成Kerberosya

xuefly·2020-02-18 22:39

大数据集群管理系统设计与实现

摘要：基于现有大数据集群管理系统特点的研究，针对现有系统缺乏主机管理的问题，设计并实现了一个全新的大数据集群管理系统。

编程小世界·2020-02-09 10:52

CDH大数据集群搭建

目录一.安装虚拟机二.配置CentOS6.7环境三.环境准备：3.1私有网络软件仓库3.2挂载网络镜像3.3创建CM和CDH网络镜像3.4安装时钟服务器3.5安装mysql四.CM安装4.1配置CM的yum源4.2安装CM4.3修改CM源数据库五.CDH集群安装5.15.2CDH和CM的具体网络位置的选择一.安装虚拟机(见另一篇文章)：二.配置CentOS6.7环境：1.关闭防火墙(三台虚拟机)：

Movle·2020-02-09 02:50

阿里云ECS跨地域整站容灾操作指南

一、概述混合云容灾服务（HDR）是阿里云提供的低成本高性能业务连续性保障的服务，可以为企业内部关键应用，互联网应用，乃至Hadoop大数据集群提供容灾服务。

阿里云官网·2020-02-08 03:54

解决CentOS 7 df命令卡住问题

再说问题大数据集群中某几台机器执行df-h命令会hang住，没有任何输出，CTRL+C无效。执行stracedf命令，发现是卡在了/proc/sys/fs/binfmt_misc这里。execve

LittleMagic·2020-02-06 15:00

利用FRP实现内网穿透

情况：自己有两台电脑，一台16G内存的Dell，和一台8G内存的MacBookPro，因为自己学的是大数据开发，所以需要搭建大数据集群，因此在MacBookPro开发的话内存太小了，既要用虚拟机搭建大数据集群

Movle·2020-02-06 12:53

阿里云ECS跨地域整站容灾操作指南

一、概述混合云容灾服务（HDR）是阿里云提供的低成本高性能业务连续性保障的服务，可以为企业内部关键应用，互联网应用，乃至Hadoop大数据集群提供容灾服务。

阿里云官网·2020-02-06 09:11

amabari-server start错误：Table 'ambari.metainfo' doesn't exist

最近在搭建Amabari大数据集群，过程中也是几经挫折，这里主要来讲一下amabari-start过程中的Causedby:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException

子墨言良·2020-01-09 09:00

大数据之一：Hadoop2.6.5+centos7.5三节点大数据集群部署搭建

一、VM虚拟环境搭建（详细讲解）说明：在windos10上使用VmWareWorkstation创建3节点Hadoop虚拟环境创建虚拟机下一步设置虚拟机主机名和介质存放路径设置20G磁盘大小选择“自定义硬件”配置网络模式为NAT模式配置虚拟机启动镜像到这里，使用虚拟机克隆技术配置另外两台slave同理克隆slave2,步骤省略此时windos网络连接里面会出现两张虚拟网卡接下来就是给虚拟机配置IP

IT技术栈·2020-01-07 23:32

大数据集群的角色划分和组网方案

《第一篇：为大数据集群正确的选择硬件》，主要从基于工作负载的角度（IO-bound工作负载型，还是CPU-bound工作负载型），分析了如何选择高性价比的合适硬件。

duzhongli·2020-01-06 23:45

魅族大数据运维平台实践

当时只有三个节点，因为我们起步比较晚，没有赶上Hadoop1.0，直接是用YARN来跑的大数据集群，而且默认就上了HA功能；2014年9月节点增加到20个，数据日增30GB；2015年6月上线Spark

麦思博·2020-01-05 19:05

诊断gc是否正常

这篇文章对我的作用很多，在维护大数据集群的时候经常会和java进程打交道，需要分析jvm是否使用合理。

gentleman_hai·2020-01-05 11:00

CentOS 6搭建CDH 5.12.0，kafka安装及CDH集群启停

一、集群搭建&MySQL部署1.首先使用青云搭建了大数据集群，集群有三台机器，分别名为hadoop001,hadoop002,hadoop0032.在hadoop001机器上部署MySQL二、环境准备*

白面葫芦娃92·2019-12-31 10:51

CDH6集成Kerberos

https://www.jianshu.com/p/b606602d3ada一、概述本文是针对cloudera大数据集群安全部署整理的文档，主要介绍了大数据集群Kerberos服务器部署和集成的过程。

Moon_魔宽·2019-12-29 21:34

大数据运维：大数据平台+海量数据

但随着公司数据越来越多，业务越来越复杂，大数据集群规模越来越大，大数据团队也越来越大

大数据研习社·2019-12-25 18:00

大数据运维：大数据平台+海量数据

但随着公司数据越来越多，业务越来越复杂，大数据集群规模越来越大，大数据团队也越来越大

大数据研习社·2019-12-25 18:00

RayOnSpark：使用 Ray 和 Analytics Zoo 在大数据集群上运行新兴的人工智能应用

译者：刘志勇出处：https://medium.com/riselab/rayonspark-running-emerging-ai-applications-on-big-data-clusters-with-ray-and-analytics-zoo-923e0136ed6a近年来，人工智能有了很大的发展。为了获得洞察力并基于海量数据作出决策，我们需要拥抱先进的、新兴的人工智能技术，如深度学习

小白学步·2019-12-22 17:15

ansible自动化管理实践

大数据集群也需要。2.批量管理工具历史SSH+脚本CFEngine、Puppet、saltstack、ansible08年以前07-08年10-13年14-17（python开

WhatGui_c607·2019-12-21 16:17

2019-04-23ansible知识

ssh密钥认证+脚本批量管理，特点：简单，实用但是看起来比较low，需要人工写脚本，类似于实时复制的inotify工具2013年以前这种方式很普遍MySQL高可用MHA集群，要求所有的机器互相密钥认证，大数据集群也需要

自律的生活无虑·2019-12-21 02:13

超越Spark，大数据集群计算的生产实践

本文会介绍Spark核心社区开发的生态系统库，以及MLMLlib及SparkStreaming的Spark库的具体用法，对于企业的各种用例及框架也进行了说明。Spark拥有一个庞大的、不断增长的社区，还有在企业环境中不可或缺的生态系统。这些生态系统提供了不同生产环境案例所需的许多功能。一般来说，Spark应用做的是机器学习算法、日志聚合分析或者商务智能相关的运算，因为它在许多领域都有广泛的应用，包

大数据首席数据师·2019-12-21 02:19

day—38架构第一阶段day8

大数据集群也需要。2.ansible能做什么？ansible可以帮助我们完成一些批量任务，或者完成一些需要经常重复的工作。比如：同时在100台服务器上安装nfs服务，并在安装后

木木彡_ebe8·2019-12-20 02:33

大数据集群基础安装篇 - CentOS 7 安装、克隆集群（7台）

CentOS敬语为常年奋斗、努力工作在一线，并为操作系统发展做出突出贡献的的大佬们致敬，此处深思几分钟...科普CentOS（CommunityEnterpriseOperatingSystem，中文意思是：社区企业操作系统）是Linux发行版之一，它是来自于RedHatEnterpriseLinux依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码，因此有些要求高度稳定性的服务器以C

数据服务·2019-12-17 19:56

Cloudera-Manage —— 基本概念及使用

概念ClouderaManager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器，这款利器具有集群自动化安装、中心化管理、集群监控、报警等功能，极大的提高集群管理的效率。

CoffeJoy·2019-12-16 20:00

SQL Server 2019 深度解读：微软数据平台的野望

11月4日，微软正式发布了其新一代数据库产品SQLServer2019，带来了大数据集群、数据虚拟化等重磅特性。

云间拾遗·2019-12-15 17:00

为大数据集群选择正确的硬件

由于Hadoop是运行在数十，数百甚至更多节点上，尽可能多的考虑方方面面都可以节省成本。所以基于性价比，怎么才能选择合适的硬件？比如，对于IO密集型的工作负载，需要为每个CPUcore匹配更多的存储或更高的吞吐(morespindlespercore)。1，计算和存储Hadoop将数据分布式存储在各台服务器上，使用文件副本来保证数据不丢以及容错。这样一个计算请求可以直接分发到存储数据的相应服务器并

duzhongli·2019-12-13 23:04

大数据平台多租户管理实现（理论篇）

随着数据量的指数型增长，以及Hadoop生态系统的不断完善，越来越多的公司选择Hadoop作为数据仓库，并在大数据集群上架设了越来越多的相对复杂的应用场景需求。

DengheLiu·2019-12-08 05:08

大厂大数据平台

image淘宝的大数据平台基本也是分成三个部分，上面是数据源与数据同步；中间是云梯1，也就是淘宝的Hadoop大数据集群；下面是大数据的应用，使用大数据集群的计算结果。

do_young·2019-12-01 22:25

Day38-ansible自动化管理（一）

大数据集群也需要。2.ansible能做什么？ansible可以帮助我们完成一些批量任务，或者完成一些需要经常重复的工作。比如：同时在100台服务器上安装nfs服务，并在安装后

Chosen_One23·2019-11-28 07:25

大数据 -- Cloudera Manager(简称CM)+CDH构建大数据平台

一、ClouderaManager介绍ClouderaManager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器，这款利器具有集群自动化安装、中心化管理、集群监控、报警等功能，使得安装集群从几天的时间缩短在几小时以内

大奥特曼打小怪兽·2019-11-12 13:00

魅族大数据运维平台实践

当时只有三个节点，因为我们起步比较晚，没有赶上Hadoop1.0，直接是用YARN来跑的大数据集群，而且默认就上了HA功能；2014年9月节点增加到20个，数据日增30GB；2015年6月上线Spark

Cynthia成·2019-11-07 13:33

docker搭建大数据集群

1.网络规划dockernetworkcreate--subnet=172.18.0.0/16mynetworkmasterslave1slave2nn/sn/rmdndn#宿主机上配置vim/etc/profile---------------------------------------------------------------------------net_on="dockernet

淘淘浩·2019-11-02 18:40

Centos7使用CDH6.3.0安装大数据集群

修改网络和主机名cdh6-master[root@cdh6-master~]#hostnamectlset-hostnamecdh6-master[root@cdh6-master~]#vi/etc/sysconfig/network-scripts/ifcfg-ens33TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDE

lzhpo·2019-10-23 19:41

推荐频道

大数据集群

Hadoop Yarn 生产资源配置

ambari大数据集群+HIVE安装配置

系统综合实践 第4次实践作业

Linux 部署JDK

2020系统综合实践4 Dokcer专题实践 - 负载均衡、JavaWeb、Hadoop大数据集群

TinkerPop中使用Spark on Yarn模式运行OLAP

day39.ansible参数

Ubuntu 下完整搭建大数据集群+Hive

Windows下idea远程调试Spark Streaming接收Kafka数据

大数据实战项目《大型电商日志分析》的知识点

实战｜Hadoop大数据集群搭建

大数据学习环境准备[3] - Linxu及其他软件配置

猛犸系统

搭建CM(ClouderaManager)

centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

(图文)用Ambari部署hadoop集群

大数据集群的一些命令

5堂Hadoop必修课，高手锻造之路

大数据集群安全实战：目录

大数据集群管理系统设计与实现

CDH大数据集群搭建

阿里云ECS跨地域整站容灾操作指南

解决CentOS 7 df命令卡住问题

利用FRP实现内网穿透

阿里云ECS跨地域整站容灾操作指南

amabari-server start错误：Table 'ambari.metainfo' doesn't exist

大数据之一：Hadoop2.6.5+centos7.5三节点大数据集群部署搭建

大数据集群的角色划分和组网方案

魅族大数据运维平台实践

诊断gc是否正常

CentOS 6搭建CDH 5.12.0，kafka安装及CDH集群启停

CDH6集成Kerberos

大数据运维：大数据平台+海量数据

大数据运维：大数据平台+海量数据

RayOnSpark：使用 Ray 和 Analytics Zoo 在大数据集群上运行新兴的人工智能应用

ansible自动化管理实践

2019-04-23ansible知识

超越Spark，大数据集群计算的生产实践

day—38架构第一阶段day8

大数据集群基础安装篇 - CentOS 7 安装、克隆集群（7台）

Cloudera-Manage —— 基本概念及使用

SQL Server 2019 深度解读：微软数据平台的野望

为大数据集群选择正确的硬件

大数据平台多租户管理实现（理论篇）

大厂大数据平台

Day38-ansible自动化管理（一）

大数据 -- Cloudera Manager(简称CM)+CDH构建大数据平台

魅族大数据运维平台实践

docker搭建大数据集群

Centos7使用CDH6.3.0安装大数据集群

系统综合实践第4次实践作业