大数据入门-hadoop 第29页

Spark相关

3、Yarn：采用Hadoop的资源调度器。国内大量使用。

大数据点滴·2023-12-29 09:29

Hadoop用户权限管理及hdfs权限管理

1.创建用户student1，所属分组为studentschown-Rstudent1:students/home/hadoop/hadoop-2.7.6root用户将hadoop的相关操作权限授予student12

临界爵迹·2023-12-29 09:35

【2023】通过docker安装hadoop以及常见报错

目录1、准备2、安装镜像2.1、创建centos-ssh的镜像2.2、创建hadoop的镜像3、配置ssh网络3.1、搭建同一网段的网络3.2、配置host实现互相之间可以免密登陆3.3、查看是否成功4

方渐鸿·2023-12-29 07:08

elasticsearch-hadoop.jar 6.8版本编译异常

##背景重新编译elasticsearch-hadoop包；GitHub-elastic/elasticsearch-hadoopat6.8编译7.17版本时很正常，注意设置下环境变量就好，JAVA8_

zmc@·2023-12-29 07:31

Hadoop YARN CGroup 实践

文章目录HadoopYARNCgroups实践什么是cgroupscgroups概念YARN使用cgroups背景cgroups在YARN中的工作原理cgroups在YARN中的实践步骤参考HadoopYARNCgroups

Shyllin·2023-12-29 06:26

Hadoop之MapReduce 详细教程

MapReduce仅作了解，生产上很少使用该计算程序1、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。1、Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆

白鸽呀·2023-12-29 06:50

Zookeeper-Zookeeper特性与节点数据类型详解

1.Zookeeper介绍ZooKeeper是一个开源的分布式协调框架，是ApacheHadoop的一个子项目，主要用来解决分布式集群中应用系统的一致性问题。

长情知热爱·2023-12-29 03:57

Hadoop安装笔记2单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

紧接着上一篇博客：Hadoop安装笔记1：Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理-CSDN

Stitch .·2023-12-29 02:00

Spark 集群搭建

yarn-site.xmlspark-env.sh官网求π(PI)案例启动spark-shell通过浏览器查看显示查看Spark的网页信息展示搭建前准备下载地址：Indexof/dist/spark(apache.org)配置好hadoop

撕得失败的标签·2023-12-29 00:42

[BUG] Hadoop-3.3.4集群yarn管理页面子队列不显示任务

1.问题描述使用yarn调度任务时，在CapacityScheduler页面上单击叶队列（或子队列）时，不会显示应用程序任务信息，root队列可以显示任务。此外，FairScheduler页面是正常的。Nomatchingrecordsfound2.原因分析CapacitySchedulerPage中使用的$（‘#apps’）.dataTable（）.fnFilter基于索引值为4的列进行筛选（索

tuoluzhe8521·2023-12-29 00:00

最全Hadoop实际生产集群高可用搭建

1.环境准备1.1集群规划序号bigdata-001bigdata-002bigdata-003bigdata-004bigdata-005IPxxxxxxxxxxxxxxx组件hadoop1hadoop2hadoop3hadoop4hadoop5

tuoluzhe8521·2023-12-29 00:30

大数据技术之Hadoop入门一

1.从Hadoop框架讨论大数据生态名字起源该项目的创建者，DougCutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的项目起源Hadoop由ApacheSoftwareFoundation

在远方的你等我·2023-12-28 19:54

How to solve gzip: stdin: not in gzip format error

目录一.问题说明二.问题解决三.命令复习一.问题说明当执行tar-xzf/tmp/hadoop-3.3.5.tar.gz-C/home/taiyi/yarn命令时出现：gzip:stdin:notingzipformattar

roman_日积跬步-终至千里·2023-12-28 19:11

ClickHouse基础知识（二）：ClickHouse 安装教程

1.准备工作1.1确定防火墙处于关闭状态1.2CentOS取消打开文件数限制（1）在hadoop101的/etc/security/limits.conf文件的末尾加入以下内容sudovim/etc/security

依晴无旧·2023-12-28 18:30

三台CentOS7.6虚拟机搭建Hadoop完全分布式集群（一）

1.安装CentOS7.6虚拟机1.1安装完虚拟机发现没有sudo命令和hadoop用户执行命令失败我在安装CentOS7.6虚拟机后，我发现不能执行sudo命令，同时hadoop用户执行命令失败。

666-LBJ-666·2023-12-28 18:55

数据仓库架构以及数据模型的设计

分别是：数据仓库技术、Hadoop。当数据为

添柴少年yyds·2023-12-28 18:24

linux服务网卡速率查看,linux 下查看网卡工作速率

[root@hadoop058~]#mii-tooleth0:negotiated100baseTx-FD,linkok100Mlinux下查看网卡工作速率Ethtool是用于查询及设置网卡参数的命令。

Reset12138·2023-12-28 18:22

(赠源码）java+mysql hadoop高校固定资产管理系统74965-计算机毕业设计项目选题推荐

摘要在信息飞速发展的今天，网络已成为人们重要的信息交流平台。高校部门每天都有大量的信息需要通过网络发布，为此，高校固定资产管理系统开发的必然性，所以本人开发了一个基于Tomcat（服务器）模式的高校固定资产管理系统，该系统以B/S/Java语言、MySql数据库等为开发技术，实现了添加、修改、查看、删除系统数据。本系统采取组件化的方式对系统进行拆分，并对数据库中各个表的增删查改、表与表之间的约束关

bysjlw985·2023-12-28 17:57

macOS hadoop+spark+scala安装教程

macOShadoop+spark+scala安装教程环境搭建操作系统：macOS10.13.6JDK:1.8.0_201hadoop:2.8.5Spark:2.4.3Scala:2.13.0一、文件准备

飞翔客栈·2023-12-28 15:43

Flink开发利器StreamX

背景Hadoop体系虽然在目前应用非常广泛，但架构繁琐、运维复杂度过高、版本升级困难，且由于部门原因，数据中台需求排期较长，我们急需探索敏捷性开发的数据平台模式。

Apache StreamPark·2023-12-28 15:34

Hadoop：Flink on Yarn服务配置与设置

于是打算单独配置服务下载两个文件文件flink-1.10.1文件：https://archive.apache.org/dist/flink/flink-1.10.1/flink-1.10.1-bin-scala_2.11.tgzHadoop

william_cheng666·2023-12-28 13:14

Apache Flink 1.14.4 on yarn ha环境搭建

本地单机模式，学习测试时使用Standalone—独立集群模式，Flink自带集群，开发测试环境使用StandaloneHA—独立集群高可用模式，Flink自带集群，开发测试环境使用OnYarn—计算资源统一由HadoopYARN

一位搬砖工·2023-12-28 13:14

Flink1.8 on yarn 环境搭建及使用

tgz，然后解压下载地址https://flink.apache.org/downloads.html或https://www.apache.org/dyn/closer.lua/flink/二、下载hadoop

magic_kid_2010·2023-12-28 13:42

HDFS 短路读的实现(全网最全面深入讲解)

文章目录前言1.知识准备1.1关于域套接字(DomainSocket)什么是DomainSocketDomainSocket通信在ShortCircuitRead中做了什么DomainSocket在Hadoop

小昌昌的博客·2023-12-28 13:38

Hadoop 2.4 完全分布式环境安装与配置

依赖项Java1.从http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html下载tar.gz格式的，32位和64位机器对应下载，这里下的是64位的wgethttp://download.oracle.com/otn-pub/java/jdk/7u51-b13/jdk-7u51-linux-

王下邀月熊-WxChevalier·2023-12-28 13:06

springboot远程连接HDFS-hadoop3.0

一.hadoop前置环境:hadoop3.0+CDH6.1这里默认已经在linux环境配置好;如何安装hodoop不在本次范围内;注意：此时集群没有开启Kerberos认证我的环境:win10+IDEA2019.3

尚云峰·2023-12-28 13:33

java.net.UnknownHostException: hadoop

搭建完成hadoop使用zookeeper作为群集管理器的HA后。用eclipse客户端连接hadoop。

綠竹清水之福荫·2023-12-28 13:33

Hadoop源码分析---Namenode和Datanode

一、HadoopRPC框架1.hadoopipc框架代码位于org.apache.hadoop.ipc包内，有一个抽象类Server，实现监听服务的功能。

编程小王子啊·2023-12-28 13:33

hadoop面试问题

1当前你们公司使用的Hadoop版本是什么Hadoopcdh-5.7.6/hadoop-2.6.02HDFS常见的数据压缩格式有哪些，介绍其中一种详细的实现方式Gzip优点是压缩率高，速度快。

code学习社·2023-12-28 13:31

【Hadoop】RPC在client端的源码解析

最近在看《Hadoop2.XHDFS源码剖析》这本书（其实看了挺久的，但是进度比较慢），要看懂hadoop源码真的是需要一定的代码和框架的基础，用到的东西还真是蛮多的，真的厉害，哎，我太菜了~我们会用hadoop

lsr40·2023-12-28 13:01

2.X版本的一个通病问题

【概述】对于配置了HA模式的RM或者NN，客户端如果向standby的节点发送请求，会因为不可连接或standby拒绝提供服务导致请求失败，转而向Active的节点发送请求，这个转换是hadoop客户端内部自动完成的

陈猿解码·2023-12-28 13:29

HDFS2.x之RPC流程分析

HDFS2.x之RPC流程分析1概述Hadoop提供了一个统一的RPC机制来处理client-namenode,namenode-dataname,client-dataname之间的通信。

can007·2023-12-28 13:59

探究Presto SQL引擎(1)-巧用Antlr

从Hadoop生态的Hive,Spark,Presto,Kylin,Druid到非Hadoop生态的Clic

vivo互联网技术·2023-12-28 12:14

Hadoop安装笔记_单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变，同时添加静态分区，分区字段为etl_date，类型为String，且值为当前日期的前一天日期（分区字段格式为yyyyMMdd）。使用hivecli执行showpartitio

Stitch .·2023-12-28 12:32

「Kafka」入门篇

「Kafka」入门篇基础架构Kafka快速入门集群规划集群部署官方下载地址：http://kafka.apache.org/downloads.html解压安装包：[atguigu@hadoop102software

小成同学_·2023-12-28 12:30

Hadoop之HDFS 详细教程

1、HDFS概述Hadoop分布式系统框架中，首要的基础功能就是文件系统，在Hadoop中使用FileSystem这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类

白鸽呀·2023-12-28 11:29

hadoop hive spark flink 安装

下载地址Indexof/distubuntu安装hadoop集群准备IP地址主机名称192.168.1.21node1192.168.1.22node2192.168.1.23node3上传hadoop

nsa65223·2023-12-28 11:59

Spark从入门到精通23：Spark SQL简介

我们知道Hive是Hadoop生态中的一个数据分析引擎，它可以将HiveSQL转换成MapReduce任务提交到Hadoop集群中执行，大大简化了编写MapReduce程序的

金字塔下的小蜗牛·2023-12-28 09:20

构建高效数据中台：集群规划与搭建的最佳实践指南

然而，Hadoop也支持通过调整队列的权重和使用抢占策略来优化资源的使用。例如&

数据与后端架构提升之路·2023-12-28 04:20

win7配置hadoop-2.7.7详细教程

Date:2019/09/27Version:hadoop2.7.7;java1.8.0_221;流程安装java下载并解压hadoop压缩包修改配置文件下载winutil，并覆盖启动hadoop0.安装

pluo1717·2023-12-28 04:02

Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表(类似于RDBMS中的表)，并提供类SQL查询功能；Hive是由Facebook开源，用于解决海量结构化日志的数据统计。

之古·2023-12-28 02:58

Hadoop集成对象存储和HDFS磁盘文件存储

1.环境配置1.1版本说明组件版本是否必须其他事项Hadoop3.3.0+是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql，使用hive

tuoluzhe8521·2023-12-28 02:38

Hadoop集群找不到native-hadoop

1.问题描述========hive运行中的问题，需要把把native复制进去/usr/lib2023-02-1519:59:42,165WARNscheduler.TaskSetManager:Losttask11.0instage1.0(TID3,common4,executor2):java.lang.RuntimeException:HiveRuntimeErrorwhileclosing

tuoluzhe8521·2023-12-28 02:38

EMR集群迁移自建Hadoop(元数据及HDFS数据）

1.背景老集群采用的腾讯emr集群，使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题，因此决定采用自建hadoop集群，需要将emr的元数据和hdfs基础数据迁移过来。

tuoluzhe8521·2023-12-28 02:37

大数据开发之Sqoop详细介绍

测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。

lcz-2000·2023-12-27 23:31

Hive 部署

Hive构建在ApacheHadoop之上，并通过hdfs支持S3，adls，gs等存储。Hive允许用户使用SQL读取、写入和管理PB级数据。官网地址二、架构Hive中主要包

有人看我吗·2023-12-27 23:54

大数据-Zookeeper 安装步骤(亲测保成功）

第2章Zookeeper本地安装步骤1.上传到hadoop01上面的apps包下面[root@hadoop01current]#cd/opt/apps2.解压该文件tar-zxvfzookeeper-3.4.6

王哪跑nn·2023-12-27 21:39

Hadoop集群shell常用命令

1.启动hadoop所有进程start-all.sh#等价于start-dfs.sh+start-yarn.sh但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。

Youngmon·2023-12-27 21:10

MATLAB入门

设计和问题求解而设计的桌面环境用于可视化数据的图形和用于创建自定义绘图的工具用于曲线拟合、数据分类、信号分析、控制系统优化和许多其他任务的APP用于各种工程和科学应用程序的附加功能工具箱用于构建包含自定义用户界面的应用程序的工具用于C/C++、Java、Net、Python、SQL、Hadoop

Litle_Pudding·2023-12-27 21:39

Hadoop期末考试自用

绪论大数据定义从字面意思来看，大数据指的是巨量数据最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡，他是这样定义大数据的：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。大数据的基本特点大量（Volume）多样（Varity）时效性（Velocity）结果准确性（Veracity）价

Yolo_jin·2023-12-27 20:04

推荐频道

大数据入门-hadoop