细细品味Hadoop 第30页

StreamPark + PiflowX 打造新一代大数据计算处理平台

它具有如下特性：简单易用：可视化配置流水线，实时监控流水线运行状态，查看日志；功能强大：提供100+的数据处理组件，包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCa

暗影八度·2024-01-06 05:47

新一代大数据管家 DataSophon 1.2 重磅发版

在大数据领域，现在普遍认为是后Hadoop时代，CDH的停更和闭源导致传统的Hadoop体系组件栈没有一个称手好用的管理工具，越来越多新一代的大数据项目也在层出不穷,同样也需要管理，并且需要适配云原生的能力

Datavane·2024-01-06 05:47

2.HDFS 架构

目录概述架构HDFS副本HDFS数据写入流程NN工作原理DN工作原理结束概述官方文档快递环境：hadoop版本3.3.6相关文章速递架构HDFSHDFS架构总结如下：amaster/slavearchitecture

流月up·2024-01-05 23:01

1.大数据概述

目录概述hadoophadoop模块hadoop发行版apache社区版本CDP(CDH+HDP)其它云产商框架选择hadoop安装结束概述先了解几个常用的网站apache官网hadoop官网hadoopgithubhttps

流月up·2024-01-05 23:00

Hadoop面试题与python基础

Hadoop面试题Hadoop的三种部署模式？Hadoop最初元数据放在哪里？要想多个客户端访问，元数据要放在哪里？分桶表和分区表的区别？项目中如何实现拉链表？

中长跑路上crush·2024-01-05 23:02

【无标题】

ETL项目–自学笔记（补充）1、服务启动cdh虚拟机中服务会自动启动手动启动启动hadoop服务/export/server/hadoop/sbin/start-all.sh启动hive服务metastore

中长跑路上crush·2024-01-05 23:02

LeetCode-105. 从前序与中序遍历序列构造二叉树

例如，给出前序遍历preorder=[3,9,20,15,7]中序遍历inorder=[9,3,15,20,7]返回如下的二叉树：3/\920/\157剑指offer原题，值得细细品味，特别经典的利用递归构造二叉树题目

边界流浪者·2024-01-05 22:35

大数据 HDFS-存储的王者

我们知道，Google大数据“三驾马车”的第一驾是GFS（Google文件系统），而Hadoop的第一个产品是HDFS，可以说分布式文件存储是分布式计算的基础，也可见分布式文件存储的重要性。

善守的大龙猫·2024-01-05 21:48

什么是架构设计？

我们会对新员工培训整个系统的架构，参加架构设计评审，学习业界开源系统（例如MySQL和Hadoop）的架构，研究大公司的架构实现（例如微信架构和淘宝架构）……虽然“架构”这个词很常见，但如果深究一下，“

善守的大龙猫·2024-01-05 21:48

大数据 MapReduce是什么？

在Hadoop问世之前，其实已经有了分布式计算，只是那个时候的分布式计算都是专用的系统，只能专门处理某一类计算，比如进行大规模数据的排序。

善守的大龙猫·2024-01-05 21:47

HDFS&Yarn HA架构设计

一、为什么要用HA在hadoop2.0.0之前，在hdfs集群中，NameNode是存在单点故障问题的。

吃货大米饭·2024-01-05 20:22

看书让我愉悦

我这人平时没什么爱好，但有一点就足喜欢看书，一本书细细品味能品凶文章的义理，品出人生的感悟，读一本好书让自己回味无穷，读书可以修养性情，更要读好书；好读书。

黄在昊·2024-01-05 20:43

武当山之行，跟风走。

喝下的酒，能细细品味，回头再喝可以喝出其中的滋味千愁。见过的人，能畅聊甚欢，回头再讲可以再续当年的风光。我和我朋友说，这一次不虚此行。

文旭良·2024-01-05 20:01

MR实战：词频统计

实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建词频统计映射器类5、创建词频统计归并器类6、创建词频统计驱动器类7、启动应用，查看结果四、实战总结一、实战概述本实战演练旨在利用HadoopMapReduce

howard2005·2024-01-05 19:01

Pentaho Kettle 6.1连接CDH5.4.0集群

最近把之前写的HadoopMapReduce程序又总结了下，发现很多逻辑基本都是大致相同的，于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以及之后的一部分工作

香山上的麻雀·2024-01-05 16:43

伤心桥下春波绿，曾是惊鸿暗影来

给我这疲惫的身躯和苍白的灵魂留下了一丝惊奇和忧伤等到细细品味到全诗以及陆游和唐婉悲怆的爱情故事，又是另外一番滋味了。忧伤和怅惘在这寂寥的夜里抓住了我。

左情者·2024-01-05 16:00

企业级大数据安全架构（二）安全方案

作者：楼高1Knox访问控制ApacheKnox是一个为ApacheHadoop部署提供交互的应用网关，通过其RESTAPI和用户友好的UI，为所有与Hadoop集群的REST和HTTP交互提供了统一的访问点

云掣YUNCHE·2024-01-05 15:33

企业级大数据安全架构（一）平台安全隐患

1缺乏统一的访问控制机制大数据平台由Hadoop生态体系众多组件组成，而每个组件都会提供相应的WebUI界面和RESTful接口，例如Nam

云掣YUNCHE·2024-01-05 15:03

知道真相的“我”眼泪掉下来

感受着微风拂面，一种轻松、自在、祥和、安宁，心情如柳絮随风飞舞，阅读一本好书，细细品味书香柔情，沉浸其中，怀抱真理。

Monster小沫·2024-01-05 15:58

大数据StarRocks(四) ：常用命令

这次主要介绍生产工作中使用Starrocks时的常用命令4.1连接StarRocks4.1.1Linux命令行连接[root@hadoop1011fe]#yuminstallmysql-y[root@hadoop1011fe

运维仙人·2024-01-05 13:02

《PySpark大数据分析实战》-24.数据可视化图表介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-05 13:02

大数据开发个人简历范本（2024最新版-附模板）

大数据开发工程师个人简历范本>男22本科张三计算机科学与技术1234567890个人概述具备深入的Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情

itLeeyw·2024-01-05 13:53

Spark调优解析-spark数据倾斜优化2（七）

1数据倾斜优化1.1为何要处理数据倾斜（DataSkew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾斜？

有语忆语·2024-01-05 12:53

【Hadoop基础】hadoop fs 命令

1，hadoopfs–fs[local|]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoopjar里的hadoop-default.xml->$HADOOP_CONF_DIR

风暴之芽·2024-01-05 11:57

修修改hdfs上的文件所属用户、所属组等读写执行控制权限

在linux命令行下，可以使用下面的命令修改文件的权限、文件所有者，文件所属组：sudoaddgroupHadoop#添加一个hadoop组sudousermod-a-Ghadooplarry#将当前用户加入到

liuzx32·2024-01-05 11:52

Spark内核解析-数据存储5（六）

1、Spark的数据存储Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk，本文尝试分析Spark中存储子系统的构成，并以数据写入和数据读取为例，讲述清楚存储子系统中各部件的交互关系

有语忆语·2024-01-05 10:05

Spark内核解析-节点启动4（六）

有语忆语·2024-01-05 10:12

1.2.2.3Reduce-Task（源码解读）

总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop-子目录：https://www.jianshu.com/p/9428e443b7fdReduce-Task

寒暄_HX·2024-01-05 10:43

【大数据】Spark学习笔记

初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型

pass night·2024-01-05 09:16

Hadoop(04) HDFS编程实践操作

Hadoop分布式文件系统（HadoopDistributedFileSystem,HDFS）是Hadoop核心组件之一，如果已经安装了Hadoop，其中就已经包含了HDFS组件，不需要另外安装。

Eufeo·2024-01-05 09:25

Hadoop集群环境下HDFS实践编程过滤出所有后缀名不为“.abc”的文件时运行报错：Path is not a file: /user/hadoop/input

一、问题描述搭建完Hadoop集群后，在Hadoop集群环境下运行HDFS实践编程使用Eclipse开发调试HDFSJava程序（文末有源码）：假设在目录“hdfs://localhost:9000/user

哇咔咔哇咔·2024-01-05 09:25

HBase伪分布式配置下，报错：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing的解决方案

一、问题描述今天在使用HBaseJavaAPI编程实践时发现出现报错，同样在创建表和查看HBase集群状态信息时也出现报错，以下是错误截图：这是由于HBase的主节点正在初始化过程中，无法处理请求。通常发生在启动HBase集群或进行主节点故障转移时。HBase主节点在启动或重启时需要一些时间来完成初始化过程。在此期间，HBase不会接受任何新的表创建请求。尝试了很多办法，包括重启HBase、卸载H

哇咔咔哇咔·2024-01-05 09:54

配置Hadoop集群后启动Hadoop时出错：Master: ssh: connect to host master port 22: No route to host

一、问题描述在配置完成Hadoop集群后,在启动Hadoop时出现报错：Master:ssh:connecttohostmasterport22:Noroutetohost错误截图如下（其中YKBMaster

哇咔咔哇咔·2024-01-05 09:54

真·保姆级——在VMware的Ubuntukylin上进行Hadoop单机/伪分布式安装时安装VMware Tools后虚拟机与物理机之间无法传输文件和复制粘贴的问题（附Ubuntu更改默认登录用户）

目录一、前言二、版本信息三、hadoop用户创建1.创建hadoop用户2.在创建hadoop用户后对系统进行重启四、解决办法4.1更改默认登陆用户4.2安装VMwareTools4.3验证VMwareTools

哇咔咔哇咔·2024-01-05 09:23

安装HBase后查看HBase版本时报错（错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty）的解决方案

目录一、错误二、解决方法三、错误分析一、错误在安装完成HBase（安装HBase的具体教程可参考HBase2.2.2安装和编程实践指南）后显示HBase版本时报错：显示HBase的版本信息代码如下（若已配置环境变量直接输入hbaseversion即可）：/usr/local/hbase/bin/hbaseversion报错信息如下：二、解决方法修改/usr/local/hbase/conf/hba

哇咔咔哇咔·2024-01-05 09:23

Hadoop集群环境下HDFS实践编程过滤出所有后缀名不为“.abc”的文件时运行报错：java.net.ConnectException: 拒绝连接；

一、问题描述搭建完Hadoop集群后，在Hadoop集群环境下运行HDFS实践编程使用Eclipse开发调试HDFSJava程序（文末有源码）：假设在目录“hdfs://localhost:9000/user

哇咔咔哇咔·2024-01-05 09:19

90-5-20.用十年学会爱

用了十年，才回首放下，细细品味，内心充满感激！庄老师这几个月因为项目互动的较多，她的心理疗愈和激活能力，令我折服，平台的老师果然都是有几把刷子。

胡永群·2024-01-05 09:26

Hadoop入门学习笔记——八、数据分析综合案例

pwd=5ay8Hadoop入门学习笔记（汇总）目录八、数据分析综合案例8.1.需求分析8.1.1.背景介绍8.1.2.目标8.1.3.需求8.1.4.数据内容8.2.加载数据8.3.ETL

faith瑞诚·2024-01-05 08:17

Hadoop的启动停止命令详解

sbin/start-all.sh启动所有的Hadoop守护进程。

`FUTURE`·2024-01-05 08:44

大数据高级开发工程师——Hadoop学习笔记（4）

文章目录Hadoop进阶篇MapReduce：Hadoop分布式并行计算框架MapReduce的理解MapReduce的核心思想MapReduce编程模型MapReduce编程指导思想【八大步骤】Map

讲文明的喜羊羊拒绝pua·2024-01-05 08:20

大数据学习方向

一、大数据运维之Linux基础打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等。

乐姐·2024-01-05 08:18

大数据开发学习资料汇总

目录大数据系列HadoopHadoop权威指南Hadoop权威指南修订Hadoop实战Hadoop实战_2Hadoop源码分析大数据处理系统：Hadoop源代码情景分析Hadoop开发者入门专刊Hadoop

比屋大数据·2024-01-05 08:44

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop

伊达·2024-01-05 08:12

Hadoop大数据生态系统及常用组件简介

经过多年信息化建设，我们已经进入一个神奇的“大数据”时代，无论是在通讯社交过程中使用的微信、QQ、电话、短信，还是吃喝玩乐时的用到的团购、电商、移动支付，都不断产生海量信息数据，数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据，多大算大，100G算大么?如果是用来存储1080P的高清电影，也就是几部影片的容量。但是如果100G都是文本数据，比如我们的后端kafka里的数据，抽取一条

669生活·2024-01-05 08:11

【大数据（一）】hadoop2.4.1集群搭建(重点)

1.准备Linux环境1.0先将虚拟机的网络模式选为NAT1.1修改主机名vi/etc/sysconfig/networkNETWORKING=yesHOSTNAME=server1.itcast.cn1.2修改ip地址vi/etc/sysconfig/network-scripts/ifcfg-eth0重新启动网络：servicenetworkrestart1.3修改ip地址和主机名的映射关系v

幸福巡礼·2024-01-05 08:09

java与大数据：Hadoop与MapReduce

Hadoop和MapReduce是由Apache软件基金会开发和维护的开源项目。它们的出现主要是为了解决传统的数据处理工具无法处理大数据量的局限性。首先，让我们深入了解一下Hadoop。

naer_chongya·2024-01-05 08:38

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop

伊达·2024-01-05 08:08

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop

伊达·2024-01-05 08:08

字节跳动 Spark 支持万卡模型推理实践

背景介绍在云原生化的发展过程中Kubernetes由于其强大的生态构建能力和影响力，使得包括大数据、AI在内越来越多类型的负载应用开始向Kubernetes迁移，字节内部探索Spark从Hadoop迁移到

字节跳动云原生计算·2024-01-05 06:09

HBase 和 Hive 的差别是什么，各自适用在什么场景中？

一、区别：Hbase：Hadoopdatabase的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。

杰在天涯·2024-01-05 05:23

推荐频道

细细品味Hadoop

StreamPark + PiflowX 打造新一代大数据计算处理平台

新一代大数据管家 DataSophon 1.2 重磅发版

2.HDFS 架构

1.大数据概述

Hadoop面试题与python基础

【无标题】

LeetCode-105. 从前序与中序遍历序列构造二叉树

大数据 HDFS-存储的王者

什么是架构设计？

大数据 MapReduce是什么？

HDFS&Yarn HA架构设计

看书让我愉悦

武当山之行，跟风走。

MR实战：词频统计

Pentaho Kettle 6.1连接CDH5.4.0集群

伤心桥下春波绿，曾是惊鸿暗影来

企业级大数据安全架构（二）安全方案

企业级大数据安全架构（一）平台安全隐患

知道真相的“我”眼泪掉下来

大数据StarRocks(四) ：常用命令

《PySpark大数据分析实战》-24.数据可视化图表介绍

大数据开发个人简历范本（2024最新版-附模板）

Spark调优解析-spark数据倾斜优化2（七）

【Hadoop基础】hadoop fs 命令

修修改hdfs上的文件所属用户、所属组等读写执行控制权限

Spark内核解析-数据存储5（六）

Spark内核解析-节点启动4（六）

1.2.2.3Reduce-Task（源码解读）

【大数据】Spark学习笔记

Hadoop(04) HDFS编程实践操作

Hadoop集群环境下HDFS实践编程过滤出所有后缀名不为“.abc”的文件时运行报错：Path is not a file: /user/hadoop/input

HBase伪分布式配置下，报错：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing的解决方案

配置Hadoop集群后启动Hadoop时出错：Master: ssh: connect to host master port 22: No route to host

真·保姆级——在VMware的Ubuntukylin上进行Hadoop单机/伪分布式安装时安装VMware Tools后虚拟机与物理机之间无法传输文件和复制粘贴的问题（附Ubuntu更改默认登录用户）

安装HBase后查看HBase版本时报错（错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty）的解决方案

Hadoop集群环境下HDFS实践编程过滤出所有后缀名不为“.abc”的文件时运行报错：java.net.ConnectException: 拒绝连接；

90-5-20.用十年学会爱

Hadoop入门学习笔记——八、数据分析综合案例

Hadoop的启动停止命令详解

大数据高级开发工程师——Hadoop学习笔记（4）

大数据学习方向

大数据开发学习资料汇总

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述

Hadoop大数据生态系统及常用组件简介

【大数据（一）】hadoop2.4.1集群搭建(重点)

java与大数据：Hadoop与MapReduce

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建

【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式

字节跳动 Spark 支持万卡模型推理实践

HBase 和 Hive 的差别是什么，各自适用在什么场景中？