hadoop；hdfs 第15页

spark shuffle

这个就是spark和hadoop的主要区别，基于内存进行运算。

流砂月歌·2024-01-29 01:13

Spark工作原理

standalone集群，集群中有6个节点左边是Spark的客户端节点，这个节点主要负责向Spark集群提交任务，假设在这里我们向Spark集群提交了一个任务那这个Spark任务肯定会有一个数据源，数据源在这我们使用HDFS

小崔的技术博客·2024-01-28 23:12

Spark运行原理

无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。

hellozhxy·2024-01-28 23:41

HDFS_DELEGATION_TOKEN 还原及解决方案

HDFS_DELEGATION_TOKEN这个BUG在很多文章中都出现着，讲了很多原理，但是只给出了官方引用地扯，完全没有给出如何解决，我们线上的业务就有着这样的问题，7天一到马上出现这问题了，官方明明说这个

kikiki4·2024-01-28 23:18

数仓治理-小文件治理

小文件治理本文中将介绍Hive中小文件治理的方法和技巧，希望对大家有所帮助https://mp.weixin.qq.com/s/HDxAGhGIPvXF38wPiXZ7xg[离线计算-Spark|Hive]HDFS

爱吃辣条byte·2024-01-28 23:40

2021-08-10 HDFS Web报错Couldn‘t preview the file.

在查看文件内容时，在红框位置出现报错“Couldn’tpreviewthefile”解决方法第一步：修改hdfs-site.xml，添加配置信息dfs.webhdfs.enabledtrue第二步：配置浏览器所在系统的

学习是一种信仰_zdy·2024-01-28 21:28

HDFS文件系统的根目录和用户主目录分别是什么？根据这四个截图，你能得出什么结论？

问君何能尔？心远地自偏·2024-01-28 21:57

Name node is in safe mode

相信hadoop用户经常为安全模式头痛，但是又是难以避免的。安全模式开启通常是由于hdfs文件系统数据完整性缺失造成。所以核心就是想办法让hdfs文件系统数据变得完整，相对没有损坏。

大数据东哥(Aidon)·2024-01-28 21:27

记一次HDFS Web报错Couldn‘t preview the file. NetworkError: Failed to execute ‘send‘ on ‘XMLHttpRequest‘

tpreviewthefile.NetworkError:Failedtoexecute‘send’on‘XMLHttpRequest’:Failedtoload‘http://slave1:9864/webhdfs

一花一世界~·2024-01-28 21:55

Java技术栈 —— Hadoop入门（二）

Java技术栈——Hadoop入门（二）一、用MapReduce对统计单词个数1.1项目流程1.2可能遇到的问题1.3代码勘误1.4总结一、用MapReduce对统计单词个数1.1项目流程(1)上传jar

键盘国治理专家·2024-01-28 21:51

flink架构

它集成了使用所有常见的群集资源管理器，例如HadoopYARN和Kubernetes，但也可以设置为作为独立集群，甚至作为库。

m0_66520412·2024-01-28 20:29

数据湖技术之发展现状篇

风筝Lee·2024-01-28 18:56

4.Doris数据导入导出

导入Doris支持多种数据源导入如S3HDFSKafka本地文件Binlog等官方文档导入的原子性保证Doris的每一个导入作业，不论是使用BrokerLoad进行批量导入，还是使用INSERT语句进行单条导入

夹毛局的程序员·2024-01-28 16:27

Doris系列12-数据导入之Broker Load

适用场景:源数据在Broker可以访问的存储系统中，如HDFS。数据量在几十到百GB级别。名词解释：Frontend（FE）：Doris系统的元数据和调度节点。在导入流程中主要负责导入plan生

只是甲·2024-01-28 15:29

大数据处理系统的架构

Lambda架构的主要组成部分包括：批处理层（BatchLayer）：存储：使用分布式存储系统（如ApacheHadoopHDFS）

demo123567·2024-01-28 14:58

[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema

1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema

林沐之森·2024-01-28 13:51

mysql 同步工具开源_开源数据同步工具——datax

开源数据同步工具——dataxDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、

weixin_39942572·2024-01-28 12:08

Presto源码阅读——如何获取Hive中的Metadata(HMS+HDFS)

Presto源码阅读——如何获取Hive中的Metadata(HMS+HDFS)本文的Metadata定义SQLonHadoop系统在执行一个query时所需要的Metadata主要有两部分Hive中的

stiga-huang·2024-01-28 12:38

Impala元数据简介

Impala元数据简介背景Impala是一个高性能的OLAP查询引擎，与其它SQL-on-Hadoop的ROLAP解决方案如Presto、SparkSQL等不同的是，Impala对元数据（Metadata

stiga-huang·2024-01-28 12:05

开源数据同步工具DataX

DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS

快乐江小鱼·2024-01-28 12:34

Hadoop的基础操作

Hadoop的基础操作HDFS是Hadoop的分布式文件框架，它的实际目标是能够在普通的硬件上运行，并且能够处理大量的数据。

陆卿之·2024-01-28 12:27

66.管理Hive外部表——Sentry

66.1演示环境介绍操作系统：CentOS6.5CM和CDH版本：5.12.1采用root用户操作集群运行正常，Kerberos/HDFS/Hive/Impala/Hue服务已与Sentry集成，Hive

大勇任卷舒·2024-01-28 11:57

浅谈Hive和HBase有哪些区别与联系及适用场景

Hive是运行在Hadoop上的一个工具，准确地讲是一个搜索工具。当对海量数据进行搜索时，Hadoop的计算引擎是MapReduce。但是对Map

尚学先生·2024-01-28 11:19

HBase入门、基础原理介绍

1.2HBase架构二、HBase的读写删流程2.1HBase的写入流程2.2HBase的读流程2.3HBase的数据删除一、HBase介绍HBase是一个面向列式存储的分布式数据库，HBase底层存储基于HDFS

幸福右手牵·2024-01-28 09:07

HBase入门：运行机制

服务器工作原理用户读写数据的过程缓存的刷新StoreFile合并Store的工作原理HLog的工作原理HBase系统架构HBase的系统架构包括客户端、ZooKeeper服务器、Master主服务器、Region服务器HBase一般采用HDFS

缘友一世·2024-01-28 09:07

Hive常见问题汇总

Hive和Hadoop的关系Hive构建在Hadoop之上，HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的所有的数据都是存储在Hadoop中查询计划被转化为MapReduce任务，在Hadoop

不加班程序员·2024-01-28 09:37

mac上搭建hbase伪集群

https://blog.csdn.net/a15835774652/article/details/135569456)但是为了模拟一把集群环境我们还是尝试搭建一个伪集群版2.环境准备jdk环境1.8+hdfs

寂夜了无痕·2024-01-28 08:15

Hive面试题精选！附答案！！！

HIVE面试一、Hive的基本概念1.什么是hiveHive是一款开源的基于hadoop的用于统计海量结构化数据的一个数据仓库，它定义了简单的类似SQL的查询语言，称为HQL，允许熟悉SQL的用户查询数据

yhy_only·2024-01-28 07:36

Hive面试题

1）数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2）数据更新Hive中不建议对数据的改写。

肿么肥四啊哈·2024-01-28 07:34

hive面试题总结（大数据面试）

Hive概述Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。

404个问号·2024-01-28 07:02

hive面试题

本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。补充1：你可以说一下HQL转换为MR的任务流程吗？

韩顺平的小迷弟·2024-01-28 07:29

【HDFS】一天一个RPC系列--updateBlockForPipeline

本文目标是：弄清updateBlockForPipeline这个RPC的作用。弄清updateBlockForPipelineRPC的使用场景，代码里的调用点。一、updateBlockForPipeline的作用其定义在ClientProtocol接口里，是Client与NameNode之间的接口。看其代码注释描述：为一个underconstruction状态下的block获取一个新的GS与ac

叹了口丶气·2024-01-28 06:03

【BugFix】java.lang.NoSuchMethodError: java.nio.ByteBuffer.position(I)Ljava/nio/ByteBuffer；

2022-10-2010:43:59,633ERRORorg.apache.hadoop.hdfs.server.namenode.FSEditLog:Error:startinglogsegment946759failedfor

叹了口丶气·2024-01-28 06:02

【HDFS】EC写数据时checkStreamerFailures逻辑

本文试图弄清楚以下问题：checkStreamerFailures方法主要目的是做什么的？checkStreamerFailures方法的调用点（调用时机、条件）？checkStreamerFailures及其周边函数的逻辑。RQ1：checkStreamerFailures方法主要目的是做什么的？此方法的目的是在close流或者每次写完一整个stripe时，对streamer做健康判断。因为ce

叹了口丶气·2024-01-28 06:02

【HDFS】一天一个RPC系列--updatePipeline

建议先阅读【HDFS】一天一个RPC系列–updateBlockForPipeline本文目标是弄清楚以下问题：弄清updatePipeline这个RPC的作用。

叹了口丶气·2024-01-28 06:27

Ubuntu22.04三台虚拟机Hadoop集群安装和搭建（全面详细的过程）

虚拟机Ubuntu22.04Hadoop集群安装和搭建（全面详细的过程）环境配置安装安装JDK安装Hadoop三台虚拟机设置克隆三台虚拟机设置静态IP修改虚拟机hostssh免密登录关闭防火墙Hadoop

WuRobb·2024-01-28 06:41

面试整理

数据分析/hadoop/机器学习面试题集锦，可能是最全的了…发表于：2017-09-2115:17阅读：178评论：0无论你是想从事大数据相关职位的职场小白，还是准备往高处走的牛牛。

qq_20962187·2024-01-28 06:09

Hadoop集群部署流程

前置要求需要3台虚拟机，系统为Centos7，分别host命名为node1，node2，node3，密码均为root请确保这三台虚拟机已经完成了JDK、SSH免密、关闭防火墙、配置主机名映射等前置操作在3台虚拟机的/etc/hosts文件中，填入如下内容：（同时这也是三台虚拟机的ip地址）192.168.88.131node1192.168.88.132node2192.168.88.133nod

正在绘制中·2024-01-28 02:09

20190824 课堂笔记

20190824课堂笔记设置快捷键设置编译创建项目选择quickstartGAV设置项目设置修改添加hadoop-version,repositoryUTF-81.81.82.6.4clouderahttps

赛尔木·2024-01-27 23:37

Hadoop-分布式

分布式分步+并行处理+汇总结果Hadoop分布式一台计算机存储不了了，也计算不了了Hadoop把多台计算机资源（存储资源：硬盘；计算资源：CPU，内存）连接在一起，形成集群输入文件，拆分成块，多个节点存储计算任务

日月交辉·2024-01-27 23:48

用户行为数据采集

Flume——Hadoop——VMVM环境准备安装JDK安装HadoopHadoop运行模式本地模式伪分布式完全分布式集群启动组件逐一启动。模块启动

日月交辉·2024-01-27 23:18

ClickHouse(22)ClickHouse集成HDFS表引擎详细解析

文章目录HDFS用法实施细节配置可选配置选项及其默认值的列表libhdfs3支持的ClickHouse额外的配置限制Kerberos支持虚拟列资料分享系列文章clickhouse系列文章知乎系列文章HDFS

张飞的猪大数据·2024-01-27 17:35

apache 前30个开源项目

个具有代表性的项目序号项目名称功能描述业务范围活跃度（参考性描述）1ApacheHTTPServer高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop

临水逸·2024-01-27 17:35

HBase基础知识与架构概述

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable论文设计，并作为Hadoop生态系统的一部分。

OpenChat·2024-01-27 17:31

【云原生进阶之PaaS中间件】第三章Kafka-2-安装部署

1安装部署1.1kafka的分布式kafka是依靠zookeeper来实现分布式的，所以再启动前需要先启动zookeeper，如下图1.2集群部署官方下载地址：ApacheKafka（1）安装和Hadoop

江中散人·2024-01-27 16:16

【云原生进阶之PaaS中间件】第三章Kafka-3-命令操作

1命令操作1.1主题命令操作查看操作主题命令参数：[atguigu@hadoop102kafka]$bin/kafka-topics.sh参数描述--bootstrap-server，连接的KafkaBroker