Hadoop学习篇第35页

【基础知识】大数据组件YARN简述

YARN是Hadoop系统的核心组件，主要功能包括负责在Hadoop集群中的资源管理，负责对作业进行调度运行以及监控。

偏振万花筒·2023-12-23 22:28

Hive文件存储与压缩

压缩和存储1、Hadoop压缩配置1)MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否GzipgzipDEFAULT.gz否bzip2bzip2bzip2

新鲜氧气·2023-12-23 22:24

浅谈Hadoop容错机制

简单介绍一下Hadoop中数据存储的可靠性和完整性，其中包括HDFS的容错机制、NameNode(元数据结点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与DataNode之间的心跳检测机制

小小少年Boy·2023-12-23 15:19

Docker 学习笔记

开发–运维问题，环境配置是十分麻烦，每一个机器都要部署环境（Redis，Es，Hadoop）费时费力发布一个项目（jar+（RedisMysqljdkes））项目能不能都带上环境安装打包之前在服务器配置一个应用的环境

IT小学僧·2023-12-23 14:19

MINIO在java中的使用

对象存储可以充当主存储层，以处理Spark、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为HadoopHDFS的替代品--------引自官网的话。

IT小学僧·2023-12-23 14:48

通过HDFS API进行HDFS操作

HDFSJavaAPI位于org.apache.hadoop.fs包中，这些API能够支持的操作包括打开文件、读写文件、删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem。

CDHong.it·2023-12-23 14:30

Hadoop _HDFS_API 创建文件夹

创建文件夹在文件夹里输入代码，创建文件夹客户端代码常用套路1、获取一个客户端对象2、执行相关的操作指令3、关闭资源代码如下：packagecom.atguigu.hdfs;importorg.apache.hadoop.conf.Configuration

笨鸟先-森·2023-12-23 14:29

Hadoop之HDFS的API操作

1、环境准备1.1、下载window版本的hadoop-3.1.01.2、配置HADOOP_HOME环境变量1.2、配置Path环境变量2、代码演示2.1、创建maven项目，导入pom坐标org.apache.hadoophadoop-client3.1.3junitjunit4.12org.slf4jslf4j-log4j121.7.302.2

后端技术那点事·2023-12-23 14:28

Hadoop学习之HDFS（HDFS客户端及API操作）心得

HDFS客户端及API操作：一、准备条件：1.配置环境变量HADOOP_HOME(路径要求非中文)2.验证环境变量，双击winutils.exe（报错可能是缺少微软运行库MSVCR120.dll）3.在

顺其自然的济帅哈·2023-12-23 14:58

大数据—Hadoop（四）_ HDFS_03、客户端API

文章目录1、客户端环境准备1.1idea1.2window依赖2、HDFS的API案例实操2.1HDFS文件上传（测试参数优先级）2.1.1客户端代码常用套路2.1.2普通版2.1.3优化后2.1.4上传文件，修改@Test2.1.5补充：API参数优先级(由低到高)2.1.5.1hdfs-default.xml（最低）2.1.5.2hdfs-site.xml2.1.5.3代码中的配置（最高）2.

大数据之负·2023-12-23 14:58

Hadoop中HDFS的API操作、客户端环境准备、配置HADOOP_HOME环境变量

文章目录7.HDFS的API操作7.1客户端环境准备7.1.1下载下面的Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\）7.1.2配置HADOOP_HOME环境变量7.1.3

Redamancy_06·2023-12-23 14:27

hadoop02_HDFS的API操作

HDFS的API操作1HDFS核心类简介Configuration类：处理HDFS配置的核心类。FileSystem类：处理HDFS文件相关操作的核心类,包括对文件夹或文件的创建，删除，查看状态，复制，从本地挪动到HDFS文件系统中等。Path类：处理HDFS文件路径。IOUtils类：处理HDFS文件读写的工具类。2HDFS文件处理类FileSystem的核心方法介绍：1.FileSystemg

程序喵猴·2023-12-23 14:57

Koordinator 支持 K8s 与 YARN 混部，小红书在离线混部实践分享

背景介绍Koordinator是一个开源项目，基于阿里巴巴在容器调度领域多年累积的经验孵化诞生，目前已经支持了K8s生态内的在离线混部，然而在K8s生态外，仍有相当数量的用户会将大数据任务运行在ApacheHadoopYARN

阿里云云原生·2023-12-23 13:28

DBeaver连接hive

1.新建hive连接其中主机填写hive所在节点地址，端口10000为默认，数据库名不填则是默认default数据库，用户名密码填写hadoop集群中能操作hdfs的用户和密码。

sunweiking·2023-12-23 12:38

Hadoop之Yarn

Yarn是Hadoop2.0引入的集群资源管理系统。用户可以将各种服务框架部署在Yarn上，由Yarn进行统一地管理和资源分配。

TZX_0710·2023-12-23 12:27

【数仓_01】用户行为采集平台

具体版本1.6集群规模2、用户行为数据生成2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块4.1数据通道4.2环境准备4.2.1集群所有进程查看脚本4.3Hadoop

温欣2030·2023-12-23 10:43

C语言/C++编程学习篇，干货知识分享，运算符和表达式

C语言是面向过程的，而C＋＋是面向对象的C和C++的区别：C是一个结构化语言，它的重点在于算法和数据结构。C程序的设计首要考虑的是如何通过一个过程，对输入（或环境条件）进行运算处理得到输出（或实现过程（事务）控制）。C++，首要考虑的是如何构造一个对象模型，让这个模型能够契合与之对应的问题域，这样就可以通过获取对象的状态信息得到输出或实现过程（事务）控制。所以C与C++的最大区别在于它们的用于解决

小辰带你看世界·2023-12-23 09:46

ElasticSearch学习篇9_文本相似度计算方法现状以及基于改进的 Jaccard 算法代码实现

背景XOP亿级别题库的试题召回以及搜题的举一反三业务场景都涉及使用文本相似搜索技术，学习此方面技术以便更好的服务于业务场景。目前基于集合的Jaccard算法以及基于编辑距离的Levenshtein在计算文本相似度场景中有着各自的特点，为了优化具体的计算时间抖动超时问题，需要学习此方面知识，本文主要内容为文本相似度计算方法的现状、Jaccard、Levenshtein算法实现基本原理以及代码实现论文

scl、·2023-12-23 08:43

hadoop(十二)——自定义分区Partitioner

我们学习Partitioner不用举那么复杂的例子，就举一个简单的例子就好了，在第十二节课学习了一个DataCount的小例子，地址：http://blog.csdn.net/u012453843/article/details/52600313我们就在这个程序的基础上加上我们自定义的分区功能。我们先来看看DataCount这个程序最终的执行结果是什么样子的，在查看之前我们需要先启动hdfs和ya

文子轩·2023-12-23 08:05

1.7 LUCENE

总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop-子目录：https://www.jianshu.com/p/9428e443b7fdLUCENE搜索技术理论基础全文搜索在最开始

寒暄_HX·2023-12-23 08:32

【Hive】在博客系统中如何应用 Hive 进行离线数据管理

Hive是一个构建在Hadoop之上的数据仓库基础设施，它提供了类似SQL的查询语言HiveQL，使用户能够

小吴同学GOGOGO·2023-12-23 06:54

【hadoop|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...

报错内容：报错分析：hdp3.0.0的hive为3.0.0以上，运行引擎为tez，需要添加参数，让tez前缀的配置生效hive.security.authorization.sqlstd.confwhitelistmapred.*|hive.*|mapreduce.*|spark.*|tez*hive.security.authorization.sqlstd.confwhitelist.appe

维运·2023-12-23 06:10

apache hadoop 单机伪分布式安装说明

u013248911/article/details/826225382、运行sbin/start-all.sh前检查tmp文件路径是否存在，是否有权限访问3、运行sbin/start-all.sh前先格式化话hadoopnamenod

行动家嘘嘘·2023-12-23 05:56

在自己电脑配置cdh 版 hadoop 提交mr job客户端

image.png1.首先下载与我们cdhhadoop集群对应的hadoop安装文件hadoop-2.6.0-cdh5.14.2.tar.gz链接:https://pan.baidu.com/s/1iHm5M-gGZRWLKbzVjbYJmA

Helen_Cat·2023-12-23 04:51

数据中心建设之——理解基于 Hadoop 生态的大数据技术架构

基于Hadoop生态的大数据技术架构：1.从应用层面看，除了应用在互联网行业以外（马*说，未来没有一个行业叫互联网行业，所有的传统行业都将是互联网技术的使用行业），一般在零售行业使用居多，也要看企业的营收和人效

Terry谈企业数字化·2023-12-23 00:00

Hbase2.1 集群搭建

>Hbase在大数据的体系中扮演着DB角色，不得不说是重要的一员，在上一篇，大猪已经给大家演示了[Hadoop3.2集群搭建](https://www.jianshu.com/p/3182aaff918d

kikiki4·2023-12-22 22:56

华纳云：怎么通过Apache Hudi和Alluxio建设高性能数据湖

ApacheHudi(HadoopUpsertsDeletesandIncrementals)和Alluxio都是用于构建高性能数据湖的强大工具，它们可以在存储和处理大规模数据时提供更好的性能和灵活性。

华纳云IDC服务商·2023-12-22 19:53

Hadoop 之 MapReduce

1MapReduce概述MapReduce是一个分布式运算程序的编程框架，是用户开发基于Hadoop的数据分析应用的核心框架。

djm猿·2023-12-22 18:17

Partitioner与自定义Partitioner

在一些集群应用中，例如分布式缓存集群中，缓存的数据大多都是靠哈希函数来进行数据的均匀分布的，在Hadoop中也不例外。image.pngHadoop内置Parti

piziyang12138·2023-12-22 15:09

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！前言【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！

博客小梦·2023-12-22 15:09

hadoop集群的开启与关闭

背景很久没完hadoopl,连怎么开启关闭都不会了qwq1.进入安装hadoop的目录我这里是已经进入了2.开启集群sbin/start-dfs.sh3.关闭集群sbin/stop-dfs.sh

JSU_曾是此间年少·2023-12-22 13:41

【架构】kylin 的工作原理及使用方法

ApacheKylin是一个开源的SQL查询引擎，它允许在Hadoop生态系统内执行SQL查询语句。它主要用于大数据分析，能够实现对大数据集的快速查询。

奔向理想的星辰大海·2023-12-22 13:03

Hadoop伪分布式部署

准备工具：CentOS-6.4-x86_64-bin-DVD1.iso；hadoop-2.7.3-src.tar.gz;jdk-8u151-linux-x64.tar.gz;apache-maven-3.0.5

码戈·2023-12-22 11:37

Oracle数据库概述、SQL plus的使用、SQL分类

如redis、hadoop(hbase)等2.Oracle数据库概述O

特亿安·2023-12-22 11:20

提升学习能力

读书记录四1803011186～小Jane12.30-13.30书名:好好学习篇目:提升学习能力的三个底层方法001反思002以教为学01三人行必有我师。

肖肖小太阳·2023-12-22 11:16

二，Hive运行机制与使用

hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

__元昊__·2023-12-22 11:30

大数据指标中台构建核心技术解析

自2009年开始基于Hadoop构建数据分析及运维相关工作。在2

王知无(import_bigdata)·2023-12-22 11:56

Kafka核心逻辑介绍 | 京东云技术团队

分布式消息系统（kafka2.8.0版本之后接触了对zk的依赖，使用自己的kRaft做集群管理，新增内部主体@metadata存储元数据信息），它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop

京东云开发者·2023-12-22 09:33

Zookeeper3.8.0集群部署

部署Zookeeper2.1、修改配置2.2、配置环境变量2.3、启动1、环境准备集群部署zookeeper的节点数只能是奇数，在此部署3节点zookeeper集群，节点环境如下：主机名IP架构操作系统hadoop01192.168.194.133x86

架构与我·2023-12-22 09:21

数据库课程总结--人大-中国mooc

LeeMin_Z·2023-12-22 09:30

hadoop使用openJ9报错：unable to find LoginModule class: com.ibm.security.auth.module.LinuxLoginModule解决

为了节约内存，使用IBMJ9JDK跑Hadoop2.10.2，出现以下错误org.apache.hadoop.security.KerberosAuthException:failuretologin:

applebomb·2023-12-22 09:56

【湖仓一体尝试】MYSQL和HIVE数据联合查询

先来个完工环境照：mysql+hadoop+hive+flink+iceberg+trino得益于IBMOPENJ9的优化，完全启动后的内存占用：1）执行联合查询后的2）其中trino由于必须使用ORACLE

applebomb·2023-12-22 08:24

01-黑马程序员大数据开发

一.Hadoop概述1.什么是大数据狭义上：对海量数据进行处理的软件技术体系广义上：数字化、信息化时代的基础支撑，以数据为生活赋2.大数据的核心工作：存储：妥善保存海量待处理数据；ApacheKUDU

S1406793·2023-12-22 08:06

centos spark单机版伪分布式模式

1.2Spark部署依赖SparkStandalone的运行依赖于JDK、Scala，本来是不依赖于Hadoop的，但Spark自带的许多演示程序都依赖于HadoopHDFS，因此我们也部署了伪分布式的

数据萌新·2023-12-22 07:17

Hbase的安装配置

注：本文默认已经完成hadoop的下载以及环境配置1.上传zookeeper和hbase压缩包到指令路径并且解压(理论上讲，hbase其实内置了zookeeper，我们也可以不另外下载，另外下载的目的在于减少组件间依赖性

printcsr·2023-12-22 07:15

hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误

今天跑一条统计的SQL出现Causedby:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeErrorwhileprocessingrow

weixin_42412645·2023-12-22 07:45

远程连接：hive 报错：Permission denied: user=anonymous, access=EXECUTE

远程连接hiveError:Failedtoopennewsession:java.lang.RuntimeException:java.lang.RuntimeException:org.apache.hadoop.security.AccessControlException

serendipityLee·2023-12-22 07:45

hive 插入数据报错 org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.thrift.transport.TTransport

问题描述执行语句createtabletest(idint);然后向新创建的表中插入数据insertintotestvalues(1);控制台报错org.apache.hadoop.hive.ql.metadata.HiveException

云端筑梦 .·2023-12-22 07:13

org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session

问题描述Logginginitializedusingconfigurationinjar:file:/opt/module/hive/lib/hive-common-3.1.2.jar!/hive-log4j2.propertiesAsync:trueHiveSessionID=0c953008-3c72-4e36-bcaf-47e92a5b9759FAILED:SemanticExceptio

qq_41504585·2023-12-22 07:13

推荐频道

Hadoop学习篇