大数据入门-hadoop 第33页

Hadoop之Yarn

Yarn是Hadoop2.0引入的集群资源管理系统。用户可以将各种服务框架部署在Yarn上，由Yarn进行统一地管理和资源分配。

TZX_0710·2023-12-23 12:27

【数仓_01】用户行为采集平台

具体版本1.6集群规模2、用户行为数据生成2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块4.1数据通道4.2环境准备4.2.1集群所有进程查看脚本4.3Hadoop

温欣2030·2023-12-23 10:43

hadoop(十二)——自定义分区Partitioner

我们学习Partitioner不用举那么复杂的例子，就举一个简单的例子就好了，在第十二节课学习了一个DataCount的小例子，地址：http://blog.csdn.net/u012453843/article/details/52600313我们就在这个程序的基础上加上我们自定义的分区功能。我们先来看看DataCount这个程序最终的执行结果是什么样子的，在查看之前我们需要先启动hdfs和ya

文子轩·2023-12-23 08:05

1.7 LUCENE

总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop-子目录：https://www.jianshu.com/p/9428e443b7fdLUCENE搜索技术理论基础全文搜索在最开始

寒暄_HX·2023-12-23 08:32

【Hive】在博客系统中如何应用 Hive 进行离线数据管理

Hive是一个构建在Hadoop之上的数据仓库基础设施，它提供了类似SQL的查询语言HiveQL，使用户能够

小吴同学GOGOGO·2023-12-23 06:54

【hadoop|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...

报错内容：报错分析：hdp3.0.0的hive为3.0.0以上，运行引擎为tez，需要添加参数，让tez前缀的配置生效hive.security.authorization.sqlstd.confwhitelistmapred.*|hive.*|mapreduce.*|spark.*|tez*hive.security.authorization.sqlstd.confwhitelist.appe

维运·2023-12-23 06:10

apache hadoop 单机伪分布式安装说明

u013248911/article/details/826225382、运行sbin/start-all.sh前检查tmp文件路径是否存在，是否有权限访问3、运行sbin/start-all.sh前先格式化话hadoopnamenod

行动家嘘嘘·2023-12-23 05:56

在自己电脑配置cdh 版 hadoop 提交mr job客户端

image.png1.首先下载与我们cdhhadoop集群对应的hadoop安装文件hadoop-2.6.0-cdh5.14.2.tar.gz链接:https://pan.baidu.com/s/1iHm5M-gGZRWLKbzVjbYJmA

Helen_Cat·2023-12-23 04:51

数据中心建设之——理解基于 Hadoop 生态的大数据技术架构

基于Hadoop生态的大数据技术架构：1.从应用层面看，除了应用在互联网行业以外（马*说，未来没有一个行业叫互联网行业，所有的传统行业都将是互联网技术的使用行业），一般在零售行业使用居多，也要看企业的营收和人效

Terry谈企业数字化·2023-12-23 00:00

Hbase2.1 集群搭建

>Hbase在大数据的体系中扮演着DB角色，不得不说是重要的一员，在上一篇，大猪已经给大家演示了[Hadoop3.2集群搭建](https://www.jianshu.com/p/3182aaff918d

kikiki4·2023-12-22 22:56

华纳云：怎么通过Apache Hudi和Alluxio建设高性能数据湖

ApacheHudi(HadoopUpsertsDeletesandIncrementals)和Alluxio都是用于构建高性能数据湖的强大工具，它们可以在存储和处理大规模数据时提供更好的性能和灵活性。

华纳云IDC服务商·2023-12-22 19:53

Hadoop 之 MapReduce

1MapReduce概述MapReduce是一个分布式运算程序的编程框架，是用户开发基于Hadoop的数据分析应用的核心框架。

djm猿·2023-12-22 18:17

Partitioner与自定义Partitioner

在一些集群应用中，例如分布式缓存集群中，缓存的数据大多都是靠哈希函数来进行数据的均匀分布的，在Hadoop中也不例外。image.pngHadoop内置Parti

piziyang12138·2023-12-22 15:09

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！前言【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！

博客小梦·2023-12-22 15:09

hadoop集群的开启与关闭

背景很久没完hadoopl,连怎么开启关闭都不会了qwq1.进入安装hadoop的目录我这里是已经进入了2.开启集群sbin/start-dfs.sh3.关闭集群sbin/stop-dfs.sh

JSU_曾是此间年少·2023-12-22 13:41

【架构】kylin 的工作原理及使用方法

ApacheKylin是一个开源的SQL查询引擎，它允许在Hadoop生态系统内执行SQL查询语句。它主要用于大数据分析，能够实现对大数据集的快速查询。

奔向理想的星辰大海·2023-12-22 13:03

Hadoop伪分布式部署

准备工具：CentOS-6.4-x86_64-bin-DVD1.iso；hadoop-2.7.3-src.tar.gz;jdk-8u151-linux-x64.tar.gz;apache-maven-3.0.5

码戈·2023-12-22 11:37

Oracle数据库概述、SQL plus的使用、SQL分类

如redis、hadoop(hbase)等2.Oracle数据库概述O

特亿安·2023-12-22 11:20

二，Hive运行机制与使用

hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

__元昊__·2023-12-22 11:30

大数据指标中台构建核心技术解析

自2009年开始基于Hadoop构建数据分析及运维相关工作。在2

王知无(import_bigdata)·2023-12-22 11:56

Kafka核心逻辑介绍 | 京东云技术团队

分布式消息系统（kafka2.8.0版本之后接触了对zk的依赖，使用自己的kRaft做集群管理，新增内部主体@metadata存储元数据信息），它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop

京东云开发者·2023-12-22 09:33

Zookeeper3.8.0集群部署

部署Zookeeper2.1、修改配置2.2、配置环境变量2.3、启动1、环境准备集群部署zookeeper的节点数只能是奇数，在此部署3节点zookeeper集群，节点环境如下：主机名IP架构操作系统hadoop01192.168.194.133x86

架构与我·2023-12-22 09:21

数据库课程总结--人大-中国mooc

LeeMin_Z·2023-12-22 09:30

hadoop使用openJ9报错：unable to find LoginModule class: com.ibm.security.auth.module.LinuxLoginModule解决

为了节约内存，使用IBMJ9JDK跑Hadoop2.10.2，出现以下错误org.apache.hadoop.security.KerberosAuthException:failuretologin:

applebomb·2023-12-22 09:56

【湖仓一体尝试】MYSQL和HIVE数据联合查询

先来个完工环境照：mysql+hadoop+hive+flink+iceberg+trino得益于IBMOPENJ9的优化，完全启动后的内存占用：1）执行联合查询后的2）其中trino由于必须使用ORACLE

applebomb·2023-12-22 08:24

01-黑马程序员大数据开发

一.Hadoop概述1.什么是大数据狭义上：对海量数据进行处理的软件技术体系广义上：数字化、信息化时代的基础支撑，以数据为生活赋2.大数据的核心工作：存储：妥善保存海量待处理数据；ApacheKUDU

S1406793·2023-12-22 08:06

centos spark单机版伪分布式模式

1.2Spark部署依赖SparkStandalone的运行依赖于JDK、Scala，本来是不依赖于Hadoop的，但Spark自带的许多演示程序都依赖于HadoopHDFS，因此我们也部署了伪分布式的

数据萌新·2023-12-22 07:17

Hbase的安装配置

注：本文默认已经完成hadoop的下载以及环境配置1.上传zookeeper和hbase压缩包到指令路径并且解压(理论上讲，hbase其实内置了zookeeper，我们也可以不另外下载，另外下载的目的在于减少组件间依赖性

printcsr·2023-12-22 07:15

hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误

今天跑一条统计的SQL出现Causedby:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeErrorwhileprocessingrow

weixin_42412645·2023-12-22 07:45

远程连接：hive 报错：Permission denied: user=anonymous, access=EXECUTE

远程连接hiveError:Failedtoopennewsession:java.lang.RuntimeException:java.lang.RuntimeException:org.apache.hadoop.security.AccessControlException

serendipityLee·2023-12-22 07:45

hive 插入数据报错 org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.thrift.transport.TTransport

问题描述执行语句createtabletest(idint);然后向新创建的表中插入数据insertintotestvalues(1);控制台报错org.apache.hadoop.hive.ql.metadata.HiveException

云端筑梦 .·2023-12-22 07:13

org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session

问题描述Logginginitializedusingconfigurationinjar:file:/opt/module/hive/lib/hive-common-3.1.2.jar!/hive-log4j2.propertiesAsync:trueHiveSessionID=0c953008-3c72-4e36-bcaf-47e92a5b9759FAILED:SemanticExceptio

qq_41504585·2023-12-22 07:13

HDFS NFS Gateway(环境配置，超级详细！！)

HDFSNFSGateway简介:HDFSNFSGateway是HadoopDistributedFileSystem（HDFS）中的一个组件，它允许客户端通过NFS（NetworkFileSystem

syst1m'·2023-12-22 07:41

解决：hive用hiveserver2连接jdbc出现问题 Error: Could not open client transport with JDBC Uri:jdbc:hive2://

解决：hive用hiveserver2连接jdbc出现问题Error:CouldnotopenclienttransportwithJDBCUri:jdbc:hive2://hadoop1:10000在用

Andy86666·2023-12-22 07:35

hbase用shell命令新建表报错ERROR: KeeperErrorCode = NoNode for /hbase/master

再看一下HMaster,如果仍和下图一样没有，就基本找到问题了本人问题原因：hbase-site.xml的配置中，例如：hbase.rootdirhdfs://localhost:9000/HBase然而在hadoop

什么都不太会的研究生·2023-12-22 07:32

Ambari-Hadoop集群、Elasticsearch集群及nginx安装

环境初始化hostnamevi/etc/hosts打通yumntplimit参数初始化防火墙jdkmysql-connectormysqlambariHDP安装ELK环境nodeeses-headkibanalogstashfilebeatnginx写在前面的话，安装这些东西的话，最好用脚本，不容易出错，下面写的是手动部署的过程环境初始化一定要先挂载好磁盘hostnamehostnamevi/et

客尘烦恼·2023-12-22 06:05

hive 用户自定义函数udf，udaf，udtf

udf：一对一的关系udtf：一对多的关系udaf：多对一的关系使用Java实现步骤自定义编写UDF函数注意：1.需要继承org.apache.hadoop.hive.ql.exec.UDF2.需要实现

Logan_addoil·2023-12-22 05:47

SSH免密码登录设置

在Hadoop等应用，通常要设置SSH免密码登录来管理集群。这里记录一下Linux配置免密码登录设置。

norvid·2023-12-22 05:06

Hbase--面试题整理-01

01-Hbase的特点以下五点需要准确说出的，如果可以还可以将一下Hbase的写入比读取快的原因(1)Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储，zookeeper进行管理

李小李的路·2023-12-22 03:51

Impala 基于hive的交互式实时分析工具(二) 概念及原理介绍

impala和hive的区别概括：hive是【基于hadoop】的适合【离线批处理复杂sql分析的数仓工具】，impala是【基于hive】的适合【实时交互简单sql的数仓工具】执行计划1.hive：hive

章云邰·2023-12-22 01:34

Linux安装Hadoop软件

书到用时方恨少1.首先在/home/下创建一个文件夹叫hadoopimage.png2.进入到hadoop文件夹下，下载hadoop包image.png3.解压刚刚下载的hadoop文件包image.png4

olaH·2023-12-22 00:35

大数据处理与分析

掌握分布式并行编程框架MapReduce掌握基于内存的分布式计算框架Spark理解MapReduce的工作流程、Spark运行原理熟悉机器学习概念一.MapReduceHadoopMapReduce是一个软件框架

僖僖cc·2023-12-21 22:34

大数据处理与分析-Spark

导论(基于Hadoop的MapReduce的优缺点）MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce是一种用于处理大规模数据集的编程模型和计算框架

僖僖cc·2023-12-21 22:03

SSH无密登陆配置

基本语法：ssh域名/IP地址示例：（1）从hadoop100服务器上远程连接hadoop101服务器[hadoop@hadoop100~]$sshhadoop101如果出现如下内容Areyousureyouwanttocontinueconnecting

程序员储物箱·2023-12-21 21:26

Linux环境安装Hadoop

（1）下载Hadoop安装包并上传下载Hadoop安装包到本地，并导入到Linux服务器的/opt/software路径下（2）解压安装包解压安装文件并放到/opt/module下面[root@hadoop100

程序员储物箱·2023-12-21 21:55

VMware克隆虚拟机

要求：利用模板虚拟机hadoop100，克隆出hadoop101虚拟机。

程序员储物箱·2023-12-21 21:22

HBase基础知识（二）：HBase集群部署、HBaseShell操作

/bin/bashcase$1in"start"){foriinhadoop100hadoop101hadoop102doecho----------zookeeper$i启动------------ssh

依晴无旧·2023-12-21 21:48

大数据----33.hbase中的shell文件操作

一、数据库操作1、进入hbase客户端、帮助命令[root@hadoop06hbase]#bin/hbaseshell[root@hadoop06hb

学无止境的大象·2023-12-21 19:10

大数据----31.hbase安装启动

三台机器都执行：zkServer.shstartHadoop正常部署Hadoop集群的正常部署并启动。

学无止境的大象·2023-12-21 19:40

推荐频道

大数据入门-hadoop