集群搭建Hadoop 第28页

es 简单集群搭建，版本8.6.2

Node-1配置：#elasticsearch.ymlforNode-1cluster.name:my-test-clusternode.name:node-1path.data:/path/to/data/node-1path.logs:/path/to/logs/node-1network.host:127.0.0.1http.port:9200transport.port:9300disco

mmmmm12342·2024-01-06 23:30

Flink常见核心概念

分布式缓存有时一些数据是通用的,就需要进行共享,可以放在文件、缓存、db中,可以放在文件中,先缓存到hadoop集群中,然后使用cachepublicclassCacheStream{publicstaticvoidmain

一生逍遥一生·2024-01-06 21:56

Hive 源码解析一：Driver

这是hive的架构图从架构图来看，黄颜色属于Hive范畴，蓝颜色属于Hadoop范畴，其中MetaStore可以说是独立Hive核心

小王是个弟弟·2024-01-06 17:25

《Hive系列》Hive详细入门教程

目录1Hive基本概念1.1什么是HiveHive简介Hive：由FaceBook开源用于解决海量结构化日志的数据统计工具Hive：基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表

DATA数据猿·2024-01-06 17:55

Hive（一）概述

文件格式5.Hive压缩6.Hive配置7.关于小文件问题二.安装Hive三.Hive基本使用一.简介1.概述什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计工具Hive是基于Hadoop

Jumanji_·2024-01-06 17:54

YARN（一）-- 产生原因及概述

本文内容如下：介绍为什么会产生YARN（同时介绍原MapReduce框架的不足）YARN的基本原理首先说一下YARN是什么吧：ApacheHadoopYARN(YetAnotherResourceNegotiator

小北觅·2024-01-06 17:54

Flume基础知识（九）：Flume 企业开发案例之复制和多路复用

2）需求分析：3）实现步骤：（1）准备工作在/opt/module/flume/job目录下创建group1文件夹[root@hadoop102job]$cdgroup1

依晴无旧·2024-01-06 17:58

教你如何将本地虚拟机变成服务器，供其它电脑访问

在虚拟机上安装hadoop和hive，然后同学机子上安装kettle进行连接。最后发现是可以的。本文介绍如何将本地虚拟机变成服务器，供其它电脑访问。

吾浴西风·2024-01-06 16:01

高可用分布式部署Spark、完整详细部署教程

Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark

一座野山·2024-01-06 16:15

SuperMap分布式数据库实操

.配置开机自启动5.集群部署5.1主从复制集群5.2副本集集群安装部署配置开机自启动5.3分片集群二、DSF（HDFS）1.HDFS2.安装部署三、DSF(本地文件)四、HBASE1.数据模型2.安装Hadoop

会灭火的程序员·2024-01-06 15:42

《数据采集与预处理环境》实验环境安装

文章目录1.安装Python及第三方库2.jupyternotebook安装3.jdk安装4.MySQL安装1.在根目录下创建文件my.ini2.初始化3.安装服务4.启动服务5.登录6.配置环境变量5.hadoop

活下去.·2024-01-06 14:10

Apache Pulsar[4] 伪集群环境搭建

1准备工作操作系统：macOs运行环境：java82集群组成zk集群（3个节点）bk集群（3个节点）pulsar集群（3个节点）3搭建过程3.1zk集群搭建zk版本：3.4.121下载并解压zk2将解压好的

QuinnSun·2024-01-06 13:08

熟悉常用的Linux操作和Hadoop操作

1.安装虚拟机(1)VMwareworkstationpro安装包下载登录VMware官网：VMware中国-交付面向企业的数字化基础|CN，点击登录->云服务控制台，进入欢迎使用VMware页面，点击创建您的VMWARE账户，进入注册界面填写信息并注册。注册完成后，返回登录页面进行登录，进入VMwareworkstationpro下载地址（https://customerconnect.vmwa

cwn_·2024-01-06 11:47

HDFS的高可用性

Hadoop在2.x的版本引入了联邦HDFS（HDFSFederation），通过在集群中添加namenode实现。

zh_harry·2024-01-06 10:25

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:

FAILED:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

深度检测·2024-01-06 10:25

Spark集群搭建

Spark集群结构图名词解释Driver该进程调用Spark程序的main方法，并且启动SparkContextClusterManager该进程负责和外部集群工具打交道，申请或释放集群资源Worker该进程是一个守护进程，负责启动和管理ExecutorExecutor该进程是一个JVM虚拟机，负责运行SparkTask运行一个Spark程序大致经历如下几个步骤启动Driver,创建SparkCo

我像影子一样·2024-01-06 09:43

Spark概述

Spark概述Spark是什么ApacheSpark是一个快速的，多用途的集群计算系统，相对于HadoopMapReduce将中间结果保存在磁盘中，Spark使用了内存保存中间结果，能在数据尚未写入硬盘时在内存中进行运算

我像影子一样·2024-01-06 09:38

Hbase进阶

yarn-daemon.shstartresourcemanageryarn-daemon.shstartnodemanager（2）在hive中建表时附加上：storedby'org.apache.hadoop.hive.hbase.HBaseStorageHandler'withserdeproperties

xinxinyydss·2024-01-06 08:36

java: 从HBase中读取数据

一、添加依赖：org.apache.hadoophadoop-client2.6.0org.apache.hbasehbase-client2.4.2二、使用Scanner读取数据示例：packagecn.edu.tju

amadeus_liu2·2024-01-06 08:01

Hadoop: HBase模糊查询

Tabletable=connection.getTable(TableName.valueOf("originalSignal"));Scanscan=newScan();RowFilterrowFilter=newRowFilter(CompareOp.EQUAL,newSubstringComparator(vin));scan.setFilter(rowFilter);ResultScan

amadeus_liu2·2024-01-06 08:31

Hadoop: User: hadoop is not allowed to impersonate anonymous

/etc/hadoop/core-site.xml增加（hadoop是你的用户名)hadoop.proxyuser.hadoop.hosts*hadoop.proxyuser.hadoop.groups

amadeus_liu2·2024-01-06 08:00

Hadoop: 访问hdfs报错Failed on local exception: com.google.protobuf.InvalidProtocolBufferExceptio

可能是hdfs端口配置的不是默认的9000,hdfsgetconf-confkeyfs.default.name可以查看端口

amadeus_liu2·2024-01-06 08:00

Hadoop: JAVA连接单机版HBase报错：java.net.UnknownHostException: can not resolve master

windows:修改host文件，加上xxx.xxx.xxx.xxx(服务器ip)master.Linux:修改/etc/hosts

amadeus_liu2·2024-01-06 08:00

Hadoop： SpringBoot Hive项目报java.lang.AbstractMethodError: org.apache.jasper.servlet.TldScanner$Tl

修改hive-jdbc依赖org.apache.hivehive-jdbc3.1.2org.eclipse.jettyjetty-runner

amadeus_liu2·2024-01-06 08:30

Hadoop:jdbc连接hive maven 依赖

junitjunit3.8.1testorg.apache.hadoophadoop-common3.3.0org.apache.hivehive-jdbc3.1.2jdk.toolsjdk.tools1.8system

amadeus_liu2·2024-01-06 08:30

Hadoop: dfs常用命令

bin/hadoopdfs-mkdir/hilubin/hadoopdfs-touchz/hilu/niuyear.txtbin/hadoopdfs-touchz/hilu/niuyear2.txtbin

amadeus_liu2·2024-01-06 08:00

java: 写入数据到HBase

一、添加依赖org.apache.hadoophadoop-client2.6.0org.apache.hbasehbase-client2.4.2二、调用API写HBase示例packagecn.edu.tju

amadeus_liu2·2024-01-06 08:55

【大数据进阶第三阶段之Hive学习笔记】Hive安装

1、环境准备安装hadoop以及zookeeper、mysql【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客《zookeeper的安装与配置》自行百度《Linux环境配置

伊达·2024-01-06 07:07

MR实战：网址去重

实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建网址去重映射器类5、创建网址去重归并器类6、创建网址去重统计驱动器类7、启动应用，查看结果四、实战总结一、实战概述本实战项目主要利用HadoopMapReduce

howard2005·2024-01-06 06:09

StreamPark + PiflowX 打造新一代大数据计算处理平台

它具有如下特性：简单易用：可视化配置流水线，实时监控流水线运行状态，查看日志；功能强大：提供100+的数据处理组件，包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCa

暗影八度·2024-01-06 05:47

新一代大数据管家 DataSophon 1.2 重磅发版

在大数据领域，现在普遍认为是后Hadoop时代，CDH的停更和闭源导致传统的Hadoop体系组件栈没有一个称手好用的管理工具，越来越多新一代的大数据项目也在层出不穷,同样也需要管理，并且需要适配云原生的能力

Datavane·2024-01-06 05:47

2.HDFS 架构

目录概述架构HDFS副本HDFS数据写入流程NN工作原理DN工作原理结束概述官方文档快递环境：hadoop版本3.3.6相关文章速递架构HDFSHDFS架构总结如下：amaster/slavearchitecture

流月up·2024-01-05 23:01

1.大数据概述

目录概述hadoophadoop模块hadoop发行版apache社区版本CDP(CDH+HDP)其它云产商框架选择hadoop安装结束概述先了解几个常用的网站apache官网hadoop官网hadoopgithubhttps

流月up·2024-01-05 23:00

Hadoop面试题与python基础

Hadoop面试题Hadoop的三种部署模式？Hadoop最初元数据放在哪里？要想多个客户端访问，元数据要放在哪里？分桶表和分区表的区别？项目中如何实现拉链表？

中长跑路上crush·2024-01-05 23:02

【无标题】

ETL项目–自学笔记（补充）1、服务启动cdh虚拟机中服务会自动启动手动启动启动hadoop服务/export/server/hadoop/sbin/start-all.sh启动hive服务metastore

中长跑路上crush·2024-01-05 23:02

RabbitMQ集群搭建

目录1RabbitMQ集群搭建2镜像模式2.1镜像模式实现3HAProxy安装和配置3.1.X86架构的CentOS虚拟机中安装HAProxy编辑3.2ARM架构的CentOS虚拟机中安装HAProxy4HAProxy

1　　　　　　·2024-01-05 21:20

大数据 HDFS-存储的王者

我们知道，Google大数据“三驾马车”的第一驾是GFS（Google文件系统），而Hadoop的第一个产品是HDFS，可以说分布式文件存储是分布式计算的基础，也可见分布式文件存储的重要性。

善守的大龙猫·2024-01-05 21:48

什么是架构设计？

我们会对新员工培训整个系统的架构，参加架构设计评审，学习业界开源系统（例如MySQL和Hadoop）的架构，研究大公司的架构实现（例如微信架构和淘宝架构）……虽然“架构”这个词很常见，但如果深究一下，“

善守的大龙猫·2024-01-05 21:48

大数据 MapReduce是什么？

在Hadoop问世之前，其实已经有了分布式计算，只是那个时候的分布式计算都是专用的系统，只能专门处理某一类计算，比如进行大规模数据的排序。

善守的大龙猫·2024-01-05 21:47

HDFS&Yarn HA架构设计

一、为什么要用HA在hadoop2.0.0之前，在hdfs集群中，NameNode是存在单点故障问题的。

吃货大米饭·2024-01-05 20:22

MR实战：词频统计

实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建词频统计映射器类5、创建词频统计归并器类6、创建词频统计驱动器类7、启动应用，查看结果四、实战总结一、实战概述本实战演练旨在利用HadoopMapReduce

howard2005·2024-01-05 19:01

Pentaho Kettle 6.1连接CDH5.4.0集群

最近把之前写的HadoopMapReduce程序又总结了下，发现很多逻辑基本都是大致相同的，于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以及之后的一部分工作

香山上的麻雀·2024-01-05 16:43

企业级大数据安全架构（二）安全方案

作者：楼高1Knox访问控制ApacheKnox是一个为ApacheHadoop部署提供交互的应用网关，通过其RESTAPI和用户友好的UI，为所有与Hadoop集群的REST和HTTP交互提供了统一的访问点

云掣YUNCHE·2024-01-05 15:33

企业级大数据安全架构（一）平台安全隐患

1缺乏统一的访问控制机制大数据平台由Hadoop生态体系众多组件组成，而每个组件都会提供相应的WebUI界面和RESTful接口，例如Nam

云掣YUNCHE·2024-01-05 15:03

Redis缓存高可用集群

Redis缓存高可用集群一、Redis集群方案比较1、哨兵模式2、高可用集群模式二、Redis高可用集群搭建1、在第一台服务器建立两个节点2、第一个节点的redis.conf配置3、启动6个redis实例

编程小菜吉·2024-01-05 15:32

大数据StarRocks(四) ：常用命令

这次主要介绍生产工作中使用Starrocks时的常用命令4.1连接StarRocks4.1.1Linux命令行连接[root@hadoop1011fe]#yuminstallmysql-y[root@hadoop1011fe

运维仙人·2024-01-05 13:02

《PySpark大数据分析实战》-24.数据可视化图表介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-05 13:02

大数据开发个人简历范本（2024最新版-附模板）

大数据开发工程师个人简历范本>男22本科张三计算机科学与技术1234567890个人概述具备深入的Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情

itLeeyw·2024-01-05 13:53

Spark调优解析-spark数据倾斜优化2（七）

1数据倾斜优化1.1为何要处理数据倾斜（DataSkew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾斜？

有语忆语·2024-01-05 12:53

【Hadoop基础】hadoop fs 命令

1，hadoopfs–fs[local|]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoopjar里的hadoop-default.xml->$HADOOP_CONF_DIR

风暴之芽·2024-01-05 11:57

推荐频道

集群搭建Hadoop

es 简单集群搭建，版本8.6.2

Flink常见核心概念

Hive 源码解析一：Driver

《Hive系列》Hive详细入门教程

Hive（一）概述

YARN（一）-- 产生原因及概述

Flume基础知识（九）：Flume 企业开发案例之复制和多路复用

教你如何将本地虚拟机变成服务器，供其它电脑访问

高可用分布式部署Spark、完整详细部署教程

SuperMap分布式数据库实操

《数据采集与预处理环境》实验环境安装

Apache Pulsar[4] 伪集群环境搭建

熟悉常用的Linux操作和Hadoop操作

HDFS的高可用性

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:

Spark集群搭建

Spark概述

Hbase进阶

java: 从HBase中读取数据

Hadoop: HBase模糊查询

Hadoop: User: hadoop is not allowed to impersonate anonymous

Hadoop: 访问hdfs报错Failed on local exception: com.google.protobuf.InvalidProtocolBufferExceptio

Hadoop: JAVA连接单机版HBase报错：java.net.UnknownHostException: can not resolve master

Hadoop： SpringBoot Hive项目报java.lang.AbstractMethodError: org.apache.jasper.servlet.TldScanner$Tl

Hadoop:jdbc连接hive maven 依赖

Hadoop: dfs常用命令

java: 写入数据到HBase

【大数据进阶第三阶段之Hive学习笔记】Hive安装

MR实战：网址去重

StreamPark + PiflowX 打造新一代大数据计算处理平台

新一代大数据管家 DataSophon 1.2 重磅发版

2.HDFS 架构

1.大数据概述

Hadoop面试题与python基础

【无标题】

RabbitMQ集群搭建

大数据 HDFS-存储的王者

什么是架构设计？

大数据 MapReduce是什么？

HDFS&Yarn HA架构设计

MR实战：词频统计

Pentaho Kettle 6.1连接CDH5.4.0集群

企业级大数据安全架构（二）安全方案

企业级大数据安全架构（一）平台安全隐患

Redis缓存高可用集群

大数据StarRocks(四) ：常用命令

《PySpark大数据分析实战》-24.数据可视化图表介绍

大数据开发个人简历范本（2024最新版-附模板）

Spark调优解析-spark数据倾斜优化2（七）

【Hadoop基础】hadoop fs 命令