hadoop源代码分析第31页

HBase基础知识（五）：HBase 对接 Hadoop 的 MapReduce

依晴无旧·2023-12-26 06:01

Hadoop——分布式计算

一、分布式计算概述1.什么是计算、分布式计算？计算：对数据进行处理，使用统计分析等手段得到需要的结果分布式计算：多台服务器协同工作，共同完成一个计算任务2.分布式计算常见的2种工作模式分散->汇总（MapReduce就是这种模式）将数据分片，多台服务器各自负责一部分数据处理然后将各自的结果，进行汇总处理最终得到想要的计算结果中心调度->步骤执行（大数据体系的Spark、Flink等是这种模式）1.

weixin_50458070·2023-12-26 06:38

HBase深度历险 | 京东物流技术团队

简介HBase的全称是HadoopDatabase，是一个分布式的，可扩展，面向列簇的数据库，是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。

京东云技术团队·2023-12-26 06:57

Linux下配置伪分布式的Hadoop

伪分布式的意思就是集群只有一台服务器1安装jdk1.8，注意，jdk版本太高会导致hadoop无法正常启动和运行2下载hadoop3.1.3，并上传至服务器解压3编辑etc/hadoop/core-site.xmlfs.defaultFShdfs

qq_34324703·2023-12-26 05:49

Linux下安装Flume

1下载FlumeWelcometoApacheFlume—ApacheFlume下载1.9.0版本2上传服务器并解压安装3删除lib目录下的guava-11.0.2.jar（如同服务器安装了hadoop

qq_34324703·2023-12-26 05:49

09-为Java开疆拓土的ZGC深度剖析

文章目录引言ZGC出现背景STW带来的问题手机系统(Android)显示卡顿证券交易系统实时性要求大数据平台(Hadoop集群性能)垃圾回收器的发展ZGC介绍ZGC中JVM内存布局和设计为什么这么设计？

月球程序猿·2023-12-26 04:15

软件体系结构

名词解释Zookeeper：是一个分布式的，开放源码的分布式应用程序协调服务，是Google的一个开源的实现，是Hadoop和Hbase的重要组件。

城堡修炼者·2023-12-26 04:42

大数据——技术生态体系

Hive构建在Hadoop之上，并提供了一种类似SQL的查询语言，被称为HiveQL（HiveQueryLanguage），用于处理和分析大规模数据。

Imrea·2023-12-26 01:56

大数据技术——处理架构Hadoop

•2.1概述•2.1.1Hadoop简介•Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构•Hadoop是基于Java语言开发的，具有很好的跨平台特性

Imrea·2023-12-26 01:55

大数据——手把手教你HDFS搭建

第一步：在虚拟机上安装hadoop环境使用XFTP工具，将hadoop的linux版本压缩包导进linux系统的/opt文件夹下。

安安DE爸爸·2023-12-25 23:31

黑猴子的家：Spark RDD 之 Hadoop 输入输出（数据读取与保存的主要方式之一）

1、hadoopRDD和newHadoopRDDSpark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API

黑猴子的家·2023-12-25 23:05

04_hadoop_读取hdfs在本地统计单词并将结果放回hdfs

1文件目录image.png2wordConfig.properties配置文件CLASS_BUSINESS=com.looc.D04HDFS单词计数.WordCountRealizeHDFS_URL=hdfs://vm01:9000/HDFS_USER=rootOUT_PUT_SRC=/wordCount/result/RESOURCE_SRC=/wordCount/resource/3Word

会摄影的程序员·2023-12-25 22:10

学习笔记Hadoop（十四）—— MapReduce开发入门（2）—— MapReduce API介绍、MapReduce实例

四、MapReduceAPI介绍一般MapReduce都是由Mapper，Reducer及main函数组成。Mapper程序一般完成键值对映射操作;Reducer程序一般完成键值对聚合操作;Main函数则负责组装Mapper，Reducer及必要的配置;高阶编程还涉及到设置输入输出文件格式、设置Combiner、Partitioner优化程序等;4.1、MapReduce程序模块:Main函数4.

别呀·2023-12-25 19:09

学习笔记Hadoop（十一）—— Hadoop基础操作（3）—— MapReduce常用Shell操作、MapReduce任务管理

四、MapReduce常用Shell操作4.1、MapReduce常用ShellMapReduceShell此处指的是可以使用类似shell的命令来直接和MapReduce任务进行交互（这里不严格区分MapReduceshell及Yarnshell）。提交任务命令：yarnjar[mainClass]args...查看及修改任务命令：yarnapplication[options]Usage:ya

别呀·2023-12-25 19:09

Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程

Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程前面的文章已经对MR和Yarn做了基本介绍，本文主要介绍MR和Yarn的安装部署流程1、角色划分 NodeManager和DataNode

kinglinch·2023-12-25 19:09

HBase 集群搭建

文章目录安装前准备兼容性官方网址集群搭建搭建Hadoop集群搭建Zookeeper集群解压缩安装配置文件高可用配置分发HBase文件服务的启停启动顺序停止顺序验证进程查看Web端页面安装前准备兼容性1）

撕得失败的标签·2023-12-25 19:05

HBase 搭建过程中常见问题

文章目录进程问题HQuorumPeer和QuorumPeerMain区别HRegionServerHMaster自动关闭启动顺序停止顺序无法关闭一直等待运行报错日志中报错问题无法调用方法启动HBase无法找到Hadoop

撕得失败的标签·2023-12-25 19:05

大数据----MapReduce实现统计单词

目录一、简介二、实现单词统计数据准备编程MapReduceJob三、运行四、结果一、简介HadoopMapReduce是一个编程框架，它可以轻松地编写应用程序，以可靠的、容错的方式处理大量的数据(数千个节点

韭菜盖饭·2023-12-25 17:34

大数据----基于sogou.500w.utf8数据的MapReduce编程

及搜索关键字记录3.2、统计rank2的所有UID及数量3.3、上午7-9点之间，搜索过“赶集网”的用户UID3.4、通过Rank：点击排名对数据进行排序四、参考一、前言最近学习大数据的知识，需要做一些有关HadoopMapReduce

韭菜盖饭·2023-12-25 17:01

Hive-数据模型详解（超详细）

.数据库和表(1)创建数据库(2)使用数据库(3)创建表格(4)查看表结构3.分区与桶(1)分区(2)桶4.数据加载与查询(1)数据导入(2)查询语句5.总结一、Hive数据模型1.概述Hive是基于Hadoop

大数据魔法师·2023-12-25 16:17

Kylin的工作原理

Kylin的详细工作原理如下：数据导入：Kylin将数据导入到Hadoop集群中，通过HBase作为存储引擎，将数据预处理后存储在HBase中。

程序大虾·2023-12-25 16:15

flume 中sink用hdfs sink报拒绝连接错误hdfs-io

WARN-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:454)]HDFSIOerrorjava.net.ConnectException:CallFromhadoop102

m0_58310854·2023-12-25 16:38

Hadoop2.x安全：hadoop集群之kerberos认证（三、常用命令、有效期）

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读概述：开启了Kerberos认证集群之后，集群不再像以前一样随意操作，需要证书进行登录，这里就讲一下我们日常用的的一些kerberos相关的一些操作，包括票据的创建、删除、有效期更改等。常用操作：1

大数据开发运维架构·2023-12-25 15:34

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

文章目录前言：一、云计算1.1云计算的基本思想1.2云计算概述——什么是云计算？1.3云计算的基本特征1.4云计算的部署模式1.5云服务1.6云计算的关键技术——虚拟化技术1.6.1虚拟化的好处1.6.2虚拟化技术的应用——12306使用阿里云避免了高峰期的崩溃1.6.3虚拟化的关键特征1.6.4虚拟化的HA指的是什么？1.6.5服务器虚拟化1.6.6虚拟机迁移1.6.6.1虚拟机实时迁移对云计算

春人.·2023-12-25 14:59

hive 配置metastore hiveserver2服务开启

安装mysqlcreatedatabasemetastore;配置hivehive-site.xml:javax.jdo.option.ConnectionURLjdbc:mysql://hadoop102

赤土炙焱·2023-12-25 12:50

用户没有权限操作hadoop User: wu is not allowed to impersonate wu (state=08S01,code=0)

CouldnotopenclienttransportwithJDBCUri:jdbc:hive2://ubuntu:10000:Failedtoopennewsession:java.lang.RuntimeException:org.apache.hadoop.ipc.RemoteException

赤土炙焱·2023-12-25 12:50

hive日常报错 | 处理步骤

java.net.ConnectException:Yourendpointconfigurationiswrong;Formoredetailssee:http://wiki.apache.org/hadoop

赤土炙焱·2023-12-25 12:50

Hadoop(2)：常见的MapReduce[在Ubuntu中运行！]

1以词频统计为例子介绍mapreduce怎么写出来的弄清楚MapReduce的各个过程：将文件输入后，返回的代表的含义是：k1表示偏移量，即v1的第一个字母在文件中的索引（从0开始数的）；v1表示对应的一整行的值map阶段：将每一行的内容按照空格进行分割后作为k2，将v2的值写为1后输出reduce阶段：将相同的k2合并后，输出1.1创建Mapper、Reducer、Driver类创建这三种类用的

Oasis of the World·2023-12-25 12:05

[HADOOP]数据倾斜的避免和处理

预处理数据：在数据加载到Hadoop之前进行预处理，以减少倾斜。使用抽样或统计方法来了解数据分布特征，并据此调整。

wātɔ:h·2023-12-25 12:02

hadoop 3.3大数据集群搭建系列2-安装zookeeper

一.下载并解压cd/home/softwarewgethttps://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz--no-check-certificatetar-xvfapache-zookeeper-3.6.3-bin.tar.gz-C/home二

只是甲·2023-12-25 11:04

Spark 学习笔记——001【spark-mysql+spark-hive】

/spark-sql--masterlocal[4]--jars/home/hadoop/software/mysql-connector-java-5.1.27-bin.jar\--driver-class-path

冰冷热带鱼·2023-12-25 11:01

数据处理演进：EtLT崛起，ELT正在告别历史舞台

虽然Hadoop时代主要依赖ELT（Extract、Load、Transform）方法，但实时数据仓库和数据湖的兴起使得ELT变得过时。EtLT已成为将数据实时加载到数据湖和实时数据仓库的标准架构。

涤生大数据·2023-12-25 10:00

Hadoop开发环境搭建

0、修改hostname1)修改/etc/hosts:192.168.184.130luozheng.bigdata2)修改/etc/hostnameluozheng.bigdata3)添加或是修改/etc/sysconfig/network#CreatedbyanacondaNETWORKING=yesHOSTNAME=luozheng.bigdata重启查看是否修改OKimage.png4)修

紫苓·2023-12-25 08:36

安装Hadoop 3.3.5

Hadoop架构设计论述kafka依赖Zookeeper管理自身集群（Broker、Offset、Producer、Consumer等），所以先要安装Zookeeper。

IT WorryFree·2023-12-25 06:03

基于Hadoop大数据的物资数据可视化分析系统

大家可以帮忙点赞、收藏、关注、评论啦精彩专栏推荐订阅：在下方专栏JAVA实战项目文章目录JAVA实战项目一、项目介绍二、开发环境三、项目展示-基于Hadoop大数据的物资数据可视化分析系统四、代码展示五

晨曦编程·2023-12-25 05:11

Windows上运行第一个wordCount的时候报错Exception in thread “main“ 0: No such file or directory

水善利万物而不争，处众人之所恶，故几于道文章目录完整报错如下：解决方案：原因分析：完整报错如下：2023-12-2210:51:50,402WARN[org.apache.hadoop.metrics2

阿年、嗯啊·2023-12-25 00:03

YARN Hadoop2.0 区别

Hadoop2.0与HAdoop1.0的区别：Hadoop1.0主要由HDFS和MapReduce两个系统够长，但在Hadoop2.0中主要由HadoopCommon、HDFS、HadoopYARN和HadoopMapReduce2.0

omygodvv·2023-12-24 23:01

Java技术专题-Lombok插件开发实践必知必会操作！

前言在目前众多编程语言中，Java语言的表现还是抢眼，不论是企业级服务端开发，还是Andorid客户端开发，都是作为开发语言的首选，甚至在大数据开发领域，Java语言也能占有一席之地，如Hadoop，Spark

洛神灬殇·2023-12-24 23:17

【Hadoop学习笔记】（二）——Hive的原理及使用

一、Hive概述Hive是一个在Hadoop中用来处理结构化数据的数据仓库基础工具。

wanger61·2023-12-24 23:25

四、Hadoop学习笔记————各种工具用法

hive基本hql语法Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如

weixin_30528371·2023-12-24 23:25

Hive学习笔记（1）——Hive原理初探

文章目录前言一、hive的特点二、hive体系架构及基本原理三、Hive的存储四、总结前言相信大家通过学习MapReduce，已经认识到hadoop利用多台廉价机器集群进行并行计算的优势，了解了HDFS

Zhou.Y.M·2023-12-24 23:55

Hadoop基础学习十一（hive语法）

文章目录1.map阶段2.reduce阶段3.where2.join3.groupby4.orderby5.sortby6.if（判断条件，成立的返回值，否则的返回值）7.casewhenxxthenyyelsezzend8、函数1）split2）concat_ws3）datediff4）concat5）向下取整函数floor6）日期增加函数date_add7）类型转换函数cast8）explod

一只小呆呆·2023-12-24 23:55

【Hive笔记】1——Hive入门

1.什么是Hivehive是由Facebook开源用于解决海量结构化日志的数据统计Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供sql查询功能。

sdut菜鸟·2023-12-24 23:55

Hadoop学习笔记（17）Hive的数据类型和文件编码

一、Hive的常用内部命令1、有好几种方式可以与Hive进行交互。此处主要是命令行界面（CLI）。2、$HIVE_HOME/bin目录下包含了可以执行各种各样Hive服务的可执行文件，包括hive命令行界面（CLI是使用Hive的最常用方式）。[admin@master~]$cdapache-hive-1.2.2-bin/bin[admin@masterbin]$lsbeelineexthiveh

柏冉看世界·2023-12-24 23:24

Flink知识点

Flink1.简单介绍一下Flink2.Flink的运行必须依赖Hadoop组件吗3.Flink集群运行时角色4.Flink相比SparkStreaming的区别4.1、什么是两阶段提交协议？

芝麻仗剑走天涯·2023-12-24 22:26

Apache Spark简介与历史发展

与传统的大数据处理框架相比，Spark具有很多优势，其中包括：高性能Spark通过内存计算来提高性能，比HadoopMapR

晓之以理的喵~~·2023-12-24 22:55

阿里巴巴内部：全技术栈PPT分享（架构篇+算法篇+大数据）

大数据：Spark、Hadoop添加图片注释，不

写代码的珏秒秒·2023-12-24 22:48

hadoop集群坏块处理

hadoop之hdfs数据块修复方法：1、手动修复#检查集群的健康状态hdfsfsck/#修复指定的hdfs数据块。也就是关闭打开的文件。

运维仙人·2023-12-24 21:39

docker搭建hadoop集群、hbase、postgresql

docker搭建hadoop集群、hbase、postgresql镜像包内容：1、安装包下载：2、创建镜像：dockerbuild-thadoop.3、查看镜像：dockerimages4、docker

Run不动了·2023-12-24 21:38

Linux 查看当前目录及子目录文件及文件夹占用存储大小

/hadoop-bin/data395M./had

承诺一时的华丽·2023-12-24 21:48

推荐频道

hadoop源代码分析

HBase基础知识（五）：HBase 对接 Hadoop 的 MapReduce

Hadoop——分布式计算

HBase深度历险 | 京东物流技术团队

Linux下配置伪分布式的Hadoop

Linux下安装Flume

09-为Java开疆拓土的ZGC深度剖析

软件体系结构

大数据——技术生态体系

大数据技术——处理架构Hadoop

大数据——手把手教你HDFS搭建

黑猴子的家：Spark RDD 之 Hadoop 输入输出（数据读取与保存的主要方式之一）

04_hadoop_读取hdfs在本地统计单词并将结果放回hdfs

学习笔记Hadoop（十四）—— MapReduce开发入门（2）—— MapReduce API介绍、MapReduce实例

学习笔记Hadoop（十一）—— Hadoop基础操作（3）—— MapReduce常用Shell操作、MapReduce任务管理

Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程

HBase 集群搭建

HBase 搭建过程中常见问题

大数据----MapReduce实现统计单词

大数据----基于sogou.500w.utf8数据的MapReduce编程

Hive-数据模型详解（超详细）

Kylin的工作原理

flume 中sink用hdfs sink报拒绝连接错误hdfs-io

Hadoop2.x安全：hadoop集群之kerberos认证（三、常用命令、有效期）

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

hive 配置metastore hiveserver2服务开启

用户没有权限操作hadoop User: wu is not allowed to impersonate wu (state=08S01,code=0)

hive日常报错 | 处理步骤

Hadoop(2)：常见的MapReduce[在Ubuntu中运行！]

[HADOOP]数据倾斜的避免和处理

hadoop 3.3大数据集群搭建系列2-安装zookeeper

Spark 学习笔记——001【spark-mysql+spark-hive】

数据处理演进：EtLT崛起，ELT正在告别历史舞台

Hadoop开发环境搭建

安装Hadoop 3.3.5

基于Hadoop大数据的物资数据可视化分析系统

Windows上运行第一个wordCount的时候报错Exception in thread “main“ 0: No such file or directory

YARN Hadoop2.0 区别

Java技术专题-Lombok插件开发实践必知必会操作！

【Hadoop学习笔记】（二）——Hive的原理及使用

四、Hadoop学习笔记————各种工具用法

Hive学习笔记（1）——Hive原理初探

Hadoop基础学习十一（hive语法）

【Hive笔记】1——Hive入门

Hadoop学习笔记（17）Hive的数据类型和文件编码

Flink知识点

Apache Spark简介与历史发展

阿里巴巴内部：全技术栈PPT分享（架构篇+算法篇+大数据）

hadoop集群坏块处理

docker搭建hadoop集群、hbase、postgresql

Linux 查看当前目录及子目录文件及文件夹占用存储大小