大数据入门-hadoop 第14页

橘子皮的实习周记——第一周总结

一周小总结：目前入职上班时间一周，主要内容是对一个项目进行一些基础的添加操作(用领导A的话来说，就是熟悉一下业务)，我最头疼的就是使用kafkahbasehadoop这些技术，对MySQL内的数据进行一个同步

程序员橘子皮·2024-01-26 03:35

Flink1.13.x+iceberg环境搭建

1.安装hadooptar-zxvfhadoop-2.10.1.tar.gz配置JDK和Hadoop环境变量vi/etc/profileexportJAVA_HOME=/usr/lib/jvm/java

姚贤贤·2024-01-26 02:22

HDFS操作

文章目录主要内容1.编程实现以下指定功能，并利用Hadoop提供的Shell命令完成相同任务：一.shell命令行实现1.向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，则由用户来指定是追加到原有文件末尾还是覆盖原有的文件

K要努力·2024-01-26 02:43

Hbase伪分布式的安装和配置

一、版本信息和环境1、版本信息：jdk1.8.0_112hadoop-2.6.0zookeeper-3.4.6hbase-1.2.6.12、环境hadoop+zookeeper+hbase,hadoop

lukeyan·2024-01-26 00:41

大数据技术之Spark

1.2SparkandHadoopHadoop的MapReduce是大家广为熟知的计算框架，那为什么咱们还要学习新的计算框架Spark呢，这里简单说一下Spark和Hadoop的关系。

严同学正在努力·2024-01-25 21:38

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Key-Key·2024-01-25 21:05

Hadoop on Yarn 提交job失败：java.net.ConnectException：Connection refused

报错：INFOorg.apache.hadoop.service.AbstractService:ServiceNodeManagerfailedinstateSTARTED;cause:org.apache.hadoop.yarn.exceptions.YarnRuntimeException

Anthons·2024-01-25 20:58

sqoop之hive数据仓库和oracle数据库数据转换

sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres

Summer_1981·2024-01-25 20:37

spakr 提交任务

当前集群支持3中集群管理Standalone（spak框架自身拥有能力）ApacheMesosHadoopYARNKubernetes使用/spark-submit脚本提交任务，脚本后面可以接参数.

新鲜氧气·2024-01-25 19:55

hadoop 问题集

1.org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistyarn

Pure_Eyes·2024-01-25 17:18

大数据分析组件Hive-集合数据结构

Hive的数据结构前言一、array数组类型二、map键值对集合类型三、struct结构体类型前言Hive是一个基于Hadoop的数据仓库基础设施，用于处理大规模分布式数据集。

Aimyon_36·2024-01-25 15:15

[AIGC 大数据基础]hive浅谈

Hive作为一个基于Hadoop的数据仓库基础设施，为用户提供了类SQL的查询语言和丰富的功能，使得处理大规模数据变得更加简单和高效。

程序员三木·2024-01-25 14:17

hadoop集群部署

hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个存储系统+计算框架的软件框架，主要解决海量数据存储与计算的问题，是大数据技术中的基石。

Cat God 007·2024-01-25 12:45

Hadoop集群的部署，安装和管理（头歌）

示例集群信息以下表格为本教程所用示例集群节点信息：我们准备了三台虚拟服务器，连接方式如下：第一步我们需要在evassh服务器初始化虚拟服务器：cd/optwrapdockerulimit-funlimiteddockerload-iubuntu16-ssh.tardocker-composeup-d注意：请不要在各个虚拟服务器之间进行ssh登录，这种操作会导致无法保存配置数据。正确方法是：在虚拟服

小坏蛋儿&·2024-01-25 12:14

hadoop集群规划部署

一、集群规划三台硬件资源，部署hadoop版本，hadoop-3.3.5，部署后配置文件。Hadoop配置文件分两类：默认配置文件和自定义配置文件。

Snower_2022·2024-01-25 12:43

Hbase集群安装部署

安装好对应版本的hadoop集群，并启动安装好对应版本的zookeeper集群，并启动HBase集群安装部署下载安装包并上传到node01服务器安装包下载地址：http://archive.cloudera.com

我还不够强·2024-01-25 12:02

详解Linux运维工程师高级篇（大数据安全方向）.

hadoop安全目录：kerberos（已发布）elasticsearch（已发布）http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry

weixin_30588729·2024-01-25 10:14

大数据Hadoop/Hive学习笔记一（基础概念）

大数据Hadoop/Hive学习笔记一（基础概念）一，概念介绍：大数据：大数据一般用来描述一种数量庞大，复杂的数据集，传统数据处理应用程序难以应对。

lucky_myj·2024-01-25 09:46

Hadoop-HDFS写流程（从命令行到完成）

一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客，这里先贴下官网架构图：二、源码分析源码中写的肯定是最真实的，下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4

隔着天花板看星星·2024-01-25 09:23

Hadoop-HDFS高可用

原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode

隔着天花板看星星·2024-01-25 09:52

Hadoop-MapReduce使用说明

下面让我们跟着官网来学习下吧ApacheHadoop3.3.6–MapReduceTutorial二、运行流程大致描述1、用户通过jo

隔着天花板看星星·2024-01-25 09:52

Hadoop-YARN概览

一、什么是YARNYetAnotherResourceNegotiator，另一种资源协调者，简称YARN。基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护进程。其想法是拥有一个全局ResourceManager（RM）和每个应用程序的ApplicationMaster（AM）。可以支持单个作业，也可以支持多个作业的DAG。被称为另一种资源协调者，那就证明有一种比YARN更早的资源协调者

隔着天花板看星星·2024-01-25 09:52

Hadoop-HDFS读流程（从输入命令到回显）

一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客，这里先贴下官网架构图：二、静静的思考一会儿爱因斯坦说过：想象力比知识更重要。想象力推动世界，是知识进化的源泉。我们先不看源码，先通过官方架构图和我们对HDFS的了解来想象下读流程是什么样的。我要读HDFS上的一份文件，首先需要知道它在哪台节点上，HDFS上存储的文件都是以块的形式存放在各个DataNode节点上。因此需要知道这

隔着天花板看星星·2024-01-25 09:52

Hadoop-MapReduce-源码跟读-客户端篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、从WordCount进入源码用idea将源码加载进来后

隔着天花板看星星·2024-01-25 09:52

hadoop 三种运行方式

一、本地运行方式1创建在hadoop-3.3.5文件下面创建一个wcinput文件夹[antares@hadoop1hadoop-3.3.5]$mkdirwcinput[antares@hadoop1hadoop

Snower_2022·2024-01-25 09:51

Hadoop-MapReduce-跟着日志理解整体流程

一、数据准备viinput_01.txtviinput_02.txtviinput_03.txt文本内容如下：-----------------input_01.txt----------------javascalapythonc++javajsgogovbaccc++javascalapythonphpcsshtmljsjavajavascalavbac#.netRRRjava--------

隔着天花板看星星·2024-01-25 09:49

HBase学习五：运维排障之备份与恢复

HBase的所有文件都存储在HDFS上，因此只要使用Hadoop提供的文件复制工具distcp将HBASE目录复制到同一HDFS或者其他HDFS的另一个目录中，就可以完成对源HBase集群的备份工作copyTable

Studying！！！·2024-01-25 09:49

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

Hadoop日常运维操作说明hdfs生产环境hadoop为30台服务器组成的集群，统一安装配置，版本号为2.7.7部署路径：/opt/hadoop启动用户：hadoop配置文件：/opt/hadoop/

love6a6·2024-01-25 07:12

基于CentOS7 Hadoop-2.7.2伪分布式部署

1、基本环境Linux版本：CentOS7.0JDK版本：jdk-7u79-linux-x64.tar.gzHadoop版本：hadoop-2.7.2.tar.gzjdk以及Hadoop安装在/usr目录下

程序员小H·2024-01-25 07:23

Hadoop HDFS 实现原理图文详解

一、HDFS体系结构1.1HDFS简介Hadoop分布式文件系统(HDFS)是运行在通用硬件(commodityhardware)上的分布式文件系统（DistributedFileSystem）。

禅与计算机程序设计艺术·2024-01-25 07:49

Hive运行机制与使用

hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

小猪Harry·2024-01-25 05:09

Spark基本架构及原理

Hadoop和Spark的关系Spark运算比Hadoop的MapReduce框架快的原因是因为Hadoop在一次MapReduce运算之后,会将数据的运算结果从内存写入到磁盘中,第二次Mapredue

李飞_fd28·2024-01-24 20:50

2019-05-15

主流程1.关闭防火墙2.机器间实现免密3.zk部署4.hadoop部署实现流程2.免密登录ssh-keygen回车一直到最后（有3次）生成本机秘钥后，同步到自己机器和其他机器ssh-copy-idhostxshell

泡泡_bbb9·2024-01-24 15:54

通过hadoop jar命令运行提交MapReduce到YARN中

实现Wordcount大概流程：给定数据输入的路径，给定结果输出的路径；将输入路径内的数据中的单词进行计数，将结果写到输出路径如下：在hadoop下找hadoop-mapreduce-examples-

%HelloWorld%·2024-01-24 13:28

MapReduce配置 & YARN集群部署

1：编辑mapred-env.sh；添加如下配置#设置jdk路径exportJAVA_HOME=/opt/module/jdk#设置JobHistoryServer进程内存为1GexportHADOOP_JOB_HISTORYSERVER_HEAPSIZE

%HelloWorld%·2024-01-24 13:28

部署Hadoop集群

在node1节点执行，以root身份1：在VMware虚拟机集群上部署HDFS集群1）准备好hadoop安装包；目前最新3.3.4；了解：2）上传解压hadoop①：上传hadoop到node1节点；②

%HelloWorld%·2024-01-24 13:27

Hive在VMware中部署

会在日志文件中生成root用户的一个随机密码，使用下面命令查看密码：如果你想设置简单密码，需要设置mysql密码安全级别：(进入mysql中实行)然后就可以简单密码了：(进入mysql中实行)步骤二：配置hadoop

%HelloWorld%·2024-01-24 13:27

Kafka集群的安装与配置（二）

2.2.2生产者命令行操作1）查看操作生产者命令参数[atguigu@hadoop102kafka]$bin/kafka-console-producer.sh2）发送消息[atguigu@hadoop102kafka

ole_triangle_java·2024-01-24 12:59

Windows下hive中insert语句报错

报错信息我的hadoop和hive版本都是3.0版本(建议hadoop3.x版本、hive2.x版本，我在使用中发现有些问题)[08S01][2]Errorwhileprocessingstatement

林园857·2024-01-24 10:27

hbase 总结

HBase什么是HBasehbase是一个基于java、开源、NoSql、非关系型、面向列的、构建与hadoop分布式文件系统（HDFS）上的、仿照谷歌的BigTable的论文开发的分布式数据库。

l靠近一点点l·2024-01-24 08:24

Hbase原理、基本概念、基本架构

概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于GoogleBigTable模型开发的，典型的key/value系统；HBase是ApacheHadoop生态系统中的重要一员，主要用于海量结构化数据存储

wyl9527·2024-01-24 08:24

HBase介绍及简易安装（转）

HBase介绍及简易安装（转）HBase简介HBase是ApacheHadoop的数据库，能够对大型数据提供随机、实时的读写访问，是Google的BigTable的开源实现。

weixin_33711647·2024-01-24 08:23

Hadoop集群（第12期)_HBase简介及安装

HBase简介HBase是ApacheHadoop的数据库，能够对大型数据提供随机、实时的读写访问，是Google的BigTable的开源实现。

weixin_30451709·2024-01-24 08:23

HBase学习

HBase简介HBase是ApacheHadoop的数据库，能够对大型数据提供随机、实时的读写访问，是Google的BigTable的开源实现。

mm_bit·2024-01-24 08:20

HBase详细概述

不过在此之前，你可以先了解Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5个节点的hadoop集群环境（CDH5）。好了，让我们来学习HBase吧！

a867901084·2024-01-24 08:49

HBase简易安装和简介

HBase简介HBase是ApacheHadoop的数据库，能够对大型数据提供随机、实时的读写访问，是Google的BigTable的开源实现。

滑过的板砖·2024-01-24 08:49

Hbase 基础理论

Hbase本身是属于NoSQL在hadoop的大数据集群框架中可以用来做数据的存储。Hbase本身是Google的Bigtable理论的开源实现。本篇文章

Allocator·2024-01-24 08:48

H. Linux查找文件 whereis locate which

[root@hadoop01~]#whereiscatcat:/bin/cat/usr/share/man/man1/cat.1.gz[root@hadoop01~]#yuminstallmlocate

小猪Harry·2024-01-24 08:06

Flink（十五）【Flink SQL Connector、savepoint、CateLog、Table API】

1、常用Connector读写之前我们已经用过了一些简单的内置连接器，比如'datagen'、'print'，其它的可以查看官网：Overview|ApacheFlink环境准备：#1.先启动hadoopmyhadoopstart

让线程再跑一会·2024-01-24 07:17

MySQL数据库在CentOS 6.8环境下的安装

二、步骤1、检查本地YUM源检查本地YUM中可用的与mysql相关的软件包[root@hadoop00~]#yumlist|grepmysql出现如图所示错误，需要重新挂载一下系统安装镜像[root@hadoop00

m0_69595107·2024-01-24 06:10

推荐频道

大数据入门-hadoop

橘子皮的实习周记——第一周总结

Flink1.13.x+iceberg环境搭建

HDFS操作

Hbase伪分布式的安装和配置

大数据技术之Spark

大数据开发之Spark（完整版）

Hadoop on Yarn 提交job失败：java.net.ConnectException：Connection refused

sqoop之hive数据仓库和oracle数据库数据转换

spakr 提交任务

hadoop 问题集

大数据分析组件Hive-集合数据结构

[AIGC 大数据基础]hive浅谈

hadoop集群部署

Hadoop集群的部署，安装和管理（头歌）

hadoop集群规划部署

Hbase集群安装部署

详解Linux运维工程师高级篇（大数据安全方向）.

大数据Hadoop/Hive学习笔记一（基础概念）

Hadoop-HDFS写流程（从命令行到完成）

Hadoop-HDFS高可用

Hadoop-MapReduce使用说明

Hadoop-YARN概览

Hadoop-HDFS读流程（从输入命令到回显）

Hadoop-MapReduce-源码跟读-客户端篇

hadoop 三种运行方式

Hadoop-MapReduce-跟着日志理解整体流程

HBase学习五：运维排障之备份与恢复

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

基于CentOS7 Hadoop-2.7.2伪分布式部署

Hadoop HDFS 实现原理图文详解

Hive运行机制与使用

Spark基本架构及原理

2019-05-15

通过hadoop jar命令运行提交MapReduce到YARN中

MapReduce配置 & YARN集群部署

部署Hadoop集群

Hive在VMware中部署

Kafka集群的安装与配置（二）

Windows下hive中insert语句报错

hbase 总结

Hbase原理、基本概念、基本架构

HBase介绍及简易安装（转）

Hadoop集群（第12期)_HBase简介及安装

HBase学习

HBase详细概述

HBase简易安装和简介

Hbase 基础理论

H. Linux查找文件 whereis locate which

Flink（十五）【Flink SQL Connector、savepoint、CateLog、Table API】

MySQL数据库在CentOS 6.8环境下的安装