hadoop学习积累第56页

3. hdfs概述与高可用原理

简述HDFS（HadoopDistributedFileSystem）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本

shura1014·2023-11-16 20:35

探究Presto SQL引擎(1)-巧用Antlr

从Hadoop生态的Hive,Spark,Presto,Kylin,Druid到非Hadoop生态的Clic

vivo互联网技术·2023-11-16 20:27

大数据应用开发线上班（学徒班）课程大纲

泰迪智能科技大数据应用开发线上班课程使用当下流行的Hadoop+Spark大数据框架，全面、深入地探讨了大数据开发、大数据分析、数据仓库等技术。

泰迪智能科技·2023-11-16 19:23

《Flink原理、实战与性能优化》（Flink知识梳理一）

Flink原名StratosphereFlink是基于事件驱动的，而SparkStreaming微批模型，生成微小的数据批次Spark的弱点：Spark基于批处理原理，对流式计算相对较弱（本质上是对Hadoop

无影风Victorz·2023-11-16 18:40

hadoop概述

原文地址：http://blog.csdn.net/kkdelta/article/details/7696025hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach

m0_67390379·2023-11-16 08:52

Hadoop概述

第1章大数据概论1.1大数据概念大数据（BigData）：指无法在一定时间范围内用常规软件工具进行处理的数据集合，需要新处理模式才具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB1.2大数据特点（4V）1.2.1Volum

留不住斜阳·2023-11-16 08:50

Hadoop的概述

1、Hadoop的发展史：Google首先发布三篇文章：GFS(GoogleFileSystem)、Mapreduce（计算引擎）、Bigtable，随着时间的推移：hadoop1.0与2.0的区别是在

新手小农·2023-11-16 08:46

Flink on YARN 常见问题与排查思路

杨弢（搏远），阿里巴巴计算平台事业部技术专家，ApacheHadoopCommitter，目前专注于YARN、Flink、YuniKorn等开源项目的资源调度方向。

zhisheng_blog·2023-11-16 08:48

Flink on yarn任务日志怎么看

这是jobmanager的地址hadoop02:19888/jobhistory/logs/hadoop02:45454/container_e03_1684463979345_0028_01_000001

qzWsong·2023-11-16 08:47

ubuntu22.04下hadoop3.3.6+hbase2.5.6+phoenix5.1.3开发环境搭建

一、涉及软件包资源清单1、java这里使用的是openjdk2、hadoop-3.3.6.tar.gz3、hbase-2.5.6-hadoop3-bin.tar.gz4、phoenix-hbase-2.5

ls_elect·2023-11-16 07:31

大数据Hadoop之——部署hadoop+hive+Mysql环境（Linux）

目录一、JDK的安装1、安装jdk2、配置Java环境变量3、加载环境变量4、进行校验二、hadoop的集群搭建1、hadoop的下载安装2、配置文件设置2.1.配置hadoop-env.sh2.2.配置

爱吃面的猫·2023-11-16 06:51

Hadoop-HDFS架构与设计

HDFS架构与设计一、背景和起源二、HDFS概述1.设计原则1.1硬件错误1.2流水访问1.3海量数据1.4简单一致性模型1.5移动计算而不是移动数据1.6平台兼容性2.HDFS适用场景3.HDFS不适用场景三、HDFS架构图1.架构图2.Namenode3.Datanode四、HDFS数据存储1.数据块存储2.副本机制五、元数据持久化1.Namenode元数据2.元数据过程3.元数据checkp

临江蓑笠翁·2023-11-16 06:15

SparkSQL项目实战

1）将city_info.txt、product_info.txt、user_visit_action.txt上传到/opt/module/data[atguigu@hadoop102module]$mkdirdata2

shangjg3·2023-11-16 06:47

【论文】基于Hadoop的铁路货运大数据平台设计与应用

点我完整下载：基于Hadoop的铁路货运大数据平台设计与应用.docx基于Hadoop的铁路货运大数据平台设计与应用DesignandApplicationofRailwayFreightBigDataPlatformbasedonHadoop

wusp1994·2023-11-16 06:45

基于Hadoop的学习行为数据云存储平台的设计与实现

点我完整下载：基于Hadoop的学习行为数据云存储平台的设计与实现.docx基于Hadoop的学习行为数据云存储平台的设计与实现DesignandImplementationofaHadoop-BasedLearningBehavioralDataCloudStoragePlatform

wusp1994·2023-11-16 06:13

MySQL、HiveSQL、SparkSQL的区别

1、用途角度1）MySQL是一种关系型数据库，主要用于存储和管理结构化数据2）HiveSQL是用于Hadoop平台上的一种SQL-like语言，主要用于对大数据进行查询和分析3）SparkSQL是一种基于

BaoZi969·2023-11-16 03:13

oracle并行详解,深入剖析：oracle 的并行机制

leonarding，thefirstACEAinchina，OracleOCM10g&11gRHCE，ACOUGCoreMemberBlogger，DATAGURUOracle数据库版主，ITPUBHADOOP

冒志鸿·2023-11-16 01:35

hadoop 大数据环境配置配置jdk, hadoop环境变量配置centos环境变量 hadoop（五）

1.遗漏一步配置系统环境变量，下面是步骤，别忘输入更新系统环境命令2.将下载好得压缩包上传至服务器：/opt/module解压缩文件存放地址/opt/software压缩包地址3.配置环境变量：在/etc/profile.d文件夹下创建shell文件#java_homeexportJAVA_HOME=/opt/module/jdk1.8.0_361exportPATH=$PATH:$JAVA_HO

不努力就种地~·2023-11-15 22:49

hadoop学习10

Hadoop学习（十）1.HDFS核心参数1.NameNode内存生产配置(1)NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？

StopM·2023-11-15 20:12

ERROR tool.ImportTool: Import failed: org.apache.hadoop.mapred.FileAlreadyExistsException: Output d

同步到Hadoop时报错ERRORtool.ImportTool:Importfailed:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectoryhdfs

人生在勤，不索何获-白大侠·2023-11-15 20:13

Hadoop hdfs常用命令

1、查看文件大小用命令：hdfsdfs-du-s-hhdfsdfs-du-s-h/user/hive/warehouse/wxwy.db/nr_mro_lzo/partitionday=202109092、查看目录下是否有文件：hdfsdfs-lshdfsdfs-ls/user/hive/warehouse/wxwy.db/gongcan_qingming3、删除目录下文件：hdfsdfs-rm-

人生在勤，不索何获-白大侠·2023-11-15 20:43

rpc源码解析

rpc源码解析1rpc设计和实现逻辑说明1.1设计1.2实现2调试3总结4后续安排如前所述,rpc是hadoop节藕各个功能模块的重要工具,相当于神经系统,串联各部分,使用频次最高,因此可以预见,rpc

码农包工头·2023-11-15 19:02

常见数据集成工具的对比: Apache SeaTunnel VS Flume VS DataX VS Sqoop

对比项ApacheSeaTunnelDataXApacheSqoopApacheFlume部署难度容易容易十分复杂，严重依赖Hadoop体系容易运行模式分布式，也支持单机单机本身不是分布式框架，依赖HadoopMR

追求进步的阶梯·2023-11-15 16:53

从0开始学大数据14-BigTable的开源实现：HBase

我们前面已经讲过了GFS对应的Hadoop分布式文件系统HDFS，以及MapReduce对应的Hadoop分布式计算框架MapReduce，今天我们就来领略一下BigTable对应的NoSQL系统

源码头·2023-11-15 15:48

hive更改表结构的时候报错

48cannotrecognizeinputnear'ADD''COLUMN''compete_company_id'inaltertablestatement23/11/1417:59:27ERRORorg.apache.hadoop.hive.ql.Driver

五月天的小迷弟·2023-11-15 11:26

Hive安装与配置

archive.apache.org/dist/hive/文档网址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual安装前提：3台虚拟机，安装了Hadoop

悠然予夏·2023-11-15 11:16

Spark DataFrame的创建

目录1.环境准备2.从txt文件创建DataFrame3.从RDD中创建DataFrame4.一些错误1.环境准备开启虚拟机、开启hadoop集群、开启spark集群、开启spark-shell、在spark-shell

连胜是我偶像·2023-11-15 09:56

hadoop 大数据环境配置同步时间 centos服务器时间同步 linux 安装ntp服务更新时间 hadoop（六）

1.安装ntp软件yuminstall-yntp2.创建软连接#删除之前得时间sudorm-rf/etc/localtime;#更新时区sudoln-s/usr/share/zoneinfo/Asia/Shanghai/etc/localtime3.更新时间#root权限运行sudontpdate-untp.aliyun.com4.开机自启，更新时间#开机启动sudosystemctlstartn

不努力就种地~·2023-11-15 06:46

centOS 7下Hadoop伪分布式搭建

记录笔记，尝试在centOS下安装Hadoop伪分布式（之前是在Ubuntu下安装的），查漏补缺。

wicjwnx·2023-11-15 05:20

CentOS7 Hadoop 3.3.4 集群安装（1 NameNode，3 DataNode）

集群网络配置：准备三台CentOS7的服务器：IP服务器名称192.168.21.25Master192.168.21.26Slave01192.168.21.27Slave02修改hosts#Master服务器vi/etc/hosts192.168.21.26Slave01192.168.21.27Slave02192.168.21.25Master#Slave01服务器vi/etc/hosts

YuG丶·2023-11-15 05:48

Ubuntu22.04 Hadoop3.3.4 jdk18.02 安装配置

落非·2023-11-15 05:15

hadoop3 伪分布式安装

1.环境准备最低硬件要求：CPU2核、内存：4G、硬盘：100GCentOS7最小安装JDK1.8HADOOP3.3.41.1.主机名和IP地址#编辑下方文件，修改内容为自己想要的主机名，如mitchell

被遗忘的优雅·2023-11-15 05:44

搭建Hadoop伪分布式集群

2.在Linux环境下完成伪分布式环境的搭建，并运行Hadoop自带的WordCount实例检测是否运行正常。【实验目的】1.掌握Linux虚拟机安装方法。

m0_58540923·2023-11-15 05:13

大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7（完全超详细-小白注释版）虚拟机安装+平台部署

目录环境条件：1、安装虚拟机（已安装好虚拟机的可跳转至二、安装JDK与Hadoop）（1）直接新建一台虚拟机（2）首次启用虚拟机，进行安装一、集群前置环境搭建（三台机器分别设置hostname、网卡（ip

Hao.715·2023-11-15 05:43

Hadoop伪分布式搭建

Hadoop伪分布式搭建目的准备支持的平台需要的软件下载伪分布式配置设置SSH免密登录启动hadoop验证文件分块查看上传后的文件目的本文档介绍如何设置和配置单节点Hadoop安装，以便您可以使用HadoopMapReduce

best program·2023-11-15 05:13

Hadoop完全分布式安装

Hadoop完全分布式安装前言之前有搭建过一次Hadoop完全分布式集群但是没有记录，最近开始着手自己搭个模拟数仓需要搭建集群，趁此机会记录一下搭建的过程。

薇安娜·2023-11-15 05:43

Centos7搭建hadoop3.3.4分布式集群

1、背景最近在学习hadoop，本文记录一下，怎样在Centos7系统上搭建一个3个节点的hadoop集群。2、集群规划hadoop集群是由2个集群构成的，分别是hdfs集群和yarn集群。

JAVA序码·2023-11-15 04:10

Hadoop3.3.4分布式安装

安装前提：已经配置好java环境，所有机器之间ssh的免密登录。注意：下文中的flinkv1、flinkv2、flinkv3是三台服务器的别名1.集群部署规划注意：NameNode和SecondaryNameNode不要安装在同一台服务器注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。2.上传安装包到linux系统上3

Appreciate(欣赏)·2023-11-15 04:39

【Spark学习笔记】- 1Spark和Hadoop的区别

目录标题Spark是什么SparkandHadoop首先从时间节点上来看:功能上来看:SparkorHadoopSpark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

拉格朗日(Lagrange)·2023-11-15 03:11

Spark学习笔记【基础概念】

文章目录前言Spark基础Spark是什么spark和hadoop区别Spark核心模块Spark运行模式Spark运行架构运行架构Executor与Core（核）并行度（Parallelism）有向无环图

java路飞·2023-11-15 03:40

配置好hivemetastore后使用show databases命令报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.Hi

！！！！注意：本篇帖子并不适合初始化未初始化hive的解决方案，在报这个错误之前，我已经配置好了hive的metastore为mysql并正常使用了一段时间。我的hive版本为2.3.9，mysql为5.7问题描述：首先，我是前面已经使用配置了mysql为hive的metastore并正常使用了一段时间，但是因为业务需要，在使用spark.sql操作hive时，我将jdbc的编码格式指定为了utf

倾斜的二叉树·2023-11-15 03:12

main ERROR Unable to invoke factory method in class class org.apache.hadoop.hive.ql.log.HushableRand

报错信息mainERRORUnabletoinvokefactorymethodinclassclassorg.apache.hadoop.hive.ql.log.HushableRandomAccessFileAppenderforelementHushableMutableRandomAccess.java.lang.reflect.InvocationTargetExceptionatsun

scdn_bcs·2023-11-15 03:11

APACHE-ATLAS-2.1.0 - 安装HIVE HOOK用于实时接收HIVE元数据的变化（五）

请提前安装好HADOOP和HIVE的环境，用于测试。

cloneme01·2023-11-15 03:39

zookeeper实践（搭建篇）

前言ZooKeeper是Hadoop家族的一款高性能的分布式协作的产品。在单机中，系统协作大都是进程级的操作。分布式系统中，服务协作都是跨服务器才能完成的。

Java蜗牛·2023-11-15 02:49

HADOOP学习_熟悉linux命令+启动hadoop

hadoop学习linux命令mkdirrmdircpmvrm查看文档内容新建文件找文件brew和tree的安装方法findlocategrep匹配字符串启动hadooplinux命令可以用man查看命令的详细用法

kkkAloha·2023-11-14 23:16

HADOOP学习_grep和wordcount的例子

两个小例子目录操作文件操作追加文件目录操作首先检查一下自己的hdfs是不是有/user路径http://localhost:50070/explorer.html#/没有就新建一个mac@kkkMachadoop