研磨hadoop 第58页

MySQL、HiveSQL、SparkSQL的区别

1、用途角度1）MySQL是一种关系型数据库，主要用于存储和管理结构化数据2）HiveSQL是用于Hadoop平台上的一种SQL-like语言，主要用于对大数据进行查询和分析3）SparkSQL是一种基于

BaoZi969·2023-11-16 03:13

oracle并行详解,深入剖析：oracle 的并行机制

leonarding，thefirstACEAinchina，OracleOCM10g&11gRHCE，ACOUGCoreMemberBlogger，DATAGURUOracle数据库版主，ITPUBHADOOP

冒志鸿·2023-11-16 01:35

hadoop 大数据环境配置配置jdk, hadoop环境变量配置centos环境变量 hadoop（五）

1.遗漏一步配置系统环境变量，下面是步骤，别忘输入更新系统环境命令2.将下载好得压缩包上传至服务器：/opt/module解压缩文件存放地址/opt/software压缩包地址3.配置环境变量：在/etc/profile.d文件夹下创建shell文件#java_homeexportJAVA_HOME=/opt/module/jdk1.8.0_361exportPATH=$PATH:$JAVA_HO

不努力就种地~·2023-11-15 22:49

hadoop学习10

Hadoop学习（十）1.HDFS核心参数1.NameNode内存生产配置(1)NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？

StopM·2023-11-15 20:12

ERROR tool.ImportTool: Import failed: org.apache.hadoop.mapred.FileAlreadyExistsException: Output d

同步到Hadoop时报错ERRORtool.ImportTool:Importfailed:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectoryhdfs

人生在勤，不索何获-白大侠·2023-11-15 20:13

Hadoop hdfs常用命令

1、查看文件大小用命令：hdfsdfs-du-s-hhdfsdfs-du-s-h/user/hive/warehouse/wxwy.db/nr_mro_lzo/partitionday=202109092、查看目录下是否有文件：hdfsdfs-lshdfsdfs-ls/user/hive/warehouse/wxwy.db/gongcan_qingming3、删除目录下文件：hdfsdfs-rm-

人生在勤，不索何获-白大侠·2023-11-15 20:43

印刷设备丝杆选择研磨杆还是冷轧杆好？

在印刷设备中，选择研磨杆还是冷轧杆取决于具体的使用需求和设备要求。以下是关于两种丝杆选择的要点：1、精度要求：研磨杆通常具有更高的制造精度，能够有效保证印刷设备的精度和稳定性。

GAOJ_K·2023-11-15 20:00

rpc源码解析

rpc源码解析1rpc设计和实现逻辑说明1.1设计1.2实现2调试3总结4后续安排如前所述,rpc是hadoop节藕各个功能模块的重要工具,相当于神经系统,串联各部分,使用频次最高,因此可以预见,rpc

码农包工头·2023-11-15 19:02

常见数据集成工具的对比: Apache SeaTunnel VS Flume VS DataX VS Sqoop

对比项ApacheSeaTunnelDataXApacheSqoopApacheFlume部署难度容易容易十分复杂，严重依赖Hadoop体系容易运行模式分布式，也支持单机单机本身不是分布式框架，依赖HadoopMR

追求进步的阶梯·2023-11-15 16:53

从0开始学大数据14-BigTable的开源实现：HBase

我们前面已经讲过了GFS对应的Hadoop分布式文件系统HDFS，以及MapReduce对应的Hadoop分布式计算框架MapReduce，今天我们就来领略一下BigTable对应的NoSQL系统

源码头·2023-11-15 15:48

hive更改表结构的时候报错

48cannotrecognizeinputnear'ADD''COLUMN''compete_company_id'inaltertablestatement23/11/1417:59:27ERRORorg.apache.hadoop.hive.ql.Driver

五月天的小迷弟·2023-11-15 11:26

Hive安装与配置

archive.apache.org/dist/hive/文档网址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual安装前提：3台虚拟机，安装了Hadoop

悠然予夏·2023-11-15 11:16

Spark DataFrame的创建

目录1.环境准备2.从txt文件创建DataFrame3.从RDD中创建DataFrame4.一些错误1.环境准备开启虚拟机、开启hadoop集群、开启spark集群、开启spark-shell、在spark-shell

连胜是我偶像·2023-11-15 09:56

hadoop 大数据环境配置同步时间 centos服务器时间同步 linux 安装ntp服务更新时间 hadoop（六）

1.安装ntp软件yuminstall-yntp2.创建软连接#删除之前得时间sudorm-rf/etc/localtime;#更新时区sudoln-s/usr/share/zoneinfo/Asia/Shanghai/etc/localtime3.更新时间#root权限运行sudontpdate-untp.aliyun.com4.开机自启，更新时间#开机启动sudosystemctlstartn

不努力就种地~·2023-11-15 06:46

centOS 7下Hadoop伪分布式搭建

记录笔记，尝试在centOS下安装Hadoop伪分布式（之前是在Ubuntu下安装的），查漏补缺。

wicjwnx·2023-11-15 05:20

CentOS7 Hadoop 3.3.4 集群安装（1 NameNode，3 DataNode）

集群网络配置：准备三台CentOS7的服务器：IP服务器名称192.168.21.25Master192.168.21.26Slave01192.168.21.27Slave02修改hosts#Master服务器vi/etc/hosts192.168.21.26Slave01192.168.21.27Slave02192.168.21.25Master#Slave01服务器vi/etc/hosts

YuG丶·2023-11-15 05:48

Ubuntu22.04 Hadoop3.3.4 jdk18.02 安装配置

落非·2023-11-15 05:15

hadoop3 伪分布式安装

1.环境准备最低硬件要求：CPU2核、内存：4G、硬盘：100GCentOS7最小安装JDK1.8HADOOP3.3.41.1.主机名和IP地址#编辑下方文件，修改内容为自己想要的主机名，如mitchell

被遗忘的优雅·2023-11-15 05:44

搭建Hadoop伪分布式集群

2.在Linux环境下完成伪分布式环境的搭建，并运行Hadoop自带的WordCount实例检测是否运行正常。【实验目的】1.掌握Linux虚拟机安装方法。

m0_58540923·2023-11-15 05:13

大数据技术栈-Hadoop3.3.4-完全分布式集群搭建部署-centos7（完全超详细-小白注释版）虚拟机安装+平台部署

目录环境条件：1、安装虚拟机（已安装好虚拟机的可跳转至二、安装JDK与Hadoop）（1）直接新建一台虚拟机（2）首次启用虚拟机，进行安装一、集群前置环境搭建（三台机器分别设置hostname、网卡（ip

Hao.715·2023-11-15 05:43

Hadoop伪分布式搭建

Hadoop伪分布式搭建目的准备支持的平台需要的软件下载伪分布式配置设置SSH免密登录启动hadoop验证文件分块查看上传后的文件目的本文档介绍如何设置和配置单节点Hadoop安装，以便您可以使用HadoopMapReduce

best program·2023-11-15 05:13

Hadoop完全分布式安装

Hadoop完全分布式安装前言之前有搭建过一次Hadoop完全分布式集群但是没有记录，最近开始着手自己搭个模拟数仓需要搭建集群，趁此机会记录一下搭建的过程。

薇安娜·2023-11-15 05:43

Centos7搭建hadoop3.3.4分布式集群

1、背景最近在学习hadoop，本文记录一下，怎样在Centos7系统上搭建一个3个节点的hadoop集群。2、集群规划hadoop集群是由2个集群构成的，分别是hdfs集群和yarn集群。

JAVA序码·2023-11-15 04:10

Hadoop3.3.4分布式安装

安装前提：已经配置好java环境，所有机器之间ssh的免密登录。注意：下文中的flinkv1、flinkv2、flinkv3是三台服务器的别名1.集群部署规划注意：NameNode和SecondaryNameNode不要安装在同一台服务器注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。2.上传安装包到linux系统上3

Appreciate(欣赏)·2023-11-15 04:39

【Spark学习笔记】- 1Spark和Hadoop的区别

目录标题Spark是什么SparkandHadoop首先从时间节点上来看:功能上来看:SparkorHadoopSpark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

拉格朗日(Lagrange)·2023-11-15 03:11

Spark学习笔记【基础概念】

文章目录前言Spark基础Spark是什么spark和hadoop区别Spark核心模块Spark运行模式Spark运行架构运行架构Executor与Core（核）并行度（Parallelism）有向无环图

java路飞·2023-11-15 03:40

配置好hivemetastore后使用show databases命令报错FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.Hi

！！！！注意：本篇帖子并不适合初始化未初始化hive的解决方案，在报这个错误之前，我已经配置好了hive的metastore为mysql并正常使用了一段时间。我的hive版本为2.3.9，mysql为5.7问题描述：首先，我是前面已经使用配置了mysql为hive的metastore并正常使用了一段时间，但是因为业务需要，在使用spark.sql操作hive时，我将jdbc的编码格式指定为了utf

倾斜的二叉树·2023-11-15 03:12

main ERROR Unable to invoke factory method in class class org.apache.hadoop.hive.ql.log.HushableRand

报错信息mainERRORUnabletoinvokefactorymethodinclassclassorg.apache.hadoop.hive.ql.log.HushableRandomAccessFileAppenderforelementHushableMutableRandomAccess.java.lang.reflect.InvocationTargetExceptionatsun

scdn_bcs·2023-11-15 03:11

APACHE-ATLAS-2.1.0 - 安装HIVE HOOK用于实时接收HIVE元数据的变化（五）

请提前安装好HADOOP和HIVE的环境，用于测试。

cloneme01·2023-11-15 03:39

zookeeper实践（搭建篇）

前言ZooKeeper是Hadoop家族的一款高性能的分布式协作的产品。在单机中，系统协作大都是进程级的操作。分布式系统中，服务协作都是跨服务器才能完成的。

Java蜗牛·2023-11-15 02:49

HADOOP学习_熟悉linux命令+启动hadoop

hadoop学习linux命令mkdirrmdircpmvrm查看文档内容新建文件找文件brew和tree的安装方法findlocategrep匹配字符串启动hadooplinux命令可以用man查看命令的详细用法

kkkAloha·2023-11-14 23:16

HADOOP学习_grep和wordcount的例子

两个小例子目录操作文件操作追加文件目录操作首先检查一下自己的hdfs是不是有/user路径http://localhost:50070/explorer.html#/没有就新建一个mac@kkkMachadoop

kkkAloha·2023-11-14 23:16

mapreduce--单词分析

WCDriverpackagecom.atguigu.mr.wordcount;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path

芝士小熊饼干·2023-11-14 23:44

hadoop之mapreduce详解

流程介绍：①②③InputFormatInputFormat接口决定了输入文件如何被Hadoop分块。InputFormat能够从一个

陈大豆·2023-11-14 21:10

Hadoop11：MapReduce介绍

一、Hadoop之MapReduce详解前面我们学习了Hadoop中的HDFS，HDFS主要是负责存储海量数据的，如果只是把数据存储起来，除了浪费磁盘空间，是没有任何意义的，我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容

做一个有趣的人Zz·2023-11-14 21:40

Hadoop MapReduce详解（一）

一、MapReduce简介之前我们我们讲解了Hadoop的分布式文件储存系统HDFS，曾把它比作一个工厂的仓库。

杨老七·2023-11-14 21:40

Hadoop学习--MapReduce流程详解

详细流程图（from：尚硅谷）大致流程注：在mapper类被调用之前的活动都是由InputFormat的类型来决定具体的执行策略的！1.InputSplit切片阶段InputSplit是MapReduce对文件进行处理和运算的输入单位，只是一个逻辑概念，每个InputSplit并没有对文件实际的切割，只是记录了要处理的数据的位置(包括文件的path和hosts)和长度(由start和length决

是渣渣呀·2023-11-14 21:34

【Hadoop】MapReduce详解

个人主页——开着拖拉机回家_大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、MapReduce概述1.1MapReduce介绍1.2MapReduce定义1.3MapReduce优缺点1.2.1.优点1.2.2.缺点1.4MapReduce框架结构二、WordCount案例三、MapReduce的运行机制详解3.1MapTask工作机制3.2ReduceTask工作机制3.

阿龙先生啊·2023-11-14 21:56

hadoop 大数据集群环境配置配置hadoop配置文件 hadoop(七)

1.虚拟机的三台机器分别以hdfs存储,mapreduce计算，yarn调度三个方面进行集群配置hadoop版本3.3.4官网：Hadoop–ApacheHadoop3.3.6jdk1.8三台机器尾号为

不努力就种地~·2023-11-14 21:42

hadoop 如何关闭集群 hadoop使用脚本关闭集群 hadoop(八)

1.hadoop22,hadoop23,hadoop24三台机器2.namenode所在hadoop22关闭hdfs:#找到/etc/hadoop位置cd/opt/module/hadoop-3.3.4

不努力就种地~·2023-11-14 21:39

Postgresql 查看表数据存储

可参看，http://blog.chinaunix.net/uid-24774106-id-3757916.htmlhttp://blog.csdn.net/jameshadoop/article/details

SmallBirds911·2023-11-14 19:03

sparkSQL读取Excel表格

转自：https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化SparkSessionstatic{System.setProperty("hadoop.home.dir

风是外衣衣衣·2023-11-14 18:52

Spark读取excle、xlsx数据(Session读取)

读取xlsx版本：IntelliJIDEACommunityEdition2019.2.4apache-maven-3.6.2Spark2.0.2hadoop2.6_Win_x64-master话不多说

阿朱__·2023-11-14 18:51

hadoop安装网址

Hadoop是什么1）Hadoop是一个有Apache基金会所开发的分布式系统基础架构。2）主要解决海量数据的存储和海量数据的分析计算问题。

北辰Charih·2023-11-14 17:24

深入理解Kafka3.6.0的核心概念，搭建与使用

Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop

Mumunu-·2023-11-14 16:44

[WSL] 安装hive3.1.2成功后, 使用datagrip连接失败

org.apache.hadoop.ipc.RemoteException:User:xxxisnotallowedtoimpersonateanonymous下载driver-hive-jdbc-3.1.2

言之。·2023-11-14 15:56

大数据环境通信不稳定

hbaseregionserver无法启动一例尤其是装hbase的时候指定了回环地址3，尤其是删除引起的全表扫描会容易出现业务服务日志Causedby:java.net.ConnectException:Calltohadoop01

yuhui66666688gfbfdy·2023-11-14 12:10

hadoop 大数据环境配置 rsync命令 hadoop(三)

1.rsync:意思remotesync.rsync被用在UNIX/Linux执行备份操作操作.rsync用来从一个位置到另一个位置高效地同步文件和文件夹.rsync可以实现在同一台机器的不同文件直接备份,也可以跨服务器备份.2.rsync特点：速度快安全:rsync可以使用ssh协议加密传输占用带宽少:rsync在发送时会压缩数据块,接收后再解压缩数据块.所以和其他文件传输协议比起来,rsync

不努力就种地~·2023-11-14 10:23

hadoop 大数据环境配置 ssh免密登录 centos配置免密登录 hadoop(四)

1.找到.ssh文件夹cd~2.生成私钥公钥命令：ssh-keygen-trsa3.发送到需要免密机器：#hadoop23是我做了配置。

不努力就种地~·2023-11-14 10:39

基于hadoop+hive的图书大数据分析平台

【24届大数据分析毕设之基于hadoop+hive的图书大数据分析平台】https://www.bilibili.com/video/BV1f8411r7wJ/?

源码空间站11·2023-11-14 10:21

推荐频道

研磨hadoop