大数据入门-hadoop 第10页

Hadoop原理

Hadoop框架分布式文件存储-HDFS即Hadoop内提供分布式数据存储的文件系统分布式计算框架-MapReduce即Hadoop内提供的进行分布式计算的组件分布式资源调度-YARN即Hadoop内提供的进行分布式资源调度的组件

我走之後·2024-02-02 14:25

大数据技术之Hadoop

我走之後·2024-02-02 14:54

PySpark（一）Spark原理介绍、PySpark初体验及原理

SparkVSHadoop尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于

独憩·2024-02-02 13:11

【livy】Spark Livy深究

的解决方案从任何地方提交job使用交互式的Scala、Python语言与远程的spark集群进行通信无需更改代码Livy的运作流程阐述Livy的安装、启动、访问Livy的启动：依次启动zookeeper集群、Hadoop

小赵要加油·2024-02-02 13:07

Iceberg从入门到精通系列之二十一：Spark集成Iceberg

从入门到精通系列之二十一：Spark集成Iceberg一、在Spark3中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十、使用目录特定的Hadoop

最笨的羊羊·2024-02-02 12:20

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3

王知无(import_bigdata)·2024-02-02 12:01

pyspark的安装及使用

遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载直接解压，注意路径不要有空格环境变量配置Path配置测试安装情况，cmd输入spark-shell出现WelcometoSpark表示安装成功，如果没有装Hadoop

a013067506e4·2024-02-02 11:56

Hadoop环境搭建

目录一、简介1.1、概念1.2、优势1.3、Hadoop组成部分二、Hadoop运行环境搭建2.1安装VM（虚拟机管理环境）2.2VM网络设置2.3安装CentOS7系统2.4master主机进行网络配置

业里村牛欢喜·2024-02-02 07:24

Hadoop-生产调优(更新中)

128*1024*1024*1024/150byte≈9.1亿GMBKBByte2）Hadoop2.x系列，配置NameNode内存NameNode内存默认2000m，如果内存服务器内存4G，NameNode

OnePandas·2024-02-02 07:47

Hadoop3.x基础（3）- MapReduce

MapReduce概述MapReduce定义MapReduce优缺点优点缺点MapReduce核心思想MapReduce进程常用数据序列化类型MapReduce编程规范WordCount案例实操本地测试提交到集群测试Hadoop

魅美·2024-02-02 07:45

（二）hadoop搭建

1.下载访问https://hadoop.apache.org/releases.html查看hadoop最新下载地址wgethttps://dlcdn.apache.org/hadoop/common

调试大师·2024-02-02 07:41

（一）hadoop搭建之环境准备1

1.参考http://www.fogsvc.com/97.html文档设置三台虚拟机并固定ip192.168.1.10hadoop-master192.168.1.11hadoop-slave1192.168.1.12hadoop-slave22

调试大师·2024-02-02 07:40

【Hive】配置

服务部署hiveserver2服务介绍部署启动远程连接1.使用命令行客户端beeline进行远程访问metastore服务运行模式部署其他常见配置显示当前表头和库日志配置Hive的JVM堆内存设置关闭Hadoop

返返返·2024-02-02 07:33

Hbase安装详解

node1、node2、node3(已在/etc/hosts文件里做好了ip和名字的映射)b、软件压缩包存储路径:/export/software/c、解压后安装包存储路径:/export/server/d、hadoop

沉默鹰_90·2024-02-02 06:30

HBase详细安装指南

HBase–HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在

嘎嘎嘎啊哈·2024-02-02 06:59

Java技术栈 —— Hive与HBase

一、参考文章或视频链接[1]《Java技术栈——Hadoop入门（一）》-CSDN二、如何

键盘国治理专家·2024-02-02 06:23

黑猴子的家：API 操作 HDFS 文件夹删除

1、Code->GitHubhttps://github.com/liufengji/hadoop_hdfs.git2、Code@TestpublicvoiddeleteAtHDFS()throwsException

黑猴子的家·2024-02-02 00:29

Java接收solr动态域_Solr和Spring Data Solr

Solr可以和Hadoop(http://www.yiibai.com/hadoop/)一起使用。由于Hadoop处理大量数据，Solr帮助我们从这么大的源中找到所需的信息。

weixin_39897015·2024-02-01 22:27

安装配置hive

[root@hadoop00~]#wget-chttps://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.7/apache-hive-2.3.7-

m0_69595107·2024-02-01 19:28

安装配置sqoop

一、了解Sqoop1、Sqoop产生的原因A.多数使用hadoop技术的处理大数据业务的企业，有大量的数据存储在关系型数据中。

m0_69595107·2024-02-01 19:27

Hadoop-3.1.3（四）读写流程详解

读文件流程客户端向namenode发起OpenFile请求，目的是获取要下载文件的输入流。namenode收到请求会后会检查路径的合法性，以及客户端的权限。客户端发起OpenFile的同时，还会掉用GetBlockLocation。当第一次的检验通过之后，namenode会将文件的块信息(元数据)封装到输入流，交给客户端。3.4.客户端用输入流，根据元数据信息去找指定的datanode读取文件块(

_大叔_·2024-02-01 19:38

全脂主妇·2024-02-01 17:31

开源大数据集群部署（八）Ranger编译部署

简单说明如下：在pom.xml中更改对应hadoop集群组件版本。ranger2编译前提条件是python3和mvn已安装完成。

云掣YUNCHE·2024-02-01 16:57

大数据开发流程图

1、大数据流程图2、大数据各个环节主要技术2.1、数据处理主要技术Sqoop：（发音：skup）作为一款开源的离线数据传输工具，主要用于Hadoop(Hive)与传统数据库（MySql,PostgreSQL

xyzkenan·2024-02-01 14:30

Cloudera Manager 安装 Kafka 并简单使用

Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群机来提供实时的消费。

大数据AI·2024-02-01 13:25

大数据之Spark

Spark介绍什么是Spark专为大规模数据处理而设计的快速通用的计算引擎类HadoopMapReduce的通用并行计算框架拥有HadoopMapReduce所具有的优点但不同于MapReduce的是Job

进击的-小胖子·2024-02-01 12:37

大数据之Spark:Spark大厂面试真题

2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？checkpoint检查点机制？

浊酒南街·2024-02-01 12:35

大数据之 Spark 与 Hadoop MapReduce 对比

ApacheSpark和ApacheHadoopMapReduce是两个广泛用于大数据处理的开源框架，它们在设计目标、性能表现和功能特性上有显著的不同点：执行模型：MapReduce(MR)：基于批处理模式

转身成为了码农·2024-02-01 12:30

大数据之 Spark Shuffle 和 Hadoop MapReduce Shuffle的区别

SparkShuffle和HadoopMapReduceShuffle是分布式计算框架中处理中间结果的关键阶段，它们的主要区别在于设计原理、执行效率和资源利用率：HadoopMapReduceShuffleSort-based

转身成为了码农·2024-02-01 12:30

spark处理速度为什么比MapReduce快？

官网的这张图下边有一行字：LogisticregressioninHadoopandSpark迭代场景下spark的处理速度大致是hadoop的100倍。️

CoreDao·2024-02-01 12:29

Hadoop-MapReduce-源码跟读-ReduceTask阶段篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、Reducer类我们先看下我们写的reduce所继承的

隔着天花板看星星·2024-02-01 09:54

Hadoop3.x基础（2）- HDFS

来源：B站尚硅谷目录HDFS概述HDFS产出背景及定义HDFS优缺点HDFS组成架构HDFS文件块大小（面试重点）HDFS的Shell操作（开发重点）基本语法命令大全常用命令实操准备工作上传下载HDFS直接操作HDFS的API操作HDFS的API案例实操HDFS文件上传（测试参数优先级）HDFS文件下载HDFS文件更名和移动HDFS删除文件和目录HDFS文件详情查看HDFS文件和文件夹判断HDFS

魅美·2024-02-01 09:22

Hadoop 已死，AI 吞噬世界！

【CSDN编者按】你用上GPT-4了吗？在数据领域，AI正逐步重塑数据处理和分析的各个环节，从ETL、数据治理到数据分析和消费方式均会发生根本性变化。Kyligence联合创始人&CEO，Apache顶级开源项目ApacheKylin的创建者韩卿（Luke.han）将用这篇文章来分享他在AI冲击开源领域之后引发的深度思考，其中涵盖了开源项目的商业化路径、技术变迁对行业格局的影响、AI对数据分析和业

CSDN资讯·2024-02-01 09:50

报错：ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing解决方案

错误如图：解决方案：1.输入cd/opt/zookeeper/bin进入zookeeper文件的bin目录下2.输入./zkCli.sh进入客户端3.删除hbase,输入rmr/hbase4.关闭hbase输入stop-hbase.sh如果未能退出，就使用kill-9进程号强制删除5.重新启动start-hbase.sh此时已经可以正常运行6.如果以上操作还是不成功删除hbase在hdfs的存储路

:）คิดถึง·2024-02-01 09:35

关于Hadoop进行namenode格式化时ERROR conf.Configuration: error parsing conf xxx.xml错误的问题

关于Hadoop进行namenode格式化时ERRORconf.Configuration:errorparsingconfxxx.xml错误的问题在配置完core-default.xml,mapred-site.xml

平江路的鱼·2024-02-01 09:34

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置

上一篇：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客目录1.Idea中配置LiveTemplates来快速生成代码片段2.Idea中配置文件模板自定义初始代码

王哪跑nn·2024-02-01 07:53

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

目录1.1Hadoop回顾1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4SparkCore编程体验1.4.1spark开发工程搭建1.开发语言选择：2.依赖管理工具：1.4.2Spark

王哪跑nn·2024-02-01 07:43

HBase介绍

GFS是GoogleFileSystem，开源实现是HDFS（HadoopFileSystem）。MapReduce计算框架的开源实现是HadoopMapReduce。

M.Rambo·2024-02-01 06:09

2019/2/20Hbase单节点安装

hbase（hbase-2.0.0-bin.tar.gz）解压过程即为安装过程解压=》为了让hbase的存放路径指定ns这个组名（防止出先不认识“ns”的错误）[root@zhiyou01~]#cp/usr/hadoop

阳光正好微风不燥_c509·2024-02-01 05:39

zookeeper集群群起脚本

所以要写个脚本，我的主机名是有规律的hadoop101;hadoop102;hadoop103所以创建脚本的过程如下：到/usr/local/bin目录下touch一个文件，这里我叫zkstartUtil.sh

小北觅·2024-02-01 05:01

Hadoop 大数据技术原理与应用

Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（

kk8_·2024-02-01 04:33

[绝对要收藏]配置hadoop完全分布式环境

##环境：hadoop-2.7.2，jdk1.8.0_144，CentOS-7-x86_64-Minimal-2009.iso1先创建一个主机2修改id，hostname，hosts3关闭防火墙4连接xshell5

Java小白中的菜鸟·2024-02-01 03:04

Sqoop数据迁移工具

概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。

小希 fighting·2024-02-01 03:55

Hadoop 生产调优 (七) --------- MapReduce 与 Yarn 生产经验

目录一、MapReduce生产经验1.MapReduce跑的慢的原因2.MapReduce常用调优参数3.MapReduce数据倾斜问题二、Yarn生产经验1.常用的调优参数2.三种调度器的使用一、MapReduce生产经验1.MapReduce跑的慢的原因MapReduce程序效率的瓶颈在于两点：计算机性能CPU、内存、磁盘、网络I/O操作优化数据倾斜Map运行时间太长，导致Reduce等待过久

在森林中麋了鹿·2024-02-01 03:17

windows 下面Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativei...

本地运行，注意两点,配置本地的hadoop环境变量，注意hadoop版本是windows版本，在本地跑的时候遇到Exceptioninthread"main"java.lang.UnsatisfiedLinkError

smartjiang·2024-02-01 02:20

大数据高频面试题一：hive和Oracle的区别

Hive和Oracle数据库最大的区别在于存储和计算方面：Hive存储在hdfs上（Hadoop分布式文件系统容错性高），Oracle将数保存在本地文件系统中。

半亩书田·2024-02-01 02:47

解决There are 0 datanode(s) running and no node(s) are excluded in this operation.

出现上述问题可能是格式化两次hadoop，导致没有datanode解决方法1：重启linux,再使用start-dfs.sh和start-yarn.sh重启一下hadoop解决办法2：找到hadoop安装目录下

有一束阳光叫温暖·2024-01-31 23:56

Java基础-多线程（3）

如hadoop分布式集群。所以并发编程的目标是充分的利用处理器的每一个核，以达到最高的处理性能。36.线程和进程的区别？简而言之，进程是程序运行和资源分配的基本

C乖·2024-01-31 16:51

数据湖技术Iceberg0.12预研文档

trino(presto)本次预研使用组件如下：名称版本描述flink1.12.1通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.3.7包含cdh中（更换jar升级替换）hadoop3.0.0cdh

我去探险了·2024-01-31 15:36

Ambari2.7.3 和HDP3.1.0搭建Hadoop集群

一、环境及软件准备1、集群规划hadoop01/192.168.0.151hadoop02/192.168.0.152hadoop03/192.168.0.153hadoop04/192.168.0.154hadoop05

大道至简非简·2024-01-31 13:04

推荐频道

大数据入门-hadoop