Hadoop大数据相关第17页

Spark(一): 基本架构及原理

前言:目标：架构及生态：Spark与hadoop:运行流程及特点：常用术语:Spark运行模式：RDD运行流程：前言:ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009

贝賏赑钡·2024-01-20 22:46

大数据导论（3）---大数据技术

文章目录1.大数据技术概述2.数据采集与预处理2.1数据采集2.2预处理3.数据存储和管理3.1分布式基础架构Hadoop3.2分布式文件系统HDFS3.3分布式数据库HBase3.4非关系型数据库NoSQL4

冒冒菜菜·2024-01-20 21:28

Sqoop与HBase结合使用：实现强大的数据存储

Sqoop用于将数据从关系型数据库导入到Hadoop生态系统中，而HBase则用于实时、非关系型数据存储和查询。

晓之以理的喵~~·2024-01-20 19:57

使用Sqoop从Oracle数据库导入数据

在大数据领域，将数据从关系型数据库（如Oracle）导入到Hadoop生态系统是一项常见的任务。Sqoop是一个强大的工具，可以帮助轻松完成这项任务。

晓之以理的喵~~·2024-01-20 19:27

Sqoop数据传输中的常见挑战及其解决方法

Sqoop是一个用于将数据传输到Hadoop生态系统的强大工具，但在实际使用中，可能会面临一些挑战。

晓之以理的喵~~·2024-01-20 19:26

创建虚拟机

弹出如下对话框，点击“下一步”3.继续点击“下一步”4.选择“稍后安装操作系统”，然后点击“下一步”5.在版本下拉框中选择“CentOS764位”，然后点击“下一步”6.给虚拟机起一个名字，本机叫做“Hadoop100

吃草料的羊·2024-01-20 19:56

大数据Hadoop入门——HDFS分布式文件系统基础

HDFS命令基础语法：【hadoopfs具体命令、hdfsdfs具体命令】两个是完全相同的。显示文件列表#hdfsdfs-lsURL创建目录#hdfsdfs-mkdir[-p]URL使用-p参数可以

nucty·2024-01-20 16:00

Zookeeper简介

一、Zookeeper简介ZooKeeper是一个分布式的、开放源码的分布式应用程序协调服务，它是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

破茧......·2024-01-20 16:35

大数据技术之Hadoop伪分布式安装步骤及结果（Ubuntu）

、下载安装虚拟机软件；下载Ubuntu镜像文件，安装Ubuntu虚拟机；2、在Ubuntu系统中创建用户、更新APT、安装SSH并配置SSH无密码登录、安装Java环境、配置PATH环境变量；3、下载Hadoop

小嘤嘤怪学·2024-01-20 16:52

【大数据】了解 YARN 架构的基础知识

3.1.2ApplicationManager应用程序管理器3.2NodeManager节点管理器3.3ApplicationMaster应用程序主控3.4Container容器4.在YARN中提交应用程序5.HadoopYARN

G皮T·2024-01-20 14:23

Hive性能优化

sum,count,max,min等UDAF，不怕数据倾斜问题,hadoop在map端的汇总合并优化，使数据倾斜不成问题。count(distinct),在数据量大的情况下，效率较

La victoria·2024-01-20 13:23

hive Error while compiling statement: FAILED: ClassCastException org.apache.hadoop.hive.serde2.objec

Errorwhilecompilingstatement:FAILED:ClassCastExceptionorg.apache.hadoop.hive.serde2.objectinspector.primitive.WritableConstantStringObjectInspectorcannotbecasttoorg.apache.hadoop.hive.serde2

圆周率的后六位·2024-01-20 12:35

hadoop运行任务出错，Hive Runtime Error while processing row

Error:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeErrorwhileprocessingrow

圆周率的后六位·2024-01-20 12:05

Hadoop配置文件加载

1.hadoop使用org.apache.hadoop.conf.Configuration类来加载配置文件2.一般我们在写客户端程序等需要连接hadoop集群时，需要自己准备好core-site.xml

sf_www·2024-01-20 11:52

程序员必备的面试技巧——大数据工程师面试必备技能

目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位

Francek Chen·2024-01-20 11:22

Hadoop基础知识

Hadoop基础知识1、Hadoop简介广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

坐在风口上de猪·2024-01-20 10:10

大数据开发之Hadoop（完整版+练习）

第1章：Hadoop概述1.1Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决，海量数据的存储和海量数据的分析计算问题。

Key-Key·2024-01-20 10:36

Kylin安装学习教程

Kylin安装学习教程Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL接口及多维分析（OLAP）能力以支持大数据分析，最初由eBayInc.开发并贡献到开源社区。

Luo_Yang111·2024-01-20 09:28

黑猴子的家：Linux 文件有空格或特殊字符--转义

1、使用window斜杠""转义处理[victor@hadoop102~]$cdwindow\vnc/2、使用英文双引号处理[victor@hadoop102~]$cd"windowvnc"

黑猴子的家·2024-01-20 07:10

Windows平台安装配置Hadoop2.7.X

一，准备1.安装jdk1.82.下载hadoop2.7.7.tar.gz官网下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7

sun_十一·2024-01-20 04:23

余老师带你学习大数据-Spark快速大数据处理第十章Kafka第八节Kafka-Connect

kafkaKafkaConnect基本概念1、KafkaConnect是Kafka流式计算的一部分，左侧是数据源包括了数据库、hadoop、文本等等，右侧是数据结果包括了文本、hadoop、数据库，中间上层就是

weixin_45810046·2024-01-20 03:41

Kylin基础教程（一）

一、Kylin介绍1.1现状Hadoop于2006年初步实现，改变了企业级的大数据存储（基于HDFS）和批处理（主要基于MR）问题，10几年过去了，数据量随着互联网的发展井喷式增长，如何高速、低延迟的分析数据成为后续面临的挑战

GOD_WAR·2024-01-20 03:43

kylin安装学习教程

ApacheKylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL接口及多维分析（OLAP）能力以支持大数据分析，最初由eBayInc.开发并贡献到开源社区。

打工人何苦为难打工人·2024-01-20 03:07

Kylin安装学习教程

ApacheKylin是一个开源的分布式分析引擎，提供Hadoop/Spark上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据。

终将老去的穷苦程序员·2024-01-20 03:04

CVE-2023-46226 Apache iotdb远程代码执行漏洞

它具有体量轻、性能高、易使用的特点，完美对接Hadoop与Spark生态，适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。

棱镜七彩·2024-01-20 02:27

超详细版Hadoop的安装与使用（单机/伪分布式）

一、首先安装VMware虚拟机虚拟机安装包以及UbuntuISO映像下载：https://pan.baidu.com/s/19Ai5K-AA4NZHpfMcCs3D8w?pwd=9999下载完成后，进入VMware，点击右上角【文件】——【新建虚拟机向导】1.1选择典型1.2选择光盘映像映像文件选择上方刚刚下载的ubuntukylin-16.04-desktop-amd641.3命名根据自己需求来

比护隆佑·2024-01-19 23:49

hadoop dfs web页面访问增加鉴权

前言装好了Hadoop，通过浏览器访问，发现竟然不需要鉴权就能访问，且暴露了很多服务器层文件路径信息，基于多年积累的安全意识，必须得配置些鉴权信息，就有了该文，仅做学习记录，下次自己再装时能提高效率。

花菜回锅肉·2024-01-19 21:10

【个人笔记】由浅入深分析 ClickHouse

大家想了解更多大数据相关内容请移驾我

garagong·2024-01-19 21:32

Hadoop 伪分布式坏境搭建

环境说明：VM上ubuntu16.04版本安装hadoop前的准备（1）ssh免密登录（2）配置好Java环境（1）（2）步骤的安装见网上博客安装Hadoop（1）下载hadoop到上一篇博客给出的网下载

zoux·2024-01-19 19:16

大数据开发之Hadoop（优化&新特征）

第1章：HDFS-故障排除注意：采用三台服务器即可，恢复到Yarn开始的服务器快照。1.1集群安全模块1、安全模式：文件系统只接收读数据请求，而不接收删除、修改等变更请求2、进入安全模式场景1）NameNode在加载镜像文件和编辑日志期间处于安全模式2）NameNode再接收DataNode注册时，处于安全模式3）退出安全模式条件dfs.namenode.safemode.min.datanode

Key-Key·2024-01-19 10:50

caused by: java.lang.outofmemory_hadoop运行java.lang.OutOfMemoryError:java heap space错误。

99M的文件，运行时出现下面的问题：java.lang.RuntimeException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.util.ReflectionUtils.newInstance

weixin_39662834·2024-01-19 08:16

一站式大数据平台XSailboat简介--Hadoop、Hive、Flink、DataStudio、数据服务、API网关、认证中心、数据可视化、离线分析、实时计算、应用引擎等

在接下来的一段时间，笔者将陆续编写一些关于大数据平台实现相关的技术文档，有兴趣的从事大数据相关的同学，可以关注收藏一下，交流一下开发技术。

OkGogooXSailboat·2024-01-19 06:26

大数据开发之Hadoop（MapReduce）

第1章：MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

Key-Key·2024-01-19 06:40

大数据开发之Hadoop（Yarn）

第1章：Yarn资源调度器思考：1、如何管理集群资源？2、如何给任务合理分配资源？Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.1Yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成

Key-Key·2024-01-19 06:09

linux安装hadoop详细步骤

以下是在Linux系统上安装Hadoop的详细步骤：下载Hadoop文件在Hadoop官方网站上下载最新的稳定版本的Hadoop文件。

酷爱码·2024-01-19 06:08

hadoop下载，安装

下载：https://mirrors.tuna.tsinghua.edu.cn/从清华源下载找到apache找到hadoop找到对应的版本使用64位版本上传到linux的/usr/local目录下使用tar-zxvf

三木一立·2024-01-19 06:33

spark读取hive的数据

/dev/make-distribution.sh--tgz--namewith-hive-Pyarn-Phadoop-2.7-Dhadoop.version=2.7.7-Phive-Phive

IT烧麦·2024-01-19 04:17

HBase第一章：集群搭建

：集群搭建文章目录系列文章目录前言一、环境准备二、上传HBase三、上传HBase四、配置参数五、分发测试六、高可用总结前言Hive的内容基本算是学完了，太深入的东西，现在没有必要死磕，接下来我们学习hadoop

超哥--·2024-01-19 00:57

HBase学习总结(1)：HBase的下载与安装

(HBase是一种数据库：Hadoop数据库，它是一种NoSQL存储系统，专门设计用来快速随机读写大规模数据。本文介绍HBase的下载与安装的整个过程。)

蝶Wu天涯·2024-01-19 00:25

hbase学习笔记-hbase集群安装部署

上传安装包到服务器4、解压安装包到指定的规划目录tar-zxvfhbase-2.0.0-bin.tar.gz-C/opt/bigdata5、重命名解压目录mvhbase-2.0.0hbase6、修改配置文件1、需要把hadoop

陈同学：·2024-01-19 00:22

HBase集群部署

前提条件安装hbse的前提条件是jdk已经搭建完成，虚拟机具有Hadoop伪分布式或完全分布式的集群搭建，以及zookeeper环境搭建完成。

Golden life·2024-01-19 00:21

【大数据】HBase集群安装部署

一、前提条件服务器配置好，搭建大数据集群服务器看这篇：搭建学习使用的大数据集群环境：windows使用vmware安装三台虚拟机，配置好网络环境安装好对应版本的hadoop集群，并启动安装好对应版本的zookeeper

橙子园·2024-01-19 00:51

Hbase高可用集群部署

Zookeeper集群的正常部署并启动Hadoop集群的正常部署并启动配置环境变量vi/etc/profile#Hbase-HAexportHBASE_HOME=/home/xyp9x/hbase-2.0.5

衡超越爱学习~·2024-01-19 00:21

HBase学习三：集群部署

集群启停顺序：启动Hadoop—>启动HBase—>关闭HBase—>关闭Hadoop1环境准备1.0环境前期准备参考基础环境配置1.1机器准备hostnameipvm1ip1vm2ip2vm3ip31.2

Studying！！！·2024-01-19 00:50

Hadoop的心脏：中央异步调度器AsyncDispatcher代码和设计解析

以Yarn、HDFS和MapReduce为主要组成的Hadoop，涉及到大量复杂的、交互的事件处理、状态转换，同时，这些事件调度和状态转换又对实时性和效率提出了极高的要求。

麦兜和小可的舅舅·2024-01-18 22:56

Hadoop RPC Server基于Reactor模式和Java NIO 的架构和原理

文章目录前言JavaNIO简介Reactor设计模式详解1.Reactor设计模式概览2.RPC总服务启动3.Listener4.Reader5.Handler6.Responder结束前言HadoopRPC

麦兜和小可的舅舅·2024-01-18 22:26

HDFS WebHDFS 读写文件分析及HTTP Chunk Transfer Encoding相关问题探究

文章目录前言需要回答的首要问题DataNode端基于Netty的WebHDFSService的实现基于重定向的文件写入流程写入一个大文件时WebHDFS和HadoopNative的块分布差异基于重定向的数据读取流程尝试读取一个小文件尝试读取一个大文件读写过程中的

麦兜和小可的舅舅·2024-01-18 22:52

Hive入门

介绍Hive是一个基于Hadoop的数据仓库工具，它可以将结构化数据文件映射成一张表，然后通过类似SQL的查询语句来执行查询。

kongxx·2024-01-18 17:11

MacBook Linux安装zookeeper

MacBookLinux安装zookeeperZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

beyond阿亮·2024-01-18 17:12

虚拟机中配置hadoop

一、可以先在windows系统下下载好需要安装的hadoop版本比如：hadoop-3.1.3.tar.gz。

※海绵※的笑~·2024-01-18 14:40

推荐频道

Hadoop大数据相关

Spark(一): 基本架构及原理

大数据导论（3）---大数据技术

Sqoop与HBase结合使用：实现强大的数据存储

使用Sqoop从Oracle数据库导入数据

Sqoop数据传输中的常见挑战及其解决方法

创建虚拟机

大数据Hadoop入门——HDFS分布式文件系统基础

Zookeeper简介

大数据技术之Hadoop伪分布式安装步骤及结果（Ubuntu）

【大数据】了解 YARN 架构的基础知识

Hive性能优化

hive Error while compiling statement: FAILED: ClassCastException org.apache.hadoop.hive.serde2.objec

hadoop运行任务出错，Hive Runtime Error while processing row

Hadoop配置文件加载

程序员必备的面试技巧——大数据工程师面试必备技能

Hadoop基础知识

大数据开发之Hadoop（完整版+练习）

Kylin安装学习教程

黑猴子的家：Linux 文件有空格或特殊字符--转义

Windows平台安装配置Hadoop2.7.X

余老师带你学习大数据-Spark快速大数据处理第十章Kafka第八节Kafka-Connect

Kylin基础教程（一）

kylin安装学习教程

Kylin安装学习教程

CVE-2023-46226 Apache iotdb远程代码执行漏洞

超详细版Hadoop的安装与使用（单机/伪分布式）

hadoop dfs web页面访问增加鉴权

【个人笔记】由浅入深分析 ClickHouse

Hadoop 伪分布式坏境搭建

大数据开发之Hadoop（优化&新特征）

caused by: java.lang.outofmemory_hadoop运行java.lang.OutOfMemoryError:java heap space错误。

一站式大数据平台XSailboat简介--Hadoop、Hive、Flink、DataStudio、数据服务、API网关、认证中心、数据可视化、离线分析、实时计算、应用引擎等

大数据开发之Hadoop（MapReduce）

大数据开发之Hadoop（Yarn）

linux安装hadoop详细步骤

hadoop下载，安装

spark读取hive的数据

HBase第一章：集群搭建

HBase学习总结(1)：HBase的下载与安装

hbase学习笔记-hbase集群安装部署

HBase集群部署

【大数据】HBase集群安装部署

Hbase高可用集群部署

HBase学习三：集群部署

Hadoop的心脏：中央异步调度器AsyncDispatcher代码和设计解析

Hadoop RPC Server基于Reactor模式和Java NIO 的架构和原理

HDFS WebHDFS 读写文件分析及HTTP Chunk Transfer Encoding相关问题探究

Hive入门

MacBook Linux安装zookeeper

虚拟机中配置hadoop