hadoop开发运维第33页

《PySpark大数据分析实战》-04.了解Spark

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-24 10:32

《PySpark大数据分析实战》-06.安装环境准备

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-24 10:32

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-24 10:32

《PySpark大数据分析实战》-02.了解Hadoop

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-24 10:02

《PySpark大数据分析实战》-01.关于数据

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-24 10:01

《PySpark大数据分析实战》-18.什么是数据分析

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-24 10:01

Flink数据类型&&序列化&&序列化器

2、一些RPC框架也提供序列化功能，比如：（1）最初用于Hadoop的【ApacheAvro】（2）Facebook开发

@可能·2023-12-24 08:50

大数据高级开发工程师——Hadoop学习笔记（7）

文章目录Hadoop进阶篇YARN：Hadoop资源调度系统什么是YARNYARN架构剖析1.ResourceManager2.NodeManager3.Container4.ApplicationMaster5

讲文明的喜羊羊拒绝pua·2023-12-24 08:24

Hadoop学习笔记（一）分布式文件存储系统 —— HDFS

概念HDFS（HadoopDistributedFileSystem），Hadoop分布式文件系统，用来存超大文件的。

zhang35·2023-12-24 08:54

大数据高级开发工程师——Hadoop学习笔记（1）

文章目录Hadoop基础篇Hadoop集群安装环境准备服务器准备设置时钟同步三台虚拟机添加普通用户三台虚拟机定义统一目录三台虚拟机hadoop用户设置免密登录三台虚拟机安装jdkhadoop集群安装环境部署规划安装包下载查看

讲文明的喜羊羊拒绝pua·2023-12-24 08:53

Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

pwd=5ay8Hadoop入门学习笔记（汇总）目录二、在虚拟机里部署HDFS集群2.1.部署node1虚拟机2.2.部署node2和node3虚拟机2.3.初始化并启动Hadoop集群（格

faith瑞诚·2023-12-24 08:23

Hadoop学习笔记(3)——MapReduce入门

一、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。”map"负责分，即把复杂的任务分解为若干简单的任务来处理。前提是这些小任务可以并行计算，彼此间几乎没有依赖关系“Redude”负责合，即对map阶段的结果进行全局汇总1.MapReduce设计构思MapRed

今天有没有写代码·2023-12-24 08:53

hadoop大数据学习笔记

一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。

驰宇爱吃鱼·2023-12-24 08:53

在虚拟机中执行Hive命令该如何操作呢？

前期准备配置hive环境启动hive#输入用户名密码，登录hadoop⽤户#启动集群[hadoop@node100hadoop]$start-all.sh#进⼊到hive安装⽬录[hadoop@node100ha

纪筱白·2023-12-24 08:53

linux及hadoop入门,Hadoop学习全程记录——Hadoop入门

开始学习Hadoop，从今天起，想把我学习hadoop全过程记录一下。我会记录在学习过程中碰到的问题、困难以及解决方法等等，如果你也是刚学hadoop，我们可以一起讨论。

weixin_39675926·2023-12-24 08:23

Hadoop+Hive学习笔记-4

Hadoop集群搭建配置三台虚拟机之间的免密登录1切换到root用户：crontab-e在第一行写入：*/5****/usr/sbin/ntpdatentp1.aliyun.com三台机器都一同操作，这一步让三台机器的时间服务器一致

fwings260·2023-12-24 08:22

hadoop学习笔记(五)Hive安装部署

Hive安装部署Hive安装及配置配置已经完成,在此处启动hadoop集群Hive常用命令将本地文件导入Hive案例安装MySqlHive元数据配置到MySqlHive安装及配置下载地址:https:/

So.j·2023-12-24 08:22

Hadoop学习之HDFS——小白入门笔记

一、分布式文件系统1.分布式文件系统解决问题：海量数据的高效存储2.分布式文件系统是将文件分布存储到多个计算机节点上。（此处的计算机为普通计算机）3.分布式文件系统的多个节点分为两类：名称节点（主节点）：文件、目录的操作（创建、删除、重命名等），数据节点与文件块的映射关系数据节点（从节点）：数据的读取与存储二、HDFS概念1.名称节点：管理分布式文件的命名空间。包含FsImage，Editlog两

cainiao22222·2023-12-24 08:52

SpringBoot 3 集成Hive 3

前提条件:运行环境：Hadoop3.*+Hive3.

在奋斗的大道·2023-12-24 07:46

Hadoop入门学习笔记——六、连接到Hive

pwd=5ay8Hadoop入门学习笔记（汇总）目录六、连接到Hive6.1.使用Hive的Shell客户端6.2.使用Beeline客户端连接HiveServer2操作Hive6.3.使用

faith瑞诚·2023-12-24 07:10

Hadoop入门学习笔记——五、在虚拟机中部署Hive

pwd=5ay8Hadoop入门学习笔记（汇总）目录五、在虚拟机中部署Hive5.1.在node1虚拟机安装MySQL5.2.配置Hadoop5.3.下载并加压Hive5.4.下载MySQL

faith瑞诚·2023-12-24 07:09

Hadoop入门学习笔记——三、使用HDFS文件系统

pwd=5ay8Hadoop入门学习笔记（汇总）目录三、使用HDFS文件系统3.1.使用命令操作HDFS文件系统3.1.1.HDFS文件系统基本信息3.1.2.HDFS文件系统的2套命令体系

faith瑞诚·2023-12-24 07:39

Hadoop入门学习笔记——四、MapReduce的框架配置和YARN的部署

pwd=5ay8Hadoop入门学习笔记（汇总）目录四、MapReduce的框架配置和YARN的部署4.1.配置MapReduce和YARN4.2.YARN集群启停脚本4.2.1.一键启停脚

faith瑞诚·2023-12-24 07:39

Hadoop入门学习笔记——七、Hive语法

pwd=5ay8Hadoop入门学习笔记（汇总）目录七、Hive语法7.1.数据库相关操作7.1.1.创建数据库7.1.2.选择数据库7.1.3.描述数据库详细信息7.1.4.创建数据库并指

faith瑞诚·2023-12-24 07:37

Hadoop入门学习笔记——一、VMware准备Linux虚拟机

pwd=5ay8Hadoop入门学习笔记（汇总）目录一、VMware准备Linux虚拟机1.1.VMware安装Linux虚拟机1.1.1.修改虚拟机子网IP和网关1.1.2.安装Linux

faith瑞诚·2023-12-24 07:37

【zookeeper特点】

文章目录1.Zookeeper介绍2、ZooKeeper数据结构1.Zookeeper介绍ZooKeeper是一个开源的分布式协调框架，是ApacheHadoop的一个子项目，主要用来解决分布式集群中应用系统的一致性问题

向前再向前·2023-12-24 06:33

【kafka】在linux中安装并简单部署使用

消息代理下载本地伪分布式安装配置启动伪分布式集群创建主题消费者生产者简介分布式流处理平台：发布订阅消息队列、具有存储功能、一个流处理框架优势吞吐量好，性能好伸缩性好，支持在线扩展容错性和可靠性（容错性：一个消息存储三份）与大数据生态紧密结合，可无缝对接hadoop

古枫桐·2023-12-24 05:35

Hadoop

一、大数据分布式1.1数据导论1.什么是数据？人类的行为及产生的事件的一种记录称之为数据2.数据有什么价值？对数据的内容进行深入分析，可以更好的帮助了解事和物在现实世界的运行规律比如，购物的订单记录（数据）可以帮助平台更好的了解消费者，从而促进交易。1.2大数据诞生1.大数据的诞生是跟随着互联网的发展的当全球互联网逐步建成（2000年左右），各大企业或政府单位拥有了海量的数据亟待处理。基于这个前提

weixin_50458070·2023-12-24 05:33

7000字超详细讲解Hadoop、Spark、Storm、YARN，建议收藏！

一、Hadoop1.1.概念就是一个大数据解决方案。它提供了一套分布式系统基础架构。核心内容包含hdfs和mapreduce。

套马杆的程序员·2023-12-24 04:49

数据同步利器之seatunnel篇

前言前面几篇文章分别介绍了hadoop生态圈的一些组件，但都是用来处理和接收消息的，虽然也具备同步数据的能力，但或多或少的都会涉及一些编程相关的知识，对于只是简单快速的数据同步需求来说，可能稍显麻烦，这时候就如果有一个数据同步的工具

以茉萱·2023-12-24 02:48

hadoop 3.3.3集群安装部署

由于之前项目使用的都是成熟的大数据产品CDH或者HDP，里面封装了多个大数据组件，对于企业而言，无论是体验还是维护都比较友好，但对于开发人员来说，太过于集成，反而不太好了解各个组件具体的配置细节，本篇文章就从hadoop

以茉萱·2023-12-24 02:18

zookeeper3.7.1集群部署安装

[在这里插入图片描述](https://img-blog.csdnimg.cn/direct/05315462411f4157ad6f0bd72b288749.png)总结前言上篇内容关于hadoop集

以茉萱·2023-12-24 02:18

千亿级工业大数据的最优方案！智光电气的时序数据库应用

小T导读：此前，智光电气（股票代码：002169）子公司智光研究院在工业项目中使用基于ApacheHadoop的CDH集群来做时序业务数据的处理，但由于数据量级太大，处理占用了大量资源，导致集群有发生崩溃的风险

涛思数据（TDengine）·2023-12-24 01:25

【基础知识】大数据组件YARN简述

YARN是Hadoop系统的核心组件，主要功能包括负责在Hadoop集群中的资源管理，负责对作业进行调度运行以及监控。

偏振万花筒·2023-12-23 22:28

Hive文件存储与压缩

压缩和存储1、Hadoop压缩配置1)MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否GzipgzipDEFAULT.gz否bzip2bzip2bzip2

新鲜氧气·2023-12-23 22:24

浅谈Hadoop容错机制

简单介绍一下Hadoop中数据存储的可靠性和完整性，其中包括HDFS的容错机制、NameNode(元数据结点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与DataNode之间的心跳检测机制

小小少年Boy·2023-12-23 15:19

Docker 学习笔记

开发–运维问题，环境配置是十分麻烦，每一个机器都要部署环境（Redis，Es，Hadoop）费时费力发布一个项目（jar+（RedisMysqljdkes））项目能不能都带上环境安装打包之前在服务器配置一个应用的环境

IT小学僧·2023-12-23 14:19

MINIO在java中的使用

对象存储可以充当主存储层，以处理Spark、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为HadoopHDFS的替代品--------引自官网的话。

IT小学僧·2023-12-23 14:48

通过HDFS API进行HDFS操作

HDFSJavaAPI位于org.apache.hadoop.fs包中，这些API能够支持的操作包括打开文件、读写文件、删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem。

CDHong.it·2023-12-23 14:30

Hadoop _HDFS_API 创建文件夹

创建文件夹在文件夹里输入代码，创建文件夹客户端代码常用套路1、获取一个客户端对象2、执行相关的操作指令3、关闭资源代码如下：packagecom.atguigu.hdfs;importorg.apache.hadoop.conf.Configuration

笨鸟先-森·2023-12-23 14:29

Hadoop之HDFS的API操作

1、环境准备1.1、下载window版本的hadoop-3.1.01.2、配置HADOOP_HOME环境变量1.2、配置Path环境变量2、代码演示2.1、创建maven项目，导入pom坐标org.apache.hadoophadoop-client3.1.3junitjunit4.12org.slf4jslf4j-log4j121.7.302.2

后端技术那点事·2023-12-23 14:28

Hadoop学习之HDFS（HDFS客户端及API操作）心得

HDFS客户端及API操作：一、准备条件：1.配置环境变量HADOOP_HOME(路径要求非中文)2.验证环境变量，双击winutils.exe（报错可能是缺少微软运行库MSVCR120.dll）3.在

顺其自然的济帅哈·2023-12-23 14:58

大数据—Hadoop（四）_ HDFS_03、客户端API

文章目录1、客户端环境准备1.1idea1.2window依赖2、HDFS的API案例实操2.1HDFS文件上传（测试参数优先级）2.1.1客户端代码常用套路2.1.2普通版2.1.3优化后2.1.4上传文件，修改@Test2.1.5补充：API参数优先级(由低到高)2.1.5.1hdfs-default.xml（最低）2.1.5.2hdfs-site.xml2.1.5.3代码中的配置（最高）2.

大数据之负·2023-12-23 14:58

Hadoop中HDFS的API操作、客户端环境准备、配置HADOOP_HOME环境变量

文章目录7.HDFS的API操作7.1客户端环境准备7.1.1下载下面的Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\）7.1.2配置HADOOP_HOME环境变量7.1.3

Redamancy_06·2023-12-23 14:27

hadoop02_HDFS的API操作

HDFS的API操作1HDFS核心类简介Configuration类：处理HDFS配置的核心类。FileSystem类：处理HDFS文件相关操作的核心类,包括对文件夹或文件的创建，删除，查看状态，复制，从本地挪动到HDFS文件系统中等。Path类：处理HDFS文件路径。IOUtils类：处理HDFS文件读写的工具类。2HDFS文件处理类FileSystem的核心方法介绍：1.FileSystemg

程序喵猴·2023-12-23 14:57

Koordinator 支持 K8s 与 YARN 混部，小红书在离线混部实践分享

背景介绍Koordinator是一个开源项目，基于阿里巴巴在容器调度领域多年累积的经验孵化诞生，目前已经支持了K8s生态内的在离线混部，然而在K8s生态外，仍有相当数量的用户会将大数据任务运行在ApacheHadoopYARN

阿里云云原生·2023-12-23 13:28

DBeaver连接hive

1.新建hive连接其中主机填写hive所在节点地址，端口10000为默认，数据库名不填则是默认default数据库，用户名密码填写hadoop集群中能操作hdfs的用户和密码。

sunweiking·2023-12-23 12:38

Hadoop之Yarn

Yarn是Hadoop2.0引入的集群资源管理系统。用户可以将各种服务框架部署在Yarn上，由Yarn进行统一地管理和资源分配。

TZX_0710·2023-12-23 12:27

【数仓_01】用户行为采集平台

具体版本1.6集群规模2、用户行为数据生成2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块4.1数据通道4.2环境准备4.2.1集群所有进程查看脚本4.3Hadoop

温欣2030·2023-12-23 10:43

hadoop(十二)——自定义分区Partitioner

我们学习Partitioner不用举那么复杂的例子，就举一个简单的例子就好了，在第十二节课学习了一个DataCount的小例子，地址：http://blog.csdn.net/u012453843/article/details/52600313我们就在这个程序的基础上加上我们自定义的分区功能。我们先来看看DataCount这个程序最终的执行结果是什么样子的，在查看之前我们需要先启动hdfs和ya

文子轩·2023-12-23 08:05

推荐频道

hadoop开发运维

《PySpark大数据分析实战》-04.了解Spark

《PySpark大数据分析实战》-06.安装环境准备

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

《PySpark大数据分析实战》-02.了解Hadoop

《PySpark大数据分析实战》-01.关于数据

《PySpark大数据分析实战》-18.什么是数据分析

Flink数据类型&&序列化&&序列化器

大数据高级开发工程师——Hadoop学习笔记（7）

Hadoop学习笔记（一）分布式文件存储系统 —— HDFS

大数据高级开发工程师——Hadoop学习笔记（1）

Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

Hadoop学习笔记(3)——MapReduce入门

hadoop大数据学习笔记

在虚拟机中执行Hive命令该如何操作呢？

linux及hadoop入门,Hadoop学习全程记录——Hadoop入门

Hadoop+Hive学习笔记-4

hadoop学习笔记(五)Hive安装部署

Hadoop学习之HDFS——小白入门笔记

SpringBoot 3 集成Hive 3

Hadoop入门学习笔记——六、连接到Hive

Hadoop入门学习笔记——五、在虚拟机中部署Hive

Hadoop入门学习笔记——三、使用HDFS文件系统

Hadoop入门学习笔记——四、MapReduce的框架配置和YARN的部署

Hadoop入门学习笔记——七、Hive语法

Hadoop入门学习笔记——一、VMware准备Linux虚拟机

【zookeeper特点】

【kafka】在linux中安装并简单部署使用

Hadoop

7000字超详细讲解Hadoop、Spark、Storm、YARN，建议收藏！

数据同步利器之seatunnel篇

hadoop 3.3.3集群安装部署

zookeeper3.7.1集群部署安装

千亿级工业大数据的最优方案！智光电气的时序数据库应用

【基础知识】大数据组件YARN简述

Hive文件存储与压缩

浅谈Hadoop容错机制

Docker 学习笔记

MINIO在java中的使用

通过HDFS API进行HDFS操作

Hadoop _HDFS_API 创建文件夹

Hadoop之HDFS的API操作

Hadoop学习之HDFS（HDFS客户端及API操作）心得

大数据—Hadoop（四）_ HDFS_03、客户端API

Hadoop中HDFS的API操作、客户端环境准备、配置HADOOP_HOME环境变量

hadoop02_HDFS的API操作

Koordinator 支持 K8s 与 YARN 混部，小红书在离线混部实践分享

DBeaver连接hive

Hadoop之Yarn

【数仓_01】用户行为采集平台

hadoop(十二)——自定义分区Partitioner