大数据实战第4页

1——Hive数仓项目完整流程（在线教育）

@—笨小孩—@·2023-09-27 23:39

（三十三）大数据实战——Canal安装部署及其应用案例实战

前言Canal是一个开源的MySQL数据库binlog监听和解析框架，用于实时捕获MySQL数据库的binlog变更事件，并将其解析成易于消费的数据格式。Canal可以实时监听MySQL数据库的binlog，并即时捕获数据库的数据变更事件。Canal可以将捕获到的binlog事件解析成易于消费的数据格式，如SON格式，方便后续处理与消费。Canal通过增量订阅和解析binlog的方式，避免了全量数

北溟溟·2023-09-20 21:51

（三十二）大数据实战——Maxwell安装部署及其应用案例实战

前言Maxwell是一个开源的MySQL数据库binlog解析工具，用于将MySQL数据库的binlog转换成易于消费的JSON格式，并通过Kafka、RabbitMQ、Kinesis等消息队列或直接写入文件等方式将其输出。本节内容主要介绍如何安装部署Maxwell以及如何使用Maxwell完成数据的同步，这里主要以同步数据到kafka服务器为例。关于java、mysql和kafka的安装，这里不

北溟溟·2023-09-20 21:50

阿里云大数据实战记录10：Hive 兼容模式的坑

文章目录1、前言2、什么是Hive兼容模式？3、为什么要开启Hive模式？4、有什么副作用？5、如何开启Hive兼容模式？6、该场景下，能不能不开启Hive兼容模式？7、为什么不是`DATE_FORMAT(datetime,string)`？8、小结1、前言今天在开发一个表单的时候，MaxCompute抛给我一个错误：SQLRuntimeUnretryableError:ODPS-0121125:

Xin学数据·2023-09-17 16:58

（二十九）大数据实战——kafka集群节点服役与退役案例实战

前言本节内容是关于kafka集群节点的服役与退役，从而实现kafka集群的缩容与扩容。在开始本节内容之前，我们要预先安装好kafka集群，并准备一台空余的服务器用来完成我们扩容与缩容的案例。关于kafka集群的安装内容这里不在赘述，相关内容请查看作者往期博客内容。正文从hadoop103克隆一台空闲服务器hadoop104-克隆服务器hadoop104-修改服务器IP地址-修改服务器主机名称-重启

北溟溟·2023-09-17 10:12

（三十一）大数据实战——一键式DolphinScheduler高可用工作流任务调度系统部署安装

前言DolphinScheduler（DolphinScheduler）是一个分布式、易扩展的开源DAG（有向无环图）工作流任务调度系统，可用于构建大规模数据处理、数据仓库、ETL等复杂的数据处理和数据分析场景。DolphinScheduler支持多种任务类型，包括Shell、SQL、Spark、Python、Sub-Process、HTTP、Flink等，同时也支持用户自定义任务类型。本节内容我

北溟溟·2023-09-17 10:12

（三十）大数据实战——HBase集成部署安装Phoenix

前言Phoenix是一个开源的分布式关系型数据库查询引擎，它基于ApacheHBase构建。它提供了在Hadoop生态系统中使用SQL查询和事务处理的能力。本节内容我们主要介绍一下Hbase如何集成部署安装Phoenix服务工具，并集成hive框架，能够快速、灵活和可扩展的方式来在Hadoop生态系统中进行SQL查询和事务处理。正文①上传Phoenix部署安装包到hadoop101服务器/opt/

北溟溟·2023-09-17 10:09

（二十八）大数据实战——Flume数据采集之kafka数据生产与消费集成案例

前言本节内容我们主要介绍一下flume数据采集和kafka消息中间键的整合。通过flume监听nc端口的数据，将数据发送到kafka消息的first主题中，然后在通过flume消费kafka中的主题消息，将消费到的消息打印到控制台上。集成使用flume作为kafka的生产者和消费者。关于nc工具、flume以及kafka的安装部署，这里不在赘述，请读者查看作者往期博客内容。整体架构如下：正文启动K

北溟溟·2023-09-14 10:37

（二十七）大数据实战——hbase高可用集群安装与部署

前言本节内容我们主要介绍HBase高可用集群的安装部署。HBase是一个开源的分布式非关系型数据库管理系统（NoSQL），它运行在ApacheHadoop之上。它基于Google的Bigtable论文设计，并且具有高扩展性、高可靠性和高性能的特点。HBase通常用于需要存储和处理大规模结构简单数据的场景，例如日志分析、实时数据处理、用户行为追踪等。它在大数据领域中得到广泛应用，并且与Hadoop生

北溟溟·2023-09-14 10:31

（二十六）大数据实战——kafka集群之Kraft模式安装与部署

前言本节内容主要介绍kafka3.0版本以后，一种新的kafka集群搭建模式看kraft，在该模式下，kafka高可用不在依赖于zookeeper，用controller节点代替zookeeper，元数据保存在controller中，由controller直接进行Kafka集群管理。正文①解压kafka安装包到/opt/module/kafka-kraft目录下-命令：mkdir-p/opt/mo

北溟溟·2023-09-10 20:22

（二十五）大数据实战——kafka集群及Kafka-Eagle控制台安装与部署

前言本节内容我们主要介绍一下搭建kafka集群以及kafka集群的一个web客户端组件Kafka-Eagle的部署安装，使用的kafka版本是kafka_2.12-3.0.0。在搭建kafka集群之前，我们要预先搭建好zookeeper集群，这里作者默认zookeeper的集群环境已经搭建完成，可参考作者往期博客内容。新版本的kafka集群分为俩种搭建方式，一种依赖zookeeper，一种使用Kr

北溟溟·2023-09-10 20:17

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战

前言本节内容我们完成Flume数据采集的一个多路复用案例，使用三台服务器，一台服务器负责采集本地日志数据，通过使用ReplicatingChannelSelector选择器，将采集到的数据分发到另外俩台服务器，一台服务器将数据存储到hdfs，另外一台服务器将数据存储在本机，使用Avro的方式完成flume之间采集数据的传输。整体架构如下：正文①在hadoop101服务器的/opt/module/a

北溟溟·2023-09-07 03:59

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战

前言本节内容我们主要介绍一下Flume数据采集过程中，如何把多个数据采集点的数据聚合到一个地方供分析使用。我们使用hadoop101服务器采集nc数据，hadoop102采集文件数据，将hadoop101和hadoop102服务器采集的数据聚合到hadoop103服务器输出到控制台。其整体架构如下：正文①在hadoop101服务器的/opt/module/apache-flume-1.9.0/jo

北溟溟·2023-09-07 03:59

（二十四）大数据实战——Flume数据流监控之Ganglia的安装与部署

前言本节内容我们主要介绍一下Flume数据流的监控工具Ganglia。Ganglia是一个开源的分布式系统性能监控工具。它被设计用于监视大规模的计算机群集（包括集群、网格和云环境），以便收集和展示系统和应用程序的性能数据。Ganglia可以轻松地扩展到数千台计算机节点，并支持跨多个数据中心进行分布式监控。Ganglia使用高效的多播通信协议和紧凑的数据格式，以最小化对网络和系统资源的影响。Gang

北溟溟·2023-09-07 03:59

（二十二）大数据实战——Flume数据采集之故障转移案例实战

前言本节内容我们完成Flume数据采集的故障转移案例，使用三台服务器，一台服务器负责采集nc数据，通过使用failover模式的Sink处理器完成监控数据的故障转移，使用Avro的方式完成flume之间采集数据的传输。整体架构如下：正文①在hadoop101服务器的/opt/module/apache-flume-1.9.0/job目录下创建job-nc-flume-avro.conf配置文件，用

北溟溟·2023-09-07 03:28

阿里云大数据实战记录7：如何处理生产环境表单的重复数据

目录一、前言二、删除重复数据2.1调度任务中新增去重逻辑2.2查询窗口中一次性去重2.3手动处理局部重复数据2.4数据备份问题三、总结一、前言今天发现数仓有一个表单，表里的数据出现了重复，每一列的数据都一模一样，这种情况在生产环境中是不允许出现的。于是需要想办法进行删除。二、删除重复数据注意：如果要对生成环境的数据表进行修改，可能需要到安全中心申请相关的表单权限。2.1调度任务中新增去重逻辑删除重

Xin学数据·2023-09-05 09:33

阿里云大数据实战记录9：MaxCompute RAM 用户与授权

文章目录问题来源：maxcompute管理员无法访问敏感列？主线问题：如何提高用户等级衍生问题1：怎么知道自己的等级和表单的等级衍生问题2：为什么dataworks空间管理员也没有设置等级的权限？衍生问题3：敏感列从哪里来小结问题来源：maxcompute管理员无法访问敏感列？先抛一个问题：作为maxcompute的管理员，拥有较高的权限，为什么访问不了设置了敏感列的数据？这个问题是我最近遇到的一

Xin学数据·2023-09-05 09:31

阿里云大数据实战记录8：拆开 json 的每一个元素，一行一个

目录一、前言二、目标介绍三、使用pgsql实现3.1拆分content字段3.2拆分level字段3.3拼接两个拆分结果四、使用ODPSSQL实现4.1拆分content字段4.2拆分level字段4.3合并拆分五、使用MySQL实现六、总结一、前言商业场景中，经常会出现新的业务，继而产生新的业务数据，这也难免会导致一些数据被孤立，所以便需要对数据进行同步整合。在清洗数据的过程中，难免也会出现同一

Xin学数据·2023-09-02 14:24

（二十）大数据实战——Flume数据采集的基本案例实战

前言本节内容我们主要介绍几个Flume数据采集的基本案例，包括监控端口数据、实时监控单个追加文件、实时监控目录下多个新文件、实时监控目录下的多个追加文件等案例。完成flume数据监控的基本使用。正文监控端口数据①需求说明-使用Flume监听一个端口，收集该端口数据，并打印到控制台②需求分析：③安装netcat工具：sudoyuminstall-ync④查看监听端口1111是否被占用：注意测试端口的

北溟溟·2023-08-31 08:08

大数据实战项目（2）-数据采集、处理、分发流程所涉及到的框架及配置

对该实战项目的介绍及所使用的各种工具等可以查看这篇博客：大数据实战项目（1）-项目简介、开发技术、工具、架构等文章目录Linux环境准备常规设置项目配置ZooKeeper分布式集群部署HadoopHA架构与部署

xl132598798·2023-08-31 08:38

（十九）大数据实战——Flume数据采集框架安装部署

前言本节内容我们主要介绍一下大数据数据采集框架flume的安装部署，Flume是一款流行的开源分布式系统，用于高效地采集、汇总和传输大规模数据。它主要用于处理大量产生的日志数据和事件流。Flume支持从各种数据源（如日志文件、消息队列、数据库等）实时采集数据，并将其传输到目标存储或分析平台。Flume采用基于拓扑结构的架构，可以通过配置多个组件（称为Agent或者节点）来实现数据的流动和处理。Ag

北溟溟·2023-08-31 08:05

（二）大数据实战——hadoop的模板虚拟机搭建

前言在实际的开发过程中，我们的hadoop都是以集群的方式存在，该系列内容我们使用vmware工具构建我们的虚拟机，从而实现hadoop集群搭建。在开始hadoop集群搭建之前，我们需要先创建一个模板虚拟机，便于我们集群虚拟机的快速克隆复制使用。关于vmware工具的安装，这里不在介绍，读者可以查看我往期的博客内容。正文虚拟机硬件配置①打开vmware工具，点击创建虚拟机，选择自定义创建②一直点击

北溟溟·2023-08-27 15:11

大数据实战之Spark-Flume-Kafka-idea-Mysql实时处理数据并存储

大数据实战之Spark-Flume-Kafka-idea-Mysql实时处理数据并存储数据流的处理实时数据的模拟需求分析设计流程流程图Spark与hadoop部分：flume部分：kafka部分idea

yolo壹·2023-08-19 23:17

阿里云大数据实战记录6：修改生产环境表单字段数据类型

一、前言在阿里云dataworks开发数据表单的时候，可能你也会有过这样的经历：数据表的字段和要插入的数据类型不一致。最近，在数仓处理一个数据表就遇到了这个问题。该表单记录了很多历史的数据，包含记录的状态、更新的版本等，在大多数业务中，只需要看用户维度的一条数据，根据状态先做优先级判断，再根据版本进行排序，由近到远；但是也需要保留相关历史数据，以便其他业务使用。每次读表都需要做一层去重动作，通过窗

Xin学数据·2023-08-16 19:07

（十七）大数据实战——Hive的hiveserver2服务安装部署

前言HiveServer2是ApacheHive的一个服务器端组件，用于支持客户端与Hive进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odbc接口，为用户提供远程访问Hive数据的功能。HiveServer2允许多个客户端同时连接并与Hive交互。这些客户端可以通过JDBC、ODBC或ThriftAPI连接到HiveServer2。HiveServer2支持并发执行多个查

北溟溟·2023-08-15 11:28

（十八）大数据实战——Hive的metastore元数据服务安装

前言Hive的metastore服务作用是为HiveCLI或者Hiveserver2提供元数据访问接口。Hive的metastore是Hive元数据的存储和管理组件，它负责管理Hive表、分区、列等元数据信息。元数据是描述数据的数据，它包含了关于表结构、存储位置、数据类型等信息。本节内容延续上节内容，完成hive的metastore服务的安装部署。正文将hive安装包从hadoop101同步到ha

北溟溟·2023-08-15 11:28

（十五）大数据实战——hive的安装部署

前言Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本节内容我们主要介绍一下hive的安装与部署的相关内容。正文上传hive安装包到hadoop101服务器/opt/software目录解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下-命令：tar-zxvf/opt/sof

北溟溟·2023-08-09 23:57

（十六）大数据实战——安装使用mysql版的hive服务

前言hive默认使用的是内嵌据库derby，Derby是一个嵌入式数据库，可以轻松地以库的形式集成到应用程序中。它不需要独立的服务器进程，所有的数据存储在应用程序所在的文件系统中。为了支持hive服务更方便的使用，我们使用mysql数据库的方式，使得服务部署更加灵活。数据库是分开部署的，使用十分灵活，性能也相对更高。正文上传mysql安装包和驱动到服务器/opt/softeware目录创建一个my

北溟溟·2023-08-09 23:56

深度学习+大数据项目分享（24个）计算机毕业设计源码分享实战建议收藏

大家好，今天给大家分享24个有趣的深度学习/大数据实战项目，可以直接拿来实战练习，建议关注、收藏。邮箱：[email protected]欢迎交流学习，共同进步。

源码之家·2023-08-09 06:05

（十四）大数据实战——hadoop集群一键式高可用实现自动故障转移与故障初始化恢复

前言本节内容延续前面几节内容，综合性的实现hadoop集群的高可用以及hadoop集群故障初始化的恢复，通过一个脚本，实现整个集群的高可用启停与状态观测。主要是zookeeper、hdfs、yarn等服务的高可用集群的一键式启停。正文hadoop高可用集群整体规划hadoop高可用集群服务规划hadoop101hadoop102hadoop103NameNodeNameNodeNameNodeJo

北溟溟·2023-08-08 07:57

阿里云大数据实战记录4：生产环境添加列

生产环境添加列的方法通过代码新增列添加列的时候，要注意引擎类型，可以根据以下操作查看引擎类型。如果有权限查看配置相关内容，也可以点配置里查看。（目前我没有该权限，也不知道都有什么内容~~）为什么要注意引擎类型呢？因为不同的引擎，意味着不同的配置，对应的语法也是不同的，比如mysql的引擎和maxcomputer的引擎新增列的操作不同，下面找了两个文档可供参考云原生数据仓库AnalyticDBMyS

Xin学数据·2023-08-07 21:43

阿里云大数据实战记录5：修改生产环境表单字段名称

一、前言前阵子，想在阿里云dataworks开发一张表单，但是搜索后发现历史已经有小伙伴新建了，只是需要新增一些字段，而且由于一些字段命名不规范，需要进行修改。一般情况下，不会对生产表的字段进行修改，因为如果表单被多次调用的话，可能会有意料不到的错误在前面等着，不过经过一番搜索查证，发现这表单似乎没有被使用过（不然我也不会知道还有这表，还规划搭建相关的数据模型）。那就把名字改一下吧！二、修改字段名

Xin学数据·2023-08-07 21:12

（十三）大数据实战——hadoop集群之YARN高可用实现自动故障转移

前言本节内容是关于hadoop集群下yarn服务的高可用搭建，以及其发生故障转移的处理，同样需要依赖zookeeper集群的实现，实现该集群搭建时，我们要预先保证zookeeper集群是启动状态。yarn的高可用同样依赖zookeeper的临时节点及监控，实现服务的故障转移。其ResourceManager的节点任务同样存储于zookeeper集群中，实现数据的共享。正文集群规划YARN高可用ha

北溟溟·2023-08-06 00:57

（十二）大数据实战——hadoop集群之HDFS高可用自动故障转移

前言本节内容主要介绍一下hadoop集群下实现HDFS高可用的自动故障转移，HDFS高可用的自动故障转移主要通过zookeeper实现故障的监控和主节点的切换。自动故障转移为HDFS部署增加了两个新组件：ZooKeeper和ZKFailoverController（ZKFC）进程。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。在开始本节内容之前，我们需

北溟溟·2023-08-06 00:26

python自动化部署hadoop集群_大数据集群的自动化运维实现思路

原标题：大数据集群的自动化运维实现思路|作者简介王晓伟知数堂《大数据实战就业》课程讲师六年大数据相关工作经验清华大学软件工程硕士曾就职于网易、搜狗等互联网企业从事大数据及数据仓库的开发管理工作拥有丰富的数据平台建设

weixin_39869959·2023-08-04 19:11

（十一）大数据实战——hadoop高可用之HDFS手动模式高可用

前言本节内容我们介绍一下hadoop在手动模式下如何实现HDFS的高可用，HDFS的高可用功能是通过配置多个NameNodes(Active/Standby)实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器，并通过JournalNode实现主备节点的数据同步。正文集群规划HDFS高可用集群规

北溟溟·2023-08-03 05:49

小手の冰凉·2023-07-27 08:31

【大数据实战电商推荐系统】概述版

文章目录第1章项目体系框架设计（说明书）第2章工具环境搭建（说明书）第3章项目创建并初始化业务数据3.1IDEA创建Maven项目（略）3.2数据加载准备（说明书）3.3数据初始化到MongoDB【DataLoader数据加载模块】数据加载程序主体实现+数据写入MongoDBStatisticsRecommender统计推荐模块第4章离线推荐服务建设4.1离线推荐服务4.2离线统计服务【统计推荐模

小手の冰凉·2023-07-27 08:31

真好用！Kubernetes可视化工具，文末附下载地址

点击上方蓝色“大数据实战演练”，选择“设为星标”或“置顶”回复“资料”领取独家整理的学习资料！每一个成功人士的背后，必定曾经做出过勇敢而又孤独的决定。

create17·2023-07-22 20:36

java+大数据实战短链项目

一.前言1.1课程大致包含技术首先选这套课的目的是包含了我所学的大部分技术比如springbootssmrediskafkaflinkclickhouse等1.2外界客观原因就业环境一般目前来看暂时还没但是有后续潜在的毕业或者离职1.3技术追求个人的技术追求暂时是在技术总监技术架构1.4通用性项目具备一定的通用性中大厂基本用得到二.项目简介亮点与架构2.1亮点2.2技术栈2.3各微服务模块概览2.

我才是真的封不觉·2023-07-22 05:55

大数据复习笔记之hadoop浅析（二）

的核心组件p21核心组件分析：Hadoop的核心组件分为：HDFS（分布式文件系统）、MapRuduce（分布式运算编程框架）、YARN（运算资源调度系统）Hadoop业务的整体开发流程：下面按《Hadoop大数据实战权威指南

席八·2023-07-17 06:17

构建智能电商推荐系统：大数据实战中的Kudu、Flink和Mahout应用【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。本文将介绍如何利用Kudu、Flink和Mahout这三种技术构建一个强大的大数据分析平台。我们将详细讨论这些技术的特点和优势，并提供代码示例，帮助读者了解如何在实际项目中应用它们。通过本文的指导，读者将能够掌握如何使用这些工具来处理大规模数据集，并进行智能分析。在当今的信息时代，大数据分析成为了各行各业中不可或缺的一环。为了有效地处理海量

上进小菜猪·2023-06-07 05:04

大数据实战 --- 日志文件

目录开发环境数据描述功能需求数据准备分析数据HBaseHIive统计查询开发环境Hadoop+Hive+Spark+HBase启动Hadoop：start-all.sh启动zookeeper：zkServer.shstart启动Hive：nohuphiveserver21>/dev/null2>&1&beeline-ujdbc:hive2://192.168.152.192:10000启动Hbas

你∈我·2023-04-21 16:38

大数据实战 --- 世界新冠疫情数据分析

目录开发环境数据描述功能需求数据准备统计计算HbaseHive分析数据开发环境Hadoop+Hive+Spark+HBase启动Hadoop：start-all.sh启动zookeeper：zkServer.shstart启动Hive：nohuphiveserver21>/dev/null2>&1&beeline-ujdbc:hive2://192.168.152.192:10000启动Hbase

你∈我·2023-04-21 16:04

HDFS集群部署成功但网页无法打开如何解决（显示配置通过浏览器访问hdfs的端口）

在学习黑马2023大数据教程过程中，首先依照视频完成了如下配置：【必须】【黑马2023大数据实战教程】大数据集群环境准备过程记录（3台虚拟机）黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程最后

锵锵锵锵~蒋·2023-04-21 10:12

【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程

文章目录部署HDFS集群1.配置workers:2.配置hadoop-env.sh文件3.配置core-site.xml文件4.配置hdfs-site.xml文件准备数据目录分发Hadoop文件夹配置环境变量授权为hadoop用户格式化文件系统错误排查方法!!视频：黑马2023VMWare虚拟机部署HDFS集群注意！这些操作的前提是完成了前置准备中的服务器创建、固定IP、防火墙关闭、Hadoop用

锵锵锵锵~蒋·2023-04-21 10:07

【黑马2023大数据实战教程】大数据集群环境准备过程记录（3台虚拟机）

文章目录1.设置三台Linux虚拟机的主机名和固定IP2.在Linux系统以及本机系统中配置了主机名映射3.配置了三台服务器之间root用户的SSH免密互通4.配置jdk环境5.关闭防火墙和SELinux6.修改时区并配置自动时间同步7.设置快照保存状态8.下一篇HDFS集群部署1.设置三台Linux虚拟机的主机名和固定IP忘了记录，原视频链接在这：2023新版黑马程序员大数据入门到实战教程，大数

锵锵锵锵~蒋·2023-04-21 09:49

大数据实战 --- 淘宝用户行为

目录开发环境数据描述功能需求数据准备数据清洗用户行为分析找出有价值的用户开发环境Hadoop+Hive+Spark+HBase启动Hadoop：start-all.sh启动zookeeper：zkServer.shstart启动Hive：nohuphiveserver21>/dev/null2>&1&beeline-ujdbc:hive2://192.168.152.192:10000启动Hbas

你∈我·2023-04-19 21:20

大数据实战 --- 美团外卖平台

目录开发环境数据描述功能需求数据准备数据分析RDD操作SparkSQL操作创建Hbase数据表创建外部表统计查询开发环境Hadoop+Hive+Spark+HBase启动Hadoop：start-all.sh启动zookeeper：zkServer.shstart启动Hive：nohuphiveserver21>/dev/null2>&1&beeline-ujdbc:hive2://192.168

你∈我·2023-04-19 21:16

数据统计分析系统开发视频教程（离线处理-流处理-批处理）

www.xuetuwuyou.com/course/249课程出自学途无忧网：http://www.xuetuwuyou.com海量资源免费下载：http://down.xuetuwuyou.com/课程介绍本套教程为真实的大数据实战案例

菜花小噗噗·2023-04-18 09:46

推荐频道

大数据实战

1——Hive数仓项目完整流程（在线教育）

（三十三）大数据实战——Canal安装部署及其应用案例实战

（三十二）大数据实战——Maxwell安装部署及其应用案例实战

阿里云大数据实战记录10：Hive 兼容模式的坑

（二十九）大数据实战——kafka集群节点服役与退役案例实战

（三十一）大数据实战——一键式DolphinScheduler高可用工作流任务调度系统部署安装

（三十）大数据实战——HBase集成部署安装Phoenix

（二十八）大数据实战——Flume数据采集之kafka数据生产与消费集成案例

（二十七）大数据实战——hbase高可用集群安装与部署

（二十六）大数据实战——kafka集群之Kraft模式安装与部署

（二十五）大数据实战——kafka集群及Kafka-Eagle控制台安装与部署

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战

（二十四）大数据实战——Flume数据流监控之Ganglia的安装与部署

（二十二）大数据实战——Flume数据采集之故障转移案例实战

阿里云大数据实战记录7：如何处理生产环境表单的重复数据

阿里云大数据实战记录9：MaxCompute RAM 用户与授权

阿里云大数据实战记录8：拆开 json 的每一个元素，一行一个

（二十）大数据实战——Flume数据采集的基本案例实战

大数据实战项目（2）-数据采集、处理、分发流程所涉及到的框架及配置

（十九）大数据实战——Flume数据采集框架安装部署

（二）大数据实战——hadoop的模板虚拟机搭建

大数据实战之Spark-Flume-Kafka-idea-Mysql实时处理数据并存储

阿里云大数据实战记录6：修改生产环境表单字段数据类型

（十七）大数据实战——Hive的hiveserver2服务安装部署

（十八）大数据实战——Hive的metastore元数据服务安装

（十五）大数据实战——hive的安装部署

（十六）大数据实战——安装使用mysql版的hive服务

深度学习+大数据项目分享（24个）计算机毕业设计 源码分享 实战 建议收藏

（十四）大数据实战——hadoop集群一键式高可用实现自动故障转移与故障初始化恢复

阿里云大数据实战记录4：生产环境添加列

阿里云大数据实战记录5：修改生产环境表单字段名称

（十三）大数据实战——hadoop集群之YARN高可用实现自动故障转移

（十二）大数据实战——hadoop集群之HDFS高可用自动故障转移

python自动化部署hadoop集群_大数据集群的自动化运维实现思路

（十一）大数据实战——hadoop高可用之HDFS手动模式高可用

【大数据实战电商推荐系统】

【大数据实战电商推荐系统】概述版

真好用！Kubernetes可视化工具，文末附下载地址

java+大数据实战 短链项目

大数据复习笔记之hadoop浅析（二）

构建智能电商推荐系统：大数据实战中的Kudu、Flink和Mahout应用【上进小菜猪大数据】

大数据实战 --- 日志文件

大数据实战 --- 世界新冠疫情数据分析

HDFS集群部署成功但网页无法打开如何解决（显示配置通过浏览器访问hdfs的端口）

【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程

【黑马2023大数据实战教程】大数据集群环境准备过程记录（3台虚拟机）

大数据实战 --- 淘宝用户行为

大数据实战 --- 美团外卖平台

数据统计分析系统开发视频教程（离线处理-流处理-批处理）

深度学习+大数据项目分享（24个）计算机毕业设计源码分享实战建议收藏

java+大数据实战短链项目