大数据学习笔记第2页

大数据系列一：Hadoop安装&配置&基本测试

一.前言趁这几天放假，把以前大数据学习笔记梳理下，复习&整合下知识点，包含hadoop系列,流计算框架，ELKStack等；大数据的笔记相对完整些，开源词法&语法分析工具ANTLR4本来想分享一个系列，

henry.zhu·2022-02-27 09:09

大数据学习笔记：Hadoop生态系统

文章目录一、Hadoop是什么二、Hadoop生态系统图三、Hadoop生态圈常用组件（一）Hadoop（二）HDFS（三）MapReduce（四）Hive（五）Hbase（六）ZooKeeper（七）Sqoop（八）Pig（九）Mahout（十）Flume（十一）Oozie（十二）Hue（十三）Nutch（十四）Avro（十五）Phoenix（十六）Storm（十七）Flink（十八）Spark

howard2005·2022-02-27 09:39

大数据学习笔记500条【第一弹】，记得收藏！

笔记汇总1.Zookeeper用于集群主备切换。2.YARN让集群具备更好的扩展性。3.Spark没有存储能力。4.Spark的Master负责集群的资源管理，Slave用于执行计算任务。5.Hadoop从2.x开始，把存储和计算分离开来，形成两个相对独立的子集群：HDFS和YARN，MapReduce依附于YARN来运行。6.YARN可以为符合YARN编程接口需求的集群提供调度服务。【大数据开发

yoku酱·2022-02-16 17:18

Spark大数据学习笔记

运行：运行spark版的python：pysparkScala版：spark-shellRDD：数据集会被自动整理成RDD在集群上并行进行RDD可以有执行一系列的动作（actions），这些动作可以返回值（values），转换（transformations），或者指向新的RDD的指针。常见行动操作：（会引起实际的计算）.count（）//相当于RDD的len().take（n）//取RDD中n个

黄中一·2022-02-14 00:20

大数据学习笔记之爬虫系列（1）----爬虫简介

什么是爬虫？顾名思义，爬虫，可以将互联网理解成一张巨大的网，我们编写出一个爬虫程序，是创造出一只有明确需求的蜘蛛，从而在这张大网上爬行，抓取到我们所需要的网络资源。请求网站并提取数据的自动化程序爬虫爬的是什么？网页的源代码。获取网页的源代码最直接的途径：打开浏览器（本文以谷歌浏览器为例）鼠标右键，“检查”，或者是快捷键组合“Ctrl+Shift+I”检查元素.png上图即为百度首页的例子，我们单击

SofiyaJ·2022-02-09 13:33

大数据学习笔记2：现代数据湖之Iceberg

数据湖的定义就不说了，不了解的小伙伴可以看我之前做的笔记大数据学习笔记1：数仓、数据湖、数据中台。1.数据湖发展现状从广义上来说数据湖系统主要包括数据湖村处和数据湖分析现有数据湖技术主要由云厂商

·2021-06-22 11:36

大数据学习笔记2：现代数据湖之Iceberg

数据湖的定义就不说了，不了解的小伙伴可以看我之前做的笔记大数据学习笔记1：数仓、数据湖、数据中台。1.数据湖发展现状从广义上来说数据湖系统主要包括数据湖村处和数据湖分析现有数据湖技术主要由云厂商

·2021-06-21 00:57

大数据学习笔记500条【第二弹】，记得收藏！

501.MapReduce计算框架中的输入和输出的基本数据结构是键-值对。502.Hadoop神奇的一部分在于sort和shuffle过程。503.Hive驱动计算的“语言”是一XML形式编码的。504.Hive通过和Jobtracker通信来初始化MapReduce任务（Job）。505.Metastore（元数据存储）是一个独立的关系型数据库。506.Pig常用于ETL（数据抽取、数据转换、数

yoku酱·2021-06-18 22:05

2021年全网最细大数据学习笔记（六）：Hadoop 之 HDFS 进程详解

写数据流程7.2HDFS读数据流程八、HDFS的回收站九、NameNode、HDFS的元数据辅助管理详解十、HDFS的高可用和高扩展机制10.1高可用10.2高扩展机制一、学前必备知识2021年全网最细大数据学习笔记

Amo Xiang·2021-06-18 20:10

2021年全网最细大数据学习笔记（五）：Zookeeper 集群

文章目录一、学前必备知识二、Zookeeper简介三、Zookeeper安装及配置、启动Zookeeper集群四、Zookeeper数据模型以及节点类型五、ZooKeeper的shell操作六、ZooKeeperWatcher(监听机制)七、ZooKeeper选举机制7.1全新集群选举7.2非全新集群选举八、ZooKeeper是如何实现数据一致性的呢？九、ZooKeeperJavaAPI操作一、学

Amo Xiang·2021-06-17 21:02

大数据学习笔记：历史了解

大数据的现在的平台整合技术框架大数据时代的发展大数据应用的搜索引擎时代：将数千台服务器上的磁盘统一管理起来，当做一个文件系统，统一存储这些网页文件。数据仓库时代：进行数据统计与分析利用hive这些工具，低廉的价格机器获得更多的额数据存储与计算能力。数据应用的数据挖掘时代：通过数据发掘出更多的数据价值，不止数据统计。构建用户画像，做个性化推荐等理论信息。进行各种的数据分析与挖掘。大数据应用的机器学习

胖琪的升级之路·2021-06-14 01:16

大数据学习笔记0：大数据基本框架

本文首发于泊浮目的:https://www.jianshu.com/u/204b8aaab8ba版本日期备注1.02021.5.9文章首发这是我的学习笔记，大量摘抄网上、书本里的内容，将我自己认为关联度较高的内容呈现上来。大数据从数据源开始，经过分析、挖掘到最终获得价值一般需要经过6个主要环节，包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化，技术体系如图所示。每个环节都

泊浮目·2021-06-12 22:41

大数据学习笔记第一课-Windows下hadoop环境搭建（2019-01-09）

作为一个有6年工作经验的蜘蛛人，已经记不清爬了多少网站的多少数据了，见识到各种各样的数据，在此期间听到看到不少大数据相关的知识点，却又对它们一知半解，故此决定把这些相关技术系统学习一遍并留下学习脚印。一、下载相关文件1.JDK下载2.Hadoop-2.7.6下载（更多版本下载地址）3.Windows下安装Hadoop工具下载，提取码：84wg二、JDK安装1.JDK安装方法注：JDK安装路径不能包

滴答日记·2021-06-07 01:47

2021年全网最细大数据学习笔记（四）：Hadoop 之 HDFS的基本使用

HDFS目录3、本地计算机和HDFS间的文件复制4、复制与删除HDFS文件5、查看HDFS文件内容6、对比hdfsdfs三、Java操作HDFS1、前置工作2、示例代码一、学前必备知识2021年全网最细大数据学习笔记

Amo Xiang·2021-04-10 16:11

2021年全网最细大数据学习笔记（一）：初识 Hadoop

文章目录一、大数据1、大数据的定义2、大数据的特点3、大数据行业应用4、Hadoop与大数据5、其他大数据处理平台6、大数据人才二、什么是Hadoop1、Hadoop简介2、Hadoop的发展历史3、Hadoop的特点三、Hadoop核心1、分布式文件系统——HDFS2、分布式计算框架——MapReduce3、集群资源管理器——YARN四、Hadoop常用组件五、Hadoop在国内外的应用情况一、

Amo Xiang·2021-04-04 21:58

大数据学习笔记(二)-官方案例-Grep/WordCount

1、官方Grep案例1.首先，在hadoop-2.7.2文件夹下创建一个input目录然后，将etc/hadoop/*.xml复制到input目录中cpetc/hadoop/*.xmlinput/2.然后启动hadoop中的examples包中的grep案例，知道input路径和output路径,注意：此时若output文件夹存在，则会报output已存在错误hadoopjarshare/hado

木子丶Li·2020-12-31 15:22

大数据学习笔记：ZooKeeper练习

文章目录一、提出任务二、ZooKeeper集群1、搭建zk集群2、启动zk集群二、实现步骤1、创建Maven项目-ZkPractice2、在pom.xml文件添加依赖3、在resources里创建日志属性文件4、创建股票价格类-StockPrice（1）创建测试方法init()（2）创建测试方法client1()（3）创建测试方法client2()（4）查看StockPrice完整源代码5、启动测

howard2005·2020-12-29 16:21

spark中local模式与cluster模式使用场景_大数据学习笔记之Spark：Spark基础解析

第1章Spark概述spark的产生背景spark是如何产生的，这要先送大数据说起，大数据是如何产生的？Google就是处理大数据的，网页和网页之间有很多的关联关系，为了处理排序啊这些算法，所以Google就发明了，Google就发布了三个论文，基于这三个论文的开源，实现了Hadoop、Hdfs、MapReduce、Hbase等，但是感觉好像每次MapReduce只能处理一次数据，而且开始跑map

weixin_39815600·2020-11-19 23:08

大数据学习笔记(5)--hadoop-HDFS概述以及客户端操作

这里写自定义目录标题一、HDFS概述1、HDFS定义2、HDFS的使用场景3、HDFS的组成架构4、HDFS的文件块大小二、HDFS的shell操作1、启动集群==集群规划==3、显示目录信息4、mkdir创建目录5、-moveFromLocal：从本地剪切粘贴到HDFS==官方命令说明==三、HDFS的客户端操作1、拷贝压缩包解压到win10电脑上面2、配置环境变量3、创建maven工程，导入依

qq_43349416·2020-10-08 12:24

大数据学习笔记·城市计算(3)

在上一节中，我们介绍了城市计算如何利用出租车数据收集城市交通中有问题的设计。这一节继续讨论大数据在城市计算中的一个应用：识别城市特定区域。项目介绍在这个项目中，我们的目标是利用两部分数据识别城市中的功能区域，如教育区域、商业区域。一部分数据是人的移动性数据，另一部分数据是兴趣点的数据。这张幻灯片展示了北京的功能区域，其中红色的区域是教育和科学区域，黑色的区域是商业区域。区域的功能并不是单一的,是复

xiang_freedom·2020-09-17 00:37

大数据学习笔记之kafka----分布式消息发布/订阅系统

一、kafka简介kafka是Linkedin于2012年12月份开源的消息系统kafka是一个分布式的，基于发布/订阅的消息系统；kafka：一个队列平台，不仅支持离线，还支持在线特点：--消息持久化：通过O(1)的磁盘数据结构提供数据的持久化；针对磁盘存储做了大量的优化，提高了磁盘存储的效率；主要针对了操作系统的特性来进行优化：预读、后写：针对磁盘的顺序访问，优化了写磁盘的机制，降低了写磁盘的

WRichards·2020-09-16 13:50

[大数据学习笔记]MapReduce和Yarn基本介绍

MapReduce是什么？有什么特点？MapReduce是基于Google发布的MapReduce论文设计开发，用于大规模数据集（大于1TB）的并行计算，ClusterInfrastructure、SoftwareFramework、ProgrammingModel&Methodology）。特点如下：易于编程：程序员仅需要描述做什么，具体怎么做交由系统的执行框架处理。良好的扩展性：可通过添加节点

yangyi_33855·2020-09-16 04:36

大数据学习笔记12：理解MapReduce

理解MapReduce1、MapReduce时两个过程map：匹配或者叫映射reduce：汇总2、MapReduce体现了分而治之的思想3、MapReduce是移动计算而非移动数据4、统计单词出现个数的例子一本书1000页。---假定单页印刷我们找来1010人，其中一千人一人一页来分别统计本页的单词出现情况。另外10人来汇总那1000人的统计结果。其中的1000人做的就是Map，把大任务划分成多个

terrorist2008·2020-09-16 03:05

大数据学习笔记(spark的shuffler过程)

在Spark中，task的计算模式是管道计算模式，在以下两种情况会数据落地磁盘遇到action类算子stage->stage的shufflewrite过程对于一个计算框架来说，要做分组，做聚合，shuffle是一个很重要的环节在spark中有两种shuffle方式：HashShuffle(避免shullfle中的排序)SortShuffle1、HashShuffle普通运行机制下面对一段wordC

smy12138·2020-09-16 03:19

大数据学习笔记(scala)

1、Scala六大特性java和scala可以无缝混编（都是基于JVM）类型推测（不必指定类型，自动推测类型）支持并发和分布式（Actor）特质：trait（集结了java中抽象类和接口的产物）模式匹配（matchcase：类似于java中的switchcase）高阶函数（参数时函数或者返回值是参数）2、Scala的安装使用本教程介绍在Windows下安装Scala2.10版本。安装包可以去官网下

smy12138·2020-09-16 03:19

大数据学习笔记（Map Reduce在集群上的运行架构）

MR1.X运行架构JobTracter核心，主，单点调度所有的作业监控整个集群的资源负载TaskTracter从，自身节点资源管理和JobTracter心跳，汇报资源，获取TaskClient作业为单位最终提交作业到JobTracker在hadoop1.x版本中，基于MapReduce框架写成的Application想要在集群上正常运行，需要有资源调度器和任务调度器的协调（Application-

smy12138·2020-09-16 03:19

大数据学习笔记(HDFS常用操作)

1、创建目录命令HDFS有一个默认的工作目录/user/USER，其中USER，其中USER，其中USER是用户的登录用户名。不过目录不会自动建立，需要mkdir建立它命令格式：hadoopfs-mkdir如：在user目录下创建chen目录hadoopfs-mkdir/user/chen注意：Hadoop的mkdir命令会自动创建父目录，类似于带-p的ＵＮＩＸ命令２、上传文件命令put命令从本地

smy12138·2020-09-16 03:48

大数据学习笔记(hive简介)

1、Hive是什么Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据映射为一张数据库表。Hive本身并不提供存储服务,使用HDFS做数据存储。Hive本身并不提供分布式计算功能，而是基于MapReduce计算框架。Hive本身也并不提供资源调度系统，而是使用Hadoop的Yarn集群调度。Hive运行时，元数据存储在关系型数据库里面。2、Hive架构1、用户接口主要有三个：CLI、C

smy12138·2020-09-16 03:48

大数据学习笔记(spark)

SparkSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是加州大学伯克利分校的AMP实验室所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce

smy12138·2020-09-16 03:48

大数据学习笔记六（MapReduce）

Hadoop的两大核心是HDFS和MapReduce，HDFS是分布式文件系统，而MappReduce的工作是进行数据处理推荐MapReduce学习链接：http://dblab.xmu.edu.cn/post/bigdata-online-course/#lesson7MapReduce两大核心函数：Map和ReduceMapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两

绿洲守望者·2020-09-16 03:27

大数据学习笔记(MapReduce简介)

什么是MapReduceHadoopMapReduce是一个易于编写应用程序的软件框架，该应用程序以一种可靠的、容错的方式，在大型硬件集群(数千个节点)上并行处理大量数据(多TB数据集)。MapReduce的设计理念MR主要思想就是：分久必合MR的核心思想：“相同”的key为一组，调用yicireduce方法，方法内迭代这一组数据进行计算MR由两个阶段组成：map端reduce端MapReduce

smy12138·2020-09-16 02:48

大数据学习笔记之Storm（一）：Storm

一Storm概述1.1离线计算是什么？离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据1.2流式计算是什么流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示代表技术：Flume实时获取数据、Kafka实时数据存储、Storm/JStorm实时数据计算、Redis实

Leesin Dong·2020-09-13 18:38

大数据学习笔记1

Hadoop学习笔记本文是关于在环境搭建过程中我个人遇到的问题的记录，所以并没有具体过程，过程大家可以自行在网上找，我也是在网上找的，并没有太大的区别。1.版本问题本人用的环境是：jdk1.8hadoop2.7.1zookeeper3.4.6hbase1.1.2其中，hadoop1.x和2.x差别非常大，并不通用，因此1.x的教程对于2.x来说基本上完全没有参考价值，当然如果深入到框架和原理，那肯

ruirui610·2020-09-13 12:37

大数据学习笔记1

一、大数据定义IBM用4V（Volume、Variety、Velocity、Value）来描述大数据所拥有的特点。（1）大容量（Volume），指数据体量巨大；（2）多形式（Variety），指数据类型多样；（3）高速率（Velocity），指数据以非常高的速率产生实时数据；（4）价值密度（Value），指价值密度低的数据为大数据（大数据伴随着从低价值的原始数据中进行深度挖掘和计算，从海量且形式各

q123_xi·2020-09-13 08:08

大数据学习笔记之Hadoop环境配置(完全分布式搭建)

先搭一台伪分布式的服务，然后直接克隆2台，一共3台克隆完成后需要更改主机名hostnamectlset-hostname名称在/etc/sysconfig/network-scripts/ifcfg-ens33修改ip映射关系把这个地址改成你设置的地址在/etc/hosts文件中添加服务器地址用上面的操作我们可以搭好3台独立大队伪分布式服务接下来把3台连到一起在hadoop-2.7.3/etc/h

Java璐到底·2020-09-13 00:59

大数据学习笔记27：MR案例——多输入源处理成绩

文章目录一、提出任务原始成绩数据任务1、整合两个文件的成绩数据任务2、统计每个学生各科平均分二、准备工作1、启动hadoop服务2、上传数据文件到HDFS3、创建Maven项目MultiInScore4、修改pom.xml文件，添加依赖5、创建log4j.properties文件三、完成任务1、创建ScoreRecordReader12、创建ScoreInputFormat13、创建ScoreRe

howard2005·2020-09-12 06:28

大数据学习笔记—Hadoop概述

Hadoop概述一、Hadoop是什么二、Hadoop的特点（4高）三、Hadoop的版本演变四、Hadoop的发行版本五、Hadoop生态圈六、Hadoop典型应用架构一、Hadoop是什么Hadoop是一个有Apache基金会所开发的分布式系统基础架构。二、Hadoop的特点（4高）高可靠性:.Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢

小才鄕·2020-09-11 10:26

大数据学习笔记—Hadoop运行环境搭建

Hadoop运行环境搭建一、安装前准备二、Hadoop的安装1.单机模式2.伪分布式3.完全分布式一、安装前准备1.在Windows系统下装有VMwareworkstationpro的PC[具体操作略]2.在VMwareworkstationpro中安装并开启Linux虚拟机（Ubuntu16）[具体操作略]3.关闭防火墙如果不关闭Ubuntu操作系统防火墙，可能会出现以下几种情况：（1）无法正常

小才鄕·2020-09-11 10:54

大数据学习笔记—大数据概论

大数据概论一、大数据的概念二、大数据的特点（4V）三、大数据的应用场景四、大数据的发展前景五、大数据部门的业务流程/组织结构一、大数据的概念大数据（bigdata），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决：海量数据的存储和海量数据的分析计算问题。二、大数据的特点（

小才鄕·2020-09-11 07:59

大数据学习笔记（六）

一、Azkaban介绍1.1Azkaban是什么Azkaban是由Linkedin开源的一个批量工作流任务调度工具，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种k/v(properties)格式文件来建立任务之间的依赖关系，并提供一个易于使用的web用户界面来维护和跟踪工作流。1.2为什么要使用Azkaban一个完整的数据分析系统通常都是由大量任务单元组成，比如s

伤心程序员·2020-09-10 22:42

大数据学习笔记53：Flume Sink Processors（Flume接收器处理器）

文章目录一、FlumeSinkProcessors用户指南二、DefaultSinkProcessor三、FailOverSinkProcessor四、LoadBalancingSinkProcessor一、FlumeSinkProcessors用户指南http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-

howard2005·2020-08-24 14:45

大数据学习笔记-------------------(17_2)

17.2简单消费者实例已经创建一个producer给Kafka集群发送信息。现在需要创建一个consumer来接收来自集群中的信息。KafkaConsumerAPI习惯用语接收来自Kafka集群的信息。KafkaConsumer类结构定义如下：publicKafkaConsumer(java.util.Mapconfigs)config：返回消费者配置信息的mapKafkaConsumer类的重要

WEL测试·2020-08-21 19:50

大数据学习笔记——算法时间复杂度简单推导

下图是常用的时间复杂度变化曲线O(n)：一个for循环计算publicintcount(intn){intsum=0;for(inti=1;i<=n;i++)sum+=i;returnsum;}O(n2)：就是两个for循环嵌套O(log2n)：intn=100;inti=1;while(i<=n){i*=2;}1∗2x=100⇒x=log21001*2^{x}=100\Rightarrowx=l

新宿一次狼·2020-08-20 09:09

大数据学习笔记——sqoop

导入mysql表数据到HDFS#userdb库表emp导到目标文件夹/sqoopresult212bin/sqoopimport\--connectjdbc:mysql://192.168.65.120:3306/userdb\--usernameroot\--password123456\--delete-target-dir\--target-dir/sqoopresult212\#hdfs路

新宿一次狼·2020-08-20 08:44

大数据学习笔记——sql优化实例

1、where语句优化selectm.cid,u.idfromordermjoincustomeruon(m.cid=u.id)wherem.dt='20200808';可优化为selectm.cid,u.idfrom（select*fromorderwheredt='20200808'）mjoincustomeruon(m.cid=u.id);2、union优化尽量不要使用union（union

新宿一次狼·2020-08-20 08:44

大数据学习笔记——windows环境下配置hadoop

在windows中idea直接运行spark代码出现缺少winutils.exe报错情况，需要配置Hadoop运行环境可能出现如下报错：缺少winutils.exeCouldnotlocateexecutablenull\bin\winutils.exeinthehadoopbinaries缺少hadoop.dllUnabletoloadnative-hadooplibraryforyourpla

新宿一次狼·2020-08-20 08:43

零基础进阶大数据学习笔记——Linux系统终端命令（一）

Linux与windows主要区别Linux严格区分大小写Linux一切皆文件Linux不区分扩展名扩展名是为了让管理员使用目录：/proc:虚拟文件系统，数据保存在内存中，存放当前进程信息。常用命令：suroot普通用户切换root用户su-root表示用户和环境变量一起切换（-和root之间有空格）mkdir创建文件夹touch创建文件date查看当前时间mv移动文件或目录rm删除文件（如果删

BigDate_lover·2020-08-20 07:03

大数据学习笔记——用dbeaver6.2.4连接hive1.2

给hive装备上一个可视化工具，那是相当给力的。dbeaver连接hive的时候，需要以下步骤：1、启动MySQL数据库，hive的元数据存储在mysql中2、cd/export/servers/apache-hive-1.2.1-bin/bin进入hive安装的bin目录3、nohuphive--servicemetastore-p9083>/dev/null&后台启动metastore4、no

新宿一次狼·2020-08-20 05:40

大数据学习笔记——Python基础（上）

一、Python知识点1.变量&运算符2.jupyternotebook常用快捷键Esc和Enter在命令和编辑模式之间跳转。命令模式下：A键，将在选中单元格上方插入新单元格B键，将在选中单元格下方插入一个单元格按两次D键，可以删除单元格Z键，撤消已删的但与前各Y键，将选中的单元格变成代码单元格F键、弹出’查找和替换’菜单编辑模式下：Shift+Enter:运行本单元，并选中下个单元Ctrl+En

芭蕉鱼的学习笔记·2020-08-20 05:08

大数据学习笔记——大数据学习过程中的重点

目前大数据开发方面，市场上最主要的还是用spark做开发居多。这一点也可以从招聘网站上可以看到。整个大数据体系经过这么多年的发展，相当的繁杂，各种各样的组件，但是其中有一些已经过时了，或者用的少了，其实干脆就不用学了，免得浪费时间。下面介绍自己学习过程中的大数据重点。1.linuxlinux系统肯定是基础了，大数据集群是运行在这上面的。linux在服务器上面一般是用centos系统，还分6.x版本

新宿一次狼·2020-08-20 05:26

推荐频道

大数据学习笔记

大数据系列一：Hadoop安装&配置&基本测试

大数据学习笔记：Hadoop生态系统

大数据学习笔记500条【第一弹】，记得收藏！

Spark大数据学习笔记

大数据学习笔记之爬虫系列（1）----爬虫简介

大数据学习笔记2：现代数据湖之Iceberg

大数据学习笔记2：现代数据湖之Iceberg

大数据学习笔记500条【第二弹】，记得收藏！

2021年 全网最细大数据学习笔记（六）：Hadoop 之 HDFS 进程详解

2021年 全网最细大数据学习笔记（五）：Zookeeper 集群

大数据学习笔记：历史了解

大数据学习笔记0：大数据基本框架

大数据学习笔记第一课-Windows下hadoop环境搭建（2019-01-09）

2021年 全网最细大数据学习笔记（四）：Hadoop 之 HDFS的基本使用

2021年 全网最细大数据学习笔记（一）：初识 Hadoop

大数据学习笔记(二)-官方案例-Grep/WordCount

大数据学习笔记：ZooKeeper练习

spark中local模式与cluster模式使用场景_大数据学习笔记之Spark：Spark基础解析

大数据学习笔记(5)--hadoop-HDFS概述以及客户端操作

大数据学习笔记·城市计算(3)

大数据学习笔记之kafka----分布式消息发布/订阅系统

[大数据学习笔记]MapReduce和Yarn基本介绍

大数据学习笔记12：理解MapReduce

大数据学习笔记(spark的shuffler过程)

大数据学习笔记(scala)

大数据学习笔记（Map Reduce在集群上的运行架构）

大数据学习笔记(HDFS常用操作)

大数据学习笔记(hive简介)

大数据学习笔记(spark)

大数据学习笔记六（MapReduce）

大数据学习笔记(MapReduce简介)

大数据学习笔记之Storm（一）：Storm

大数据学习笔记1

大数据学习笔记1

大数据学习笔记之Hadoop环境配置(完全分布式搭建)

大数据学习笔记27：MR案例——多输入源处理成绩

大数据学习笔记—Hadoop概述

大数据学习笔记—Hadoop运行环境搭建

大数据学习笔记—大数据概论

大数据学习笔记（六）

大数据学习笔记53：Flume Sink Processors（Flume接收器处理器）

大数据学习笔记-------------------(17_2)

大数据学习笔记——算法时间复杂度简单推导

大数据学习笔记——sqoop

大数据学习笔记——sql优化实例

大数据学习笔记——windows环境下配置hadoop

零基础进阶大数据学习笔记——Linux系统终端命令（一）

大数据学习笔记——用dbeaver6.2.4连接hive1.2

大数据学习笔记——Python基础（上）

大数据学习笔记——大数据学习过程中的重点

2021年全网最细大数据学习笔记（六）：Hadoop 之 HDFS 进程详解

2021年全网最细大数据学习笔记（五）：Zookeeper 集群

2021年全网最细大数据学习笔记（四）：Hadoop 之 HDFS的基本使用

2021年全网最细大数据学习笔记（一）：初识 Hadoop