大数据笔记

大数据笔记--Spark（第五篇）

目录一、Spark的调优1、更改序列化为kryo2、配置多临时文件目录3、启动推测执行机制4、某些特定场景，用mapPartitions代替map5、避免使用collect二、Spark的共享变量1、广播变量2、计数器三、VSM算法1、什么是倒排索引表？2、什么是相似度的概念？3、什么是TF-IDF算法4、VSM算法Ⅰ、概念Ⅱ、算法原理Ⅲ、举例一、Spark的调优1、更改序列化为kryoSpark

是小先生·2024-02-05 09:59

大数据笔记(待续)

mysql缓存技术数据库和缓存双写数据一致性问题常见的解决方案常见方案通常情况下，我们使用缓存的主要目的是为了提升查询的性能。大多数情况下，我们是这样使用缓存的：用户请求过来之后，先查缓存有没有数据，如果有则直接返回。如果缓存没数据，再继续查数据库。如果数据库有数据，则将查询出来的数据，放入缓存中，然后返回该数据。如果数据库也没数据，则直接返回空。这是缓存非常常见的用法。一眼看上去，好像没有啥问题

yangzex·2023-12-15 12:10

【Python大数据笔记_day11_Hadoop进阶之MR和YARN&ZooKeeper】

MR单词统计流程已知文件内容: hadoophivehadoopsparkhive flinkhivelinuxhivemysqlinput结果: k1(行偏移量) v1(每行文本内容) 0 hadoophivehadoopsparkhive 30 flinkhivelinuxhivemysqlmap结果: k2(split切割后的单词)v2(拼接1) hadoop1

LKL1026·2023-11-22 21:37

【Python大数据笔记_day10_Hive调优及Hadoop进阶】

hive调优hive官方配置url:ConfigurationProperties-ApacheHive-ApacheSoftwareFoundationhive命令和参数配置hive参数配置的意义:开发Hive应用/调优时，不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率，或帮助定位问题。然而实践中经常遇到的一个问题是，为什么我设定的参数没有起作用？这是对hive

LKL1026·2023-11-18 19:33

【Python大数据笔记_day08_hive查询】

LKL1026·2023-11-17 07:22

【Python大数据笔记_day09_hive函数和调优】

hive函数函数分类标准[重点]原生分类标准:内置函数和用户定义函数(UDF,UDAF,UDTF)分类标准扩大化:本来，UDF、UDAF、UDTF这3个标准是针对用户自定义函数分类的；但是，现在可以将这个分类标准扩大到hive中所有的函数，包括内置函数和自定义函数；目前hive三大标准UDF:（User-Defined-Function）普通函数:特点是一进一出(输入一行数据输出一行数据)

LKL1026·2023-11-17 06:13

河工阿晖大数据笔记脚本截图

#!/bin/bashbeg_date=`date-d"${1}"+%s`end_date=`date-d"${2}"+%s`if((beg_date>${end_date}));thenecho"beg_date/root/sh/date手动添加的date=`cat/root/sh/date`#第二步：获取json文件日期的后一天日期afterday_timestamp=$[`date-d"${

喧嚣小风·2023-11-13 12:42

大数据笔记29—Hadoop基础篇12(Hive特殊使用与函数)

Hive特殊使用与函数知识点01：Hive回顾知识点02：本篇目标知识点03：Hive表结构：普通表结构知识点04：Hive表结构：分区表设计知识点05：Hive表结构：分区表实现知识点06：Hive表结构：分桶表设计及实现知识点07：Hive中的Join：Join逻辑知识点08：Hive中的Join：Join实现知识点09：Select语法：orderby与sortby知识点10：Select语

了不起的我阿·2023-11-13 12:05

【Python大数据笔记_day07_hive中的分区表、分桶表以及一些特殊类型】

分区表分区表的特点/好处:需要产生分区目录,查询的时候使用分区字段筛选数据,避免全表扫描从而提升查询效率效率上注意:如果分区表在查询的时候呀没有使用分区字段去筛选数据,效率不变分区字段名注意:分区字段名不能和原有的字段名重复,因为分区字段名要作为字段拼接到表后一级分区创建分区表:create[external]table[ifnotexists]表名(字段名字段类型,字段名字段类型,...)par

LKL1026·2023-11-13 12:30

大数据笔记--Zookeeper（第二篇）

目录一、Zookeeper1、概述2、安装3、伪分布式安装4、特点5、命令6、节点信息7、节点类型8、zookeeper-APIi、普通API无观察者ii、观察者API二、完全分布式安装1、三台服务器准备2、安装Zookeeper3、完成效果一、Zookeeper1、概述①、Zookeeper是Yahoo（雅虎）开发后来贡献给了Apache的一套用于分布式管理和协调的框架②、Zookeeper本身

是小先生·2023-11-13 11:27

【Python大数据笔记_day06_Hive】

hive内外表操作建表语法create[external]table[ifnotexists]表名(字段名字段类型,字段名字段类型,...)[partitionedby(分区字段名分区字段类型)]#分区表固定格式[clusteredby(分桶字段名)into桶个数buckets]#分桶表固定格式注意:可以排序[sortedby(排序字段名asc|desc)][rowformatdelimitedf

LKL1026·2023-11-12 03:08

【Python大数据笔记_day05_Hive基础操作】

一.SQL,Hive和MapReduce的关系用户在hive上编写sql语句,hive把sql语句转化为MapReduce程序去执行二.Hive架构映射流程用户接口:包括CLI、JDBC/ODBC、WebGUI，CLI(commandlineinterface）为shell命令行；Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议。WebGUI是通

LKL1026·2023-11-12 03:06

大数据笔记--Zookeeper（第三篇）

目录一、选举机制1、概述2、细节二、ZAB协议1、概述2、原子广播3、原子广播的过程4、查看日志的方式5、崩溃恢复三、Zookeeper-其他1、observer-观察者2、特征3、zookeeper集群操作四、PAXOS算法1、概述五、AVRO1、概述2、序列化3、AVRO序列化举例4、RPC一、选举机制1、概述当一个zookeeper集群刚启动的时候，会自动的进入选举状态，此时所有的服务器都会

是小先生·2023-11-11 11:56

【Python大数据笔记_day04_Hadoop】

分布式和集群分布式:多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务)集群:多台服务器联合起来独立做相同的任务(多个服务器分担客户发来的请求)注意:集群如果客户端请求量(任务量)多,多个服务器同时处理不同请求(不同任务),如果请求量少,一台服务器干活,其他服务器备份使用Hadoop框架概述Hadoop简介:是Apache旗下的一个用Java语言实现的存储个计算大

LKL1026·2023-11-09 23:35

大数据笔记-关于Cassandra的删除问题

Cassandra是Facebook开源的一个NoSQL数据库，它除了具备一般的NoSQL分布式数据库特点以外，最大的一个特点是去中心化架构设计，这和HadoopHDFS/HBase等不一样，比如HDFS分为NameNode和DataNode，而Cassandra集群中所有节点都是数据节点，每一个节点都在集群中承担相同的角色。我们开始在2013年做大数据存储系统选型过程中，也考虑过Cassandr

鬓戈·2023-10-30 06:48

大数据笔记--SparkStreaming

目录一、实时计算1、离线和批量、实时和流式Ⅰ、批量计算和流式计算：Ⅱ、批量和流式的区别二、SparkStreaming介绍1、概述2、架构设计二、SparkStreaming基础1、WordCount案例①、监听本地文件数据源②、通过SparkStreaming实时过滤2、基本概念Ⅰ、StreamingContextⅡ、DStream抽象Ⅲ、案例一、实时计算1、离线和批量、实时和流式大数据的计算模

是小先生·2023-10-12 05:03

大数据笔记--Spark（第四篇）

目录一、RDD的容错机制二、RDD持久化机制1、RDD持久化（缓存）2、使用缓存3、缓存数据的清除4、持久化理解三、CheckPoint机制1、概述2、示例代码：3、总结4、Saprk懒执行的意义四、GC回收机制及算法1、概述2、哪些内存数据需要被回收？Ⅰ、引用计数法判定Ⅱ、可达性分析法3、常见的垃圾回收算法Ⅰ、标记-清除算法Ⅱ、复制算法Ⅲ、标记-整理算法Ⅳ、分代收集算法五、GC收集器1、概述2、

是小先生·2023-10-12 05:33

大数据笔记--Flume（第一篇）

目录一、Flume的简介1、概述2、基本概念3、流动模型/拓扑结构①、单级流动②、多级流动③、扇入流动④、扇出流动⑤、复杂流动二、执行流程三、安装Flume四、Source1、AVROSource①、概述②、配置属性③、案例2、ExecSource①、概述②、配置属性③、案例3、SpoolingDirectorySource①、概述②、配置属性③、案例4、NetcatSource①、概述②、配置属

是小先生·2023-10-12 05:32

大数据笔记--Spark（第一篇）

目录一、Spark介绍1、概述2、来源二、Spark的生态系统模块三、Spark的使用模式1、Spark单机模式安装2、Spark集群模式安装四、RDD介绍1、概述2、创建RDD两种方式3、分区概念五、RDD的操作1、Transformation变化2、Action执行3、Controller控制一、Spark介绍1、概述Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验

是小先生·2023-10-12 05:32

大数据笔记--Hadoop（第一篇）

目录一、大数据简介1、简介2、特点3、应用场景4、组织结构二、Hadoop简介1、概述2、版本3、模块4、安装模式5、web访问端口三、Hadoop发展1、创始人2、发展历程四、Hadoop伪分布式安装五、hadoop完全分布式安装一、大数据简介1、简介①、美国调研机构Gartner给出了定义：大数据是一种新的处理模式，针对海量数据能够提供更强的决策力、洞察发现力和流程优化能力②、维基百科给出了定

是小先生·2023-10-12 05:02

大数据笔记--Hive（第一篇）

目录一、Hive1、概述2、Hive和数据库的比较3、特点①、优点②、缺点二、Hive的安装1、概述2、安装步骤3、Hive运行日志4、参数配置一、Hive1、概述Hive原本时有Facebook公司开发后来贡献给了Apache的一套用于进行数据仓库管理的机制Hive提供了类SQL（HQL，HiveQL）语句来管理HDFS上的大量数据，底层会将SQL转化为MapReduce来交给HadoopYAR

是小先生·2023-10-12 05:02

大数据笔记-大数据处理流程

大家对大数据处理流程大体上认识差不多，具体做起来可能细节各不相同，一幅简单的大数据处理流程图如下：1）数据采集：数据采集是大数据处理的第一步。数据采集面对的数据来源是多种多样的，包括各种传感器、社交媒体、电子邮件、数据库、程序运行日志等。数据采集面对的数据类型是多种多样的，有文本数据、结构化数据、图片数据、语音数据、视频数据等。数据采集使用的各种开源工具也是多种多样的，如采用FileBeat对日志

鬓戈·2023-10-12 05:48

【大数据笔记】SQL Optimizer 解析

唐浮·2023-09-14 18:18

大数据笔记--HBase（第二篇）

目录一、Hbase的基本架构1、HRegion2、Zookeeper的作用3、HMaster4、HRegionServer5、Compaction机制二、Hbase的架构读写流程1、概念2、写流程3、读流程三、Hbase的设计优化1、设计原则①、行键设计②、列族设计2、优化一、Hbase的基本架构1、HRegion①、在Hbase中，会将一个表从行键方向上进行切分，切分成1个或者多个HRegion

是小先生·2023-07-17 16:19

大数据笔记-NIFI（第一篇）

是小先生·2023-04-20 04:53

大数据笔记之Hadoop（HDFS）

HDFS概述定义：HDFS是一个分布式文件管理系统，用来存储文件，通过目录树来定位文件；由多个服务器联合起来实现其功能，集群中的服务器由各自的角色。应用场景：适合一次写入多次读写的场景，支持追加、不支持修改。适合用来做数据分析，不适合做网盘使用HDFS优缺点优点高容错性:通过增加副本的形式提高容错性，数据自动保存多个副本；某个副本丢失后，可自动恢复。适合处理大数据：数据规模（TB、PB级别以上）；

小炫锋·2023-03-31 09:35

【大数据】第二章：搭建Hadoop集群（送尚硅谷大数据笔记）

尚硅谷Hadoop3.x官方文档大全免费下载搭建集群没什么好讲的，跟着视频和笔记出不了什么问题。唯一遇到的问题就是安装好VmWare后打不开，发现是老师给的VmWare版本不适配本机的WIN11。解决办法就是下载最新版本的VmWare。新版已经修复了与WIN11的兼容性问题。两个常见面试题：1，Hadoop集群中常见的端口Hadoop2.xNameNode内部端口：8020/9000NameNod

DragonZhuCn·2023-02-06 19:03

《大数据时代》

大数据笔记维克托最具洞见之处在于，他明确指出，大数据时代最大的转变就是，放弃对因果关系的渴求，而取而代之关注相关关系。也就是说只要知道“是什么”，而不需要知道“为什么”。

天天向上的小朋友·2023-02-02 15:54

大数据笔记--SparkSQL（第一篇）

目录一、SparkSql1、概述2、由来3、SparkSQL特点4、为什么SparkSQL的性能会的得到这么大的提升？Ⅰ、内存列存储二、SparkSql入门1、概述2、创建DataFrame对象三、SparkSql基础语法上1、通过方法来使用四、SparkSql基础语法下1、通过sql语句来调用五、SparkSqlAPI一、SparkSql1、概述Spark为了结构化数据处理引入了一个称为Spar

是小先生·2023-01-12 10:15

【大数据笔记】- Spark-SQL读写MySQL

Spark-SQL很强大，可以读写各种JDBC的库，先来一弹MySQL的，超简单：1.MySQL库建测试表和数据：CREATETABLEt_realtime.test_spark2mysql(idbigint(11)NOTNULLAUTO_INCREMENT,namevarchar(30)DEFAULTNULL,ageintDEFAULTNULL,PRIMARYKEY(id))ENGINE=Inn

菜鸟老胡~·2022-12-21 23:24

大数据笔记

大数据笔记一、大数据时代二、大数据的四个特性1、数据量大（volume）2、数据类型繁多（velocity）3、处理速度快（variety）4、价值密度低（value）三、大数据的影响四、大数据关键技术

上课不要睡觉了·2022-10-13 12:23

大数据笔记--spark内核解析

一、Spark内核概述spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制，Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更好的完成Spark代码设计，并能够帮助我们准确锁定项目运行过程中的问题所在。1、Spark核心组件回顾1.1、DriverSpark驱动器节点，用于执行Spark任务中的main

是小先生·2022-07-31 07:09

大数据笔记--Spark机器学习（第一篇）

目录一、数据挖掘与机器学习1、概念2、人工智能3、数据挖掘体系二、机器学习1、什么是机器学习2、机器学习的应用3、实现机器学习算法的工具与技术框架三、SparkMLlib介绍1、简介2、MLlib基本数据类型Ⅰ、概述Ⅱ、本地向量Ⅲ、向量标签的使用Ⅳ、本地矩阵Ⅴ、分布式矩阵的使用3、MLlib统计量基础Ⅰ、概述Ⅱ、计算基本统计量Ⅲ、计算相关系数四、距离度量和相似度度量1、概念2、欧氏距离3、曼哈顿距

是小先生·2022-04-25 07:47

从零开始学习大数据笔记 - 开篇

（一）大数据发展史在正式落地谈技术之前，我先花一些篇幅给你讲讲大数据技术的发展史，因为这对于你理解技术来说至关重要。从我的角度而言，不管是学习某门技术，还是讨论某个事情，最好的方式一定不是一头扎到具体细节里，而是应该从时空的角度先了解它的来龙去脉，以及它为什么会演进成为现在的状态。当你深刻理解了这些前因后果之后，再去看现状，就会明朗很多，也能更直接地看到现状背后的本质。说实话，这对

存亡祸福，其要在身·2022-03-14 07:55

好程序员大数据笔记之：Hadoop集群搭建

好程序员大数据笔记之：Hadoop集群搭建在学习大数据的过程中，我们接触了很多关于Hadoop的理论和操作性的知识点，尤其在近期学习的Hadoop集群的搭建问题上，小细节，小难点拼频频出现，所以，今天集中总结以下笔记

好程序员IT·2022-02-27 09:10

大数据笔记（二）：Hadoop1.x下的第二名称节点(SecondaryNameNode)

在NameNode（NN）运行期间，HDFS因为文件的频繁更新会使得EditLog的体积不断增大，进而使NameNode在重启过程中逐条执行EditLog来更新FsImage的过程变得缓慢，使得NameNode长期处于只读状态，影响用户使用。HDFS提供了第二名称节点(SecondaryNameNode，SNN)来解决这个问题：SNN每隔一段时间会向NN发出停止使用EditLog的请求，NN接收到

Kevin@1997·2020-09-11 03:12

大数据笔记之HA(High Availability)

HA——HighAvailabilityHA的作用：1.解决单点故障问题，比如主节点宕机或者主节点软件或硬件升级，导致集群在短时间内不可用。2.提升集群容量和集群性能HA基本原理HA机制有两个namenode（NN），一个是activeNN，状态是active；另外一个是standbyNN，状态是standby。两者的状态是可以切换的，但不能同时两个都是active状态，最多只有1个是active

WaterBigchicken·2020-09-11 00:21

大数据笔记之Hadoop

1.预备知识1.1linux须知linux微内核的特性，vmware安装linuxcentos：稳定linux常操作目录：/bin,/usr,/etcxshell:实用xshell操作centoslinux记事本：vi/vim1.2常用命令帮助：man目录：mkdir，rmdir，mv,ls,rm-rf,cd文件：touch/vi,cat,cp,rm,more，grep搜索：which,where

阿锁说编程·2020-08-26 09:53

2020.0521大数据笔记zookeeper

更改服务器的名字vi/etc/sysconfig/networkvi/etc/hostsvi/etc/hostname三连Zookeeper1.概述Zookeeper是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2.Zookeeper的特点Zookeeper本质上是一个分布式文件系统，适合存放小文件，也可以理解为一个数据库Zookeeper中存储的其实是

see you in September·2020-08-21 22:31

大数据笔记之Zookeeper

概述Zookeeper是一个开源的分布式的并且为分布式应用提供协调服务的Apache项目。Zookeeper工作机制功能管理（存储、读取）用户提交的数据为用户程序提供数据节点的监听服务Zookeeper特点一个leader，多个follower集群中只要有半数以上节点存活，Zookeeper集群就能正常服务全局一致性：每个Server保存一份相同的数据副本更新请求顺序进行，来自同一个Client的

小炫锋·2020-08-21 20:26

大数据笔记-zookeeper集群搭建

第一步：环境准备～～＞前提：在原有一台基础之上，在创建两台虚拟机(点击管理克隆即可,复制两份出来)192.168.8.101LENOVO01192.168.8.102LENOVO02192.168.8.103LENOVO03修改主机名vim/etc/sysconfig/networkHOSTNAME=LENOVO01同时在这三台其中的/etc/hosts文件中把192.168.8.101LENOV

JulyTail·2020-08-21 19:12

大数据笔记-zookeeper

单机版的ZooKeeper～～＞步骤：①解压：tar-zxvfzookeeper-3.4.6.tar.gz配置环境变量：vim/etc/profile.d/bigdata.sh添加配置信息：#profilezookeperexportZK_HOME=/opt/zookeeperexportPATH=$PATH:$ZK_HOME/binsource生效②在conf目录下创建一个配置文件zoo.cfg

JulyTail·2020-08-21 17:33

大数据笔记（四）：Hadoop 2.7.7+Scala+Spark 完全分布式集群搭建

本文记录了使用3台物理机部署Hadoop完全分布式集群的过程，所使用系统为Ubuntu16.04LTS，Hadoop版本为Hadoop2.7.7。搭建前的准备Ubuntu16.04LTSJDK(Download)Hadoop2.7.7（Download）Spark(Download)Scala(Download)注意：※下载密码：kevin※教程中所有shell命令，如果没有特殊说明，全部都需要单

Kevin@1997·2020-08-21 15:42

学习大数据笔记之hadoop day1

第一天学习大数据今天学习大数据，我说一点我个人对于大数据的看法：正如马云所说，我们还没弄清楚什么是pc互联网，移动互联网就来了，当我们还在学习移动互联网的时候，这时候大数据时代来了我觉得这是时代发展和科技进步所带了的必然结果，我们在享受信息大爆炸时代所带来的便利的同时，就会有人思考，如果我掌握了一个人的某方面的大量样本，是不是能对一个人的某方面行为进行评估，预测。从而可以进行特定的商业活动呢？关于

weixin_45210609·2020-08-18 12:42

【大数据笔记】hadoop基础——各组件介绍

目录故事背景Hadoop与大数据之间到底是什么关系？1、数据存储：HDFS，一个分布式文件系统2.数据分析：MapReduce计算引擎HDFS（Hadoop分布式文件系统）MapReduce（分布式计算模型）离线计算Yarn（分布式资源管理器）Spark（内存计算）HBase（分布式列存储数据库）Hive（数据仓库）Oozie（工作流调度器）Sqoop与PigFlume（日志收集工具）Kafka（

小范今天学Java了嘛？·2020-08-15 07:34

20200513大数据笔记

[-safemode]安全模式。写不可以。读可以hdfsdfsadmin-safemodeenterhdfsdfsadmin-safemodeleave错误：Namenodeisinsafemode.什么时候会安全模式：1.hdfs故障nnlog日志根据错误去看看尝试能不能解决，和尝试先手动让他你看安全模式2.业务场景各个DN节点的数据平衡#Startbalancerdaemon."$HADOOP

see you in September·2020-08-11 00:07

大数据笔记（三）：IDEA下使用Maven工程与HDFS进行简单交互

最近在看厦大林子雨老师的mooc，3.6讲使用Eclipse开发环境与HDFS进行交互，我比较喜欢IDEA的风格，这篇blog记录了在使用IDEA时踩过的坑。配置Maven环境Maven是什么？Maven是基于项目对象模型(POMprojectobjectmodel)，可以通过一小段描述信息（配置）来管理项目的构建，报告和文档的软件项目管理工具。（我的理解：通过pom.xml自动下载jar包并优化

Kevin@1997·2020-08-04 16:52

大数据笔记（二十四）——Scala面向对象编程实例

=====================Scala语言的面向对象编程========================一、面向对象的基本概念:把数据和操作数据的方法放到一起，作为一个整体（类class）面向对象的特征：（1）封装（2）继承（3）多态二、定义类:class，没有类的修饰符:public、protected、privateclassStudent1{//定义属性privatevarst

weixin_30532369·2020-08-01 03:00

Hadoop笔记：Java API 操作HDFS文件大集合

大数据笔记：JavaAPI操作HDFS文件大集合标签：大数据大数据笔记：JavaAPI操作HDFS文件大集合JAVAAPI操作HDFS环境搭建JAVA操作在hdfs上创建一个目录代码展示文档分析结果创建一个文件并写入内容创建文件写入内容代码查看

Japson_z·2020-07-16 00:33

ACP大数据笔记

数据工场基本概念https://help.aliyun.com/document_detail/30257.html?spm=a2c4g.11186623.6.541.oiqbz7MaxCompute支持SQL、MapReduce、Graph等计算类型及MPI迭代类算法。MaxCompute批量、历史数据通道是Tunnel，实时、增量数据通道，可以用DataHub，DataHub还支持多种数据传输

Aretlas恺撒·2020-07-15 22:18

推荐频道

大数据笔记

大数据笔记--Spark（第五篇）

大数据笔记(待续)

【Python大数据笔记_day11_Hadoop进阶之MR和YARN&ZooKeeper】

【Python大数据笔记_day10_Hive调优及Hadoop进阶】

【Python大数据笔记_day08_hive查询】

【Python大数据笔记_day09_hive函数和调优】

河工阿晖大数据笔记脚本截图

大数据笔记29—Hadoop基础篇12(Hive特殊使用与函数)

【Python大数据笔记_day07_hive中的分区表、分桶表以及一些特殊类型】

大数据笔记--Zookeeper（第二篇）

【Python大数据笔记_day06_Hive】

【Python大数据笔记_day05_Hive基础操作】

大数据笔记--Zookeeper（第三篇）

【Python大数据笔记_day04_Hadoop】

大数据笔记-关于Cassandra的删除问题

大数据笔记--SparkStreaming

大数据笔记--Spark（第四篇）

大数据笔记--Flume（第一篇）

大数据笔记--Spark（第一篇）

大数据笔记--Hadoop（第一篇）

大数据笔记--Hive（第一篇）

大数据笔记-大数据处理流程

【大数据笔记】SQL Optimizer 解析

大数据笔记--HBase（第二篇）

大数据笔记-NIFI（第一篇）

大数据笔记之Hadoop（HDFS）

【大数据】第二章：搭建Hadoop集群（送尚硅谷大数据笔记）

《大数据时代》

大数据笔记--SparkSQL（第一篇）

【大数据笔记】- Spark-SQL读写MySQL

大数据笔记

大数据笔记--spark内核解析

大数据笔记--Spark机器学习（第一篇）

从零开始学习大数据笔记 - 开篇

好程序员大数据笔记之：Hadoop集群搭建

大数据笔记（二）：Hadoop1.x下的第二名称节点(SecondaryNameNode)

大数据笔记之HA(High Availability)

大数据笔记之Hadoop

2020.0521大数据笔记zookeeper

大数据笔记之Zookeeper

大数据笔记-zookeeper集群搭建

大数据笔记-zookeeper

大数据笔记（四）：Hadoop 2.7.7+Scala+Spark 完全分布式集群搭建

学习大数据笔记之hadoop day1

【大数据笔记】hadoop基础——各组件介绍

20200513大数据笔记

大数据笔记（三）：IDEA下使用Maven工程与HDFS进行简单交互

大数据笔记（二十四）——Scala面向对象编程实例

Hadoop笔记：Java API 操作HDFS文件大集合

ACP大数据笔记