大数据学习之旅

尚硅谷大数据技术课程资料下载：开启大数据学习之旅

尚硅谷大数据技术课程资料下载：开启大数据学习之旅尚硅谷大数据技术-教程-学习路线-笔记汇总表课程资料下载项目地址:https://gitcode.com/Resource-Bundle-Collection

裘心国Trent·2025-05-07 23:46

大数据是什么？华为云学院带你探索大数据之旅

展开我们本次的大数据学习之旅！大数据是什么，内容将包括大数据的产生，发展大数据的基本概念。首先我们来追溯一下大数据的产生与发展，大数据的产生和发展主要经历了三个阶段。第一个阶段，我们称为是萌芽期！

舒意从生·2024-02-03 08:53

10.大数据学习之旅——hive2

Hive解决数据倾斜问题概述什么是数据倾斜以及数据倾斜是怎么产生的？简单来说数据倾斜就是数据的key的分化严重不均，造成一部分数据很多，一部分数据很少的局面。举个wordcount的入门例子，它的map阶段就是形成（“aaa”,1）的形式，然后在reduce阶段进行value相加，得出“aaa”出现的次数。若进行wordcount的文本有100G，其中80G全部是“aaa”剩下20G是其余单词，那

零零天·2023-04-11 19:18

大数据之Hadoop集群搭建（4个节点）

大数据必备–搭建Hadoop集群（4个节点）初学大数据肯定第一步先搭建hadoop集群，虽然不知道怎么用，但是先搭建集群是你大数据学习之旅的第一步，操作步骤有以下这几步，用的centos系统对四台虚拟机进网络和静态

普通网友·2023-01-30 15:46

大数据之Hadoop集群搭建（4个节点）

大数据必备–搭建Hadoop集群（4个节点）初学大数据肯定第一步先搭建hadoop集群，虽然不知道怎么用，但是先搭建集群是你大数据学习之旅的第一步，操作步骤有以下这几步，用的centos系统对四台虚拟机进网络和静态

m0_67393039·2022-09-06 15:42

大数据学习路线

本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线，帮助它们开启大数据学习之旅。鉴于大数据领域内的技术绚丽繁复，每位大数据初学者都应该根据自己的实际情况制定专属的学习路径。要说当下I

17aa7dcf7b8c·2022-02-12 16:46

大数据解决思想

记录下大数据学习之旅。

yyoc97·2020-09-16 01:34

2.大数据学习之旅——红黑树

红黑树自平衡二叉查找树—时间复杂度O(logn)特征：每一个节点非红即黑根节点一定是黑色所有的叶子节点一定是黑色的nil节点红节点的子节点一定是黑节点任意一条路径中的黑色节点个数一致插入的节点一定是红色修复：当前节点为红，并且父节点且叔父节点为红，那么将父节点以及叔父节点涂黑，然后将祖父节点涂红当前节点为红，并且父节点为红且叔父节点为黑，当前节点为右子叶，以当前节点为轴进行左旋当前节点为红，并且父

零零天·2020-08-25 04:06

14.大数据学习之旅——HBASE表设计&HBase优化

HBASE表设计Rowkey设计Rowkey是不可分割的字节数，按字典排序由低到高存储在表中。在设计HBase表时，Rowkey设计是最重要的事情，应该基于预期的访问模式来为Rowkey建模。Rowkey决定了访问HBase表时可以得到的性能，原因有两个：1）Region基于Rowkey为一个区间的行提供服务，并且负责区间的每一行；2）HFile在硬盘上存储有序的行。这两个因素是相互关联的。当Re

零零天·2020-08-18 11:21

27.大数据学习之旅——SparkStreaming&spark mllib数据挖掘与机器学习

SparkStreaming介绍概述SparkStreaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力，以吞吐量高和容错能力强著称。SparkStreamingVSStorm大体上两者非常接近，而且都处于快速迭代过程中，即便一时的对比可能某一方占优势。在Spark老版本中，SparkStreaming的延迟级别达到秒级，而Storm可以达到毫秒级别。而在

零零天·2020-08-18 10:08

25.大数据学习之旅——Spark集群模式安装&Spark架构原理

实现步骤：1）上传解压spark安装包2）进入spark安装目录的conf目录3）配置spark-env.sh文件配置示例：#本机ip地址SPARK_LOCAL_IP=hadoop01#spark的shuffle中间过程会产生一些临时文件，此项指定的是其存放目录，不配置默认是在/tmp目录下SPARK_LOCAL_DIRS=/home/software/spark/tmpexportJAVA_HO

零零天·2020-08-18 10:08

15.大数据学习之旅——Storm

Storm介绍介绍官方网址：http://storm.apache.org/官方对于Storm的介绍：ApacheStormisafreeandopensourcedistributedrealtimecomputationsystem.Stormmakesiteasytoreliablyprocessunboundedstreamsofdata,doingforrealtimeprocessin

零零天·2020-08-18 10:08

23.大数据学习之旅——scala进阶

函数式编程的概念编程范式函数式编程是一种编程范式，我们常见的编程范式有：1）命令式编程（Imperativeprogramming），常见的面向对象编程是也是一种命令式编程。比如java，c等。命令式编程是完全依托于冯诺依曼体系机来实现的，即代码最后会转变为一条条的指令去执行，所以指令式编程的时间复杂度是和指令数相关的。根据摩尔定律，冯诺依曼体系机的性能可能本世纪30年代就不再提高，即当冯诺依曼体

零零天·2020-08-18 10:08

24.大数据学习之旅——spark手把手带你入门

Spark介绍ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing.SparkIntroduceRunprogramsupto100xfasterthanHadoopMapReduceinmemory,or10xfasterondisk.ApacheSparkhasanadvancedDAGexecutionengineth

零零天·2020-08-18 10:08

4.大数据学习之旅——Avro

一、概述Avro是一种远程过程调用和数据序列化框架，是在Apache的Hadoop项目之内开发的。它使用JSON来定义数据类型和通讯协议，使用压缩二进制格式来序列化数据。它主要用于Hadoop，它可以为持久化数据提供一种序列化格式，并为Hadoop节点间及从客户端程序到Hadoop服务的通讯提供一种电报格式。二、序列化和反序列化概述数据序列化就是将对象或者数据结构转化成特定的格式，使其可在网络中传

零零天·2020-08-18 01:16

8.大数据学习之旅——hadoop-Hadoop完全分布式配置

Hadoop完全分布式配置关闭防火墙修改主机名配置hosts文件。将需要搭建集群的主机全部配置到hosts文件中192.168.32.138hadoop01192.168.32.139hadoop02192.168.32.140hadoop03配置免密登录安装jdk安装zk配置Hadoop编辑hadoop-env.sh，并且重新生效编辑core-site.xmlfs.defaultFShdfs:/

零零天·2020-08-13 17:28

9.大数据学习之旅——hive

Hive介绍Hadoop开发存在的问题只能用java语言开发，如果是c语言或其他语言的程序员用Hadoop，存在语言门槛。需要对Hadoop底层原理，api比较了解才能做开发。Hive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现

零零天·2020-08-13 10:59

26.大数据学习之旅——Spark调优&源码解读&SparkSQL入门

Spark调优—上篇更好的序列化实现Spark用到序列化的地方1）Shuffle时需要将对象写入到外部的临时文件。2）每个Partition中的数据要发送到worker上，spark先把RDD包装成task对象，将task通过网络发给worker。3）RDD如果支持内存+硬盘，只要往硬盘中写数据也会涉及序列化。默认使用的是java的序列化。但java的序列化有两个问题，一个是性能相对比较低，另外它

零零天·2020-08-04 17:20

0基础大数据学习路径

本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线，帮助它们开启大数据学习之旅。鉴于大数据领域内的技术绚丽繁复，每位大数据初学者都应该根据自己的实际情况制定专属的学习路径。

kuntoria·2020-07-14 20:01

22.大数据学习之旅——scala手把手带你入门

Scala介绍Scala介绍官方网址：http://www.scala-lang.org官网对scala的介绍：Scala既是面向对象的语言，也是面向函数的语言。scala可以为你在做大量代码重用和扩展是提供优雅的层次结构，并可以通过高阶函数来实现这样的目标。（高阶函数是函数式编程里的特性之一，允许函数作为参数传递，也允许函数作为返回值来返回）Scala创始人MartinOdersky马丁·奥德斯

零零天·2020-07-08 00:17

大数据技术学习路线指南

引言本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线，帮助他们开启大数据学习之旅。鉴于大数据领域内的技术绚丽繁复，每位大数据初学者都应该根据自己的实际情况制定专属的学习路径。

qq_43958076·2020-06-26 02:32

21.大数据学习之旅——flume进阶

flume的Sourcesource学习网址：http://flume.apache.org/FlumeUserGuide.html一、Avro类型的Source监听Avro端口来接收外部avro客户端的事件流。和netcat不同的是，avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继续传输。所以，如果是avro-source的话，源数据必须是经过avro序列化后的数据

零零天·2020-06-25 15:08

20.大数据学习之旅——flume安装和配置

实现步骤：安装jdk，1.6版本以上上传flume的安装包解压安装在conf目录下，创建一个配置文件，比如：template.conf（名字可以不固定,后缀也可以不固定）配置agent组件相关配置：#配置Agenta1的组件a1.sources=r1a1.channels=c1(可以配置多个，以空格隔开，名字自己定）a1.sinks=s1(可以配置多个，以空格隔开，名字自己定）#描述/配置a1的r

零零天·2020-06-25 15:37

19.大数据学习之旅——flume介绍

flume介绍概述Flume最早是Cloudera提供的日志收集系统，后贡献给Apache。所以目前是Apache下的项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。Flume是一个高可用的，高可靠的鲁棒性（robust健壮性），分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据(source);同时，Flume提供对数据进行简单处

零零天·2020-06-25 15:37

（前言）我的大数据学习之旅

Ares_song·2020-03-18 21:30

大数据学习之旅2——从零开始搭hadoop完全分布式集群

前言本文从零开始搭hadoop完全分布式集群，大概花费了一天的时间边搭边写博客，一步一步完成完成集群配置，相信大家按照本文一步一步来完全可以搭建成功。需要注意的是本文限于篇幅和时间的限制，也是为了突出重点，一些很基础的操作就不再详细介绍，如果是完全不懂linux，建议先看一下Linux的基础教程，再进行hadoop配置。同时建议，hadoop安装版本不宜很高。第一次写这么长的博客，希望对大家有所帮

萌新瑟瑟发抖·2019-08-15 13:00

大数据学习之旅1——HDFS版本演化

最近开始学习大数据，发现大数据有很多很多组件，我现在负责的是HDFS（Hadoop分布式储存系统）的学习，整理了一下HDFS的版本情况。因为HDFS是Hadoop的重要组成部分，所以有关HDFS的版本信息我也是通过查看Hadoop官网的每一个版本的Hadoop中HDFS的变化情况得到的，我尽可能的翻看了所有的信息，但是也可能有所疏漏，大家如果发现有不恰当的地方，可以在评论区留言，我有空的时候会做出

萌新瑟瑟发抖·2019-07-22 11:00

大数据是什么？华为云学院带你探索大数据之旅

展开我们本次的大数据学习之旅！大数据是什么，内容将包括大数据的产生，发展大数据的基本概念。首先我们来追溯一下大数据的产生与发展，大数据的产生和发展主要经历了三个阶段。第一个阶段，我们称为是萌芽期！

weixin_33714884·2018-10-08 11:53

开启大数据学习之旅

之前接触过Hadoop，感觉蜻蜓点水，从今天开始系统的学习大数据，有个好老师幸福— 《从技术角度思考Hadoop到底是什么》http://edu.51cto.com/course/course_id-1151.html DT大数据梦工厂微信公众号：DT_Spark，希望大家一起学习，加油！感谢王家林老师！

静Hadoop·2015-11-13 16:00

大数据学习之旅开启了

一个偶然的机会听了一次王家林老师的大数据课程，讲得非常棒，从今天开始向王老师学习，一步步打好大数据的基础，加油！下面的链接是王家林老师录制的视频：开始学习^-^http://pan.baidu.com/s/1eQsHZAq

ff2008zhj·2015-11-13 16:13

推荐频道

大数据学习之旅

尚硅谷大数据技术课程资料下载：开启大数据学习之旅

大数据是什么？华为云学院带你探索大数据之旅

10.大数据学习之旅——hive2

大数据之Hadoop集群搭建（4个节点）

大数据之Hadoop集群搭建（4个节点）

大数据学习路线

大数据解决思想

2.大数据学习之旅——红黑树

14.大数据学习之旅——HBASE表设计&HBase优化

27.大数据学习之旅——SparkStreaming&spark mllib数据挖掘与机器学习

25.大数据学习之旅——Spark集群模式安装&Spark架构原理

15.大数据学习之旅——Storm

23.大数据学习之旅——scala进阶

24.大数据学习之旅——spark手把手带你入门

4.大数据学习之旅——Avro

8.大数据学习之旅——hadoop-Hadoop完全分布式配置

9.大数据学习之旅——hive

26.大数据学习之旅——Spark调优&源码解读&SparkSQL入门

0基础大数据学习路径

22.大数据学习之旅——scala手把手带你入门

大数据技术学习路线指南

21.大数据学习之旅——flume进阶

20.大数据学习之旅——flume安装和配置

19.大数据学习之旅——flume介绍

（前言）我的大数据学习之旅

大数据学习之旅2——从零开始搭hadoop完全分布式集群

大数据学习之旅1——HDFS版本演化

大数据是什么？华为云学院带你探索大数据之旅

开启大数据学习之旅

大数据学习之旅开启了