大数据学习笔记第4页

大数据技术学习笔记

大数据学习笔记一、hadoop2.0项目结构1hdfs分布式文件系统2yarn资源调度系统3mapReduce离线数据分析4Tez组成有向无环图DAG计算5Spark分布式内存计算6Hive数据仓库，用

xinxin之火·2020-06-29 06:15

Spark大数据学习笔记_第6篇_flume安装

Spark大数据学习笔记_第6篇_flume安装Spark大数据学习笔记_第6篇_flume安装1.安装flume2.修改flume配置文件3.创建需要的文件夹4.启动flume-agent5.测试flume1

superbeyone·2020-06-26 16:48

大数据学习笔记(spark日志分析案例)

smy12138·2020-06-26 13:22

大数据学习笔记（一）——大数据概述

第一章大数据概述1.1大数据时代1.1.1信息科技为大数据时代提供技术支持①存储设备容量不断増加——解决了信息存储的问题②CPU处理能力大幅提升——解决了信息处理的问题③网络带宽不断増加——解决了信息传输的问题1.1.2数据产生方式的变革促成大数据时代的来临数据是我们通过观察、实验或计算得出的结果。数据和信息是两个不同的概念。信息是较为宏观的概念，它由数据的有序排列组合而成，传达给读著某个概念方法

stepondust·2020-06-26 02:12

大数据学习笔记二：解析大数据使用的技术

大数据设计技术主要有Hadoop，HDFS，HBase，MapReduce等，今天进行相关总结大数据的应用主要是对数据进行存储和处理，但是对于一般的设备而言，想要存储和处理大量数据难度较大（TB以上级别），因此需要使用一些技术处理大数据问题。主要应用的技术如下图展示：此图也是展示的Hadoop生态圈，即以Hadoop为核心扩展的技术，接下来将分开介绍：HadoopHadoop是一个能够对大量数据进

绿洲守望者·2020-06-25 11:56

大数据学习笔记七（云数据库）

在了解云数据库之前，先明确一下云计算的概念：通过整合、管理、调配分布在网络各处的计算资源，通过互联网以统一界面，同时向大量的用户提供服务云数据库的概念：云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易。云数据库具有高可扩展性、高可用性、采用多

绿洲守望者·2020-06-25 11:56

我的大数据学习笔记

PC端的这个右侧的目录找东西确实好找点，我每次写也非常注意看这块排版工不工整，用这里去直接跳到对应的内容真的还算方便，所以就想着做个目录，以后如果写了新的，也会在这篇写上标题。按照不同技术框架的划分形式。已经有写过的就写上，没写过的就先空着。1.分布式存储HDFS①HDFS基础概念篇内容概要：block的概念与副本、机架存储策略、三大组件：NameNode，DataNode，SecondaryNa

大数据基础入门教程·2020-06-24 15:28

Hadoop 大数据学习笔记

Hadoop大数据学习笔记1大数据部门组织架构HadoopHadoop是什么Hadoop的优势Hadoop的组成HDFS架构YARN架构MapReduce大数据技术生态体系!

fuyiar·2020-06-23 09:36

大数据学习笔记之Spark（六）：Spark内核解析

文章目录小笔记spark通信架构spark脚本sparkStandalone启动流程spark应用提交流程sparkshuffle过程Spark内存管理与分配第1章Spark整体概述如何查看spark源码1.1整体概念1.2RDD抽象1.3计算抽象（重点看下，也算是任务运行吧）1.4集群模式1.5RPC网络通信抽象1.6启动Standalone集群1.7核心组件1.8核心组件交互流程（重点看，面试

Leesin Dong·2020-06-23 03:14

大数据学习笔记之Spark（八）：Spark机器学习解析（一）

文章目录第1章机器学习概述第2章机器学习的相关概念2.1数据集2.2泛化能力2.3过拟合和欠拟合2.4维度、特征2.5模型2.6学习第3章算法常用指标3.1精确率和召回率3.2TPR、FPR&TNR3.3综合评价指标F-measure3.4ROC曲线、AUC3.4.1为什么引入ROC曲线？3.4.2什么是ROC曲线？3.4.3什么是AUC？3.4.4怎样计算AUC？4.1梯度下降4.2牛顿法4.3

Leesin Dong·2020-06-23 03:29

大数据学习笔记之Spark（七）：Spark优化解析

文章目录小笔记spark的监控工具Spark的数据倾斜第1章Spark性能优化1.1调优基本原则1.1.1基本概念和原则1.1.2性能监控方式1.1.2.1SparkWebUI1.1.2.2Ganglianmon1.1.2.2其他监控工具Jprofiler（很重要）1.1.3调优要点1.1.3.1内存调整要点1.1.3.2集群并行度调整要点1.1.3.3序列化和传输1.1.3.4文件读写1.1.3

Leesin Dong·2020-06-23 03:54

大数据学习笔记之Spark（二）：SparkCore应用解析

文章目录小笔记第1章RDD概念番外篇RDD基础RDD的创建RDD的操作1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1TransformationmapfilterflatM

Leesin Dong·2020-06-23 03:46

大数据学习笔记之Spark（四）：Spark Streaming概述

文章目录小笔记第1章SparkStreaming概述1.1什么是SparkStreaming1.2为什么要学习SparkStreaming1.3Spark与Storm的对比第2章运行SparkStreaming2.1IDEA编写程序第3章架构与抽象第4章SparkStreaming解析4.1初始化StreamingContext4.2什么是DStreams4.3DStreams输入4.3.1基本数

Leesin Dong·2020-06-23 03:15

大数据学习笔记之Spark（五）：SparkGraphX 应用解析

文章目录小笔记第1章SparkGraphX概述1.1什么是SparkGraphX1.2弹性分布式属性图1.3运行图计算程序第2章SparkGraphX解析2.1存储模式2.1.1图存储模式2.1.2GraphX存储模式2.1.2.1RandomVertexCut2.1.2.2CanonicalRandomVertexCut2.1.2.3EdgePartition1D2.1.2.4EdgeParti

Leesin Dong·2020-06-23 03:15

大数据学习笔记之Spark（八）：Spark机器学习解析（二）

Leesin Dong·2020-06-23 03:42

大数据学习笔记之HBase（七）：案例设计（新浪微博）

文章目录四十一、设计案例41.0、牵扯知识点41.1、牵扯概念：命名空间41.1.1、命名空间结构图41.1.2、组成部分41.1.3、命名空间命令41.1.4、观察HDFS中的目录结构的变化41.2、微博项目41.2.1、需求分析41.2.2、步骤拆解41.2.3、代码实现四十一、设计案例41.0、牵扯知识点版本上下界、命名空间、rowkey的设计技巧，除了命名空间，剩下的知识点在前面几篇有讲到

Leesin Dong·2020-06-23 03:39

大数据学习笔记之Oozie（一）：Oozie入门

文章目录1、Oozie英文翻译2、Oozie简介3、Oozie在集群中扮演的角色4、Oozie的功能模块5、Oozie的节点6、Oozie的安装与部署7、案例7.1、案例一：使用Oozie调度Shell脚本7.2、案例二：执行多个Job调度7.3、案例三：调度MapReduce任务7.4、案例四：Coordinator周期性调度任务（这个最后是没有成功的，start和stop配置的格式的问题，不要

Leesin Dong·2020-06-23 03:38

大数据学习笔记之HBase（五）：一些优化技巧（通用技巧、linux、HDFS、MapReduce、HBase、内存、JVM、zookeeper）

文章目录三十七、一些优化技巧37.1、通用优化37.1.1、NameNode的元数据备份使用SSD37.1.2、定时备份NameNode上的元数据，每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。37.1.3、为NameNode指定多个元数据目录，使用dfs.name.dir或者dfs.namenode.name.dir指定。一个指定本地磁盘

Leesin Dong·2020-06-23 03:38

大数据学习笔记之初识Hadoop

1、Hadoop概述1.1Hadoop名字的由来Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Hadoop的官网：http://hadoop.apache.org。1.2Hadoop介绍Hadoop是Apache的一个顶级项目、是开源的、分布式存储+分布式计算平台；它由以下几个模块构成：HadoopCommon:这是支持hadoop其他模块的通用工具模块HadoopDistrib

ako881010·2020-06-22 13:00

大数据学习笔记之HBase（三）：HBase API使用、HBase与Hive相关、HBase shell

文章目录二十、HBaseAPI的使用20.1、解压Maven离线仓库到指定目录20.2、新建Eclipse的MavenProject，添加pom.xml的dependency如下：20.3、编写HBaseAPI代码二十一、文件格式的说明21.1、tsv格式的文件：字段之间以制表符\t分割21.2、csv格式的文件：字段之间以逗号,分割二十二、HBase的MapReduce的调用22.1、查看HBa

Leesin Dong·2020-06-21 00:36

大数据学习笔记之HBase（六）：HBase表类型的设计、预分区、rowkey的设计技巧

文章目录三十八、HBase表类型的设计38.1、短宽38.2、高瘦38.3、短宽-高瘦的对比38.3.1、短宽38.3.2、高瘦三十九、HBase的预分区39.1、为何要预分区？39.2、如何预分区？39.3、如何设定预分区？39.3.1、手动指定预分区39.3.2、使用16进制算法生成预分区39.3.3、分区规则创建于文件中39.3.4、使用JavaAPI创建预分区四十、HBase的rowKey

Leesin Dong·2020-06-21 00:36

大数据学习笔记之Spark：Spark基础解析

第1章Spark概述spark的产生背景spark是如何产生的，这要先送大数据说起，大数据是如何产生的？Google就是处理大数据的，网页和网页之间有很多的关联关系，为了处理排序啊这些算法，所以Google就发明了，Google就发布了三个论文，基于这三个论文的开源，实现了Hadoop、Hdfs、MapReduce、Hbase等，但是感觉好像每次MapReduce只能处理一次数据，而且开始跑map

BAO7988·2020-06-20 21:11

大数据学习笔记——Java篇之集合框架(ArrayList)

Java集合框架学习笔记1.Java集合框架中各接口或子类的继承以及实现关系图：2.数组和集合类的区别整理：数组：1.长度是固定的2.既可以存放基本数据类型又可以存放引用数据类型3.存放进数组的必须是相同类型的数据VS集合类：1.长度是可变的2.只能存放对象的引用3.存放进集合的可以是不同的数据类型3.集合类常用API源码分析在之后的大数据学习中，灵活运用各种各样的数据结构可以说是一项基本技能了，

终极菜鸡·2020-04-07 20:00

大数据学习笔记（Vol 01）寻找相似的用户

以下内容来自《集体编程智慧》一书；仅做学习交流使用。代码基于Python2.7版本。0、目的：寻找相似的用户寻找一种表达不同人及其偏好的方法。1、示例数据数据展示数位观众对几部电影的得分评价。critics={'LisaRose':{'LadyintheWater':2.5,'SnakesonaPlane':3.5,'JustMyLuck':3.0,'SupermanReturns':3.5,'Y

3230·2020-03-04 03:22

大数据学习笔记45：Sqoop - 数据迁移工具

文章目录一、Sqoop概述二、下载、安装和配置Sqoop1、下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2、将sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz上传到虚拟机3、将sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz解压到指定位置4、将解压目录更名为sqoop-1.4.75、下载mysql-connector-

howard2005·2020-02-10 18:51

【基础篇】大数据学习笔记（3）大数据的各种"轮子"

提到大数据必然会提到Hadoop，Hadoop是一个由Apache基金会所开发的分布式系统基础架构。而Hadoop最核心的设计就是：HDFS（存储）和MapReduce（计算）。下面是大数据的各种框架工具分类：大数据存储框架：帮用户将海量数据分布式存储在机器上HDFS——分布式文件存储系统（HADOOP中的存储框架）HBASE——分布式数据库系统KAFKA——分布式消息缓存系统(实时流式数据处理场

风也醉·2020-02-06 22:51

寒假大数据学习笔记三

今天进入Python爬虫学习，具体学习内容为下载图片，爬取有道词典的翻译和简单的使用代理。1、下载图片非常简单的小脚本，在http://www.placekitten.com网上爬取猫咪的图片代码如下1fromurllibimportrequest234defdoor():5url="http://www.placekitten.com"6req=request.Request(url)7resp

一夕思醉·2020-02-01 21:00

寒假大数据学习笔记二

本次学习记录内容为python基础，python版本是3.5、3.7，学习内容包括文件操作，基本的异常，简单的Easygui,常用的魔法方法。1、文件操作核心语句是open语句，操作规则为open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None)。file参数是文件

一夕思醉·2020-01-31 21:00

寒假大数据学习笔记一

今天主要学习内容是安装配置spark，次要学习内容是整理一下Hadoop，Hbase，hive。因为今天试着启动了一遍进程，发现hbase的进程HMaster总是掉线，紧跟着HRegionServer也同时掉线了。无奈只好检查了一遍logs，发现报Permissiondenied的问题，那不用说，直接找到拒绝访问的文件夹，简单粗暴的来一个chmod777，一般问题就全解决了（毕竟自己的电脑，权限管

一夕思醉·2020-01-28 11:00

大数据学习笔记——HBase与其他大数据组件的整合

HBase与其他大数据组件的整合HBase作为一个以列作为存储形式的大数据组件，具有查询快，存储的数据量大等特点，那么，该组件是如何与Hadoop生态圈中的其他组件进行整合并进行数据的各种导入导出的呢，这篇博客会就这个问题做一个详细的整理，那么废话不多说，我们直接开始吧！1.Hbase与Hive的整合我们先在HBase中保存了一张学生表，进入hbaseshell命令行窗口，然后输入命令scan'n

终极菜鸡·2019-12-21 22:00

大数据学习笔记——Spark工作机制以及API详解

Spark工作机制以及API详解本篇文章将会承接上篇关于如何部署Spark分布式集群的博客，会先对RDD编程中常见的API进行一个整理，接着再结合源代码以及注释详细地解读spark的作业提交流程，调度机制以及shuffle的过程，废话不多说，我们直接开始吧！1.Spark基本API解读首先我们写一段简单的进行单词统计的代码，考察其中出现的API，然后做出整理：importorg.apache.sp

终极菜鸡·2019-12-17 22:00

大数据学习笔记——Spark完全分布式完整部署教程

Spark完全分布式完整部署教程继Mapreduce之后，作为新一代并且是主流的计算引擎，学好Spark是非常重要的，这一篇博客会专门介绍如何部署一个分布式的Spark计算框架，在之后的博客中，更会讲到Spark的基本模块的介绍以及底层原理，好了，废话不多说，直接开始吧！1.安装准备部署Spark时，我们使用的版本如下所示：2.正式安装1.将spark-2.4.3-bin-hadoop2.7.tg

终极菜鸡·2019-12-14 12:00

大数据学习笔记——Hadoop编程实战之Mapreduce

Hadoop编程实战——Mapreduce基本功能实现此篇博客承接上一篇总结的HDFS编程实战，将会详细地对mapreduce的各种数据分析功能进行一个整理，由于实际工作中并不会过多地涉及原理，因此，掌握好mapreduce框架将会有助于了解sql语句在大数据场景下的底层实现原理，从而能够帮助开发人员优化sql语句，提高查询速度，废话不多说，现在正式开始吧！1.Mapreduce入门——wordc

终极菜鸡·2019-12-05 21:00

大数据学习笔记——Hbase高可用+完全分布式完整部署教程

Hbase高可用+完全分布式完整部署教程本篇博客承接上一篇sqoop的部署教程，将会详细介绍完全分布式并且是高可用模式下的Hbase的部署流程，废话不多说，我们直接开始！1.安装准备部署Hbase时，我们使用的版本为1.2.82.正式安装1.将hbase-1.2.8-bin.tar.gz文件使用远程传输软件放到s101的/home/centos/downloads下2.将hbase-1.2.8-b

终极菜鸡·2019-11-23 13:00

大数据学习笔记——HDFS写入过程源码分析(2)

HDFS写入过程注释解读&源码分析此篇博客承接上一篇未讲完的内容，将会着重分析一下在Namenode获取到元数据后，具体是如何向datanode节点写入真实的数据的1.框架图展示在开始前，还是老规矩，先上图本篇内容将会重点介绍HDFS写入流程七大步骤中的4，5步骤，即数据包写入和数据包确认(writepacket&ackpacket)2.源码分析2.1文档注释翻译在讲解这部分内容时会涉及到的类是D

终极菜鸡·2019-11-22 23:00

大数据学习笔记——HDFS写入过程源码分析(1)

HDFS写入过程方法调用逻辑&源码注释解读前一篇介绍HDFS模块的博客中，我们重点从实践角度介绍了各种API如何使用以及IDEA的基本安装和配置步骤，而从这一篇开始，将会正式整理HDFS的读写原理分析，由于全部一次性整理篇幅过长，本人会将这一部分的内容拆分成多篇，这一篇将会从宏观上把控整个写入过程的框架，并啃一啃源码中的注释部分，好了，废话不多说，直接开始吧！1.框架图展示上图摘录自《Hadoop

终极菜鸡·2019-11-21 21:00

大数据学习笔记——HDFS理论知识之编辑日志与镜像文件

HDFS文件系统——编辑日志和镜像文件详细介绍我们知道，启动Hadoop之后，在主节点下会产生Namenode，即名称节点进程，该节点的目录下会保存一份元数据，用来记录文件的索引，而在从节点上即Datanode则会保留真实的数据，对于Namenode来说，最重要的两个文件就是Fsimage和Edits了，它们记录了用户的一系列在文件系统中的操作并保存了文件索引1.初始化文件系统基本步骤为了演示这两

终极菜鸡·2019-11-20 23:00

大数据学习笔记——Hadoop编程之SequenceFile

SequenceFile(Hadoop序列文件)基础知识与应用上篇编程实战系列中本人介绍了基本的使用HDFS进行文件读写的方法，这一篇将承接上篇重点整理一下SequenceFile的相关知识及应用1.SequenceFile简介SequenceFile是Hadoop自带的一种键值对文件格式，它具有以下几个特点：1.由于该文件类型是Hadoop自带的，因此对Hadoop环境具有最强的兼容性2.由于H

终极菜鸡·2019-11-19 00:00

大数据学习笔记——Hive完整部署流程

Hive详细部署教程此篇博客承接上篇Hadoop和Zookeeper的部署教程，将会详细地对HIve的部署做一个整理，Hive相当于是封装在HDFS和Mapreduce上的一套sql引擎，只需要安装在某个集群的主节点上即可，同时需要注意安装Hive前请确保虚拟机主节点上已经安装好了mysql，那么，现在正式开始吧！1.安装准备首先我们准备好Hive的安装包，这里用到的Hive版本是2.1.02.详

终极菜鸡·2019-11-17 21:00

大数据学习笔记——Sqoop完整部署流程

Sqoop详细部署教程Sqoop是一个将hadoop与关系型数据库之间进行数据传输，批量数据导入导出的工具，注意，导入是指将数据从RDBMS导入到hadoop而导出则是指将数据从hadoop导出到RDBMS，本篇博客承接上篇Hive的部署教程，废话不多说，直接开始流程1.安装准备准备好以下安装包，使用的版本为1.4.72.正式安装1.使用Xftp将tar.gz文件放到/home/centos/do

终极菜鸡·2019-11-17 21:00

大数据学习笔记——Hadoop编程实战之HDFS

HDFS基本API的应用(包含IDEA的基本设置)在上一篇博客中，本人详细地整理了如何从0搭建一个HA模式下的分布式Hadoop平台，那么，在上一篇的基础上，我们终于可以进行编程实操了，同样，在编程前需要做一些准备工作，好了，那我们就开始吧！1.编程准备在后续的学习中，我们基本都是在用IntelliJIDEA这款集成开发环境，所以在Windows端，我们首先需要准备以下这三款软件：1）Intell

终极菜鸡·2019-11-11 01:00

大数据学习笔记——Hadoop高可用完全分布式模式完整部署教程(包含zookeeper)

高可用模式下的Hadoop集群搭建本篇博客将会在之前写过的Linux的完整部署的基础上进行，暂时不会涉及到伪分布式或者完全分布式模式搭建，由于HA模式涉及到的配置文件较多，维护起来也较为复杂，相信学会部署高可用模式了，其他模式的搭建也会比较驾轻就熟，关于各种配置文件的讲解，如果有时间会在后期另开一篇博客进行详细的解读，现在正式开始部署流程！1.安装准备基本思路讲解：在做正式安装之前，首先需要整理有

终极菜鸡·2019-11-06 21:00

大数据学习笔记——Linux基本知识及指令(理论部分)

Linux学习笔记整理上一篇博客中，我们详细地整理了如何从0部署一套Linux操作系统，那么这一篇就承接上篇文章，我们仔细地把Linux的一些基础知识以及常用指令(包括一小部分高级命令)做一个梳理，好了，现在开始吧！1.Linux介绍在介绍Linux之前，先要介绍一下Unix操作系统，说到两者之间的关系，"Unix是Linux的父亲"这个说法更为恰当，Unix是作为一款商业软件而存在的，主要运行在

终极菜鸡·2019-11-03 22:00

大数据学习笔记——Linux完整部署篇(实操部分)

Linux环境搭建完整操作流程(包含mysql的安装步骤)从现在开始，就正式进入到大数据学习的前置工作了，即Linux的学习以及安装，作为运行大数据框架的基础环境，Linux操作系统的重要性自然不言而喻，我将分成两个部分来做梳理，第一部分是实操部分，即整个从0搭建Linux的完整操作流程，第二部分是理论部分，将会梳理Linux操作系统的各种指令以及基本知识，好了，那么我们开始吧！1.安装准备安装L

终极菜鸡·2019-11-02 15:00

大数据学习笔记——Java篇之网络编程基础

Java网络编程学习笔记1.网络编程基础知识1.1网络分层图网络分层分为两种模型：OSI模型以及TCP/IP网络模型，前者模型分为7层，是一个理论的，参考的模型；后者为实际应用的模型，具体对应关系见下图：1.2网络编程三要素之IP地址目前的版本是ipv4，采用的是点分十进制的表示方式(dotted-decimalnotation)，一共4位，每一位表示一个字节，因为IP地址是没有负数的，因此表数范

终极菜鸡·2019-10-27 22:00

大数据学习笔记——Java篇之IO

IO学习笔记整理1.File类1.1File对象的三种创建方式：File对象是一个抽象的概念，只有被创建出来之后，文件或文件夹才会真正存在注意：File对象想要创建成功，它的目录必须存在！importjava.io.File;/*演示三种创建File对象的方式*/publicclassFileDemo{publicstaticvoidmain(String[]args)throwsExceptio

终极菜鸡·2019-10-25 17:00

大数据学习笔记——Java篇之集合框架(ArrayList)

Java集合框架学习笔记1.Java集合框架中各接口或子类的继承以及实现关系图：2.数组和集合类的区别整理：数组：1.长度是固定的2.既可以存放基本数据类型又可以存放引用数据类型3.存放进数组的必须是相同类型的数据VS集合类：1.长度是可变的2.只能存放对象的引用3.存放进集合的可以是不同的数据类型3.集合类常用API源码分析在之后的大数据学习中，灵活运用各种各样的数据结构可以说是一项基本技能了，

终极菜鸡·2019-10-20 17:00

大数据学习笔记——Java篇之基础知识

Java/计算机基础知识整理在进行知识梳理同时也是个人的第一篇技术博客之前，首先祝贺一下，经历了一年左右的学习，从完完全全的计算机小白，现在终于可以做一些产出了！可以说也是颇为感慨，个人认为，学习本身就应该是有方法论的，前人总结了不少比较好的学习方法(比如说费曼学习法，金字塔原理)，我们在进行好方法借鉴的同时，也不要忘了让整个学习过程形成一个闭环，我认为，向他人教学，或是定期将已有的知识进行一些梳

终极菜鸡·2019-10-15 00:00

尚学堂大数据学习笔记（二） CentOS6.5 + JDK8 + hadoop2.6.5 搭建Hadoop集群

文章目录尚学堂大数据学习笔记（二）CentOS6.5+JDK8+hadoop2.6.5安装配置HDFS1.安装CentOS6.5系统1.1创建CentOS6.5系统虚拟机1.1虚拟机创建1.2开启ssh

LGX_TvT·2019-09-18 10:33

大数据学习笔记——基于 Linux CentOS 7 的 Hadoop 3.1.2 环境搭建（五）

集群(全分布)模式配置和部署安装的总体思路:icss在master完成配置,并将相关的配置文件复制到其他集群中的机器上00.概述：0.所有的操作都是icss用户，切换icss用户命令：su-icss1.每个节点Hadoop配置基本相同在HadoopMaster节点操作，然后复制到其他节点上。2.Hadoop3需要配置的文件有:hadoop-env.sh、yarn-env.sh、core-site.

孤儿院-院长·2019-09-02 08:22

推荐频道

大数据学习笔记

大数据技术学习笔记

Spark大数据学习笔记_第6篇_flume安装

大数据学习笔记(spark日志分析案例)

大数据学习笔记（一）——大数据概述

大数据学习笔记二：解析大数据使用的技术

大数据学习笔记七（云数据库）

我的大数据学习笔记

Hadoop 大数据学习笔记

大数据学习笔记之Spark（六）：Spark内核解析

大数据学习笔记之Spark（八）：Spark机器学习解析（一）

大数据学习笔记之Spark（七）：Spark优化解析

大数据学习笔记之Spark（二）：SparkCore应用解析

大数据学习笔记之Spark（四）：Spark Streaming概述

大数据学习笔记之Spark（五）：SparkGraphX 应用解析

大数据学习笔记之Spark（八）：Spark机器学习解析（二）

大数据学习笔记之HBase（七）：案例设计（新浪微博）

大数据学习笔记之Oozie（一）：Oozie入门

大数据学习笔记之HBase（五）：一些优化技巧（通用技巧、linux、HDFS、MapReduce、HBase、内存、JVM、zookeeper）

大数据学习笔记之初识Hadoop

大数据学习笔记之HBase（三）：HBase API使用、HBase与Hive相关、HBase shell

大数据学习笔记之HBase（六）：HBase表类型的设计、预分区、rowkey的设计技巧

大数据学习笔记之Spark：Spark基础解析

大数据学习笔记——Java篇之集合框架(ArrayList)

大数据学习笔记（Vol 01）寻找相似的用户

大数据学习笔记45：Sqoop - 数据迁移工具

【基础篇】大数据学习笔记（3）大数据的各种"轮子"

寒假大数据学习笔记三

寒假大数据学习笔记二

寒假大数据学习笔记一

大数据学习笔记——HBase与其他大数据组件的整合

大数据学习笔记——Spark工作机制以及API详解

大数据学习笔记——Spark完全分布式完整部署教程

大数据学习笔记——Hadoop编程实战之Mapreduce

大数据学习笔记——Hbase高可用+完全分布式完整部署教程

大数据学习笔记——HDFS写入过程源码分析(2)

大数据学习笔记——HDFS写入过程源码分析(1)

大数据学习笔记——HDFS理论知识之编辑日志与镜像文件

大数据学习笔记——Hadoop编程之SequenceFile

大数据学习笔记——Hive完整部署流程

大数据学习笔记——Sqoop完整部署流程

大数据学习笔记——Hadoop编程实战之HDFS

大数据学习笔记——Hadoop高可用完全分布式模式完整部署教程(包含zookeeper)

大数据学习笔记——Linux基本知识及指令(理论部分)

大数据学习笔记——Linux完整部署篇(实操部分)

大数据学习笔记——Java篇之网络编程基础

大数据学习笔记——Java篇之IO

大数据学习笔记——Java篇之集合框架(ArrayList)

大数据学习笔记——Java篇之基础知识

尚学堂大数据学习笔记（二） CentOS6.5 + JDK8 + hadoop2.6.5 搭建Hadoop集群

大数据学习笔记——基于 Linux CentOS 7 的 Hadoop 3.1.2 环境搭建（五）