DE01 复制粘贴玩大数据系列教程说明
专栏说明:
D001 复制粘贴玩大数据之集群环境的获取及教程指导
——D001.1 Window7系统上Centos7的安装
——D001.2 Centos7虚拟机NAT网络的配置(windows)
——D001.3 下载XShell教程与简单使用
——D001.4 Centos7创建有root权限的用户、修改主机名与添加ip映射
——D001.5 Docker入门(超级详细基础篇)
——D001.6 Docker搭建Hadoop集群(资源篇)
——D001.7 Docker搭建Hadoop集群(实践篇)
——D001.8 Docker搭建Spark集群(实践篇)
D002 复制粘贴玩大数据之便捷配置
D003 复制粘贴玩大数据之安装与配置Zookeeper集群
D004 复制粘贴玩大数据之Dockerfile安装Zookeeper集群
——D004.1 Dockerfile例子详解及常用指令
D005 复制粘贴玩大数据之安装与配置HBase集群
D006 复制粘贴玩大数据之Dockerfile安装HBase集群
D007 复制粘贴玩大数据之安装与配置Hive
D008 复制粘贴玩大数据之Dockerfile安装Hive集群
D009 复制粘贴玩大数据之安装与配置Flume集群
D010 复制粘贴玩大数据之Dockerfile安装Flume集群
D011 复制粘贴玩大数据之安装与配置Kafka集群
D012 复制粘贴玩大数据之Dockerfile安装Kafka集群
PS:
完成D012,大数据常用组件将装好,教程采用一步一步升级的模式,如果有基础,可以直接操作D012篇!
非Docker安装的文章,一样适用于常规的安装,且与Docker方式做对比。
1、浅显易懂入门大数据系列:一、HDFS(超详细)
2、浅显易懂入门大数据系列:二、MapReduce、YARN(超详细)
3、浅显易懂入门大数据系列:三、Zookeeper(超详细)
4、浅显易懂入门大数据系列:四、HBase(超详细)
1、学习大数据常用Linux命令
2、Linux命令的英文含义(便捷记忆)
3、Java模拟定时生成日志到文件
4、大数据常用管理集群脚本集合
PS:学习完本模块,应该具有Linux基础知识、Java SE基础以及会编写简单的Shell脚本。
1、分布式集群环境之域名映射与免密码登录
2、分布式集群环境之JDK8的安装与配置(Centos7)
3、Hadoop核心组件之HDFS的安装与配置
4、Java API实现HDFS的相关操作
5、YARN与MapReduce的配置与使用
6、MapReduce入门例子之WordCount单词计数
7、MapReduce编程例子之Combiner与Partitioner
8、查看YARN上应用的日志之JobHistory
9、IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)
10、MapReduce作业在YARN的内存分配设置
11、HDFS的高可用性HA配置实战
12、HDFS恢复非HA状态
13、YARN的高可用性HA配置实战
14、Java的序列化与反序列化实操
15、Hadoop的序列化与反序列化实操
16、Hadoop压缩机制及实操
17、Hadoop支持的文件格式之Text
18、Hadoop支持的文件格式之Avro
19、Hadoop支持的文件格式之Parquet
20、Hadoop支持的文件格式之SequenceFile
21、Windows本地安装Hadoop
22、通过CombineTextInputFormat实现小文件优化(调优技能)
23、通过SequenceFile实现合并小文件(调优技能)
项目案例:
大数据日志分析系统背景及架构
大数据日志分析Hadoop项目实战
1、D003 复制粘贴玩大数据之安装与配置Zookeeper集群
2、Zookeeper之zkCli.sh客户端的使用
1、D005 复制粘贴玩大数据之安装与配置HBase集群
2、在HDFS的HA模式下配置HBase
1、D007 复制粘贴玩大数据之安装与配置Hive
1、分布式集群环境之Scala的安装与配置(Centos7)
2、IntelliJ IDEA开发Spark案例之WordCount
3、分布式集群环境之Spark的安装与配置(Centos7)
4、IntelliJ IDEA开发Spark案例之WordCount(非Maven、离线版)
项目案例:
项目实战:飞机延误预测项目
1、D009 复制粘贴玩大数据之安装与配置Flume集群
2、Flume入门案例之NetCat-Souces
3、Flume+Kafka+Storm实战:二、Flume整合Kafka
1、D011 复制粘贴玩大数据之安装与配置Kafka集群
2、分布式消息队列Kafka理论(浅显易懂)
3、分布式消息队列Kafka之发布订阅消息系统
4、Kafka的安装及发布订阅消息系统(windows)
1、Storm第一个入门例子之Wordcount(windows本地)
2、实时流处理框架之Storm的安装与部署
3、Flume+Kafka+Storm实战:一、Kakfa与Storm整合
1、Flume、Kafka、Storm实时流综合案例实战
Flume+Kafka+Storm实战:一、Kakfa与Storm整合
Flume+Kafka+Storm实战:二、Flume与Kafka整合
2、会话切割小案例
网站用户行为分析项目之会话切割(一)
网站用户行为分析项目之会话切割(二)
网站用户行为分析项目之会话切割(三)
网站用户行为分析项目之会话切割(四)=> 代码重构
网站用户行为分析项目之会话切割(五)=> 切割会话代码重构
1、安装与配置
Elasticsearch的安装(windows)
多功能集装箱Zeppelin框架的安装与配置
数据迁移的工具Sqoop的安装与配置
jdk8的安装(windows)
Maven的安装与设置
IDEA2018安装与配置
Mysql的安装与配置(Centos7)
安装并启动Tomcat 8(Mac版本)
Python3的安装(Windows)
基于XShell实现Win与Linux文件传输(替换XFtp等)
脚本实现一键安装JDK
Sqoop1的安装配置及入门案例
VirtualBox安装教程及使用(Windows)
IntelliJ IDEA编写Scala代码(安装Scala插件)
Octotree谷歌浏览器插件
2、实战操作
Elasticsearch实现中文分词
使用Sqoop导出Mysql数据到Hive(实战案例)
Python模拟日志生成
Python第一个爬虫项目
3、经典理论
Hadoop 十年解读与发展预测(插图+排版)
Vue2.x最简单的两个入门例子
Vue2.x案例之商品增删改查的实现
Vue2.x案例之计划清单的实现
Bootstrap全局css样式的使用
Node版本管理工具nvm的安装与使用(windows)
JavaScript正则表达式轻松入门
前端开发神器Sublime3的安装及配置(Mac系统)
前端开发神器HBuilder的安装与使用(mac版本)
Java实现本地读写文件
Python第一个爬虫项目
Java的序列化与反序列化实操
Scala常规操作之数组、List、Tuple、Set、Map
SpringBoot+Thymeleaf+ECharts实现大数据可视化(基础篇)
SpringBoot+JSON+AJAX+ECharts+Fiddler实现前后端分离开发可视化(进阶篇)
IDEA实现热部署前端界面(Tomcat、IDEA)
阿里云域名购买与DNS解析教程
Nginx的安装与配置(Centos7、云服务器版)
阿里云服务器域名备案
使用Nginx发布前端源码
华为云计算FusionCompute虚拟化平台的安装与设置
华为云服务器入门初体验
Git安装与配置(mac版本)
使用Git将代码提交到码云
IDEA的使用及常用配置(JDK、Maven等)
IDEA实现Java与Scala代码混合开发
Typera+Node.js+Git搭建托管于远端的写作平台(GitBook)
一、IDEA入门到精通系列
大数据培训课程思路
邵奈一的技术博客导航
Mac系统使用小指南(从Win工作台转向Mac工作台)
邵奈一是谁
【邵奈一】大数据集群环境使用指南
Web课程导学
警告:SLF4J: Class path contains multiple SLF4J bindings.
Mac系统中那些大数据的小小解决方法
未完待续…
1、Apache版本的软件(我们的教程所使用):
Java:1.8
Hadoop:2.7.5(https://archive.apache.org/dist/hadoop/common/)
Zookeeper:3.4.10(https://archive.apache.org/dist/zookeeper/)
Scala: 2.11.8 / 2.10.4
Spark:2.2.0(https://archive.apache.org/dist/spark/)
Flume:1.6.0(https://archive.apache.org/dist/flume/)
Kafka:1.0.0(https://archive.apache.org/dist/kafka/)
HBase:1.2.6(http://archive.apache.org/dist/hbase/)
Solr:7.1.0(https://archive.apache.org/dist/lucene/solr/)
Hive:2.3.3(https://archive.apache.org/dist/hive/)
Sqoop:1.4.7(https://archive.apache.org/dist/sqoop/)
2、实际生产上用的是CDH版本:
CDH版本:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_download.html
2015年:CDH5.3.0
2016年:CDH5.6.0
2017年:CDH5.7.6
对应版本CDH中各个组件的版本:
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_package_tarball.html
3、具体对于什么是CDH,请自行搜索了解:CDH & Cloudera Manager
作者简介:邵奈一
全栈工程师、市场洞察者、专栏编辑
| 公众号 | 微信 | 微博 | CSDN | 简书 |
福利:
邵奈一的技术博客导航
邵奈一 原创不易,如转载请标明出处。