“数据是驱动商业向前发展的核心,更是人类社会的未来。”
尽管将马云的这句话断章取义地拿出来说会显得唐突,但这话所表达的意思却显而易见。今天给大家分享的这40个教程,送给对未来抱有远见的乐观主义拼搏者,涵盖了大数据入门的大多基础知识,从Java基础到Scala,Hadoop,Hbase,Mhout,Sqoop以及Spark等等。
入门知识
1. Linux 基础入门(新版)
2. Vim编辑器
3. Git 实战教程
4. MySQL 基础课程
5. MongoDB 基础教程
6. Redis基础教程
本教程的正确食用姿势:教程大都是公开免费资源(仅有一小撮需要会员权限)。区别于目前所有主流教程,该教程的核心就是动手!跟着文档说明,在在线的Linux系统中一步一步地敲出基础知识,各种有趣项目;走出只看书、看视频却不动手的禁区,你会比别人学的更快的,放心。
如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:数字4583+数字45782,私信管理员即可免费领取开发工具以及入门学习资料
Java基础
1. Java编程语言(新版)
介绍 Java 语言基本语法、Java 平台应用、 Java 的核心概念:JVM、JDK、JRE以及 java 面向对象思想。同时我们会学到如何在系统中搭建 Java 开发环境,以及如何利用第三方工具进行 Java 程序的开发。
2. Java进阶之设计模式
介绍常用的设计模式以及 Java 语言的实现实例来学习 java 设计模式。从中我们可以学习到很多类型的设计模式,其中包括工厂模式、抽象工厂模式、单例模式、适配器模式、观察者模式、装饰者模式等等。
3. JDK 核心 API
学习包括 java.lang 包,java.util 包,http://java.io 包,swing以及多线程的相关知识。
4. JDBC 入门教程
通过学习 JDBC 定义和架构,回顾 SQL 语法,搭建 JDBC 的环境,通过实例来深入学习 JDBC。从中我们将学习到如何用 java 连接到数据库,并练习编写了一个信息管理的程序,在此基础上可以提高自己的数据库管理能力。
5. Java 8 新特性指南
介绍了 Lambda 表达式、函数式接口、Stream 流和 Date/Time API 等相关知识点。难度一般,适用于Java初学者或者是具有一定编程经验的开发者。
Scala基础
1. Scala 开发教程
Scala 是一门多范式的编程语言,类似于 Java 。设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
2. Scala 专题教程 - Case Class和模式匹配
本教程侧重介绍Scala的case class和pattern matching(模式匹配),这两个程序结构对于处理树结构的数据非常有帮助。你将可以学习到模式匹配中的常量模式、通配模式和变量模式等。
3. Scala 专题教程 - 隐式变换和隐式参数
主要介绍 Scala 中可以让函数库调用变得更加方便的隐式变换和隐式参数,以及如何通过它们来避免一些繁琐和显而易见的细节问题。
4. Scala 专题教程 - 抽象成员
主要介绍 Scala 中的抽象成员用法。在本教程中,你将可以学到如何使用 Type 成员,以及抽象 vals 变量的初始化方法等要点。
5. Scala 专题教程 - Extractor
本教程侧重讲解 Scala 中的 Extractor ,它可以将数据模型和视图逻辑分离,在 Scala 体系中充当类似于适配器的角色,是一种极具函数式的做法。你将可以在课程中学到如何定义和设定 Extractor 。
6. Scala 开发二十四点游戏
24 点是一种数学游戏,正如象棋、围棋一样是一种人们喜闻乐见的娱乐活动。 它始于何年何月已无从考究,但它以自己独具的数学魅力和丰富的内涵正逐渐被越来越多的人们所接受。
Hadoop技术模块
1. Hadoop部署及管理
Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架,本实验学习并实践Hadoop系统的不同模式的部署,以及基本的系统使用与管理。
2. Hadoop入门进阶课程
涵盖了大数据领域常见的组件,如Hadoop,Mapreduce,HBase,Mahout,Pig,Hive,Sqoop等。首先从理论上进行介绍,然后让您在实验环境中一步步搭建,及相应的案例学习。
3. HBASE 教程
HBase是一个开源的非关系型分布式数据库(NoSQL),是Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。
4. Hadoop 分布式文件系统——导入和导出数据
一个经典的数据架构中,Hadoop 是处理复杂数据流的核心。数据往往是从许多分散的系统中收集而来,并导入 Hadoop 分布式文件系统(HDFS)中,通过 MapReduce 或者其他基于MapReduce 封装的语言进行处理,将这些已经过滤、转换和聚合过的结果导出到一个或多个外部系统中。
5. 使用 Flume 收集数据
Flume 可以从多个数据源获取数据,把这些数据传给远程主机(可能是一对多或流水线模型 中的多个目标),再把它们传给多个目的端。尽管 Flume 提供了开发自定义数据源和数据目的端的编程 API,但它原本就支持许多常见的场景。
6. Kafka快速上手教程
介绍 Kafka 及实现原理,然后讲解 Kafka 集成 Flume ,KafkaOffsetMonitor 安装及使用,案例演示,学习完本教程,你将对kafka有深入的了解,很快上手。
7. 基于 Hadoop 对武侠小说进行词频分析
利用实验楼提供的 Hadoop 环境,对一本武侠小说的文集进行简单的 WordCount 词频统计,从而得到该书中出现频次最高的人名。需要一定的 Hadoop 和 MapReduce 基础。
8. Hadoop 图处理--《hadoop应用框架》
对于图处理,hadoop的mapreduce提供一层合并,这表明我们不得不像剥洋葱一样来处理图数据,Giraph 是 Google Pregel 的一种开源实现。本教程将基于hadoop平台实现Giraph 分布式系统中的图处理。
Spark技术模块
1. Spark2.x 快速入门教程
Spark进入2.0时代,引入了很多优秀特性,性能上有较大提升,API更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Spark sql和Hive Sql操作API的统一。真正做到了“更简单、更快速、更智能”!
2. Spark 大数据动手实验
9个实验带你亲身体验Spark大数据分析的魅力,最快的上手教程,最新的技术领域,最多的动手实践。
3.Spark 基础之 GraphX 图计算框架学习
GraphX通过RDD的扩展,在其中引入了一个新的图抽象,即顶点和边带有特性的有向多重图,提供了一些基本运算符和优化了的Pregel API,来支持图计算。
4. 流式实时日志分析系统——《Spark 最佳实践》
我们将基于 Spark Streaming 流式计算框架,简单地实现一个类似于百度分析的系统。本教程源自图灵教育的《Spark 最佳实践》第6章第3节,感谢图灵教育授权实验楼发布。
5. Spark 基础之 DataFrame 基本概念学习
针对飞行准点率数据集,通过一些简单的分析任务来学习 DataFrame 的由来、构建方式以及一些常用操作。在本教程中,你可以了解到 Spark 生态体系中,核心的 RDD 与 DataFrame 之间的区别和联系。
6. Spark 基础之 DataFrame 高阶应用技巧
通过更加深入的讲解,使用真实的 SFPD 数据集,结合实际问题的分析过程,带你学习 DataFrame 的创建方式、常用操作、UDF 自定义函数 和重分区相关知识。
7. Spark 基础之 Streaming 快速上手
Spark Streaming 是 Spark 引擎的一种扩展,适用于实时处理流式数据。本教程将带你学习 Spark Streaming 的工作机制,了解 Streaming 应用的基本结构,以及如何在 Streaming 应用中附加 SQL 查询。
8. Spark 基础之 SQL 快速上手
你将可以学习到 Spark SQL 的基础概念,了解如何利用 SQL Context 及相关的 API 进行统计分析。最后还将通过一个分析股票价格与石油价格关系的实例,进一步学习如何利用 Spark SQL 分析数据。
9. Spark 基础之使用机器学习库 MLlib
你将可以学习到 Spark 的机器学习库—— MLlib 的相关知识,了解 MLlib 与 ML 之间的区别和联系,掌握 MLlib 中的几个基本数据类型。同时,还将通过一个电影推荐的实例,讲解如何利用机器学习算法解决实际问题。
10. Spark 基础之 SparkR 快速上手
学习 Spark 平台中对于 R 语言的支持前端——SparkR。教程将会讲解到如何在 SparkR 中创建和操作 DataFrame、如何运行 SQL 查询,以及如何利用机器学习相关的 API。
11. 使用 Spark 和 D3.js 分析航班大数据
将通过一个航班数据分析实例来学习 Spark 综合技巧和数据可视化技术。在航班数据分析实验中,可以学习到如何使用 OpenRefine 进行简单的数据清洗,以及如何通过 Spark 提供的 DataFrame、 SQL 和机器学习框架等工具,对航班起降的记录数据进行分析,尝试找出造成航班延误的原因,以及对航班延误情况进行预测。
大数据进阶项目
1. Ebay 在线拍卖数据分析
介绍如何利用 eBay 上的拍卖数据进行数据分析,实现通过数据判断拍卖最终是否可以成功交易和预测最终成交的价格。
2. 流式实时日志分析系统——《Spark 最佳实践》
我们将基于 Spark Streaming 流式计算框架,简单地实现一个类似于百度分析的系统。本课教程源自图灵教育的《Spark 最佳实践》第6章第3节,感谢图灵教育授权实验楼发布。
3. Spark的模式挖掘—FPGrowth算法
模式挖掘也叫关联规则,其实就是从大量的数据中挖掘出比较有用的数据,挖掘频繁项。比如说超市有大量的购物数据,从而可以根据用户的购物数据找到哪些商品之间关联性比较大。进行关联推销产品。也可以进行用户推荐。
4. Twitter数据情感分析
使用Spark MLlib对Twitter上的流数据进行情感分析,并且利用Python的工具包basemap可视化美国不同的州对于曾经的总统候选人希拉里及川普的情感分析结果,通过地理信息可视化我们可直观的感受到这两位候选人的受欢迎程度。
5. Spark流式计算电商商品关注度
使用Scoket来模拟用户浏览商品产生实时数据,数据包括用户当前浏览的商品以及浏览商品的次数和停留时间和是否收藏该商品。使用Spark Streaming构建实时数据处理系统,来计算当前电商平台最受人们关注的商品是哪些。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:数字4583+数字45782,私信管理员即可免费领取开发工具以及入门学习资料
6. 使用 Spark 进行流量日志分析
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志包含很多有用的信息,例如访问者的 IP、访问的时间、访问的目标网页、来源的地址以及访问者所使用的客户端的 UserAgent 信息等,分析日志能帮助企业营销做出决策
7. 大数据带你挖掘打车的秘籍
在哪些地方出租车更容易打到?在什么时候更容易打到出租车?本教程将基于某市的出租车行驶轨迹数据,带你学习如何应用Spark SQL和机器学习相关技巧,并且通过数据可视化手段展现分析结果。