Hadoop及Spark学习路线及资源收纳


title: Hadoop及Spark学习路线及资源收纳
date: 2018-11-18 16:19:54
tags: Hadoop
categories: 大数据
toc: true
点击查看我的博客:Josonlee’s Blog
版权声明:本文为博主原创文章,未经博主允许不得转载(https://blog.csdn.net/lzw2016/)


前言

本人大数据专业方向,收集学习一些相关文章,汇总如下。有些资源来源网络,出处不明,如有错误请告知,谢谢

  • 大数据较活跃的论坛、社区
    • About 云:http://www.aboutyun.com

资源不断更新中。。。

Hadoop

18.11.18

  • 有的旧的官方文档盖楼:Hadoop 0.18文档

  • Hadoop新手学习指导
    (出处: about云开发)
  • 零基础学习hadoop到上手工作线路指导(初级篇)
    (出处: about云开发)

  • 推荐一个博客分类博主LanceToBigData:Hadoop

一、学习路线图

  • Hadoop家族学习路线图 开篇必读
  • Hive学习路线图
  • Mahout学习路线图

二、编程实践

  • Hadoop历史版本安装
  • 用Maven构建Hadoop项目
  • Hadoop编程调用HDFS
  • 用Maven构建Mahout项目
  • Mahout推荐算法API详解
  • 用MapReduce实现矩阵乘法
  • 从源代码剖析Mahout推荐引擎
  • Mahout分步式程序开发 基于物品的协同过滤ItemCF
  • Mahout分步式程序开发 聚类Kmeans
  • PageRank算法并行实现

三、案例分析

  • 海量Web日志分析 用Hadoop提取KPI统计指标
  • 用Hadoop构建电影推荐系统
  • 用Mahout构建职位推荐引擎
  • Mahout构建图书推荐系统
  • PeopleRank从社交网络中发现个体价值

作者:Lincoln
链接:https://www.zhihu.com/question/19795366/answer/24524910
来源:知乎

18.11.20 我来更新了

  • 推荐博文、博主
    • 小小默’s Blog,分类很乱但是内容确实不错
    • Hadoop MapReduce Tutorial,挺赞的
    • 哥不是小萝莉·博客园,偏应用吧,概念什么的不咋地
  • 我还搜到一本书,豆瓣上说不错,《Mapreduce2.0源码分析与编程实战》(那个,你们谁有csdn会员啊,csdn上有这个下载,50积分下不起啊。没找到完整版的,你们有的话分享我一下呗。。。)

18.12.5 我又来更新了

  • 《Mapreduce2.0源码分析与编程实战》推荐主要讲的是MR1.0,买不到了,能搜索到的资源都缺了第九十章
  • 【MapReduce详解及源码解析(一)】——分片输入、Mapper及Map端Shuffle过程,我自己总结学习的部分
  • MapReduce:详解Shuffle过程
  • 深度了解mapreduce—MapReduce源码分析总结

原作者:适合对mapreduce有一定经验人来阅读,对于新手来讲,只是阅读前面会有收获不少,但是到了后面就会有些看不懂,可以简单了解。如果对mapreduce有了半年的编程经验并且善于思考,或许这是一篇不错的文章。

  • 【hadoop】有参考价值的博客整理

  • MapReduce,组合式,迭代式,链式

  • 大数据较活跃的论坛、社区

    • About 云:http://www.aboutyun.com

Spark

18.11.18

  • 书籍
    • 《Spark快速大数据分析》[美] Holden Karau [美] Andy Konwinski [美] Patrick Wendell [加] Matei Zaharia 著
    • 《Spark大数据处理:技术、应用与性能优化》
    • 《Spark快速数据处理·美 Holden Karau著》

18.11.20 我来更新了

  • 上面推荐的书籍,我一一粗略的翻了一下,最好先看第一本《Spark快速大数据分析》
  • 本人是选用scala作为开发语言,最近也在看这门编程语言。说实话,scala写起来真的是不习惯。。。无语。
    • 最近在看厦大林子雨老师的书和视频——《spark 编程基础·scala版》,书是图书馆借的,挺薄一本讲义类型的书,感觉快速上手scala没问题,他也有配套视频Spark编程基础。有些资料可以上厦大的官网上找到,总之一句话,挺适合小白
    • 慕课网有一门课程《学习Scala 进击大数据Spark生态圈》,收费的,当然你也懂(要善于使用网络资源),我个人是支持知识付费的。这门课我也跟进看了,是讲的scala语言。我感觉单看书就可以了,视频太费时间了
  • 博客资源
    • 关于Spark有哪些大牛们的博客?
    • 徽沪一郎·博客园
    • 等等
  • Spark Overview,这是官方文档,最新的2.4.0版本全英文版。一句话比那些书啊、博客啊好太多了。如果英文不好的话,这里有Spark Overvoew·中文版
  • 就我个人而言,了解scala基础后,在翻完《Spark快速大数据分析》,然后刷文档是非常不错的

  • 18.11.18
    最近会停一段时间更新这篇文章,毕竟这么多东西看也要不少时间。我也会把我理解、学习笔记放上来,先这样吧。
  • 18.12.5
    更新了一些自我感觉不错的博文,虽然Hadoop出来这么久了,但感觉资源还是少,有些写的还可以的博客都是五六年前的了,可以打这个论坛看看 http://www.aboutyun.com ,csdn这边聊这个的人气不够

点击查看我的博客:Josonlee’s Blog


你可能感兴趣的:(Hadoop及Spark学习,大数据学习进阶)