Hadoop笔记本

海量数据

    那些年Google公开的大数据领域论文

    大数据量,海量数据 处理方法总结

    布隆过滤器应用

    Google Dremel 原理 – 如何能3秒分析1PB

     Google Spanner原理- 全球级的分布式数据库

 

 

    悉数那些“巨型”数据仓库

    Hadoop在业界的使用情况

    淘宝Hadoop集群的概况

    淘宝数据魔方技术架构解析

 

    Facebook的实时Hadoop系统

    Apache Hadoop Goes Realtime at Facebook(译) 

数据统计

  网站统计中的数据收集原理及实现

数据挖掘

  一个电商数据分析师的经验总结

 

  五个免费开源的数据挖掘软件

  Google推出Prediction API

 

  K Nearest Neighbor 算法(归类)

  K-Means 算法(聚类)

  kmeans算法java版本

  

hadoop

  介绍

    Hadoop分布式文件系统:架构和设计要点

    mapreduce作业流程概论

    Hadoop使用场景

  管理

    hadoop集群部署

    hadoop部署注意项

    hadoop配置文件说明

    hadoop集群默认配置和常用配置

      hadoop集群测量

    Hadoop管理员的十个最佳实践

    Hadoop 权限管理

 

    Hadoop FS Shell

    Hadoop Shell 讲解

    hadoop fs -count的结果含义

 

    Hadoop添加节点datanode

    Hadoop删除节点

    hadoop SecondaryNameNode和NameNode

    hadoop 根据SecondaryNameNode恢复Namenode

    hadoop机架感知

 

    HDFS 安全模式

    hadoop的dfs.replication

    Hadoop回收站trash

    hadoop升级

 

    Hadoop计算能力调度器算法解析

    Hadoop计算能力调度器应用和配置

    hadoop mapred-queue-acls 配置

 

    hadoop和kerberos的整合总结

    hadoop的dfs.umask

 

    NFS服务对Hadoop(hdfs)集群影响测试

    Facebook团队关于Hadoop/HBase在SSD上的实验和讨论

 

    HADOOP动态加载配置

  调优

    hadoop作业调优参数整理及原理

  原理实现

    序

    HDFS的基本概念

    HDFS 读写流程

    HDFS namenode源码分析 

    HDFS datanode源码分析

      HDFS dfsclient读文件过程 源码分析

      HDFS dfsclient写文件过程 源码分析

    How MapReduce Works 

    MapReduce源码分析总结

 

      eclipse下编译hadoop源代码

    基于hadoop的crc校验谈hadoop的离线设计思想

    Hadoop在MapReduce中使用压缩详解

    HDFS数据的Checksum

    Hadoop开发常用的InputFormat和OutputFormat

    Hadoop之failed task和killed task

    Hadoop的调度器总结

hive

  Hive体系架构

  应用

    Hadoop和Hive的数据处理流程

  管理

    hive部署手册

    hive元数据中utf8的修改

      hive并发调用的运行方式-个人经验篇

     

    hive Cli常用操作(翻译自Hive wiki)

    hive数据类型(翻译自Hive Wiki)

 

    hive 创建/删除/截断 表(翻译自Hive wiki)

    hive数据操作(翻译自Hive wiki+实例讲解)

    hive原生和复合类型的数据加载和使用

      hive修改 表/分区语句

 

    hive select操作(翻译自Hive wiki)

    hive GroupBy操作(翻译自Hive wiki)

      hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

     Hive Join(翻译自Hive wiki)

     hive lateral view语句(翻译自Hive wiki)

     Hive Union(翻译自Hive wiki)

     Hive子查询(翻译自Hive wiki)

     hive实例讲解实现in和not in子句

     Hive Explain(翻译自Hive wiki)

     Hive虚拟列(翻译自Hive wiki)

     hive 锁定(翻译自Hive wiki)

 

      hive函数(Hive wiki)

    hive udf开发流程(Hive wiki)

    hive udaf开发入门和运行过程详解

    hive中UDTF编写和使用

    hive属性(Hive wiki)

 

    hive中分组取前N个值的实现

 

    hive sql遇到的问题

  优化

    hive大数据倾斜总结

    hive join详解

     

    hive文件存储格式

 

    hive怎样决定reducer个数

    hive的hive.exec.parallel参数说明

    hive local hadoop特性    

pig

  介绍入门

    Apache Pig入门 –介绍/基本架构/与Hive对比

  管理

    pig部署手册

  教程

    Apache Pig中文教程集合

zookeeper

  ZooKeeper概述

  部署与管理ZooKeeper

  ZooKeeper典型应用场景

  ZooKeeper程序员指南

  Zookeeper Api(java)入门与应用

  zookeeper java例子(官网)

  zookeeper 生产者与消费者(官网)

  zookeeper 应用场景与方案(官网)

 

  ZooKeeper 会话超时

  Watcher使用的注意事项

  zookeeper 权限控制

 

  Paxos在大型系统中常见的应用场景

  Zookeeper全解析——Paxos作为灵魂

  Zookeeper全解析——Client端

  zookeeper系列之通信模型

 

hbase

  HBase体系结构

  hbase数据模型

    HBase使用场景和成功案例

 

  Hbase配置手册

  hbase shell(官方)

  hbase shell基础和常用命令详解

  Hive HBase集成(官网)

 

  HBase Java API类介绍 

  通过Java Api与HBase交互

  HBase二级索引与Join

  HBase配置性能调优

  HBase设计与开发性能优化

  

  HBase 在淘宝的应用和优化

 

  (H2与HBase)面向行or面向列的存储模型

  HBase查询一条数据的过程


原文地址:点击打开链接

你可能感兴趣的:(hadoop,大数据,分布式,分布式文件系统)