花了6个小时,总算整理好了,嗯,榴莲,真香!
Spark/Kafka/Flink/ElasticSearch/Hadoop/Hbase/Hive/Yarn/Kylin/Redis/.../...大数据大神。
阿里巴巴大数据在高德地图上的应用
阿里架构总监一次讲透中台架构,13页PPT精华详解,建议收藏!
爱奇艺在日志实时数据监控的探索与实践
基于 Apache Druid 的实时分析平台在爱奇艺的实践
日均处理万亿条数据,爱奇艺实时计算平台设计
爱奇艺大数据实时分析平台的建设与实践
爱奇艺海量数据实时分析架构的演进
小米 MySQL 数据实时同步到大数据数仓的架构与实践
Kylin 在小米大数据中的应用
Kylin 迁移到 HBase 实践在小米的实践
支撑小米万亿级的消息队列架构与实践
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
马蜂窝实时计算平台的演进
网易分布式数据库多活架构的演进与实践
美团点评实时数仓实践
支撑美团万亿级数据中心的计算引擎架构演进
Apache Doris在美团外卖数仓中的应用实践
美团1万台 Hadoop 集群 YARN 的调优之路
美团 MySQL 数据实时同步到 Hive 的架构与实践
每天数百亿用户行为数据,美团点评怎么实现秒级转化分析?
Apache Flink 服务化在 eBay 的实践
Apache Spark 在eBay 的优化
Kylin on Kubernetes 在 eBay 的实践
3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?
实战 | eBay PB级日志系统的存储方案实践
Flink在快手实时多维分析场景的应用
Hadoop YARN 在快手的应用实践与技术演进之路
日均处理万亿数据!Flink在快手的应用实践与技术演进之路
快手 HBase 在千亿级用户特征数据分析中的应用与实践
SQL on Hadoop在快手大数据平台的实践与优化
工行“去O”数据库选型与分布式架构设计
光大银行分布式实战:国内最大缴费平台的数据库架构转型
58同城 Elasticsearch 应用及平台建设实践
58同城宝实时数仓建设实践
58同城 HBase 平台建设实践
58全站用户行为数据仓库建设及实践
58同城离线计算平台设计与实践
Kylin 在 58 集团的实践和应用
58同城实时计算平台架构实践
海量日志分析平台在 58 集团的实践
分布式图数据库在贝壳的应用实践
Uber 如何使用 Apache Hudi 支撑 PB 级数据湖
面对业务增长,Uber是如何扩展HDFS文件系统的
Uber 大数据平台的演进(2014~2019)
Apache Hudi: Uber 开源的大数据增量处理框架
趣头条基于Flink+ClickHouse的实时数据分析平台
ClickHouse 在趣头条的实践
趣头条百 PB 规模 Hadoop 实践
使用 Spark 和 Delta Lake 构建近实时数据仓库实时平台在趣头条的建设实践
京东 8000+ 台 Hadoop 集群平台化之路
京东大数据平台进化之路
日均5亿查询量的京东订单中心,为什么舍MySQL用ES?
京东HBase平台进化与演进
跨境电商 Shopee 的实时数仓演进之路
YARN 在字节跳动的优化与实践
字节跳动 EB 级 HDFS 实践
Spark-SQL 在字节跳动的应用实践
来自 Facebook 的 Spark 大作业调优经验
60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践
Apache Cassandra 在 Facebook 的应用
QQ音乐PB级ClickHouse实时数据平台架构演进之路
千台 ElasticSearch 集群在腾讯的优化实践
支撑腾讯直播百亿请求的 Redis 集群是如何工作的
腾讯万亿级 Elasticsearch 技术解密
数万实例数百TB数据量,携程Redis治理演进之路
每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用
Apache Kylin 在携程的实践
Spark SQL在携程的实践经验分享
携程机票数据仓库建设之路
100亿+数据量,每天50W+查询,携程酒店数据智能平台实践
bilibili 实时计算平台架构与实践
滴滴ElasticSearch平台跨版本升级以及平台重构之路
HBase 不停机升级在滴滴的实践
Apache Flink在滴滴的应用与实践
滴滴Elasticsearch多集群架构实践
SQL 开发任务超 50% !滴滴实时计算的演进与优化
Hadoop 2.7 不停服升级到 3.2 在滴滴的实践
有赞数据仓库实践之路
蘑菇街千亿级消息Kafka上云实践
Apache Kafka 在 360 的深度实践
实时离线一体化系统在 360 的应用
菜鸟供应链实时数仓的架构演进及应用场景
Apache Kylin 在一点资讯的实践
唯品会 1000+ 台 Hadoop 集群优化经验
日跑几十万作业,唯品会HDFS是如何优化的
斗鱼在线分析平台演进之路
雅虎日本如何用 Pulsar 构建日均千亿的消息平台
万亿级日访问量下,Redis在微博的9年优化历程
甜橙金融如何利用 Apache Pulsar 在日均上亿的交易中抵御金融诈骗
百分点万亿级大数据平台的建设实践
网易云音乐的消息队列改造之路
Spark & Alluxio在网易严选架构演进中的实践和探索
基于 Flink SQL 构建实数据仓库在 OPPO 的实战
OPPO 离线数仓到实时数仓库的演进
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
Spark SQL 物化视图技术原理与实践
面试必知的 Spark SQL 几种 Join 实现
如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析
Spark on K8S 的最佳实践和需要注意的坑
Spark + AI Summit North America 202006 高清 PPT 全部更新完
Apache Spark 3.0 中的向量化 IO
Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。
Spark 3.0 中七个必须知道的 SQL 性能优化
Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。
你要的 Spark AI Summit 2020 PPT 我已经给你整理好了
马铁大神的 Apache Spark 十年回顾
Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
图文介绍 SQL 的三种查询计划处理模型,Spark 用了其中两个
Spark 3.0 终于支持 event logs 滚动了
实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作
Spark Executor内存管理
Apache Spark 将支持 Stage 级别的资源控制和调度
八种解决 Spark 数据倾斜的方法
Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比
Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎
一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)的使用
Apache Spark 3.0 预览版正式发布,多项重大功能发布
一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)
使用 Spark 和 Delta Lake 构建近实时数据仓库
Spark+AI Summit Europe 2019 超清视频&PPT下载
重磅|Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准
Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL
Apache Spark 中编写可伸缩代码的4个技巧
云栖大会 | Apache Spark 3.0 和 Koalas 最新进展
Apache Spark Delta Lake 写数据使用及实现原理代码解析
深入理解 Apache Spark Delta Lake 的事务日志
一文理解 Apache Spark DataSource V2 诞生背景及入门实战
深入理解 Spark SQL 查询引擎
Spark & Alluxio在网易严选架构演进中的实践和探索
一条 SQL 在 Apache Spark 之旅(下)
一条 SQL 在 Apache Spark 之旅(中)
一条 SQL 在 Apache Spark 之旅(上)
深入理解 Spark Delta Lake 的诞生及其工作原理
Spark-SQL 在字节跳动的应用实践
深入理解 Spark SQL 查询引擎
通过 Spark Streaming Listener 监控程序
Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的
Koalas: 让 pandas 开发者轻松过渡到 Apache Spark
.NET for Apache Spark 预览版正式发布
重磅 | Apache Spark 社区期待的 Delta Lake 开源了
Apache Spark 2.4 回顾以及 3.0 展望
SHC:使用 Spark SQL 高效地读写 HBase
Apache Spark 未来:Spark 3.0 预览
Apache Spark 3.0 将内置支持 GPU 调度
牛人用 Rust 重写了 Apache Spark,并把它开源了
是时候考虑让你的 Spark 跑在 K8s 上了
使用Spark Streaming SQL进行PV/UV统计
吐血之作 | 流系统Spark/Flink/Kafka/DataFlow端到端一致性实现对比
使用Apache Arrow助力PySpark数据处理
看完这篇文章还不懂 Spark 的 Adaptive Execution ,我去跪榴莲!
Spark on Kubernetes 的现状与挑战
Spark SQL 之 Join 实现
通过 Spark Streaming Listener 监控程序
是时候放弃 Spark Streaming, 转向 Structured Streaming 了
Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的
MapReduce Shuffle 和 Spark Shuffle 区别看这篇就够了
Kafka原理和实践
图文了解 Kafka 的副本复制机制
Kafka原理和实践
Kafka 是靠什么机制保持高可靠,高可用的?
大规模使用 Apache Kafka 的20个最佳实践
Kafka 基础面试知识都在这,你都知道嘛?
Kafka是靠什么机制保持高可靠,高可用的?
Apache Kafka 2.3 发布,新特性讲解
Kafka 是如何保证数据可靠性和一致性
Kafka架构原理,也就这么回事!
一文彻底搞清 Kafka 的副本复制机制
Apache Kafka 不需要管理员:删除 Apache ZooKeeper 的依赖
32 道常见的 Kafka 面试题你都会吗?附答案
Apache Kafka 2.5 稳定版发布,新特性抢先看
Kafka 是如何保证数据可靠性和一致性
从未如此简单:10分钟带你逆袭 Kafka!
如何快速全面掌握Kafka?5000字吐血整理
Apache Kafka 2.4 正式发布,重要功能详细介绍
如何为Kafka集群选择合适的Topics/Partitions数量
32 道常见的 Kafka 面试题你都会吗?附答案
两万字深入剖析Kafka,你学会了吗?
Kafka 是如何保证数据可靠性和一致性
Apache Kafka 2.3 发布,新特性讲解
Kafka创建Topic时如何将分区放置到不同的Broker中Kafka运维大全来了!优化、监控、故障处理……
不知道这些知识点,面试的时候别说你懂 Kafka
一篇文章了解 Kafka 幂等性的原理及实践
看完这篇还不会kafka,我跪榴莲!
大规模使用 Apache Kafka 的20个最佳实践
从 0 到 1 搭建一套 Flink 的监控系统
Apache Flink 1.11.0 重要功能全面解析
深入分析 Flink SQL 工作机制
即将发布的 Flink 1.11 新特性:流批一体的 Hive 数仓
重磅!Apache Flink 1.11 功能抢先看!
Flink Checkpoint 原理流程以及常见失败原因分析
一文了解 Apache Flink 的资源管理机制
如何实时监控 Flink 集群和作业?
Apache Flink 1.9新功能介绍及使用
Flink面试,看这篇就足够了
Flink Forward Asia 2019 总结和展望 - 附PPT下载
Flink Forward 201904 PPT资料下载
一文让你彻底了解大数据实时计算引擎 Flink
干货 | Flink Connector 深度解析
Apache Flink 是如何管理好内存的?
Elasticsearch 在各大互联网公司大量真实的应用案例!
完美避坑!记一次Elasticsearch集群迁移架构实战
Elasticsearch如何做到亿级数据查询毫秒级返回?
我为什么用 ElasticSearch 做 Redis 监控?
成人网站泄露 108 亿数据后,一个 Elasticsearch 爱好者的思考
Elasticsearch用得好,下班下得早
从腾讯云到自建机房?ES集群迁移架构实战
ElasticSearch 亿级数据检索案例实战
Solr vs ElasticSearch,搜索技术哪家强
看完这篇文章,再也不怕 Elasticsearch 索引设计
基于 MySQL Binlog 的 Elasticsearch 数据同步实践
Open Distro for Elasticsearch:AWS 自家版本的开源 ElasticSearch
基于 MySQL Binlog 的 Elasticsearch 数据同步实践
Elasticsearch 冷热集群架构实战
400+节点的 Elasticsearch 集群运维
全文搜索引擎 ElasticSearch 还是 Solr?
Elasticsearch解决问题之道——请亮出你的DSL!
终于有人把elasticsearch原理讲通了!
ElasticSearch 性能调优,让你的集群飞起来
Elasticsearch调优实践
让Elasticsearch飞起来!百亿级实时查询优化实战
Elasticsearch SQL用法详解
Elasticsearch如何做到亿级数据查询毫秒级返回?
Elasticsearch 7.x Nested 嵌套类型查询
看完这篇还不会 Elasticsearch,我跪搓衣板!
面试3连炮:聊聊ES写入数据的原理?查询数据的原理?倒排索引了解吗?
Apache Hadoop 3.x 最新状态以及升级指南
Hadoop 原生分布式对象存储 Ozone
Hadoop 气数已尽?
Apache Hadoop 的 HDFS federation 前世今生
{Submarine} 在 Apache Hadoop 中运行深度学习框架
百PB级Hadoop集群存储空间治理
为什么不建议在 HBase 中使用过多的列族
为了让你更全面的了解Apache HBase,我们做了这本专刊
HBase 中加盐之后的表如何读取:Spark 篇
HBase 中加盐之后的表如何读取:协处理器篇
HBase 协处理器入门及实战
HBase 入门之数据刷写(Memstore Flush)详细说明
HBase 客户端避坑指南
漫谈HBase Filter
HBase 四种数据迁移方案
HBase 协处理器入门及实战
MongoDB、Cassandra 和 HBase 三种 NoSQL 数据库比较
HBase Shell 十大花式玩法
在 Hive 中使用 OpenCSVSerde
Apache Hive JdbcStorageHandler 编程入门指南
Apache Hive 联邦查询(Query Federation)
基于Apache Iceberg打造T+0实时数仓
全方位解读数砖的 Delta Engine
Apache Hudi:统一批和近实时分析的存储和服务
Apache iceberg:Netflix 数据仓库的基石
Delta Lake、Iceberg 和 Hudi 三大开源数据湖不知道如何选?那是因为你没看这篇文章
Apache Hudi应用调优指南
数据仓库、数据湖、流批一体,终于有大神讲清楚了!
恭喜,Apache Hudi 即将成为顶级项目!
Delta Lake 0.5.0 新功能介绍
还在玩数据仓库?现在已经是 LakeHouse 时代!
一篇文章掌握 delta、iceberg 和 hudi 三大开源数据湖方案
5000 字带你快速入门 Apache Kylin
如何在 Kylin 中优雅地使用 Spark
Kylin 在满帮集团千亿级用户访问行为分析中的应用
Redis 集群原理,再也不怕面试被问倒
看完这篇再也不怕 Redis 面试了
Redis 6.0 稳定版发布,支持多线程 IO
不懂Redis Cluster原理,我被同事diss了!
Redis基础你掌握多少了?来查漏补缺?
深度好文| Redis面试全攻略
Hello Redis,我有7个问题想请教你!
深入学习 Redis 集群搭建方案及实现原理
为什么 Redis 选择单线程模型却能提供高并发请求
再有人面试问你 Redis 分布式锁的实现,把这篇文章甩给他
七问Redis,才知道我与技术大牛的差距在哪里
一文彻底理解ZooKeeper分布式锁的实现原理
ZooKeeper 源码和实践揭秘
这可能是介绍 ZooKeeper 最好的文章了
很遗憾,没有一篇文章能讲清楚ZooKeeper
运维老鸟告诉你这个经典Zookeeper问题的根因
为什么那么多 OLAP 系统选择列式存储?
Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP
Apache Arrow:跨平台的内存数据交换格式
日志采集系统都用到哪些技术?
大数据平台架构设计没思路?来看这篇就知道了!
大数据必备的十大工具
数据中台到底怎么建设,有人把他说清楚了
Apache Pulsar 发布 2.5.1 版本
从数仓到数据中台,谈技术选型最优解
实时数据架构,终于有人把他说清楚了!
分布式定时任务调度框架实践
从MongoDB迁移到ES后,我们减少了80%的服务器
身份证上的 ID 能保证唯一性么?
基于 MySQL Binlog 实现可配置的异构数据同步
浓缩精华的架构演进过程,我连看了八遍!
常见的大数据平台架构设计思路
大数据方向学习面试知识图谱
盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目
一文了解 Apache Cassandra 是什么
MongoDB 4.2 发布,支持分布式事务
分布式原理:一致性哈希算法简介
分布式原理:一文了解 Gossip 协议
一文了解一致性哈希
几种常见的数据分区方法
Docker 核心技术与实现原理
当小内存遇上大量数据,你该怎么解决这个问题?
我花了10个小时,写出了这篇K8S架构解析
如何利用Kubernetes集群提升资源利用率?
为什么大数据分析系统大都用列式存储?看了这篇文章你就知道了
从行存储到 RCFile,Facebook 为什么要设计出 RCFile?
列式存储和行式存储它们真正的区别是什么
支撑百万并发的“零拷贝”技术,你了解吗?
Sql Or NoSql,看完这一篇你就都懂了
大数据面试知识图谱
如何保证消息队列的可靠性传输?
大数据平台常见开源工具集锦(强烈推荐收藏)
整理期间,竟发现有这么多篇跪榴莲的。取标题真是太难了,为了让你们点进来,我爱上榴莲了。
•过往记忆大数据,2019年原创精选69篇•五年总结:过往记忆大数据原创精选
欢迎关注我的公众号“过往记忆大数据”,高质量大数据技术文章第一时间推送。
过往记忆大数据微信群,请添加微信:fangzhen0219,备注【进群】
如果本文对你有帮助,跪求【分享】【赞】【在看】【评论】