这个公众号到底有没有好文章?我整理了300篇,觉得不好我跪榴莲!

花了6个小时,总算整理好了,嗯,榴莲,真香!

大数据成神之路

Spark/Kafka/Flink/ElasticSearch/Hadoop/Hbase/Hive/Yarn/Kylin/Redis/.../...大数据大神。

各大厂大数据实践

阿里巴巴

阿里巴巴大数据在高德地图上的应用

阿里架构总监一次讲透中台架构,13页PPT精华详解,建议收藏!

爱奇艺

爱奇艺在日志实时数据监控的探索与实践

基于 Apache Druid 的实时分析平台在爱奇艺的实践

日均处理万亿条数据,爱奇艺实时计算平台设计

爱奇艺大数据实时分析平台的建设与实践

爱奇艺海量数据实时分析架构的演进

小米

小米 MySQL 数据实时同步到大数据数仓的架构与实践

Kylin 在小米大数据中的应用

Kylin 迁移到 HBase 实践在小米的实践

支撑小米万亿级的消息队列架构与实践

马蜂窝

Kafka 集群在马蜂窝大数据平台的优化与应用扩展

马蜂窝实时计算平台的演进

网易

网易分布式数据库多活架构的演进与实践

美团

美团点评实时数仓实践

支撑美团万亿级数据中心的计算引擎架构演进

Apache Doris在美团外卖数仓中的应用实践

美团1万台 Hadoop 集群 YARN 的调优之路

美团 MySQL 数据实时同步到 Hive 的架构与实践

每天数百亿用户行为数据,美团点评怎么实现秒级转化分析?

eBay

Apache Flink 服务化在 eBay 的实践

Apache Spark 在eBay 的优化

Kylin on Kubernetes 在 eBay 的实践

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?

实战 | eBay PB级日志系统的存储方案实践

快手

Flink在快手实时多维分析场景的应用

Hadoop YARN 在快手的应用实践与技术演进之路

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

快手 HBase 在千亿级用户特征数据分析中的应用与实践

SQL on Hadoop在快手大数据平台的实践与优化

银行

工行“去O”数据库选型与分布式架构设计

光大银行分布式实战:国内最大缴费平台的数据库架构转型

58

58同城 Elasticsearch 应用及平台建设实践

58同城宝实时数仓建设实践

58同城 HBase 平台建设实践

58全站用户行为数据仓库建设及实践

58同城离线计算平台设计与实践

Kylin 在 58 集团的实践和应用

58同城实时计算平台架构实践

海量日志分析平台在 58 集团的实践

贝壳

分布式图数据库在贝壳的应用实践

Uber

Uber 如何使用 Apache Hudi 支撑 PB 级数据湖

面对业务增长,Uber是如何扩展HDFS文件系统的

Uber 大数据平台的演进(2014~2019)

Apache Hudi: Uber 开源的大数据增量处理框架

趣头条

趣头条基于Flink+ClickHouse的实时数据分析平台

ClickHouse 在趣头条的实践

趣头条百 PB 规模 Hadoop 实践

使用 Spark 和 Delta Lake 构建近实时数据仓库实时平台在趣头条的建设实践

京东

京东 8000+ 台 Hadoop 集群平台化之路

京东大数据平台进化之路

日均5亿查询量的京东订单中心,为什么舍MySQL用ES?

京东HBase平台进化与演进

电商

跨境电商 Shopee 的实时数仓演进之路

字节跳动

YARN 在字节跳动的优化与实践

字节跳动 EB 级 HDFS 实践

Spark-SQL 在字节跳动的应用实践

Facebook

来自 Facebook 的 Spark 大作业调优经验

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Apache Cassandra 在 Facebook 的应用

腾讯

QQ音乐PB级ClickHouse实时数据平台架构演进之路

千台 ElasticSearch 集群在腾讯的优化实践

支撑腾讯直播百亿请求的 Redis 集群是如何工作的

腾讯万亿级 Elasticsearch 技术解密

携程

数万实例数百TB数据量,携程Redis治理演进之路

每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用

Apache Kylin 在携程的实践

Spark SQL在携程的实践经验分享

携程机票数据仓库建设之路

100亿+数据量,每天50W+查询,携程酒店数据智能平台实践

bilibili

bilibili 实时计算平台架构与实践

滴滴

滴滴ElasticSearch平台跨版本升级以及平台重构之路

HBase 不停机升级在滴滴的实践

Apache Flink在滴滴的应用与实践

滴滴Elasticsearch多集群架构实践

SQL 开发任务超 50% !滴滴实时计算的演进与优化

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

有赞

有赞数据仓库实践之路

蘑菇街

蘑菇街千亿级消息Kafka上云实践

360

Apache Kafka 在 360 的深度实践

实时离线一体化系统在 360 的应用

菜鸟

菜鸟供应链实时数仓的架构演进及应用场景

一点资讯

Apache Kylin 在一点资讯的实践

唯品会

唯品会 1000+ 台 Hadoop 集群优化经验

日跑几十万作业,唯品会HDFS是如何优化的

斗鱼

斗鱼在线分析平台演进之路

雅虎

雅虎日本如何用 Pulsar 构建日均千亿的消息平台

微博

万亿级日访问量下,Redis在微博的9年优化历程

甜橙金融

甜橙金融如何利用 Apache Pulsar 在日均上亿的交易中抵御金融诈骗

百分点

百分点万亿级大数据平台的建设实践

网易

网易云音乐的消息队列改造之路

Spark & Alluxio在网易严选架构演进中的实践和探索

OPPO

基于 Flink SQL 构建实数据仓库在 OPPO 的实战

OPPO 离线数仓到实时数仓库的演进

Spark系列

  • Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析

  • Spark SQL 物化视图技术原理与实践

  • 面试必知的 Spark SQL 几种 Join 实现

  • 如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

  • Spark on K8S 的最佳实践和需要注意的坑

  • Spark + AI Summit North America 202006 高清 PPT 全部更新完

  • Apache Spark 3.0 中的向量化 IO

  • Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。

  • Spark 3.0 中七个必须知道的 SQL 性能优化

  • Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。

  • 你要的 Spark AI Summit 2020 PPT 我已经给你整理好了

  • 马铁大神的 Apache Spark 十年回顾

  • Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能

  • 图文介绍 SQL 的三种查询计划处理模型,Spark 用了其中两个

  • Spark 3.0 终于支持 event logs 滚动了

  • 实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

  • Spark Executor内存管理

  • Apache Spark 将支持 Stage 级别的资源控制和调度

  • 八种解决 Spark 数据倾斜的方法

  • Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

  • Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

  • 一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)的使用

  • Apache Spark 3.0 预览版正式发布,多项重大功能发布

  • 一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)

  • 使用 Spark 和 Delta Lake 构建近实时数据仓库

  • Spark+AI Summit Europe 2019 超清视频&PPT下载

  • 重磅|Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准

  • Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL

  • Apache Spark 中编写可伸缩代码的4个技巧

  • 云栖大会 | Apache Spark 3.0 和 Koalas 最新进展

  • Apache Spark Delta Lake 写数据使用及实现原理代码解析

  • 深入理解 Apache Spark Delta Lake 的事务日志

  • 一文理解 Apache Spark DataSource V2 诞生背景及入门实战

  • 深入理解 Spark SQL 查询引擎

  • Spark & Alluxio在网易严选架构演进中的实践和探索

  • 一条 SQL 在 Apache Spark 之旅(下)

  • 一条 SQL 在 Apache Spark 之旅(中)

  • 一条 SQL 在 Apache Spark 之旅(上)

  • 深入理解 Spark Delta Lake 的诞生及其工作原理

  • Spark-SQL 在字节跳动的应用实践

  • 深入理解 Spark SQL 查询引擎

  • 通过 Spark Streaming Listener 监控程序

  • Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

  • Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

  • .NET for Apache Spark 预览版正式发布

  • 重磅 | Apache Spark 社区期待的 Delta Lake 开源了

  • Apache Spark 2.4 回顾以及 3.0 展望

  • SHC:使用 Spark SQL 高效地读写 HBase

  • Apache Spark 未来:Spark 3.0 预览

  • Apache Spark 3.0 将内置支持 GPU 调度

  • 牛人用 Rust 重写了 Apache Spark,并把它开源了

  • 是时候考虑让你的 Spark 跑在 K8s 上了

  • 使用Spark Streaming SQL进行PV/UV统计

  • 吐血之作 | 流系统Spark/Flink/Kafka/DataFlow端到端一致性实现对比

  • 使用Apache Arrow助力PySpark数据处理

  • 看完这篇文章还不懂 Spark 的 Adaptive Execution ,我去跪榴莲!

  • Spark on Kubernetes 的现状与挑战

  • Spark SQL 之 Join 实现

  • 通过 Spark Streaming Listener 监控程序

  • 是时候放弃 Spark Streaming, 转向 Structured Streaming 了

  • Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

  • MapReduce Shuffle 和 Spark Shuffle 区别看这篇就够了

Kafka系列

  • Kafka原理和实践

  • 图文了解 Kafka 的副本复制机制

  • Kafka原理和实践

  • Kafka 是靠什么机制保持高可靠,高可用的?

  • 大规模使用 Apache Kafka 的20个最佳实践

  • Kafka 基础面试知识都在这,你都知道嘛?

  • Kafka是靠什么机制保持高可靠,高可用的?

  • Apache Kafka 2.3 发布,新特性讲解

  • Kafka 是如何保证数据可靠性和一致性

  • Kafka架构原理,也就这么回事!

  • 一文彻底搞清 Kafka 的副本复制机制

  • Apache Kafka 不需要管理员:删除 Apache ZooKeeper 的依赖

  • 32 道常见的 Kafka 面试题你都会吗?附答案

  • Apache Kafka 2.5 稳定版发布,新特性抢先看

  • Kafka 是如何保证数据可靠性和一致性

  • 从未如此简单:10分钟带你逆袭 Kafka!

  • 如何快速全面掌握Kafka?5000字吐血整理

  • Apache Kafka 2.4 正式发布,重要功能详细介绍

  • 如何为Kafka集群选择合适的Topics/Partitions数量

  • 32 道常见的 Kafka 面试题你都会吗?附答案

  • 两万字深入剖析Kafka,你学会了吗?

  • Kafka 是如何保证数据可靠性和一致性

  • Apache Kafka 2.3 发布,新特性讲解

  • Kafka创建Topic时如何将分区放置到不同的Broker中Kafka运维大全来了!优化、监控、故障处理……

  • 不知道这些知识点,面试的时候别说你懂 Kafka

  • 一篇文章了解 Kafka 幂等性的原理及实践

  • 看完这篇还不会kafka,我跪榴莲!

  • 大规模使用 Apache Kafka 的20个最佳实践

Flink系列

  • 从 0 到 1 搭建一套 Flink 的监控系统

  • Apache Flink 1.11.0 重要功能全面解析

  • 深入分析 Flink SQL 工作机制

  • 即将发布的 Flink 1.11 新特性:流批一体的 Hive 数仓

  • 重磅!Apache Flink 1.11 功能抢先看!

  • Flink Checkpoint 原理流程以及常见失败原因分析

  • 一文了解 Apache Flink 的资源管理机制

  • 如何实时监控 Flink 集群和作业?

  • Apache Flink 1.9新功能介绍及使用

  • Flink面试,看这篇就足够了

  • Flink Forward Asia 2019 总结和展望 - 附PPT下载

  • Flink Forward 201904 PPT资料下载

  • 一文让你彻底了解大数据实时计算引擎 Flink

  • 干货 | Flink Connector 深度解析

  • Apache Flink 是如何管理好内存的?

ElasticSearch系列

  • Elasticsearch 在各大互联网公司大量真实的应用案例!

  • 完美避坑!记一次Elasticsearch集群迁移架构实战

  • Elasticsearch如何做到亿级数据查询毫秒级返回?

  • 我为什么用 ElasticSearch 做 Redis 监控?

  • 成人网站泄露 108 亿数据后,一个 Elasticsearch 爱好者的思考

  • Elasticsearch用得好,下班下得早

  • 从腾讯云到自建机房?ES集群迁移架构实战

  • ElasticSearch 亿级数据检索案例实战

  • Solr vs ElasticSearch,搜索技术哪家强

  • 看完这篇文章,再也不怕 Elasticsearch 索引设计

  • 基于 MySQL Binlog 的 Elasticsearch 数据同步实践

  • Open Distro for Elasticsearch:AWS 自家版本的开源 ElasticSearch

  • 基于 MySQL Binlog 的 Elasticsearch 数据同步实践

  • Elasticsearch 冷热集群架构实战

  • 400+节点的 Elasticsearch 集群运维

  • 全文搜索引擎 ElasticSearch 还是 Solr?

  • Elasticsearch解决问题之道——请亮出你的DSL!

  • 终于有人把elasticsearch原理讲通了!

  • ElasticSearch 性能调优,让你的集群飞起来

  • Elasticsearch调优实践

  • 让Elasticsearch飞起来!百亿级实时查询优化实战

  • Elasticsearch SQL用法详解

  • Elasticsearch如何做到亿级数据查询毫秒级返回?

  • Elasticsearch 7.x Nested 嵌套类型查询

  • 看完这篇还不会 Elasticsearch,我跪搓衣板!

  • 面试3连炮:聊聊ES写入数据的原理?查询数据的原理?倒排索引了解吗?

Hadoop系列

  • Apache Hadoop 3.x 最新状态以及升级指南

  • Hadoop 原生分布式对象存储 Ozone

  • Hadoop 气数已尽?

  • Apache Hadoop 的 HDFS federation 前世今生

  • {Submarine} 在 Apache Hadoop 中运行深度学习框架

  • 百PB级Hadoop集群存储空间治理

HBase系列

  • 为什么不建议在 HBase 中使用过多的列族

  • 为了让你更全面的了解Apache HBase,我们做了这本专刊

  • HBase 中加盐之后的表如何读取:Spark 篇

  • HBase 中加盐之后的表如何读取:协处理器篇

  • HBase 协处理器入门及实战

  • HBase 入门之数据刷写(Memstore Flush)详细说明

  • HBase 客户端避坑指南

  • 漫谈HBase Filter

  • HBase 四种数据迁移方案

  • HBase 协处理器入门及实战

  • MongoDB、Cassandra 和 HBase 三种 NoSQL 数据库比较

  • HBase Shell 十大花式玩法

Hive系列

  • 在 Hive 中使用 OpenCSVSerde

  • Apache Hive JdbcStorageHandler 编程入门指南

  • Apache Hive 联邦查询(Query Federation)

数据湖系列

  • 基于Apache Iceberg打造T+0实时数仓

  • 全方位解读数砖的 Delta Engine

  • Apache Hudi:统一批和近实时分析的存储和服务

  • Apache iceberg:Netflix 数据仓库的基石

  • Delta Lake、Iceberg 和 Hudi 三大开源数据湖不知道如何选?那是因为你没看这篇文章

  • Apache Hudi应用调优指南

  • 数据仓库、数据湖、流批一体,终于有大神讲清楚了!

  • 恭喜,Apache Hudi 即将成为顶级项目!

  • Delta Lake 0.5.0 新功能介绍

  • 还在玩数据仓库?现在已经是 LakeHouse 时代!

  • 一篇文章掌握 delta、iceberg 和 hudi 三大开源数据湖方案

Kylin系列

  • 5000 字带你快速入门 Apache Kylin

  • 如何在 Kylin 中优雅地使用 Spark

  • Kylin 在满帮集团千亿级用户访问行为分析中的应用

Redis系列

  • Redis 集群原理,再也不怕面试被问倒

  • 看完这篇再也不怕 Redis 面试了

  • Redis 6.0 稳定版发布,支持多线程 IO

  • 不懂Redis Cluster原理,我被同事diss了!

  • Redis基础你掌握多少了?来查漏补缺?

  • 深度好文| Redis面试全攻略

  • Hello Redis,我有7个问题想请教你!

  • 深入学习 Redis 集群搭建方案及实现原理

  • 为什么 Redis 选择单线程模型却能提供高并发请求

  • 再有人面试问你 Redis 分布式锁的实现,把这篇文章甩给他

  • 七问Redis,才知道我与技术大牛的差距在哪里

Zookeeper系列

  • 一文彻底理解ZooKeeper分布式锁的实现原理

  • ZooKeeper 源码和实践揭秘

  • 这可能是介绍 ZooKeeper 最好的文章了

  • 很遗憾,没有一篇文章能讲清楚ZooKeeper

  • 运维老鸟告诉你这个经典Zookeeper问题的根因

其他

  • 为什么那么多 OLAP 系统选择列式存储?

  • Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP

  • Apache Arrow:跨平台的内存数据交换格式

  • 日志采集系统都用到哪些技术?

  • 大数据平台架构设计没思路?来看这篇就知道了!

  • 大数据必备的十大工具

  • 数据中台到底怎么建设,有人把他说清楚了

  • Apache Pulsar 发布 2.5.1 版本

  • 从数仓到数据中台,谈技术选型最优解

  • 实时数据架构,终于有人把他说清楚了!

  • 分布式定时任务调度框架实践

  • 从MongoDB迁移到ES后,我们减少了80%的服务器

  • 身份证上的 ID 能保证唯一性么?

  • 基于 MySQL Binlog  实现可配置的异构数据同步

  • 浓缩精华的架构演进过程,我连看了八遍!

  • 常见的大数据平台架构设计思路

  • 大数据方向学习面试知识图谱

  • 盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目

  • 一文了解 Apache Cassandra 是什么

  • MongoDB 4.2 发布,支持分布式事务

  • 分布式原理:一致性哈希算法简介

  • 分布式原理:一文了解 Gossip 协议

  • 一文了解一致性哈希

  • 几种常见的数据分区方法

  • Docker 核心技术与实现原理

  • 当小内存遇上大量数据,你该怎么解决这个问题?

  • 我花了10个小时,写出了这篇K8S架构解析

  • 如何利用Kubernetes集群提升资源利用率?

  • 为什么大数据分析系统大都用列式存储?看了这篇文章你就知道了

  • 从行存储到 RCFile,Facebook 为什么要设计出 RCFile?

  • 列式存储和行式存储它们真正的区别是什么

  • 支撑百万并发的“零拷贝”技术,你了解吗?

  • Sql Or NoSql,看完这一篇你就都懂了

  • 大数据面试知识图谱

  • 如何保证消息队列的可靠性传输?

  • 大数据平台常见开源工具集锦(强烈推荐收藏)

榴莲系列

整理期间,竟发现有这么多篇跪榴莲的。取标题真是太难了,为了让你们点进来,我爱上榴莲了。

推荐阅读

•过往记忆大数据,2019年原创精选69篇•五年总结:过往记忆大数据原创精选

欢迎关注我的公众号“过往记忆大数据”,高质量大数据技术文章第一时间推送。

过往记忆大数据微信群,请添加微信:fangzhen0219,备注【进群】

如果本文对你有帮助,跪求【分享】【赞】【在看】【评论】

你可能感兴趣的:(分布式,数据库,xhtml,spark,hadoop)