2016年即将过去,各位大数据的程序员们,是否觉得这一年都不断的追着新技术跑?这个大数据公众号是今年一月底创立的,一年过去,我们积累了不少好内容。回过头来我们看看这一年的脚印,这里我按照文章内容做了一次汇总,分为:流处理、机器学习、用户画像、数据驱动、Hadoop、Apache Spark、Apache Kylin、Druid、推荐系统和大数据平台架构。
流处理
2016年流式数据处理已逐渐开始成为主流,对于流数据的处理存在很多技术,即使在开源社区中,也存在很多扑朔迷离的选择。在大数据杂谈里我们包含了一些优秀的流处理文章,包括Kafka流,Spark流,Storm,Flink,Samza等。
Apache Flink是今年新军突起的流处理技术,完全兼容Hadoop。Apache Flink与Apache Spark的主要差别在于计算模型不同。Spark采用了微批处理模型,而Flink采用了基于操作符的连续流模型。
大数据分析引擎Apache Flink: What, How, Why, Who, Where?
以Flink为例,消除流处理常见的六大谬见
LinkedIn在2010年开发了Kafka,是Kafka的重度使用者,他们总结的经验是非常有参考意义的。而“微服务架构:kafka的崛起”这篇文章详尽的探讨了在微服务架构升级的过程中,如何使用Kafka将微服务之间耦合降到最低,同时能让整个系统在保证高可用的前提下做到高可扩展。
同时Samza也是LinkedIn研发的一款流处理器,下面的文章介绍了Samza在LinkedIn公司的应用情况,Samza在流处理方面的优势、新特性以及下一步的规划。
剖析Linkedln遭遇的Kafka“危机故障”
微服务架构界的“网红”来了——崛起的Kafka
LinkedIn开源流处理器Samza的应用场景、优势、新特性与未来规划
下面这篇文章,集中比较了主流的流处理器的优缺点。
实时流处理框架Storm、Spark Streaming、Samza、Flink,孰优孰劣?!
下面是一些企业自研流处理架构的情况。JMQ是京东自研的消息中间件,InfoQ前后发过两篇文章来解析他们的中间件情况;另外我们也给出了一系列文章来说明Yelp的数据管道,并且Yelp的数据管道刚刚宣布了开源,大家可在Github上下载阅读源码。
京东消息中间件JMQ:架构,与Kafka的对比,主要特性和应用场景
Facebook的实时流处理技术
Yelp的数据管道开源了:ETL已死,实时流技术永生?
Kafka和Twitter新开源的DistributedLog技术对比
机器学习
机器学习经过近年来的强势生长之后,很快地从一个很少被人关注的技术主题,转变为被很多人使用的管理工具。其有效性被无数企业成功验证和应用,为了避免错失良机,企业需要设计自己的机器学习项目,比如在电商平台的推荐、排序业务中。在业务的多样性大的时候企业就需要考虑将机器学习系统平台化。对于学术界来说,学者们更希望机器学习平台容易调试、灵活性要强、迭代要快;而对于工业界更看重的是平台的稳定性强、处理大数据量、容易进行数据整合、高效率、低开发成本等。
我们在大数据杂谈上实际上已经积累了不少企业机器学习平台构建的内容,包括:腾讯的Angel,优点是效率快于Spark几十倍,支持维度达到十亿;另外是阿里巴巴的参数服务器,讲述了涉及理念以及在阿里的实际应用;还有第四范式的先知平台,从系统和工程方面的优化方向,在开发平台产品时的一些经验;还有就是TalkingData的Fregata,优点第一是速度快,第二是算法无需调参或者调参相对简单。
腾讯大数据宣布开源第三代高性能计算平台Angel:支持十亿维度
大规模大数据的有效利用,阿里巴巴参数服务器设计理念与实践
为什么已有TensorFlow和Spark,第四范式还要开发“先知”平台?
]轻量级大规模机器学习算法库Fregata开源:快速,无需调参
下面两篇文章讲的是怎么将深度学习平台应用到企业生产环境中,这也是大名鼎鼎的两个平台:Tensorflow和Deeplearning4j。
如何通过TensorFlow实现深度学习算法并运用到企业实践中
深度学习在Spark平台上如何进入生产环境
下面是各公司针对企业的业务利用机器学习来提高产品体验的一些经验。依次是Twitter,1号店,携程,搜狗,达观数据。最后是一篇总结深度学习全球进展和预测2017的文章。
Twitter机器学习平台的设计与搭建
1号店11.11:机器排序学习在电商搜索中的实战
想要愉快入住酒店?缺了它还真不行!
深度学习在搜狗无线搜索广告中的应用
海量数据挖掘最优解?机器学习!
深度学习:2016年的进展综述及2017年的预测
用户画像
“对企业而言,得用户者得天下,能够有一套科学的精准营销、个性化推荐模型,无疑会促进业务的增长;对开发者而言,用户画像也是频繁被提及的技术,这样可以根据目标用户的动机和行为上进行产品设计,远远优于为脑中虚构的东西做设计。”
这里有来自去哪儿、TalkingData、FreeWheel、百分点、天云大数据的5篇优质内容教你如何设计精准的用户画像产品。
Qunar用户画像构建策略及应用实践
40亿移动设备的用户画像和标签架构实践
广告平台中用户画像和标注噪声处理的实践
百分点苏海波博士:为什么你做的用户画像模型不精准?
用户画像不应脱离社会关系,谈复杂网络的关键技术和应用实践
数据驱动
讲大数据离不开数据驱动。数据驱动相关案例分别来自链家网、诸葛io、LinkedIn和滴滴。
数据驱动在链家网搜索优化与推荐策略中的实践
基于Spark的用户行为路径分析的产品化实践
4亿用户的LinkedIn数据产品设计原则和架构实现
数据驱动管理竟成滴滴获10亿美元投资的最大黑手?
Hadoop
今年1月,Hadoop过上了10岁生日,我也在年初策划了Hadoop十年的专栏,共约了十篇稿件,Cloudera的陈飚老师的文章在这一年中流传甚广,非常值得一看。另外InfoQ将这十篇文章集中到一起,做成了《架构师特刊:Hadoop十年回顾》的电子书分享给了大家,有兴趣可以下载下来读一读,将对Hadoop生态形成非常好的理解。在这里再次对十位作者老师表示谢意,谢谢大家的无私分享!
深度 | 资深架构师教你一篇文看懂Hadoop
《架构师特刊:Hadoop十年回顾》迷你书免费下载
Apache Spark
在2016年,Spark迎来了最近两年的一个最大的版本的发布:Spark 2.0。但是在Spark上我做的工作并不够,原本很想做个很好的专题,但是屡屡碰壁之后只能罢了,毕竟对于Spark开发者来说,这么大热的一年,任何实践都足够上沙龙和大会。
关键七步,用Apache Spark构建实时分析Dashboard
Spark在GrowingIO数据无埋点全量采集场景下的实践
是时候了解一些Spark生态系统中的图数据分析知识了
以Python为例,教你Spark 应用开发
Apache Kylin
eBay的大数据OLAP框架Kylin项目一经开源,即获得了业界众多的称赞,并被邀请加入Apache软件基金会的孵化项目,在2014年11月,正式经投票加入了Apache大家庭,项目名字也改成了“Apache Kylin”。
InfoQ在Kylin开源的一开始就持续关注这个项目,分享了很多的案例,促进了Kylin社区的进一步发展。这些内容我们也集中到了电子书中:《架构师特刊:Apache Kylin实践》。
Apache Kylin发布新版流处理引擎
使用超大规模数据分析技术支持大数据预测
Apache Kylin在电信运营商的实践和案例分享
Apache Kylin在美团数十亿数据OLAP场景下的实践
涨姿势:百度地图的工程师都是如何利用Apache Kylin处理数据的
Apache Kylin企业实践,电子书免费下载!
Druid
Druid作为一个大数据的OLAP系统,在这一年里收获了很多的关注。国内也有了Druid中文社区,组织了好几次Druid Meetup。
PB级数据快速聚合查询,Druid和Caravel在去哪儿大住宿的实践
驱动海量大数据实时多维分析,优酷为什么会选择Druid?
推荐系统
推荐系统部分有百分点、京东、达观数据的企业实践,也有解说播客和博客的推荐系统原理和实践的文章。还有一篇最新的推荐系统进展,Youtube的大规模推荐系统。
最后也同样奉上两本电子书:《推荐系统:理论篇》和《推荐系统:实践篇》。
百分点亿级个性化推荐系统的发展历程和实践架构
京东618智能卖场:个性化技术在大促会场上的实践
推荐系统实践与优化
如何基于用户历史行为进行精准个性化推荐
三周时间,搭建一个产品级的播客podcast推荐系统实践解析
博客推荐系统:防过载又创价值
用一个大家都懂的方式来聊聊YouTube基于深度神经网络的推荐系统
想抓住用户的心思?《推荐系统(理论篇)》免费电子书下载!
架构师必读:《推荐系统(实践)》免费电子书下载!
大数据平台与数据挖掘实践
数据平台部分积攒的内容也非常多:携程、去哪儿、百分点、诸葛io、腾讯、挖财、有赞、链家网、美团、卷皮、达观数据和明略数据。
携程大数据实时风控的架构及实践
去哪儿网支付系统架构演进
如何针对技术和业务人员痛点,搭建标准智能数据平台?
大数据平台变革浪潮中,这家初创公司积累的值得借鉴的业务架构实践经验
腾讯亿级排行榜系统实践及挑战
挖财基于大数据的信贷审批系统实践
用Elasticsearch构建电商搜索平台,一个极有代表性的基础技术架构和算法实践案例
房源推荐、房屋估价、经纪人画像…,链家如何利用数据挖掘技术服务房地产?
携程基于Storm的实时大数据平台实践
美团大数据平台架构实践 [ 文章 + 视频 ]
从搭台到唱戏,电商卷皮BI的实践演进和架构体系
从Storm到Heron,Twitter的实时计算框架有哪些重大进化?
如何建立完整可用的安全大数据平台
达观数据分析平台架构和Hive实践
一线专家谈谈:数据挖掘在实际领域中的那些事儿
这5种必知的大数据处理框架技术,你的项目到底应该使用其中的哪几种
数据库
大数据少不了数据存储,推荐大家再看看第一篇黄东旭老师的开源数据库现状。
一篇文章,掌握所有开源数据库的现状
如何在不增加投入的情况下让你的数据库快上200倍
GPU高速查询统计和典型场景:从“小时”到“毫秒”级的进化
一文掌握云数据库现状与前沿技术
怎样打造一个分布式数据库 | 数据库功能深度解析
MongoDB在58同城百亿量级数据下的应用实践
10亿级流数据交互查询,为什么抛弃MySQL选择VoltDB?
优酷土豆的Redis服务平台化之路
分布式MySQL集群方案,看看京东是怎么做的
知识图谱
LinkedIn知识图谱的构建与实践
企业级大数据知识图谱产品构建与应用
如果觉得本博客对您有帮助,请 赞助作者 。
转载请注明:lxw的大数据田地 ? 2016年大数据80篇爆款文章:这一年你追过的那些技术