Cassandra在海量数据存储及大型项目案例介绍-part2

网上能找到被披露的信息中奇虎360公司是国内目前 Cassandra 落地规模最大的公司。

Cassandra 自2010在360开始调研技术落地;2011年使用 Cassandra 0.7.3作为基础版本应用于生产环境;2012年完善数据可靠性和安全性,实现不停机和不单纯依赖读修复的数据快速恢复;2013-2014年以节省成本为目的,实现可擦除编码技术应用于 Cassandra,在确保数据安全和可靠性的前提下实现成本降低60%;2014-2015年面对超大规模集群的超复杂性问题,实现运维自动化,集群具备自主自愈、自主风控等自主运维能力 ( 近 1w5 物理节点,89个集群,两人运维 )。

2010年,Dropbox 在线云存储在国外被用户熟知,同时国内如360、金山、百度等各个厂商也都陆续推出了自家的网盘类产品;而在 "360云盘" 背后的存储技术支撑之一就是以 Cassandra 为基础的云端存储方案。自此,Cassandra在360实现技术落地和大规模生产应用,并被持续改进优化,最终形成高峰时期超 10k+ 物理节点的使用规模,360成为互联网公司中 Cassandra 生产环境落地规模最大的公司。

这是奇虎360公司公布出来的 Cassandra 演进过程与使用规模,如图所示:

Cassandra在海量数据存储及大型项目案例介绍-part2_第1张图片


上述内容参考:

Ref1   Ref2 

接下来,我们再来看看国外一些大公司是在哪些场景下使用 Cassandra。

CERN

CERN是欧洲核子研究组织(法语:Conseil Européenn pour la Recherche Nucléaire;英语:European Organization for Nuclear Research,1954年9月29日- ),是世界上最大型的粒子物理学实验室,也是万维网的发源地。

CERN研发的P-BEAST是一个高度可扩展、高度可用和耐用的系统,用于存档ATLAS实验的触发和数据采集(TDAQ)系统的监控信息。目前,它由运行在2400台互连计算机上的20000个应用程序组成,但预计在不久的将来还会进一步增长。P-BEAST系统存储大量监控信息,否则这些信息将丢失。

使这些数据可访问,有助于长期分析和更快的调试。这项研究的新颖之处在于使用现代键值存储技术(Cassandra)来满足项目所带来的大时间序列数据速率、灵活性和可伸缩性要求。松散模式允许存储的数据与信息服务中的信息流无缝地演进。本文概述了P-BEAST的体系结构,并讨论了最终选择Cassandra作为存储技术的理由。在生产环境中运行期间进行的测量说明了系统吸收的数据量。

A Persistent Back-End for the ATLAS Online Information Service (P-BEAST) - CERN Document Server

Clear Capital

Clear Capital成立于2001年,是一家专业的商业金融公司,为其他90%的被拒绝者提供服务。也是北美房地产估价解决方案的领导者。该公司的技术平台加速了贷款决策,提供了对房地产市场的分析洞察力,并提供了在房地产和商业物业的条件、质量和价值方面提供专业知识的资产评估的基础。由于他们独特的商业模式,他们的成功取决于他们的客户的成功,所以他们合作为每个客户找到最佳的资本解决方案。

Clear Capital公司选择Instaclustr团队作为专业可靠的供应商来支持该项目,Instaclustr团队帮助Clear Capital公司从原来专有的解决方案迁移到源代码Apache Cassandra,这样有利于将来系统的可扩展性。

备注:Instaclustr团队于2014年由Ben Bromhead和Adam Zegelin创立。客户每月支付费用,即可在该公司提供的技术平台上运行使用无数开源数据技术的应用程序。

https://info.instaclustr.com/rs/620-JHM-287/images/Clear%20Capital_Case%20Study_Jan%202020.pdf

CloudKick

Cloudkick是Rackspace公司在2010年收购的Cloudkick“云监控”技术公司,同时公司产品也被纳入Rackspace的产品矩阵。Cloudkick团队一直致力于系统监控和云监控系统。

在此之前,Cloudkick的大部分配置存储都依赖于MySQL主服务器和从服务器。这严重限制了可扩展性、系统性能。对于收集超大规模的半结构化系统监控数据这不一定是MySQL的强项,这导致Cloudkick系统扩容时使用Django ORM对MySQL使用非常困难。

因此,在新一代“云监控”系统的中没有继续使用MySQL,而是将监控数据存储在Apache Cassandra中了。并Cloudkick使用Facebook Scribe的内部分支来传输某些类型的高容量消息和数据。使用Apache Cassandra存储metrics系统监控数据,并通过可视化和图形化的方式提供高质量的用户体验。

Technology behind Rackspace Cloud Monitoring | Paul Querna

CloudTrax

CloudTrax是一款免费的基于云的网络控制器,可帮助您从世界任何地方构建、管理和监控无线和有线网络。使用CloudTrax应用程序,您可以从iOS设备创建网络,查看访问点和交换机的状态,查看已连接的用户及其使用情况,更新您的网络设置等。在您的移动应用程序和CloudTrax.com上的完整控制器之间切换。

Open Mesh拥有庞大的现有客户群,在80000个云管理网络中部署了超过180000台设备,为全球数百万日常客户提供服务。有了新一代固件,Open Mesh工程团队的任务是跟踪3-5倍多的客户端和每个客户端的所有应用程序级数据。开发和发布一个新的管理平台需要立即能够快速扩展,以服务于现有的用户群,并随着时间的推移增加额外的网络而显著增长。托管环境需要能够在控制器收集、分析和报告的一系列不同指标上存储每个网络的大量数据。

经过广泛的研究,OpenMesh团队知道Apache Cassandra非常适合他们的预期功能。该解决方案具有可扩展性和数据存储需求,以满足CloudTrax平台的需求,该解决方案和平台是Apache Cassandra实现物联网的完美例子,它消耗了大量直接来自不同地理位置的用户和设备的时间序列数据。

CloudTrax Case Study - Instaclustr

Constant Contact

Constant Contact成立于1998年,是一家广告营销公司,致力于通过营销、在线调查等服务和工具帮助小企业、非营利性组织机构联系其客户、成员等。Constant Contact为了满足小企业、组织结构的需求而创建,为其提供简单、并在其支付能力范围之内的建立长期客户合作关系的工具。现在,Constant Contact拥有50多万客户,业务范围遍及世界各地。

Constant Contact使用Cassandra为超过50万的小企业客户管理社交媒体数据。他们目前构建的Cassandra 生产集群有150多台机器上拥有超过100 TB的数据。

https://www.slideshare.net/daveconnors/cassandra-puppet-scaling-data-at-15-per-month

Campaign Monitor

Campaign Monitor是一款电子邮件营销工具,它为客户提供多样化、全面的邮件营销工具。其邮件模板编辑器非常灵活、方便,利于客户快速编辑邮件模板。Campaign Monitor知道,转向新的数据库技术是一项重大任务。他们选择Apache Cassandra作为他们的战略运营数据库平台,因为它具有卓越的可靠性、可管理性和开源社区。

Resources - Instaclustr

Datacloud

石油天然气行业将传感器数据存储在特定于行业的文档数据库中,只有通过基于SOAP和XML的专有API才能访问数据。DataCloud通过将这些数据传输到Apache Cassandra数据库集群解决了这个问题。

Resources - Instaclustr

Discord

Discord,聊天软件,是一家游戏聊天应用与社区,Discord从游戏语音、IM工具服务起家,随后转向直播平台,进而开设游戏商店的社区平台,成为游戏玩家在游戏中沟通协作的首选工具。2021年4月,微软公司与社区“Discord”进行收购谈判。

Cassandra是唯一满足Discord所有要求的数据库,因为他们可以添加节点来扩展它,并且可以容忍节点丢失,而不会对应用程序产生任何影响。相关数据连续存储在磁盘上,提供最少的搜索,并在Cassandra集群环境中轻松分发。

https://blog.discord.com/how-discord-stores-billions-of-messages-7fa6ec7ee4c7

Dream11

Dream11 成立于2012年,总部位于孟买,是一个印度梦幻体育(Fantasy Sports)游戏平台,主要涉及板球比赛,也包括足球、篮球、游泳等运动。

Dream11是IPL(印度板球超级联赛)的主要赞助商、国际板球理事会(ICC)的官方合作伙,目前也是印度领先的游戏公司。Dream11主要是自我管理为Dream11应用程序和贯穿其中的比赛。他们选择了 Cassandra分布式开源数据技术由于高性能,成为其应用的支柱它提供的可扩展性、可靠性和性能以。

https://info.instaclustr.com/rs/620-JHM-287/images/DREAM11_Case_Study.pdf

eBay

eBay公司2020年美国500强第295名,员工数12700,eBay致力于推动跨境交易电子商务的发展, 如今eBay已有1.471亿注册用户,有来自全球29个国家的卖家,每天都有涉及几千个分类的几百万件商品销售,成为世界上最大的电子集市。年交易额为2380亿美元,净收入220亿美元。

eBay的Cassandra部署跨十个集群节点,每个节点存储数据在200 TB+,每天提供400万次以上的写入和100万次以上的读取,为eBay不断增长的QA、LnP和多个Cassandra生产集群。

eBay应用场景:商品详情页上的Social Signals,如Like,Want,Own,Favorites等;用户和商品的hunch taste graph;时间序列如移动通知,反作弊,SOA服务,系统监控,日志服务等;

https://www.slideshare.net/jaykumarpatel/cassandra-at-ebay-13920376

Equinix

Equinix是全球领先的互联平台和托管提供商,在全球拥有100多个数据中心。Equinix以更高的性能和更低的延迟为数百万个业务应用程序提供了客户的网络监控解决方案和数据中心基础设施,包括监控、故障排除和客户计费。

考虑到可伸缩性、连续可用性和性能的要求,Equinix开始寻找新的数据库解决方案。为了为客户提供更深入的网络健康和数据中心性能分析,经过全面的总体拥有成本评估,Equinix选择了DataStax Enterprise和Apache Cassandra 通过HBase实现经济高效的扩展、连续可用性体系结构、优异的读写性能以及与Hadoop的无缝集成。

目前在Equinix 每天Apache Cassandra收集和存储9000万条网络流量数据记录。Equinix提供用户当前网络运行状况和网络流量分析结果,利用这些信息与数据分析结果实现了更好的用户体验和客户参与。

Powering the World's Data Centers with DSE | Equinix | DataStax

Uber

Uber在2016年公布了如何使用Mesos和Cassandra跨多个数据中心管理每秒100万次的写操作的系统架构设计方案。他们首先对关注着提出,如果你是Uber,你需要存储司机和骑手应用每30秒发送一次的位置数据,你会怎么做?这是需要实时使用的大量实时数据。

Uber生产环境中有两个数据中心(西海岸和东海岸)总共建立了大约20个Cassandra集群,并在Mesos上运行Cassandra,计划在未来拥有100个Cassandra集群。

Uber考虑到可靠性目标,在10000个请求中只有一个可能失败,并且需要跨数据中心工作。Uber之所以选择Mesos,是因为当时Mesos是唯一一款被证明可以与成千上万台机器的10倍大小的集群协同工作的产品。

Uber最初有Cassandra4个集群,包括中国,但自从与滴滴合并后,这些集群被关闭。目前两个数据中心群集环境约300台机器,超过100万次写入/秒和~10万次读取/秒,其中一组集群实时存储驾驶员和骑手应用程序每30秒发送一次的位置信息。平均读取延迟:13毫秒,写入延迟:25毫秒。

Flant

Flant是一家做系统运维服务的公司,自2008年以来,公司为企业关键型应用程序构建并支持可靠的IT基础架构及提供运维服务。并将它们部署到Kubernetes,2019年1月,获得了Kubernetes认证服务提供商的资格(KCSP公司)变成了银牌会员CNCF(云原生计算基金会)。目前公司员工150人,客户300个,生产环境正在运行2000+个应用程序,公司目前在github上有多个开源项目:werf、Deckhouse、Shell-operator。

他们在为法国电信运营商Orange公司数据做迁移的时候,采用了Kubernetes集群技术,将Cassandra 从一个群集迁移到另一个群集而不丢失数据,而且还对 Cassandra 系统性能做了优化。

https://medium.com/flant-com/migrating-cassandra-between-kubernetes-clusters-ae4ab4ada028

Fractal Labs

Fractal Labs是一家大数据风控公司,2019年,他们的解决方案为10个地区的150多万消费者提供了优化的信用评分,批准的贷款总额超过2亿美元。FractalLab正在从根本上改变小企业获取金融服务的方式,如信贷产品、保险产品或外汇服务。它们提供了一个智能层,通过让银行、保险公司和审计师等金融机构能够通过API套件构建全新的提议,为中小企业更好地管理其财务提供洞察。

Fractal Labs通过API汇总数据,并分析基于权限的银行、会计和支付数据,以便金融机构能够及时提供提示和见解,帮助其小企业客户获得资金,并更好地了解其财务状况。

Fractal Labs 采用 Cassandra 建立多维风控模型策略以及用户画像(潜在客户),他们在业务发展的过程中遇到了海量非结构化数据的挑战,在众多NOSQL产品中选择了 Cassandra。

Customer Case Study: Fractal Labs - Instaclustr

PubNub

PubNub是一家提供数据流网络及相关API(消息中间件)的初创企业,成立于2010年,总部位于旧金山。原先PubNub的这个网络的主要客户是移动app,为客户发送和收集信息以及将信息分类。

物联网的日渐流行,目前PubNubPubNub现已有70个SDK,拥有超过2000个客户,包括社交应用与消费者应用,以及金融、商业服务等垂直领域,但是物联网现在已成为PubNub发展最快和最大的业务。PubNub的在网设备现已超过2亿的设备,每分钟要完成2000万个实时事务。其高速的数据流网络在全球范围内可实现250ms的时延。

PubNub使用了由Instaclustr管理的Apache Cassandra来处理和存储大量时间序列数据,用来帮助客户锁定跟踪每个设备所发生的变化和状态及异常现象。目前该公司已经扩展到每月管理1.3万亿条消息,并且需要满足客户99.999%的稳定运行。能做到小数点后面3个9不是一件不简单的事情。

Customer Testimonial: PubNub - Instaclustr

思通舆情|开源舆情系统

在我们的开源项目中 每个节点的 Apache Cassandra 存储了上亿条的网页详情和原始网页的数据,我们根据系统唯一ID查询,在Cassandra的索引上读取速度非常快,完全是秒开的!写入每秒同时的并发在8000-20000个请求在一秒内可完成,每台机器的配置并不高,JVM内存配置参数在8G内存。

开源项目地址:  开源免费舆情监测网络监控系统: 思通舆情 是一款开源免费的舆情系统,支持本地化部署。支持对海量的舆情数据进行交叉分析和深度挖掘,为用户提供全面的舆情数据,专业的舆情分析,快速的舆情处理等服务,提升企业品牌价值和风控能力。#舆情系统#舆情监测#网络舆情#开源舆情#免费舆情#舆情分析icon-default.png?t=M3C8https://gitee.com/stonedtx/yuqing

欢迎对我们的项目 pull request 或者 留言对我们提出建议。您的支持和参与就是我们坚持开源的动力!请  star 或者 fork!

 

你可能感兴趣的:(分布式,big,data,架构,大数据,数据结构)