Cassandra在海量数据存储及大型项目案例介绍-part4

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,此后,由于Cassandra良好的可扩展性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。

Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra 的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。对于一个Cassandra集群来说,扩展性能是比较简单的事情,只管在群集里面添加节点就可以了。

Home Depot|家得宝

家得宝(Home Depot)是美国家全球领先的家居建材用品零售商,遍布美国、加拿大、墨西哥和中国等地区,连锁商店数量达2234家。家得宝连续9年被美国《财富》杂志评为“最受欢迎的专业零售商”。并在2007年美国财富500强中排名第17位,2006年全球财富500强排名第43位,同年被美国《财富》杂志评为“最受仰慕的专业零售商”第1位及“最受仰慕的公司”第13位。在美国共有1200多家店铺,海外有133家店铺。

COVID-19疫情加速了家得宝的数字升级,家得宝使用DataStax和Apache Cassandra快速将线上和线下打通,推出路边应用程序,经过两周的快速测试,家得宝大多数美国商店都实施了路边提货。当物流信息引入地理围栏,可以自动与停车场的客户交流,消费者在哪辆车上,我们的同事知道并可以交付订单。

How Home Depot navigated a demand boom during COVID-19 | ZDNet

Hornet

大黄蜂(Hornet)是全球最受欢迎的同性恋社区社交网络应用之一。它在全球拥有3000万会员,并已成为法国、俄罗斯、巴西、土耳其和台湾等国同类应用中最受欢迎的应用程序。大黄蜂(Hornet)结合了众多社交网络的流行元素,大黄蜂(Hornet)允许同性恋社区的用户通过短信与其他人联系,在他们的个人资料中更新故事,所有这些交互功能的数据每天都在PB级的数据。

随着用户数量的增加,消息的数量和对大黄蜂特性的使用增加,考虑到数据存储的要求,成本也在增加。

但是自从系统升级及使用Cassandra之后,带来的好处是显著的。大黄蜂已经能够将原有消息集群的存储容量减少50%,而且不必去考虑高昂的基础建设,例如:磁盘、CPU、内存,意味着可以使用廉价的计算系统,通过升级和使用Cassandra带来了高性能的数据处理计算。

Gay social networking app Hornet upgrades Cassandra to improve community experience

Hulu

Hulu是由NBC环球、新闻集团以及迪士尼联合投资的视频网站。Hulu的目标是帮助用户在任意时刻、地点及方式查找并欣赏专业的媒体内容。其内容包括电视剧、电影和剪辑 ,主要来自于超过200个内容提供商,包括福克斯、NBC、迪斯尼、ABC、华纳兄弟、米高梅公司、狮门公司 和 索尼等。随着其2008年3月在美国的公开发布,Hulu已经被业界公认为最具前途的“在线体验电视的新途径”。

由于Hulu已将用户群组扩大到500万左右,每月拥有约3000万独立观众,每月播放约4000万部视频,Hulu这家顶级视频提供商依靠Apache Cassandra分布式数据库管理技术来存储和跟踪用户历史观看数据。例如:使用Apache Cassandra平台,Hulu用户可以在电视上暂停后,在离开家的客厅电视后在任何其他设备(如智能手机)上继续在上次的位置观看同一节目。

Hulu Scales User Database With Apache Cassandra | Broadcasting+Cable

IBM

IBM是世界领先的系统集成商之一,为其全球客户提供咨询服务。该公司委托为其主要客户之一设计和构建一个可扩展、高度可用、全球分布的物联网平台,该公司是财富500强公司,在关联消费品领域处于领先地位。

IBM目前确定使用Apache Cassandra NOSQL数据库作为整体平台架构中的关键技术,以满足可伸缩性、性能和高可用性的要求。Apache Spark也被认为是一项关键技术。其中Apache Cassandra的Cassandra-Lucene索引插件被选为最有效的解决方案,在与Cassandra集成的同时提供低延迟的全文搜索功能。

IBM Case Study - Instaclustr

Instana

Instana是一家企业级微服务监控初创公司,用户安装了Instana服务之后,就可以检测、并映射构成企业应用程序的所有不同组件,然后实时反馈他们之间的交互和依赖关系,然后利用收集到的信息自动检测异常。不仅如此,该公司还推出了人工智能机器人、虚拟助手Stan,通过持续学习用户应用环境,预判问题,并提供建议。据悉,该公司在短短十个月时间里就获得了全球100家企业客户,包括奥迪、DriveNow、Mobitech等。

Instana的所有系统组件已经被容器化并在我们的SaaS平台上运行,但仍然需要为Clickhouse、Cassandra等创建容器,并为它们设置发布管道。最复杂的不是创建一个运行数据库的容器,而是管理配置以及如何以可维护的方式将其传递给相应的组件。

What We Learned By Dockerizing Our Applications | HackerNoon

Instagram

2012年4月10日,Facebook宣布以10亿美元收购Instagram。2012年10月25日,Facebook以总值7.15亿美元收购Instagram。Instagram提供了这样一套顺畅的操作流程:拍照--滤镜特效(以lomo风为主的11种照片特效)--添加说明/添加地点--分享(可以共享到Twitter、Facebook、Tumblr、Flickr以及Foursquare,甚至新浪微博这些主流社交网络)。同时Instagram基于这些照片建立了一个微社区,在这里你可以通过关注、评论、赞等操作与其他用户进行互动。

在Instagram,我们拥有世界上最大的Apache Cassandra数据库部署之一。2012年,我们开始使用Cassandra取代Redis,并支持欺诈检测、Feed和Direct inbox等产品用例。

https://instagram-engineering.com/open-sourcing-a-10x-reduction-in-apache-cassandra-tail-latency-d64f86b43589

New York Times

《纽约时报》(英文:The New York Times)有时简称为“时报”(The Times)是一份在美国纽约出版的日报,在全世界发行,有相当高的影响力,美国高级报纸、严肃刊物的代表,长期以来拥有良好的公信力和权威性。由于风格古典严肃,它有时也被戏称为“灰色女士”(The Gray Lady)。

《纽约时报》将Apache Cassandra与Python一起用于该公司的⨍бrik消息平台。

https://www.slideshare.net/planetcassandra/michael-laing-nyt-developers1

NHN Techorus

NHN曾是韩国第一大门户集团,也是韩国国内股价最高的游戏集团。在2001年由Naver和Hangame两家公司合并而成,其麾下的Naver是韩国使用率最高的搜索引擎,在韩国的地位就相当于国内的百度,屡屡使Google在韩国受挫。而Hangame本身则是门户网站和游戏运营平台的综合体,类似于国内的腾讯。

NHN Techorus通过公司的数据酒店部门提供IT基础设施和管理服务。该团队发现,越来越多的客户希望使用Apache Cassandra作为数据存储来部署应用程序和解决方案。

Resources - Instaclustr

Ooyala

Ooyala 成立于2007年4月,是一家流媒体分发货币化平台,客户包括各大有线电视网、电影工作室以及其他需要将视频搬上网络、通过手机和平板应用分发的发行商。

Ooyala使用Cassandra构建了一个实时分析引擎。Evan Chan(Ooyala的软件工程师)介绍了他使用Spark和Shark框架在Cassandra数据上运行实时查询的经验。

https://www.youtube.com/watch?v=7bEo3O04xEk&feature=emb_logo

Outbrain

Outbrain是一个个性化的网络内容推荐引擎,能够为用户提供个性化的内容推荐服务。Outbrain会依据读者的兴趣,在文章末尾呈现一系列的推荐阅读内容。对这些内容媒体而言,它提高了页面浏览量和读者互动度。同时,它也在推荐内容中以Sponsored Content等原生广告的形式推介付费广告主的内容。

Outbrain拥有30个不同规模的Apache Cassandra生产集群,从小型集群到跨越3个数据中心的100个节点集群。Cassandra已被证明是一个非常可靠的数据存储选择,它采用了最终的一致性模型。

Upgrade Railway Tracks Under a Moving Train | Outbrain Tech BlogOutbrain Techblog

Paidy

Paidy 是一家位于日本东京的互联网金融科技企业,致力于为用户提供日本无卡预支付服务,它的目的是让日本的网上购物变得更加容易,Paidy提供给用户一个账号,与手机号及邮箱绑定,相当于提供了一个虚拟的信用卡设备。用户输入手机号及电子邮箱地址,通过PIN码(SIM卡个人识别密码)进行验证,即可在平台进行支付,然后在月底一次结清账单,也可选择分期付款。公司还提供信用担保业务。

Paidy每月在日本各地提供实时综合信贷服务。Paidy公司认为Apache Cassandra是最适合其事件溯源和总体架构的数据库技术。因为它可以提供大规模数据计算与存储以及Cassandra的健壮性、保持一致。

Paidy Case Study - Instaclustr

Penn Mutual

作为一家拥有近170年历史的公司,宾州互惠银行改变多年的it基础设施以满足其业务线的需求并非易事。PennMutual拥有多种类型的数据,分布在遗留系统和数据库中,包括大型机、关系数据库(RDBMS)和其他存储区域。

宾夕法尼亚互惠银行(PennMutual)的信息管理和技术部门,该业务的IT部门,启动了一个名为“核心服务”的项目他们的目标是通过将面向服务的体系结构和主数据管理功能结合到一个全面的系统中,从而将遍布整个公司的所有数据域合并到一个单一的源中。

PennMutual从传统的RDBMS方法开始用于核心服务的持久性层,但很快就意识到,如果没有大量的成本承诺,现有的RDBMS规模将无法满足他们对应用程序性能或可伸缩性的要求。该团队决定使用NoSQL数据库来满足他们的需求。

目前,宾夕法尼亚互惠银行将其数据信息存储在一个6节点的Cassandra集群中。现在,他们能够利用数据进行创新,做出更明智的决策,从而为客户提供真正个性化的优质体验。

Simplifying access to 150 years of data | Penn Mutual | DataStax

Walmart

沃尔玛百货有限公司是一家美国的世界性连锁企业,以营业额计算为全球最大的公司,总部位于美国阿肯色州的本顿维尔,沃尔玛主要涉足零售业,是世界上雇员最多的企业,连续7年在美国《财富》杂志世界500强企业中居首位。沃尔玛公司有8500家门店,分布于全球15个国家。

我们过去在Cassandra方面有很好的经验,因此,在这次沃尔玛全球信息化系统升级的过程中Apache Cassandra这是第一选择。 Apache Cassandra具有最好的读写性能。

Spark Streaming从Kafka读数据存入Cassandra,Spark SQL每隔六小时从Cassandra做聚合,再把结果以Parquet格式存起来,数据可视化用Spark SQL把Parquet读出来发给Tableau,并在多个列中进行聚合,最后,能够得出实时的业务数据统计分析结果。

https://medium.com/walmartglobaltech/how-we-build-a-robust-analytics-platform-using-spark-kafka-and-cassandra-lambda-architecture-70c2d1bc8981

Yelp

Yelp是美国著名商户点评网站,创立于2004年,囊括各地餐馆、购物中心、酒店、旅游等领域的商户,用户可以在Yelp网站中给商户打分,提交评论,交流购物体验等。

在Yelp 中搜索一个餐厅或者旅馆,能看到它的简要介绍以及网友的点论,点评者还会给出多少星级的评价,通常点评者都是亲身体验过该商户服务的消费者,评论大多形象细致。

自2018年第四季度以来,Cassandra Sourceconnector一直被用于Yelp的运行中,将INTERMEDIATE阶段的Kafka流生成的Kafka流包含对跟踪的Cassandra表的所有写入操作,由于对主键的所有更新都驻留在同一个主题分区中,要为每个键设置写入顺序。Cassandra在单个分区中允许的最大单元格数(行*列)为20亿,这意味着一行可能有20亿列。然而,Avro序列化和反序列化成为了一个瓶颈,一旦列数开始增加到数百个,就无法满足可能的最大列数。根据流量的吞吐量需求和Cassandra表的大小(以列的数量为单位),使用者可能需要水平扩展。

目前,Yelp正在从EC2中对Cassandra集群的管理过渡到在Kubernetes上协调相同的集群。

Orchestrating Cassandra on Kubernetes with Operators

关于 Cassandra 在海量数据存储及大型项目案例介绍的专辑

第一篇:Cassandra在海量数据存储及大型项目案例介绍-part1

第二篇:Cassandra在海量数据存储及大型项目案例介绍-part2

第三篇:Cassandra在海量数据存储及大型项目案例介绍-part3

第四篇:Cassandra在海量数据存储及大型项目案例介绍-part4

思通舆情|开源舆情系统

在我们的开源项目中 每个节点的 Apache Cassandra 存储了上亿条的网页详情和原始网页的数据,我们根据系统唯一ID查询,在Cassandra的索引上读取速度非常快,完全是秒开的!写入每秒同时的并发在8000-20000个请求在一秒内可完成,每台机器的配置并不高,JVM内存配置参数在8G内存。

开源项目地址:  开源免费舆情监测网络监控系统: 思通舆情 是一款开源免费的舆情系统,支持本地化部署。支持对海量的舆情数据进行交叉分析和深度挖掘,为用户提供全面的舆情数据,专业的舆情分析,快速的舆情处理等服务,提升企业品牌价值和风控能力。#舆情系统#舆情监测#网络舆情#开源舆情#免费舆情#舆情分析

欢迎对我们的项目 pull request 或者 留言对我们提出建议。您的支持和参与就是我们坚持开源的动力!请  star 或者 fork!

我们专注互联网开源数据智能处理,为用户提供“数据采集”、“数据标记”和“数据挖掘”三方面核心能力,以有效的方式使用互联网数据,提高生产力及决策能力。 了解更多请关注微信公众号:思通数据

Cassandra在海量数据存储及大型项目案例介绍-part4_第1张图片

 

你可能感兴趣的:(分布式,big,data,java,架构)