AWS大数据三种经典玩法

目录

前言

1、AWS一站式大数据分析平台

2、让人不得不喜欢的AWS

优点:

缺点:

3、个人建议

4、文章说明

一、AWS大数据平台全家桶简介

1、一首(数据源)

2、一尾(数据应用)

3、中间(大数据体系)

3.1导入组件

3.2数据处理组件

3.3服务组件

二、三种经典玩法的对比

1、全部采用AWS的组件

2、AWS组件+EMR(深度分析)

3、全部采用开源EMR+AWS环境托管

4、总结

三、AWS实操案例

1、业务流程图

2、RDS→DMS→S3实例

四、总结

前言

1、AWS一站式大数据分析平台

Amazon Web Services 提供了一套全面且完全集成的云计算服务产品组合,可帮助您构建、保护和部署大数据应用程序。借助 AWS,您无需购买硬件,也无需维护和扩展基础架构,因此可以将您的资源集中用于发掘新的洞察。

借助AWS的大数据服务能够构建几乎任何大数据应用程序,方便帮助您收集、存储、处理、分析和可视化云中的大数据,包括数据仓库、点击流分析、欺诈侦测、推荐引擎、事件驱动 ETL、无服务器计算和物联网处理等多种典型应用。详情可参考官方介绍。

https://aws.amazon.com/cn/big-data/datalakes-and-analytics/?nc=sn&loc=1

亚马逊云科技提供了100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el

2、让人不得不喜欢的AWS

优点:

1、可扩展的数据湖(AWS 支持的数据湖在 Amazon S3 的非凡可用性的辅助下,可以处理组合不同数据和分析方法所需的规模、敏捷性和灵活性。在 AWS 上构建和存储您的数据湖以获得比使用传统数据孤岛和数据仓库更深入的洞察力。)

2、专为满足性能和成本需求构建(AWS 分析服务专门用来帮助您快速地提取数据洞察力,使用最适合任务的工具,经过优化后针对您的需求实现最佳性能、规模和成本。)

3、无服务器且易于使用(AWS 拥有云数据分析中最多的无服务器选项,包括数据仓库、大数据分析、实时数据、数据集成等选项。我们管理底层基础设施,以便您就可以专注于您的应用程序。)

4、数据访问、数据安全和数据管控一统云端(您可以通过 AWS 定义和管理安全、治理和审计策略,以满足行业和地域特定的法规要求。通过 AWS,您可以访问位于世界各地的数据,并且无论您在哪里存储数据,我们都倾心保护它的安全。)

5、机器学习(ML)集成(AWS 提供内置的 ML 集成,随专门构建的分析服务一起提供。您可以使用熟悉的 SQL 命令创建、训练和部署机器学习模型,而无需任何机器学习经验。)

6、再来看一组数据,哈哈哈,妥妥的“别人家的孩子”。

AWS大数据三种经典玩法_第1张图片

缺点:

唯一的缺点就是官方的一些视频和文档是英文的,但是对有一定英文基础的同学来说这都不是事,哈哈哈,实在不行咱还有翻译器。

3、个人建议

当企业中出现如下问题或场景时,选择AWS,它会给一个满意的全套解决方案。

1、 当前企业面临着严重的基础设施老旧、自动化程度低、专用工具缺乏和繁重的资本支出的问题。

2、 企业被传统商业数据库束缚,而难以开展创新, 但仍需要商用数据库的性能。

3、 运维耗时但价值输出较低,但企业又不得不在这方面耗费精力和成本。

4、企业拥有TB 级、PB 级的结构化数据和数倍于此的非结构化数据,分布在全球的用户,并以极低的延迟每秒处理数百万个请求。

4、文章说明

本文主要针对AWS大数据一站式全家桶,结合不同企业现状和应用需求提出对应三种AWS解决方案,并展示部分实际应用场景,并对比踩坑,提出中肯建议。

一、AWS大数据平台全家桶简介

AWS大数据三种经典玩法_第2张图片

整个AWS我们分三部分介绍,即一首一尾+中间AWS大数据体系组件。

1、一首(数据源)

如图所示AWS可以处理的数据源,包括结构化的数据如:ERP/CRM等系统的业务数据,也可以处理非结构化的数据如图像/视频/音频和物联网设备的数据,等等。

2、一尾(数据应用)

即我们将数据源获取到的数据进行数据分析和形成API的形式对接其他业务场景。这里包括了AWS常用的可视化组件Amazon Quicksight。

3、中间(大数据体系)

3.1导入组件

AWS Direct Connect是一个采用专用带宽来直连数据的组件; AWS Database migration 专业迁移关系型数据库数据的组件,如获取ERP/CRM系统中数据,数据库类型如 oracle、mysql等,主要用于处理历史数据和大批量数据Amazon Kinesis 用于处理实时数据,做实时数据分析,相当于kafka+flink;Internet of Things(lot) 接入物联网的数据和搭建物联网模型的组件

3.2数据处理组件

S3用于数据存储的组件;Glue简单数据处理组件,用于数据简单的聚合、过滤、清洗等;EMR处理个性化、高阶数据分析需求,属于Hadoop生态体系,性能更佳。数据处理,包括批处理和流处理,即批量处理离线数据,一般是数据量大、处理时间长的场景。流处理属于处理实时数据做实时分析和消息推送,比如查看实时双十一的销售额。机器学习与人工智能组件主要是通过大数据提供的模型进行机器学习,同时也可以进行图像识别、语音处理如聊天机器人。

3.3服务组件

Athena可以直接访问S3的数据,提供SQ查询的功能,属于SQ工具类;ES与开源的ES一致,AWS将其集成在全家桶内;EMR 用于大数据处理组件,是hive类组件集合;RedShift 是一个大型的数仓,在底层做了较多性能优化,可以处理PB级数据量。RDS 属于AWS托管的关系型数据库;DynamoDB是AWS自研的关系型数据库。这些组件都可以对外提供JDBC的数据服务。

二、三种经典玩法的对比

1、全部采用AWS的组件

优点:集成度高、可共用元数据、组件之间集成快、使用流畅性好、开发效率高。

缺点:需要部署到AWS的云平台,不能部署到其他国内的商业云,如阿里云、腾讯云等。

2、AWS组件+EMR(深度分析)

优点:支持复杂分析场景+可兼容开源。

缺点:暂未发现其缺点,兼容了第一种玩法AWS的优势又支持复杂的应用场景,也兼容了开源的语法,目前认为最佳的组合拳。

3、全部采用开源EMR+AWS环境托管

优点:AWS托管不需要考虑太多底层的东西,自主研发,灵活度高,支持目前的各大厂商。

缺点:集成度不高,需要强大懂开源的开发团队,研发周期长。

4、总结

具体采用哪种玩法,需结合公司具体的业务场景来选择,如果公司有一定的研发力量又想自定义部署,建议采用第二种玩法。

三、AWS实操案例

1、业务流程图

AWS大数据三种经典玩法_第3张图片 具体流程如上图所示,我们从任何一个可访问的RDS关系型数据获取数据源,通过DMS处理后存储至S3里面,然后我们将S3中的数据类似ETL的数据处理,即通过Glue进行处理。然后将处理后的数据存储至Redshift的数仓里面去,然后我们可以通过Athena提供SQ查询功能访问数仓或者Glue里面的数据,然后再通过报表工具(QuickSight)进行展示。哈哈,通过上面的全家桶介绍,发现理解下面的流程图是不是非常的简单了。

2、RDS→DMS→S3实例

目的:将mysql关系型数据库user表的记录通过DMS工具,抽取至S3中。

AWS大数据三种经典玩法_第4张图片

S3配置:首先我们在AWS平台上创建S3的桶来存储我们要抽取的数据。创建过程我们按系统提示输入即可非常方便,如果不能找到S3的组件,可在搜索栏进行搜索。具体如下图所示。

AWS大数据三种经典玩法_第5张图片

AWS大数据三种经典玩法_第6张图片

DMS配置:类似搜索dms进入dms组件操作界面,配置对应数据库URL,创建实例、创建作业从mysql到s3。如图所示创建过程很简单,只需要按照对应水印操作即可。

AWS大数据三种经典玩法_第7张图片

AWS大数据三种经典玩法_第8张图片

AWS大数据三种经典玩法_第9张图片

AWS大数据三种经典玩法_第10张图片

AWS大数据三种经典玩法_第11张图片 运行实例:点击创建好的实例,去S3中查看运行的结果。如下图所示我们可以在S3里面查看对应抽取的数据,然后点击对应数据查看,抽取过来的记录是和mysql源数据库数据是一致的。

AWS大数据三种经典玩法_第12张图片

AWS大数据三种经典玩法_第13张图片

AWS大数据三种经典玩法_第14张图片

四、总结

1、AWS自家的组件使用非常的方便,整个开发过程也可监控,全程可视化配置。AWS的默认配置是根据常用开发场景进行设置的,因此可大大提高开发效率。而AWS的组件的高度集成不得不让人竖起大拇指。

2、我们可根据我们业务实际情况,选择不同的玩法更好适配业务的发展。

3、 不管哪种玩法,AWS都提供了托管服务和基础架构组件。架构现代化是一切创新的基石,其最重要的理念是“The right tool for the job”,即在不同的场景使用专门构建的工具,而专门的工具需要专业的现代化托管平台,这些都可以大量节省企业的时间、金钱和精力。 AWS无疑是最佳的选择之一。

亚马逊云科技专为开发者们打造了多种学习平台:

1. 入门资源中心:从0到1 轻松上手云服务,内容涵盖:成本管理,上手训练,开发资源。https://aws.amazon.com/cn/getting-started/?nc1=h_ls&trk=32540c74-46f0-46dc-940d-621a1efeedd0&sc_channel=el

2. 架构中心:亚马逊云科技架构中心提供了云平台参考架构图表、经过审查的架构解决方案、Well-Architected 最佳实践、模式、图标等。https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&trk=3fa608de-d954-4355-a20a-324daa58bbeb&sc_channel=el

3. 构建者库:了解亚马逊云科技如何构建和运营软件。https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&cards-body.sort-order=desc&awsf.filter-content-category=*all&awsf.filter-content-type=*all&awsf.filter-content-level=*all&trk=835e6894-d909-4691-aee1-3831428c04bd&sc_channel=el

4. 用于在亚马逊云科技平台上开发和管理应用程序的工具包:https://aws.amazon.com/cn/tools/?intClick=dev-center-2021_main&trk=972c69e1-55ec-43af-a503-d458708bb645&sc_channel=el

【专属福利】

福利一:100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el

福利二:最新优惠大礼包,200$数据与分析抵扣券,200$机器学习抵扣券,200$微服务与应用开发抵扣券。https://www.amazonaws.cn/campaign/?sc_channel=el&sc_campaign=credit-acts-ldr&sc_country=cn&sc_geo=chna&sc_category=mult&sc_outcome=field&trkCampaign=request-credit-glb-ldr&trk=f45email&trk=02faebcb-3f61-4bcb-b68e-c63f3ae33c99&sc_channel=el

福利三:解决方案CloudFormation一键部署模版库https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=desc&awsf.filter-tech-category=*all&awsf.filter-industry=*all&awsf.filter-content-type=*all&trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&sc_channel=el

你可能感兴趣的:(aws,big,data,数据仓库,云原生,大数据)