PowerBI - 2.支持大数据数据采集平台

可以支持结构化数据、非结构化数据、实时数据等多种数据来源。并支持图形化的ETL 处理能力、计划调度能力。在本方案中使用一系列的解决方案,使组织能够信任其数据的可信性和一致性,以便组织可以作出关键业务决策。

  1. 企业级成熟的Hadoop和数据仓库解决方案,完整的工具和实施方法论。在业界中的排名领先。
  2. Hadoop 群集负责非结构化数据和实时数据的ETL 处理。 并且每个Hadoop 群集必须具备2个主节点,确保Hadoop 群集的可靠性。同时,需要从服务应用层面提供 99.9% 的高可用管理。可存储到HDFS。
  3. 支持流式数据,文件,结构化数据库数据采集,并支持分布式调试算法,支持各大品牌数据库如:GP、Druid、Mysql、Postgresql和Oracle等数据源
  4. 并可以支持 PB 级别以上的存储容量。同时,基于数据网关,可以实现支持数据同步到本地数据中心到本地
  5. 支持PB 级别的数据汇总运算,需要提供支持并行任务的数据仓库。同样,并行数据仓库也需要提供从服务应用层面支持 99.9% 的高可用性管理 ,可以支持通过 128 个并发查询释放数据的力量
  6. 可以支持本地cache,在进行mapreduce 时候,文件数据可以存一个副本到本地数据中心
  7. 在本地/云提供群集部署。
  8. 云端,提供按需容量、按需付费的定价模型。
  9. 云端,可用门户进行管理 。迅速实现与部署,缩短项目周期。
  10. 支持并行ETL处理,包括计算和抽取数据,缩短ETL过程时间。
  11. 支持分布式计算和存储,可使用Spark语言
  12. 支持队列推送方式的流式计算如Kafka、Flume、ZeroMQ
  13. 端到端BI技术,支持主流BI产品的链接,与Office 紧密结合,良好用户交互体验和易用性。
  14. 可用开发工具进行应用开发。
  15. 能够集成 企业当前Active Directory 权限 ,实现简化的安全访问。
    为了保证系统的稳定性和接口的规范化、标准化,系统的接口设计总体遵循如下原则:
  16. 正确性:保证接口数据的有效性、无二义性。
  17. 扩展性:考虑系统的建设现状,不仅满足现有系统的需求,也需要考虑系统的演进对接口的要求,在进行扩容、新业务扩展时,应能提供快速、方便和准确的实现方式。
  18. 适应性:针对不同类型的接口,适应其特殊的需求。
  19. 健壮性:提供有效的系统的可监控机制,使得接口的运行情况可监控,便于及时发现错误及排除故障,具有相应的错误处理机制。
  20. 安全性:保证系统的安全性,和企业经营数据的保密性。提供完善的信息安全机制,以实现对信息的全面保护,保证系统的正常运行。

2.1 批量文件接入
批量采集通过数据源提供的采集接口,通过FTP等通用技术定时读取批量数据传送给数据处理模块进行后续处理。数据处理模块能够并发处理大量传输,适应高峰期的传输和处理。处理模块对提供的数据文件、校验文件进行及时的读取、接收、校验、传输以及断点续传,具备传输全过程监控的能力,并保证传输的安全性、准确性和一致性。对于异常的采集提供手工、自动重新采集手段,对于采集的每一步都做好日志记录,界面化的管理。
基本功能:

  1. 文件扫描:实时获取客户端上传到指定目录的文件信息;
  2. 文件匹配:通过指定文件名、正则表达式匹配等获取采集文件信息;
  3. 文件处理:可根据网络、系统要求,对采集文件在客户端进行压缩、切片、加密等基本处理。
  4. 安全认证:可识别数据发送方,自动屏蔽非约定方请求连接及数据发送;
  5. 并发控制:支持同时采集多个文件,并可设置并发数。
  6. 查询统计:可通过后台、前台进行扫描结果、采集结果的查询,可按照日、月、时间段;接口类型进行统计分析。
  7. 监控告警:实时监控采集任务日志,并对异常信息进行告警。
  8. 回执下发:接收的文件进行校验后生成的校验结果文件,可以准确无误的返回到提供方指定信息。
  9. 消息级流程调度:支撑数据接收方不实时扫描数据发送方目录,而是通过数据发送方消 息通知来触发文件采集,校验文件的下发也是通过数据接收方发送消息给数据发送方通知发送方。

2.2 准实时数据接入
为支撑准实时应用,需具备准实时数据接入能力。准实时接入能力需具备秒级响应,保证数据的安全性、一致性和准确性。
在不影响生产系统的情况下,支持在不对数据库层面进行自开发的前提下,从application层面进行数据采集及抽取
采用主流ETL工具加载传统关系型数据库中的数据至数据仓库中,按照业务主题要求进行数据建模、数据清洗、数据加载工作。
采用主流专用采集工具采集实时设备数据,将数据通过增量或者全量的方式同步至数据仓库层。
基本特性:

  1. 高性能:能够以低资源消耗完成每秒数千交易的传送或者复制;
  2. 兼容性:开放的结构使适应各种异构数据平台;
  3. 可靠性:保证数据的连续可用;
  4. 安全性:数据传输过程中采用压缩和加密;
  5. 高可用性:保障业务近似零停机,降低业务中断带来的损失


2.3 实时消息接入
对于实时性要求较高的数据,采用实时消息方式接入,保证其可靠性、实时性。消息交互涉及数据发送方、数据接收方。实时消息接入需具备部署简单、易扩展、安全可靠、高效实时等特点。实时消息接入要保证发送方和接收方数据一致性、准确性、实时性;需要具备统计、监控功能,保证双方数据平衡;需具备异常告警功能,发送过程中异常及时告警。
支持针对kafka平台的每秒数百万个事件的流式实时数据的提取,并自动向存储器发送遥测数据。提供完全托管的实时流式处理机制,支持跨多个数据流进行关联,并使用常见的基于 SQL 的语言,以实现快速开发
实时消息接入遵循原则:

  1. 技术原则
    所有服务接口均采用统一协议。
  2. 数据格式原则
    服务输入\输出使用统一数据报文格式。
  3. 服务异常原则
    各应用对外暴露的服务可以标准化的方式反馈异常信息。
  4. 系统调用方式
    系统采用异步调用方式。

2.4 并行数据仓库服务
通过完全托管的平台即服务 (PaaS),在云中提供企业级的数据模型。 使用高级糅合和建模功能,可以在单个受信任的表格语义数据模型中合并多个数据源中的数据、定义指标以及保护数据。 该数据模型可让用户更快速轻松地浏览大量数据进行即席数据分析。可支持数据挖掘取数并回写。
基本特性:

  1. 按需求缩放
    支持纵向扩展\缩减、暂停和恢复,可进行快速查询响应的横向扩展资源。
    使用云服务的情况下,存储和计算能力可按需配置性扩展,并按需收费。
  2. 支持列存储
    支持列存储技术,固化式多维度的统计优化,并且支持转置方式查询,速度是一般查询2到10倍。
  3. 支持多种数据源
    支持MPP技术,分布式性能扩展,计算,存储性都能线性增长。
    支持磁盘压缩后为 240TB。 此空间与 tempdb 或日志空间无关,因此,此空间专用于永久表。 聚集列存储压缩率估计为 5 倍。 此压缩率允许数据库在所有表都为聚集列存储的情况下增长到大约 1 PB
    支持内存并行分析,用户表的排队查询数1000个, 系统视图的并发查询数100个。
  4. 支持动态启停
    支持计算资源的动态停止和恢复,以达到计算需求及时响应和成本节约的平衡。
  5. 支持计算存储资源相分离
    减少计算和存储架构的耦合性,提供完全弹性的存储解决方案。
  6. 数据安全
    为多个级别的敏感数据提供安全性。 在服务器级别:防火墙、身份验证、服务器管理员角色和服务器端加密。 在数据模型级别,用户角色、行级和对象级安全性可确保数据的安全,只有有权的用户才能查看你的数据。
  7. 可扩展性
    支持拓展机器学习服务,计算结果可回写数据仓库或直接用来展示

2.5 内存分析服务
作为多维数据集分析服务,可以提供空间换时间的高性能分析算法,是普通6维度以上任意排列组合统计10个量值的方式速度能提高10到100倍。支持OLAP方式建模。可让用户更快速轻松地浏览大量数据进行即席数据分析。

  1. 多维分析
    使用用户或IT人员可以通过查询工具对任意的维度和量值进行排列组合进行分析,并且速度是一般数据库查询速度的10倍或以上
  2. 高可用
    发生服务中断时,可能会导致业务中断持续几分钟,也可能持续数小时。 通常,通过服务器冗余实现高可用性。
  3. 按需求缩放
    使用云服务的情况下,存储和计算能力可按需配置性扩展,并按需收费

若有什么需要修正请联系我: 林嘉诚, [email protected]

你可能感兴趣的:(PowerBI)