随着大数据时代的到来,各大互联网公司对于数据的重视程度前所未有,各种业务对数据的依赖也越来越重。有一种观点认为大数据存在 “3V” 特性:Volume, Velocity, Variety。这三个 “V” 表明大数据的三方面特征:量大,实时和多样。这三个主要特征对数据采集系统的影响尤为突出。多种多样的数据源,海量的数据以及实时高效的采集是数据采集系统主要面对的几个问题。
我们想要在数据上创造价值,首先要解决数据获取的问题。因为在互联网发展中,企业内或不同企业之间建立了各种不同的业务系统,这些系统产生的数据也都是互不相通的,要想实现数据的互通与融合,在数据的获取与处理上就需要下很大功夫。
01. 腾讯云 CKafka 重磅上线 DataHub
腾讯云消息队列 CKafka 正式上线数据中心接入服务模块 DataHub。DataHub 具有强大的数据接入及分析处理的功能,可以从 App、Web、MongoDB 等数据源中进行持续不断的数据采集,存储和处理,并得到各种实时的数据处理结果,可用于日志分析、网页活动追踪、IoT 分析应用等。
现今数据处理系统大体上可分为离线处理系统和在线处理系统。CKafka 推出 Datahub 数据中心接入服务模块,负责直接从业务数据源获取数据,进行一些数据预处理工作,分发给离线 / 在线处理平台,构建数据源和数据处理系统间的桥梁,将数据处理系统同业务侧的数据源解耦。
02. DataHub 产品优势
DataHub 基于 CKafka 的数据处理能力,具有高稳定、实时性、高扩展性、高安全性等优势:
- 高稳定
基于消息队列 CKafka 分布式的部署,稳定性有很好的保障。
- 实时性
数据采集实时高效的同时还可以进行实时处理。
- 高扩展性
支持集群水平扩容,实例无缝升配,底层系统根据业务规模自动弹性伸缩,上层业务无感知。
- 高安全性
不同租户间网络隔离,实例的网络访问在账户间天然隔离。支持管理流的 CAM 鉴权及数据流的 SASL 权限控制,严格控制访问权限。
- 上下游生态融合
支持与 EMR、COS、容器、流计算、云函数、日志服务等 13+ 云上产品资源,实现快速一键部署。
- 统一运维监控
提供腾讯云平台整套的运维服务,包括租户隔离、权限控制、消息堆积查询、消费者详情查看等多维度监控告警等运维服务。
03. DataHub 应用价值
CKafka 是一个分布式、高吞吐量、高可扩展性的消息系统,基于发布/订阅模式,通过消息解耦,使生产者和消费者异步交互,具有数据压缩、同时支持离线和实时数据处理等优点。DataHub 作为 CKafka 的一个功能模块,可以帮助用户以 CKafka 为入口,通过简单的界面化配置,即时连接到常用的数据源和接收器,打包各个场景的解决方案,实现实时数据通道、实时数据清洗和分析的功能。
在实际应用中,DataHub 实时接入各种数据源产生的不同类型的数据,用户可以将多个数据源的数据投递到同一个 Topic 中,统一管理,经过简单的数据处理,并投递到下游的数据处理系统,形成清晰的数据流,更好地释放数据的价值。
DataHub 可以同时实现大数据系统与业务系统以及大数据系统各组件之间的解耦。
1. 实时数据通道
我们都知道不同企业之间、不同业务之间数据互不相通,互不融合的数据在数据获取、传输上会遇到很多问题,比如可用性差、传输延迟等。业务层面,也会遇到旧业务数据系统迁移到新系统、不同系统数据整合过程中数据不可用等问题,进而影响业务的后续进行。
为了能够让数据更加实时高效地融合,DataHub 利用数据接入能力,使业务数据能够实时融合进大数据系统,缩短数据分析周期,对于客户来说就是实时的数据通道,那 DataHub 又是如何实现 数据接入 能力的呢?
从上图可以看出,DataHub 的数据源可以分为:主动上报、服务类和日志类。
- 主动上报类:App、Web、游戏等;
- 服务类:MongoDB、COS、MySQL 等;
- 日志类:容器、网络流日志、CVM 等。
数据接入的控制台界面如图所示,展示用户建立的数据接入任务列表。
点击列表项可以查看每一条数据接入任务的详情,可以查看监控。
数据接入具体操作主要分为以下两个部分:
1. 主动上报:提供SDK,使用流程如下:
- 以 HTTP 上报为例:
任务创建成功后会生成接入点,后续在任务详情中可以查看和复制该接入点。
2. 异步拉取
服务类、日志类、接口类,提供完整的产品化配置界面,用户无需关心底层实现。
- 以 MongoDB 为例:
2. 实时数据清洗和分析
DataHub 接入多种不同类型的数据后,通过数据流出和数据处理,对多种数据源的数据进行实时清洗、过滤、关联与转换,形成统一的结构化数据,实现各数据源不同类型数据的融合。
DataHub 又是如何进行 数据清洗和分析处理 的呢?
1. 数据流出
利用 云函数SCF 或者 sink connector,分发数据到下游的各种云产品。
- 新建数据流出任务
点击提交后会在数据流出任务列表增加一条记录,可以查看任务详情和监控。
2. 数据处理
DataHub 延续了 Kafka to Kafka 的数据处理能力。
点击“新建任务”,出现弹窗:
以上是一些简单清洗规则界面化展示,更高级的清洗规则后续会支持编写函数进行配置。解析模式支持JSON、分隔符、正则表达式,点击测试可以验证上面设置的数据处理规则。
如下图所示,在消息队列 CKafka 控制台的侧边栏划分为 消息平台 和 DataHub 两个模块,查找使用更方便,目前 DataHub 已经上线,有需要使用数据接入与数据处理分析功能需求的用户,可以用起来啦!
未来腾讯云消息队列产品的发展会在数据获取与数据处理方向做更深的探索,也会结合上下游产品,为用户提供更多符合场景的解决方案,DataHub 未来可以发展为云上统一的数据接入服务,为各数据源数据的接入、分析与处理提供更稳定的平台。
04. DataHub 使用咨询
目前 DataHub 都已全面发布上线,前往腾讯云消息队列 Ckafka 控制台即可使用体验。为了更好地给您提供产品服务,点击这里填写以下表单,我们将在 1-3 个工作日内与您联系,沟通具体业务需求。
One More Thing
立即体验腾讯云 Serverless Demo,领取 Serverless 新用户礼包 腾讯云 Serverless 新手体验 。