玩转工业大数据,你所需要了解的Kafka

无论是德国工业4.0、美国工业互联网还是《中国制造2025》,各国制造业创新战略的实施基础都是工业大数据的搜集和特征分析,及以此为未来制造系统搭建的无忧环境。以工业大数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力,围绕工业大数据展开的各类技术也在不断涌现。
在《工业大数据处理领域的“网红”——Apache Spark》一文中,我们分享了新一代轻量级大数据快速处理平台。今天,我们将继续分享另一个玩转工业大数据的技术----Kafka。

Kafka是一个高吞吐的、分布式的、基于发布/订阅的分布式流处理平台,它可以像消息系统一样读写数据流,在实时业务的场景中写可靠的流处理应用,并且能安全地存储数据流到分布式、多副本、容错的集群中,目前被广泛应用在云计算和大数据处理上。

Kafka可高效的采集以及使用数据,以此减轻各个业务系统的压力。随着Kafka应用的不断深入,越来越多的企业正使用这一便捷的工具来实现大数据的布局。

Kafka的优势特性在于:
高效处理数据,承载海量负载;
支持多种语言,可存储任何类型和格式的数据;
是一个高性能和可伸缩的系统;
可用于实时时间处理和批处理。

为了更好的介绍Kafka在实际生产环境下的应用,下面我们以实际项目为例,给大家分享格创东智利用Kafka设计出的一个非生产数据采集平台。

项目中,该工厂有一项业务需要采集非生产相关的数据。数据每8毫秒采集一次,该工厂有几百台机械臂,因而每天产生的日志文件非常大,给数据库带来十分大的压力。
玩转工业大数据,你所需要了解的Kafka_第1张图片
格创东智根据其实际需求,给出的解决方案如图所示:设备层生成机械臂运行日志文件,边缘层读取并解析日志文件,将数据发送到采集层kafka中。采集应用程序接口从kafka中拉取数据,后根据业务需要自行决定将数据保存到存储层hbase中、oracle或缓存中。最后通过分布式管理协调器管理Kafka服务与采集API的动态加入与离开、触发负载均衡、维护消费关系。

格创东智通过搭建平台,利用Kafka高吞吐量的特性,满足该工厂海量毫秒级数据的采集和处理,稳定高效的将数据更新至对应的数据库,为其制造系统搭建无忧环境。

本文作者:
格创东智制造系统开发工程师张茂国(转载请注明作者及来源)

你可能感兴趣的:(玩转工业大数据,你所需要了解的Kafka)