Stream Processing

  • 起因

    准备学习 Big Data,成为一个 Data Engineer,第一个想学的工具是 Data Ingestion 的工具 Apache Kafka,在自己上网找资料的过程中看到了一些新词(Kafka 的应用领域)比如stream processing, metrics collection and monitoringCEP,但是没有给一些很好的例子,我来补充一下。

  • Stream Processing

    引用原文

    [Stream Processing] enables users to query continuous data stream and detect conditions fast within a small time period from the time of receiving the data.

    Stream Processing 让用户能够快速地获取到连续的数据流。

    比如说,现在有一个报警器,用来预警鱼塘的温度不能低于零上5°C。这个鱼塘在水里有一个传感器,每秒钟都会更新温度数据,这个数据就会被传送到这个程序里,这一系列数据就应该属于 Stream Data。这个软件处理的过程应该就是Stream Processing

    Stream Processing 的必要性在于,我们都知道数据会产生价值,有些数据的价值的有效性就只在很短的一段时间内,超过时间了,这个价值就会大打折扣,甚至没有价值了。

    比如说,上一个例子里,鱼塘主需要在水上洞之前做一些准备工作,如果水温的数据5个小时以后在能传到分析程序,那水已经冻上了。

    上文的 Stream Processing 其实也是一个 metrics collection and monitoring 的例子,具体来说就是实时监督,确保监视的数据是在一定范围内的。

    原文中也提到,Steam Processing 的别名包括 real-time analytics, streaming analytics, Complex Event Processing, real-time streaming analytics, and event processing.

    其中 Complex Event Processing 就是我一开始不太懂的 CEP 的全称。

你可能感兴趣的:(Stream Processing)