流式计算Heron 第17页

Spark Streaming使用场景及优化总结

SparkStreaming适合场景Storm流式计算（扶梯）优点：数据延迟度很低，Storm的事务机制要比SparkStreaming的事务机制要完善（什么是事务机制？

分裂四人组·2020-03-29 17:13

无编码利用协同算法实现个性化推荐

之后将模型加载到流式计算中，对实时URL的访问用户进行内容推荐。整个流程只需要你写写SQL（做解析），弄弄配置就搞定。

祝威廉·2020-03-25 21:46

storm架构和安装

实时数据处理的两种形式ContinuousStreaming持续流式计算：单独处理每条记录，并在记录出现时立即处理。Storm

心_的方向·2020-03-24 12:44

JStorm—实时流式计算框架入门介绍

JStorm介绍 JStorm是参考storm基于Java语言重写的实时流式计算系统框架，做了很多改进。如解决了之前的Stormnimbus节点的单点问题。

Andya_net·2020-03-20 16:00

Spark Streaming-介绍

它允许用户使用一套和批处理非常接近的API来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。

raincoffee·2020-03-20 07:16

Lan给您分享的岗位信息

1.摩拜（1）数据平台基础组件研发组负责人工作职责：1、负责Mobike数据平台的研发工作工作；2、负责OLAP引擎、实时数据仓库系统架构、流式计算系统、调度系统等一项或多项业务研发工作3、支持BI团队

TonyLan·2020-03-18 14:29

spark管理平台支持多用户

问题背景笔者所在的部门属于公司的大数据架构部，现主要参与公司流式计算平台的推广，个人负责spark的平台维护、特性定制、线上问题修改等。为了方便业务用户提交spark应用。

liujianhuiouc·2020-03-16 16:08

StreamingPro 简化流式计算配置

前言前些天可以让批处理的配置变得更优雅StreamingPro支持多输入，多输出配置，现在流式计算也支持相同的配置方式了。

祝威廉·2020-03-14 22:02

数据天生就是流式的

而随着流式计算慢慢成熟与稳定，数据必然如河水一般，天生就是流式的。题外话好久没写文章，发现写长文太辛苦了，所以慢慢往短文开始靠。这次算是第一个实践。

祝威廉·2020-03-14 08:16

消息中间件的 "Style"

前情提要现如今，消息中间件已经在很多公司的业务中被广泛使用：业务解耦，消峰填谷，对接大数据，流式计算等等各种玩法层出不穷。

扫帚的影子·2020-03-08 09:02

TOP100summit：【分享实录】Twitter 新一代实时计算平台Heron

本篇文章内容来自2016年TOP100summitTwittertechnicalleadforHeronMaosongFu的案例分享。编辑：CynthiaMaosongFu：TechnicalLeadforHeronatTwitter导读：人们需要处理的数据规模和对结果的响应速度需求增长得越来越快，但摩尔定律逐渐失效，系统设计者再也无法简单地通过硬件升级来获得巨大的性能提升。这时，我们希望可以把

Cynthia成·2020-03-07 06:30

流式计算常见模块用法说明

说明StreamingPro有非常多的模块可以直接在配置文件中使用，本文主要针对流式计算中涉及到的模块。

祝威廉·2020-03-04 20:39

kafka消息快的原因

大家都知道技术选型上，kafka适合做大数据收集，比如kafka+storm流式计算。kafka被设计的特点是快，那原因是什么昵？

联想桥南·2020-03-04 00:47

Spark导论

允许用户程序将数据加载到集群内存中用于反复查询，非常适用于大数据和机器学习相比HadoopMapReduce:Spark速度更快；其次，Spark丰富的API带来了更强大的易用性；最后，Spark不单单支持传统批处理应用，更支持交互式查询、流式计算

Spike_3154·2020-03-01 11:09

Goodbye heron

再见了少年风鼓起少年的衣服，他穿梭在一个又一个世界里，不留痕迹地随意漫步，你远远看到他，不知为何想到了海风和起伏不定的麦浪。你看着他不由自主地走上前，他看着你微笑，伸出手，你握住了那只微凉的手。很久很久之后，你做了一个梦。他坐在天台上孤独地望着一座城，强烈的孤独感。他好像在大声宣誓自己不属于这世界上任何一个人。身影有些透明，仿佛融化在夏日透彻的阳光和风中。远处的声音，像千把小提琴在合奏。“他走了。

柚子和怀远·2020-02-29 19:27

大数据监控平台之解决方案

大数据计算平台大数据采集平台大数据数仓建设大数据olap平台大数据流式计算平台大数据业务系统（web_serverservice_api）。。。。以上系统都需要一个良好的数据监控平台。

星星之火在心中·2020-02-29 14:17

利用 Spark DataSource API 实现Rest数据源

通常在一个流式计算的主流程里，会用到很多映射数据，譬如某某对照关系，而这些映射数据通常是通过HT

祝威廉·2020-02-29 04:12

如何分析及处理 Flink 反压？

反压（backpressure）是实时计算应用开发中，特别是流式计算中，十分常见的问题。反压意味着数据管道中某个节点成为瓶颈，处理速率跟不上上游发送数据的速率，而需要对上游进行限速。

qq5dda6ecead5a8·2020-02-27 16:59

[源码分析] 从源码入手看 Flink Watermark 之传播过程

0x01总述从静态角度讲，watermarks是实现流式计算的核心概念；从动态角度说，watermarks贯穿整个流处理程序。

罗西的思考·2020-02-22 17:00

Flink 从 0 到 1 学习 —— Flink Data transformation(转换)

toc:truetitle:Flink从0到1学习——FlinkDatatransformation(转换)date:2018-11-04tags:Flink大数据流式计算前言在第一篇介绍Flink的文章

zhisheng_blog·2020-02-22 09:19

用机器学习流程去建模我们的平台架构

譬如RDD这种就是一个和神一般的抽象，它使得Spark成为了一个非常通用的平台，囊括了流式计算，离线计算，机器学习，图计算等多个领域。spark.ml在一开始就提出

祝威廉·2020-02-21 12:08

在线广告系统概念图

在线广告系统概念图（via北冥乘海生）1.adserver投放系统2.adretrieval把符合条件的广告找出来，比如受众性别区分，行业区分3.adranking根据ecpm排序4.streamcomputing流式计算平台

RainingMan·2020-02-21 05:53

storm基本概念

流式计算中，各个中间件产品对计算过程中的角色的抽象都不尽相同，实现方式也是千差万别。本文针对storm中间件在进行流式计算中的几个概念做个概括总结。

一品悟技术_张驰·2020-02-21 03:05

大数据学习思路分解（1）：hadoop学习

我们在上篇文章中大概的了解了大数据学习的一些思路(路线)，主要包括以下几点(Linux+hadoop+机器学习+流式计算+内存计算+云平台开发)，当然还有很多知识点，我们就以这个课程大纲来进行讲解学习。

尚学先生·2020-02-19 12:42

函数式内功心法-08: 流式复合技术之Conduit海纳百川

流式计算是我非常喜欢的技术。无流式，不快活！ALLinstreaming!所以，这次会废话多一点，嘿嘿。

larluo_罗浩·2020-02-17 21:15

Spark Streaming 解析

流式计算系统的特点低延迟容错性数据不丢失数据的送达计算状态的持久化计算迁移故障恢复扩展能力应用的逻辑表达能力流式计算任务都会部署成由多个计算节点和流经这些节点的数据流构成的有向无环图(DAG)系统架构主从

福克斯纪·2020-02-17 20:29

快速学会flink

前言Flink是一种流式计算框架，为什么我会接触到Flink呢？

大数据首席数据师·2020-02-17 08:13

flink初探

研究清楚了flink就可以了解现有的市面上是如何看待实时或者准实时的分布式流式计算的，在此基础之上再对公

本然酋长·2020-02-16 21:39

Flink容错机制-双十一神话的安全保障

Flink容错机制以及Chandy-Lamport算法流式计算分为有状态和无状态两种情况，所谓状态就是计算过程中的中间值；对于无状态计算，会独立观察每个独立事件，并根据最后一个事件输出结果：对于一个流式系统接收到一系列的数字

SUSUR_28f6·2020-02-15 11:24

Spark Streaming 1.6 流式状态管理分析

关于状态管理在流式计算中，数据是持续不断来的，有时候我们要对一些数据做跨周期(Duration)的统计，这个时候就不得不维护状态了。

达微·2020-02-12 06:12

kafka stream入门1

考虑采用一个业绩主流的流式计算的方案，同时也要支持对于历

来福马斯特·2020-02-12 00:44

[R]高性能计算SparkR

而Spark力图整合机器学习（MLib）、图算法（GraphX）、流式计算（SparkStreaming）和数据仓库（SparkSQL）等

HOHOOO·2020-02-11 20:29

“淘宝京东”构建流式计算卖家日志系统架构的应用实践

引言本文给大家讲述的是我们如何去构建一个日志系统，用到了那些技术，为什么用这些技术，并且讲述了遇到的问题及优化的过程，希望给大家在实践中能够提供一些参考。最近在维护一个有关于日志的项目，这个项目是负责收集、处理、存储、查询京东卖家相关操作的日志，我们这里就叫它“卖家日志”。在日常的开发过程中，可能我们对日志这个词并不陌生，例如我们常接触到的log4j、slf4j等等，这些日志工具通常被我们用来记录

java高级分享·2020-02-10 14:54

Storm应用实例--集成HBase

引言由Twitter开源的、分布式实时计算系统ApacheStorm，如今已被多家知名企业应用于实时分析、流式计算、在线机器学习、分布式RPC调用、ETL等领域，甚至有看到“Storm之于实时计算

阿羅·2020-02-08 19:42

Spark Streaming 流式计算实战

这篇文章由一次平安夜的微信分享整理而来。在Stuq做的分享，原文内容。业务场景这次分享会比较实战些。具体业务场景描述：我们每分钟会有几百万条的日志进入系统，我们希望根据日志提取出时间以及用户名称，然后根据这两个信息形成userName/year/month/day/hh/normaluserName/year/month/day/hh/delay路径,存储到HDFS中。如果我们发现日志产生的时间和

祝威廉·2020-02-08 07:47

[老实李]MapReduce学习笔记

MapReduce的优缺点：优点：易于编程、良好的扩展性、高容错性、离线处理缺点：无法实时计算、无法流式计算、不适合DAG（有向图）计算二、MapReduce的编程模型1.MapReduce的执行流程假如有一批文

老实李·2020-02-08 03:24

Heron~Twitter 开源了数据实时分析平台(Twitter已经用Heron替换了Storm)

Twitter开源了数据实时分析平台Heron-开源中国社区http://www.oschina.net/news/73811/twitter-open-source-heronTwitter对外宣布了新的分布式流计算系统

葡萄喃喃呓语·2020-02-01 22:27

小米流式平台架构演进与实践

小米业务线众多，从信息流，电商，广告到金融等覆盖了众多领域，小米流式平台为小米集团各业务提供一体化的流式数据解决方案，主要包括数据采集，数据集成和流式计算三个模块。

程序员66·2020-01-13 10:47

小米流式平台架构演进与实践

作者：夏军@小米小米业务线众多，从信息流，电商，广告到金融等覆盖了众多领域，小米流式平台为小米集团各业务提供一体化的流式数据解决方案，主要包括数据采集，数据集成和流式计算三个模块。

ApacheFlink·2020-01-11 03:18

spark大数据架构初学入门基础详解

Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)

Alukar·2020-01-06 21:49

关于JStorm反压两三事

data之道0x01背景反压概念在流式计算中非常流行，要解决的问题是短时间内业务流量剧增，数据流入速度远高于数据处理速度，会对流处理系统构成巨大负载压力，如果不能正确处理，可能导致系统运行异常。

data之道·2020-01-05 17:57

Spark Streaming

它允许用户使用一套和批处理非常接近的API来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。

raincoffee·2020-01-04 21:04

《从0到1学习Flink》—— Apache Flink 介绍转自微信公众号：zhisheng

前言Flink是一种流式计算框架，为什么我会接触到Flink呢？

生活的探路者·2020-01-04 02:28

如何优雅的停止SparkStreaming应用进程

问题流式计算时需要中断程序，可能会造成当前正在处理的数据丢失，或者重复处理解决对于spark-streaming在spark-default.conf中配置：spark.streaming.stopGracefullyOnShutdowntrue

祗談風月·2020-01-03 18:27

不仅仅是双11大屏—Flink应用场景介绍

利用流式计算实时得出结果直接被推送到前端应用，实时显示出重要指标的变换情况。最典型的案例便是淘宝双十一活动，每年双十一购物节，除疯狂购物外，最引人注目的

独孤风·2020-01-03 10:00

如何学习分布式系统？一文全Get！

hadoop生态系统，从hdfs到hbase，从mapreduce到spark，从storm到sparkstreaming,heron,flink等等，如何在开源的汪洋中不会迷失自己？

小牛学堂·2020-01-02 22:49

好强大的flink

flink作为主攻流式计算的大数据引擎，不仅仅是一个高吞吐、低延迟的计算引擎，同时还提供很多高级

つ〆以往的誓言゛·2020-01-02 16:00

阿里巴巴为什么选择Apache Flink？

合抱之木，生于毫末随着人工智能时代的降临，数据量的爆发，在典型的大数据的业务场景下数据业务最通用的做法是：选用批处理的技术处理全量数据，采用流式计算处理实时增量数据。

阿里云云栖号·2020-01-02 00:44

2019年终总结

盘点去年定了要深入研究流式计算及系统架构，现在看来，流式计算只粗略看了点flink，系统架构方面貌似也没有太多的长进，文章也写的越来越像流水账了，感觉有点惭愧。

codecraft·2020-01-01 12:07

流式实时日志分析系统

在本次实践中，我们将基于SparkStreaming流式计算框架，简单地实现一个类似于百度分析的系统。知识点简述Python模拟生成Nginx日志Spar

羽恒·2020-01-01 11:06

推荐频道

流式计算Heron

Spark Streaming使用场景及优化总结

无编码利用协同算法实现个性化推荐

storm架构和安装

JStorm—实时流式计算框架入门介绍

Spark Streaming-介绍

Lan给您分享的岗位信息

spark管理平台支持多用户

StreamingPro 简化流式计算配置

数据天生就是流式的

消息中间件的 "Style"

TOP100summit：【分享实录】Twitter 新一代实时计算平台Heron

流式计算常见模块用法说明

kafka消息快的原因

Spark导论

Goodbye heron

大数据监控平台之解决方案

利用 Spark DataSource API 实现Rest数据源

如何分析及处理 Flink 反压？

[源码分析] 从源码入手看 Flink Watermark 之传播过程

Flink 从 0 到 1 学习 —— Flink Data transformation(转换)

用机器学习流程去建模我们的平台架构

在线广告系统概念图

storm基本概念

大数据学习思路分解（1）：hadoop学习

函数式内功心法-08: 流式复合技术之Conduit海纳百川

Spark Streaming 解析

快速学会flink

flink初探

Flink容错机制-双十一神话的安全保障

Spark Streaming 1.6 流式状态管理分析

kafka stream入门1

[R]高性能计算SparkR

“淘宝京东”构建流式计算卖家日志系统架构的应用实践

Storm应用实例--集成HBase

Spark Streaming 流式计算实战

[老实李]MapReduce学习笔记

Heron~Twitter 开源了数据实时分析平台(Twitter已经用Heron替换了Storm)

小米流式平台架构演进与实践

小米流式平台架构演进与实践

spark大数据架构初学入门基础详解

关于JStorm反压两三事

Spark Streaming

《从0到1学习Flink》—— Apache Flink 介绍 转自 微信公众号：zhisheng

如何优雅的停止SparkStreaming应用进程

不仅仅是双11大屏—Flink应用场景介绍

如何学习分布式系统？一文全Get！

好强大的flink

阿里巴巴为什么选择Apache Flink？

2019年终总结

流式实时日志分析系统

《从0到1学习Flink》—— Apache Flink 介绍转自微信公众号：zhisheng