玛卡巴卡米卡巴卡

数据挖掘--数据流挖掘

一个多月没更新了，去考托福和gre了，英语太差有点难过。。。
我最近看到数据流这个字眼，想到对数据流挖掘了解的太少了，几乎是一窍不通，因此就像学学数据流挖掘。
这篇博客算是我学习数据流的一个笔记吧。

一些我看到比较有收获的网站

https://www.cnblogs.com/jean925/p/8963512.html
https://blog.csdn.net/viewcode/article/details/9088467
https://blog.csdn.net/dashuniuniu/article/details/50705389

基本知识

（https://blog.csdn.net/viewcode/article/details/9088467 ）

数据流的查询
固定查询：对前来的数据一直在执行查询和计算
即时查询ad hoc：仅当一个查询操作提交时，才对数据进行计算查询
算法策略
内存有大小限制，因此，数据流处理算法的两个策略：
计算问题的近似解，比精确解高效的多
hash技术，对求解近似解非常有帮助
抽样计算
从流中选择一个子集，以便能够对它进行查询并给出统计性上对整个流具有代表性的结果。数据流巨大时，只需随机抽样一部分数据，进行存储，并供ad hoc分析使用。
统计用户的重复查询问题：抽样时，涉及概率的乘法定理要谨慎处理，因为抽样后的概率运行可能与全集下的概率运算结果完全不同。
解决方法：对用户进行抽样，而不是对每个用户的数据进行抽样。
一个抽样的方法–蓄水池采样
(来自 https://blog.csdn.net/dm_ustc/article/details/45875971)

我们要从数据流中随机抽取k个元素。如果数据流长度m事先已经知道，那这个问题就非常简单，每个元素以k/m的概率选取即可。但这个问题要求m未知，那就不太好搞了。这个问题的解法是保存一个k大小的窗口。数据流的前k个元素依次加入到窗口。对于数据流第i个元素（i>k），以k/i的概率替换窗口中的某个元素。最终窗口的元素出现概率均为k/m。

下面使用数学归纳法给出该算法合理性的简单证明。

1.假设i=1，元素被选中的概率为1；

2.设前i个元素被选中的概率为k/i。对于第i+1个元素，我们以k/i+1的概率替换窗口中的元素。其中k/i为某个元素在第i+1个元素来到前被选中的概率。如果第i+1个元素替换窗口内的元素，则以1/k的概率从窗口选一个元素去除，将第i+1个元素添加进去。计算出的结果表明元素仍存在窗口的概率为k/(i+1)。得证。

一个实际例子(来自mining massive dataset)

1.问题：对于搜索引擎是不断有查询流的，这些数据可以用来研究典型用户的行为。假设数据流的每个元素由三元组组成(user,query,time)。假设想要查询“在过去一个月中典型用户所提交重复查询的比例是多少”。假设我们只希望存储1/10的元素。

2.错误做法

一个很容易的做法就是对于每个查询都以1/10的概率进行保存。但是这个方法对于我们的问题会带来错误结果。假定某用户在过去一个月有s个查询只提交过1次，有d个查询提交过两次，不存在提交超过2次的查询。该用户提交重复查询的比例为s/(s+d)。

如果我们的查询比例为1/10，那么在该用户的查询中，提交过1次的查询达到我们期望的s/10。而出现2次的d个查询中只有d/100会在样本中出现1次（两个相同的查询都出现在样本中的概率为(1/10)(1/10)=1/100），有18d/100的查询在样本中出现1次（两个相同的查询只有一个出现在样本中，概率为(1/10)(9/10)*2=(18/100)）。则该用户提交重复查询比例为(d/100)/(d/100+s/10+18d/100)=d/(10s+19d)。显然和期望值不相等。

3.正确做法

对于这类问题，不能从每个用户查询的抽样样本中得到正确答案。所以我们必须挑选出1/10的用户，将他们的所有查询放入到样本中，而不考虑其他用户的查询。也就是说我们采样的对象不是查询，而是用户。

4.一般性的抽样问题：

将某些字段看成关键字组合，并利用hash的a/b策略，即b个桶，a作为阈值，保留小于a的采样值。
新问题：新用户出现，每个用户的样本规模不断变大，以至于抽样的数据都超出了分配的空间，如何处理？
那么就设定新的阈值a-1，即降低阈值，并将hash值等于a的数据删除，这样可以提高效率，节省空间。

过滤数据–bloom过滤器https://www.jianshu.com/p/6f9b2d6fba68https://www.jianshu.com/p/6f9b2d6fba68 里面的例子很清楚
比如垃圾邮件的过滤，采用布隆过滤的方法，创建一个位数组，初始化所有值为0，将合法的邮件映射到位数组上，并设置值为1，用不同的hash函数检查邮件，如果有一个值为0，则拒绝
统计某时段内，出现的不同元素的数目
一种方案是内存中保存当前所有元素列表，可以用hash或搜索树来保存和检索数据。问题：元素数目可能大到无法全部放入内存。
解决方案：
1.使用多台机器，并行处理
2.FM（Flajolet-Martin）算法，统计某元素hash后尾部0的个数，若其hash值尾部0的个数至少为r的概率是2^(-r)，而任何元素hash值尾部都不满足至少有r个0的概率为(1 - 2^(-r))m。然后估计出所有元素的个数m：2^R, 最大尾长为R
优化策略：多个hash函数，分组：组内平均值 + 组件中值滤波（取中位数）

Flajolet-Martin(FM)算法能够较好地解决估算数据流序列中独立元素数目的问题。
（https://blog.csdn.net/llwszjj/article/details/25629009?utm_source=blogxgwz3）
假设我们有1万个int型数字可重复的），我们想找出这个数字集合中不重复的数字的个数。怎么办呢？很简单，将这1万个数字读进内存，存放到hashset中，那么hashset的size就是不重复数字的个数。接下来，问题变得更加的复杂，有100亿个数字，怎么办? 全部读取到内存中可能会有问题，如果这其中有1亿个不重复的数字，那么至少需要内存 100M sizeof(int)，内存也许不够。 FM算法就是为了解决这个问题。假设n个object，其中有m个唯一的，那么FM算法只需要log(m)的内存占用（实际操作中会是klog(m)），以及O(n)的运算时间。当然，FM的问题是，它的结果只是一个估计值，不是精确结果。
具体思路如下：

假定哈希函数H(e)能够把元素e映射到[0, 2^m-1]区间上；再假定函数TailZero(x)能够计算正整数x的二进制表示中末尾连续的0的个数，譬如TailZero(2) = TailZero(0010) = 1，TailZero(8) = TailZero(1000) = 3，TailZero(10) = TailZero(1010) = 1；我们对每个元素e计算TailZero(H(e))，并求出最大的TailZero(H(e))记为Max，那么对于独立元素数目的估计为2^Max。

举例来说，给定序列{e1, e2, e3, e2}，独立元素数目N = 3。假设给定哈希函数H(e)，有：

H(e1) = 2 = 0010，TailZero(H(e1)) = 1

H(e2) = 8 = 1000，TailZero(H(e2)) = 3

H(e3) = 10 = 1010，TailZero(H(e3)) = 1

第1步，将Max初始化为0；

第2步，对于序列中第1项e1，计算TailZero(H(e1)) = 1 > Max，更新Max = 1；

第3步，对于序列中第2项e2，计算TailZero(H(e2)) = 3 > Max，更新Max = 3；

第4步，对于序列中第3项e3，计算TailZero(H(e3)) = 1 ≤ Max，不更新Max；

第5步，对于序列中第4项e2，计算TailZero(H(e2)) = 3 ≤ Max，不更新Max；

第6步，估计独立元素数目为N’ = 2^Max = 2^3 = 8。

在这个简单例子中，实际值N = 3，估计值N’ = 8，误差比较大。此外，估计值只能取2的乘方，精度不够高。

在实际应用中，为了减小误差，提高精度，我们通常采用一系列的哈希函数H1(e), H2(e), H3(e)……，计算一系列的Max值Max1, Max2, Max3……，从而估算一系列的估计值2^Max1, 2^Max2, 2^Max3……，最后进行综合得到最终的估计值。具体做法是：首先设计A*B个互不相同的哈希函数，分成A组，每组B个哈希函数；然后利用每组中的B个哈希函数计算出B个估计值;接着求出B个估计值的算术平均数为该组的估计值；最后选取各组的估计值的中位数作为最终的估计值。

举例来说，对于序列S，使用3*4 = 12个互不相同的哈希函数H(e)，分成3组，每组4个哈希函数，使用12个H(e)估算出12个估计值：

第1组的4个估计值为<2, 2, 4, 4>，算术平均值为(2 + 2 + 4 + 4) / 4 = 3；

第2组的4个估计值为<8, 2, 2, 2>，算术平均值为(8 + 2 + 2 + 2) / 4 = 3.5；

第3组的4个估计值为<2, 8, 8, 2>，算术平均值为(2 + 8 + 8 + 2) / 4 = 5；

3个组的估计值分别为<3, 3.5, 5>，中位数为3.5；

因此3.5 ≈ 4即为最终的估计值。

总结一下数据流相关的例子

（https://blog.csdn.net/sun33170161/article/details/18769541 ）

1.数据抽样

比如过去一个月中典型用户所提交的重复查询的数目。在用户规模较大的时候，将用户hash到不同的桶中，当空间不足时，则丢弃一部分桶。

2.流过滤

比如垃圾邮件的过滤，采用布隆过滤的方法，创建一个位数组，初始化所有值为0，将合法的邮件映射到位数组上，并设置值为1，用不同的hash函数检查邮件，如果有一个值为0，则拒绝

3.独立元素统计

比如统计web查询的数目，可以应用FM算法，将所有的査询hash到一个位串中，检查其末尾最大0的数目，设为R，则总数可以估计为2^R。

4.元素分布

一般用二阶矩估计，即每个元素出现数目的平方和来判断流元素分布的均匀性。可以采用AMS算法来近似计算二阶矩：在流中随机选取多个位置，并统计每个位置上的元素出现的次数，设为c，用n表示总的元素数目，则二阶矩为n*(2*c-1)的均值

5.计数

为了能够查询窗口内任意数目的元素中1的个数，采用DGIM算法，每出现元素1，则创建一个新的桶，并递归地尝试合并之前的桶，使得每个桶的大小为2的幂，且相同大小的桶最多为2个。每个桶只用保存最近的时间戳和桶的大小，有效避免了精确计数带来的空间开销。为了减小估计结果的误差，可以增加所允许出现的相同大小的桶的数目。

6.流行元素

比如最近流行的电影，可以定义一个衰减窗口，独立计算每一部电影流，对每张新的电影票，首先将所有的电影乘以一个衰减值，然后检查电影票对应的电影得分是否已存在，如果不存在，则创建新的电影流并设置得分为1，否则将该电影的得分加1。为了减少需要统计的数目，可以设置一个阀值，将低于阀值的得分丢掉。

数据流分析有以下方面

数据流频繁项集挖掘

数据流聚类

数据流分类

数据流离群点检测

数据流Skyline计算

数据流子序列匹配

数据流索引结构

数据流概要结构生成

数据采样以及压缩

数据流粒度表示

数据流相似性度量

数据流趋势预测

数据流聚类

我有点好奇这个，因此想仔细看看

支撑知识（在csdn上下载了一个ppt看的）

数据流模型

按照算法处理数据流时所采用的时序范围分类按照算法处理数据流时所采用的时序范围分类：
(1)快照模型 ( Snapshot Model) :处理数据的范围限制在两个预定义的时间戳之间。
(2)界标模型 (Landmark Model) :处理数据的范围从某一个已知的初始时间点到当前时间点为止。
(3)滑动窗口模型 (Sliding Window Model) :处理数据的范围由某个固定大小的滑动窗口确定 ,此滑动窗口的终点永远为当前时刻。其中 ,滑动窗口的大小可以由一个时间区间定义 ,也可以由窗口所包含的数据项数目定义。
数据流中的数据项 x 1 , …, xi , …, xn 依次按下标顺序到达 ,它们描述了一个信号 A。
按 xi描述信号 A的方式 ,数据流模型可分为以下几类:
(1)时序( Time Series)模型:A [ i ] = xi 。
(2)现金登记 (Cash Register)模型:令 xi = ( j,Ii ) ,且 Ii≥0,则 Ai [j] =Ai-1 [ j ] + I i。此时 ,数据流中的多个数据项增量式地表达一个 A [ j ]。
(3)十字转门( Turnstile)模型:令 xi = ( j,Ui) ,则Ai[ j ] =Ai -1 [ j ] +Ui。其中 , Ui可为正数 ,也可为负数。

基于数据的技术

抽样（Sampling）
使用水库抽样（reservior sampling）在“水库”中维护s个候选的样本，随着数据流的流动，新的数据元素都有一定的概率替代水库中的元素。
梗概（Sketching）
梗概是一个将数据流中的数据向量做一个随机投影的过程。它建立这些分布向量（如直方图）的小空间汇总。梗概广泛用于不同数据流的比较和聚集查询。缺乏精度。

衰减函数（Fading Function）
强调近期数据的重要性、消减历史数据对计算结果影响的方法是衰减因子和衰减函数。数据元素在参与计算前，先经过衰减函数的作用。因此，每个数据元素对最终结果的影响将随着时间的推移逐渐减小。一种常用的衰减函数形式为指数形式。

stream聚类

对于数据流来说，使用批处理的方式。
STREAM算法采用分级聚类的方法，首先对最初的m 个输入数据进行聚类得到O(K)个1 级带权质心，然后将上述过程重复m/O(K) 次，得到m 个1 级带权质心，然后对这m 个1 级带权质心再进行聚类得到O(K) 个2级带权质心；同理，每当得到m 个i 级带权质心时，就对这些质心进行一次聚类得到O(K) 个i+1 级带权质心；重复这一过程直到得到最终的O(K)个质心。对于每个第i+1 级带权质心而言，其权值是与它对应的i 级质心的权值之和。

也就是将大量的数据分成m批，每一批内部使用k-means聚类，这样可到mk个质心，对mk作为新的数据进行批处理聚类，得到了m’k’个质心，这样一级级向上聚类。

clustream

引入的新的概念：

簇，在线部分，微聚类
时间帧，离线部分，宏聚类

在线部分（微簇）

初始化簇
首先在磁盘上存储最初始的initNumber个数据点，然后采用标准的k-means算法形成q个微簇：M1、M2…Mq。
在线处理　　
对于以后达到的每一个数据点Xik，要么被上述的某个微簇吸收，要么放进它自己的簇中。首先计算Xik与q个微簇中的每一个的距离（实际上是其中心）。将其放到离它最近的那个簇Mp中。
特殊情况：
1.Xik虽然离Mp最近，但是Xik却在Mp的边界外；
2.由于数据流的演化，Xik可能是一个新簇的开端。
处理方法：
为落在边界外的数据点创建一个带独有标志id的新簇，这需要减少一个其他已经存在的簇。这可以通过删除一个最早的簇或者合并两个最早的簇来实现。

离线处理（时间帧，宏簇）
用户在该部分可以在不同时间幅度内发现簇。这部分所用的数据是在线部分形成的统计信息，这可以满足内存有限的需求。用户提供两个参数h和k，h是时间幅度，k是预定义的需要形成的簇的数目。
算法：
该部分采用改进的k-means算法

初始阶段
不再随机的选取种子，而是选择可能被划分到给定簇的种子，这些种子其实是对应微簇的中心。
划分阶段
一个种子到一个“伪数据点”（也就是微簇）的距离就等于它到“伪数据点”中心的距离。
调整阶段
一个给定划分的新种子被定义成那个划分中带权重的微簇中心

总结：离线聚类就是在在线聚类的基础上，对在线簇进行聚类

下面是数据流聚类的方法，我想等到具体应用的时候再仔细研究剩下的方法

数据流分类

https://blog.csdn.net/tanhy21/article/details/53363508

Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
【软件架构系列：一文读懂数据流体系结构风格】 youngerwang 学习笔记软件系统架构系统架构架构风格数据流体系结构风格
文章目录一文读懂数据流体系结构风格一、数据流体系结构风格是什么？二、数据流体系结构风格的类型（一）批处理风格（二）连续数据流风格三、数据流体系结构风格的特点（一）数据驱动一切（二）模块化与可复用性强（三）易于并行处理四、数据流体系结构风格的优势（一）维护轻松（二）扩展容易（三）性能优化空间大五、数据流体系结构风格的局限性（一）复杂控制逻辑实现困难（二）数据一致性挑战（三）资源消耗问题六、数据流体系
C++文件操作 nqqcat~ c++c++开发语言
文本文件二进制文件操作文件的三大类ofstream写ifstream读fstream写+读写文件包含头文件#include创建流对象ofstreamofs;打开文件ofs.open("文件路径",打开方式);写数据ofs#includeusingnamespacestd;//stream数据流，小溪//文本文件写文件voidtest01(){ofstreamofs;ofs.open("test.t
软件工程（数据字典） Rain:) 软件工程数据分析软件开发
数据字典数据字典是关于数据的信息的集合，也就是对数据流图中包含的所有元素的定义的集合。任何字典最主要的用这都是供人查阅对不了解的条目的解释，数据字典的作用也正是在软件分析和设计的过程中给人提供关于数据的描述信息。数据流图和数据字典共同构成系统的逻辑模型，没有数据字典，数据流图就不严格，然而没有数据流图，数据字典也难于发挥作用。只有数据流图和对数据流图中每个元素的精确定义放在一起，才能共同构成系统的
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
亿级分布式系统架构演进实战（三）- 横向扩展（数据库读写分离） power-辰南 java技术架构师成长专栏数据库 mysql 分布式系统 springcloud 架构设计
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）核心目标分散数据库压力，提升读性能1.数据库架构设计数据库由原理的单实例变成主从模式，主主要负责写，从负责读。1.1主从角色定义节点类型数据流向核心职责主库读写（Write）处理事务性写操作（INSERT/UPDATE/DELETE）/部分读从库只读（Read）承担查询请求（SELECT），支持水平
软件工程：数据字典愚戏师软件工程软件工程数据库
一、数据字典的核心作用定位：数据字典是数据流图（DFD）的补充说明文档，与DFD共同构成系统的逻辑模型。核心价值：消除二义性：明确数据流、存储、元素的定义，避免理解偏差。设计依据：为数据库设计、代码开发提供数据规范。团队协作：作为开发团队的共享词汇表，确保术语一致性。二、数据字典的四大组成要素1.数据流（DataFlow）定义：数据在系统中的流动路径。描述内容：来源与去向：起点（外部实体/处理）、
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
gralloc usage flags Damon_X gralloc
下面这些示例主要说明了grallocusageflags在图像处理和多媒体应用中如何影响性能和正确性。让我们逐个详细分析每个问题的根因和修复方案，并深入解析gralloc标志对缓存管理和数据流的影响。✅Example1:长曝光快照耗时异常问题描述症状：长曝光快照（longexposuresnapshot）在某些内存优化后，拍摄时间异常变长。根因：第三方算法在多个快照帧上执行，耗时约1.2秒。Buf
ROS导航栈中的move_base模块详解：架构、组件关系与数据流 YRr YRr 架构 ros move_base
ROS导航栈中的move_base模块详解：架构、组件关系与数据流摘要RobotOperatingSystem（ROS）作为广泛应用于机器人开发的开源框架，其导航栈中的move_base模块是实现机器人自主导航的核心组件。本文将深入解析move_base模块的整体架构，详述其主要组成部分及相互关系，探讨节点、话题与传感器数据的流向，并通过实例说明这些组件如何协同工作以实现高效、稳定的自主导航功能。
JDK8 Stream 数据流效率分析，Java开发你需要了解的那些事气质大叔程序员后端面试 java
此外还有一系列特化流，如IntStream，LongStream，DoubleStream等），Java8引入的的Stream主要用于取代部分Collection的操作，每个流代表一个值序列，流提供一系列常用的聚集操作，可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构；作为阅读福利，小编也整理了一些Java学习笔记（包含面试真题+脑图
2025React岗位前端面试题180道及其答案解析,看完稳了,万字长文,持续更新.... 祈澈菇凉前端
1.什么是React？它的主要特点是什么？答案解析：React是一个用于构建用户界面的JavaScript库，主要用于构建单页应用。其主要特点包括：组件化：React应用由多个可重用的组件组成，便于管理和维护。虚拟DOM：React使用虚拟DOM提高性能，通过最小化实际DOM操作来优化渲染过程。单向数据流：数据在组件之间以单向流动的方式传递，简化了数据管理和调试。声明式编程：React允许开发者以
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
3DXML 与 SOLIDWORKS 格式转换：技术协同及迪威模型方案 3D小将迪威模型联讯软件 SolidWorks模型 UG模型 Rhino模型 SketchUp模型 catia模型 stl模型 stp模型
一、引言在产品设计的前沿领域，3DXML与SOLIDWORKS作为主流格式，虽各有所长，但因格式差异，常成为数据流通与协作的阻碍。对于技术人员和学生党而言，掌握二者间的转换技术，不仅能提升设计效率，更是参与复杂项目协作的必备技能。迪威模型在线转换功能，凭借其先进技术，为这一转换难题提供了高效解决方案。二、3DXML与SOLIDWORKS格式基础（一）3DXML3DXML由达索系统精心打造，其核心压
【Apache Storm】茉菇 apache storm 大数据
一、Storm简介1、概述官网地址：https://storm.apache.org/index.htmlApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。2、核心功能分布
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
Apache Storm实时流处理的核心技术 Hello.Reader 大数据 apache storm 大数据
1.引言ApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。1.1什么是ApacheStorm？ApacheStorm是一个流处理引擎，它可以持续处理不断到来的数据流（str
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
HarmonyNext实战：基于ArkTS的高性能数据流处理系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能数据流处理系统开发引言在HarmonyNext生态系统中，数据流处理是一个关键的技术领域。本文将深入探讨如何使用ArkTS构建一个高性能的数据流处理系统，重点讲解流式数据处理、并发模型、内存管理以及性能优化等高级主题。我们将通过一个实际的案例——实时日志分析系统，来展示如何将这些技术应用到实际工程中。系统架构设计我们的实时日志分析系统需要处理来自多
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
3.14学习总结 2402_88131930 学习
今天完成了几道关于二叉树的算法题关于二叉树的最小最大深度和数据流中的第k大元素，用到优先队列，学习了有关java的基础知识，学习了双指针法。
kafka详细介绍以及使用酷爱码经验分享 kafka 分布式
ApacheKafka是一个由Apache软件基金会开发的开源流式数据平台和消息系统。它被设计用于处理实时数据流，并能够支持高容错性、可伸缩性和可靠性。Kafka最初是由LinkedIn开发，并于2011年捐赠给Apache软件基金会。它现在被许多公司广泛应用于构建实时数据流架构和事件驱动型应用程序。Kafka提供了一种高性能、持久性的消息传递系统，通过将消息发布到主题（topic）和订阅这些主题
【Python 基础教程】Python中的输入输出 2401_84139711 python microsoft 开发语言
====================================================================在每一门编程语言中的都会有输入输出流这一说,通过输入输出流可以使我们写的程序与外界进行交互。当然了我们写程序的目的也就是对数据流进行处理,处理之后或对其进行保存,或将其释放。今天主要学习一下Python中的输入输出流,会对标准输入输出流、文件输入输出流展开介绍。一
protubuf序列化和反序列化原理要好好养胃 c++11 c++开发语言算法 linux 服务器
文章目录protubuf序列化和反序列化原理序列化：将数据结构或者对象转换成二进制字节流判断每个字段是否有设置值，有值才进行编码根据字段表示号与实际类型将字段值通过不容的编码方式进行编码将编码后的数据块按照字段类型采用不同的存储方式封装成二进制数据流反序列化：将二进制字节流转换回数据结构或者对象解析读取的二进制字节数据流将解析出来的数据存储到c++、java等对应的数据结构中varint编码：整形
[HelloCTF]PHPinclude-labs超详细WP-Level 2-data协议 Haicaji WP php 网络安全 web安全
源码分析重点关注这两行代码echoinclude("data://text/plain;base64,4pedKCrigbDilr/igbAqKeKXnEhlbGxvLUNURnd3");isset($_GET['wrappers'])?include("data://text/plain".$_GET['wrappers']):'';发现这里出现了data协议data://-数据流(RFC239
代理IP在跨境电商中的合规使用边界解析 http
跨境电商企业使用代理IP处理订单、管理店铺时，常陷入“效率优先”与“法律风险”的两难境地。全球约43%的电商平台封号事件与代理IP使用不当直接相关，而合规框架缺失导致企业往往在遭遇处罚后才意识到问题。本文从法律条文、平台规则、技术适配三个层面，拆解代理IP在跨境电商场景中的合规边界，帮助企业在数据流动与风险防控间找到平衡点。一、法律红线：穿透式监管下的生存法则各国对代理IP的监管呈现两大趋势：欧盟
电商 API 接口开发实战：以淘宝商品描述 API 为例 javapython爬虫
在电商领域，API接口扮演着至关重要的角色，它连接着平台、商家和开发者，为数据流通和功能扩展提供了桥梁。本文将以淘宝商品描述API为例，带你走进电商API接口开发实战，从零开始构建你的数据应用。一、准备工作注册淘宝开放平台账号：访问淘宝开放平台或第三方服务数据，注册开发者账号。完成实名认证，创建应用并获取AppKey和AppSecret。了解API文档：仔细阅读淘宝商品API文档，了解接口功能、请
前端框架革命：React与Vue对比与解析 WHCIS Web开发技术前端框架 react.js vue.js
一、框架设计哲学的本质差异1.1React：以JavaScript为核心的函数式哲学React的核心思想可以概括为**“UI即函数”**，其设计遵循以下原则：React核心声明式编程组件即函数单向数据流JSX描述UI函数组件+Hook状态提升模式声明式编程：开发者只需描述界面应该呈现的最终状态，无需关心具体DOM操作细节不可变数据流：通过setState触发组件树更新，保持数据流向的可预测性虚拟D
HarmonyNext实战：基于ArkTS的高性能数据流处理框架设计与实现 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能数据流处理框架设计与实现引言在HarmonyNext生态系统中，数据流处理是构建高性能应用的关键技术之一。本文将深入探讨如何基于ArkTS构建一个高效的数据流处理框架，并适配HarmonyNext平台。我们将从架构设计、核心组件实现、性能优化等多个维度进行详细讲解，并通过实战案例展示如何在实际工程中应用这些技术。1.数据流处理框架的架构设计1.1框
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts