NullPointer_C

[数据科学笔记]第6章流数据处理

流数据处理

1.流数据处理应用

有一类数据密集型应用，数据快速到达，转瞬即逝，需要及时进行处理

这些应用来自不同的领域，包括网络监控(Network Monitoring)、电信数据管理(Telecommunication Data Management)、工业制造(Manufacturing)、传感器网络(Sensor Network)、电子商务(Electronic commerce)、量化交易(Algorithm Trading)等。

2.流式处理和批处理的区别

对于批处理来讲，首先数据被不断地采集，保存到数据库中(不一定是关系数据库，可以是HBase或者Hive数据库)，然后进行分析处理(包括SQL查询)。批处理适用于对大量数据(High Volume)进行处理的场合。人们需要等到整个分析处理任务完成，才能获得最终结果。

在流式数据处理模式里，数据持续到达，系统及时处理新到达的数据，并不断产生输出。处理过的数据一般丢弃掉，当然也可以保存起来。流式数据处理模式，强调数据处理的速度(Velocity)。部分原因，是因为数据产生的速度很快，需要及时进行处理。由于流式数据处理系统，能够对新到达的数据进行及时的处理，所以它能够给决策者提供最新的事物发展变化的趋势，以便对突发事件进行及时响应，调整应对措施。

3.流数据模型

在流数据模型(Stream Data Model)中，将要进行处理的数据，从一个或者多个上游数据源，持续不断地到达，而不是从保存在磁盘或者内存中的数据源，进行随机地存取。

流数据模型和传统的关系模型(Relational Model)，有几个重要的区别

(1) 数据流的数据元素持续到达。

(2) 流数据处理系统，不能控制数据元素到达的顺序。

(3) 数据流有可能是无限的，或者说数据流的大小是无限大(Infinite)。

(4) 数据流的一个数据元素被处理后，可以丢弃或者归档(Archived)，一般不容易再次提取，除非目前该数据元素还在内存中。能够保存在内存中的数据元素，相对于整个数据流来讲，是极少量的数据。

在流数据模型中，数据流可以看作是只允许进行元组添加操作(Append Only)的关系表。对应关系数据库的SQL查询语言，在数据流上，我们可以使用经过扩展的SQL语言，进行数据流的查询

4.数据流上的查询

数据流上的查询，和传统数据库上的查询(比如关系数据库上的SQL查询)，有很多共同的特点，但是两者有两个重要的区别

(1).第一个区别，是一次性查询(One Time Query)和持续查询(Continuous Query)的区别:

一次性查询One Time Query(比如关系数据库的SQL查询)，指的是在数据集的某个时刻的快照(Point in Time Snapshot)上执行的查询，对数据进行分析，获得结果后，返回给用户。

持续查询，则是在一系列持续到达的数据流的数据元素上执行的查询，它产生一系列结果。这些结果是根据查询不断执行时，不断看到的新数据而产生的

(2).第二个区别，是预定义查询(Predefined Query)和即席查询(Ad-Hoc Query)对系统的影响

预定义查询一般是持续查询，当然我们也可以预先定义一些一次性查询。

即席查询，则是在数据流的数据开始流动起来，数据不断到达的时候，才提交给流数据处理系统的。即席查询可以是一次性查询，也可以是持续查询。即席查询使得系统的设计和实现复杂化了

流数据管理系统一般通过提供面向流数据处理的一些原语(Primitive)，扩展SQL语言，支持用户通过熟悉的SQL查询语言，操作数据流

扩展的原语，主要提供时间窗口(Time Windows)的定义办法。

包括物理时间窗口(Physical Window)、和逻辑时间窗口(Logical Window)。物理时间窗口通过ROWS关键字指定,而逻辑时间窗口通过RANGE关键字指定

5.流数据处理系统的查询处理

内存需求

大部分数据流，是无法预知其最终大小的，或者说数据流的大小(记录数量)可能是无限的。在这种
情况下，如果要在数据流上计算一个准确的结果(比如累计数)，需要的存储空间将无法预知，有可
能超过可用的内存。
在某些流数据处理应用中，新数据以极高的速率到达，以至于老数据都还没有来得及处理。我们需
要尽量降低处理每个数据元素的时间，每个数据元素要处理得够快，否则流数据的处理，跟不上数
据到达的速度。为了达到高速的数据处理，流数据处理系统一般优先采用基于内存的数据处理算
法，无需存取磁盘

近似查询结果

在内存容量有限的情况下，获得一个准确的结果，是不太可能的。正好，在很多应用场合，我们无
需一个准确的答案。近似的查询结果，只要足够好，可以作为准确结果的替代。
在流数据处理领域，人们为数据流上的查询，研究了一系列数据缩减(Data Reduction)或者摘要
(Summary Construction)构建技术，具体包括数据轮廓(Sketche)、随机采样(Random 
Sampling)、直方图(Histogram)、小波变换(Wavelet)等。基于这些摘要(Summarization)数据
结构，实现了计算近似结果的方法，包括聚集查询(Aggregate Query)和连接查询(Join Query)

滑动窗口

从数据流上产生近似查询结果的一种技术，是滑动窗口及其之上的查询处理技术。所谓滑动窗口上
的查询处理，指的是在数据流的最近数据元素(记录)上执行查询，而不是在数据流的所有历史记录
上执行查询。比如，进行查询处理的时候，仅仅存取数据流上最近一天的数据元素，一天前的数据
元素则丢弃掉。在内存容量有限的情况下，获得一个准确的结果，是不太可能的。正好，在很多应
用场合，我们无需一个准确的答案。近似的查询结果，只要足够好，可以作为准确结果的替代。
为了实现数据流上基于滑动窗口的查询，一般需要在查询语言里，增加滑动窗口的定义方法(一般
是对SQL语言进行扩充)。滑动窗口的大小是任意的，当滑动窗口过大的时候，窗口里的数据元素
(记录)过多，不能缓存在内存里，需要利用磁盘保存部分数据，这将增加处理的延迟，研究人员在
研究利用有限的内存，实现近似计算的算法

查询数据流的历史数据

在标准的流数据处理模式中，当某个数据元素处理结束后，将无法再访问到。这就意味着，某些数
据已经被丢弃以后，用户发起即席查询(Ad-Hoc Query)，将无法获得准确的结果。
针对这个问题，最简单的办法，是规定即席查询只能参考它提交以后到达的新数据，之前的历史数
据直接忽略掉。这种办法简单粗暴，但是在很多应用中，这样的规定却是可以接受的。
另外一个办法，则稍微复杂一些，它允许新提交的即席查询参考历史数据。历史数据不是原原本本
地保存起来，而是保存一个摘要(Summary)，是数据的一个梗概(Synopsis)或者聚集汇总
(Aggregate)。这些数据摘要，有助于为未来的即席查询，计算一个近似的结果。这种办法，需要
考虑到系统需要支持什么类型的查询，然后利用内存资源，维护一个数据摘要，最大限度地支持这
些类型的查询

多查询优化与查询计划的适应性

在流数据处理系统中，大多数的查询是长时间运行的持续查询。系统同时运行大量的查询，可以通
过多查询优化(Multi Query Optimization)技术，提高查询处理的性能。由于系统不断有新的即
席查询提交上来，为一组查询寻找最佳的执行计划，需要在线(Online)进行优化决策。
此外，即席查询带来另外一个问题，就是查询计划的适应性(Adaptivity in Query Plan)

堵塞操作符

堵塞操作(Blocking Operator)，是这样的操作，它需要看到所有的输入数据以后，才能开始产
生输出结果。排序就是堵塞操作的一个实例，此外，包括Sum、Count、Min、Max、Avg等聚集操
作，也是堵塞操作，因为只有看到所有的输入数据，才能开始产生输出。
让流数据处理系统有效处理排序、聚集等操作，是一个严峻的挑战。
其中的一种技术，称为标点技术(Punctuation)。所谓标点，就是一个断言(Assertion)，它规
定，在剩下的数据流数据中，什么数据可以出现，什么数据不可以出现。标点和数据元素交织在一
块，被插入在数据流的不同位置上，帮助数据流上的操作做出决策。

数据流里的时间戳

滑动窗口，是基于是数据流元素的时间戳(Timestamp)或者顺序号(Sequence Number)属性进行
定义的。对于来自一个数据流的数据来讲，时间戳一般不存在歧义。但是在一些场合，我们必须对
时间戳给予关注，原因是：(1) 如果滑动窗口是在从多个数据流上产生的组合元组上定义的(比如
一个Join操作，连接了两个数据流S1/S2)，如果来自两个数据流的元素的时间戳数值不一样，那
么两个元组连接产生的组合元组，应该赋予什么时间戳，是一个问题。(2) 当若干分布式的数据
流，构成一个逻辑数据流的时候，以及在分布式的传感器网络上，比较不同数据流的数据元素的时
间戳，具有实际业务意义

批处理(Batch Processing)、采样(Sampling)、梗概(Synopsis)

批量处理(Batch Processing)
但是实际情况往往不是这样的。第一种情形是，update操作足够快，但是computeAnswer操作很
慢，跟不上数据流数据到达的速率。最自然的办法，是以批处理方式处理数据，也就是新来的数
据元素先缓存起来，在资源允许的情况下，定期计算查询的结果。查询结果不是根据最新的数据
进行计算的(最新数据缓存起来，有待下一次进行成批的处理)，而是有一定的时间延迟。这种计
算方法，获得的查询结果是准确的，只不过它是最近的准确的结果，而不是当前的准确结果。也
就是，因为使用批量处理，牺牲了结果的及时性，但是跟上了数据流新数据到达的速率。

采样(Sampling)
在第二种情况下，computeAnswer操作足够快，但是update操作很慢，不足以及时处理新到达的
数据。由于数据到达实在太快，没有必要利用所有的数据来计算查询的结果。我们可以忽略一部
分元组，在数据流上进行采样，在采样上而不是整个数据流上，计算查询的结果。

梗概(Synopsis)
我们希望有某种数据结构，既支持快速的update操作，也支持快速的computeAnswer操作，能够
及时处理数据流新到达的数据。对于很多数据流上的查询，根本就不存在两者兼得的数据结构。
于是人们设计一种近似数据结构，它是数据流的一个梗概(Synopsis or Sketch)。梗概是一个
比较小的数据结构，它能够把每个元素的处理代价保持到最低水平，从而使得流数据处理系统，
能够赶上数据到达的速度。梗概技术的细节，请参考下一节内容。

6.查询处理的基础算法

随机采样

数据上的随机采样，可以看作是一种摘要式的数据结构(Summary Structure)，它包含了整个数
据集的基本特征。在随机采样上，我们还可以建立各种梗概(Synopsis)。 

人们研发了各种采样方法，其中分层采样(Stratified Sampling)方法，首先按照对观察指标影
响较大的某种特征，将总体分为若干个类别，再从每一类别内随机抽取一定数量的样本，合起来组成一个样本。

蓄水池采样(Reservoir Sampling)方法，只需要对数据进行一遍扫描，特别适合于数据流的采样。

蓄水池采样的基本原理是，首先建立一个数组，将数据流里的前k个数，保存在数组中，即所谓
的"蓄水池"。对于第n个数据元素(元组)An，以k/n的概率取An并以1/k的概率随机替换“蓄水池”
中的某个元素，如果没有发生替换，则“蓄水池”数组元素不变，依此类推处理新到达的其它各个
元素。该算法可以保证取到数据的随机性

梗概技术

梗概(Sketch)技术，是在数据流上，使用少量的内存，建立一个摘要结构。这个摘要结构，可以
用于特定查询的近似结果的估计。梗概技术，能够解决数据流上的很多问题。比如估计数据集的二
阶矩的大小、估计数据集自连接(Self Join)的大小、获得数据集中热门元素的列表等

直方图(Histogram)

直方图是一种摘要数据结构，人们使用直方图，来捕抓数据集里的一个字段或者一组字段的取值的
分布情况。在数据库里，直方图一般用来进行查询结果集大小估计(Query Size Estimation)、
给出近似的查询结果(Approximate Query Answering)、以及用于数据挖掘(Data Mining)

布隆过滤器

Bloom Filter 是一种简单、高效的数据结构，用来判断一个元素是否属于一个集合。对其操作包
括初始化、元素插入和元素查询过程。Bloom Filter由一个长度为m的bit数组和k个Hash函数构
成。M和k两个参数，可以根据我们可以接受的假阳性(False Positive)比率来进行调整。

计数最小梗概

计数最小梗概(Count-Min Sketch)，使用一个次线性空间(Sub-Linear Space)，来计算频率。
它包含d行w列的一个矩阵，w和d的选择，体现了准确性和时间/空间开销的折中(Trade Off)。每
一行有一个Hash函数，当一个元素到达，它被针对每行进行Hash操作，即使用每行对应的Hash函
数，对元素数据进行映射，得到每行的一个下标，于是对应这些下标的列的元素保存的计数器
(Counter)，增加1，如图所示。可以看出，Count-Min Sketch和Bloom Filter有一些相似度之
处

7.流数据处理系统

Storm

Storm是一个分布式的、高度容错的实时数据(流数据)处理的开源系统。Storm是为流数据处理设
计的，具有很高的处理性能。一个小集群，每秒钟可以处理数以百万计的消息。Storm保证每个消
息至少能够得到一次完整的处理。任务失败时，它会负责从消息源重试消息，从而支持可靠的消息
处理。Storm 由Twitter开发并且开源，它使用 Clojure语言实现。

用户可以使用多种语言，为Storm编写应用程序，包括Clojure、Java、Ruby和Python等，还可以
通过实现Storm通讯协议，提供其它语言的支持。

Storm集群由一个主节点和多个工作节点组成。主节点运行一个 “Nimbus”守护进程，它的工作是分配代码、布置任务以及故障检测。每个工作节点运行一个“Supervisor”守护进程，用于监听、开始并终止工作(Worker)进程。

(1) 数据流(Stream)
数据流是Storm的一个关键的概念。

(2) 计算拓扑(Topology)
在Storm里，一个实时计算应用程序的处理逻辑，封装成一个Topology对象，称为计算拓扑。

(3) 消息源(Spout)
在Storm里，消息源称为Spout，是消息的生产者。

(4) 消息处理者(Bolt)
所有的消息处理逻辑，被封装在消息处理者(Bolt)里面。

(5) Spout和Bolt之间的数据分发策略(Stream Grouping)
Spout和Bolt之间的数据分发策略，称为Stream Grouping。

(6) 工作进程(Worker)
Supervisor监听分配给它那台机器的工作，根据需要启动/关闭工作进程，这些工作进程称为
Worker。

(7) 任务(Task)和执行器(Executor)
Topology的每个Spout或者Bolt，当作若干个任务(Task)在整个集群里面执行。一个进程包含若
干线程。默认情况下，每一个Task对应到一个线程，称为Executor，这个线程用来执行这个
Task。同一个Spout/Bolt的Task可能会共享一个物理线程。

Apex

Apache Apex是一个建立在Hadoop平台上的流数据处理系统，广泛用于数据导入(Ingestion)、ETL、实时分析(Real-Time Analytics)等应用场合。Apex使用Hadoop HDFS文件系统作为存储层，并且依赖于Hadoop平台的YARN资源管理器，实现资源分配和应用运行。Apex保证日志数据不会丢失，每个事件都得到处理。它利用基于内存的数据处理，获得极高的性能。Apex的扩展性好，容错性高，成为Storm及其后继者Heron的有力竞争者。

Spark Streaming

Spark大数据平台本质是一个批处理平台。在Spark平台上，Spark Streaming通过一系列小批量数据(Mini Batch)的及时处理，实现数据流处理。它把数据流缓存并且分割成一系列的小批量数据，每个Mini Batch一次进行处理。由此可见，Spark Streaming并不是真正的流数据处理系统，它使用批处理系统，来仿真实现了流数据处理模式

Flink

Apache Flink是一个开源的分布式流数据处理系统，它具有极高的性能、高度的容错性和扩展能力。Flink被Alibaba用于优化电子商务网站的搜索结果(用户对商品的搜索)，他们对商品的一些细节属性和库存信息，进行实时更新，提高查询结果的相关性。此外，Flink还被应用到网络/传感器监控及错误检测、ETL等应用场合(https://flink.apache.org/usecases.html)。

Onyx

Onyx是一个无中心的、容错的分布式计算系统，它支持批处理和流数据处理两种数据处理模式。Onyx应用于实时事件流处理、持续计算、ETL等应用场合。Onyx使用Clojure语言写成，开发人员可以使用Clojure或Java语言编写程序。

Samza

Apache Samza是一个开源的分布式流数据处理框架。它使用Apache Kafka作为消息队列，暂时存储不断到达的数据，保证数据不丢失。同时它利用Hadoop YARN资源管理和应用程序调度框架，获得高度的容错性和扩展能力。

【商城实战(55)】商城数据库备份：策略与实操指南奔跑吧邓邓子商城实战商城实战数据库备份 MySQL 策略与实操
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
某人想将手中的一张面值100元的人民币换成10元、5元、2元和1元面值的票子。要求换正好40张，且每种票子至少一张。问：有几种换法？（C语言）热心市民小汪代码练习 C语言 c语言学习 java
一、首先分析题目有两点1、总和是100元。2、一共分为四十张且每种至少有一张。二、思路分析。10元的为s张，5元的为w张，2元的为e张，1元的为y张。n为有几种换算法首先，每个至少有一张a>=1,b>=1,c>=1,d>=1。#includeintmain(){inttotal;for(ints=1;s<=10;s++){for(intw=1;w<=20;w++){for(inte=1;e<=40
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
程序代码篇---Pyqt的密码界面 Ronin-Lotus 程序代码篇上位机知识篇 pyqt 数据库 python ubuntu
文章目录前言一、代码二、代码解释2.1用户数据库定义2.2窗口初始化2.3认证逻辑2.5角色处理2.6错误处理优化2.7功能扩展说明2.7.1用户类型区分管理员普通用户其他用户2.7.2安全增强建议三、运行效果四、运行命令五、界面改进建议5.1密码显示5.2用户头像显示5.3输入框动画效果5.4加载进度显示5.5键盘快捷键前言本文简单介绍了在Ubuntu系统上使用Python的Pyqt创建密码登录
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
最新智能优化算法：贪婪个体优化算法（Greedy Man Optimization Algorithm，GMOA）求解23个经典函数测试集，MATLAB代码 IT猿手 MATLAB 智能优化算法算法 matlab 开发语言人工智能智能优化算法
一、贪婪个体优化算法贪婪个体优化算法（GreedyManOptimizationAlgorithm，GMOA）是HamedNozari与HosseinAbdi于2024年提出的一种新型受生物启发的元启发式算法，它模拟了抵抗变化的竞争个体的行为。GMOA引入了两个独特的机制：MMO抵抗机制，防止过早替换解；周期性寄生虫清除机制，促进多样性并避免停滞。该算法旨在解决传统优化算法中的过早收敛和缺乏多样性
架构师必知必会系列：数据架构与数据管理 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍数据架构与数据管理介绍数据架构是指用来定义企业数据的逻辑结构、物理存储结构和数据的流转过程。它由数据中心和IT平台、数据库、文件系统、网络、安全、计算资源等构成。其目的是为了满足业务需求、提升组织效率和降低成本。数据架构包括数据字典、元数据、数据模型、数据流、数据仓库、数据管道、数据服务等。在应用中，将数据按照其自身特性进行划分、分类、归档、清洗和加工，才能
2025最新智能优化算法：改进型雪雁算法（Improved Snow Geese Algorithm, ISGA）求解23个经典函数测试集荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 经验分享
摘要随着智能优化算法的不断发展，解决高维、复杂的优化问题已成为研究的重要课题。雪雁算法（SnowGeeseAlgorithm,SGA）作为一种新兴的自然启发式优化算法，以其高效的全局搜索能力受到了广泛关注。然而，雪雁算法在处理多峰、多约束和高维复杂问题时，仍面临收敛速度较慢和易陷入局部最优解的问题。为此，本文提出了一种改进型雪雁算法（ISGA），通过引入自适应权重调整机制和混合局部搜索策略，增强了
代码随想录算法训练营Day10 | Leetcode 150逆波兰表达式求值、239滑动窗口最大值、 347前 K 个高频元素 Dominic_Holmes leetcode python 算法数据结构
代码随想录算法训练营Day10|Leetcode150逆波兰表达式求值、239滑动窗口最大值、347前K个高频元素一、反转字符串相关题目：Leetcode150文档讲解：Leetcode150视频讲解：Leetcode1501.Leetcode150.逆波兰表达式求值给你一个字符串数组tokens，表示一个根据逆波兰表示法表示的算术表达式。请你计算该表达式。返回一个表示表达式值的整数。注意：有效的
LeetCode算法题(Go语言实现)_07 LuckyLay Golang学习笔记算法 leetcode 职场和发展 golang
题目给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据保证数组nums之中任意元素的全部前缀元素和后缀的乘积都在32位整数范围内。请不要使用除法，且在O(n)时间复杂度内完成此题。一、代码实现funcproductExceptSelf(nums[]int)[]int{n:=len(nums)answer:=make([
Spring事务失效的常见场景红云梦 spring java 数据库
1事务1.1数据库事务作为单个逻辑工作单元执行的一系列操作，要么完全执行，要么完全不执行1.2事务的四大特性（ACID）原子性(Atomicity)：要么成功，要么失败。一个事务内的所有SQL语句同步执行（依靠undo.log日志保证）一致性(Consistency)：事务前后总量不变，数据库完整性约束没有被破坏隔离性(Isolation)：一个事务执行不被其他事务干扰（锁+MVCC）持久性(Du
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
流浪地球 - 华为OD机试真题(E卷、Java) 什码情况华为od java 数据结构算法面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
MATLAB的function函数的使用晚风微凉～ matlab 开发语言
在工程应用中，我们经常会遇到算法的计算较为复杂，很多算法的过程重复次数过多的问题，针对这个问题我们可以考虑使用function函数简化代码编写的工作量。1、单个传参在使用function的函数时，我们首先需要定义function函数的结构；function[输出参数]=函数名（输入参数）%注释：function函数的使用一般是比较多的，因此需要注意注释的编写，避免后期工作的误导；主要代码：****
TCP三次握手与四次挥手（全网最易懂保姆级教程）秋‍. JAVA 网络服务器运维 java tcp/ip 三次握手
一、前置知识准备1.TCP协议特性-面向连接：通信前需要建立专用通道-可靠传输：通过确认机制保证数据可达-全双工通信：双方可同时发送数据-流量控制：滑动窗口机制-拥塞控制：慢启动算法2.关键概念说明|术语|说明||------------|----------------------------------------------------------------------||**SYN**|
三维点云重建的原理及代码晚风微凉～ matlab 图像处理
点云重建是将来自各种传感器（如激光雷达、相机等）采集的离散点云数据转换为具有结构和几何形状的物体模型的过程。在这个过程中，算法的核心任务是从大量的离散点中提取出具有几何意义的特征，并将这些特征组合成相应的物体模型。在实际应用中，无法获得物体所有表面的三维坐标数据，因此点云重建算法必须处理部分点云数据，尽可能准确地还原物体的几何结构。点云重建的目标是通过对描述物体表面形状的点数据进行处理，根据它们的
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
图像质量评价学习笔记02：IQA模型性能评价指标（PLCC、SROCC、KROCC、RMSE）可靠的豆包蟹同志图像质量评估IQA 图像处理计算机视觉人工智能算法
性能好的图像质量评价（IQA）算法，其质量评测分数会与主观质量分数高度一致，IQA有许多评价指标，为了衡量方法测试结果与主观评价之间的一致性，视频质量专家组VQEG（VideoQualityExpertsGroup，目前国际上对视频质量进行标准化及性能测试的权威组织）提出了四个可以验证客观评价结果和主观评价结果之间的紧密程度的四个指标：PLCC、SROCC、KROCC和RMSE，也是目前最常用的I
时序数据库QuestDB在Winform窗体应用 ryan68888 时序数据库
以下是QuestDB在Winform使用的代码：//初始化privatevoidInit(){//创建数据库对象(用法和EFDappper一样通过new保证线程安全)SqlSugarClientDb=newSqlSugarClient(newConnectionConfig(){ConnectionString=“host=10.3.5.227;port=8812;username=admin;p
X.509数字证书的签名和指纹汽车通信技术【付费专栏】车载以太网协议数字证书
X.509是一种非常普遍的数字证书标准，由国际电信联盟（ITU）制定。它定义了证书的格式和一种验证证书有效性的方法。X.509证书的结构遵循特定的语法和编码规则，通常使用ASN.1(AbstractSyntaxNotationOne)进行描述和编码。一个典型的X.509证书通常包含：版本、序列号、签名算法、颁发者、有效期、使用者、公钥、签名、指纹等。其中，版本号表示证书是哪个版本的，不同版本的数字
访问者模式【行为模式C++】 GoWjw 设计模式访问者模式
1.概述访问者模式是一种行为设计模式，它能将算法与其所作用的对象隔离开来。访问者模式主要解决的是数据与算法的耦合问题，尤其是在数据结构比较稳定，而算法多变的情况下。为了不污染数据本身，访问者会将多种算法独立归档，并在访问数据时根据数据类型自动切换到对应的算法，实现数据的自动响应机制，并确保算法的自由扩展。访问者模式在实际开发中使用的非常少，因为它比较难以实现并且应用该模式肯能会导致代码的可读性变差
策略模式烟沙九洲设计模式策略模式 java
策略（Strategy）模式属于行为型模式的一种。策略模式的核心思想是定义一系列算法，将每个算法封装起来，并使它们可以互换。策略模式让算法独立于使用它的客户而变化，从而实现了算法族的独立扩展和替换。策略模式指在一个方法中，某些关键步骤的算法依赖调用方传入的策略，传入不同的策略，即可获得不同的结果，大大增强了系统的灵活性。策略模式的核心思想是在一个计算方法中把容易变化的算法抽出来作为“策略”参数传进
模板方法模式烟沙九洲设计模式模板方法模式 java
模板方法（TemplateMethod）模式属于行为型模式的一种。模板方法模式定义了一个操作中的算法骨架，并将一些步骤延迟到子类中实现。模板方法模式的核心思想是：父类定义骨架，子类实现某些细节。模板方法模式允许子类在不改变算法结构的情况下，重新定义算法中的某些特定步骤。Java标准库有很多模板方法模式的应用。比如集合类中的AbstractList、AbstractQueuedSynchronize
【论文复现】——基于SIFT特征点结合ICP的点云配准方法点云侠点云配准专题开发语言计算机视觉算法 3d c++
目录一、论文概述二、代码实现三、结果展示1、初始位置2、配准结果四、实验心得一、论文概述在点云配准过程中，针对迭代最近点(ICP)算法对点云初始位置依赖性强且迭代速度慢的问题，提出一种基于尺度不变特征变换(SIFT)特征点结合ICP的点云配准方法。首先利用SIFT算法提取待配准点云和目标点云的特征点;接着计算出特征点的快速点特征直方图(FPFH)特征;然后依据该特征使用采样一致性初始配准(SA
[开题报告]Springboot高校图书管理系统设计与实现lq627计算机毕业设计卓越计算机毕设课程设计
本项目包含程序+源码+数据库+LW+调试部署环境，文末可获取一份本项目的java源码和数据库参考。开题报告研究背景：随着高校图书馆的规模不断扩大和信息化程度的提高，传统的手工管理方式已经无法满足日益增长的图书馆资源管理需求。图书管理系统的设计与实现成为了解决这一问题的关键。通过引入计算机技术和信息管理系统，可以提高图书馆的管理效率和服务质量，为读者提供更便捷、高效的借阅体验。研究意义：图书管理系统
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

[数据科学笔记]第6章 流数据处理