大豆芽

机器学习优化算法L-BFGS及其分布式实现

最近做的科研项目需要用到L-BFGS，这段时间看了不少关于L-BFGS的博客以及论文，在此进行一下小小的总结。

在无约束优化问题中，牛顿法及拟牛顿法是常用的方法，L-BFGS属于拟牛顿法，下面从牛顿法开始说起。

牛顿法，顾名思义，是由伟大的牛顿先生首先提出的（当然有资料显示，在更早前就有人提出相同方法，但可能因为牛顿先生名气过大，冠以他的名字会更火）。我们考虑无约束问题 minf(x)x∈Rn ，牛顿法需要使用Taylor展开，因此我们假设 f(x) 是二阶可微实函数，把 f(x) 在 xk 处Taylor展开并取二阶近似为

f (x) \approx f (x k) + \nabla f (x k) T (x - x k) + 1 2 (x - x k) T \nabla 2 f (x k) (x - x k) (1)

其中，

∇2f(x) 是

f(x) 在

xk 处的 Hessen矩阵。我们的目标是求

f(x) 的最小值，而导数为0的点极有可能为极值点，故在此对

f(x) 求导，并令其导数为0，即

∇f(x)=0 ，可得

\nabla f (x) = \nabla f (x k) + \nabla 2 f (x k) (x - x k) = 0 (2)

设

∇2f(x) 可逆，由(2)可以得到牛顿法的迭代公式

x k + 1 = x k - \nabla 2 f (x k) - 1 \nabla f (x k) (3)

d=−∇2f(xk)−1∇f(xk) 被称为牛顿方向，可以证明牛顿法至少是2阶收敛的，在此由于篇(neng)幅(li)所限，就不进行证明了。

细心的读者可能会发现，我们上面的推导公式，做了很多前提假设，假设了Hessen矩阵 ∇2f(x) 可逆，那么问题来了，如果 f(x) 的Hessen矩阵奇异，或者非奇异但是不正定怎么办？这个时候，我们就需要使用拟牛顿法了，拟牛顿法，同样可以顾名思义，就是模拟牛顿法，用一个近似于 ∇2f(x)−1 的矩阵 Hk+1 来替代 ∇2f(x)−1 。公式(2)在 xk+1 附近有，

\nabla f (x) = \nabla f (x k + 1) + \nabla 2 f (x k + 1) (x - x k + 1)

令

x=xk ，则有

\nabla f (x k) = \nabla f (x k + 1) + \nabla 2 f (x k + 1) (x - x k + 1)

记

p k = x k + 1 - x k

q k = \nabla f (x k + 1) - \nabla f (x k)

代入则有，

p k \approx \nabla 2 f (x k + 1) - 1 q k

拟牛顿法用

Hk+1 来替代

∇2f(x)−1 ，即

p k = H k + 1 q k (4)

这也被称为拟牛顿条件。在各种拟牛顿法中，一般的构造

Hk+1 的策略是，

H1 通常选择任意的一个n阶对称正定矩阵(一般为

I )，然后通过不断的修正

Hk 给出

Hk+1 ，即

H k + 1 = H k + Δ H k (5)

ΔHk 称为校正矩阵，不同的拟牛顿法的区别也多在于此项。一般来说，构造的

ΔHk 通常是正定的，这样再加上初始的

H1 正定，我们就可以保证在迭代过程中

Hk 始终正定。

在说BFGS算法之前，我们先介绍另一个拟牛顿算法，DFP算法。初次听说DFP算法的人应该是不能顾名思义了，在最优化领域，很多算法是由发明人的名字简称构成的，DFP算法就是由Davidon首先提出，后来又经过Fletcher和Powell改进的算法。下面来说DFP算法中校正矩阵 ΔHk 的构造方法。我们假设

Δ H k = m v v T + n w w T (6)

其中

m 和

n 均是实数，

v 和

w 表示

N 维向量，这样我们就能保证

ΔHk 是正定的。把(6)代入(5)，(5)代入(4)可得

p k = H k q k + m v v T q k + n w w T q k = H k q k + v (m v T q k) + w (n w T q k) (7)

我们的目标是求

ΔHk ，即要从公式(7)中解出

m ，

n ，

v ，

w 。怎么从复杂的公式(7)中求出上述那些值呢，这个时候万能的假设又显示了其强大的力量，我们可以通过假设来得到一组特殊解，令

mvTqk=1 ，

nwTqk=−1 ，则此时只需

v=pk ，

w=Hkqk 就能够满足公式(7)。综上，我们得到的一组特殊解为，

v = p k = x k + 1 - x k

w = H k q k = H k [\nabla f (x k + 1) - \nabla f (x k)]

m = 1 v T q k, n = - 1 w T q k

将上述结果代入(5)(6)，可得

H k + 1 = H k + p k ( p k ) T ( p k ) T q k - H k q k ( q k ) T H k ( q k ) T H k q k (8)

好了，现在我们得到了DFP算法

Hk 的公式，整个DFP算法的过程如下：

给定初始点 x1 ，迭代停止条件 ε 以及初始的 H1=I ，令迭代次数 k=1
计算出在 x1 处的梯度 g1=∇f(x1)
确定牛顿方向 dk=−Hkgk
从 xk 出发，沿 dk 方向进行搜索，并求出满足 f(xk+λkdk)=minλ≥0f(xk+λdk) 的步长 λk ，同时，令 xk+1=xk+λkdk
检查本次迭代是否达到我们之前设定的收敛条件，即 ||∇f(xk+1)||≤ε ，如果满足收敛条件，则返回点 x¯=xk+1 ，否则继续进行步骤6.
令 gk+1=∇f(xk+1) ， pk=xk+1−xk ， qk=∇f(xk+1)−∇f(xk) ，并利用公式(8)计算 Hk+1 ，令 k=k+1 ，返回步骤3.

接着来说一下本文的重点BFGS算法，这个算法是由Broyden,Fletcher,Goldfarb和Shanno于1970年提出的，这个算法从提出到现在一直被认为是最好的拟牛顿法，应用依然十分的广泛。前面DFP算法通过 Hk+1 来近似 ∇2f(xk)−1 ，由公式(4)的另一种形式，通过使用 Bk+1 来近似 ∇2f(xk) ，这个时候拟牛顿条件就变成了下面这个样子

q k = B k + 1 p k (9)

我们可以看出，相对于公式(4)，公式(9)相当于用

Bk+1 代替

Hk+1 ，同时将

pk 和

qk 进行交换，同样的道理，我们可以将

Hk+1 的迭代公式改成如下形式

B k + 1 = B k + q k ( q k ) T ( q k ) T p k - B k p k ( p k ) T B k ( p k ) T B k p k (10)

公式(10)被称作关于矩阵

B 的BFGS修正公式。当然，我们的目标是要得到

Hk+1 ，也就是说我们要得到

B−1k+1 的值，此时，我们对公式(10)利用 Sherman–Morrison公式，显然，就能够得到BFGS算法

H 矩阵的迭代公式(11)。(在这我用到了“显然”，好像这一步好像是非常简单，或者显得作者技术非常高深，我们之前就深受“显然”的伤害，比如习题答案中。实际上，在这我用显然，是我没有推出这一步，很多资料上也都是一笔带过，可能那些大牛作者来说，这真是小菜一碟，但我尝试推导了一下，没有推出来，项目时间所限，我也没有深究，如果有人有相关资料，可以跟我说下，后续我还会再推导一次，如果有结果我会更新的)

H k + 1 = V T k H k V k + 1 ( q k ) T p k p k (p k) T (11)

其中，

Vk=I−1(qk)Tpkqk(pk)T 公式(11)可能看起来很陌生，下面我们将它整理一下，就得到下面这个形式

H k + 1 = H k + p k ( p k ) T ( p k ) T q k - H k q k ( q k ) T H k ( q k ) T H k q k + (q k) T H k q k y y T (12)

其中

y=pk(pk)Tqk−Hkqk(qk)THkqk 我们可以知道，对比DFP算法，BFGS算法

H 矩阵的更新公式就多了最后一项。BFGS算法的其他步骤跟DFP算法相同，只需要将步骤6中根据公式(8)计算

Hk+1 换成根据公式(11)。

好了，到这里我们说完了BFGS公式，但我们的题目是L-BFGS算法，很多人会问道L-BFGS算法跟BFGS算法相比有什么不同呢。L-BFGS算法全称是Limited-momery BFGS算法，与BFGS算法相比，这个算法能够有效的节省内存的占用，我们知道，BFGS算法在运行的时候，每一步迭代都需要保存一个 n×n 的矩阵，现在我们很多机器学习问题都是高维的，当 n 很大的时候，这个矩阵占用的内存是非常惊人的，并且所需的计算量也是很大的，这使得传统的BFGS算法变得非常不适用。而L-BFGS则是很对这个问题的改进版，从上面所说可知，BFGS算法是通过曲率信息 (pk,qk) 来修正 Hk 从而得到 Hk+1 ，L-BFGS算法的主要思路是：算法仅仅保存最近 m 次迭代的曲率信息来计算 Hk+1 。这样，我们所需的存储空间就从 n×n 变成了 2m×n 而通常情况下 m<<n 。下面再说，如何通过 m 次曲率信息来构造 Hk 。我们回到公式(11)，通过反复递归的调用公式(11)，可以得到如下公式：

H k = (V T k - 1 \dots V T k - m) H 0 k (V k - m \dots V k - 1) + 1 ( q k ) T p k (V T k - 1 \dots V T k - m + 1) p k - m p T k - m (V k - m + 1 \dots V k - 1) + 1 ( q k ) T p k (V T k - 1 \dots V T k - m + 2) p k - m + 1 p T k - m + 1 (V k - m + 2 \dots V k - 1) + \dots + 1 ( q k ) T p k p k - 1 p T k - 1 (12)

其中，

H0k 表示的是在第

k 次迭代时候的初始值，一个实践中经验的公式是

H 0 k = r k I (13) r k = p T k - 1 q k - 1 q T k - 1 q k - 1 (14)

好了，现在可以说一下L-BFGS算法的整体框架了。

好了，现在还剩一个问题，就是怎么计算下降方向

dk ，当然我们可以直接根据公式(12)求出

Hk 然后再利用公式

dk=−Hk∇f(xk) 来计算，一种更为常用、更为方便的方式是利用two-loop recursion方法来计算，下图就是该算法的过程。

从参考资料4和参考资料6，可以证明two-loop recurion算法的结果跟我们之前所说通过

Hk 的算法得到的形式是完全一样的，在此就不进行赘述了。

到此，我们也说完了L-BFGS算法了，下面开始说L-BFGS算法并行化的实现，这部分参考的是MS Research 14年发表在NIPS上的文章《Large-scale L-BFGS using MapReduce》。下面说一下他们是如何将L-BFGS算法通过MapReduce并行化实现。先来看一下算法1，算法1的主要步骤在于2,3,4这三步。当把数据分成多个分块的时候，步骤2计算 ∇f(x) 是很容易被并行化的，比如在机器1上计算 ∇f(x1)…∇f(x10) ，在机器2上计算 ∇f(x11)…∇f(x20) ，然后通过一个Reduce把这些合成一个完整的梯度向量。而对于步骤4来说，它本质上来说也是一个一维搜索来求 ∇f(x+λd) 的最小值，我们同样可以通过把数据分区，然后Map算各自分区上的值，Reduce合起来，并查找最小的 λ 值。所以，对于算法1来说，只要我们能够把步骤3也就是算法2进行并行化，我们就能把整个算法给并行化了。下面开始说怎么能够把算法2分布式实现。在算法2中，大部分的操作都是点乘，我们可以使用map-reduce来计算每一个点乘操作，比如算法2步骤3中的 (pi)Td 以及 (qi)Tpi 等。这样，整个算法2我们需要进行的map-reduce操作至少应该为 2m 次，再考虑到算法1中需要反复的迭代，假设算法1迭代 N 次，则整个算法的map-reduce操作次数为 2mN 次，一般来说迭代次数 N 非常大，假如 m=10N=100 ，则需要2000次的map-reduce操作，这个过程任务调度、job启停开销都是非常大的，基本不可行。我们再仔细观察一下算法2，可以观察到下面三个特征：

在算法2整个过程中，输入的变量都不会改变
对最终方向 d 所有的操作都是输入向量的线性组合，尽管我们暂时不知道这些系数是什么
整个算法核心的操作都是点乘

这三个特征非常重要，正式由于有了这三个特征，才能实现下面的算法。根据特征1和2，可以把算法2所有的输入表示成不变的基向量

b 1 = p k - m, b 2 = p k - m + 1, \dots, b m = p k - 1 (15)

b m + 1 = q k - m, b m + 2 = q k - m + 1, \dots, b 2 m = q k - 1 (16)

b 2 m + 1 = \nabla f (x k) (17)

接着，根据特征2，将

d 表示成这些

bi 的线性组合，组合系数为

δ ，则

d 可以写成

d = \sum j = 1 j = 2 m + 1 δ j b j (18)

从公式(18)可以看出，因为

bj 是输入，并且在整个算法运行的过程中不会改变(特征1)，所以一旦知道了组合系数

δj ，就可以知道

d 。接着，我们把所有的点乘，根据是否有

d 参与分成两类，对于之设计输入向量

(pi,qi) 的点乘，由于入参不变，点乘的结果也不会变，可以提前算出所有的点乘结果，用点乘结果的常数来替换点乘。对于设计到

d 的点乘，由于我们根据特征2以及公式(18)已经将

d 表示成了基向量的线性组合，在这里就可以用线性组合来替换

d ，这个是个非常elegant的变化，替换以后整个

d 就可以表示成完全由基向量

bj 间点乘的线性组合。好了，说了这么多，下面展示一下这个新算法，MS的人把这个算法叫做VL-BFGS(Vector-free L-BFGS)，从名字就知道，这个算法把算法2中所有向量操作都变成实数操作了(vector-free)。

对于VL-BFGS算法的入参来说，由于所有的向量都是相同维度的，可以将这些向量的数据进行切分，这样的话，可以通过一次map-reduce来计算整个矩阵，当然对于算法来说，就是

(2m+1)×(2m+1) 个实数。在每个机器上存储

(2m+1)×(2m+1) 个实数是不成问题的，所以整个算法3可以直接在一台机器上进行运行。算法3中的步骤是与算法2中一一对应的，例如算法3中9-11行就相当于算法2中的第6行，在这就不再细说了。

本来就想简单的说一说，现在洋洋洒洒的写了这么多，这是我的第一篇博客，我力求写的有根有据，但是由于水平所限，还很有可能出现很多的错误，希望各位读者不吝赐教。最后，很多人可能会问，你用L-BFGS做什么，可以稍微的透露一下，做推荐，用矩阵分解的算法，这是优化中的一步，后续我会实现整个算法，等项目结束了以后，会把项目代码的github连接补充上。最后，做一下下期预告，在读论文的过程中看到MS Research07年发在ICML上的《Scalable training of L 1-regularized log-linear models》也很有意思，下期会整理这个Orthant-Wise Limited-memory Quasi-Newton算法，敬请期待，上映时间不定，感谢阅读。

本文参考文献：

http://www.codelast.com/?p=2780
http://www.tuicool.com/articles/EviQ32m
http://en.wikipedia.org/wiki/Limited-memory_BFGS
http://wenku.baidu.com/view/cd610728fe4733687e21aae3.html
Chen W, Wang Z, Zhou J. Large-scale L-BFGS using MapReduce[C]//Advances in Neural Information Processing Systems. 2014: 1332-1340.
J Nocedal and S J Wright. Numerical Optimization, volume 43 of Springer Series in Operations Research. Springer, 1999.
陈宝林. 最优化理论与算法[M]. 清华大学出版社有限公司, 2005.

探索NebulaGraph：一个开源分布式图数据库的技术解析一休哥助手数据库分布式系统开源分布式数据库
1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
我与DeepSeek读《大型网站技术架构》- 总结诺亚凹凸曼架构
文章目录读后感一、总结二、反思三、创新四、展望当代大型网站架构一、架构分层模型二、关键组件与技术选型三、架构演进策略四、架构突破口读后感一、总结架构演化优先于设计大型网站架构不是预先设计的产物，而是通过反复迭代和试错演化形成的。技术选型的核心动机是对业务需求的深刻理解，而非盲目模仿。典型案例包括淘宝架构因业务爆发力被迫转型为分布式系统。开放与协作的价值互联网的开放生态通过API经济（如淘宝Open
如何设计一个高可用的 Seata 集群？码农技术栈 java spring boot spring cloud 微服务架构 spring
——从零搭建永不宕机的分布式事务协调系统一、为什么需要高可用Seata集群？在分布式系统中，事务协调器TC是全局事务的“大脑”。一旦TC单点故障：灾难性后果：所有进行中的全局事务将卡死，业务完全不可用数据不一致风险：已提交的事务可能无法完成最终提交或回滚因此，构建高可用Seata集群是生产环境的必选项！二、Seata高可用架构设计核心要点1.TC集群化部署多节点部署：至少部署3个TC实例（奇数节点
SpringCloud框架下的注册中心比较：Eureka与Consul的实战解析耶耶Norsea 网络杂烩 spring cloud
摘要在探讨SpringCloud框架中的两种注册中心之前，有必要回顾单体架构与分布式架构的特点。单体架构将所有业务功能集成在一个项目中，优点是架构简单、部署成本低，但耦合度高。分布式架构则根据业务功能对系统进行拆分，每个模块作为独立服务开发，降低了服务间的耦合，便于升级和扩展，然而其复杂性增加，运维、监控和部署难度也随之提高。关键词SpringCloud,注册中心,单体架构,分布式架构,服务拆分一
Spring Cloud Config 快速介绍与实例 oscar999 Spring Boot实战开发大全 Spring Boot Cloud Config
SpringCloudConfig是什么？SpringCloudConfig是一个用于分布式系统的配置管理工具，提供集中化的外部配置支持。它适用于微服务架构，能够将各个服务的配置集中存储在服务端（如Git仓库），客户端按需动态获取配置，解决了配置分散、环境切换复杂等问题。SpringCloudConfig核心概念ConfigServer：配置中心服务端，统一管理配置，支持Git、本地文件等存储方式
Seata分布式事务框架及四种模式原理解析 Cloud_. 分布式 seata java Seata-AX Seata-AT
一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务
Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解 Cloud_. java-rabbitmq spring boot rabbitmq MQ 消息队列
RabbitMQ作为一款高性能的消息中间件，在分布式系统中广泛应用。SpringBoot通过spring-boot-starter-amqp提供了对RabbitMQ的无缝集成，开发者可以借助注解快速声明队列、交换机及绑定规则，极大简化了配置流程。本文将通过代码示例和原理分析，详细介绍如何用注解实现RabbitMQ的集成，并深入解析交换机的作用与类型。一、环境准备1.添加依赖在pom.xml中引入S
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
基于Redis分布锁+事务补偿解决数据不一致性问题 yiridancan 并发编程 Redis 分布式 redis 数据库缓存
基于Redis的分布式设备库存服务设计与实现概述本文介绍一个基于Redis实现的分布式设备库存服务方案，通过分布式锁、重试机制和事务补偿等关键技术，保证在并发场景下库存操作的原子性和一致性。该方案适用于物联网设备管理、分布式资源调度等场景。代码实现importjava.util.HashMap;importjava.util.Map;importorg.slf4j.Logger;importorg
http协议与https协议网络文化渗透 http https 网络协议网络
HTTP（HyperTextTransferProtocol：超文本传输协议）是一种用于分布式、协作式和超媒体信息系统的应用层协议。简单来说就是一种发布和接收HTML页面的方法，被用于在Web浏览器和网站服务器之间传递信息。HTTP默认工作在TCP协议80端口，用户访问网站http://打头的都是标准HTTP服务HTTP协议以明文方式发送内容，不提供任何方式的数据加密，如果攻击者截取了Web浏览器
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
使用GitHub API进行智能文档加载 fgayif github python
GitHub是一个强大的开发者平台，提供了代码存储、管理和分享的功能。它采用Git软件，增强了分布式版本控制，同时提供了访问控制、错误跟踪、软件功能请求、任务管理、持续集成和项目的wiki等功能。随着AI技术的发展，我们可以利用GitHub的API实现智能文档加载，以便更好地进行代码管理和分析。下面我将介绍如何使用GitHubAPI进行文档加载，并通过实用的代码示例来帮助大家理解。技术背景介绍Gi
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
【读点论文】Chain Replication for Supporting High Throughput and Availability 寻雾&启示分布式系统论文阅读
在分布式系统中，强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库，其保证了强一致性，但往往牺牲了可用性和吞吐量。而像NoSQL数据库，虽然其吞吐量、和扩展性很高，但往往只支持最终一致性，无法保证强一致性。由此ChainReplicationforSupportingHighThroughputandAvailability提出了链式复制协议，旨在保证高吞吐、高可用的同时，支持数据的强一
【自建分布式数据库详细指南】（五）使用：常见API及使用问题大板牙花生分布式
延续前几篇文章，下面着重从一些基本的API讲讲从入门到习惯的常用方法，后续更新。USAGE1节点管理设置主节点，又成为协调节点SELECTcitus_set_coordinator_host('coord.example.com',5432);step1.创建节点select*frommaster_add_node('new-node',12345);step2.删除节点step3.新增节点后重新
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
深入解析Flink Kafka Connector的分布式流数据采集架构与底层实现数据与算法架构提升之路 #Flink flink kafka conector 源码
目录1.FlinkKafka连接器的分布式流采集架构1.1架构组成1.2分布式流模型2.数据分区分配策略3.为什么重写序列化和偏移量管理3.1与Flink分布式架构集成3.2与Flink检查点机制集成同时承接多级并行架构3.3OffsetsInitializer与细粒度偏移量控制3.4与Flink的Source接口统一4.版本兼容性管理5.有界流处理支持5.1实现原理5.2API使用示例5.3多种
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
Sa-Token v1.20.0 发布，新增临时Token认证
框架介绍Sa-Token是一个轻量级Java权限认证框架，主要解决：登录认证、权限认证、分布式Session会话、单点登录、OAuth2.0等一系列权限相关问题。框架针对踢人下线、自动续签、前后台分离、分布式会话……等常见业务进行N多适配，通过sa-token，你可以以一种极简的方式实现系统的权限认证部分Sa-Tokenv1.20.0版本更新包括以下内容：新增：新增Solon适配插件，感谢大佬@刘
SpringBoot分布式架构下字典表设计与实战应用潘多编程 spring boot 分布式架构
在分布式系统中，字典表作为基础数据的核心载体，其设计合理性直接影响系统的扩展性和维护效率。本文将结合具体代码实例，深入讲解分布式环境下字典表的设计方案与实现细节。一、分布式环境下的字典表挑战数据一致性要求：多服务节点间的字典数据同步高并发访问压力：基础数据的频繁读取需求动态更新需求：业务运行时字典数据的热更新能力多级缓存策略：本地缓存与分布式缓存的协同工作二、技术方案设计架构图：[Client]-
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
事务回滚核心技术 KBkongbaiKB java
一、事务回滚的数学本质与核心挑战1.1事务状态机模型操作执行持久化完成系统故障事务回滚ActivePartiallyCommittedCommittedFailedAborted1.2核心技术挑战矩阵问题维度单机事务分布式事务原子性保证存储引擎WAL日志二阶段提交协议隔离性实现MVCC多版本控制全局锁调度机制可见性管理事务ID版本链向量时钟同步回滚触发条件SQL执行异常/死锁网络分区/节点故障二、
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
麒麟服务器操作系统Redis部署手册太极淘麒麟操作系统管理工具服务器 redis 运维
软件简介Redis****介绍REmoteDIctionaryServer(Redis)是一个由SalvatoreSanfilippo写的key-value存储系统，是跨平台的非关系型数据库。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，并提供多种语言的API。Redis通常被称为数据结构服务器，因为
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

机器学习优化算法L-BFGS及其分布式实现

你可能感兴趣的:(数据挖掘-分布式)