各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园

转载请注明本文链接：http://www.cnblogs.com/EE-NovRain/p/3810737.html

　　现在做在线学习和CTR常常会用到逻辑回归（ Logistic Regression），而传统的批量（batch）算法无法有效地处理超大规模的数据集和在线数据流，google先后三年时间（2010年-2013年）从理论研究到实际工程化实现的 FTRL（Follow-the-regularized-Leader）算法，在处理诸如逻辑回归之类的带非光滑正则化项（例如1范数，做模型复杂度控制和稀疏化）的凸优化问题上性能非常出色，据闻国内各大互联网公司都第一时间应用到了实际产品中，我们的系统也使用了该算法。这里对FTRL相关发展背景和工程实现的一些指导点做一些介绍，凸优化的理论细节不做详细介绍，感兴趣可以去查阅相应paper，相关paper列表会在文后附上。机器学习并非本人在校时的专业方向，不过在校期间积累的基础不算太差，而且很多东西也是相通的，钻研一下基本意思都还能搞明白。当然，有不准确的地方欢迎大家讨论指正。

本文主要会分三个部分介绍，如果对理论产生背景不感兴趣的话，可以直接看第3部分的工程实现（这一部分google13年那篇工程化的paper介绍得很详细）：

相关背景：包括通用性的问题描述、批量算法、传统在线学习算法等
简单介绍与FTRL关系比较密切的Truncated Gradient、FOBOS以及RDA（Regularized Dual Averaging）等算法
FTRL理论公式以及工程实现（对前因后果和理论方面不感兴趣的可以直接看这一小节的工程实现部分）

一、相关背景

【问题描述】

对于loss函数+正则化的结构风险最小化的优化问题（逻辑回归也是这种形式）有两种等价的描述形式，以1范数为例，分别是：

　　a、无约束优化形式的soft regularization formulation：

b、带约束项的凸优化问题convex constraint formulation：

当合理地选择g时，二者是等价的。这里提这两种形式的问题描述，原因在于引出下面无约束优化和带约束优化问题的不同算法，对于不同的描述形式，会有一系列相关算法。

【批量（batch）算法】

批量算法中每次迭代对全体训练数据集进行计算（例如计算全局梯度），优点是精度和收敛还可以，缺点是无法有效处理大数据集（此时全局梯度计算代价太大），且没法应用于数据流做在线学习。这里分无约束优化形式和约束优化（与上面问题描述可以对应起来）两方面简单介绍一下一些传统批量算法。

a、无约束优化形式：1、全局梯度下降，很常用的算法，就不细说了，每一步求一个目标函数的全局梯度，用非增学习率进行迭代；2、牛顿法（切线近似）、LBFGS（割线拟牛顿，用之前迭代结果近似Hessian黑塞矩阵的逆矩阵，BFGS似乎是几个人名的首字母的简称）等方法。牛顿和拟牛顿等方法一般对于光滑的正则约束项（例如2范数）效果很好，据说是求解2范数约束的逻辑回归类问题最好的方法，应用也比较广，但是当目标函数带L1非光滑、带不可微点的约束项后，牛顿类方法比较无力，理论上需要做修改。感兴趣的可以去查查无约束优化的相关数值计算的书，我也没有更深入研究相关细节，这里不做重点关注。

b、不等式约束凸优化形式：1、传统的不等式约束优化算法内点法等；2、投影梯度下降（约束优化表示下），gt是subgradient，直观含义是每步迭代后，迭代结果可能位于约束集合之外，然后取该迭代结果在约束凸集合上的投影作为新的迭代结果（第二个公式中那个符号标识向X的投影）：

　　 【在线算法】

　　如上所述，批量算法有自身的局限性，而在线学习算法的特点是：每来一个训练样本，就用该样本产生的loss和梯度对模型迭代一次，一个一个数据地进行训练，因此可以处理大数据量训练和在线训练。常用的有在线梯度下降（OGD）和随机梯度下降（SGD）等，本质思想是对上面【问题描述】中的 未加和的单个数据的loss函数 L（w，zi)做梯度下降，因为每一步的方向并不是全局最优的，所以整体呈现出来的会是一个看似随机的下降路线。典型迭代公式如下：

这里使用混合正则化项：，例如可能是1范数与2范数强凸项的混合（后面会看到其实很多都是这种混合正则化的格式，而且是有一定直观含义的）。迭代公式中：gt是loss函数（单点的loss，未加和）的subgradient，与gt相加的那一项是混合正则化项中的第二项的梯度，投影集合C是约束空间（例如可能是1范数的约束空间），跟上面介绍的投影梯度下降类似的做法。

　　梯度下降类的方法的优点是精度确实不错，但是不足相关paper主要提到两点：

　　1、简单的在线梯度下降很难产生真正稀疏的解，稀疏性在机器学习中是很看重的事情，尤其我们做工程应用，稀疏的特征会大大减少predict时的内存和复杂度。这一点其实很容易理解，说白了，即便加入L1范数（L1范数能引入稀疏解的简单示例可以产看PRML那本书的第二章，我前面一篇blog的ppt里也大概提了），因为是浮点运算，训练出的w向量也很难出现绝对的零。到这里，大家可能会想说，那还不容易，当计算出的w对应维度的值很小时，我们就强制置为零不就稀疏了么。对的，其实不少人就是这么做的，后面的Truncated Gradient和FOBOS都是类似思想的应用；

　　2、对于不可微点的迭代会存在一些问题，具体有什么问题，有一篇paper是这么说的：the iterates of the subgradient method are very rarely at the points of non-differentiability。我前后看了半天也没看明白，有熟悉的同学可以指导一下。

二、Truncated Gradient、FOBOS以及RDA（Regularized Dual Averaging）

　　上面提到了，稀疏性在机器学习中是很重要的一件事情，下面给出常见的三种做稀疏解的途径：

　　1）、简单加入L1范数

　　　　–局限如上面所提，a+b两个float数很难绝对等于零，无法产生真正稀疏的特征权重

　　 2）、在1范数的基础上做截断，最直观没技术含量的思路，那就设定一个阈值，做截断来保证稀疏，可以结合L1范数

　　　　–简单截断方法，每online训练K个数据截断一次，对OGD的迭代结果，每K步做一次截断置零：

　　　　但是简单截断方法有问题：权重小，可能是确实是无用特征，还或者可能是该特征才刚被更新一次（例如训练刚开始的阶段、或者训练数据中包含该特征的样本数本来就很少），另外，简单rounding技术太aggressive了，可能会破坏在线训练算法的理论完备性。

　　　　-简单截断基础上，不太aggressive的Truncated gradient （09年的工作），其实后面的FOBOS也可以归为这一类：

各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园_第5张图片

　　3）、Black-box wrapper approaches：

　　　　–黑盒的方法去除一些特征，然后重新训练的看被消去的特征是否有效。

　　　　–需要在数据集上对算法跑多次，所以不太实用

下面会提一下FOBOS（Forward-Backward Splitting method，其实应该叫FOBAS的，历史原因）以及RDA，因为后面的FTRL其实相当于综合了这两种算法的优点：

　　a、FOBOS，google和伯克利09年的工作：

　　　　–可以看作truncated gradient的一种特殊形式

　　　　–基本思想：跟projected subgradient方法类似，不过将每一个数据的迭代过程，分解成一个经验损失梯度下降迭代和一个最优化问题。分解出的第二个最优化问题，有两项：第一项2范数那一项表示不能离第一步loss损失迭代结果太远，第二项是正则化项，用来限定模型复杂度抑制过拟合和做稀疏化等。这个最优化问题有一些特殊的性质，从而保证了最终结果的稀疏性和理论上的完备，具体细节感兴趣的可以查看对应paper。我这里更多关注直观含义和工程实现，忽略理论方面的内容。

　　 b、RDA（Regularized dual averaging），微软10年的工作，更加理论性一些，这里就直接略过去了，仅对其特点做一个简单介绍：

　　　　–非梯度下降类方法，属于更加通用的一个primal-dual algorithmic schema的一个应用

　　　　–克服了SGD类方法所欠缺的exploiting problem structure，especially for problems with explicit regularization。

　　　　–能够更好地在精度和稀疏性之间做trade-off

　　ok，背景和一些铺垫终于完成了，下面重点进入FTRL的部分。。。

三、FTRL (Follow-the-regularized-Leader)

【发展历程】

　　FTRL的理论推进和工程应用首先要感谢这个人：H. Brendan McMahan, google这哥们儿护了三年的坑，直到13年工程性paper出来。发展历程和基本说明如下：

　　　 –10年理论性paper，但未显式地支持正则化项迭代；11年证明regret bound以及引入通用的正则化项；11年另一篇的paper揭示OGD、FOBOS、RDA等算法与FTRL关系；13年的paper给出了工程性实现，并且附带了详细的伪代码，开始被大规模应用。

　　　 –可以看作RDA和FOBOS的混合，但在L1范数或者其他非光滑的正则项下，FTRL比前两者更加有效

【基本思想及迭代公式】

　　我简单画了个图：

各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园_第7张图片

　　与其他在线算法的迭代公式的对比（其实OGD如何一步步到类似形式的迭代公式的过程，限于时间，这里就不细说了，最后我会附一篇自己做分享会时做的ppt，里面有，感兴趣的可以下载看看），不同的方法在这种统一的描述形式下，区别点仅在第二项和第三项的处理方式：

　　–第一项：梯度或累积梯度；

　　–第二项：L1正则化项的处理；

　　–第三项：这个累积加和限定了新的迭代结果x不要离已迭代过的解太远（也即FTRL-Proximal中proximal的含义），或者离0太远（central），这一项其实也是low regret的需求

【工程实现】

　　大家对上面那一大坨前因后果和公式都不感兴趣，ok，没关系，google非常贴心地在13年给出了一篇工程性很强的paper，其实大部分公司使用FTRL的，根本不会关心上面那一大段东西，直接按着伪代码写，调调参，看结果很不错就可以了。我们公司开始就是这么搞的，哈哈，不过人总是要有点儿好奇心的不是，深究一下前因后果和基本的理论公式感觉还是挺不同的。

　　逻辑回归下的per-coordinate FTRL_Proximal的伪代码如下，在公式表达的基础上做了一些变换和实现上的trick，细节paper里有，大家在自己做实现的时候，可以在实际数据集上再并行加加速：

各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园_第8张图片

　　四个参数的设定结合paper里的指导意见以及反复实验测试，找一组适合自己问题的参数就可以了。这里我想提一点，即上面所谓的 per-coordinate，其意思是 FTRL是对w每一维分开训练更新的，每一维使用的是不同的学习速率，也是上面代码中lamda2之前的那一项。与w所有特征维度使用统一的学习速率相比， 这种方法考虑了训练样本本身在不同特征上分布的不均匀性，如果包含w某一个维度特征的训练样本很少，每一个样本都很珍贵，那么该特征维度对应的训练速率可以独自保持比较大的值，每来一个包含该特征的样本，就可以在该样本的梯度上前进一大步，而不需要与其他特征维度的前进步调强行保持一致。

【工程实现中的memory saving策略】

　　这里对google所提的一些节省内存的实现细节做一个介绍

Predict时的memory saving：

　　　　–L1范数加策略，训练结果w很稀疏，在用w做predict的时候节省了内存，很直观，不细说了

Training时的memory saving：

在线丢弃训练数据中很少出现的特征(probabilistic feature inclusion)，但是对于online set，对全数据进行pre-process查看哪些特征出现地很少、或者哪些特征无用，是代价很大的事情，所以要想训练的时候就做稀疏化，就要想一些在线的方法（FTRL分开更新的w各维度，每一维不同的步长，per-coordinate）

　　　　1）Poisson Inclusion：对某一维度特征所来的训练样本，以p的概率接受并更新模型；

　　　　2）Bloom Filter Inclusion：用bloom filter从概率上做某一特征出现k次才更新

　　2. 浮点数重新编码

　　　　1)　　特征权重不需要用32bit或64bit的浮点数存储，存储浪费空间

　　　　2)　　16bit encoding，但是要注意处理rounding技术对regret带来的影响

　　3. 训练若干相似model

　　　　1）对同一份训练数据序列，同时训练多个相似的model

　　　　2）这些model有各自独享的一些feature，也有一些共享的feature

　　　　3）出发点：有的特征维度可以是各个模型独享的，而有的各个模型共享的特征，可以用同样的数据训练。

　　4. Single Value Structure（据说有公司已经在实际中这么搞，大数据量下也能够保证不错的auc）

　　　 1）多个model公用一个feature存储（例如放到cbase或redis中），各个model都更新这个共有的feature结构

　　　 2）对于某一个model，对于他所训练的特征向量的某一维，直接计算一个迭代结果并与旧值做一个平均

　　5. 使用正负样本的数目来计算梯度的和（所有的model具有同样的N和P）

各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园_第9张图片

　　6. Subsampling Training Data

　　　　1）在实际中，CTR远小于50%，所以正样本更加有价值。通过对训练数据集进行subsampling，可以大大减小训练数据集的大小

　　　　2）正样本全部采（至少有一个广告被点击的query数据），负样本使用一个比例r采样（完全没有广告被点击的query数据）。但是直接在这种采样上进行训练，会导致比较大的biased prediction

　　　　3）解决办法：训练的时候，对样本再乘一个权重。权重直接乘到loss上面，从而梯度也会乘以这个权重。

各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园_第10张图片

　　　　　先采样减少负样本数目，在训练的时候再用权重弥补负样本，非常不错的想法。

【References】

我大概标注了一下各篇paper的主要内容，感兴趣的可以有选择性地看一下，如果只关注工程实现，看标红的那篇就ok了：

[1] J. Langford, L. Li, and T. Zhang. Sparse online learning via truncated gradient.JMLR, 10, 2009. （截断梯度的paper）

[2] H. B. McMahan. Follow-the-regularized-leader and mirror descent: Equivalence theorems and L1 regularization. In AISTATS, 2011 （FOBOS、RDA、FTRL等各种方法对比的paper）

[3] L. Xiao. Dual averaging method for regularized stochastic learning and online optimization. In NIPS, 2009 （RDA方法）

[4] J. Duchi and Y. Singer. Efficient learning using forward-backward splitting. In Advances in Neural Information Processing Systems 22, pages 495{503. 2009. （FOBOS方法）

[5] H. Brendan McMahan, Gary Holt, D. Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, Sharat Chikkerur, Dan Liu, Martin Wattenberg, Arnar Mar Hrafnkelsson, Tom Boulos, Jeremy Kubica, Ad Click Prediction: a View from the Trenches, Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD) (2013) （这篇是那篇工程性的paper）

[6] H. Brendan McMahan. A unied analysis of regular-ized dual averaging and composite mirror descent with implicit updates. Submitted, 2011 （FTRL理论发展，regret bound和加入通用正则化项）

[7] H. Brendan McMahan and Matthew Streeter. Adap-tive bound optimization for online convex optimiza-tion. InCOLT, 2010 （开始的那篇理论性paper）

后面附上我在组里分享时做的ppt，感兴趣的可以看看： http://pan.baidu.com/s/1eQvfo6e

Debian-10-standard用`networking`服务的`/etc/network/interfaces`配置文件设置多网卡多IPv6 kfepiza 网络通讯传输协议 IP TCP UDP 物联 #Linux debian 运维网络 linux
Debian-10-buster-standard用networking服务的/etc/network/interfaces配置文件设置多网卡多IPv6Debian-10-buster-standard用networking服务的/etc/network/interfaces配置文件设置多网卡多IPv6250703_123456三块网卡:enp0s3,enp0s8,enp0s9/etc/netwo
ubuntu 安装neo4j 欧阳秦穆知识图谱 ubuntu 数据库 linux
在Ubuntu上安装Neo4j可以按照以下步骤进行。Neo4j是一个高性能的图数据库，用于存储和查询复杂的数据结构。以下是详细的安装步骤：1.下载Neo4j安装包首先，从Neo4j的官方网站下载最新版本的Neo4j安装包。你可以访问以下链接获取安装包：[Neo4j下载页面](https://neo4j.com/download-center/#community)下载适合你操作系统的版本，通常是.
面试必问之JVM原理 teayear 面试 jvm 职场和发展
1：什么是JVMJVM是JavaVirtualMachine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以
SIMULINK开发项目实例 1000 例专栏之第663例：基于simulink的SVPWM技术的研究的三相电压源逆变器建模仿真 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 matlab simulink
目录准备工作步骤详解第一步：创建Simulink项目第二步：选择并添加合适的库组件第三步：构建基本的三相电压源逆变器模型第四步：实现SVPWM算法第五步：仿真与调试第六步：结果分析第七步：优化与改进第八步：导出与部署总结三相电压源逆变器（VoltageSourceInverter,VSI）在电力电子中是将直流电转换为交流电的一种重要设备，广泛应用于电机驱动、不间断电源（UPS）、可再生能源系统等领
JVM架构原理 cocoon-breaking jvm 架构 java
一、简介虚拟机是物理机的软件实现。Java的设计理念是WORA（WriteOnceRunAnywhere，一次编写随处运行）。编译器将Java文件编译为Java.class文件，然后将.class文件输入到JVM中，JVM执行类文件的加载和执行的操作。请看以下的JVM架二、JVM是如何工作的？如上面架构图所示，JVM分为三个主要子系统：类加载器子系统（ClassLoaderSubsystem）运行
Spring Boot Starter深度解析：从入门到自定义，一篇搞定！码不停蹄的玄黓 spring boot 后端 java starter
引言SpringBootStarter是SpringBoot生态中简化依赖管理和自动配置的核心机制，旨在帮助开发者快速集成常用功能，避免手动配置大量依赖和样板代码。以下从核心概念、工作原理、分类、自定义开发到最佳实践，全面解析SpringBootStarter。一、Starter到底是啥？为啥它是SpringBoot的“开发神器”？1.1一句话定义：依赖的“全家桶”+自动的“配置管家”Starte
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
基于DeepSeek × 数据治理如何落地？这套解决方案可参考！
Q：数据治理困局怎么破？3步落地DeepSeek实战方案导语："每天处理10亿条数据，却找不到关键业务指标？""数据部门80%时间在'找数据-洗数据-背锅'的死循环？"这不是危言耸听——国内83%的企业正困在数据沼泽中（IDC最新数据）。今天揭秘某头部电商企业如何用DeepSeek方案，3个月实现数据治理自动化，让数据真正成为资产！一、数据治理的三大致命误区（90%企业正在踩坑）"工具万能论"：买
Node.js v22.5+ 官方 SQLite 模块全解析：从入门到实战红衣大叔 nodejs帮助文档 node.js sqlite 数据库
在Node.jsv22.5.0及更高版本中，node:sqlite模块作为内置模块被引入，为开发者提供了与SQLite数据库交互的官方支持。以下是关于node:sqlite模块的详细介绍：一、模块启用与导入启用方式：node:sqlite模块目前处于活跃开发阶段，需要通过--experimental-sqliteCLI标志来启用。导入方式：使用import语句从node:sqlite模块中导入所需
ps给图层填充颜色红衣大叔 ps photoshop
在Photoshop（简称PS）中给图层填充颜色，有多种方法可以实现，具体取决于你的需求和偏好。以下是一些常用的方法：1.使用快捷键填充前景色填充：按下Alt+Delete（Windows）或Option+Delete（Mac）可以将当前设置的前景色填充到当前选区或图层中。背景色填充：按下Ctrl+Delete（Windows）或Command+Delete（Mac）可以将当前设置的背景色填充到当
DeepFM算法原理及应用场景
DeepFM（DeepFactorizationMachine）是一种结合了因子分解机（FactorizationMachines,FM）和深度神经网络（DNN）的混合模型，主要用于处理高维稀疏数据（如推荐系统中的点击率预测）。其核心思想是同时捕捉低阶（线性）和高阶（非线性）特征交互。1.算法原理模型结构如下：FM部分：负责捕捉低阶特征交互（如一阶和二阶特征组合）。一阶项：线性特征权重。二阶项：通
Linux内核IPv4路由子系统深度剖析：FIB前端实现与设计原理 109702008 编程 #C语言网络 linux 网络人工智能
深入理解Linux网络栈的核心组件：路由表管理、地址验证与事件处理机制引言在Linux网络栈中，IPv4转发信息库（FIB）是决定数据包传输路径的核心子系统。fib_frontend.c作为FIB的前端实现，承担着路由表管理、用户接口交互和网络事件响应等关键任务。本文将深入剖析这一关键文件的实现原理，揭示Linux路由机制的设计哲学。一、FIB前端整体架构/*核心数据结构*/structfib_t
jvm原理和调优实战故事很腻i java jvm java
一、JVM核心基础1.1JVM架构概述Java虚拟机（JavaVirtualMachine，JVM）是Java程序的运行核心，其核心架构包含四大模块：1.1.1类加载子系统功能：负责将class文件加载到JVM内存中，通过ClassLoader实现加载流程：加载：通过类的全限定名获取二进制字节流验证：确保字节流符合JVM规范准备：为类变量分配内存并设置初始值解析：将符号引用替换为直接引用初始化：执
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
大模型 AI智能体Coze知识库从使用到实战详解非著名架构师大模型知识文档人工智能 Coze知识库
一、Coze知识库核心价值解析1.1知识库技术架构创新Coze知识库采用四层混合架构设计，在2025年大模型应用中展现出独特优势：存储层：支持向量数据库（Qdrant）+图数据库（Neo4j）双引擎处理层：集成PDF/PPT/Excel等23种文件解析器检索层：混合检索算法（BM25+稠密检索+语义路由）应用层：RAG（检索增强生成）优化接口与传统方案相比，查询准确率提升42%，特别擅长处理：专业
DeepSeek-R1满血版:硅基流动API或本地部署 Mikhail_G AIGC 语言模型数据分析大数据 python
大家好!想在手机上部署DeepSeek-R1满血版（671B）？我来手把手教你最靠谱的两种方式！满血版模型参数高达671亿，手机本地运行几乎不可能，但通过「云服务+手机App」的组合，你一样能在手机上丝滑使用真正的满血版DeepSeek-R1！一、推荐方案：通过SiliconFlow+Chatbox使用满血版（iOS/安卓均支持）这是目前最稳定、免费额度高、操作简单的方式，适合所有用户。原理：用S
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
数据结构：数组：二分查找（Binary Search） 95号闪电麦坤数据结构数据结构算法
目录什么是二分查找？查找示例示例一：在数组中查找key=6示例二：查找失败，key=7代码实现递归版本的二分查找什么是二分查找？我们先问自己：假设我有一个有序数组，我想查找某个数，有没有更快的办法？例子：一个有序数组A=[2,4,6,8,10,12,14,16,18]我们要查找数字10复习线性查找（原始直觉）你会从左往右开始：查A[0]=2→不对查A[1]=4→不对查A[2]=6→不对查A[3]=
jvm架构原理剖析篇 teayear jvm 架构
简单题（5道）考查内容：JVM运行时数据区域题干：Java虚拟机栈的主要作用是？A.存储对象实例B.存储方法调用和局部变量C.存储静态字段D.存储字节码指令正确答案：B解析：虚拟机栈用于存储方法调用帧（包括局部变量表和操作数栈），对象实例存储在堆中，静态字段存储在方法区，字节码指令存储在方法区。考查内容：类加载机制题干：以下哪个不是类加载的阶段？A.加载B.验证C.编译D.初始化正确答案：C解析：
Python Scrapy的爬虫中间件开发 AI天才研究院 python scrapy 爬虫 ai
PythonScrapy爬虫中间件开发：从原理到实战的深度解析关键词Scrapy中间件、爬虫扩展、请求响应处理、反爬绕过、中间件生命周期、钩子函数、分布式爬取摘要本文系统解析Scrapy爬虫中间件（SpiderMiddleware）的开发方法论，覆盖从基础概念到高级实践的全链路知识。通过第一性原理推导中间件的核心机制，结合层次化架构分析（理论→设计→实现→应用），提供生产级代码示例与可视化流程模型
Node.js worker_threads：并发 vs 并行红衣大叔 nodejs帮助文档 node.js
一、核心结论Node.js的worker_threads模块实现的是并行计算，而非传统意义上的“并发”。其通过操作系统级线程实现多核CPU的并行执行，同时保留Node.js单线程事件循环的并发模型。二、关键概念解析1.并发（Concurrency）vs并行（Parallelism）并发：指系统同时处理多个任务的能力，但任务可能交替执行（如单核CPU通过时间片轮转）。Node.js主线程的事件循环是
数据结构：多维数组在内存中的映射（Address Mapping of Multi-dimensional Arrays） 95号闪电麦坤数据结构数据结构
目录行主映射（Row-MajorMapping）列主映射（Column-MajorMapping）三维数组的性映射公式行主映射推导列主映射推导在内存中，数据只能线性存储（一维地址线），但二维数组是逻辑上的“表格”结构。所以，编译器必须把二维数组的元素映射到内存中的线性地址。行主映射（Row-MajorMapping）行主映射是指：当我们用一维线性内存来存储二维数组时，优先存储每一整行的所有元素，然
搬运机器人系列编程：Fanuc M-20iA_20.搬运机器人系统的集成与安装 zhubeibei168 机器人及导航机器人数据挖掘人工智能
20.搬运机器人系统的集成与安装20.1系统集成概述在汽车制造行业中，搬运机器人系统的集成是一个复杂而多步骤的过程，涉及机械、电气、软件等多个方面的专业知识。FanucM-20iA搬运机器人以其高效、精准的特点，在这一领域中得到了广泛应用。本节将详细介绍如何将FanucM-20iA机器人集成到汽车制造生产线中，包括硬件安装、软件配置、系统调试等关键步骤。20.1.1机器人系统集成的重要性机器人系统
0代码改动实现应用运行时数据库密码无损轮转阿里-于怀 oracle 数据库 nacos
作者：柳遵飞一.敏感数据的安全风险在应用程序中，访问数据库几乎是必须的，是实现业务功能的基础普遍场景，应用程序访问数据库，需要设置数据库的地址，端口，账号及密码。密码的安全性非常重要，业界密码泄漏导致资损的事件时有发生，根据相关统计，单次泄漏事件的发生平均导致488万美元（约合人民币3542万元），每条泄漏的数据记录平均导致169美元（约合人民币1226元），除了直观的资金损失外，对企业的形象和舆
Appium自动化——day1
一个做测试的摄影师Appium简介什么是appium?Appium可以测试的app类型使用Appium的被测APP运行平台测试对象App运行环境：测试程序语言：测试程序运行平台：Appium自动化原理Appium架构图手机端驱动程序介绍安卓底层自动化架构自动化环境搭建环境安装-win/androidAppium相关环境安装1.安装1-客户端.2.安装2-服务端3.安装3-电脑端环境4.安装4-电脑
【C#】MVVM基础知识及基本应用 Mike_Wuzy c#
以下是一些关于C#中MVVM（Model-View-ViewModel）模式的基础知识：1.模型(Model)模型负责表示数据和业务逻辑，通常包括数据库访问、文件操作等。它不包含任何用户界面相关的代码。publicclassPerson{publicintId{get;set;}publicstringName{get;set;}publicDateTimeBirthDate{get;set;}/
Assistant API 流式传输中的事件流原理细节上有晨光大模型Agent开发人工智能算法大模型 OpenAI Agent
一、AssistantAPI流式传输事件流基础OpenAIAssistantAPI的流式输出在特定操作时会生成新事件，每个事件由event和data构成。data存放如大模型回复等关键数据，event则表明大模型的处理阶段，像运行、排队、完成等状态信息。二、事件流核心流程整体流程：从创建assistant对象、thread对象并追加message开启run状态（即start模式）起，到获取模型回复
Assistant API 进阶应用方法介绍上有晨光大模型Agent开发人工智能算法大模型 Agent OpenAI
一、课程回顾之前博客内容围绕OpenAIAssistantAPI展开，详细讲解了其基本原理、构建对话或代理的完整生命周期，以及Assistant、Thread、Message和Run这四个抽象概念之间的关系。在此基础上，搭建了用户与大模型对话的基础通路，不过这只是该API最基础的应用形式。二、AssistantAPI概述（一）优势与特点AssistantAPI在性能和易用性方面表现卓越，超越了市面
使用Python将PDF转换成word、PPT wh3933 python pdf word
在现代企业环境中，文档格式的转换是一项普遍且关键的需求。PDF（PortableDocumentFormat）作为一种最终的、通常不可编辑的“打印”状态格式，被广泛用于分发和归档。然而，内容的创建、协作和修改主要在MicrosoftOffice套件中进行，特别是Word（DOCX）和PowerPoint（PPTX）。因此，以编程方式弥合这两种格式之间的鸿沟，已成为数据提取、内容迁移和工作流自动化领
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园

你可能感兴趣的:(各大公司广泛使用的在线学习算法FTRL详解 - EE_NovRain - 博客园)