eligible-zzw

6.DeepFM: A Factorization-Machine based Neural Network for CTR Prediction论文详解和代码实现

一、总述

这篇论文来自哈工大&华为诺亚方舟实验室，主要关注如何学习user behavior背后的组合特征（feature interactions），从而最大化推荐系统的CTR。但目前的方法容易得到low-或者high-order interactions。因此这篇论文提出构建一个端到端的可以同时突出低阶和高阶feature interactions的学习模型DeepFM。DeepFM是一个新的神经网络框架，结合了FM在推荐中的优势和深度学习在特征学习中的优势。

二、DeepFM模型的问题阐述和研究背景

2.1 问题阐述

在推荐系统的CTR预估中，学习用户行为背后复杂的特征交互关系非常重要，例如人们通常在吃饭的时间点下载外卖app比较多，这说明时间和item类别之间是有一定联系的，如果我们在吃饭的时间推荐饿了么，肯定比在其它时间段要更加符合用户的需求。（当然影响用户点击行为的因素非常多，这里只是简单举了一个例子，并不是说所有的用户在吃饭的时间都会想点击外卖app，只是一种统计倾向而已）类似，还有很多其它的特征组合关系，有些特征组合关系是我们拍脑门可以想出来的，上面的时间和item类别，年龄和item类别，性别和item类别。。。但是也有那么一些是我们想不出来的（想不出来意味着不大符合我们平时的认知），例如传统的“啤酒和尿布”关系是隐藏在数据里的。（详细介绍可以参见这篇博文）不大容易被我们人为设计出来作为组合特征。这就需要用到机器学习，我们当然希望机器可以帮我们自动学到很多特征。毕竟当原始特征很多的时候，人为设计特征是一件费时也有可能不讨好的事情。

2.2 DeepFM背景

DeepFM可以看做是在FM算法的基础上衍生出来的算法，DeepFM通过将FM与DNN相结合，联合训练FM模型和DNN模型，用FM做特征间的低阶组合，用DNN做特征间的高阶组合。相比于谷歌最新的Wide&Deep模型，DeepFM模型的Deep component和FM component从Embedding层共享数据输入，同时不需要专门的特征工程。

DeepFM广泛应用于CTR预估领域，通过用户的点击行为来学习潜在的特征交互在CTR中至关重要。隐藏在用户点击行为背后的特征交互，无论是低阶交互还是高阶交互都可能会对最终的CTR产生影响。FM算法，可以对特征间成对的特征交互以潜在向量内积的方式进行建模，并表现出不错的效果。然而，FM由于高的复杂性不能进行高阶特征交互，常用的FM特征交互通常局限于二阶。其他的基于神经网络的特征交互的方法要么侧重于低阶或者高阶的特征交互，要么依赖于特征工程，因此，DeepFM出现了。DeepFM表明，通过一个端到端的方式学习所有阶特征之间的交互并且不严格依赖特征工程也是可行的。

DeepFM小结：

DeepFM是一个结合了FM结构和DNN结构的新的神经网络模型，并且DeepFM能够像FM那样进行低阶特征间的交互，也能够像DNN那样进行高阶特征间的交互。同时，DeepFM能够进行端到端的训练且不依赖于特征工程。
DeepFM的FM component和Deep component共享相同的输入，因此能够完成高效训练。

三、模型

3.1 CTR数据预估特点

1、输入中既包含离散型数据（性别），也包含连续型数据（年龄）。离散型数据需要one-hot编码，连续型数据可以先离散化再one-hot编码，也可以直接保留原值。
2、维度非常高，将one-hot类型的特征输入到DNN中，会导致网络参数太多。
3、数据非常稀疏，one-hot以后，大部分数据都为0。
4、特征按照Field分组

CTR预估重点在于学习低阶与高阶的组合特征。注意，组合特征包括二阶、三阶甚至更高阶的，阶数越高越复杂，越不容易学习。FM模型由于计算复杂度太高，一般只计算到二阶。

根据Google的Wide&Deep模型得出：高阶和低阶的组合特征都非常重要，同时学习到这两种组合特征的性能要比只考虑其中一种的性能要好。

那么关键问题转化成：如何高效的提取这些组合特征。
1、引入领域知识人工进行特征工程。这样做的弊端是高阶组合特征非常难提取，会耗费极大的人力。而且，有些组合特征是隐藏在数据中的，即使是专家也不一定能提取出来，比如著名的“尿布与啤酒”问题。
2、将DNN用于高阶的特征组合，是很自然的想法，通过多层的神经网络去解决高阶问题。但是将One-hot类型的特征输入到DNN中，会导致网络参数太多。

解决思路：将原始数据的one-hot根据不同特征，分别将其编码进行Embedding，这样的可以减少数据稀疏，而且每个feature 在embedding后长度均相同。

然后。将embedding组合输入到两个隐藏层的神经网络，进行高阶特征的组合。

3.2 DeepFM模型结构

从模型结构图不难看出，DeepFM由两部分组成：FM部分和deep部分，且FM部分和deep部分共享相同的原始特征向量输入，这样可以保证DeepFM能够同时学习低阶和高阶特征组合。这样的模型结构最终保留着以下特点：

不需要预训练FM得到隐向量；
不需要人工特征工程；
能够同时学习低阶和高阶的组合特征；
FM模块和Deep模块共享Feature Embedding部分，可以更快的训练，以及更精确的训练学习。

对于特征i，标量wi用来衡量这个特征的1阶重要性，向量Vi用来衡量这个特征和其他特征进行组合后的影响。Vi被输入到FM部分用于对2阶特征组合建模，同时被输入到deep部分用于对高阶特征组合建模。所有的模型参数，包括wi、Vi和其他网络参数可以通过以下的损失函数联合训练得到：

这里，yhat属于(0,1)是预估的ctr，y_{FM}是FM部分的输出，y_{DNN}是deep部分的输出。

从网络结构可以看出，DeepFM模型的网络结构：

输入层（Sparse Features）：输入数据包括类别特征和连续特征；
Embedding层（Dense Embeddings）：该层的作用是对类别特征进行Embedding向量化，将离散特征映射为稠密特征。该层的结果同时提供给FM Layer和Hidden Layer，即FM Layer和Hidden Layer共享相同的Embedding层。
FM Layer：该模型主要提取一阶特征和两两交叉特征；
Hidden Layer：该模块主要是应用DNN模型结构，提取深层次的特征信息；
输出层（Output Units）：对FM Layer和Hidden Layer的结果进行Sigmoid操作，得出最终的结果。

3.3 DeepFM模型详细介绍

输入层

DeepFM的输入可由连续型变量和类别型变量共同组成，且类别型变量需要进行One-Hot编码。正是由于One-Hot编码，导致了输入特征变得高维且稀疏。针对高维稀疏的输入特征，DeepFM采用了word2vec的词嵌入（WordEmbedding）思想，把高维稀疏的向量映射到相对低维且向量元素都不为零的空间向量中，不同的是DeepFM根据特征类型进行了field区分，即将特征分为了不同的field。
在处理特征时候，我们需要对离散型数据进行one-hot转化，经过one-hot之后一列会变成多列，这样会导致特征矩阵变得非常稀疏

如何处理连续性特征与离散型特征，并将它们转换成field需要进一步介绍。

Embedding层（Dense Embeddings）

embedding层对类别特征进行embedding向量化，将离散特征映射为稠密特征。embedding层的输入就是分field的特征，也就是说embedding层完成了对不同特征按field进行了向量化。FM层和Hidden层共享的就是embedding层的输出结果。

FM层（FM Layer）

FM Layer的输入是embedding层的输出，FM Layer主要是提取一阶特征和两两交叉的二阶特征。如上图所示，Field_i、Field_j、Field_m中的黄色圆点指向Addition节点的黑线表示的是FM直接对原始特征做的一阶计算，而embedding层每个field对应的embedding会有两条红线连接到Inner Product节点表示的是FM对特征进行的二阶交叉计算。

观察上图比较容易发现FM Layer 包含一个Addition 和多个 Inner Product内积单元。Addition反映的是1阶的特征。内积单元反映的是2阶的组合特征对于预测结果的影响。

1、FM模块图中，黑线部分是一个全连接，W就是里面的权重。把输入X和W相乘就得到了输出。至于Addition Unit,我们就不纠结了，这里并没有做什么加法，就把他当成是反应1阶特征对输出的影响就行了。

2、这里最后的结果中是在[1,K]上的一个求和。 K就是W的列数，就是Embedding后的维度，也就是embedding_size。也就是说，在DeepFM的FM模块中，最后没有对结果从[1,K]进行求和。而是把这K个数拼接起来形成了一个K维度的向量。

3、FM模块实现了对于1阶（addition）和2阶（inner product）组合特征的建模。

4、FM模型没有进行预训练

5、没有使用人工特征工程

6、embedding矩阵的大小是：特征数量 * 嵌入维度。然后用一个index表示选择了哪个特征。

7、需要训练的两部分：

注意：
1）. input_vector和Addition 相连的全连接层，也就是1阶的Embedding矩阵。
2）. Sparse Feature到Dense Embedding的Embedding矩阵，中间也是全连接。

隐藏层（Hidden Layer）

Hidden Layer主要是应用DNN的模型结构，用于提取深层次的特征信息。Hidden Layer的输入也是embedding层的输出（与FM Layer共享输入）。从embedding层输出到Hidden Layer是一种全连接计算。

输出层（Output Units）

输出层主要对FM Layer和Hidden Layer的结果进行Sigmoid操作，得出最终的结果。

四、详细介绍架构

4.1 FM Component

DeepFM中的FM部分是一个factorization machine，关于FM可以参考这篇博客【推荐系统】推荐算法系列之FM：Factorization Machines。除了所有特征间的一个线性组合（1阶），FM模型也支持以独立特征向量内积形式的成对特征组合（2阶）。相比于先前的方法，FM在处理2阶特征组合的时更有效，尤其在训练数据集是稀疏的场景。在先前的方法中，特征i和特征j的组合参数只有在特征i和特征j同时出现在相同的数据记录中才能得到训练。然而在FM中，这个参数可以通过向量Vi和向量Vj的内积的形式完成更新。这样，FM能够训练Vi（Vj）无论i（j）是否出现在数据记录中。这样很少出现在训练集中的特征组合也能够被FM很好的学习出来。

DeepFM中FM部分的输出是一个Addition单元和许多个Inner Product单元的累加和。

其中，Addition单元（）反应1阶特征的重要性，Inner Product单元表示2阶特征组合的重要性。

从网络结构可以看出，FM部分的网络结构：

输入层（Sparse Features）：输入数据包括类别特征和连续特征；
Embedding层（Dense Embeddings）：该层的作用对类别特征进行Embedding向量化，将离散特征映射为稠密特征；
FM Layer：该模型主要提取一阶特征和两两交叉特征；
输出层（Output Units）：对FM Layer的结果进行Sigmoid操作，得出最终的结果。

4.2 Deep Component

DeepFM中的deep部分是一个前馈神经网络，用来学习高阶特征组合。

DeepFM中的deep部分将一条向量输入到神经网络。通常，点击预估的任务的神经网络输入要求网络结构的设计。点击预估的原始特征输入向量通常是高度稀疏的、超高维、连续值与绝对值混合、按fields分组的形式，这就需要网络中有一个嵌入层（embedding layer）在将向量输入到第一个hidden层之前来将输入向量压缩成一个低维、实值稠密的向量，否则网络将难于训练。

DNN部分模型结构：

从网络结构可以看出，DNN部分的网络结构：

输入层（Sparse Features）：输入数据包括类别特征和连续特征；
Embedding层（Dense Embeddings）：该层的作用对类别特征进行Embedding向量化，将离散特征映射为稠密特征；
Hidden Layer：该模块主要是应用DNN模型结构，提取深层次的特征信息；
输出层（Output Units）：对FM Layer的结果进行Sigmoid操作，得出最终的结果。

4.3 input-layer到embedding-layer的模型结构：

上图展示的是input层到embedding层的网络结构，这个网络结构设计有两点需要说明：

尽管不同field的输入长度不同，但是所有field都会embedding成k维；
FM得到的隐藏特征向量V此时作为用来压缩输入field向量到embedding向量的网络权重。

解释一下上述第2点：假设k=5，首先，对于输入的一条记录，同一个field只有一个位置是1（field是one-hot的形式），那么在由输入得到dense vector的过程中，输入层只有一个神经元起作用，得到的dense vector其实就是输入层到embedding层与该神经元全连接的五条线的权重，即vi1，vi2，vi3，vi4，vi5。这五个值组合起来就是我们在FM中所提到的Vi。在FM部分和DNN部分，这一块是共享权重的，对同一个特征来说，得到的Vi是相同的。

DeepFM将FM模型和DNN模型都当作全面学习的网络结构，这一点跟一些其他的方法中通过预训练FM的隐藏向量进而对网络进行初始化的方式有些不同。这样的方法可以消除对FM的预训练，并且可以通过端到端的方式完成对整个网络的联合训练。

假设embedding层的输出可表示为：

其中，e_{i}是第i个field的embedding，m是field的数量。这样a^{(0)}被输入到DNN网络，其前向传播函数为：

其中，l是DNN每一层的网络深度，\sigma是一个激活函数。a^{{(l)}是网络输出，W}{(l)}是模型权重，b^{(l)}是第l层的偏置项。经过这个网络之后，一个稠密实值特征向量被生成，然后这个稠密实值特征向量被输入到sigmoid函数进行点击预估：

这里，|H|是隐藏层的数量。

需要强调的是FM和DNN共享相同的特征embedding，这样做的好处是：

可以从原始数据中学习低阶和高阶的特征组合；
不需要专门的额外的特征工程（Wide&Deep模型需要特征工程）。

五、超参数设置

这部分简单的给出论文中尝试的DeepFM一些网络参数设置：

Activation Function：relu、tanh，相比于sigmoid，relu、tanh更适合deep模型。
Dropout：We set the dropout to be 1.0, 0.9, 0.8, 0.7,0.6,0.5，Dropout影响一个神经元被保留在网络中的概率，Dropout是折中精度和网络复杂度的一种正则化技术。
Number of Neurons per Layer：DeepFM performs stably when the number of neurons per layer is increased from 400 to 800，In our dataset, 200 or 400 neurons per layer is a good choice，增加每层神经元的个数可能造成网络更复杂，复杂的模型容易过拟合。
Number of Hidden Layers：1, 3, 5,7，增加隐藏层的数量在模型开始的时候会提升效果，但是如果隐藏层的数量一直增加可能会造成效果下降，这也是一种过拟合现象。

六、DeepFM与其他模型的比较

FNN模型是用FM模型预先训练好的embedding做初始输入，之后接dnn，这样做的缺点之一就是embedding受FM模型的影响比较大，而且这样只是提取了高级特征。另外因为需要预先训练FM模型，所以会增加训练复杂度。

PNN模型是在embedding层和隐藏层之间使用了内积（或者外积，或者2者混合）提取了组合特征，之后和原始的embedding层concat组成隐藏层，之后dnn提取高级特征。而且因为内积的输出和后面隐藏层的所有单元都连接，所以参数会很多。deepFM的FM部分的内积后面只接了一个单元。

谷歌的wide&deep模型，wide&deep模型的wide部分的输入特征是需要人为设计的，例如在app推荐的任务中，可能需要设计一些组合特征。deepFM模型直接把原始特征作为输入，用deep模型和FM自动提取特征，不需要做特征工程。

一个主要的扩展就是将谷歌的wide&deep模型的wide部分用FM代替，后面实验会说明这样效果没有deepFM好。论文中的解释是deepFM模型特征的embedding是共享的，这样学到的embedding会更好一些。也就是说它做扩展实验的时候并没有设成共享的？我个人觉得还有一个原因就是wide部分的交叉特征如果是用FM的话，一般交叉特征出现的频率很低，学到的交叉特征的embedding并不好。

虽然后面实验表明deepFM比wide & deep模型效果好，但是会不会只在他们的数据集上比较好，因为FM只是提取了交叉特征，丢掉了单个特征，如果某个特征很重要的话，感觉wide & deep效果会更好一些？或者会不会类似PNN的方法，把单个特征和交叉特征都用上，之后再接lr，会好一些呢？

七、实验

数据集：Criteo数据集 4500万用户点击记录

公司的数据集 10亿用户点击记录

评价方式：AUC 和logloss

结果：

八、代码实现（出自某位大佬）

github链接为：https://github.com/ZiyaoGeng/Recommender-System-with-TF2.0

数据集采用的是：Criteo,下载链接为：(https://pan.baidu.com/s/1sYsY88APFTNldcZ2n3sKlA)：96f2

九、总结

总体来讲，我感觉最大的优势就是不需要人为设计特征，可以自动捕获到高级和低级特征组合，也不需要提前预训练。

目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
《现代通信原理与技术》模拟调制与解调—FM 调制实验报告不想秃头的程序人工智能 matlab 信息与通信信号处理
摘要本实验旨在通过MATLAB软件进行模拟调制与解调的实践，加深对频率调制（FrequencyModulation,FM）原理的理解，并掌握FM调制与解调的实现方法。关键词：MATLAB引言在现代通信系统中，调制技术是实现信息传输的核心方法之一。频率调制（FrequencyModulation,FM）作为一种重要的模拟调制方式，通过改变载波信号的频率来传递信息，广泛应用于广播、电视、无线通信等领域
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
End-To-End 之于推荐-kuaishou OneRec 笔记 ASKED_2019 RecSys 笔记
核心思想OneRec提出了一种统一的生成式推荐系统架构，打破了传统“召回-粗排-精排”级联式推荐流程，使用单一生成模型同时完成召回与排序任务。该系统由快手团队研发，并成功部署于短视频主场景。OnlineA/BTest表现：模型总观看时长平均观看时长OneRec-1B+IPA+1.68%+6.56%一Input处理Userpositiveactionsequence，将短视频的多模态表征，通过量化的
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【RAG面试题】如何获取准确的语义表示
目录回答模板语义表示是干什么的？如何获取准确语义表示的关键步骤？1.选择合适的Embedding模型2.正确的文本预处理与切分3.文本清洗与标准化4.构建合理的向量库5.检索质量验证与优化详细知识点覆盖面试回答技巧回答模板在RAG中，准确的语义表示直接影响检索相关性。通常会从以下几方面确保语义表示准确：选择高质量的嵌入模型，如bge-m3或text-embedding-v1；正确的预处理和切分：采
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。