PaperWeekly

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

©作者 | Glenn

单位 | 腾讯

研究方向 | 数据挖掘、计算广告

背景

如下图 [1][2]，阿里妈妈的精排模型，经历了从传统 LR、MLR 到深度模型 GwEN，再到用户兴趣建模的过程。

传统的深度模型（如GwEN），一般采用 Embedding&MLP 的形式，它会将用户的所有兴趣信息转化为一个定长的向量。但用户的兴趣是多样的，定长的向量可能不足以表达。而且评估用户对于不同商品/广告的兴趣时，应该使用不同的行为（判断用户是否喜欢衣服，应该关注用户对衣服的历史行为与兴趣程度；判断用户是否喜欢包包，则关注用户对包包的历史行为）。因此盖坤团队提出 DIN，从用户行为中提取与目标商品相关的多峰兴趣；

DIN 模型更多是从挖掘多峰兴趣角度出发，没有考虑行为的序列信息，兴趣的变化也能给模型提供信息，因此有了 DIEN；这两个模型后，用户兴趣建模划分出了 2 个研究分支，一个是用户长期兴趣建模（MIMN、SIM），该分支依然是盖坤团队主导的；另一个分支则是从 session 的角度，对行为做进一步划分（DSIN）。

DIN [3][4]

2.1 简介

如上左图是传统的 Embedding & MLP 模型，处理行为数据采用 sum-pooling 得到定长的 embedding [2,3]。

这里行为的定义可以是广告点击、商品购买、加购物车等，每个行为节点由 3 个 embedding 拼接组成（商品 ID、商品类别 ID、商铺 ID）。

右图是 DIN 的模型结构，作者将每个行为节点（）与候选节点做交叉得到权重（即途中的 activation unit），再通过 weighted-sum-pooling 的模型得到行为的 embedding，即

其中，u 是用户，A 是商品/广告，为候选商品的 embedding。这样，对于每个候选商品，提取的用户行为 embedding 是不同的。

作者在实验部分可视化了 activation unit 的结果，和候选商品相关的行为节点会贡献较大的权重，符合认知

2.2 创新细节

这种行为兴趣的建模方式，在实际应用时会遇到一些问题：

1. 行为数据的参数量巨大（商品 ID 可能就百/千万），模型容易过拟合；引入 L2 正则，参数量大训练缓慢。

2. 针对不同的候选节点，用户的兴趣 embedding 不同，波动大会影响 MLP 部分的模型收敛。

解决方案

1. 提出 Mini-batch Aware Regularization。L2 正则缓慢的原因是每个 mini-batch 会对模型的所有参数做正则，但其实每个 minibatch 只使用了部分的商品 ID。因此更好的做法是，每个 mini-batch 只对使用到的商品 ID 计算 L2 正则。实验证明，通过这种方式，能有效缓解过拟合现象，同时确保训练效率。

2. 作者针对 MLP 部分的激活函数（PReLU）做优化，提出更具泛化性的 Dice，这种激活函数可以根据输入数据的均值和方差，动态调整函数形态。在后续的论文中，模型也延用了这种激活函数。

PReLU：数学公式如下，其中，为指示函数
Dice：数学公式如下

2.3 优缺点

1. 该模型能动态获取用户的多种兴趣。但没有考虑行为的先后关系（序列）、兴趣的变化过程等。

2. 候选商品与每个行为节点计算权重，仅适用较短的行为序列（论文中采用 14 天的曝光日志，每个用户平均 35 个行为）。

3. 对比传统的 Embedding&MLP 的模型，计算复杂度提升。上线时也做了一些 GPU-CPU 的计算优化。

DIEN

3.1 简介 [5][6]

针对 DIN 没有考虑行为先后关系、兴趣变化过程的问题，盖坤团队继续优化模型结构，引入 GRU 提取行为序列中的信息，并结合 DIN 中目标 AD 与行为节点计算权重的模式（Attention），提出 AUGRU 进一步挖掘兴趣变化中的信息。

3.2 创新点

提出了兴趣提取层（Interest Extractor Layer）和兴趣演进层（Interset Evolving Layer）两个创新点：

1. 兴趣提取层（上图米色部分）

实际业务场景中，用户的行为序列可能比较长（14 天数据平均 30+ 长度），为了避免梯度消失，作者采用 GRU 提取隐式信息。

考虑到整个模型结构较复杂，只有一个最终 loss 不足以训练时序结构。作者在特征提取层引入了辅助 loss。

具体的，GRU 本身也是用于预测下一个行为节点，故可以引入此任务做辅助。假设用户 i 的行为序列为，在时刻 t，GRU 的输出为，t+1 时刻的行为节点为，我们随机采样的其他节点为。则辅助 loss 为

其中，

整体 Loss 为：

2. 兴趣演进层

兴趣提取层主要学习序列信息，但是序列中那些节点更有助于判别用户对候选 AD 的兴趣呢？作者借鉴 DIN 的方法，提出 Attention 的机制，计算兴趣提取层中每个隐层输出与候选 AD 的相关性。

考虑到隐层行为本身是序列相关了，为了不打破这种序列关系，作者考虑将相关性计算融入序列，提出 AUGRU。

具体的，是将上述计算的权重，作为 GRU 更新门 [7] 的一部分，如下

更新门：
输出：

实验中，作者也可视化了引入权重后，序列 embedding 会有较强的指向性变化（如下左图中，曲线是对演进层每个输出做 PCA 后链接其他的结果，黄色是没有 attention 的结果，蓝色是目标 AD 与行为均不相关时的结果，红色是目标 AD 与某个行为相关时的结果）。

3.3 优缺点

1. 引入 GRU 提取行为序列信息，但模型结构复杂，上线时除了做 GPU-CPU 的计算优化，作者还提到模型压缩，互殴去相对轻量级的模型上线

2. 吃不下过长的行为序列，LSTM/GRU 一般能承受的行为序列长度为 30-50；实验中采用 49 天数据，每个样本行为序列为 14 天（序列长度 150 截断）

MIMN[8][9]

4.1 动机和目标

DIN、DIEN 处理的序列长度都有限（最大为 150），而离线实验验证，采用的行为序列越长，模型收益越大。因此意愿上是期望使用更长（1000）的行为序列（long-life），但长的行为序列会带来两个问题。

1. 存储限制：天猫广告业务上，6 亿用户，14 天行为序列（最大长度 150），消耗 1TB 的存储，如果序列长度放开到 1000，预计消耗 6TB（估计也用不到，毕竟大序列的可能都属于长尾）。

2. 时延限制：精排一般是 10ms，DIEN 上线已经达到 14ms，如果继续拉大序列长度，预计时延会达到 30ms。

针对上述两个问题，作者开始了优化 MIMN 的优化之路。

4.2 计算分离（User Interest Center）

维护一个离线的用户兴趣中心，存储当前时刻的兴趣 embedding 结果（存储序列消耗资源大，存不下），每次有新的用户行为进来时更新 embedding。广告请求来时，给 UIC 发请求，获取兴趣 embedding 供线上计算。

4.3 长序列兴趣提取

UIC 的解决方案会引入一个新问题，如果保存当前时刻的 embedding，并且这个结果是能增量更新的？作者借助记忆网络 NTM 来处理这个问题。整体模型结构如下，左下角部分为行为序列处理结构，Controller、Read Head、Witer Head、M 均为 NTM 的原始模型结构，Memory Induction Unit 为作者创新的部分。

离线计算时，左下角的结构能得到当前时刻每个用户的行为序列特征 S，兴趣矩阵 M，并存储在 TAIR 存储系统中。线上请求到来时，查询 TAIR 里对应用户的特征序列和兴趣矩阵，并将候选 AD 的 embedding（）输入模型的 Controller 部分，今儿提取相关的兴趣和序列结果，作为 MLP 模型输入的一部分。

论文重点介绍了 NTM、Memory Induction Unit 两部分：

1. NTM

这是 Google 于 14 年提出的记忆网络结构，该结构由 Controller、Memory 两部分构成，Memory 存储了一个记忆矩阵。这里，作者把矩阵的每一行想象成一种兴趣类型。Controller 可以想象成 MLP/LSTM 等结构。

整个模型包括两种操作：

1）读操作：在线请求时用，输入是候选商品 /AD 的 embedding

将外部输入经过 Controller 得到读操作头
计算存储矩阵中每一行结果（论文里作者当作用户某种类型的兴趣）与读操作的相关性，作为特征的权重，即
其中
加权求和输出请求结果

*论文里介绍的相对简单，其实还包含了平滑、锐化等操作，更进一步的了解可以参考 [10]。

2）写操作：离线计算，初始训练/用户新增行为时用

将新增行为经过 Controller 得到写操作头，包含 Erase Vector（）和 Add Vector（）两部分
更新存储矩阵：

*具体操作可以参考 [11]

2. 创新点

（1）存储利用的归一化（Memory Utilization Regularization）

这是针对写操作的一种优化。行为序列中的 Item 也存在马太效应，大量热门 item 的进入，导致写操作存在大量相同的输入（写操作头相同），此时存储矩阵中的某些行被频繁更新，某些行却被忽略。作者提出优化写操作头的构造方法。

具体的，假设原来的写操作权重为，作者引入累积更新权重、对写操作头做了新一层的封装，如下：

其中为待训练参数，为累积的更新权重。

在此基础上，作者在损失函数增加了正则化项限制累积更新权重的方差

其中。

（2）Memory Induction Unit（MIU）

NTM 的结构没有提取时序信息，作者提出 MIU 的结构，获取每个时刻行为序列的结果。具体的，对于时刻 t，作者从读操作权重中选择 top k，即

402 Payment Required

，并提取到对应的存储矩阵结果，经过 GRU 得到每个时刻的 embedding

4.4 优缺点

1. 时延：提出计算分离的模式，使得模型处理长序列（序列长度为 1000）都不存在时延的压力，如下图

2. 存储：提出 NTM 的结构，存储系统只需要为每个用户维护存储矩阵 Mt 和序列矩阵 S，不需要单独保存行为序列，存储量从 6T 转为 2.7T

3. 效果：计算分离后，兴趣的提取无法很好的和候选 AD / 商品交互（仅通过存储矩阵实现交互），可能会对效果有损

4. 同步：时序模块的结果和 ctr 模型是异步更新的，行为序列频繁更新可能导致模型效果波动，需要有一定的回滚机制

5. 适用性：当用户行为丰富且行为更新频率没有远高于请求时，可以使用该模型。这是因为该模型时针对长序列行为建模的，行为数据不丰富当然不必使用。而如果用户行为更新频繁，ctr 模型都来不及更新，可能会使预测结果产生波动。

6. 其他：作者提到双 11 时虽然行为数据丰富，但用户行为特殊，提取出来做特征效果反而下降。

SIM [12][13]

5.1 简介

MIMN 虽然通过计算分离的方式确保了时延方面无压力，但也带来了更新频率不一致，行为序列无法与候选 AD 更好的交互等问题。线上使用时，作者发现当序列长度超过 1k 时，MIMN 效果会变差（也是因为无法与候选 AD 交互）。

基于这些问题，作者干脆直接模仿推荐系统多阶段过滤的方法，第一阶段通过相对粗略的搜索模式，提取行为序列中与候选 AD 较相关的节点，第二阶段通过精准搜索的模式，得到序列与候选 AD 的关系，并形成 embedding 供 MLP 使用。这个模型能吃下的最大序列长度为 54000，能满足工业界提取长期用户兴趣的需求

5.2 泛搜索结构（第一阶段）

如上图左侧所示，作者的重点是提取长期行为中（短期的默认全取，论文的工业数据集中短期指 14 天内的行为），与候选商品相关的行为节点。作者提出两种匹配方法：

1. Hard Search：核心思想是只提取和候选商品相同类目的行为信息。具体的，在线维护一个“用户 ID -商品类目 ID -行为商品 ID”的双层索引数据。请求到来时，直接检索对应类目的行为商品序列。

2. Soft Search：通过类似 ANN 的商品召回结构，获取与候选商品相关的行为节点。

Serving 阶段：假设行为序列为，候选 AD 的 embedding 为，则基于 dot-product + 近邻搜索（ALSH）的方式（），得到最相关的 Top K 个长期行为。
模型训练阶段：通过采样的方式得到若干行为，通过加权 sum-pooling 的方法得到行为 embedding（），与目标 AD 的 embedding 拼接后送入 MLP 训练 CTR 模型，得到行为的 embedding 结果。

实际业务中，发现两种搜索模式的效果并没有太大差异，而性能上，明显 Hard Search 更有优势，因此线上采用 Hard Search（存储消耗 22TB。。。）

5.3 精准搜索结构（第二阶段）

该阶段，模型的输入分为 4 部分，用户画像，候选商品，短期行为序列和筛选出的长期行为序列（），短期行为序列的信息提取采用 DIEN 的结构。而筛选的长期行为序列，因为行为发生时间与当前有一定距离，作者单独使用的 attention 结构去提取特征。

作者引入行为发生时间与当前时刻的时间差信息，并编码成 embedding（），与行为序列的 embedding（）做拼接，作为长期行为节点的 embedding（）。然后利用 multi-head attention 的机制提取 emebdding 特征送入 MLP，即

其中

整体的 Loss 为两阶段 loss 的加权和（第一阶段采用 hard search 时，否则）

5.4 优缺点

1. 从实验看，SIM 基本能满足工业界对用户长期兴趣提取的要求，对比 DIEN，模型在对长期兴趣的提取效果是显著的。如下左图，横坐标表示的是用户当前时刻点击了某类别商品与上一次点击该类别商品的时间差，曲线表示样本分布情况，可以看到点击样本的基本在 14 天以内。直方图表示对比 DIEN，SIM 的 AUC 提升情况，可以看到对于命中长期兴趣的点击样本，SIM 的效果远优于 DIEN。

2. 时延方面，SIM 因为要处理 1w+ 的序列信息，性能比 MIMN 要弱一些，但18ms的时延也基本满足实时性的要求。

3. SIM 号称能够处理的序列长度是 54000，对于阿里广告业务而言，相当于 180 天的广告行为，已基本覆盖用户长期兴趣建模所需的时间长度。

DSIN [14][15]

6.1 动机的目标

这篇论文没有从提取长期行为的角度出发，而是在时间间隔上做文章。DIEN 直接将 14 天的行为无差别的拼接，没有考虑 session 的概念，但是用户的行为，在不同的 Session 中有明显差异。如下图，作者将行为间隔不超过 30min 的部分归纳为一个 session，发现，同一个 session 内，用户点击的商品具有明显的指向性，而不同 session 间，用户的点击行为有明显差异。

6.2 创新点

针对这一现象，作者将行为划分为多个 session，并提出兴趣抽取、兴趣交互（序列）、兴趣激活层 3 部分。

1. 兴趣抽取（Session Inerest Extractor Layer）

该部分作者使用 transformer 的结果，首先引入了 bias-encoding（会对每个 session，每个行为节点的位置，每个 embedding-bit 位构建全局共享的 embedding），即

其中，K 是 session 的个数，T 是每个 session 内行为节点的个数，C 是每个行为节点的 embedding 大小。

则 transformer 的输入为行为序列与 bias-encoding 的相加结果，即。

接着通过 multi-head self-attention 的机制，得到多个兴趣结果（）。

2. 兴趣交互（Session Inerest Interacting Layer）

该层作者提出通过 Bi-LSTM 的结构提取兴趣序列信息，。

3. 兴趣激活（Session Inerest Activating Layer）

借鉴 DIN、DIEN 的思想，将兴趣、序列信息分别和目标 AD 做 Attention，加权求和后得到 MLP 的输入，即

对于兴趣结果，有：，其中
402 Payment Required
。
对于序列结果，有：，其中。

后记

本文回顾了阿里妈妈，精排阶段-用户兴趣模型的发展过程，GWEN->DIN->DIEN->MIMN->SIM->DSIN [16][17]。这一系列的变动，从无用户行为输入，到提取多峰兴趣，再到短期行为特征，最后长短期兴趣提取。基本上，模型也能满足业界对兴趣建模的大部分需求。

但实际应用中，SIM 的检索树要吃 22TB 内存，MIMN 整个模型结构和上线方案都比较复杂（不太优雅）。用户兴趣的提取，除了直接将行为序列灌入模型，是否还有别的补充方法，比如在画像建模时，就直接构建 [时间窗 X 类目 X 行为类型 X 强度] 的商品类目兴趣。虽然从模型的角度看，这种建模会削弱候选 AD 与行为节点的交互，但也能在一定程度补充用户兴趣特征的缺失，同时长期兴趣的构建通过这种模式也会比较稳定。

当前模型仅处理广告点击序列的信息，如果同时考虑用户浏览、加购物车、与商家是否有沟通、其他组件的点击等行为，序列将非常长且多样化，是否还可以设计新的模型进一步优化（或者离线画像帮忙分担，特别是长期兴趣部分）。

参考文献

[1] DataFunTalk：阿里新一代Rank技术 https://zhuanlan.zhihu.com/p/442477196

[2] 新智元：【阿里算法天才盖坤】解读阿里深度学习实践，CTR 预估、MLR 模型、兴趣分布网络等 https://zhuanlan.zhihu.com/p/35599271

[3] DIN论文 https://arxiv.org/pdf/1706.06978.pdf

[4] 王喆：推荐系统中的注意力机制——阿里深度兴趣网络（DIN） https://zhuanlan.zhihu.com/p/51623339

[5] DIEN 论文 https://arxiv.org/pdf/1809.03672.pdf

[6] yymWater：详解阿里之Deep Interest Evolution Network(AAAI 2019) https://zhuanlan.zhihu.com/p/50758485

[7] Evan：深入理解lstm及其变种gru https://zhuanlan.zhihu.com/p/34203833

[8] MIMN 论文 https://arxiv.org/pdf/1905.09248.pdf

[9] 被包养的程序猿丶：阿里妈妈长期用户历史行为建模——MIMN模型详解 https://zhuanlan.zhihu.com/p/94432395

[10] 呜呜哈：记忆网络之Neural Turing Machines https://zhuanlan.zhihu.com/p/30383994

[11] 徐阿衡：论文笔记 - 从神经图灵机 NTM 到可微分神经计算机 DNC https://zhuanlan.zhihu.com/p/33852794

[12] SIM 论文 https://arxiv.org/pdf/2006.05639.pdf

[13] 梦醒潇湘：[SIM论文] 超长兴趣建模视角CTR预估：Search-based Interest Model https://zhuanlan.zhihu.com/p/154401513

[14] DSIN 论文 https://arxiv.org/pdf/1905.06482.pdf

[15] Ethan Wong：DSIN（Deep Session Interest Network ）分享 https://zhuanlan.zhihu.com/p/89700141

[16] kylin：深度兴趣网络DIN-DIEN-DSIN https://zhuanlan.zhihu.com/p/101541576

[17] 小范同学：推荐系统CTR预估：用户兴趣建模 https://zhuanlan.zhihu.com/p/416350009

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

你可能感兴趣的:(大数据,算法,python,机器学习,人工智能)

python基础笔记大大的大大笔记 python 前端数据库
输入就是print()；#括号里面双引号(“xxxx”)=单引号('xxxx')必须在一行；但是三引号"""xxxx"""='''xxx'''可以换行输出；#'''xxxnnn'''xx=open(('C:\py\py笔记.txt','a+')print('hello',file=xx)xx.close()可以在python中新建文本文本档等(看后缀)："xx"=open('C:\py\py笔记.
python venv不适合变更路径（路径变更）的几种解决方案（venvpack、pip download、pip install --no-index --find-links=packages）
文章目录**为什么会出现路径问题？**1.**`pyvenv.cfg`文件**：该文件记录了虚拟环境的Python解释器路径（`home`字段）。如果源和目标机器的Python安装路径不一致，虚拟环境将无法找到正确的解释器。2.**脚本路径硬编码**：虚拟环境中的激活脚本（如`activate`）和可执行文件（如`python`）可能包含绝对路径或硬编码的相对路径，导致路径不匹配时失效。**解决方
python-程序编程-实例“温度转换”
实例：温度刻画的两种不同的体系。摄氏度、华氏度需求：将两种不同的摄氏度进行转换。问题分析：输入：输入一个华氏度的温度或者摄氏度的温度值处理：根据温度标志进行温度转换。输出：输出一个带华氏度或者摄氏度的温度值。(f代表华氏度，c代表是摄氏度)c=(f-32)/1.8f=c*1.8+32代码如下：temp=input("请输入有符号的温度值")iftemp[-1]in['f','F']:c=(eval
AI产品经理成长记《零号列车》第一集邂逅0XAI列车黑客思维者 AI产品经理养成人工智能 AI产品经理大模型智能体
《零号列车》绝非传统意义上的AI产品经理教程——它是我沉淀二十多年跨行业数字化转型与工业4.0实战经验后，首创的100集大型小说体培养指南。那些曾在千行百业验证过的知识与经验，不再是枯燥的文字堆砌，而是化作一场沉浸式的学习旅程。这里没有生硬的理论灌输，而是用跌宕起伏的故事情节，串联起AI技术的底层逻辑。你会跟着角色的脚步推进剧情，在不知不觉中吃透机器学习、大模型应用等专业概念；更有深入浅出的技术拆
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
基于Docker构建Python后端项目落地总结
Docker使用总结基于Dockerfile的镜像构建示例dockerfile解析#加载centos7的最小镜像源FROMcentos:7RUNyumcleanallRUNyum-yupdate#修改时区RUNln-sf/usr/share/zoneinfo/Asia/Shanghai/etc/localtime&&echo"Asia/Shanghai">/etc/timezone#安装中文支持R
python集合常用函数 Lo-Y-eH python
Python集合是一种无序、可变且不重复的数据类型，常用于处理一组唯一的数据。下面是常用的Python集合函数及其用法：add()：向集合添加一个元素。s=set()s.add(1)s.add(2)s.add(3)print(s)#输出{1,2,3}clear()：移除集合中的所有元素。s=set([1,2,3])s.clear()print(s)#输出set()copy()：返回集合的一个浅拷贝
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等） Python爬虫项目 python 爬虫自动化智能家居数据分析开发语言运维
1.引言学术会议是研究人员获取最新科研成果、发表论文、交流思想的重要平台。对于研究者而言，掌握最新的会议安排、论文提交截止日期、会议议程以及演讲嘉宾等信息至关重要。然而，学术会议信息通常分散在不同的官方网站上，人工查找和整理这些数据既费时又容易遗漏。为了提高效率，我们可以使用Python爬虫自动化获取学术会议数据，包括：会议名称、日期、地点论文提交截止日期会议议程及嘉宾信息论文录用结果重要通知及相
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
子图同构算法-VF2（java实现） xitianxiaofeixue java 数据结构
子图同构算法-VF2（java实现）最近在项目中用到了子图同构算法VF2，自己查找的时候发现csdn上没有太详细的博客，所以在这里记录一下。内容主要来自一篇论文（A(Sub)GraphIsomorphismAlgorithmforMatchingLargeGraphs）一、什么是VF2算法 VF2算法是一种子图同构算法，而子图同构我们可以这样定义：假设有两个图H=(VH,EH)H=(VH,EH
Python条件语句(if-elif-else)的完整用法与嵌套技巧梦幻南瓜 python python 网络服务器
引言条件语句是编程中最基础也是最重要的控制结构之一，它使程序能够根据不同条件执行不同的代码路径。Python中的条件语句以if、elif和else关键字实现，语法简洁但功能强大。本文将全面介绍Python条件语句的各种用法，从基础语法到高级嵌套技巧，通过大量代码示例、对比表格和实际应用场景，帮助你掌握条件语句的精髓。1.条件语句基础1.1基本语法结构Python条件语句的基本结构如下：if条件1:
Java 递归方法详解：从基础语法到实战应用，彻底掌握递归编程思想大葱白菜 java合集 java 开发语言个人开发后端学习
作为一名Java开发工程师，你一定在开发中遇到过需要重复调用自身逻辑的问题，比如：树形结构处理、文件夹遍历、斐波那契数列、算法实现（如DFS、回溯、分治）等。这时候，递归方法（RecursiveMethod）就成为你不可或缺的工具。本文将带你全面掌握：什么是递归方法？递归的三要素（边界条件、递归公式、递归方向）递归与循环的对比常见递归问题与实现（阶乘、斐波那契、汉诺塔、树遍历等）递归在真实项目中的
Python特性：装饰器解决数据库长时间断连问题超龄超能程序猿数据库 python
前言在基于Python的Web应用开发里，数据库连接是极为关键的一环。不过，像网络波动、数据库服务器维护这类因素，都可能造成数据库长时间断连，进而影响应用的正常运作。本文将详细介绍怎样运用retry_on_failure装饰器来解决数据库长时间断连的难题一问题背景在实际开发场景中，应用和数据库之间的连接可能会由于各种缘由中断（长时间系统无人访问，再次访问，数据库连接超时）。当应用尝试执行数据库操作
【图像分割】基于模糊聚类FCM和改进的模糊聚类算法实现CT图像分割matlab代码天天Matlab科研工作室图像处理 Matlab各类代码算法聚类 matlab
1简介医学影像分割的基本目标是将图像分割成不同的解剖组织，从而可以从背景中提取出感兴趣区域。因为图像的低分辨率和弱对比度，实现医学影像分割是一件具有挑战的任务。而且，这个任务由于噪声和伪阴影变得更加困难，这些干扰项可能是因器材限制、重建算法和患者移动等原因造成的。目前还没有通用的医学图像分割算法，算法的优点和缺点经常根据所研究的问题而变化。将分割概念具体到颅内出血CT图像上，就是将颅腔中的出血病灶
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
FPGA通信设计十问
1.FFT有什么用？FFT（快速傅里叶变换）是离散傅里叶变换（DFT）的高效实现算法，它的核心作用是快速将信号从时域转换到频域，从而简化信号分析和处理的过程。自然界的信号（如声音、图像、电磁波等）通常以时域形式存在（即随时间变化的波形），但很多特性（如频率成分、谐波分布）在频域中更易分析FFT能快速计算信号中各频率分量的幅值和相位。可以进行频率拆分与实时处理。FFT是“信号的透视镜”，让我们能“看
Python 字符串前缀详解
Python提供了多种字符串前缀，用于改变字符串的创建方式和行为。下面我将全面汇总并详细解释每种字符串前缀的特性、用途和示例。1.原始字符串(RawString)-r前缀语法:r'...'或r"..."作用:禁用字符串中的转义字符反斜杠\被视为普通字符特别适合处理包含大量反斜杠的字符串适用场景:文件路径(特别是Windows路径)正则表达式需要保留反斜杠的任何情况示例:#普通字符串中的转义path
Python中的条件语句：if-else使用指南 AI软件改变生活 Python 数据库前端 python
在编程中，条件语句是控制程序流程的核心工具之一，它允许程序根据不同的条件执行不同的代码块。Python提供了简洁而强大的条件语句语法，其中最常用的就是if-else语句。本文将详细介绍Python中if-else的使用方法、常见用法以及一些高级技巧。1.基本语法if-else语句的基本结构如下：Python复制if条件表达式:#如果条件表达式为True，执行这里的代码块passelse:#如果条件
这么简单的从零到一做HTML 网页，你确定不来看看吗？ paid槮 html 服务器前端
HTML网页的介绍HTML(HypertextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言,是一种与Python不同的编程语言。网页文件的扩展名通常为,html或.htm,这两种扩展名都可使用,并不会影响文件内容简单的HTML网页框架每一个HTML网页都包含一个基础框架，其他的内容都是在基础框架内进行扩充的。示例代码:这里是标题在这里填入正文这是一个较为基础的HT
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
Python 2和Python 3的区别？山禾家的猫
Python社区，有这么个怪问题：“学Python到底是学2还是学3？”这个问题就像月经一样每隔断时间就出现在你面前，也成了很多初学者的选择困惑，这个问题的“始作俑者”当然是Python它爹，大家众说纷纭，有说Python2是主流，大公司都在用，你应该学2。也有说Python3才是未来主流，大多数第三方框架已基本支持Python3。个人看法是Python2还会存在很长一段时间（只要那些用Pytho
Python基础和高级【抽取复习】斟的是酒中桃 python 学习
1.Python的深拷贝和浅拷贝有什么区别？浅拷贝【ls.copy()】：将列表的不可变对象【值】复制一份，同时引用其中的可变对象【列表】，共用一个内存地址深拷贝【ls=copy.deepcopy(list)】：完全的复制原可变对象，生成新的可变对象，两个对象互相独立2.列表和元组的区别是什么？1.列表概念：有序序列，使用[]定义，元素之间用，隔开有序序列增删改操作：可以增删改列表的任意元素不可变
FPGA相关通信问题详解霖12 fpga开发笔记信号处理信息与通信学习开发语言
首先感谢大佬@征途黯然.-CSDN博客的就我的上篇文章《FPGA通信设计十问》提出的问题，我在此做出回复一.解释FFT（快速傅里叶变换）如何在FPGA的IP核中高效实现FFT作为将时域信号转换为频域的核心算法，其在FPGA中的高效实现依赖于硬件架构与算法特性的深度适配。1.流水线架构：提升吞吐量FFT的核心是“蝶形运算”，其计算过程可分解为log2(N)级（N为FFT点数），每级包含N/2次蝶形运
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
[Python]Python中if-else的语法，用法示例 LN花开富贵 Python python 学习笔记嵌入式单片机 opencv
Python中多条件判断通过if-elif-else结构实现，elif是elseif的缩写。一、基础语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件2为真时执行的代码块elif条件3:#条件3为真时执行的代码块else:#所有条件均不满足时执行的代码块顺序判断，当第一个条件满足时其对应的代码块会被执行，后续elif的条件不在检查，如果都是if语句，那么执行完第一个if后后面的i
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
python源码下载
python源码下载(2010-12-1823:11)不知道python.org一直被堵在墙外…1、http://ftp.python.org/ftp/python/2、http://www.python.org/ftp/python/
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

DIN [3][4]

2.1 简介

2.2 创新细节

2.3 优缺点

DIEN

3.1 简介 [5][6]

3.2 创新点

3.3 优缺点

MIMN[8][9]

4.1 动机和目标

4.2 计算分离（User Interest Center）

4.3 长序列兴趣提取

402 Payment Required

4.4 优缺点

SIM [12][13]

5.1 简介

5.2 泛搜索结构（第一阶段）

5.3 精准搜索结构（第二阶段）

作者引入行为发生时间与当前时刻的时间差信息 ，并编码成 embedding（ ），与行为序列的 embedding（ ）做拼接，作为长期行为节点的 embedding（ ）。然后利用 multi-head attention 的机制提取 emebdding 特征送入 MLP，即

5.4 优缺点

DSIN [14][15]

6.1 动机的目标

6.2 创新点

402 Payment Required

后记

你可能感兴趣的:(大数据,算法,python,机器学习,人工智能)

作者引入行为发生时间与当前时刻的时间差信息，并编码成 embedding（），与行为序列的 embedding（）做拼接，作为长期行为节点的 embedding（）。然后利用 multi-head attention 的机制提取 emebdding 特征送入 MLP，即