QYQ_QYQ

KDD2019-2020论文笔记

重参数技巧 Re-parameterization Trick

重参数就是把带有随机性的变成确定性的节点，同时随机性用另一个输入节点代替。

例一：VAE

举简单的VAE(变分自编码器)的例子说明：一个连续分布(正态分布)的重参数

最原始的自编码器： 左右两边是端到端的出入输出网络，中间的绿色是提取的特征向量，这是一种直接从图片提取特征的方式。

VAE: 不直接用网络去提取特征向量，而是提取这张图像的分布特征，也就把绿色的特征向量替换为分布的参数向量，比如说均值和标准差。然后需要decode图像的时候，就从encode出来的分布中采样得到特征向量样本，用这个样本去重建图像。

这时怎么计算梯度的问题就出现了：原本，网络中参数包括前向传递和反向传递（如下图左半部分），现在我们计算出P(Z)后，依概率采样（np.random.choice），由P(Z)得到样本z没问题，但反向传递时如何找到并更新P(Z)就有问题了。

应用重参数技巧解决该梯度传导问题：

假设图中的和表示VAE中的均值和标准差向量，它们是确定性的节点。而需要输出的样本是带有随机性的节点，重参数就是把带有随机性的变成确定性的节点，同时随机性用另一个输入节点代替。例如，这里用正态分布采样，原本从均值为和标准差为的正态分布(,2)中采样得到。将其转化成从标准正态分布(0,1)中采样得到,再计算得到=+⋅。这样一来，采样的过程移出了计算图，整张计算图就可以计算梯度进行更新了，而新加的的输入分支不做更新，只当成一个没有权重变化的输入。

目标采样的分布：(,2) (设采样出的样本为)
base 分布：(0,1) (设采样出的样本为)
从到的关联：=+⋅
通过将的随机性转移到上

例二：gumbel-softmax （离散分布情况）

应用场景：首先需要可以采样，使得离散的概率分布有意义而不是只取概率最大的值，其次需要可以计算梯度。

如：例如网络输出的四维向量为=[−20,10,9.6,6.2]，第二个维度取到最大值10。
希望从符合() =[0,0.591,0.396,0.013]的分布中采样，即希望采样出第二维[0,1,0,0]的类别的概率是最大的，为0.591。这和多类别的分类任务是一个道理。但是这种取法有个问题是不能计算梯度，也就不能更新网络。

通过控制大于0的温度参数来平滑分布。当->0时，分布趋于one-hot形式；当->+∞，分布趋于均匀分布

目标分布：维向量
base分布：−log(−log())，为从均匀分布(0,1)中采样的独立样本
随机性被转移到上

加上gumbel噪声以后的采样效果：

KDD2019-2021

KDD2020 Gemini: A Novel and Universal Heterogeneous Graph Information Fusing Framework for Online Recommendations

(滴滴出行) 一个新颖的通用异构图信息融合框架

背景和挑战：

网络嵌入用于推荐系统的研究中，很多研究者致力于利用额外的辅助信息来提高推荐性能，但辅助信息缺乏对所有推荐场景的兼容性，同时降低模型的通用性
用户和项目之间的异构性加剧了网络信息融合的难度。（若通过将用户-项目异构网络转换为两个同构图，即用户-用户和项目-项目，然后分别融合信息。由于忽略了原始图中的相邻关系，这可能会限制学习嵌入的表示能力）
用户项目交互的稀疏性。

动机：

如何构建一个统一的推荐系统来解决所有这些场景的推荐需求是一个巨大的挑战，尤其是在面临用户-项目交互的稀疏性问题时。

方法：

我们提出了一个通用有效的框架Gemini，它只依赖于公共交互日志，避免了对辅助信息的依赖，保证了更好的通用性。同时，为了保持原有异构图上的相邻关系，Gemini 分别从用户和项目的角度将原始的用户-项目异构图转化为两个半同构图。转换后的图由两种类型的节点组成：来自同构节点的网络节点和来自异构节点的属性节点。然后，以同构方式学习节点表示，同时考虑边缘嵌入。由于转换后的图包含原始二阶邻居，因此在一定程度上解决了交互稀疏问题。

在训练过程中，我们在 Gemini-U 和 Gemini-I 之间共享用户和项目的嵌入，然后我们可以通过边缘属性 Att-U 和 Att-I 将两个网络信息融合过程非常紧密地关联起来两个好处：一是两类节点的表示不同，但仍处于相同的低维空间；另一种是随着网络信息融合的进行，item embedding结合了其多阶邻居的信息，然后item之间的邻居关系信息可以引入到Gemini-U上的用户信息融合中

例如：从用户的角度来看，如果两个用户都点击了相同的一些项目，那么他们就有了一些共同的兴趣，从而在 Gemini-U 中增加了一条边。这些相同商品是边的属性节点，为简单起见称为 Att-U。

Att-U 还可以通过两种方式来表征边的重要性：

一种方式是物品的数量，物品越多，边越重要。
另一种方式是单个项目的重要性，项目越重要，边缘就越重要。

问题定义：

模型

Edge Embedding

Sum Pooling
TF-IDF Pooling
为了同时考虑边上的属性的数量和质量,将sum pooling（即，数量）和TF IDF（即，质量）相结合

我们将所有节点的TF-IDF值从低到高划分为K个时隙。对于每个插槽，我们学习一个参数向量（即h − ) 表示其权重向量。

Information Convolution

对于中心节点，GCNs 的核心思想是迭代地使用其邻居节点的嵌入来更新自己的嵌入。在这里，我们扩展了典型的 GCN，用于处理 Gemini-U 和 Gemini-I。关键问题是在聚合来自邻居的信息时有效地处理边缘嵌入。

这里聚合函数是一个注意层，它结合了边缘嵌入和节点嵌入：

当我们计算注意权重时，我们不仅需要关于邻居节点的信息，还需要关于边缘的信息。因此边向量通过如下公式得到：

基于注意力机制的聚合器表示为：

聚合后，我们通过以下卷积函数将邻居信息传递给自节点：

模型训练算法：

为例减小计算的复杂度，作者有提出了一种称为Gemini-Collaboration的迭代训练方法。

实验

前四个数据集是从滴滴九星的以下推荐场景中提取出来的，如图3所示：积分商城中的产品推荐（滴滴产品），滴滴九珠app中的内容推荐（滴滴内容），滴滴九星FM中的音乐推荐（滴滴音乐）和滴滴九星app中的优惠券推荐（滴滴优惠券）。滴滴产品、滴滴内容和滴滴音乐都是为数千万司机服务的推荐场景，滴滴优惠券是为数亿乘客服务的推荐场景。

我们分别提取了12天的在线日志，前11天用于训练集，第12天用于测试集。具体来说，滴滴产品数据集有8976117条交互记录，滴滴内容数据集有7934319条交互记录，滴滴音乐数据集有3321930条交互记录，滴滴优惠券数据集有826658条交互记录。最后一个数据集是一个公共数据MovieLens，它是从电影推荐场景中提取的，大约有2006859条记录。

线下测试：

算法设计的优越性

Gemini-Collaboration评估

图5显示Gemini-Collaboration得到了更好的表现。原因是，在使用Gemini-Collaboration训练模型时，我们训练h 先收敛后训练h 每次迭代收敛。它类似于GAN中的序列鉴别器和发生器。相反，Gemini联合训练Gemini-U和Gemini-I，这意味着网络节点的嵌入是在未训练好的属性节点嵌入的基础上更新的。此外，图5还表明Gemini-Collaboration能够大大降低实际训练过程中的时间复杂度

在线评测：

KDD2020 Controllable Multi-Interest Framework for Recommendation

Alibaba 召回场景下的多兴趣向量召回

背景

在实践中，由于对延迟和性能的严格要求，工业推荐系统通常包括两个阶段，召回阶段和排序阶段，本文主要集中在提高召回阶段的有效性。
在实践中，借助快速 K 最近邻 (KNN) 算法从大规模项目池中选择最近的项目为每个用户生成候选集，我们主要关注用户表征的计算。换句话说，匹配阶段的决定性因素是根据用户历史行为计算的用户表征的质量。

动机

统一的用户表征很难代表多种兴趣
由于电子商务用户和商品的规模较大，很难使用深度模型直接给出每对用户和商品之间的点击率（CTR）预测

方法 ComiRec

我们为顺序推荐提出了一种新的可控多兴趣框架，称为 ComiRec。我们的多兴趣模块从用户行为序列中捕获多个兴趣，可用于从大规模项目池中检索候选项目。然后将这些项目送入聚合模块以获得整体推荐。聚合模块利用可控因素来平衡推荐的准确性和多样性。

我们使用动态路由方法或自我注意方法的框架分别命名为 ComiRec-DR 或 ComiRec-SA。

模型

Dynamic Routing Method

用户序列的item embeddings可以看作是初级胶囊，多个用户兴趣可以看作兴趣胶囊。（胶囊是一组神经元，其活动向量表示特定类型实体的实例化参数。胶囊的输出向量的长度表示胶囊所代表的实体在当前输入中的概率。）

设ei为初级胶囊，则高级兴趣胶囊sj的计算方式为如下。
我们首先计算预测向量为：

胶囊 j 的总输入是所有预测向量的加权和：

其中 $c_{ij}$ 是由迭代动态路由过程所确定的耦合系数。胶囊 $i$ 与下一层所有胶囊之间的耦合系数之和应为 1。我们使用“routing softmax”来计算耦合系数：

提出了一种非线性“挤压”函数来确保短向量收缩到几乎为零的长度，将长向量收缩到略低于 1 的长度：

然后将用户 u 的输出兴趣胶囊形成为矩阵 Vu = [v1, …, vK ] ∈ Rd×K，用于下游任务。

算法如下：

Self-Attentive Method

模型训练

在通过多兴趣提取模块计算用户行为的兴趣嵌入后，我们使用 argmax 算子为目标商品 i 选择相应的用户嵌入向量：

给定一个带有用户嵌入 v $_u$ 和项目嵌入 $e_i$ 的训练样本 (u,i)，我们可以计算用户 u 与项目 i 交互的可能性为：

目标函数：（使用采样的 softmax 技术）

在线服务

对于在线服务，我们使用我们的多兴趣提取模块来计算每个用户的多个兴趣。用户的每个兴趣向量都可以通过最近的邻居库（Faiss）从大规模项目池中独立检索前 N 个项目。由多个兴趣检索的项目被送入聚合模块以确定整体项目候选。最后，将向用户推荐排名分数较高的项目。

Aggregation Module

作用：将这些来自不同兴趣的item聚合起来，得到整体的top-N个item。
根据项目与用户兴趣的内部生产接近度合并和过滤项目：

这是聚合过程最大化推荐准确度的有效方法。然而，这并不完全是关于当前推荐系统的准确性。人们更有可能被推荐新的或多样化的东西。我们的框架使用一个可控的程序来解决这个问题。我们使用以下值函数 Q(u,S) 通过可控因子 λ ≥ 0 来平衡推荐的准确性和多样性：

对于最准确的情况，即 λ = 0，我们只使用上述简单的方法来获得整体项。对于最多样化的情况，即 λ = ∞，可控模块为用户找到最多样化的项目。我们提出了一个贪心推理算法来近似地最大化Algorithm 2中列出的值函数Q（u，S）

实验

case_study

通过我们的模型，我们从用户的点击序列生成了四个兴趣嵌入。我们发现用户的四大兴趣是糖果、礼品盒、手机壳和配件。我们按点击顺序报告与四种兴趣对应的项目。右边部分显示了通过兴趣嵌入从工业项目池中检索到的项目

KDD2020 Disentangled Self-Supervision in Sequential Recommenders

(Alibaba) 通过自监督的方法解开序列中的多个意图

背景和动机

序列推荐器中，seq2items策略是短视的，通常会产生非多样化的推荐列表
作者希望通过着眼于更长期的未来来研究挖掘额外信号以进行监督

挑战

重建包含许多行为的未来序列比重建单个下一个行为要困难得多，这可能导致收敛困难【由于未来序列中可能存在冗余监督信号，例如反映相同意图的多次点击，因此将行为（例如单击项目）一一重构是低效的】
所有未来行为的序列可能涉及许多意图，而不是全部其中可以从早期行为的序列中预测

方法

提出了一种基于潜在自监督和意图解开的seq2seq训练策略。具体来说，我们在潜在空间中执行自我监督，即将未来序列的表示作为一个整体重建，而不是单独重建未来序列中的项目。我们还解开任何给定行为序列背后的意图，并仅使用涉及共享意图的子序列对构建 seq2seq 训练样本

第一个核心思想是在潜在空间而不是数据空间中执行自我监督。我们的 seq2seq 训练策略要求模型根据较早序列的表示来预测未来子序列的表示（多个表示中的每一个都表示了与不同潜在类别相关的用户意图）。这种设计避免了单独重建未来序列中的所有行为，并简化了 seq2seq 训练过程的收敛
我们的第二个核心思想是设计一个序列编码器，可以推断和解开由给定行为序列反映的潜在意图。解开的编码器输出给定行为序列的多个表示，其中每个表示关注给定序列的不同子序列。

问题定义

根据x $^{(u)}$ ，从M个候选商品中预测用户下一次最可能点击的商品

模型

Disentangled Sequence Encoding

单独的 SASRec 编码器捕捉多个意图的能力是有限的，然而SASRec 的多头版本为相同的输入序列输出多个向量表示，与单头实现相比似乎没有明显的优势。根据经验，单头 SASRec 和多头 SASRec 都倾向于推荐与输入序列中最近一次点击相同类别的项目，即使用户之前点击过其他类别的项目。因此，我们在这里提出了一个意图解开层，将其附加在单头 SASRec 编码器之后，以便重用 SASRec 的表达能力。

Intention clustering.

意图解开层首先根据意图与一组意图原型的距离对意图进行聚类。

（这里代码中用的是余弦距离而非点击，之前的工作 [38] 发现，在模式崩溃（即模型忽略大多数原型的退化情况）方面，余弦比点积更不脆弱。）

Intention weighting.

上面描述的注意力权重 | 衡量位置的主要意图与第潜在类别相关的可能性。我们现在引入另一个注意力权重来衡量位置的主要意图对于预测用户未来意图的重要性的可能性：

Intention aggregation.

我们现在可以根据 | 和汇总在所有位置收集的意图。编码器的输出计算如下：

Sequence-to-item training

Sequence-to-Sequence Self-Supervision

我们的 seq2seq loss 的目的是补充而不是替代传统的 seq2item loss。换句话说，在使用小批量梯度下降处理每个小批量 B 时，我们最小化了 seq2item 损失和 seq2seq 损失。
对于训练集中的每条样例 $\{(u,t): 1 \leqslant u \leqslant N, 1 \leqslant t \leqslant T_u-1\}$ ，都包括来历史序列x $^{u}_{1:t}$ 和对应的未来序列x $^{u}_{t+1:T_u}$ 。

Sequence-to-sequence (seq2seq) loss

Sequence-to-item (seq2item) loss.

loss

实验：

KDD2019 Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction

Alibaba 在线响应速度要求及存储空间限制下的长序列用户行为建模

背景与动机

点击率 (CTR) 预测对于推荐系统和在线广告等工业应用至关重要，将这些复杂的深度CTR模型部署到在线服务系统中进行实时推理，需要付出巨大的努力，面对海量的流量请求。当涉及到长序列用户行为数据时，事情变得更加困难，因为系统延迟和存储成本随着用户行为序列的长度近似线性增加。

RTP系统的结构如下，
左：（上一版本）用户行为特征被提取到预测服务器并在收到流量请求时参与实时推理的计算；右：（与流量请求解耦，实时用户行为事件在 UIC 服务器中单独执行）

使用长序列用户行为数据服务的挑战：

以线上的DEIN模型为例，当用户行为序列长度为150时，时延和吞吐量都达到了RTP系统的性能边缘，更不用说长度为1000.
存储约束：系统中有超过 6 亿用户。每个用户的行为序列的最大长度为 150。它需要大约 1 TB 的存储空间。当行为序列长度达到时到 1000，将消耗 6 TB 存储，并且数量随着用户行为序列的长度线性增加。
延迟约束: 长度达到 1000 时,延迟DIEN 达到 200 毫秒，线上难以支持（长度150时14毫秒）

阿里巴巴广告系统中，在线显示的用户行为序列的平均长度和相应的CTR模型性能曲线如下：

由上图可看出，解决长序列用户行为建模的挑战是值得的。在本文中，我们直接面对长序列用户行为建模的挑战，并介绍了我们的动手实践与机器学习算法和在线服务系统的协同设计，用于 CTR 预测任务。

现状

现有的深度CTR模型：
（1）基于池化的架构将用户的历史行为视为独立的信号，并应用 sum/max/attention 等池化操作来总结用户兴趣表示。
（2）顺序建模架构，它将用户行为视为顺序信号，并应用 LSTM/GRU 操作进行用户兴趣汇总。

方法

（1）从服务系统的角度来看，我们通过设计一个名为 UIC（用户兴趣中心）的单独模块，将用户兴趣建模中最消耗资源的部分与整个模型分离。 UIC 为每个用户维护最新的兴趣状态，其更新取决于实时用户行为触发事件，而不是流量请求。因此，UIC 对于实时 CTR 预测是无延迟的。
（2）从机器学习算法的角度来看，我们提出了一种名为 MIMN（多通道用户兴趣记忆网络）的新型基于内存的架构，以从长序列行为数据中捕获用户兴趣，实现优于最先进模型的性能. MIMN 是通过 UIC 模块以增量方式实现的。

创新点

这是第一个能够处理长度高达数千的长序列用户行为数据的工业解决方案之一。目前已部署在阿里巴巴的展示广告系统中。

我们介绍了一种动手实践，结合学习算法和 CTR 预测任务的服务系统的协同设计。该解决方案已部署在世界领先的广告系统中，使我们能够处理长序列用户行为建模。
我们设计了一个新颖的UIC 模块，它将大量用户兴趣计算与整个CTR 预测过程分离。 UIC 对流量请求没有延迟，并允许在离线模式下工作的任意复杂模型计算 w.r.t.实时推理。（UIC 的一个关键点是它的更新机制。用户状态的更新，仅取决于实时用户行为触发事件，而不是请求。也就是说，UIC 对于实时 CTR 预测是无延迟的。在我们的系统中，UIC 可以将具有 1000 个用户行为长度的 DIEN 模型的延迟从 200 毫秒减少到 500 QPS 的 19 毫秒。）
我们提出了一种新颖的MIMN 模型，它改进了原有的NTM 架构，具有内存利用率正则化和内存感应单元两种设计，使其更适合用户兴趣学习。 MIMN 很容易通过 UIC 服务器实现，它逐步更新用户的兴趣表示。

MIMN模型

标准NTM框架

用一个memery network（Mt，由m个内存槽组成）来捕捉和存储序列数据中的信息，具有内存读和内存写两个基本操作。

问题： memery利用率低
原因： 由于热点项目容易出现在用户行为数据序列中，并主导内存更新，使得内存使用效率低下
解决办法：

传统NLP领域中LRU 策略来平衡每个内存的利用率。
不可取：因为LRU几乎从不将信息写入相邻时间步长的同一个槽中，然而，在我们的场景中，用户可能会与多个属于相同兴趣的行为进行交互，因此应该将这些行为写入同一个槽中
我们提出的内存利用率正则化。实验证明是可取的

内存利用率正则化

规范不同内存槽间写入权重的差异，推动内存利用率不平衡。
第 t步每个内存槽的累积利用率gt:

re-balanced后的写权重：

通过正则化损失学习的参数矩阵Wg:

$L_reg$ 有助于减少不同内存插槽之间更新权重的差异。所有 m 个槽的更新率趋于均匀。这样，所有内存插槽的利用率都得到了提高，达到了平衡。利用率正则化可以帮助记忆张量存储来自源行为数据的更多信息。

记忆感应单元

NTM 中的内存旨在尽可能多地存储来自源数据的原始信息。美中不足的是，它可能会错过捕获一些高阶信息，例如每个兴趣部分的演变过程。为了进一步增强用户兴趣提取能力，MIMN 设计了一个记忆感应单元（MIU)。
MIU还包含一个内部存储器S（ internal memery），槽数为m，与NTM相同。这里我们将每个内存槽称为用户兴趣通道。

step1: 根据memery read的权重向量wr（公式一得到），选择k个用户兴趣通道(topk)
step2: 结合内存槽Mt,t时刻的行为向量et，更新内部存储器的通道i.

MIU 从原始行为输入和 NTM 模块中记忆的信息中捕获信息。这是一个归纳过程。多通道内存的GRU参数共享，不增加参数量。

在线服务的实现

与 DIEN和DIN应用注意力机制来获得以候选为中心的兴趣表示不同，MIMN 学习在每个用户的外部存储器中明确地捕获和存储用户的不同兴趣。这种基于内存的架构不需要候选（例如我们系统中的目标广告）和用户行为序列之间的交互计算，并且可以增量执行，使其可扩展用于长序列用户行为建模。
将整个模型拆分并在两个服务器中实现：用于使用 NTM 和 MIU 进行最繁重计算的用户兴趣建模的左侧子网络在 UIC 服务器中实现，如图 5 所示，剩下的右子网将在 RTP 服务器中实现.
NTM 和 MIU 模块都享有增量计算的好处。这样就不需要存储用户行为数据。在我们的系统中，大量的长期用户行为可以从 6T 减少到 2.7T。
MIMN 采用改进的内存架构设计，可实现卓越的模型性能。然而，它并不适用于所有情况。我们建议将此解决方案应用于以下应用：(i) 丰富的用户行为数据，(ii) 实时用户行为事件的流量规模不能显着超过实时 CTR 预测请求的流量规模。

实验和结果

数据集：两个公开数据集和一个工业数据集

结果：

KDD2020 Time-Aware User Embeddings as a Service

Yahoo 时间感知序列自动编码器,生成无缝适用于不同任务的嵌入表示

背景和动机

现在的应用服务依赖于需要投入大量精力的专用特征工程，通常忽略了在线用户行为的时变特性。为了减轻任务驱动的特真工程的负担，作者提出一种新的时间感知序列自动编码器，学校用户的保时向量表示，旨在生成无缝适用于不同任务的嵌入表示。

方法 TASA

以无监督的方式嵌入用户，
考虑用户可能执行的所有活动，而不是专注于为特定任务定制的活动子集，这一事实允许学习独立于任务的表示。
由于存在连续活动之间不规则的时间间隔，TASA学习每个活动的额外时间分数，并在最终的用户嵌入中保留这些信息。
提出了一个集成TASA的管道，以允许将嵌入作为服务来使用，文中以用户嵌入为例。在一段时间内收集的用户活动从多个数据源获取并组织成序列，轨迹称为用户。然后，在构建的用户轨迹上训练TASA。训练后，TASA输出所有用户的嵌入，并将其作为M维连续向量存储在一个集中的数据库中。类似地，TASA的学习参数存储在单独的数据库中。
管道式的优点：即使是对于全新的、以前未被观察到的用户，只要TASA已经从他们的轨迹中观察到了一些活动，它就能够生成嵌入
TASA的时间感知自动编码器设计构成了流水线的核心组件，能够自动生成适用于任何用户级任务的低维、保时用户嵌入，同时保持使用低延迟监督模型的能力。

（TASA被集成到管道中，设计用于提供具有时间意识的用户嵌入服务，该服务目前作为一种内部工具部署，公司的几个团队正在利用它作为附加用户功能的来源，主要用于离线实验。）

框架

TASA的输入是一系列活动 ${a_1，…，a_L，a_{L+1}\}$ ，以及它们相应的时间戳 ${t_1，…，t_L，t_{L+1}\}$ 。（实际输入序列的长度是可变的 $L$ ，而 $a_{L+1}$ = $a_{EOS}$ 是允许处理不同长度序列的序列结束标记。 $t_{L+1}$ 被设置为等于最近活动aL的时间戳）
TASA首先将整个序列编码成一个固定长度的向量表示h，该向量表示h反映了活动之间的顺序和时间依赖性。
从所学习的表示中解码活动序列，尽可能类似于输入序列。通过利用这一原理，TASA加强了序列表示的学习，序列表示- 优先考虑信息活动属性，同时保留活动之间的顺序和时间依赖关系。

TASA相对于其他基于自动编码器的嵌入方法的优势：

TASA模型

Activity Embedding

$\quad$ $\quad$ $\quad$ $\quad$ $\quad$ $\quad$ $\quad$ $\quad$ $t_{L+1}$ 被设置为等于最近活动 $a_L$ 的时间戳,其他的时间戳都是正常的

输入活动序列（加令牌 $a_{EOS}$ ）：

相应的活动嵌入序列：（随即初始化）

Temporal Score Learning

为了捕捉连续活动之间的不规则时间间隔，为活动aj创建了一个附加特征(tj是aj的时间戳):

得到停止特征（随着活动时间戳的线性增加，一个活动越接近序列中的最新时间戳，其停止特征值就越接近1）：

除此以外，每个活动aj映射到一对潜在参数θj和μj。θj用于模拟活动对序列嵌入的影响。另一方面，μj和τj模拟了活动发生次数对序列嵌入的影响。为此，将每个aj的时间分数定义为:

其中，θj用于测量aj的初始影响。μj作为基于aj的“最近性”的影响变化，即aj效应随时间变化的程度取决于μj的大小。
最后，使用时间分数来衡量活动嵌入：

Sequential Encoding

利用长-短期记忆（LSTM）网络对活动嵌入序列进行进一步编码：（其中hj最初使用正交初始化生成，而Cj初始化为均匀和正交随机值的混合。）

Sequence Reconstruction

给定一个有上一阶段得到的序列嵌入 $h=h_{L+1}$ ，TASA的译码器组件试图从 $h$ 重构输入序列。
首先，在原始序列的开始处追加开始标记 $a_{start}$ :（加令牌 $a_{start}$ ）

相应地，取 $\tau_0$ =0作为 $a_0$ 的停止特征，得到:

通过一个LSTM:

重构问题被视为一个多类分类问题，通过将从解码器输出的hˇj传递到一个全连接层来预测 $a_{j+1}$ （来自原始序列)：

然后，来自完全连接层的输出通过softmax激活函数来计算每个活动的概率：（在资源有限或需要更有效的模型训练的情况下，我们建议通过使用候选抽样对抽样活动的子集进行计算来近似公式12）

目标函数

Evaluation metrics

ROUGE: 衡量候选人（输出）相对于一个或多个参考（输入）的质量。虽然最初是为文本摘要而提出的，但在这项工作中，ROUGE用于测量单个活动输入序列与其相应的重构（输出）序列之间的n-gram召回
BLEU：基于输入和输出序列之间的n-gram精度（而不是n-gram召回）来评估输入序列重构的质量

结果

SERVICE PIPELINE

TASA在服务系统中使用，该系统旨在将时间感知（用户）嵌入作为服务提供。一般来说，服务将序列集合作为输入，并定期生成序列及其组成元素的时间感知嵌入。尽管该服务显然适用于任何类型的序列数据，但在本文中，它是从嵌入用户活动序列（即用户轨迹）的角度来描述的。服务系统管道的阶段描述如下：

阶段1：生成序列（用户轨迹）
从每个活动的原始描述（例如，搜索活动的精确搜索查询）中去除所有个人识别信息（PII）后，计算每个唯一活动的频率。然后为前K个最频繁的活动（我们设置K=200000）中的每个活动分配一个索引，活动描述与其索引之间的映射被组织在词汇表V中。
阶段2：模特训练。
提出的TASA模型以（1）提取的用户轨迹，（2）组成活动的时间戳和（3）活动词汇V作为输入，并按照第3节中描述的过程学习每个用户轨迹的M维保时嵌入。得到的M维（我们设置M=100）连续向量存储在一个集中的数据库中。类似地，TASA的学习参数也存储在单独的数据库中以供进一步使用。
阶段3：嵌入传入活动/用户
在模型训练中，学习到的TASA参数可以被提取并用于嵌入传入的活动或整个用户跟踪。请注意，如果一个传入活动被证明是趋势活动之一，这意味着它是由大量用户执行的，并且通过了频率阈值，那么它将被包括在V中，并被考虑用于下一个计划的模型培训。然而，传入的活动可能不存在于词汇V中。在这种情况下，新活动不会立即添加到V中，但在下次更新V时，它会包含在V中。类似地，通过首先嵌入V中存在的来自其踪迹的活动来嵌入传入用户，同时考虑当前未知的活动以包含在下一个词汇表更新周期中。因此，词汇表会定期更新（例如，一周更新一次），而轨迹通常会更频繁地更新（例如，每天更新一次）。

KDD2020 Privileged Features Distillation at Taobao Recommendations

Alibaba 是阿里的一篇将“目标蒸馏-logits方法“应用到推荐系统领域的论文。

背景

工业级推荐系统通常是一个级联学习框架，以淘宝的推荐框架为例。

召回阶段：主要根据用户部分特征，从上亿级别的海量的物品库里，快速找回一小部分用户潜在感兴趣的物品（十万级别）。候选生成是从多个来源混合而成的，例如协同过滤，DNN模型，等等
粗排阶段：粗排一般通过少量用户属性特征（如用户id、性别、年龄等），用户行为特征如用户的历史点击／购买行为）和物品特征（如物品id、类别、品牌等），利用简单模型，来对召回的结果进行粗略的排序。过滤出上千商品送入到精排阶段。
精排阶段：会用到一些复杂的交互特征，模型结构也相对复杂。目的是在系统响应速度所能承受的范围内，尽量精准地对物品进行个性化排序。

动机

使用这些Privileged Features，可以提升模型的预测精度。因此本论文希望借鉴模型蒸馏的思想，让粗排阶段的CTR模型或者是精排阶段的CVR模型，都能够学习到一些Privileged Features的信息。

优势特征蒸馏(PFD)

为了更优雅地利用优势特征，本论文提出优势特征蒸馏(Privileged Features Distillation，简称PFD)。在离线环境下，我们会同时训练两个模型：一个学生模型以及一个教师模型。其中学生模型和原始模型完全相同，而教师模型额外利用了优势特征，其准确率也因此更高。通过将教师模型蒸馏出的知识(Knowledge，论文中特指教师模型中最后一层的输出)传递给学生模型，可以辅助其训练并进一步提升准确率。在线上服务时，我们只抽取学生模型进行部署，因为输入不依赖于优势特征，离线、在线的一致性得以保证。在PFD中，所有的优势特征都被统一到教师模型作为输入，加入更多的优势特征往往能带来模型更高的准确度。

与使用多任务学习(Multi-Task Learning，简称MTL)来预测优势特征的方式相比，在MTL中预测更多的优势特征反而可能损害原始模型，而PFD只引入额外一项蒸馏误差也更容易与原始损失函数平衡。

优势特征蒸馏与模型蒸馏的差别：

模型蒸馏：教师和学生处理相同的输入。而且老师使用的模型比学生的容量更大。例如，教师可以使用更深的网络来指导较浅的学生
优势特征蒸馏：教师和学生使用相同的模型，但输入不同。

创新点

阐明了淘宝中存在的特权信息，并且提出PFD统一了所有特权特征，提供了一站式解决方案
与传统的LUPI不同，PFD的教师在教学中加入了规则性特征，使学生的学习效果更好。PFD是MD的补充，通过两者的结合，即PFD+MD，我们可以得到进一步的改进。
通过共享公共输入组件来同步训练教师和学生。与传统的用独立的组件异步训练相比，这种训练方式可以获得更好的性能，同时大大降低了时间开销。因此，该技术可应用于在线学习
我们在淘宝推荐的两个基本预测任务上进行了实验，即粗粒度排序的CTR预测和细粒度排序的CVR预测。通过提取由于粗粒度排序时CTR的效率要求而被禁止的交互特征和如上所述的CVR的事后特征，我们实现了对其强基线的显著改进。在联机A/B测试期间，CTR任务中的点击度量提高了+5.0%。在CVR任务中，转换度量提高了+2.3%。

模型架构

PFD从特权特性中提取知识。相比之下，MD从更复杂的教师模型中提取知识。这两种蒸馏技术是互补的。一个自然的延伸就是把它们结合起来，形成一个更准确的老师来指导学生。

这里的教师模型与细粒度排序时用于CTR预测的模型相同。该任务中的PFD+MD可以看作是从精排中提取知识来提高粗粒度排序。

实验

PFD对粗粒度排序的CTR和细粒度排序的CVR任务的性能如何
与单独的PFD相比，PFD与MD的结合是否可以实现更多的改进
PFD对式（5）中的超参数λ敏感吗？
通过共享共同的输入成分对教师和学生进行同步培训的效果如何？

本工作中使用的所有输入组件的图示如下：

目标函数：

CTR所用数据集及结果：

CVR所用数据集及结果：

超参的影响：

不同方式训练PFD+MD对CTR第1天数据集的影响。Ind&Async表示教师和学生使用独立的输入组件进行异步训练。Share&Sync表示教师和学生使用共享的公共输入组件进行同步训练。上标∗ 表示除用户id外，所有公共输入组件都是共享的。我们还在第四列中以小时为单位记录挂钟时间：

你可能感兴趣的:(重参数,kdd论文笔记,推荐系统,kdd)

中频信号解析：瞬时相位信息的原理与应用小驴技术站 FPGA信号处理信号处理 matlab fpga开发
中频信号解析：瞬时相位信息的原理与应用引言在雷达信号处理（图1）、数字通信系统等工程领域，瞬时相位作为信号时频分析的核心参数，承载着调制信息解调、目标特征提取等关键功能。本文将从数学原理、信号处理价值、典型应用三个维度深入剖析瞬时相位的本质。发射机混频器本振信号中频信号ADC采样数字信号处理一、瞬时相位的基本概念瞬时相位是描述信号在某一时刻相位状态的重要参数，反映了信号在时间-频率域中的动态特性。
Charles 抓包工具使用指南：设置、功能详解与最佳实践技术博主狂热者 http udp https websocket 网络安全网络协议 tcp/ip
引言前段时间入职了一家公司，项目中的代码注释比较少，而且代码量大，比较难以理解每个接口的数据情况。为了分析接口的行为，我们需要安装项目测试环境包，并通过抓包来查看请求参数和header，借此来理解代码逻辑。我选择了使用Charles配合模拟器进行抓包调试。今天我来总结一下Charles的用法以及结合模拟器的简单使用。Charles与SniffmasterCharles是一款强大的抓包调试工具，相信
我人生中最努力的200个小时（自学高项版）不是小盆友软考软考高项计算机考试软考苏景一软考软考高项信息系统项目管理师计算机考试 pat考试 PMP
在职，每天3个小时，三个月，拿下软考高项，中间多努力不用我多说了吧。下面给大家分享一些我的备考经验，希望能帮助大家提高.效率，一次上岸！-❤❤备考顺序先啃6-19章，接着20-24章，蕞后1-5章6-19章是核心板块，涵盖了大量的关键知识点，从综合知识选择题到案例分析，都是考试的重.点区域，必.须牢牢掌握-❤❤备考建议●选择题每天坚持刷题！建议用软考通、51CTO等app刷题，错题及时总结，做到举
LiteIDE中配置golang编译生成无CMD窗口EXE的步骤 ac.char golang 经验分享 golang 开发语言后端
LiteIDE中配置golang编译生成无CMD窗口EXE的步骤一、环境配置1、设置GOROOT‌2、配置GOPATH‌二、项目编译参数设置1、新建/打开项目‌2、修改编译配置‌3、其他优化选项（可选）‌三、构建与验证1、编译生成EXE‌2、验证无窗口效果‌四、注意事项一、环境配置1、设置GOROOT‌打开LiteIDE→菜单栏选择‌查看→编辑当前环境‌确认GOROOT变量指向Go语言的安装路径（
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
【前端构建】使用Docker打包多个前端项目到一个Nginx镜像，并给conf文件动态传递参数 Zacks_xdc 前端 docker nginx
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录背景正文DockerFileNginx配置模板接收变量并替换Shell脚本将Nginx配置模板替换成配置文件使用构建镜像运行容器总结背景公司给一些客户要部署三个前端项目。最初，每个前端项目都以独立的镜像形式交付并部署。然而，随着客户数量的增加，每个客户都提出了一些自定义需求，后端也进行了对应改造。这导致了部署过程变得复杂且繁琐
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
攻克 CREO 到 STL 转换难关：技术挑战剖析 3D小将迪威模型联讯软件 SolidWorks模型 CATIA模型 UG模型 SketchUp模型 PROE模型 CAD图纸 MMD模型
一、引言CREO是一款功能强大的3DCAD/CAM/CAE一体化软件，在产品设计、模具开发、机械制造等多个领域广泛应用。它支持复杂的参数化设计、曲面建模和装配模拟等操作，能满足从概念设计到产品制造全过程的需求。而STL（Stereolithography）格式则是3D打印领域的标准文件格式，主要用于描述三维物体的表面几何形状。随着3D打印技术的普及，将CREO模型转换为STL格式，以便进行3D打印
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
正交分析法 + Prompt Optimizer：五维复杂测试用例设计的终极指南** Python测试之道 prompt 测试用例 microsoft
在测试工程师的日常工作中，复杂的测试需求往往伴随着多维参数的组合爆炸式增长。如何在有限的资源下设计出高效且覆盖全面的测试用例？如何避免因测试用例数量过多而浪费时间？今天，我们将揭示一项“杀手级”技术——正交分析法，并结合PromptOptimizer提示词优化器，教你如何在五维甚至更多参数的场景中快速生成高质量测试用例。读完这篇文章，你将会对正交分析法在提示词优化中的潜力感到眼前一亮！为什么多维参
富途证券C++面试题及参考答案大模型大数据攻城狮 c++java 后端面试大厂面试 Epoll 智能指针数据库索引
C++中堆和栈的区别在C++中，堆和栈是两种不同的内存区域，它们有许多区别。从内存分配方式来看，栈是由编译器自动分配和释放的内存区域。当一个函数被调用时，函数内的局部变量、函数参数等会被压入栈中，这些变量的内存空间在函数执行结束后会自动被释放。例如，在下面的函数中：voidfunc(){inta=5;//这里的变量a存储在栈中，当func函数结束后，a所占用的栈空间会自动释放}而堆是由程序员手动分
0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS 百度云大模型gpu
01什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机，是接受客户输入prompt和生成返回response的枢纽，也是拉起异构硬件，将物理电能转换为人类知识的变形金刚。大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。和人类大脑处理语言的机制类似，大模型首
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
C++20中哪些特性对内存管理有帮助？ c++
C++20引入了多项改进和新特性，这些特性在内存管理方面提供了更强大的支持和更高的灵活性。以下是C++20中对内存管理有帮助的主要特性：一、对齐分配器（AlignedAllocator）C++20引入了对齐分配器，允许开发者在分配内存时指定对齐参数，从而确保分配的内存块满足特定的对齐要求。这在处理需要特定对齐的硬件或数据结构时非常有用。cpp复制std::aligned_alloc(64,1024
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
Nacos Server 的启动入口在哪里？启动参数有哪些？冰糖心书房 Nacos源码系列服务发现 java
一、NacosServer启动入口NacosServer的启动入口位于nacos-server模块的com.alibaba.nacos.Nacos类。主类:com.alibaba.nacos.Nacos主方法:publicstaticvoidmain(String[]args)当运行NacosServer的启动脚本(startup.sh或startup.cmd)时，脚本最终会执行java命令，并指
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
百度Android最新150道面试题及参考答案（上）大模型大数据攻城狮 android 大厂面经手撕时间复杂度空间复杂度启动模式四大组件
Java的多态如何实现？在Java中，多态主要通过以下两种方式来实现：一、方法重写（Override）实现运行时多态概念基础方法重写发生在子类和父类之间。当子类定义了一个与父类中方法签名（方法名、参数列表、返回类型）完全相同的方法时，就实现了方法重写。例如，有一个父类Animal，其中有一个叫makeSound的方法，然后有一个子类Dog，Dog类重写了makeSound方法来实现狗特有的叫声。代
2-Spring-基于xml配置bean 技不如人，甘拜下风 java spring spring xml java
Spring-基于xml配置bean文章目录Spring-基于xml配置bean一.Bean实例化的4种方式1.1无参数构造方法(开发最常用)1.2静态工厂方法1.3实例工厂方法1.4FactoryBean方式（Spring底层使用较多）1.5FactoryBean与BeanFactory区别二.Bean相关知识2.1Bean的作用域2.2Bean的生命周期2.3Bean的属性注入2.3.1构造方
【BUAA S4 OS】Lab2 内存管理 Roisy++ OS BUAA 笔记 linux
文章目录指导书梳理内核程序启动物理内存管理链表宏虚拟内存管理两级页表结构访问内存与TLB重填EntryHi、EntryLo0、EntryLo1TLB相关指令TLB的维护时纪exam前准备提醒参数、宏、函数缩写对照地址相互转换相关从地址中获取信息函数作用Exam翻车分析题目理解出现偏差——理解错题意&以为实现了自映射机制【疑问】页表在虚拟内存中不应该是连续的吗，这样怎么保证其连续性？【延伸】页表到底
YOLOv8 改进：添加 AKConv（任意采样形状和任意数目参数的卷积）鱼弦人工智能时代 YOLO
YOLOv8改进：添加AKConv（任意采样形状和任意数目参数的卷积）引言在目标检测领域中，YOLO（YouOnlyLookOnce）系列因其速度和效率而受到广泛关注。为了进一步优化模型性能，可以引入创新的卷积操作，例如AKConv，即“任意采样形状和任意数目参数的卷积”。这种卷积能够灵活地调整采样策略，以更好地适应输入特征。技术背景传统卷积运算在采样位置和参数数量上具有固定性，这限制了其对复杂几
Mac 杀掉端口对应的进程潇凝子潇 macos sh
kill_port.sh#!/bin/bash#检查lsof是否安装if!command-vlsof&>/dev/nullthenecho"lsof未安装，请使用以下命令安装："echo"对于Homebrew用户：brewinstalllsof"echo"对于MacPorts用户：sudoportinstalllsof"exit1fi#检查是否提供了端口号作为参数if[-z"$1"];thenec
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
探索NebulaGraph：一个开源分布式图数据库的技术解析一休哥助手数据库分布式系统开源分布式数据库
1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
Java基础9（throws和throw、异常细节）孤影恋长风 java 开发语言
throws和throw可能出现错误的代码写在try中e接受可能出现的异常，为了通用性一般不要写精确的异常，写最大的Exceptionthor抛出一个具体的异常，throw跟在函数之后，标志有异常抛出publicvoidtext（）{如果这个函数将有异常处理，有两种策略，1.立即用try处理2.不处理，抛给调用此函数对象异常处理的原则，谁调用谁处理以后调用别人的函数，除了关注函数的参数，返回值，还
通过PROFINET通讯实时修改西门子直流调速器的内置PID 参数 !chen 技术分享自动化
在通讯映射地址里没有P2280这个参数选择P2280参数为非BICO参数，不能通过互联报文通讯实时修改。可以尝试通过PROFINET非周期通讯读写进行修改S7-1200通过PROFINET非周期性通讯修改驱动器参数S7-1200写参数时可以只使用“WRREC”，将写请求发送到驱动器，当需要从S7-1200读取“写参数”响应时，需使用RDREC。本示例中“WRREC”和“RDREC”的“RECORD
31天Python入门——第11天:挑战一口气把闭包·装饰器讲明白安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.闭包扩展知识:闭包的自由变量是如何存储的2.装饰器装饰器的应用场景3.补充练习1.闭包闭包是指在一个函数内部定义的函数，并且这个内部函数可以访问外部函数的变量、参数.换句话说，闭包是一个包含了函数及其相关引用环境的组合体.在Python中，当一个函数返回了内部函数的引用时，这个内部函数可以访问并操作外部函数的局部变量，它就创建了一个闭包,即使外部函数已经执行完毕，它
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

KDD2019-2020论文笔记

重参数技巧 Re-parameterization Trick

例一：VAE

例二：gumbel-softmax （离散分布情况）

KDD2019-2021

KDD2020 Gemini: A Novel and Universal Heterogeneous Graph Information Fusing Framework for Online Recommendations

背景和挑战：

动机：

方法：

问题定义：

模型

Edge Embedding

Information Convolution

实验

线下测试：

算法设计的优越性

Gemini-Collaboration评估

在线评测：

KDD2020 Controllable Multi-Interest Framework for Recommendation

背景

动机

方法 ComiRec

模型

Dynamic Routing Method

Self-Attentive Method

模型训练

在线服务

Aggregation Module

实验

case_study

KDD2020 Disentangled Self-Supervision in Sequential Recommenders

背景和动机

挑战

方法

问题定义

模型

Disentangled Sequence Encoding

Intention clustering.

Intention weighting.

Intention aggregation.

Sequence-to-item training

Sequence-to-Sequence Self-Supervision

Sequence-to-sequence (seq2seq) loss

Sequence-to-item (seq2item) loss.

loss

实验：

KDD2019 Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction

背景与动机

现状

方法

创新点

MIMN模型

标准NTM框架

内存利用率正则化

记忆感应单元

在线服务的实现

实验和结果

KDD2020 Time-Aware User Embeddings as a Service

背景和动机

方法 TASA

框架

TASA模型

Activity Embedding

Temporal Score Learning

Sequential Encoding

Sequence Reconstruction

目标函数

Evaluation metrics

结果

SERVICE PIPELINE

KDD2020 Privileged Features Distillation at Taobao Recommendations

背景

推荐中的优势特征

动机

优势特征蒸馏(PFD)

优势特征蒸馏与模型蒸馏的差别：

创新点

相关工作

模型蒸馏：

LUPI：教师模型学习特权信息