哈喽十八子

【ESMM论文精读】Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion

文章目录

- 原始论文
- 摘要 (ABSTRACT)
- 关键词 (KEYWORDS)
- 1. 介绍 (INTRODUCTION)
- 2. 提出的方法 THE PROPOSED APPROACH
- - 2.1 符号 Notation
  - 2.2 CVR建模和挑战 CVR Modeling and Challenges
  - - (1) 样本选择偏差 Sample selection bias (SSB) [12]
    - (2) 数据稀疏性 Data sparsity (DS)
    - (3) 其他挑战 other challenges
- 2.3 ESMM模型 Entire Space Multi-Task Model
- - - （1）在整个空间建模 Modeling over entire space.
    - （2）特征表示迁移学习 Feature representation transfer.
- 3 实验 EXPERIMENTS
- - 3.1 实验设置 Experimental Setup
  - - （1）数据集 Datasets.
    - （2）对比算法 Competitors.
    - （3）效果度量 Metric.
  - 3.2 公开数据集（少量）实验结果 Results on Public Dataset
  - 3.3 生产数据集（全量）实验结果 Results on Product Dataset
- 4 总结与后续 CONCLUSIONS AND FUTUREWORK

原始论文

本博客仅作为学习交流材料，论文版权归原作者所有：
ArXiv: https://arxiv.org/abs/1804.07931v2
MLA: Ma, X. , et al. "Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate." The 41st International ACM SIGIR Conference ACM, 2018.

摘要 (ABSTRACT)

Estimating post-click conversion rate (CVR) accurately is crucial for ranking systems in industrial applications such as recommendation and advertising.

准确地估计（注：某商品被）点击后的转化率(CVR)，对于工业应用中的排序系统，例如推荐、广告，是至关重要的。

Conventional CVR modeling applies popular deep learning methods and achieves state-of-the-art performance.

传统的CVR模型，采用了流行的深度学习方法，实现了优异的性能。

However it encounters several task-specific problems in practice, making CVR modeling challenging.

然而，在实践中，它们（注：传统的CVR模型）遭遇了一些任务特异性的（注：因实际任务导致的）问题，使得CVR建模具有挑战性。

For example, conventional CVR models are trained with samples of clicked impressions while utilized to make inference on the entire space with samples of all impressions. This causes a sample selection bias problem.

例如，传统的CVR模型，在训练时，使用的是被点击的曝光样本；然而在应用时，却要在整个曝光样本空间（注：既包括被点击，也包含未被点击的曝光样本）中进行推断。这导致了 样本选择偏差问题 。

Besides,there exists an extreme data sparsity problem, making the model fitting rather difficult.

此外，还存在严重的数据稀疏的问题，使得模型的拟合过程更加困难。

In this paper, we model CVR in a brand-new perspective by making good use of sequential pattern of user actions,i.e., impression → click → conversion.

在本文中，我们以一种全新的视角，对CVR进行建模，充分利用了用户行为的序列模式，即：曝光 → 点击 → 转化（购买）。

The proposed Entire-Space Multi-task Model (ESMM) can eliminate the two problems simultaneously by

（本文）提出的全空间多任务模型(ESMM)，可以同时消除这两个问题，通过：

i) modeling CVR directly over the entire space,
ii) employing a feature representation transfer learning strategy.

i) 在整个空间上直接建模CVR，
ii) 采用特征表示迁移学习策略

Experiments on dataset gathered from traffic logs of Taobao’s recommender system demonstrate that ESMM significantly outperforms competitive methods.

我们收集淘宝推荐系统的交易日志，组成了数据集。在该数据集上进行的实验表明，ESMM的性能明显优于其他方法。

We also release a sampling version of this dataset to enable future research.

同时，我们发布了该数据集的一个抽样版本，用于未来的研究。

To the best of our knowledge, this is the first public dataset which contains samples with sequential dependence of click and conversion labels for CVR modeling.

据我们所知，这是第一个公开数据集：其中的样本具有单击和转化（购买）的行为标签，具有序列依赖性，可以用于CVR建模。

关键词 (KEYWORDS)

post-click conversion rate, multi-task learning, sample selection bias, data sparsity, entire-space modeling

点击后转化率，多任务学习，样本选择偏差，数据稀疏性，全空间建模

1. 介绍 (INTRODUCTION)

Conversion rate (CVR) prediction is an essential task for ranking system in industrial applications, such as online advertising and recommendation etc. For example, predicted CVR is used in OCPC (optimized cost-per-click) advertising to adjust bid price per click to achieve a win-win of both platform and advertisers [4]. It is also an important factor in recommender systems to balance users’ click preference and purchase preference.

在线广告、推荐等工业应用中，转化率(CVR)预测是排名系统的一项重要任务。例如，CVR预测被应用于在OCPC(最优点击成本)广告任务中，用于调整每次点击竞价，达到平台和广告主的双赢[4]。此外，平衡（注：预估）用户的点击偏好和购买倾向，也是推荐系统的一个重要因素（注：重要需求）。

In this paper, we focus on the task of post-click CVR estimation. To simplify the discussion, we take the CVR modeling in recommender system in e-commerce site as an example. Given recommended items, users might click interested ones and further buy some of them. In other words, user actions follow a sequential pattern of impression → click → conversion. In this way, CVR modeling refers to the task of estimating the post-click conversion rate, i.e., pCVR = p(conversion|click, impression).

本文中，我们主要研究点击后CVR的估计任务。为了简化讨论，我们以电子商务网站中，推荐系统的CVR建模为例。给定若干推荐商品，用户可能会点击他感兴趣的一部分，进一步可能购买。换句话说，用户的操作遵循一个序列模式：曝光→点击→转化（购买）。在这里，CVR建模任务，指的是估算物品被点击后的转化概率，即pCVR = p(转化|点击，曝光)。

In general, conventional CVR modeling methods employ similar techniques developed in click-through rate (CTR) prediction task, for example, recently popular deep networks [2, 3]. However, there exist several task-specific problems, making CVR modeling challenging. Among them, we report two critical ones encountered in our real practice:

一般来说，传统的CVR建模方法采用了与点击率(CTR)预测任务相似的技术，例如最近流行的深度网络[2,3]。然而，CVR建模存在一些特定于任务的问题（注：理解为，任务不同，导致问题不同），这使得CVR建模具有挑战性。其中，我们指出实践中遇到两个突出问题:

i) sample selection bias (SSB) problem [12]. As illustrated in Fig.1, conventional CVR models are trained on dataset composed of clicked impressions, while are utilized to make inference on the entire space with samples of all impressions. SSB problem will hurt the generalization performance of trained models.

（1）样本选择偏差(Sample Selection Bias, SSB) 问题[12]。如图1所示，传统的CVR模型在被点击的曝光样本组成的数据集上进行训练，然而在应用时，却要在整个曝光空间进行推断（注：也包含了未被点击的曝光样本）。样本选择偏差（SSB）问题会降低训练模型的泛化性能。

ii) data sparsity (DS) problem. In practice, data gathered for training CVR model is generally much less than CTR task. Sparsity of training data makes CVR model fitting rather difficult.

（2）数据稀疏性(Data Sparsity, DS) 问题。在实践中，可用于训练CVR模型的数据，通常远少于CTR任务。训练数据的稀疏性，使得CVR模型的拟合过程更加困难。

There are several studies trying to tackle these challenges.

有一些研究方向，试图解决这些挑战：

In [5], hierarchical estimators on different features are built and combined with a logistic regression model to solve DS problem. However, it relies on a priori knowledge to construct hierarchical structures, which is difficult to be applied in recommender systems with tens of millions of users and items.

在[5]中，建立了不同特征上的分层估计器，并结合逻辑回归模型来解决数据稀疏（DS）问题。但是，该方案依赖先验知识来构建层次结构，难以应用于拥有数千万用户和物品的推荐系统。

Oversampling method [11] copies rare class examples which helps lighten sparsity of data but is sensitive to sampling rates.

过采样方案[11]通过对罕见类别的样本进行复制，缓解了数据的稀疏性，但对采样率很敏感。

All Missing As Negative (AMAN) applies random sampling strategy to select un-clicked impressions as negative examples [6]. It can eliminate the SSB problem to some degree by introducing unobserved examples, but results in a consistently underestimated prediction.

AMAN方案(All Missing As Negative)采用随机抽样策略，选取未被点击的曝光数据作为负样本[6]。它可以在一定程度上消除样本选择偏差（SSB）问题，即通过引入未被观察到的样本（注：原本不存在于真实数据集中，因为没有被点击，所以缺少点击和转化标签），但该方案可导致持续低估问题。

Unbiased method [10] addresses SSB problem in CTR modeling by fitting the truly underlying distribution from observations via rejection sampling. However, it might encounter numerical instability when weighting samples by division of rejection probability.

去偏差方法[10]通过拒绝抽样，拟合观测数据的真实的潜在分布，以解决CTR建模中的样本选择偏差（SSB）问题。但是，该方案可能会遭遇数值不稳定，因为计算样本权重时，会有除以拒绝概率的操作（注：可能会除0或除以小值，引发病态问题）。

In all, neither SSB nor DS problem has been well addressed in the scenario of CVR modeling, and none of above methods exploits the information of sequential actions.

总之，在CVR建模场景中，SSB和DS问题都没有得到很好的解决，而且 上述方案都没有利用序列行为的信息 。

In this paper, by making good use of sequential pattern of user actions, we propose a novel approach named Entire Space Multitask Model (ESMM), which is able to eliminate the SSB and DS problems simultaneously.

本文通过充分利用用户行为的序列模式，提出了一种新的方法，称为全空间多任务模型(ESMM)，能够同时消除SSB和DS问题。

In ESMM, two auxiliary tasks of predicting the post-view click-through rate (CTR) and post-view click-through & conversion rate (CTCVR) are introduced.

在ESMM中，引入了两个辅助任务，即预测浏览后点击率(CTR) 和 浏览后点击转化率(CTCVR)。

Instead of training CVR model directly with samples of clicked impressions, ESMM treats pCVR as an intermediate variable which multiplied by pCTR equals to pCTCVR.

ESMM不直接用点击曝光样本训练CVR模型，而是将pCVR作为中间变量，乘以pCTR，得到pCTCVR。

Both pCTCVR and pCTR are estimated over the entire space with samples of all impressions, thus the derived pCVR is also applicable over the entire space. It indicates that SSB problem is eliminated.

pCTCVR和pCTR都是在包含所有曝光样本的整个空间中估算的，因此导出的pCVR也适用于整个空间。因此样本选择偏差（SSB）问题可以消除。

Besides, parameters of feature representation of CVR network is shared with CTR network. The latter one is trained with much richer samples. This kind of parameter transfer learning [7] helps to alleviate the DS trouble remarkablely.

另外，CVR网络中的特征表示参数与CTR网络共享，而后者是在更大的样本空间训练得到的，因此这种参数迁移学习[7]有助于显著缓解数据稀疏（DS）问题。

For this work, we collect traffic logs from Taobao’s recommender system. The full dataset consists of 8.9 billions samples with sequential labels of click and conversion. Careful experiments are conducted. ESMM consistently outperforms competitive models, which demonstrate the effectiveness of the proposed approach.

在这项工作中，我们从淘宝的推荐系统中收集了交易日志。完整的数据集由89亿样本组成，带有单击和转化的顺序标签。经过精细的实验，ESMM始终优于其他竞争模型，这证明了所提方法的有效性。

We also release our dataset $^1$ for future research in this area.
(Note 1: https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)

同时，我们还发布了我们的数据集 $^1$ ，用于该领域的进一步研究。
(原文注释1：https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)

2. 提出的方法 THE PROPOSED APPROACH

2.1 符号 Notation

We assume the observed dataset to be $\mathcal{S} = \{(x_i,y_i→z_i)\} |_{i=1}^N \}$ with sample $(x, y \to z)$ drawn from a distribution $D$ with domain $\mathcal{X \times Y \times Z}$ , where $\mathcal{X}$ is feature space, $\mathcal{Y}$ and $\mathcal{Z}$ are label spaces, and $N$ is the total number of impressions.

定义观测数据集为 $\mathcal{S} = \{(x_i,y_i→z_i)\} |_{i=1}^N \}$ ，假设其中的样本 $(x, y \to z)$ 取自分布 $D$ ，所在域为 $\mathcal{X \times Y \times Z}$ ，其中 $\mathcal{X}$ 为特征空间， $\mathcal{Y}$ 和 $\mathcal{Z}$ 为标签空间， $N$ 为总曝光数。

$x$ represents feature vector of observed impression, which is usually a high dimensional sparse vector with multi-fields [8], such as user field, item field etc.

$x$ 表示观察到的曝光（注：曝光事件或曝光场景）的特征向量，通常是一个高维稀疏向量，有多个特征域[8]，如用户域、物品域等。

$y$ and $z$ are binary labels with $y = 1$ or $z = 1$ indicating whether click or conversion event occurs respectively. $y \to z$ reveals the sequential dependence of click and conversion labels that there is always a preceding click when conversion event occurs.

$y$ 和 $z$ 是0-1标签， $y = 1$ 或 $z = 1$ 分别表示出现了点击行为和转化（购买）行为。 $y \to z$ 表明了点击和转化标签的先后依赖关系：当出现转化（购买）行为时，前面总是会有一个点击行为。

Post-click CVR modeling is to estimate the probability of $pC V R = p (z = 1∣ y = 1, x)$ .

点击后CVR建模，即估计概率 $pC V R = p (z = 1∣ y = 1, x)$ 。

Two associated probabilities are: post-view click-through rate (CTR) with $pCTR = p (z = 1∣ x)$ and post-view click&conversion rate (CTCVR) with $pCTC V R = p (y = 1, z = 1∣ x)$ .

两个相关的概率是：浏览后的点击概率(CTR)，即 $pCTR = p (y = 1∣ x)$ （注：原文应该是出现了笔误，这里直接进行了修正，z改成了y），以及 浏览后点击并转化概率(CTCVR)，即 $pCTC V R = p (y = 1, z = 1∣ x)$ 。

Given impression $x$ , these probabilities follow Eq.(1):

给定曝光事件的特征向量 $x$ ，上述概率遵循公式(1):

2.2 CVR建模和挑战 CVR Modeling and Challenges

Recently deep learning based methods have been proposed for CVR modeling, achieving state-of-the-art performance.

最近，很多基于深度学习的CVR建模方法被提出，并取得了优异的效果。

Most of them follow a similar Embedding & MLP network architecture, as introduced in [3]. The left part of Fig.2 illustrates this kind of architecture, which we refer to as BASE model, for the sake of simplicity.

它们大多数遵循了一种相似的Embedded & MLP神经网络架构，如文献[3]中所介绍。图2的左边展示了这种架构，为了简单起见，我们将其称为BASE模型。

In brief, conventional CVR modeling methods directly estimate the post-click conversion rate $p (z = 1∣ y = 1, x)$ .

简而言之，传统的CVR建模方法，直接估算点击后转化率 $p (z = 1∣ y = 1, x)$ 。

They train models with samples of clicked impressions, i.e., $\mathcal{S_c} = \{(x_j , z_j )|y_j = 1 \} |_{j=1}^M$ . $M$ is the number of clicks over all impressions. Obviously, $\mathcal{S_c}$ is a subset of $\mathcal{S}$ .

他们用被点击的曝光样本训练模型，即 $\mathcal{S_c} = \{(x_j , z_j )|y_j = 1 \} |_{j=1}^M$ . 其中 $M$ 是所有曝光样本的点击量。显然， $\mathcal{S_c}$ 是 $\mathcal{S}$ 的子集。

Note that in $\mathcal{S_c}$ , (clicked) impressions without conversion are treated as negative samples and impressions with conversion (also clicked) as positive samples.

需要指出的是，在 $\mathcal{S_c}$ 中，(被点击的)没有发生转化的曝光样本被视为负样本，而发生转换(也被点击)的曝光样本被视为正样本。

In practice, CVR modeling encounters several task-specific problems, making it challenging.

在实践中，CVR建模会遇到一些特定于任务的问题，使其具有挑战性。

(1) 样本选择偏差 Sample selection bias (SSB) [12]

In fact, conventional CVR modeling makes an approximation of $p(z = 1|y = 1, x) ≈ q(z = 1|x_c)$ by introducing an auxiliary feature space $\mathcal{X_c}$ .

事实上，传统的CVR建模通过引入辅助特征空间 $\mathcal{X_c}$ ，来近似 $p(z = 1|y = 1, x)≈q(z = 1|x_c)$ 。

$\mathcal{X_c}$ represents a limited $^2$ space associated with $\mathcal{S_c}$ . $\forall x_c \in \mathcal{X_c}$ there exists a pair $x = x_c ,y_x = 1)$ where $\in \mathcal{X}$ and $y_x$ is the click label of x.
(Note 2: Space $\mathcal{X_c}$ equals to $\mathcal{X}$ under the condition that $\forall X \in \mathcal{X}, p(y = 1|x ) > 0$ and the number of observed impressions is large enough. Otherwise, space $\mathcal{X_c}$ is part of $\mathcal{X}$ .)

$\mathcal{X_c}$ 表示一个与 $\mathcal{S_c}$ 相关的有限空间 $^2$ 。 $\forall x_c \in \mathcal{X_c}$ ，存在一个数据对 $x = x_c,y_x = 1)$ ，其中 $\in \mathcal{X}$ ， $y_x$ 中是 $x$ 的点击标签。
（原文注释2：当且仅当 $\forall x \in \mathcal{X}, p(y = 1|x ) > 0$ 并且被观测到的曝光事件足够多，样本空间 $\mathcal{X_c}$ 才会与 $\mathcal{X}$ 相同；否则，样本空间 $\mathcal{X_c}$ 只是 $\mathcal{X}$ 的一个子集）（注：原文注释里可能有笔误，这里把其中的 $X$ 修改 $x$ ）。

In this way, $q(z = 1|x_c)$ is trained over space $\mathcal{X_c}$ with clicked samples of $\mathcal{S_c}$ . At inference stage, the prediction of $p (z = 1∣ y = 1, x)$ over entire space $\mathcal{X}$ is calculated as $q (z = 1∣ x)$ under the assumption that for any pair of $x, y_x = 1)$ where $\in \mathcal{X}$ , $x$ belongs to $\mathcal{X_c}$ .

这样，（注：在训练阶段） $q(z = 1|x_c)$ 在样本空间 $\mathcal{X_c}$ 训练，使用被点击的样本集合 $\mathcal{S_c}$ 。在推断阶段，预测值 $p (z = 1∣ y = 1, x)$ 却要在整个样本空间 $\mathcal{X}$ 进行估计，并被近似为 $q (z = 1∣ x)$ . 这（注：从 $\mathcal{X_c}$ 外推到 $\mathcal{X}$ ，以及概率近似的合理性）基于一个假设：对于任何一个 $\in \mathcal{X}$ 的数据对 $x, y_x = 1)$ ， $x$ 属于 $\mathcal{X_c}$ 。

This assumption would be violated with a large probability as $\mathcal{X_c}$ is just a small part of entire space $\mathcal{X}$ . It is affected heavily by the randomness of rarely occurred click event, whose probability varies over regions in space $\mathcal{X}$ .

这个假设很可能并不成立，因为 $\mathcal{X_c}$ 只是整个空间 $\mathcal{X}$ 中的一小部分。它容易受到随机性的严重的影响：因为点击行为很少出现，存在着太多的随机性，在空间 $\mathcal{X}$ 的不同区域，（点击行为）往往有着不同的概率分布。

Moreover, without enough observations in practice, space $\mathcal{X_c}$ may be quite different from $\mathcal{X}$ . This would bring the drift of distribution of training samples from truly underling distribution and hurt the generalization performance for CVR modeling.

此外，如果在实际应用中没有足够的观察信息（注：观察到的事件较少，数据收集不全面），空间 $\mathcal{X_c}$ 可能与 $\mathcal{X}$ 大不相同。这可能使训练样本的分布发生漂移，远离真实的潜在分布，进而影响CVR模型的泛化性能。

(2) 数据稀疏性 Data sparsity (DS)

Conventional methods train CVR model with clicked samples of $\mathcal{S_c}$ . The rare occurrence of click event causes training data for CVR modeling to be extremely sparse.

传统的方法，是利用点击样本组成的数据集 $\mathcal{S_c}$ 训练CVR模型。由于点击行为极少出现，使得可用于CVR建模的训练数据极其稀少。

Intuitively, it is generally 1-3 orders of magnitude less than the associated CTR task, which is trained on dataset of $\mathcal{S}$ with all impressions.

直观上，它通常比相关的CTR任务少1-3个数量级，后者可以利用所有曝光样本组成的数据集 $\mathcal{S}$ 进行训练。

Table 1 shows the statistics of our experimental datasets, where number of samples for CVR task is just 4% of that for CTR task.

表1显示了我们实验数据集的统计结果，其中CVR任务的样本数量仅为CTR任务的4%。

(3) 其他挑战 other challenges

It is worth mentioning that there exists other challenges for CVR modeling, e.g. delayed feedback [1].

值得一提的是，CVR建模还存在其他挑战，如延迟反馈[1]。

This work does not focus on it. One reason is that the degree of conversion delay in our system is slightly acceptable. The other is that our approach can be combined with previous work [1] to handle it.

本文工作并没有聚焦于此。一个原因是，在我们的系统中，延迟转化（注：没有立即购买）的程度是稍微可以接受的；另一个原因是，我们的方法可以与之前的工作[1]结合，解决这个问题。

2.3 ESMM模型 Entire Space Multi-Task Model

The proposed ESMM is illustrated in Fig.2, which makes good use of the sequential pattern of user actions. Borrowing the idea from multi-task learning [9], ESMM introduces two auxiliary tasks of CTR and CTCVR and eliminates the aforementioned problems for CVR modeling simultaneously.

本文提出的ESMM模型如图2所示（上面2.2节），它很好地利用了用户行为的序列模式。借鉴多任务学习[9]的思想，ESMM引入了CTR和CTCVR两个辅助任务，同时消除了CVR建模的上述问题（注：样本选择偏差和数据稀疏）。

On the whole, ESMM simultaneously outputs pCTR, pCVR as well as pCTCVR w.r.t. a given impression. It mainly consists of two sub-networks: CVR network illustrated in the left part of Fig.2 and CTR network in the right part. Both CVR and CTR networks adopt the same structure as BASE model. CTCVR takes the product of outputs from CVR and CTR network as the output.

总的来说，当给定一个曝光事件（注：输入曝光事件的特征向量 $x$ ）ESMM同时输出pCTR、pCVR和pCTCVR。它主要由两个子网络组成: 图2左侧的CVR网络，图2右侧的CTR网络。CVR和CTR网络采用与BASE模型相同的结构。CTCVR以CVR和CTR网络输出的乘积作为输出。

There are some highlights in ESMM, which have notable effects on CVR modeling and distinguish ESMM from conventional methods.

区别于传统方法，ESMM方法在CVR建模中有一些突出的亮点，对CVR建模有显著的效果。（注：如下）

（1）在整个空间建模 Modeling over entire space.

（注：在整个曝光空间 $\mathcal{X}$ ）

Eq.(1) gives us hints, which can be transformed into Eq.(2).

公式1给我们提供了思路，因此可以导出公式2：

Here $p (y = 1, z = 1∣ x)$ and $p (y = 1∣ x)$ are modeled on dataset of $\mathcal{S}$ with all impressions. Eq.(2) tells us that with estimation of pCTCVR and pCTR, pCVR can be derived over the entire input space $\mathcal{X}$ , which addresses the sample selection bias problem directly.

这里 $p (y = 1, z = 1∣ x)$ 和 $p (y = 1∣ x)$ 是基于数据集 $\mathcal{S}$ 建模的，即使用全量的曝光数据。公式(2)告诉我们，通过估计pCTCVR和pCTR，pCVR可以在整个输入空间 $\mathcal{X}$ 上推导出来，这直接解决了样本选择偏差问题。

This seems easy by estimating pCTR and pCTCVR with individually trained models separately and obtaining pCVR by Eq.(2), which we refer to as DIVISION for simplicity. However, pCTR is a small number practically, divided by which would arise numerical instability.

还有另外一种看似很容易的方法，即单独训练的模型，分别估计pCTR和pCTCVR，再通过公式(2)得到pCVR，为了简化描述，我们称其为DIVISION方法（注：除法）。然而，pCTR实际上是一个很小的数，除以它会引起数值不稳定。

ESMM avoids this with the multiplication form. In ESMM, pCVR is just an intermediate variable which is constrained by the equation of Eq.(1). pCTR and pCTCVR are the main factors ESMM actually estimated over entire space.

ESMM避免了这种情况（注：数值不稳定），通过使用乘法的形式。在ESMM中，pCVR只是一个中间变量，并受到公式(1)约束。实际上，pCTR和pCTCVR才是主要的因素（注：建模的主要对象），ESMM在整个空间对其进行估计。

The multiplication form enables the three associated and co-trained estimators to exploit the sequential patten of data and communicate information with each other during training. Besides, it ensures the value of estimated pCVR to be in range of [0,1], which in DIVISION method might exceed 1.

乘法的形式，使得（注：上述）三个相互关联、共同训练的估计器，能够利用数据中的序列模式，并在训练期间相互传递信息。同时，也保证了pCVR的估计值在[0,1]的范围内，相反的，DIVISION方法中（注：pCVR）可能会超过1。

The loss function of ESMM is defined as Eq.(3). It consists of two loss terms from CTR and CTCVR tasks which are calculated over samples of all impressions, without using the loss of CVR task.

ESMM的损失函数定义为公式(3)。它包含两个损失项，分别来自CTR和CTCVR任务。这些损失项是在所有的曝光样本上计算的。损失函数不使用CVR任务的损失（注：损失函数不直接考虑CVR任务的损失，但相当于间接考虑）。

where $\theta_{ctr}$ and $\theta_{cvr}$ are the parameters of CTR and CVR networks and $l (\cdot)$ is cross-entropy loss function.

其中， $\theta_{ctr}$ 和 $\theta_{cvr}$ 是CRT网络和CVR网络的参数， $l (\cdot)$ 为交叉熵损失函数。

Mathematically, Eq.(3) decomposes $y \to z$ into two parts $^3$ : $y$ and $\And z$ , which in fact makes use of the sequential dependence of click and conversion labels.
(Note 3: Corresponding to labels of CTR and CTCVR tasks, which construct training datasets as follows: i) samples are composed of all impressions, ii) for CTR task, clicked impressions)

数学上，公式3把 $y \to z$ 分解为两个部分 $^3$ （注：两个先后过程）： $y$ 和 $\And z$ ，实际上，这样便应用到了点击标签和转化标签之间的序列依赖信息；
（原文注释3：这两个部分，分别对应着CTR和CTCVR任务的标签；构建训练数据集的方法如下：i)样本由所有曝光事件组成，ii)对于CTR任务，（注：样本由所有）被点击的曝光事件（注：组成））

（2）特征表示迁移学习 Feature representation transfer.

As introduced in section 2.2, embedding layer maps large scale sparse inputs into low dimensional representation vectors. It contributes most of the parameters of deep network and learning of which needs huge volume of training samples.

如2.2节所介绍的，embedding层将大尺度稀疏输入向量，映射为低维表示向量。它贡献了深度神经网络中的大部分参数，其训练过程需要大量的训练样本。

In ESMM, embedding dictionary of CVR network is shared with that of CTR network. It follows a feature representation transfer learning paradigm. Training samples with all impressions for CTR task is relatively much richer than CVR task. This parameter sharing mechanism enables CVR network in ESMM to learn from un-clicked impressions and provides great help for alleviating the data sparsity trouble.

在ESMM中，CVR网络的embedding表示字典与CTR网络共享。它遵循了特征表示迁移学习的模式。CTR任务的训练数据，由所有曝光样本组成，因此相对于CVR任务的训练数据要丰富得多。该参数共享机制，使ESMM中的CVR网络能够从未被点击的曝光数据中学习，为缓解数据稀疏问题，提供了很大的帮助。

Note that the sub-network in ESMM can be substituted with some recently developed models [2, 3], which might get better performance. Due to limited space, we omit it and focus on tackling challenges encountered in real practice for CVR modeling.

需要说明的是，ESMM中的子网络，也可以用其他新颖、先进的模型来替代[2,3]，这可能会获得更好的性能。但由于篇幅有限，我们不作深入探索，本文仅专注于解决CVR建模在实践中遇到的挑战。

3 实验 EXPERIMENTS

3.1 实验设置 Experimental Setup

（1）数据集 Datasets.

During our survey, no public datasets with sequential labels of click and conversion are found in CVR modeling area.

我们在调研阶段发现，在CVR建模领域，没有关于点击+转化序列标签的公开数据集。

To evaluate the proposed approach, we collect traffic logs from Taobao’s recommender system and release a 1% random sampling version of the whole dataset, whose size still reaches 38GB (without compression).

为了评估上面所提出的方法，我们从淘宝的推荐系统中收集了交易日志，从整个数据集中随机抽样了1%，作为公开版本发布，其大小仍然达到38GB(压缩前)。

In the rest of the paper, we refer to the released dataset as Public Dataset and the whole one as Product Dataset.

在本文的后续部分中，我们将发布的数据集称为公开数据集，将完整的数据集称为生产数据集（注：1:100的比例，随机抽样的子集关系）。

Table 1 summarizes the statistics of the two datasets. Detailed descriptions can be found in the website of Public Dataset $^1$ .
(Note 1: https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)

表1总结了两个数据集的统计情况。更加详细的描述，可以查阅公开数据集网站 $^1$ 。
(原文注释1：https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)

（2）对比算法 Competitors.

We conduct experiments with several competitive methods on CVR modeling.

我们使用几个有竞争力的CVR建模方法，进行了（注：对比）实验。

(1) BASE is the baseline model introduced in section 2.2.
(2) AMAN [6] applies negative sampling strategy and best results are reported with sampling rate searched in {10%, 20%, 50%, 100%}.
(3) OVERSAMPLING [11] copies positive examples to reduce difficulty of training with sparse data, with sampling rate searched in {2, 3, 5, 10}.
(4) UNBIAS follows [10] to fit the truly underlying distribution from observations via rejection sampling. pCTR is taken as the rejection probability.
(5) DIVISION estimates pCTR and pCTCVR with individually trained CTR and CTCVR networks and calculates pCVR by Eq.(2).
(6) ESMM-NS is a lite version of ESMM without sharing of embedding parameters.

(1) BASE模型是2.2节中介绍的基线模型。
(2) AMAN模型[6]采用了负采样策略，在{10%，20%，50%，100%}中搜索最佳采样率，得到最佳结果。
(3) 过采样方法[11]对正样本进行了复制，降低了用稀疏数据进行训练的难度；采样率在{2,3,5,10}中搜索。
(4) UNBIAS方法（注：去偏差方法）遵循文章[10]，通过拒绝抽样，来拟合观察数据的真实的底层分布。pCTR被用作拒绝概率（注：？）。
(5) DIVISION 通过单独训练的CTR和CTCVR网络，实现pCTR和pCTCVR的估计，并通过公式(2)计算pCVR。
(6) ESMM-NS是精简版的ESMM，不共享嵌入参数（注：No Share）。

The first four methods are different variations to model CVR directly based on state-of-the-art deep network.

前四种方法，直接建立CVR模型，均基于深度神经网络，属于不同的变体。

DIVISION, ESMM-NS and ESMM share the same idea to model CVR over entire space which involve three networks of CVR, CTR and CTCVR.

DIVISION、ESMM-NS和ESMM三种方法，有着相同的思路，即在全空间建立CVR模型，涉及CVR、CTR和CTCVR三个网络模型。

ESMM-NS and ESMM co-train the three networks and take the output from CVR network for model comparison.

ESMM-NS 和 ESMM 共同训练三个网络，并从CVR网络中获取输出结果，用于模型对比。

To be fair, all competitors including ESMM share the same network structure and hyper parameters with BASE model, which
i) uses ReLU activation function,
ii) sets the dimension of embedding vector to be 18,
iii) sets dimensions of each layers in MLP network to be 360 × 200 × 80 × 2,
iv) uses adam solver with parameter $\beta_1 = 0.9, \beta_2 = 0.999, \epsilon = 10^{−8}$ .

公平起见，包括ESMM在内的所有对比算法，都与BASE模型有着相同的网络结构和超参数：

使用ReLU激活函数，
设置embedding表示向量的维度为 18，
设置MLP网络各层大小为 360 × 200 × 80 × 2，
使用Adam求解器，参数 $\beta_1 = 0.9, \beta_2 = 0.999, \epsilon = 10^{−8}$ 。

（3）效果度量 Metric.

The comparisons are made on two different tasks:

(1) conventional CVR prediction task which estimates pCVR on dataset with clicked impressions,

(2) CTCVR prediction task which estimates pCTCVR on dataset with all impressions.

对比实验是在两个不同的任务上进行的:

(1) 传统的CVR预测任务，即在被点击的曝光数据集上，估计pCVR;
(2) CTCVR预测任务，即在整个曝光数据集上（注：含未被点击的曝光），估计pCTCVR。

Task (2) aims to compare different CVR modeling methods over entire input space, which reflects the model performance corresponding to SSB problem.

Task(2)的目的是，在整个输入空间上，比较不同的CVR建模方法，这反映了样本选择偏差问题对模型性能的影响。

In CTCVR task, all models calculate pCTCVR by pCTR × pCVR, where:

i) pCVR is estimated by each model respectively,

ii) pCTR is estimated with a same independently trained CTR network (same structure and hyper parameters as BASE model).

在CTCVR任务中，所有模型通过 pCTR × pCVR计算pCTCVR，其中:

i) pCVR由各模型分别估计，
ii) pCTR的估计，采用一个相同的、独立训练的CTR网络（结构和超参数与BASE模型相同）。

Both of the two tasks split the first 1/2 data in the time sequence to be training set while the rest to be test set.

两个任务，都按照时间顺序，将前1/2时间的数据分割为训练集，其余的作为测试集（注：避免时间穿越）。

Area under the ROC curve (AUC) is adopted as performance metrics. All experiments are repeated 10 times and averaged results are reported.

选取AUC作为性能指标。所有实验均重复10次，取其平均值，作为报告结果（注：10折交叉验证）。

3.2 公开数据集（少量）实验结果 Results on Public Dataset

Table 2 shows results of different models on public dataset.

表2显示了公开数据集上不同模型的结果。

(1) Among all the three variations of BASE model, only AMAN performs a little worse on CVR task, which may be due to the sensitive of random sampling. OVERSAMPLING and UNBIAS show improvement over BASE model on both CVR and CTCVR tasks.

(1) 在三种BASE模型的变种中，只有AMAN模型在CVR任务上表现稍差，这可能与随机抽样的敏感性有关。在CVR和CTCVR任务中，过采样和UNBIAS均优于BASE模型。

(2) Both DIVISION and ESMM-NS estimate pCVR over entire space and achieve remarkable promotions over BASE model. Due to the avoidance of numerical instability, ESMM-NS performs better than DIVISION.

(2) DIVISION和ESMM-NS模型，均在整个（注：曝光）空间对pCVR进行估计，相比于BASE模型取得了显著提升。由于避免了数值不稳定的问题，ESMM-NS的性能优于DIVISION。

(3) ESMM further improves ESMM-NS. By exploiting the sequential patten of user actions and learning from un-clicked data with transfer mechanism, ESMM provides an elegant solution for CVR modeling to eliminate SSB and DS problems simultaneously and beats all the competitors.

(3) ESMM进一步提升了ESMM-NS的效果。它利用了用户行为的序列模式，并基于迁移学习机制，从未被点击的数据中进行学习，为CVR建模提供了一个优雅的解决方案，可以同时消除样本选择偏差和数据稀疏问题，击败了所有竞争算法。

Compared with BASE model, ESMM achieves absolute AUC gain of 2.56% on CVR task, which indicates its good generalization performance even for biased samples. On CTCVR task with full samples, it brings 3.25% AUC gain. These results validate the effectiveness of our modeling method.

与BASE模型相比，ESMM在CVR任务上获得了2.56%的绝对AUC增益，这表明，即使使用有偏样本，ESMM也具有良好的泛化性能。在全量样本的CTCVR任务中，ESMM模型带来了3.25%的AUC增益。这些结果验证了ESMM建模方法的有效性。

3.3 生产数据集（全量）实验结果 Results on Product Dataset

We further evaluate ESMM on our product dataset with 8.9 billions of samples, two orders of magnitude larger than public one.

进一步的，我们使用了生产数据集，对ESMM模型进行了评估，样本数量89亿，比公开数据集大两个数量级。

To verify the impact of the volume of the training dataset, we conduct careful comparisons on this large scale datasets w.r.t. different sampling rates, as illustrated in Fig.3.

为了验证训练集大小对模型的影响，我们使用这个大规模数据集，进行了精细的对比实验，通过不同抽样比例，如图3所示。

First, all methods show improvement with the growth of volume of training samples. This indicates the influence of data sparsity. In all cases except AMAN on 1% sampling CVR task, BASE model is defeated.

首先，随着训练集样本量的增加，所有的算法效果均有提高。这说明了数据稀疏性对模型的影响。在所有情况中，除了【CVR任务 + 1%训练集 + AMAN模型】这一组数据，BASE模型的效果都相对较差。

Second, ESMM-NS and ESMM outperform all competitors consistently w.r.t. different sampling rates. In particular, ESMM maintains a large margin of AUC promotion over all competitors on both CVR and CTCVR tasks.

其次，在不同采样率下，ESMM-NS 和 ESMM始终优于所有其他算法。尤其是ESMM，相比于其他算法，ESMM始终保持着很大的AUC提升，无论在CVR还是CTCVR任务。

BASE model is the latest version which serves the main traffic in our real system. Trained with the whole dataset, ESMM achieves absolute AUC gain of 2.18% on CVR task and 2.32% on CTCVR task over BASE model. This is a significant improvement for industrial applications where 0.1% AUC gain is remarkable.

BASE模型是我们实际系统中使用的最新版本，为大部分交易提供着支持。使用全量数据集训练的ESMM模型，与BASE模型相比，可以在CVR任务中达到2.18%的AUC绝对增益，在CTCVR任务中达到2.32%的AUC绝对增益。在工业应用中，这是一个显著的提升，因为（注：在工业应用的场景中）即使只带来0.1%的AUC增益，也是重要的成就（注：将带来可观的的经济收益增长）。

4 总结与后续 CONCLUSIONS AND FUTUREWORK

In this paper, we propose a novel approach ESMM for CVR modeling task. ESMM makes good use of sequential patten of user actions.

在本文中，我们提出了一种新的方法ESMM，用于CVR建模。它很好地利用了用户操作的序列模式。

With the help of two auxiliary tasks of CTR and CTCVR, ESMM elegantly tackles challenges of sample selection bias and data sparsity for CVR modeling encountered in real practice.

在CTR和CTCVR两项辅助任务的帮助下，ESMM优雅地解决了样本选择偏差和数据稀疏问题，这两个问题在CVR建模的实际应用中会经常遇到。

Experiments on real dataset demonstrate the superior performance of the proposed ESMM.

在实际数据集上的实验，证明了本文提出的ESMM模型的优越性能。

This method can be easily generalized to user action prediction in scenario with sequential dependence.

该方法可以轻易地推广到（注：其他）用户行为预测任务中，在该场景下，用户行为具有序列依赖性。

In the future, we intend to design global optimization models in applications with multi-stage actions like request → impression → click → conversion.

在未来，我们希望设计全局最优的模型，应用到具有多步行为的任务中，例如请求 → 曝光 → 点击 → 转化。

(The End)

你可能感兴趣的:(论文,推荐算法,深度学习,人工智能,推荐系统,深度学习,机器学习)

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【软考高级系统架构论文】论企业集成平台的理解与应用 _Richard_ 2025年软考系统架构师系统架构
论文真题请围绕“企业集成平台的理解与应用”论题，依次从以下三个方面进行论述。概要叙述你参与管理和开发的、采用企业集成平台进行企业信息集成的软件项目以及你在其中所承担的主要工作。请给出至少4种企业集成平台应具有的基本功能，并对这4种功能的内涵进行简要阐述。具体阐述你参与管理和开发的项目是如何使用企业集成平台进行企业信息集成的，并围绕上述4种功能，详细论述在集成过程中遇到了哪些实际问题，是如何解决的。
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
根包含文件——Luaconf.h (src)收藏 skyremember lua integer 编译器 alignment 数据结构 c
根包含文件——Luaconf.h(src)收藏新一篇:C1902|旧一篇:Lock-free论文集functionStorePage(){d=document;t=d.selection?(d.selection.type!='None'?d.selection.createRange().text:''):(d.getSelection?d.getSelection():'');void(key
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
软件架构师论文_论基于架构(ABSD)的软件设计方法及应用 June_Xiao 软件架构师架构
2022年的论文题目是基于CBSD的软件设计方法及应用，本人写了基于ABSD的软件设计方法及应用，论文离题拿了3x分，悲催，这是我的第一次考架构师，是最后一次手写版考试，是最有可能通过的一次。下面是我的论文。论基于架构的软件设计方法及应用摘要2020年5月，我司中标了某省联网收费的省站直传项目，该项目将建设一套全省收费站与省中心相互通信传输数据的平台，主要分为上传、下发、监控三个子系统。，包括收费
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
End-To-End 之于推荐-kuaishou OneRec 笔记 ASKED_2019 RecSys 笔记
核心思想OneRec提出了一种统一的生成式推荐系统架构，打破了传统“召回-粗排-精排”级联式推荐流程，使用单一生成模型同时完成召回与排序任务。该系统由快手团队研发，并成功部署于短视频主场景。OnlineA/BTest表现：模型总观看时长平均观看时长OneRec-1B+IPA+1.68%+6.56%一Input处理Userpositiveactionsequence，将短视频的多模态表征，通过量化的
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本