ChristineC_

深度学习推荐系统

互联网的增长引擎 —— 推荐系统
前深度学习时代 —— 推荐系统的进化之路

协同过滤

UCF
ICF
UCF和ICF的应用场景

矩阵分解
LR
FM

极简的FM召回模型
融入上下文特征的FM召回模型
FM模型替代多路召回

FFM
GBDT+LR
LS-PLM(Large-Scale Piece-wise Linear Model)

浪潮之巅 —— 深度学习在推荐系统中的应用

AutoRec - 单隐层神经网络推荐模型
Deep Crossing模型
NeuralCF 模型
PNN 模型
Wide&Deep 模型
Deep&Cross模型（DCN）
FM与深度学习模型的结合

FNN
DeepFM
NFM

注意力机制在推荐模型中的应用

DIEN - 序列模型与推荐系统的结合
强化学习和推荐系统的结合

Embedding 技术在推荐系统中的应用

什么是Embedding

Word2Vec
Item2Vec
“广义”的Item2Vec
Graph Embedding

DeepWalk
Node2Vec
EGES

多角度审视推荐系统

特征工程

特征源
特征处理方法

召回层
推荐系统的实时性

特征的“实时性”
模型的“实时性”

确定推荐系统中的优化目标
推荐系统中比模型结构更重要的是什么
冷启动的解决方法

基于规则的冷启动过程
丰富冷启动过程中可获得的用户和物品特征
利用主动学习、迁移学习和“探索与利用”机制

知识蒸馏

召回

MOBIUS，百度凤巢

排序

深度学习推荐系统的工程实现

推荐系统的数据流
推荐模型离线训练之Spark MLLib
推荐模型离线训练之Parameter Server
推荐模型离线训练之Tensorflow
在线部分

召回
粗排（可选）
排序
业务策略

近线部分
离线部分

推荐系统的评估

离线

召回
排序

线上 - AB实验

深度学习推荐系统的前沿实践

Facebook

GBDT+LR
DLRM (Deep Learning Recommender Model)

Airbnb
Youtube

召回
排序
训练技巧

阿里

ESMM

构建属于你的推荐系统知识框架
参考

互联网的增长引擎 —— 推荐系统

推荐系统要处理的是“人”和“信息”的关系，信息包括“用户信息”、“商品信息”、“场景信息”
推荐系统的数据按照实时性的强弱排序为：
- 客户端及服务器端实时数据处理
- 流处理平台准实时数据处理
- 大数据平台离线数据处理
得到原始数据之后，需要数据加工得到的数据有：
- 推荐模型所需的样本数据，用于算法模型的训练和评估
- 推荐模型服务（model serving）所需的“特征”，用于推荐系统的线上推断
- 系统监控、商业智能（Business Intelligence，BI）系统所需的统计型数据
模型训练分为：
- 离线训练：利用全量样本和特征，使模型逼近全局最优点
- 在线更新：准实时地“消化”新的数据样本，更快地反映新的数据变化趋势

前深度学习时代 —— 推荐系统的进化之路

传统推荐模型的优点：

可解释性强
硬件环境要求低
易于快速训练和部署

传统推荐模型的演化关系图

协同过滤

缺点：

因为只引入了用户和商品之间的行为数据，导致头部内容更容易和其他内容相似，而长尾内容因为稀疏的行为向量，很难被推荐出去
数据单一、泛化能力差

UCF

用户相似度计算

余弦相似度：计算用户i和用户j之间的向量夹角大小，夹角越小，说明两个用户更相似
$\frac{i * j}{||i|| * ||j||}$
皮尔逊相关相似度：
- 使用用户平均分对评分进行修正，减小了用户偏置带来的影响
  $\frac{\sum_{p\in P} (R_{i,p} - \bar{R_i}) (R_{j, p} - \bar{R_j})}{\sqrt{\sum_{p\in P} (R_{i,p} - \bar{R_i})^2} \sqrt{\sum_{p\in P} (R_{j,p} - \bar{R_j})^2}}$
- 使用物品平均分对评分进行修正，减小了物品偏置对结果的影响
  $\frac{\sum_{p\in P} (R_{i,p} - \bar{R_p}) (R_{j, p} - \bar{R_p})}{\sqrt{\sum_{p\in P} (R_{i,p} - \bar{R_p})^2} \sqrt{\sum_{p\in P} (R_{j,p} - \bar{R_p})^2}}$

缺点

在互联网场景下，一般用户数远远大于物品的数量，因此用户相似度矩阵的存储开销会非常大
用户历史数据向量一般都比较稀疏，所以对于购买或者点击行为非常少的用户，寻找相似用户不是非常准确。不适用于低频购买的场景，例如airbnb、大额商品购买等等

ICF

物品相似度的计算方法同上

UCF和ICF的应用场景

新闻推荐场景：UCF
- 用户对新闻的兴趣点是分散的，新闻的时效性和热度往往是更重要的属性，UCF通过发现相似用户喜欢什么可以更好地发现热点和跟踪热点的趋势
电商和视频推荐场景：ICF
- 用户的兴趣点相对比较稳定，在一段时间内，更适合推荐相似的物品

矩阵分解

优点：

解决了协同过滤中处理稀疏共现矩阵的问题，增强模型的泛化性。原理：隐向量的生成基于全局的信息，不像CF，如果两个用户没有相同的购买行为，那么他俩的相似度为0
相比于CF，空间复杂度降低，从 $n^2$ 降到了 $(n + m) * k$

缺点：

没法引入用户侧、物品侧的其他特征和上下文特征

算法：

把用户和物品稀疏共现矩阵分解成用户和物品稠密矩阵的乘积，每一个用户/物品用一个k维的向量表示，k越小，向量包含的信息量越少，模型的泛化能力越强

LR

sigmoid函数 $\frac{1}{1+e^{-(w*x+b)}}$

优点：

数学含义上的支撑
可解释性强
工程需要

缺点：

表达能力不强
需要人工做特征交叉、特征筛选，可能造成“辛普森悖论”的错误结论
辛普森悖论：在分组实验中（交叉特征）都占优势的一方，可能在总评中（单一特征）反而是失势的一方

FM

$v_i$ ， $v_j$ 是特征 $x_i$ ， $x_j$ 对应的embedding（每个特征值都学习到一个隐向量），特征组合 $x_i x_j$ 对应的权重使用 $< v_{i}, v_{j} >$ 表示。这样做的好处在于提高模型的泛化能力，即使特征组合 $x_i x_j$ 没有出现过，只要 $x_i$ ， $x_j$ 对应的embedding学习到，在预测过程中，新的组合 $x_i x_j$ 的权重也能得到。

时间复杂度：O(kn)，k是embedding size，n是特征个数（时间复杂度和FM公式推导详见：https://zhuanlan.zhihu.com/p/58160982）

极简的FM召回模型

如上图，离线训练FM模型得到所有特征embedding。离线计算每个用户特征子集embedding向量相加，形成用户向量，存储在Redis。物品向量的计算方式和用户向量相似，可以离线计算或者近在线计算，存储在Faiss数据库中。线上召回阶段，用户embedding（U）和物品embedding（I）做内积计算得到评分，召回Top K物料作为召回结果。

融入上下文特征的FM召回模型

在线动态查询上下文特征，上下文特征向量相加形成上下文embedding C
计算用户特征和上下文特征的二阶特征组合得分，Score =
将U和C向量累加求和，使用（U+C）去Faiss通过内积方式召回Top K物品，同时考虑了U和I的组合特征、C和I的组合特征
步骤3中召回物品的score加上步骤2中的score，对物品进行重排

FM模型替代多路召回

把每一路召回通道中的特征加入到FM模型中，例如替换地域召回，可以在FM模型中加入用户感兴趣的地域和物品的地域进行学习召回；协同过滤召回，可以在FM模型中加入user id和item id进行学习，当id量巨大并且非常稀疏时，可以使用ID哈希等降维技巧进行解决。
线上替换时，保守方法是使用FM模型一路一路替换，并线上测试，也可以多路一起替换，小流量AB测试效果。

TODO：ID哈希等降维技巧

FFM

$w_0 + \sum_{i=1}^n w_i * x_i + \sum_{j_1 =1}^n \sum_{j_2=j_1 +1}^n (w_{j_1, f_2 }*w_{j_2, f_1)}x_{j_1}x_{j_2}$
在FFM模型训练中，需要学习n个特征在f个特征域上的k维隐向量，复杂度为 $k*n^2$ ，远大于FM的复杂度

GBDT+LR

GBDT和LR的训练是分开的，GBDT自动形成特征组合，例如深度为4的决策树，经过3次分裂，最终形成3阶特征交叉
特征转换：GBDT训练出多棵子树，原始特征向量x经过GBDT，形成one-hot向量，落入的叶子结点为1，其余为0

LS-PLM(Large-Scale Piece-wise Linear Model)

阿里巴巴2012年开始应用在电商场景的推荐模型，结构与3层神经网络相似，又称MLR(Mixed Logistic Regression)
$\sum_{i=1}^m \pi_i(x)*\eta_i(x) = \sum_{i=1}^m\frac{e^{\mu_i*x}}{\sum_{j=1}^me^{\mu_j*x}}*\frac{1}{1+e^{-w_i*x}}$
思路： 样本应该被区分对待，例如，在给女性推送女装广告时不应该引入男性购买数码产品的样本，因此，先使用softmax对样本进行聚类。然后对于每一个类别的样本，分别使用LR进行预测。因此，最后的概率是softmax和sigmoid的乘积。
参数： “分片数” m=1时，MLR变成LR，m越大，模型的拟合能力越强，所需的参数也越多，因此需要的训练样本也越多，阿里的经验是m=12
优点：

端到端的非线性学习能力
模型的稀疏性强：引入L1和L2 regularization，使得模型具有很高的稀疏性，部署轻便，在线推断的效率也更高

浪潮之巅 —— 深度学习在推荐系统中的应用

优点：（1）表达能力更强，能挖掘出更多数据中潜藏的模式（2）模型结构更灵活，使模型和业务场景结合得更紧密

AutoRec - 单隐层神经网络推荐模型

时间：2015年
原理：利用协同过滤中的共现矩阵，完成物品和用户向量的自编码
自编码器：向量r作为输入，通过自编码器后（重建函数h），得到的输出向量尽量接近其本身 $\sum_{r\in S}||r-h(r;\theta)||_2 ^2$
- 优点：（1）重建函数的参数数量远小于输入向量的维度数量，因此自编码器相当于完成了数据降维和压缩的工作（2）输出向量的“泛化”能力更强
数据：m个用户对n个物品的评分矩阵，缺失值用默认值或者平均分值表示
模型结构：一层隐藏层，使用L2 Regularization
推荐过程：
- U-AutoRec：输入为用户的评分向量，输出为预估的这个用户对所有物品的评分
- I-AutoRec：输入为物品的评分向量，输出为预估的用户对这个物品的评分，所以需要遍历所有的物品向量才能得到
I-AutoRec的缺点是每次给用户作推荐时需要遍历所有的物品，用U-AutoRec可以一次得到所有预估的评分，但是输入较稀疏会影响模型效果。

Deep Crossing模型

时间：2016年
应用场景：微软搜索引擎Bing的搜索广告推荐
模型结构

- Embedding层：使用全连接层把稀疏向量（Feature#1 one-hot编码后的稀疏特征向量）稠密化，形成embedding vector
- Stacking层：categorical feature和numerical feature都concat到一个向量
- Multiple Residual Units层：使用多层residual network对特征向量的各个维度进行特征交叉
	-  Residual Unit（残差单元）：（1）输入经过两层以ReLU为激活函数的FC层后，生成输出向量；（2）输入可以通过一个短路（shortcut）通路直接与输出向量进行element-wise plus操作，生成最终的输出向量 
- Scoring层：sigmoid

NeuralCF 模型

时间：2017年
应用场景：
模型结构：

- 输入是用户-物品共现矩阵，没有引入side information
- element-wise product：两个相同维度向量的对应维相乘得到另一向量
- MF vector和MLP vector可以分别训练，不需要共享

PNN 模型

时间：2016年
思想：特征交叉的几种设计思路
模型结构：

- 输入包括了用户信息、物品信息、和其他来源的数据
- 使用Product层取代了deep crossing里的Stacking层，获取特征交叉信息。
- inner product
- outer product：特征两两相乘后生成一个M*M的方形矩阵，为了降低维度，对每一个方形矩阵做average pooling。但这样做需要谨慎对待，因为average pooling一般应用于同类embedding上，比如多个item embeddings，而在这里，不同特征的向量可能并不在同一个向量空间中。

Wide&Deep 模型

时间：2016年
应用场景：Google Play商店
模型结构：

Wide：使用逻辑回归使得模型具有“记忆能力”，表示模型直接学习并利用历史数据中物品或者特征的“共现频率”
Deep：是有DNN使得模型具有“泛化能力”，表示模型传递特征的相关性，以及挖掘稀疏甚至从未出现过的特征与最终标签之间的相关性

Deep&Cross模型（DCN）

时间：2017年
应用场景：
模型结构：

基于wide&deep模型的改进
cross网络：特征自动交叉， $x_l$ 是第l层的输出向量，那么第l+1层的输出向量为： $x_{l+1} = x_0 x_l ^T w_l + b_l + x_l$ ，其中 $w_l$ 为特征交叉的权重， $b_l$ 为偏置项

FM与深度学习模型的结合

FNN

时间：2016年
应用场景：
模型结构：

Embedding 层：原先embedding层使用随机初始化，因为embedding的输入极端稀疏，因此收敛速度非常缓慢。FNN使用FM模型预训练各个特征的embedding，作为输入层到embedding层的初始连接权重。这里要注意的是，FM模型训练embedding的时候没有区分特征域，而FNN把特征分成了不同的特征域，因此每一个特征域有一个对应的embedding层。

DeepFM

时间：2017年
应用场景：
模型结构

- wide部分使用FM模型替代，加强了浅层网络部分特征组合的能力，FM对不同特征域的embedding作两两交叉
- wide和deep部分共享embedding层

NFM

时间：2017年
应用场景：
模型结构

替代FM模型中二阶部分的网络结构如上。在Embedding Layer和FC Layer之间加入Bi-interaction Pooling Layer，不同特征域的embedding进行两两element-wise product，再对每一个交叉特征求和输出到FC Layers
一阶部分已省略

注意力机制在推荐模型中的应用

AFM

时间：
应用场景：
模型结构

NFM模型的延续，在pair-wise interaction layer和pooling layer之间加入attention network来学习交叉特征的权重 $a_{ij}' = h^T ReLU(W(v_i \odot v_j)x_i x_j + b)$ $a_{ij} = \frac{exp(a_{ij}')}{\sum_{(i,j)\in R_x}exp(a_{ij}')}$

DIN

时间：
应用场景：阿里巴巴的电商广告推荐
模型结构：

$V_u = f(V_a) = \sum_{i=1}^N w_i * V_i = \sum_{i=1}^N g(V_i, V_a)*V_i$ ， $V_u$ 是用户embedding， $V_a$ 是候选广告商品的embedding， $V_i$ 是用户u的第i次行为的embedding向量（=那次浏览的商品embedding或者商铺embedding），每个行为的权重就是attention（那一次行为和候选广告商品的相关性）

DIEN - 序列模型与推荐系统的结合

时间：2019年
应用场景：阿里巴巴的商品广告推荐
模型结构：

用序列模型模拟了用户兴趣的进化过程，具有强大的时间序列的表达能力
序列信息的重要性：（1）加强了最近行为对下次行为的影响；（2）序列模型能够学习到购买趋势的信息，例如在全局统计意义上，“篮球鞋”到“机械键盘”的转移概率够高，那么这么推荐比较合理，且说明二者的用户人群很有可能是一致的
兴趣进化网络
- 行为序列层（Behavior Layer）：id类行为序列转换成embedding行为序列
- 兴趣抽取层（Interest Extractor Layer）：通过模拟用户兴趣迁移过程，抽取用户兴趣
  - 模型结构：GRU
- 兴趣进化层（Interest Evolving Layer）：在兴趣抽取层的基础上加上attention，模拟与候选广告相关的兴趣进化过程
  - 模型结构：AUGRU（GRU with Attentional Update gate）

强化学习和推荐系统的结合

定义：针对智能体（Agent）在不断变化的环境（environment）中决策和学习的过程进行建模
学习过程：在智能体的学习过程中，会完成收集外部反馈（Reward），改变自身状态（State），再根据自身状态对下一步的行动进行决策（Action）

DRN

推荐模型 - DQN
- 状态向量：用户特征、环境特征
- 行为向量：用户-行为交叉特征、新闻特征
关键环节：
- PUSH：在每一个时刻，当用户发生请求时，Agent都根据当前的State推送K篇新闻，推荐结果是exploitation和exploration的结合
- FEEDBACK：用户对推荐结果的点击行为
- MINOR UPDATE：在每个时间点，根据用户的信息（State）、推荐的新闻（Action）和反馈（Reward），Agent会评估exploitation模型Q和exploration模型 $\tilde Q$ 的效果，如果Q效果更好，则模型保持不变，反之，Q的参数向 $\tilde Q$ 变化
  - DRN的在线学习方法——竞争梯度下降算法（Dueling Bandit Gradient Descent Algorithm），模型参数W中加入较小的随机扰动生成新的模型参数 $\tilde W$ ，公式如下 $\Delta W = \alpha * rand(-1, 1) * W$
- MAJOR UPDATE ：经过一段时间后，基于历史数据统一更新exploitation模型Q

Embedding 技术在推荐系统中的应用

进化过程：处理序列样本 -> 处理图样本 -> 处理异构的多特征样本

什么是Embedding

Embedding能够获取词之间的语义关系、词性关系、通用知识等

Word2Vec

CBOW：使用周围的词预测中间的词
Skip-Gram：使用中间的词预测周围的词，效果普遍更好
- 目标函数： $\frac{1}{T}\sum_{t=1}^T \sum_{-c\le j\le c, j \ne 0} log\ p(w_{t+j}|w_t)$
- 概率公式： $p(W_o|W_I) = \frac{exp(V_{W_O}'^TV_{W_I}') }{\sum_{w=1}^W exp(V_{W}'^TV_{W_I})}$ ，其中 $V_{W_o}$ 和 $V_{W_I}$ 分别是词w的输入和输出向量，不在一个向量空间内
- 负采样训练：随机采样一些负样本（通常小于10个），计算预测误差

Item2Vec

基本思想：学习序列中商品的embedding
与Word2Vec的不同：摈弃时间窗口，认为一个行为序列中任意两个物品都是关联的

“广义”的Item2Vec

双塔模型：用户DNN+物品DNN，物品DNN的输入为物品侧的所有特征，与Item2Vec只用了id类特征相比，包含了更多的信息，经过多层DNN后生成了物品embedding
缺点：只能用序列数据

Graph Embedding

基本思想：对图结构里的节点进行embedding编码，最终生成的embedding向量一般包含图的结构信息以及附近节点的局部相似性信息

DeepWalk

时间：2014年
模型结构：

基于用户的行为序列，形成由物品组成的图结构
- 如果是有向有权图，那么边的权重和节点a到节点b出现的次数成正比 $p(v_j|v_i) = \frac{M_{ij}}{\sum_{j\in N_+(v_i)}M_{ij}}, if \ v_j \in N_+(v_i), else \ 0$ ，其中 $N_+(v_i)$ 是节点 $v_i$ 所有的出边集合
- 如果是无向无权图，那么 $M_{ij}=1$ ， $N_+(v_i)$ 是所有边的集合
在（1）图结构上进行随机游走随机选择起始点，形成大量物品序列
（2）中的物品序列作为word2vec的输入，训练得到物品embedding

Node2Vec

时间：2016年
基本思想：通过调整随机游走权重的方法使得graph embedding的结果更能体现网络的“同质性”和“结构性”

同质性：距离相近的节点的embedding应该相似
结构性：结构相似的节点的embedding应该相似

基于边的预测任务，DeepWalk是基于节点的预测任务

模型结构：

两种生成k个节点的邻居集合 $N_S(u)$ 的取样策略：

DFS：向远处游走从而描绘出网络的宏观特征，学习网络的同质性
BFS：在局部游走从而保留节点的社区信息，保留了节点在特征空间中的网络邻居信息，学习结构上的相似性

从节点v跳转到下一个节点x的概率 $\pi_{vx} = \alpha_{pq}(t,x)*\omega_{vx}$ ，其中 $\omega_{vx}$ 是边vx的权重， $\alpha_{pq}(t,x)$ 的定义如下：
$\alpha_{pq}(t,x) = \left\{ \begin{array}{ll} \frac{1}{p} & \quad if\ d_{tx}=0 \\ 1 & \quad if\ d_{tx}=1 \\ \frac{1}{q} & \quad if\ d_{tx}=2 \end{array} \right.$

p为返回参数，当p>max(1,q)时，往回游走的概率相对较小，这样重新对已经访问过的节点进行访问的可能性会更小，这样的策略可以鼓励向外探索并且避免跳到已经访问过的节点造成冗余。当p
q为进出参数，当q>1时，有助于获得源节点的局部视图，更像BFS。当 q<1时，随机游走会离之前访问过的点越来越远，这种向外探索的策略更像是DFS。

EGES

Enhanced Graph Embedding with Side Information
时间：
基本思想：利用side information增强graph embedding，解决了扩展性、稀疏性和冷启动问题
模型结构：
GES模型：skip-gram模型的输入为物品的网络结构和物品的side information，输出为item embedding和每一个特征的embedding，使用average pooling整合一个物品的所有embedding
EGES模型：学习embedding的权重，使用加权求和的方法整合一个物品的所有embedding

多角度审视推荐系统

特征工程

特征源

用户行为数据（显性&隐性）：挖掘用户的潜在兴趣、用户对物品的真实反馈
用户关系数据
- 强关系：互相关注、好友关系等
- 弱关系：互相点赞、同在一个社区等
- 用途：（1）一种召回方式（2）使用graph embedding的方法生成user embedding和item embedding（3）引入好友的属性作为用户的新特征
属性、标签类数据（用户&物品）
内容类数据（文字、图片、视频）
上下文信息（时间、地点、季节、月份、是否节假日、天气等）
统计类特征（历史CTR、历史CVR、热门程度、流行程度等）：统计类特征往往和目标有强关联
组合类特征

特征处理方法

连续型特征
- 归一化
- 离散化：防止模型过拟合和数据分布不均的问题
- 非线性函数：原始特征和非线性转换后的特征加入模型中增强模型的非线性能力
  - $x^a, log(a), log(\frac{x}{1-x})$
类别型特征
- one-hot（multi-hot） encoding：当特征向量过大很稀疏时，模型容易欠拟合，并且当模型参数过多时，模型收敛速度慢，所以使用embedding学习表示作为模型输入

召回层

多路召回的各通道策略和业务强关联。每一路的召回个数K是个超参数，可以通过线上A/B test确定
使用基于Embedding的召回方法，取代传统的多路召回，把多路召回每一路的特征作为side information加入到embedding学习模型中

确定推荐系统中的优化目标

考虑真正的商业目标和业务场景，力图在训练模型的阶段“仿真”预测阶段的场景和目标。

冷启动的解决方法

冷启动分类
- 用户冷启动：针对刚注册的新用户的个性化推荐
- 物品冷启动：没有历史行为数据的新物品的推荐
- 系统冷启动：缺乏所有历史行为数据的推荐

基于规则的冷启动过程

使用“热门排行榜”、“最近流行趋势”、“最高评分”等榜单作为默认推荐列表
制定规则时，需要依赖业务领域知识
用户冷启动：利用点击率等目标构建基于用户属性的决策树，然后在相应的决策树节点建立冷启动榜单
物品冷启动：利用物品相似度作推荐
- Airbnb：基于物品属性作聚类，同一类别内的物品有相同的推荐规则。使用的物品属性：（1）同样的价格范围（2）相似的房屋属性（面积、房间数等）（3）距目标房源的距离在10公里以内

丰富冷启动过程中可获得的用户和物品特征

在推荐模型中不止使用历史数据特征，加入用户和物品的属性特征帮助模型冷启动

利用主动学习、迁移学习和“探索与利用”机制

探索与利用

传统的探索与利用方法：MAB（Multi-armed Bandit Problem），针对老虎机的优化问题，不是个性化推荐
- $\epsilon$ -Greedy算法：以 $\epsilon$ 的概率随机选取一个老虎机进行探索，以1- $\epsilon$ 的概率选择当前平均收益率最高的一个老虎机，每次选取后，更新老虎机的回报期望
  - 缺点：经过一段时间后，应该减小 $\epsilon$ 来降低探索的频率。另外，对于收集足够信息的老虎机，应该减少探索的概率，而应该增加探索不常被选择的老虎机。
- Thompson Sampling算法：假设每个老虎机能够赢钱的概率为p~beta(win, lose)，在每次摇臂前，根据beta分布对每一个老虎机生成一个随机数b，选取b最大的老虎机进行探索，然后更新beta分布。
  - 优点：当尝试次数很多时，beta分布的离散程度越小，生成的随机数在收益期望附近，所以老虎机要么有很大的概率被选中或者有很大的概率不被选中。而当尝试次数不够多时，分布的离散程度很大，就会有更大的概率被探索，给新物品更多的机会被曝光。
- UCB（Upper Confidence Bound）： $\bar x_j$ 是物品j的平均回报率（点击率、阅读时长、转化率、播放率等），n是所有物品的曝光次数之和， $n_j$ 是物品j的曝光次数。从公式中可以看出，UCB算法倾向于效果好（ $\bar x_j$ ）或者冷启动（ $n_j$ 小）物品。
  $\bar x_j + \sqrt \frac{2ln(n)}{n_j}$
个性化的探索与利用方法：在传统EE算法中加入上下文信息，又称contextual-bandit algorithm
- LinUCB算法（yahoo）
  - 缺点：假设推荐模型是线性的，难以应用到深度学习模型上
基于模型的探索与利用方法：DRN

知识蒸馏

召回

MOBIUS，百度凤巢

上图左边是凤巢之前做广告推荐得了流程，右边是MOBIUS多目标模型结构。

之前的问题：召回层召回query-ad关联度高的pair，排序层预测CPM（=CTR*BID），会发现ad和query关联度高但是CPM低，不能投放，这就是召回和排序目标不一致导致的问题。
改进：召回层使用多目标，query-ad relevance和CPM $\sum_{i=1}^n CTR(user_i, ad_i, query_i)*bid_i \\ s.t. \frac{1}{n} \sum_{i=1}^n relevance(query_i, ad_i)\leq threshold$
Active Learning训练过程

召回模型作为teacher，排序模型作为student，排序模型需要在扩充的数据集上重新训练，因为使用之前在高频query-ad训练集上训练出的排序模型，对于高频出现的ad，即使和它相关度很低的query，ctr也很高，导致推荐的ad低关联度。所以需要训练出一个能够推荐高关联度高CTR的模型。
训练过程：

data augmentation：取一批历史记录里的query-ad pairs，假设有m个query，n个ad，可以组成m*n pairs，计算这些pairs的关联度，设置一个threshold，使得低关联度的数据也能进ctr模型进行训练。
learning ctr model：1中的数据喂进ctr模型后，把低关联度高ctr的数据标注为“bad case”，使ctr模型重新训练，然后load下一批训练数据重复第一步，直到ctr模型可以区分出低关联度的样本。

排序

深度学习推荐系统的工程实现

在线部分

召回

把推荐给用户的物品降到千以下规模
目标：使用少量特征和简单模型，把用户可能感兴趣的物品都找到，保证泛化能力

粗排（可选）

如果召回后物品还是太多，使用简单排序模型进行进一步筛选

排序

使用复杂模型对物品进行精准排序
目标：使用大量特征和复杂模型，保证模型预测的精准性

业务策略

去已读，推荐多样化，加入广告

近线部分

实时收集用户反馈，选择训练实例，实时抽取拼接特征，近乎实时地更新在线推荐模型，好处在于实时把握用户的最新兴趣

离线部分

整理离线训练数据，周期性地更新推荐模型。

深度学习推荐系统的前沿实践

Facebook

GBDT+LR

GBDT部分几天更新一次，LR部分准实时更新
异常检测机制：当实时样本溜的数据分布发生变化时，立即切断在线学习的过程，防止预测模型受到影响
降采样
- uniform subsampling：所有样本均匀采样
- negative down sampling：保留所有正样本，负样本降采样。负采样导致CTR预估值的漂移，在广告点击率预估时，为了进行准确的竞价及ROI预估，对CTR进行校正， $\frac{p}{p+(1-p)/w}$ ，其中p是模型预估的CTR，w是负采样频率。

DLRM (Deep Learning Recommender Model)

Embedding部分使用模型并行，每一个节点只更新自己节点上的部分Embedding层参数
MLP部分使用数据并行，每一个设备上已经有了全部模型参数，并利用部分数据进行梯度更新，最后使用AllReduce的方法汇总所有梯度进行参数更新

Airbnb

Embedding
- 用户短期兴趣使用listing id embedding表示，用于房源的相似推荐，以及session内的实时个性化推荐
  - 一个房源序列是指，用户的一次搜索过程中所有的点击房源，但是不包括停留时间少于30秒的房源，并且如果用户超过30分钟没有操作，则认为session终止
  - 房源序列分为预定会话和探索型会话，预定会话是指最终有预定行为，没有的则为探索型会话
  - 使用skip-gram model和负采样学习listing embedding，并且在每个预定会话中，把预定行为引入目标函数，相当于引入了一个全局上下文（global context）到目标函数中，另外，因为用户倾向于探索同一市场下的房源，所以在目标函数中加入同一市场内的负采样
    $argmax_\theta \sum_{(l,c)\in D_p} log \frac{1}{1+e^{-V_c'V_l}} +\sum_{(l,c)\in D_n} log \frac{1}{1+e^{-V_c'V_l}} + log \frac{1}{1+e^{-V_{l_b}'V_l}} + \sum_{(l,m_n)\in D_{m_n}} log \frac{1}{1+e^{-V_{m_n}'V_l}}$
  - 新房源的冷启动，使用附近3个同样类型、相似价格的房源向量进行平均得到新房源的embedding
  - 校验embedding，使用k-means，检验房源location是否合理聚类，使用cosine similarity，校验房源在type和price range维度是否相似
- 用户长期兴趣embedding，加入用户之前的预定偏好
  - 因为用户预定的房源个数和房源被预定次数都非常少，很难使用word2vec模型学习到稳定的embedding，因此，先对用户和房源基于属性进行聚类，生成不同user type和listing type。这样，一个user id的预定历史组成了一个预定序列{( $u_{type1})$ , $l_{type1})$ ), ( $u_{type2})$ , $l_{type2})$ ), …, ( $u_{typeM})$ , $l_{typeM})$ )}，其中，随着时间的变化，同一个user id 的user type也会发生变化。
  - 使用word2vec模型和负采样进行学习，因为用户在不同的时间会预定不同市场的房源，因此在这里，不需要在同一市场内进行负采样。但是如果用户得到explicit rejection，会引入到目标函数中。
- Query Embedding，与user embedding类似，把query和listing在同一向量空间进行embedding，以此来学习query的语义信息
实时搜索排序模型
- 使用user embedding和listing embedding之间的相似度得到各维度特征，例如候选房源类型和用户类型相似度（长期）、候选房源与用户点击房源相似度（短期）等等
- 排序模型使用的是支持pairwise lambda rank的GBDT模型
物品冷启动
- 因为新物品缺乏user engagement features，像历史点击率、预定率等等，并且排序模型强依赖这些特征，预测user engagement features就变得很重要。
- 方法：对于一个新的listing，寻找这个listing地点附近、较短时间窗口内拥有相同guest capacity的listings，使用已知listings的engagement features的平均数作为新listing的特征

Youtube

召回

输入：用户历史观看视频embedding、搜索词embedding、地理位置embedding、年龄、性别等，这里的embedding有两种方法进行训练，一种是在模型中加入embedding层进行端到端训练，另一种是使用Airbnb的方法进行embedding预训练。
离线训练中，因为输入均为用户侧特征，MLP层的最后输出为用户embedding，softmax的列向量为物品embedding，存储到Redis中供线上检索召回Top K物品

排序

输入引入更多的特征，并且可以对特征进行开方和平方来引入特征的非线性
因为Youtube的业务目标是优化观看时长，所以在离线训练时，使用加权逻辑回归weighted logistic（ $T_i P$ ）作为模型输出层，其中 $T_i$ 为观看时长。在线上服务阶段，使用 $e^{Wx+b}$ （odds）进行预测

训练技巧

在召回阶段中，因为视频库非常庞大，使用负采样减少每次预测的分类
训练集中，每个用户都提取相同数量的训练样本，这样做的目的是减少活跃用户对模型的过多影响
使用用户最后一次观看的视频作为测试集，这样做的目的是防止特征穿越
引入example age特征（训练样本产生的时刻距离当前时刻的时间），在做模型服务时，example age都设置为0

阿里

ESMM

优化：pCTCVR = pCTR * pCVR
模型结构：
- embedding层：CTR和CVR共享。因为CVR数据稀疏，所以需要CTR模型训练更准确的用户和物品的特征表达。
- 主任务：优化pCVR，辅助任务：优化pCTR，最终计算pCTCVR

构建属于你的推荐系统知识框架

参考

Improving Deep Learning For Airbnb Search, 2020-02

你可能感兴趣的:(Recommendation,System)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
CentOS的根目录下，/bin 和 /sbin 用途和权限 Energet!c Linux日常 centos linux 运维
CentOS的根目录下，/bin和/sbin用途和权限一、/bin(Binary)二、/sbin(SystemBinary)三、总结在CentOS的根目录下，/bin和/sbin目录有不同的用途和权限一、/bin(Binary)用途:存放系统的基本命令，这些命令对所有用户都是可用的。例如：ls、cp、mv、rm等。权限:普通用户和系统管理员都可以使用这些命令。二、/sbin(SystemBinar
[Unity]在场景中随机生成不同位置且不重叠的物体 Bartender_Jill Graphics图形学笔记 unity 游戏引擎动画
1.前言最近任务需要用到Unity在场景中随机生成物体，且这些物体不能重叠，简单记录一下。参考资料:Howtoensurethatspawnedtargetsdonotoverlap?2.结果与代码结果如下所示：代码如下所示：usingSystem.Collections.Generic;usingUnityEngine;namespaceAssets.Scripts{publicclassNew
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
k8s证书过期问题处理 olina_qin kubernetes 容器云原生
k8s证书过期问题处理opensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-dateskubeadmcertsrenewallsystemctlrestartkubeleopensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-text|grep"NotAfter"cp/etc/kubernet
如何重启Linux服务器？老男孩IT教育 git linux 运维
在Linux操作系统中，提供了多种方法用于重启服务器，那么Linux服务器如何重启?以下列举了常用的几种方法，希望对大家有所帮助，快来看看吧。重启Linux服务器有以下几种方法：1、使用命令行使用reboot命令reboot使用shutdown命令shutdown-rnow2、使用systemctl使用以下命令：systemctlreboot3、使用web界面大多数现代Linux发行版本都提供一个
PAT Advanced 1015. Reversible Primes (C语言实现) OliverLew
我的PAT系列文章更新重心已移至Github，欢迎来看PAT题解的小伙伴请到GithubPages浏览最新内容。此处文章目前已更新至与GithubPages同步。欢迎star我的repo。题目Areversibleprimeinanynumbersystemisaprimewhose"reverse"inthatnumbersystemisalsoaprime.Forexampleinthedec
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Python实现mysql命令行 xu-jssy python mysql adb
一、源码importosimportpymysqldefsql_shell():password=input("EnterPassword:")#访问密码ifpassword.strip()!="yyds":print("Bye")return#清空控制台输出os.system("cls"ifos.name=="nt"else"clear")try:#连接到MySQL数据库conn=pymysql
Tomcat 中 catalina.out、catalina.log、localhost.log 和 access_log 的区别金色888
打开Tomcat安装目录中的log文件夹，我们可以看到很多日志文件，这篇文章就来介绍下这些日记文件的具体区别。catalina.out日志#catalina.out日志文件是Tomcat的标准输出（stdout）和标准出错（stderr）输出的“目的地”。我们在应用里使用System.out打印的内容都会输出到这个日志文件中。另外，如果我们在应用里使用其他的日志框架，配置了向Console输出日志
华为坤灵路由器配置SSH redmond88 网络技术华为 ssh 运维
配置SSH服务器的管理网口IP地址。system-view[HUAWEI]sysnameSSHServer[SSHServer]interfacemeth0/0/0[SSHServer-MEth0/0/0]ipaddress10.248.103.194255.255.255.0[SSHServer-MEth0/0/0]quit在SSH服务器端生成本地密钥对。[SSHServer]rsalocal-
华为坤灵路由器初始化开局的注意事项，含NAT配置 redmond88 网络技术华为服务器运维
坤灵路由器比较坑，无web界面，全程命令行配置，但是版本更新导致和华为企业路由器配置很多不一样的地方，今天介绍下1、aaa密码复杂度修改：#使能设备对密码进行四选三复杂度检查功能。system-view[HUAWEI]aaa[HUAWEI-aaa]local-aaa-userpasswordpolicyadministrator[HUAWEI-aaa-lupp-admin]passwordcomp
day12 控制流程 if switch while do...while 猜数字游戏卓越小Y JAVA学习日志游戏 java 开发语言
控制流程顺序结构所有的程序都是按顺序执行if语句选择结构单选择语句if(a>0){System.out.println(“hello”);}packagecom.ckw.blog.select;importjava.util.Scanner;publicclassdemo01{publicstaticvoidmain(String[]args){intscore=0;Scannerscanner=
C#文件被占用的解决方案花北城 C#项目文件占用
问题打更新包时，提示文件被占用。System.IO.IOException:文件“D:\RS\RS_CCVI20111210.exe”正由另一进程使用，因此该进程无法访问该文件。在System.IO.__Error.WinIOError(Int32errorCode,StringmaybeFullPath)在System.IO.FileStream.Init(Stringpath,FileMode
FPGA器件在线配置方法概述 fpga和matlab FPGA 其他 fpga开发 FPGA 在线配置
目录1.配置电路结构和原理2.ICR控制电路软件3.几种常见的FPGA在线配置方法3.1动态部分重配置（PartialReconfiguration,PR）3.2在系统编程（In-SystemProgramming,ISP）3.3多比特流配置（Multi-BitstreamConfiguration）3.4远程更新与配置3.5使用OpenCL或HLS工具FPGA（Field-Programmabl
C# 自动化 TineAine C#代码片段自动化 c#自动化模拟操作
实现的方法可能很笨，但是确实很好用usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Runtime.InteropServices;usingSystem.Text;usingSystem.Threading;usingSystem.Threading.Tasks;/******************
数组拷贝Arraycopy xing2516 Arraycopy java
packageqing;//数组拷贝publicclassArraycopy{publicstaticvoidmain(String[]args){//一维数组拷贝Stringa[]={"小米","华为","阿里","腾讯","百度"};String[]aBak=newString[6];//从a数组第0个copy到数组aBak0个开始，长度是a数组长度System.arraycopy(a,0,a
Java – 数组Copy的几种方式 hooc java web
目前在Java中数据拷贝提供了如下方式：cloneSystem.arraycopyArrays.copyOfArrays.copyOfRange1、clone方法clone方法是从Object类继承过来的，基本数据类型（String，boolean，char，byte，short，float，double，long）都可以直接使用clone方法进行克隆，注意String类型是因为其值不可变所以才可
java数组拷贝的方法千锋IT教育 java java 数组
小千在给大家讲解数组扩容时，涉及到了数组中数据元素的拷贝复制。那么除了上面的拷贝方式之外，数组还有哪些拷贝方式呢？1.拷贝方式在Java中，数组的拷贝主要有三种实现方式：1.通过循环语句，将原数组中的各个元素拷贝到新数组中(即数组扩容案例中使用的方法)；2.System类提供的数组拷贝方法；3.Arrays类提供的数组拷贝方法。接下来小千就设计几个案例，来给大家展示这几种方式都是怎么进行数组拷贝的
Java中四种常用的数组复制的方法copyOf(),arraycop()，clone（）和copyOfRange()的使用与区别方九九 java知识点总结 java
所谓复制数组，是指将一个数组中的元素在另一个数组中进行复制。本文主要介绍关于Java里面的数组复制（拷贝）的几种方式和用法。在Java中实现数组复制分别有以下4种方法：1.Arrays类的copyOf()方法2.Arrays类的copyOfRange()方法3.System类的arraycopy()方法4.Object类的clone()方法下面来详细介绍这4种方法的使用。使用copyOf()方法和
springboot与日志最后的夏t
日志1、日志框架小张；开发一个大型系统；1、System.out.println("")；将关键数据打印在控制台；去掉？写在一个文件？2、框架来记录系统的一些运行时信息；日志框架；zhanglogging.jar；3、高大上的几个功能？异步模式？自动归档？xxxx？zhanglogging-good.jar？4、将以前框架卸下来？换上新的框架，重新修改之前相关的API；zhanglogging-p
TinyReplaySystem回放系统设计和开发 W8023Y2014 Unity Unity
TinyReplaySystem回放系统设计和开发简单探讨和分析下游戏回放系统的设计和针对特定需求回放功能的TinyReplaySystem设计和具体实现需求分析在屏幕舞台中，玩家操控动画角色通过手势缩放，移动，修改角色颜色等属性，用户操控所需要的角色进行PlayAnimation，角色扮演。扮演结束，保存到本地，可以回放用户所扮演的动画。相当于录制屏幕指定区域，存储成视频，加载回放。记录用户通过
操作系统简介像风一样自由2020 操作系统 linux ubuntu windows harmonyos
操作系统简介操作系统（OperatingSystem，简称OS）是管理计算机硬件和软件资源的系统软件，为用户和应用程序提供接口。现今，操作系统种类繁多，主要分为桌面操作系统、服务器操作系统和移动操作系统等。以下是对目前存在的主要操作系统的详细介绍。1.Windows简介：Windows是由微软公司开发的系列图形界面操作系统，是全球使用最广泛的桌面操作系统之一。最新版本：截至2023年10月，最新版
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

深度学习推荐系统