山顶夕景

【序列召回推荐】(task3)GNN召回之SR-GNN

note

关于图深度学习算法的简单回顾：
- 一开始是经典的word2vec（以skip-gram为例，先取周围词随机初始化的embedding，进行平均池化后与中心词embedding进行点积）通过周围词预测中心词（多分类任务），不断迭代得到每个词embedding；
- deepwalk随机游走生成节点序列，然后还是用w2v生成embedding；而Node2vec仅是多了控制游走方向的参数；
- GCN：基础公式为 $\boldsymbol{H}^{l+1}=\sigma\left(\widetilde{\boldsymbol{D}}{ }^{-\frac{1}{2}} \widetilde{\boldsymbol{A}} \widetilde{\boldsymbol{D}}^{-\frac{1}{2}} \boldsymbol{H}^l \boldsymbol{w}^l\right)$ ，学习 ${w}^l$ 参数，其中用自连邻接矩阵A撇是为了防止在邻接矩阵中无法区分”自身节点“和”无连接节点“；然后通过消息传递（如sum pooling操作）得到下一层节点embedding。
- 图采样GraphSAGE：由于图结构数据中，节点与节点之间有依赖关系，所以不能像普通深度学习一样进行循环小批量训练，GraphSAGE通过小批量采样原有大图的子图高效训练；类似的PinSAGE也是铜鼓哦随机游走经过的高频节点生成子图。
SR-GNN是中科院提出的一种基于会话序列建模的推荐系统，首次将GNN应用于会话推荐。
- 会话是指用户的交互过（每个会话表示一次用户行为和对应的服务，所以每个用户记录都会构建成一张图），会话序列指一个用户在一段时间内（一般30min内）的点击浏览行为。
- SR-GNN利用了Attention机制来获取序列中每一个Item对于序列中最后一个Item $v_n\left(s_1\right)$ 的attention score, 然后将其加权求和。
一般来说序列召回输入的是用户的行为序列(用户交互过的item id的列表)，需要预测的是用户下一个时刻可能点击的top-k个item。两个步骤：
- 把用户的行为序列抽取成一个用户的表征向量；
- 然后和Item的向量通过一些ANN的方法来进行快速的检索，从而筛选出和用户表征向量最相似的top-k个Item。

GRU4rec	SRGNN
序列模型，只考虑上一节点到当前节点的过渡关系	图模型，考虑更复杂的过渡关系，包括若干出点和入点与当前节点的联系
仅考虑用户的当前兴趣	使用Attention机制，考虑用户的当前兴趣和整体兴趣
循环次数由序列长度决定	循环次数是个超参，SRGNN默认为1
有负采样，pairwise loss（BPR、TOP1）	交叉熵损失
minibatch，代码比较复杂	data augmentation，实现比较简单（但序列长度较长时不适用于RNN）

文章目录

note
一、论文背景
- 1.1 Session-based推荐
- 1.2 论文核心方法
二、SR-GNN模型
- 2.1 构建Session Graph
- 2.2 通过GNN学习Item的向量表征
- 2.3 生成User向量表征
- 2.4 损失函数
三、代码实践
- 3.1 继承Dataset类的SequenceDataset
- 3.2 SR-GNN模型定义
- 3.3 其他部分
时间安排
Reference

一、论文背景

论文链接：https://arxiv.org/abs/1811.00855

1.1 Session-based推荐

基于会话的推荐是以往比较常用的一种推荐方式，包括循环神经网络、马尔科夫链等。两个缺点：
- 当一个会话中用户的行为数量稀疏时，这种方法较难捕获用户的行为表示。
- 物品之前的转移模式在会话推荐中是十分重要的特征，但RNN和马尔科夫过程只对相邻的两个物品的单项转移向量进行建模，而忽略了会话中其他的物品。

1.2 论文核心方法

对输入的用户的行为序列提取出用户的向量表征进行了如下的处理：

将用户的行为序列构造成 Session Graph
通过GNN来对所得的 Session Graph进行特征提取，得到每一个Item的向量表征
在经过GNN提取Session Graph之后，我们需要对所有的Item的向量表征进行融合，以此得到User的向量表征，在得到了用户的向量表征之后，我们就可以按照序列召回的思路来进行模型训练/模型验证了。

二、SR-GNN模型

2.1 构建Session Graph

比如对一个用户，根据该用户行为序列进行构图，有向图的邻接矩阵如下图左侧的outgoing矩阵，大小为 $(d, d)$ ，根据逆邻接矩阵得到incoming矩阵，两个矩阵concat成 $(2 d, d)$ 的大矩阵。
需要分别对两个矩阵进行归一化操作 (例如节点 $v_2$ 向外伸出了两个节点 $v_3, v_4$ ，则节点 $v_2$ 到节点 $v_3, v_4$ 的值都为 $\left.0.5\right)$ 。Incoming矩阵同理。

在搞GNN经常使用networkx对一些边集生成有向图：

import networkx as nx
import matplotlib.pyplot as plt
edges = [(1, 2), (2, 3), (3, 2), (2, 4)]
# 1. 初始化有向图
G = nx.DiGraph()
# 2. 通过边集加载数据
G.add_edges_from(edges)
# 3. 打印所有节点
print(G.nodes)
# 4. 打印所有边
print(G.edges)
# 5. 画图
nx.draw(G)
# 6.显示
plt.show()

2.2 通过GNN学习Item的向量表征

如何从图中学习到Item的向量表征：

这里设 $v_i^t$ 表示在第 $\mathrm{x}$ 次GNN迭代后的item i的向量表征；
$A_{s, i} \in R^{1 \times 2 n}$ 表示 $A_s$ 矩阵中的第 $i$ 行, 即代表着第 $i$ 个item的相关邻居信息。

则我们这里通过公式(1)来对其邻居信息进行聚合, 这里主要通过矩阵 $A_{s, i}$ 和用户的序列 $\left[v_1^{t-1}, \ldots, v_n^{t-1}\right]^T \in R^{n \times d}$ 的矩阵乘法进行聚合的。

注意这里的公式写的不太严谨, 实际情况下两个 $R^{1 \times 2 n}$ 和 $R^{n \times d}$ 的矩阵是无法直接做乘法的，在代码实现中，是将矩阵 A分为in和out两个矩阵分别和用户的行为序列进行乘积的。
$a_{s, i}^t=A_{s, i}\left[v_1^{t-1}, \ldots, v_n^{t-1}\right]^T \mathbf{H}+b \tag{1}$

'''
A : [batch,n,2n] 图的矩阵
hidden : [batch,n,d] 用户序列的emb
in矩阵：A[:, :, :A.size(1)]
out矩阵：A[:, :, A.size(1):2 * A.size(1)]
inputs : 就是公式1中的 a 
'''
input_in = paddle.matmul(A[:, :, :A.shape[1]], self.linear_edge_in(hidden)) + self.b_iah
input_out = paddle.matmul(A[:, :, A.shape[1]:], self.linear_edge_out(hidden)) + self.b_ioh
# [batch_size, max_session_len, embedding_size * 2]
inputs = paddle.concat([input_in, input_out], 2)

在得到公式(1)中的 $a_{s, i}^t$ 之后, 根据公式(2)(3)计算出两个中间变量 $z_{s, i}^t, r_{s, i}^t$ 可以简单的类比LSTM, 认为 $z_{s, i}^t, r_{s, i}^t$ 分别是遗忘门和更新门。
$z_{s, i}^t=\sigma\left(W_z a_{s, i}^t+U_z v_i^{t-1}\right) \in R^d \tag{2}$
$r_{s, i}^t=\sigma\left(W_r a_{s, i}^t+U_r v_i^{t-1}\right) \in R^d \tag{3}$
注意：我们在计算 $z_{s, i}^t, r_{s, i}^t$ 的逻辑是完全一样的, 唯一的区别就是用了不同的参数权重而已. 在得到公式(2)(3)的中间变量之后,我们通过公式(4)计算出更新门下一步更新的特征, 以及根据公式(5)来得出最终结果
$\begin{gathered} v_i^{t^{\sim}}=\tanh \left(W_o a_{s, i}^t+U_o\left(r_{s, i}^t \odot v_i^{t-1}\right)\right) \in R^d \tag{4} \end{gathered}$

$\begin{gathered} v_i^t=\left(1-z_{s, i}^t\right) \odot v_i^{t-1}+z_{s, i}^t \odot v_i^{t^{\sim}} \in R^d \tag{5} \end{gathered}$

消息聚合：公式(4)实际上是计算了在第 $\mathrm{x}$ 次 GNN层的时候的Update部分，也就是 $v_i^{t^{\sim}}$ ；在公式(5)中通过遗忘门 $z_{s, i}^t$ 来控制第次GNN更新时, $v_i^{t-1}$ 和 $v_i^{t^{\sim}}$ 所占的比例。这样就完成了 GNN部分的item的表征学习。
注意：对于公式(3)(4)(5)，对于 $a_{s, i}^t, v_i^{t-1}$ 这两个变量而言, 每个变量都和三个矩阵进行了相乘, 这里的计算逻辑相同, 可以将 $W a, U v$ 当作一次计算单元，即将这三次操作放在一起做, 然后在将结果切分为 3 份, 还原三个公式, 所以input的维度即如下的[batch_size, max_session_len, embedding_size * 3]。

'''
inputs : 公式(1)中的a
hidden : 用户序列，也就是v^{t-1}
这里的gi就是Wa，gh就是Uv，但是要注意这里不该是gi还是gh都包含了公式3~5的三个部分
'''

# gi.size equals to gh.size, shape of [batch_size, max_session_len, embedding_size * 3]

gi = paddle.matmul(inputs, self.w_ih) + self.b_ih
gh = paddle.matmul(hidden, self.w_hh) + self.b_hh
# (batch_size, max_session_len, embedding_size)
i_r, i_i, i_n = gi.chunk(3, 2)   # 三个W*a
h_r, h_i, h_n = gh.chunk(3, 2)   # 三个U*v
reset_gate = F.sigmoid(i_r + h_r)  #公式(2)
input_gate = F.sigmoid(i_i + h_i)  #公式(3)
new_gate = paddle.tanh(i_n + reset_gate * h_n)  #公式(4)
hy = (1 - input_gate) * hidden + input_gate * new_gate  # 公式(5)

2.3 生成User向量表征

在通过GNN获取了Item的嵌入表征之后，, 剩下的就是讲用户序列的多个Item的嵌入表征融合成一个整体的序列的嵌入表征。

这里SR-GNN首先利用了Attention机制来获取序列中每一个Item对于序列中最后一个Item $v_n\left(s_1\right)$ 的attention score, 然后将其加权求和，其具体的计算过程如下
$\begin{gathered} a_i=\mathbf{q}^T \sigma\left(W_1 v_n+W_2 v_i+c\right) \in R^1 \\ s_g=\sum_{i=1}^n a_i v_I \in R^d \end{gathered}$
在得到 $s_g$ 之后，我们将 $s_g$ 与序列中的最后一个Item信息相结合，得到最终的序列的嵌入表征：
$s_h=W_3\left[s_1 ; s_g\right] \in R^d$

'''
seq_hidden : 序列中每一个item的emb
ht ： 序列中最后一个item的emb，就是公式6~7中的v_n(s_1)
q1 : 公式(6)中的 W_1 v_n
q2 : 公式(6)中的 W_2 v_i 
alpha : 公式(6)中的alpha
a : 公式(6)中的s_g
'''
seq_hidden = paddle.take_along_axis(hidden,alias_inputs,1)
# fetch the last hidden state of last timestamp
item_seq_len = paddle.sum(mask,axis=1)
ht = self.gather_indexes(seq_hidden, item_seq_len - 1)
q1 = self.linear_one(ht).reshape([ht.shape[0], 1, ht.shape[1]])
q2 = self.linear_two(seq_hidden)

alpha = self.linear_three(F.sigmoid(q1 + q2))
a = paddle.sum(alpha * seq_hidden * mask.reshape([mask.shape[0], -1, 1]), 1)
user_emb = self.linear_transform(paddle.concat([a, ht], axis=1))

2.4 损失函数

使用交叉熵损失函数： $\mathcal{L}(\hat{\mathbf{y}})=-\sum_{i=1}^m \mathbf{y}_i \log \left(\hat{\mathbf{y}}_i\right)+\left(1-\mathbf{y}_i\right) \log \left(1-\hat{\mathbf{y}}_i\right)$

三、代码实践

3.1 继承Dataset类的SequenceDataset

这里的hist_mask_list是像transformer一样的mask处理序列长短不一致的问题。

class SeqnenceDataset(Dataset):
    def __init__(self, config, df, phase='train'):
        self.config = config
        self.df = df
        self.max_length = self.config['max_length']
        self.df = self.df.sort_values(by=['user_id', 'timestamp'])
        self.user2item = self.df.groupby('user_id')['item_id'].apply(list).to_dict()
        self.user_list = self.df['user_id'].unique()
        self.phase = phase

    def __len__(self, ):
        return len(self.user2item)

    def __getitem__(self, index):
        if self.phase == 'train':
            user_id = self.user_list[index]
            item_list = self.user2item[user_id]
            hist_item_list = []
            hist_mask_list = []

            k = random.choice(range(4, len(item_list)))  # 从[8,len(item_list))中随机选择一个index
            # k = np.random.randint(2,len(item_list))
            item_id = item_list[k]  # 该index对应的item加入item_id_list

            if k >= self.max_length:  # 选取seq_len个物品
                hist_item_list.append(item_list[k - self.max_length: k])
                hist_mask_list.append([1.0] * self.max_length)
            else:
                hist_item_list.append(item_list[:k] + [0] * (self.max_length - k))
                hist_mask_list.append([1.0] * k + [0.0] * (self.max_length - k))

            return paddle.to_tensor(hist_item_list).squeeze(0), paddle.to_tensor(hist_mask_list).squeeze(
                0), paddle.to_tensor([item_id])
        else:
            user_id = self.user_list[index]
            item_list = self.user2item[user_id]
            hist_item_list = []
            hist_mask_list = []

            k = int(0.8 * len(item_list))
            # k = len(item_list)-1

            if k >= self.max_length:  # 选取seq_len个物品
                hist_item_list.append(item_list[k - self.max_length: k])
                hist_mask_list.append([1.0] * self.max_length)
            else:
                hist_item_list.append(item_list[:k] + [0] * (self.max_length - k))
                hist_mask_list.append([1.0] * k + [0.0] * (self.max_length - k))

            return paddle.to_tensor(hist_item_list).squeeze(0), paddle.to_tensor(hist_mask_list).squeeze(
                0), item_list[k:]

    def get_test_gd(self):
        self.test_gd = {}
        for user in self.user2item:
            item_list = self.user2item[user]
            test_item_index = int(0.8 * len(item_list))
            self.test_gd[user] = item_list[test_item_index:]
        return self.test_gd

3.2 SR-GNN模型定义

class GNN(nn.Layer):
    def __init__(self, embedding_size, step=1):
        super(GNN, self).__init__()
        self.step = step
        self.embedding_size = embedding_size
        self.input_size = embedding_size * 2
        self.gate_size = embedding_size * 3
        
        self.w_ih = self.create_parameter(shape=[self.input_size, self.gate_size]) 
        self.w_hh = self.create_parameter(shape=[self.embedding_size, self.gate_size])
        self.b_ih = self.create_parameter(shape=[self.gate_size])
        self.b_hh = self.create_parameter(shape=[self.gate_size])
        self.b_iah = self.create_parameter(shape=[self.embedding_size])
        self.b_ioh = self.create_parameter(shape=[self.embedding_size])

        self.linear_edge_in = nn.Linear(self.embedding_size, self.embedding_size)
        self.linear_edge_out = nn.Linear(self.embedding_size, self.embedding_size)

    def GNNCell(self, A, hidden):
        input_in = paddle.matmul(A[:, :, :A.shape[1]], self.linear_edge_in(hidden)) + self.b_iah
        input_out = paddle.matmul(A[:, :, A.shape[1]:], self.linear_edge_out(hidden)) + self.b_ioh
        # [batch_size, max_session_len, embedding_size * 2]
        inputs = paddle.concat([input_in, input_out], 2)

        # gi.size equals to gh.size, shape of [batch_size, max_session_len, embedding_size * 3]
        gi = paddle.matmul(inputs, self.w_ih) + self.b_ih
        gh = paddle.matmul(hidden, self.w_hh) + self.b_hh
        # (batch_size, max_session_len, embedding_size)
        i_r, i_i, i_n = gi.chunk(3, 2)
        h_r, h_i, h_n = gh.chunk(3, 2)
        reset_gate = F.sigmoid(i_r + h_r)
        input_gate = F.sigmoid(i_i + h_i)
        new_gate = paddle.tanh(i_n + reset_gate * h_n)
        hy = (1 - input_gate) * hidden + input_gate * new_gate
        return hy

    def forward(self, A, hidden):
        for i in range(self.step):
            hidden = self.GNNCell(A, hidden)
        return hidden

SRGNN部分如下，用到上面的GNN Class，同时和之前说的一样，经过attention的 $s_g$ 与序列中的最后一个Item信息相结合，得到最终的序列的嵌入表征：
$s_h=W_3\left[s_1 ; s_g\right] \in R^d$

该user embedding： $s_h$ 和item embedding内积计算score（如上图所示），使用交叉熵损失函数：
$\hat{\mathbf{z}}_i=\mathbf{s}_{\mathrm{h}}^{\top} \mathbf{v}_i .$

$\hat{\mathbf{y}}=\operatorname{softmax}(\hat{\mathbf{z}}),$
对于每个会话图，交叉熵损失函数定义为：
$\mathcal{L}(\hat{\mathbf{y}})=-\sum_{i=1}^m \mathbf{y}_i \log \left(\hat{\mathbf{y}}_i\right)+\left(1-\mathbf{y}_i\right) \log \left(1-\hat{\mathbf{y}}_i\right)$

class SRGNN(nn.Layer):
    r"""SRGNN regards the conversation history as a directed graph.
    In addition to considering the connection between the item and the adjacent item,
    it also considers the connection with other interactive items.

    Such as: A example of a session sequence(eg:item1, item2, item3, item2, item4) and the connection matrix A

    Outgoing edges:
        === ===== ===== ===== =====
         \    1     2     3     4
        === ===== ===== ===== =====
         1    0     1     0     0
         2    0     0    1/2   1/2
         3    0     1     0     0
         4    0     0     0     0
        === ===== ===== ===== =====

    Incoming edges:
        === ===== ===== ===== =====
         \    1     2     3     4
        === ===== ===== ===== =====
         1    0     0     0     0
         2   1/2    0    1/2    0
         3    0     1     0     0
         4    0     1     0     0
        === ===== ===== ===== =====
    """

    def __init__(self, config):
        super(SRGNN, self).__init__()

        # load parameters info
        self.config = config
        self.embedding_size = config['embedding_dim']
        self.step = config['step']
        self.n_items = self.config['n_items']

        # define layers and loss
        # item embedding
        self.item_emb = nn.Embedding(self.n_items, self.embedding_size, padding_idx=0)
        # define layers and loss
        self.gnn = GNN(self.embedding_size, self.step)
        self.linear_one = nn.Linear(self.embedding_size, self.embedding_size)
        self.linear_two = nn.Linear(self.embedding_size, self.embedding_size)
        self.linear_three = nn.Linear(self.embedding_size, 1, bias_attr=False)
        self.linear_transform = nn.Linear(self.embedding_size * 2, self.embedding_size)
        self.loss_fun = nn.CrossEntropyLoss()

        # parameters initialization
        self.reset_parameters()

    def gather_indexes(self, output, gather_index):
        """Gathers the vectors at the specific positions over a minibatch"""
#         gather_index = gather_index.view(-1, 1, 1).expand(-1, -1, output.shape[-1])
        gather_index = gather_index.reshape([-1, 1, 1])
        gather_index = paddle.repeat_interleave(gather_index,output.shape[-1],2)
        output_tensor = paddle.take_along_axis(output, gather_index, 1)
        return output_tensor.squeeze(1)

    def calculate_loss(self,user_emb,pos_item):
        all_items = self.item_emb.weight
        scores = paddle.matmul(user_emb, all_items.transpose([1, 0]))
        return self.loss_fun(scores,pos_item)

    def output_items(self):
        return self.item_emb.weight

    def reset_parameters(self, initializer=None):
        for weight in self.parameters():
            paddle.nn.initializer.KaimingNormal(weight)

    def _get_slice(self, item_seq):
        # Mask matrix, shape of [batch_size, max_session_len]
        mask = (item_seq>0).astype('int32')
        items, n_node, A, alias_inputs = [], [], [], []
        max_n_node = item_seq.shape[1]
        item_seq = item_seq.cpu().numpy()
        for u_input in item_seq:
            node = np.unique(u_input)
            items.append(node.tolist() + (max_n_node - len(node)) * [0])
            u_A = np.zeros((max_n_node, max_n_node))

            for i in np.arange(len(u_input) - 1):
                if u_input[i + 1] == 0:
                    break

                u = np.where(node == u_input[i])[0][0]
                v = np.where(node == u_input[i + 1])[0][0]
                u_A[u][v] = 1

            u_sum_in = np.sum(u_A, 0)
            u_sum_in[np.where(u_sum_in == 0)] = 1
            u_A_in = np.divide(u_A, u_sum_in)
            u_sum_out = np.sum(u_A, 1)
            u_sum_out[np.where(u_sum_out == 0)] = 1
            u_A_out = np.divide(u_A.transpose(), u_sum_out)
            u_A = np.concatenate([u_A_in, u_A_out]).transpose()
            A.append(u_A)

            alias_inputs.append([np.where(node == i)[0][0] for i in u_input])
        # The relative coordinates of the item node, shape of [batch_size, max_session_len]
        alias_inputs = paddle.to_tensor(alias_inputs)
        # The connecting matrix, shape of [batch_size, max_session_len, 2 * max_session_len]
        A = paddle.to_tensor(A)
        # The unique item nodes, shape of [batch_size, max_session_len]
        items = paddle.to_tensor(items)

        return alias_inputs, A, items, mask

    def forward(self, item_seq, mask, item, train=True):
        if train:
            alias_inputs, A, items, mask = self._get_slice(item_seq)
            hidden = self.item_emb(items)
            hidden = self.gnn(A, hidden)
            alias_inputs = alias_inputs.reshape([-1, alias_inputs.shape[1],1])
            alias_inputs = paddle.repeat_interleave(alias_inputs, self.embedding_size, 2)
            seq_hidden = paddle.take_along_axis(hidden,alias_inputs,1)
            # fetch the last hidden state of last timestamp
            item_seq_len = paddle.sum(mask,axis=1)
            ht = self.gather_indexes(seq_hidden, item_seq_len - 1)
            q1 = self.linear_one(ht).reshape([ht.shape[0], 1, ht.shape[1]])
            q2 = self.linear_two(seq_hidden)
			# attention机制
            alpha = self.linear_three(F.sigmoid(q1 + q2))
            a = paddle.sum(alpha * seq_hidden * mask.reshape([mask.shape[0], -1, 1]), 1)
            # attention_emb + last_item_emb
            user_emb = self.linear_transform(paddle.concat([a, ht], axis=1))

            loss = self.calculate_loss(user_emb,item)
            output_dict = {
                'user_emb': user_emb,
                'loss': loss
            }
        else:
            alias_inputs, A, items, mask = self._get_slice(item_seq)
            hidden = self.item_emb(items)
            hidden = self.gnn(A, hidden)
            alias_inputs = alias_inputs.reshape([-1, alias_inputs.shape[1],1])
            alias_inputs = paddle.repeat_interleave(alias_inputs, self.embedding_size, 2)
            seq_hidden = paddle.take_along_axis(hidden, alias_inputs,1)
            # fetch the last hidden state of last timestamp
            item_seq_len = paddle.sum(mask, axis=1)
            ht = self.gather_indexes(seq_hidden, item_seq_len - 1)
            q1 = self.linear_one(ht).reshape([ht.shape[0], 1, ht.shape[1]])
            q2 = self.linear_two(seq_hidden)

            alpha = self.linear_three(F.sigmoid(q1 + q2))
            a = paddle.sum(alpha * seq_hidden * mask.reshape([mask.shape[0], -1, 1]), 1)
            user_emb = self.linear_transform(paddle.concat([a, ht], axis=1))
            output_dict = {
                'user_emb': user_emb,
            }
        return output_dict

上面的权重初始化用到nn.initializer.KaimingNormal初始化，会比随机初始化效果好，也即初始化以下各层权重参数：

其实如果为了更加方便写GNN，也可以直接使用pyg或dgl框架（GNN模型的GNN layer部分完成message function、aggregation function、update function，如上图），关于pyg的下载需要三个东西：

import os
if 'IS_GRADESCOPE_ENV' not in os.environ:
  !pip install torch-scatter -f https://data.pyg.org/whl/torch-1.10.0+cu113.html
  !pip install torch-sparse -f https://data.pyg.org/whl/torch-1.10.0+cu113.html
  !pip install torch-geometric

3.3 其他部分

Pipeline、基于Faiss的向量召回、基于TSNE的Item Embedding分布可视化，和task2内容相同，略。但是评估指标可以参考如下图，Precision@K和Recall@K的分子都相同（推荐了且用户有交互的item数），但是Precision@K的分母是所有推荐的item数。

时间安排

任务信息	截止时间	完成情况
11月14日周一正式开始
Task01：Paddle开发深度学习模型快速入门	11月14、15、16日周三	完成
Task02：传统序列召回实践：GRU4Rec	11月17、18、19日周六	完成
Task03：GNN在召回中的应用：SR-GNN	11月20、21、22日周二	完成
Task04：多兴趣召回实践：MIND	11月23、24、25、26日周六
Task05：多兴趣召回实践：Comirec-DR	11月27、28日周一
Task06：多兴趣召回实践：Comirec-SA	11月29日周二

Reference

[1] GNN在召回中的应用：SR-GNN
论文：Session-based Recommendation with Graph Neural Networks
链接：https://arxiv.org/abs/1811.00855
[2] https://arxiv.org/pdf/2106.05081
[3] https://ojs.aaai.org/index.php/AAAI/article/download/3804/3682
[4] https://www.ijcai.org/proceedings/2019/0547.pdf
[5] https://arxiv.org/pdf/2107.03813
[6] https://arxiv.org/pdf/1911.11942.pdf
[7] recbole的序列推荐模型复现
[8] Deep Learning for Matching in Search and Recommendation.李航，何向南
[9] 推荐系统之深度召回模型综述（PART III）.NewBeeNLP
[10] 推荐系统总结之深度召回模型（中）.一块小蛋糕
[11] 推荐广告搜索zhihu专栏.一块小蛋糕
[12] SR-GNN开源代码
[13] https://github.com/RUCAIBox/RecBole/blob/master/recbole/model/sequential_recommender/srgnn.py
[14] https://sxkdz.github.io/research/SR-GNN/
[15] 图神经网络及其自监督学习.清华AI TIME
[16] SR-GNN代码分析
[17] 图神经网络库 PyTorch Geometric（PYG）
[18] 推荐场景中召回模型的演化过程. 京东大佬
[19] SR-GNN论文解读并附代码分析
[20] 【论文精读】门控图神经网络GGNN及SRGNN
[21] Evaluating A Real-Life Recommender System, Error-Based and Ranking-Based
[22] CS224W助教: Session-based Recommendation Using SR-GNN
[23] CS224W: Machine Learning with Graphs.Stanford / Fall 2021
[24] SRGNN代码注释详细版：userbehavioranalysis/SR-GNN-Chinese_Comment_edition
[25] Recommender Systems with GNNs in PyG
[26] 深度学习参数初始化（二）Kaiming初始化含代码
[27] Torch 转 PaddlePaddle 实战（避坑指南）

2018-06-28 f红艳
2018-06-28f红艳事件:今天是儿子报志愿的日子，和儿子报完志愿，去忙工作，下午心情有些忐忑，不知道报的对不对，求证，反复看。感受:紧张，心慌。想法:报好了，反复检查，又怕没保存上，找人确认。期待：别人对自己的期待:你做的对。自己对自己的期待:相信自己。自己对别人的期待:帮我确认我的反应和应对:一致性表达，求证。我的深层需要：被认可我的模式：遇到大事就不相信自己我可以做些什么来满足我的深层需
如何在美团外卖上轻松领取并使用优惠券? 好项目氧券
如何在美团外卖上轻松领取并使用优惠券？在使用美团外卖平台点餐时，优惠券是我们常用来节省开支的小技巧。那么如何在美团外卖上轻松领取并使用优惠券呢？本文将为您详细介绍。一、领取优惠券1.打开美团外卖APP或进入美团外卖官网。2.在首页上方，可以看到“优惠”按钮，点击进入优惠中心。3.在优惠中心页面，你可以看到各种优惠券类型，如满减、折扣、新用户专享等。根据你的需求，可以选择合适的优惠券。4.点击领取优
vlan实验 zsk123456_ linux 网络服务器
实验拓扑5.二、实验需求1.全网可达2.使用DHCP获取IP地址三、实验思路1.配置交换机创建vlan更改交换机的接口链路类型配置trunk干道，放通vlam2.配置路由器配置子接口配置DHCP服务在子接口下放DHCP服务四、实验步骤1.创建vlan，更改交换机的接口链路类型，配置trunk干道，放通vlam[SW1]vlan2[SW1]vlan3[SW1]inte0/0/2[SW1-Ethern
完美化妆品怎么样好不好,完美日记什么档次的化妆品高省APP
完美日记是现在很火的一个彩妆品牌，很多彩妆博主都在推荐完美日记的化妆品，完美日记是中国新锐人气彩妆品牌，有很多好用的彩妆产品。高省APP高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。古楼导师高省邀请码518518，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高省只是一个导购的优惠平台！不卖产品
浦仕庆《创造一个四通八达的社会》读后感 6f9b8f7eb211
这篇文章陶老写于1923年11月，是陶老写给妹妹陶文渼的一封家书。从这封家书中我们可以到兄长对妹妹无微不至的关怀，更多的则是陶老鼓励妹妹和哥哥一起完成他们共同肩负的使命:“这使命是运用我们的全副精神，来挽回国家厄运，并创造一个可以安居乐业的社会交与后代。这是我们对于千万年来祖宗先烈的责任，也是我们对于亿万年后子子孙孙的责任。”1923年的中国，一段不堪回首的故事。战火连连，背上“东亚病夫”的中国任
目前市面上佣金最高的十款返利APP解析直返APP京东优惠券
随着网购的普及，返利APP成为了越来越多人的购物助手。那么，2024年最好用的购物返利APP是哪个？今天，我们将为您推荐十款2024年最值得推荐的返利APP，助您在购物中享受更多的优惠。一、直返直返的口号是“返利就用直返”，它强调没有上级赚差价，直接为用户提供商家和消费者之间的综合优惠券返利平台。用户可以在直返上获取自己感兴趣的商品，购买后可以获得一定比例的返利。直返的返利速度快、金额高，深受用户
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
2021年，我在百家号里的美食碎碎念之一百六十一暖暖的柠檬树
沿湖边的一条路，朝老街的方向大概100米的地方，有一家卖擦面的老店，在我的记忆里，这家店应该开了有20多年了，但我从来没有去吃过，偶尔路过的时候，会看到他们店门口都坐满了食客。这次也是去老街准备买卤牛肉，又路过时，就想尝一下他们家的擦面。要了小碗的，全套的（素臊子、肉臊子、西红柿鸡蛋），大概十多分钟就做好了，搅拌均匀后，尝了一口，味道不错，肉臊子的味道很香，油泼辣椒的口感也不错。吃了一大半，感觉面
Linux下SPI驱动：SPI设备驱动简介
一.简介Linux下的SPI驱动框架和I2C很类似，都分为主机控制器驱动和设备驱动，主机控制器也就是SOC的SPI控制器接口，SPI设备驱动也就是所操作的SPI设备的驱动。本文来学习一下Linux下SPI设备驱动。二.Linux下SPI驱动：SPI设备驱动简介1.spi_driver结构体spi设备驱动也和i2c设备驱动也很类似，Linux内核使用spi_driver结构体来表示spi设备驱动，我
同事今天顺产小虎妞右央
今天是国庆节假的倒数第二天，农历九月十一。年轻同事发朋友圈“这辈子最大的勇气就是顺产生下你，疼死你老妈了。以后要健康快乐长大呀[玫瑰]小虎妞来报道了！”一个小天使来到人间，虎年又多了一个小虎妞！我第一次见到满是胎液刚出生的生命。同事家的小虎妞，虽然刚出生，脸上的胎液还没来得及清洗，可是看着就有新生力、有朝气。20多年前自己也是顺产生下女儿，那时候只记得婆家妈不敢清洗胎液，是孩子姥姥帮忙清洗的，等我
心世界·瀑白序巴掌八丈黑
2109年人类早已不在拘泥于现实世界，“九灭”公司制造了一款专门培养自我意识的程序～“心世界”，然后将自我意识芯片植入到机器人中，这项发明是伟大的，机器人再也不单单是冷冰冰的而是拥有自己的思想。然而“心世界”的开发最初只不过是为了深度剖析人类心理疾病，并找到将其治愈的办法！那么是谁将“心世界”和机器人链接起来的呢？当“心世界”的机器人遇到机器人三定律时又会怎样呢？
Linux下i2c设备驱动开发
一.LInux下i2c驱动框架简介在Linux内核中I2C的体系结构分为3个部分：I2C核心：I2C核心提供了I2C总线驱动和设备驱动的注册、注销方法。I2C总线驱动：I2C总线驱动是对I2C硬件体系结构中适配器端的实现，适配器可由CPU控制，甚至可以直接集成在CPU内部。I2C总线驱动就是SOC的I2C控制器驱动，也叫做I2C适配器驱动。I2C设备驱动：I2C设备驱动是对I2C硬件体系结构中设备
2023-11-03 孙土焱
摸鱼儿（应荷花题）涨琉璃，湖波归棹，仙葩琼蕊生弃。轩兰榭柳颦深岸，偏又饱含情意。夕照晚，霞彩透层峦，染水天无际。鸳鸯骤起，竟回首荷陂，粉颐绿帔，似脉脉悲泣。游船远，锦苑烟林久睇。蹉跎年月飞逝。芳踪重觅红颜老，青草半芜花地。山雾细，噙热泪，香魂何处成秋碧?肢残垢腻，默默也归程，情怀滋味，全不似昔日！--新韵，录之拙作《孙土焱詩词散集》。此书耐品耐读，情文并茂。销售已接近尾声，仅京东、当当网店有销售。
“养娃如种树•家长成长营”～能量分享卡片26#0617～坚持Day26 馨元_亲子教育_生活本真
父母好好学习孩子天天向上父母要学会懂孩子俗话说，知己知彼，百战不殆！要想给孩子最好的教育，首先就要了解孩子；然后，才能对症下药，药到而病除。孩子的内心是脆弱的，所以他们渴望被爱，渴望来自家庭的温暖，一旦实现不了就会叛逆，甚至在犯错的道路上越走越远，越陷越深。因此，明智的父母通常都能让孩子感受到自己的爱。父母的信任是对孩子的最好鼓励，孩子很希望得到父母的信任，像朋友一样平等交流。如果父母不能理解这一
数据库第三次作业努力的代码农数据库
数据库第三次作业第三次作业1.SQL命令查询李勇选修的课程号，成绩；（嵌套查询实现）2.SQL命令查询选修“数据库”的学生学号、姓名；（嵌套查询实现）3.SQL命令查询有不及格课程的学生学号、姓名；（嵌套查询实现）4.SQL命令查询没有不及格课程的学生学号；（嵌套查询、集合查询实现，）5.SQL命令查询选修学生“1001”修过的全部课程的学生姓名。第三次作业1.SQL命令查询李勇选修的课程号，成绩
柏舟日記|回眸柏木之舟
2021年05月18日深夜当你回眸的一瞬间，大抵就是整个夏天。等待千年，只为卿回眸一笑，却道人间凉似秋。夏凉秋更凉，人间愁似殇。离愁心上与，一度忘秋凉。凉夜回首毕业三年，却一事无成。想来这三年间，自己得到了什么，失去了什么，一开始的鬼迷心窍，到最后的安于现状，一切好像最好的过渡，又好像是抹平了自己的棱角，更好的适应这个世界。一个人心中有了牵挂，便再也放不下这个世界，一个人心中若没有牵挂，则到哪儿都
python中的字典类型_Python中字典数据类型石墨稀 python中的字典类型
一.创建字典方法①:>>>dict1={}>>>dict2={'name':'earth','port':80}>>>dict1,dict2({},{'port':80,'name':'earth'})方法②:从Python2.2版本起>>>fdict=dict((['x',1],['y',2]))>>>fdict{'y':2,'x':1}方法③:从Python2.3版本起,可以用一个很方便的内建
2022年10月1号～954 小不点_435c
如果想摆托平凡的生活，那就努力让高傲飞翔。多心的人要注定活的辛苦，因为太容易被别人的情绪所左右；多心的人总是胡思乱想，结果困在一团乱麻般的思绪中，动弹不得。有时候，与其多心不如少根筋。人生在世，注定要受许多的委屈，一个人越是成功，他遭受的委屈越多。要想使自己的生命获得极值和炫彩，就不能太在乎委屈。
广东广州可以做正规亲子鉴定机构大全（附2024权威中心机构名单）中量国鉴
广州亲子鉴定正规机构有哪些？在这个信息爆炸的时代，亲子鉴定已成为解决许多家庭疑问的关键。但要想确保鉴定结果的准确性和权威性，选择一个正规的亲子鉴定机构至关重要。对于初次涉足这一领域的普通人而言，如何慧眼识珠，挑选出真正专业、可信赖的鉴定机构呢？一、查看资质认证正规的亲子鉴定机构，必然拥有市级或以上管理部门颁发的鉴定许可证明。这是其从事亲子鉴定业务的法律准入证，也是衡量一个机构是否正规的首要标准。在
Linux驱动开发：掌握SPI通信机制夜星辰2025 Linux驱动开发 linux 驱动开发 SPI
目录标题1、SPI简介2、SPI通信机制3、Linux内核中的SPI支持4、SPI核心API5、SPI控制器驱动6、SPI设备驱动7、编写SPI设备驱动8、调试SPI驱动在Linux驱动开发中，串行外设接口(SPI)是一种常见的高速全双工通信协议，用于连接处理器和各种外设。本文将深入探讨SPI的工作原理，并演示如何在Linux环境下开发SPI驱动程序。1、SPI简介SPI（SerialPeriph
【PCIe】6: PCIe prefetchable和nonprefetchable smartvxworks PCIe高速总线专栏 PCIe PCI 串行高速总线
目录1.什么是prefetchable2.什么是nonprefetchable3.PCIe中的使用1.什么是prefetchableprefetchable可预取指的是CPU可缓存它的内容并且对它做所有类型的优化；可预取性内存是指存储器空间的可预取能力。例如如果读操作没有副作用（即如同从RAM中读数据一样不会破坏数据），则称存储器空间可预取。2.什么是nonprefetchablenonprefe
Python 中的列表（List）和元组（Tuple） shangjg3 Python python 开发语言
1.定义与语法差异1.列表的定义列表使用方括号`[]`定义，元素之间用逗号分隔。列表的元素可以是不同数据类型，甚至嵌套其他列表或元组。my_list=[1,"hello",True,[2,3]]2.元组的定义元组使用圆括号`()`定义，同样支持混合数据类型。需要注意的是，定义单元素元组时必须在元素后加逗号，以区别于数学表达式中的括号。my_tuple=(1,"world",False,(4,5))
Linux设备驱动SPI总线 ldh-02 linux 驱动开发单片机
SPI更全面内容可以查看我的githubSPI驱动的框架与I2C类似，都是分为主机控制器驱动和设备驱动，我们需要实现的是具体设备的驱动，主机控制器的驱动由Linux内核实现，也需要了解部分重要文件linux/drivers/spi/spi.cLinux提供的通用接口封装层驱动linux/drivers/spi/spidev.clinux提供的SPI通用设备驱动程序linux/include/lin
借钱风之恋人
理论1：觉得你价值低所以才会问你借钱，向价值高的借钱会得罪别人理论1：觉得你价值低所以才会问你借钱，向价值高的借钱会得罪别人理论2：借钱了，钱和朋友都没了，没借钱，朋友没了钱还在理论3：借钱时说自己手头现金也不够，就xxx元了，拿去用吧，然后不要指望对方还你
同居？（72）果咖
蒋言本想待到元宵节完了后再回青城的。但是，林浩然坚决要求，元宵节要过来，没有任何商量的余地。蒋言没办法了，只好提前回去，不然惊喜就泡汤了。所以她初七的时候就先走了，元宵节再拉着林浩然回来吧。怎么也得让爸妈对他印象变好点吧，蒋言心想。初七的时候，趁着蒋爸还在家，蒋言让蒋爸把她送去了机场。蒋妈也闲的无聊，就一起过去了。“哎呀，我元宵节就回来了，先不找工作呢，还养活得了自己，别整的这么伤感嘛！想我的时候
《于氏王后》韩剧全8集网盘资源【1080p超清韩语中字】2024年于氏王后夸克、百度云网盘资源下载获得方法 e95cfad15310
《于氏王后》作为一部极具历史色彩的韩剧，自开播以来就备受观众喜爱。为了满足广大剧迷的需求，本篇将为您带来《于氏王后》全集1080p超清韩语中字网盘资源大放送，让您随时随地享受观看的乐趣！《于氏王后》是一部改编自同名小说的韩剧，讲述了朝鲜王朝初期，于氏家族兴衰历程的故事。该剧以精美的服饰、华丽的场景和精湛的演技，赢得了观众的喜爱。《于氏王后》作为一部优秀的韩剧，相信大家一定不要错过。导演:郑世教编剧
2022.5.6 晴星期五孙贞正妈妈亲子日记第996天秋枫_d581
今天上学的第二天是五一假期上学的第二天，我今天早就猜到了，周六要上课，要补课，结果，去学校的时候，还真听老师说要补课，早读上的是语文第一节课上的是品德之后第二节课上的是数学，就去跑操了，之后第三节课上的足球。之后第四节课上的就是语文，语文老师讲了新课是《杨氏之子》，之后就去吃午饭了，吃完了午饭之后就睡觉之后午读上的是语文，语文老师好像是去开会什么的没有上。然后上的是自习，之后第一节课上的是英语，英
春季招聘数字化：智能招聘如何升级面试流程？人事百宝箱面试流程优化面试流程数字化面试流程优化招聘数字化
2025年春季招聘季，全球企业面临着双重挑战：既要应对人才争夺战，又要在AI技术革命中重构招聘体系。数据显示，采用数字化面试流程的企业，人才录用效率提升47%，候选人体验满意度提高39%。在智能招聘时代，传统依赖人工的面试模式已难以适应快速变化的市场需求，企业需要通过数字化升级实现降本增效与体验优化的双重目标。本文将从行业趋势出发，解析春招面试流程的数字化升级路径，并深度解读Moka人力资源管理系
2019-03-28 谭华_0253
早上吃饭的时候，和老公叨叨他一直晚睡，特别是这几天特别晚的问题。对于他的熬夜，我是实在上火，一个房间休息，我真正做不到他开着灯，又是声音又是晃动床的安然入睡。早上有情绪的表达愤怒，还没说几句就说不下去的笑了，跟以前那样每叨叨一句，就知道自己是在有情绪的表达自己得内在所需，学会觉察后没了以前的脾气，倒也身心愉悦。对于导师级别的老公，那更是说不下去，面带微笑的看着我，要我直接表达就好，边点头说自己收到
彻底解决＂‘vue-cli-service‘ 不是内部或外部命令＂的问题！晷龙烬龙鳞拆解（前端深渊）vue.js 前端 npm
以龙息淬炼代码，在时光灰烬中重铸技术星河欢迎来到晷龙烬的博客✨！这里记录技术学习点滴，分享实用技巧，偶尔聊聊奇思妙想～原创内容✍️，转载请注明出处～感谢支持❤️！请尊重原创！欢迎在评论区交流！引言我最近拉取了一个Vue2的老项目，各种尝试，最终卡在了“vue-cli-service不是内部或外部命令”的这个错误提示上，令人倍感挫败。本文聚焦这一常见难题，提供我解决的思路，以供参考。一、问题分析该错
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &