BUAA～冬之恋

KGAT : Knowledge Graph Attention Network for Recommendation 用于推荐的知识图注意力网络 KDD2019

论文来源：KDD 2019
论文链接
代码及数据集链接

1、摘要

在推荐系统领域中，为了使推荐结果更加准确、可解释性更高，不仅要考虑user-item之间的关系，引入外部知识丰富user-item之间的信息也非常有必要。在这方面比较常用的方法主要有FM算法（factorization machine，因子分解机），该方法主要问题在于将user-item作为相互独立的实例，忽视了item之间可能存在的相互作用关系。

本文提出了一种基于知识图谱和注意力机制的新方法-KGAT（Knowledge Graph Attention Network）。该方法通过user和item之间的属性将user-item实例链接在一起，摒弃user-item之间相互独立的假设。该方法将user-item和知识图谱融合在一起形成一种新的网络结构，并从该网络结构中抽取高阶链接路径用来表达网络中的节点。

2、背景

常用推荐算法主要有CF算法（collaborative filtering）和SL算法（supervised learning）。

协同过滤的模型一般为m个物品，n个用户的数据，只有部分用户和部分数据之间是有评分数据的，其它部分评分是空白，此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系，找到最高评分的物品推荐给用户。

一般来说，协同过滤推荐分为三种类型。第一种是基于用户(user-based)的协同过滤，第二种是基于项目(item-based)的协同过滤，第三种是基于模型(model based)的协同过滤。基于模型(model based)的协同过滤是目前最主流的协同过滤类型了，我们的一大堆机器学习算法也可以在这里找到用武之地。

基于用户的CF(User-Based CF主要思想是利用的打分矩阵, 利用统计信息计算用户和用户, item和item之间的相似度。然后再利用相似度排序, 最终得出推荐结果。
在协同过滤中，一个重要的环节就是如何选择合适的相似度计算方法，常用的两种相似度计算方法包括皮尔逊相关系数和余弦相似度等。皮尔逊相关系数的计算公式为：

根据皮尔逊公式，基于用户的CF算法公式为：

该公式要计算用户 $i$ 和用户 $j$ 之间的相似度, $I_{ij}$ 是代表用户i和用户j共同评价过的物品, $R (i, x)$ 代表用户i对物品 $x$ 的评分, $\overline{R(i)}$ 代表用户 $i$ 所有评分的平均分:之所以要减去平均分是因为有的用户打分严有的松, 归一化用户打分避免相互影响。

基于项目的CF(Item-Based CF) 和基于用户的CF类似，只不过这时我们要求物品和物品之间的相似度，就先要找到（或获得）目标用户对某些物品的评分，那么我们就可以对相似度高的类似物品进行预测，将评分最高的若干个相似物品推荐给用户。比如你在网上买了一本机器学习相关的书，网站马上会推荐一堆机器学习，大数据相关的书给你，这里就明显用到了基于项目的协同过滤思想。
既然IBCF和UBCF是类似的，那就可以借鉴UBCF的思想，选一个合适的相似度呗——所以还可以用皮尔逊，最终得到IBCF公式：

我们从上面最最最传统的CF公式（好吧或者说是算法）可以看出它面临两个问题：

矩阵稀疏问题
计算资源有限导致的可扩展性不好

协同过滤CF算法利用用户的行为信息进行偏好预测，该方法在推荐系统里有较好的应用。但是CF算法不能对其他信息（比如商品的属性、用户信息、上文下）进行建模，而且在用户-商品交互信息较少的数据上表现较差。
为了能把其他信息利用起来，学术界常用的做法是：将用户跟商品都用embedding向量进行表示，然后将他们输入监督学习的模型里训练，将用户表示与商品表示的相关性作为训练目标。这里相关工作有：factorization machine (FM) [7], NFM (neural FM) [6], Wide&Deep [5], DCN[4],and xDeepFM [3]等。

扩展一下（加点小菜）：

FM:在线性回归的基础上加入二阶线性特征。 $y=w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^n\sum_{j=i+1}^nw_{ij}x_ix_j$ ，优点：考虑二阶特征之间的相互作用。缺点：仅仅考虑线性特征，没有加入非线性特征。

NFM：融合了FM提取二阶线性特征与神经网络提取高阶非线性特征的两者优点。 $y=w_0+\sum_{i=1}^nw_ix_i+f(x)$ ,其中 $f (x)$ 是用神经网络对输入特征 $x$ 进行特征抽取建模。

Wide&Deep:模型包括两个部分，分别为Wide部分和Deep部分，Wide部分如图1的左图所示，Deep部分如下图中的右图所示。Wide模型就是一个广义线性模型，Wide模型是前馈神经网络。两种模型进行联合训练，将两个模型的结果加权求和作为最终的预测结果。

虽然这些模型都能取得不错的效果，但是这些模型有个缺点：将训练数据里（用户交互数据）的特征进行独立建模，没有考虑到交互数据之间的关系。这使得这些模型不足以从用户的行为中提取出基于属性的协同信息。

比如下图2中，用户u1看了电影 i1，这个电影是e1导演的，传统的CF方法会着重去找那些也看了电影i1的用户，比如u4跟u5。而监督学习方法会重点关注那些有相同属性e1的电影，比如i2。很显然这两类信息都可以作为推荐信息的补充，但是现有的模型不能做到上面两者信息的融合，而且这里的高阶关系也可以作为推荐信息的补充的。比如图中黄色框图里的用户看了同样由e1导演的电影i2, 还有灰色框图里电影同样也有e1的参与。

为了解决上面提到的问题，本文提出 collaborative knowledge graph (CKG)方法，将图谱关系信息及用户user点击商品item的交互图融合到一个图空间里。这样就可以融合CF信息及KG信息，同时也可以通过CKG发现高阶的关系信息。

作者认为，成功推荐的关键在于充分利用CKG图的高阶关系，比如这种(能够到达SL所及不了的黄圈和灰圈)远程连通性：

那么，怎么使用图模型来实现呢？考虑怎么实现，就要分析需要克服什么问题：

与目标用户具有高阶关系的节点随着阶数的增加而急剧增加，给模型增加了计算负荷（也就是为后文embedding layer做铺垫）
高阶关系对预测的贡献是不均衡的，这就要求模型仔细地权衡(或选择)它们（也就是为后文Attention引入的权值矩阵做铺垫）

本文的贡献：

强调了在CKG中显式建模高阶关系信息的重要性，以便提供更多信息的用于推荐。
提出来一种新的推荐方法KGAT，该方法在图神经网络框架下以显式且端到端的方式实现了高阶关系的建模。
我们在三个公开基准上进行了大量实验，证明了KGAT的有效性及其在理解高级关系重要性方面的可解释性。

3、任务描述

3.1、User-Item Bipartite Graph

还是以看电影为例：用户(user)和电影(items)之间是有历史交互信息的，比如你们以前看过XXXX电影。那么我们把这个interaction data做成一个用户-项目的双边关系图 $G_1$ ，定义：
$G_1=\{(u,y_{ui},i)|u\in U,i\in I\}$ 其中 $U$ 和 $I$ 表示用户和项目的集合，连接 $y_{ui}=1$ 代表观察到集合中某一个 $u$ 和某一个 $i$ 出现交互，反之为0。

3.2、knowledge Graph

针对3.1中的这个交互interactions，我们可以从中的得到项目的附加信息(side information)，比如电影的属性和外部知识（啥是外部知识？可以理解为比如一部电影的emmmm历史背景?_？）。通常这些辅助数据可以从真实世界的实体(电影导演)和它们之间的关系获得，进而组成一个电影(item)

比如形容一部电影可以从它的导演，灯光师，流派风格等等着手。那么我们把这些side information做成“由实体-属性-另一个对应的实体”三元组构成的有向图 $G_2$ ：
$G_2 = \{(h,r,t)|h,t\in \xi ,r\in R\}$ 其中每一个三元组表示一个从头实体 $h$ 到尾实体 $t$ 的双向关系（怎么理解？）

比如三元组 (Altria ActorOf Saber）代表在《命运之夜天之杯》电影中："人物阿尔托莉雅是角色Saber的饰演者"这层关系;而我们也可以表示成 (Saber ActorIn Altria）表明Saber的饰演者是型月著名女一号阿尔托莉雅小姐。然而无论是Saber还是阿尔托莉雅都不是用户user，这也就是说这个G2能囊括很多电影相关的信息。

然而作者并非止步于谁是Saber谁是Fate这个深度，作者希望把老虚也拉进来，于是建立了"item-entity alignments"这层关系：
$A=\{(i,e)|i \in I,e\in \xi\}$ 从而拓宽了模型的深度（喜欢老虚的可能就能推荐Fate/Zero）

3.3、Collaborative Knowledge Graph

将用户喜好和电影知识形成统一的关系图，首先要用数学语言表示出“用户喜好”：
$(u, I n t e r a c t, i)$ 其中， $y_{ui}=1$ 表示在用户和电影之间有交互关系
基于3.2中后半部分的电影-老虚关系(item-entity)集合的思想，为了拓宽模型深度，作者一统天下，把用户-老虚(user-entity)图和3.2前半部分的KG图 $G_2$ 整合成统一图：
$G=\{(h,r,t)|h,t\in {\xi}',r\in R' \}$ 其中 $\xi'=\xi \bigcup U,R'=R⋃Interact$
换句话说这段意思就是：

对于实体：把用户和Saber、Altria、老虚…等等众多和item有关的因素实体合起来形成的新实体集合 $\xi'$ 。
对于关系：将用户（用户只是众多实体中的一种实体）与电影的单向交互关系InteractInteractInteract和多种其他实体的双向关系结合起来，得到新关系集合 $R^{'}$ 。

3.4、High-Order Connectivity

作者再次重申了利用高阶连通性是优秀推荐的重要保障，并为我们描述了L阶连通性是什么亚子：
其中上面的 $e_i$ 和 $r_i$ 都来自新实体集合 $\xi'$ 和新关系集合 $R^{'}$ 。
上图写作
$e_{l-1},r_l,e_l)$ 读作第 $l$ 个三元组，并称这个三元组序列的长度为 $L$ 。

至此，我们学习完了基本知识，但是为什么要学习这些知识呢？为啥要把这几个集合合起来呢？我要是不合起来会咋样呢？

不合起来，行，那就走传统路线，CF或者SL模型选一个吧！
好，CF模型的连通性结构长下面这个亚子：

可以看出来，CF方法建立在用户之间行为相似的基础上——更具体地说，相似的用户在项目上表现出相似的偏好。比如，我舍友(u1)喜欢(r1)看《Fate/Zero》，而我(u2)也喜欢看,然后我u2还喜欢看《超炮》，那我把超炮推荐给我舍友u1吗？事实上我舍友只喜欢看老虚这种风格的作品，超炮太治愈了舍友接受不了，所以这种连通不稳。

那换SL算法呢？

SL算法通常只考虑一个实体的一个特征，也就是说从一部电影到另一部电影只能考虑一个因素，比如上图中的 $r_2$ 这一个因素，无法显示items和相关实例之间的相关性,比如下图这种情况（左边考虑导演喜好关系右边考虑演员喜好关系）就行不通。

4、模型

本文提出的KGAT模型由以下三个部分组成，嵌入层、注意力嵌入传播层和预测层，这些在图中表示的也很清晰：

4.1、Embedding Layer

为了将数据输入网络中，首先要进行嵌入，这里给自己啰嗦一下啥是图嵌入：

图嵌入是一种将图数据（通常为高维稀疏的矩阵）映射为低微稠密向量的过程。我们都知道图是由节点和边构成，这些向量关系一般只能使用数学，统计或者特定的子集进行表示，但是嵌入之后的向量空间具有更加灵活和丰富的计算方式，方便进行机器学习。

图嵌入能够压缩数据，我们一般用邻接矩阵描述图中节点之间的连接。连接矩阵的维度是 $∣ V ∣ * ∣ V ∣$ ，其中 $∣ V ∣$ 是图中节点的个数。矩阵中的每一列和每一行都代表一个节点。矩阵中的非零值表示两个节点已连接。

将一个图embedding成低维稠密向量有两种方法，但这两种方法万变不离其宗的思想就是Word2Vec思想(独热编码后扔到DNN中梯度下降经过Softmax输出选择概率）

节点嵌入（以DeepWalk为例）：随机游走起始于选定的节点，然后从当前节点移至随机邻居，并执行一定的步数，该方法大致可分为三个步骤：

采样：通过随机游走对图上的节点进行采样，在给定的时间内得到一个节点构成的序列

训练skip-gram：随机游走得到的节点序列与word2vec方法中的句子相当。文本中skip-gram的输入是一个句子，在这里输入为随机游走采样得到的序列，然后通过最大化预测相邻节点的概率进而学习预测周围节点

图嵌入方法：图嵌入是将整个图用一个向量表示的方法，Graph2vec同样由三个步骤构成：

采样并重新标记图中的所有子图。子图是出现在所选节点周围的一组节点。子图中的节点距离所选边数不远。

训练skip-gram模型,类比Word2Vec。经过训练，可以最大程度地预测输入中存在于图中的子图的概率。

通过在输入处提供子图的id索引向量来计算嵌入

那么，咱们分析一下，这里用的是图嵌入还是节点嵌入呢？
我个人的理解是图嵌入，因为从KGAT的模型中从第一步就开始建立子图（三元组，就是图中的 $e_{i_1}^0$ 等subgraph）,毕竟我理解的两种嵌入最大的区别就是是直接刚节点还是曲线救国积沙成塔整合区域节点为子图。

我们嵌入好了，就运用TransR模型：（关于TransR模型可以先简单理解为建立 $(h, r, t)$ 的向量运算关系，是真正的数学层面关系）
$TransR:e_t^r=e_h^r+e_r$ 其中 $e_{h},e_t\in \R^d$ 代表一个三元组 $(h, r, t)$ 经过嵌入embedding后的头实体和尾实体， $e_r\in \R^k$ 同理。并且上角标 $r$ 表示的是经过TransR变换到 $r$ 超平面中的 $e_{h},e_t$ 。

为了解决之前提出的第二个高亮问题（分配不均衡），我们将输入特征转换为高层特征，这一过程需要一个可学习的线性转换（one learnable linear transformation）。为了达到该目标，我们考虑采用《Attention is All You Need》这篇神文的一个共享的线性转换，通过对每一个节点进行加权。我们称这一过程为self-attention。

对于一个给定的三元组，根据《Graph Attention Networks》给出的self-attention处理模型：
回过头针对这里的三个变量模型，我们建立自己的势能函数：
其中 $W_r \in \R^{k\times d}$ 是关系 $r$ 的变换矩阵，将 $R^d$ 的实体空间转换到 $R^k$ 的 $r$ 关系超平面中（这一超平面就是之前TransR过程中的超平面，换言之，若你用TransE就不需要转换）

考虑到损失函数（loss function）是用来估量你模型的预测值 $f (x)$ 与真实值 $Y$ 的不一致程度，它是一个非负实值函数,通常使用 $L (Y, f (x))$ 来表示，损失函数越小，模型的鲁棒性就越好。所以这里我们给出势能函数 $g (h, r, t)$ 的损失函数：

其中 $\sigma$ 是sigmoid函数，自变量趋于正/负无穷时输出1或0。通常我们给正样例的分数高，负样例的分数低，保证括号内作差小于0 （外面一个负号，负负得正）从而保证训练过程每轮Loss大于0。

这里还需要啰嗦一句： $g (h, r, t^{'})$ 和 $g (h, r, t)$ 的关系：前者表示不存在图中的三元组组合。啥意思咧？
咱们训练不是要正负样例吗（在SL基础上改的肯定要监督哇），我们用正样例，比如：(美国总统奥巴马) 去生成一个和这个正样例相关的负样例：(美国总统本拉登）。但是，万一我们的语料库中正好有拉登这个负样例，那就重复了嘛，所以这里还有专门的处理方法（我忘了，恳请各位大神补充）。

4.2、Attentive Embedding Propagation Layers

这一节讲的是传播。
我们先从单层的传播描述，然后再介绍从单层到多层的方法。

4.2.1、Information Propagation

一个实体可以包含在多个三元组中，理论上充当连接两个三元组和传播信息的桥梁，比如：

和

这里面 $i_2$ 可以将 $e_1$ 和 $e_2$ 作为输入来enrich自己的特征，从而为用户 $u_2$ 提供更多的选择推荐。这就是我们实现信息传递的中心思想。

考虑实体 $h$ ,我们记"以实体 $h$ 为头实体的所有三元组"为ego-network：

为了刻画实体 $h$ 的一阶连通性结构，我们记 $h$ 的ego-network网络的线性组合为：
其中 $\pi(h,r,t)$ 决定三元组 $(h, r, t)$ 上每次传播的衰减系数，可以理解为从 $t$ 到 $h$ 传播的信息中有多少与 $r$ 有关。

通过公式怎么看出衰减系数依赖于在关系 $r$ 向量空间中尾实体 $t$ 与头实体 $h$ 的距离，具体这个是怎么理解的？
我的理解是这样的：(这是我在知乎上的回答）
1、首先，这里的衰减系数π(h,r,t)，就是我们通常attention机制中的计算相似度的第四种方法，而这个π(h,r,t)是怎么来的呢？请看下文
2、在attention中，我们取一个非线性函数f(比如LeakyReLU就行)表征两个实体之间的相似度(在《Attention is all you need》这篇神文里指的是Q,V,K向量，可以了解一下)。那么我们经过多次迭代所有实体后，需要输出attention向量以计算对应特征的线性加权，所以就需要将得到的相似度进行归一化，就是文中的tanh（第四种）操作。所以这里的衰减系数π(h,r,t)，我谨理解为是相似度的归一化函数。
3、 2中的非线性函数，在这篇文章中就是g(h,r,t)，所以衰减系数π(h,r,t)本质上是g的函数，而g(h,r,t)中是有着h与t的距离信息的。所以衰减系数π(h,r,t)就可能依赖于距离了。

4.2.2、Knowledge-aware Attention

下面这一部分就是Attention中的内容了，注意力函数 $e_{ij}$ 也有很多种变体。四种注意力变体：加性注意力（additive attention）、乘法（点积）注意力（multiplicative attention）、自注意力（self-attention）和关键值注意力（key-value attention）。这里给出的是用tanh非线性激励函数加性注意力（additive attention）,可以使得注意力得分依赖于超平面 $r$ 空间中 $e_h$ 和 $e_t$ 之间的距离，为更近的实体传播更多信息。

我们采用softmax函数对所有与刚刚说的与 $h$ 头实体相连的三元组的系数进行归一化处理:

4.2.3、Information Aggregation

好了我现在得到每一层的输出的概率了，那么现在要把所有层加起来，大概对应于图中的这一步：
红圈是第一层，蓝圈是第二层，高亮黄框应该延伸到 $W^l_1$ 和 $W^l_2$ 的，这里是我涂鸦失误，误把这里的 $W$ 和之前的 $W_r$ 混淆了。

最后一步首先要完成聚合(aggregation)，这里我们以第一种聚合器为例，《Semi-Supervised Classification with Graph Convolutional Networks》提出的聚合器：输入是两个表示向量的和，然后与可训练权值的 $d'\times d$ 矩阵 $W$ 相乘后再经过激活函数(这里取了LeakyReLU)后输出。其中 $W$ 是可以提取有用的信息用于传播的权值矩阵。

4.2.4、High-order Propagation

我们可以进一步堆叠更多的传播层来得到高阶连接信息，收集从高阶邻点的传播信息。在第 $l^{th}$ 步骤中，我们递归地将一个实体的表示形式表示为：

其中， $h$ 实体在 $l - e g o$ 第 $l$ 阶的ego网络中传播的信息定义如下:

这个式子表示每个经过Softmax的注意力分数( $\pi$ )与其对应的值(实体e)相乘，这个过程会产生对应数量的对齐向量(alignment vector),我们通常称之为加权值。其中， $e^{l-1}_t$ 是从前面的信息传播步骤中由尾实体 $t$ 产生的，包含着第 $l - 1$ 阶的所有邻点信息。所以高阶连通性如：

就可以通过以上四个过程得到了。（你看黄圈里面的 $u_2$ （在编码后叫做 $e^{(3)}_{u_1}$ 不就和最左边的 $u_1$ 连上了吗）。

注意这里还没有合并，只是通过递归得到了我想要的阶次的实体表示 $e^{(l)}_h$ 而已。

4.3、Model Prediction

对应的是这一部分：

concatenate的输入是刚刚每层输出的各阶信息 $e^{(l)}_h$ (没错就是刚刚的加权值).通过分析不同layer的输出就可以得到从1到多阶的连通性,我们采用layer-aggregation机制（上文提到的另一种方法）进行concatenate这么多层的输出。(说白了就是对加权值求和，得到输出1）

最后，我们对用户和项目的表示 $e$ 进行内积，从而预测它们的匹配分数：

4.4、Optimization

作者综合了多种Loss模型，提出了分别对KG和CF两种Loss合并起来算Loss:

5、实验

在本部分，作者旨在回答以下三个问题：
1.KGAT模型是否能够超越目前的基线方法？
2.KGAT的不同模块对KGAT的影响程度如何？
3.KGAT的可解释性如何？

5.1、数据集描述

作者使用了三个数据集：Amazon-book，Last-FM，Yelp2018。具体信息如下表：

5.2、实验效果

作者通过与7个基线方法进行对比，结果如下：

不同数据集上用户的不同的数据分布的影响：

不同的层数对实验结果的影响：

不同的聚合函数对实验结果的影响：

知识图嵌入与注意力机制的影响：
注意力可视化结果：

6、总结

整篇论文翻译链接

论文阅读笔记：AI+RPA 几道之旅人工智能
文章目录论文题目下载地址论文摘要论文题目Challengesandopportunities:ImplementingRPAandAIinfrauddetectioninthebankingsector下载地址点击这里下载论文摘要在银行业中，将机器人流程自动化（RPA）和人工智能（AI）集成用于欺诈检测是一项重大变革，既带来了挑战，也带来了机遇。随着金融机构面临日益复杂的欺诈企图，RPA和AI成为
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
论文阅读笔记《SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning》深视论文阅读笔记 #小样本学习深度学习小样本学习
小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种基于最近邻方法的小样本学习算法（SimpleShot），作者指出目前大量的小样本学习算法都采用了元学习的方案，而作者却发现使用简单的特征提取器+最近邻分类器的方法就能实现非常优异的小样本分类效果。本文首先用特征提取网络fθf_{\theta}fθ+线性分类器在一个基础数据集上对网络进行训练，将训练得到的特征提取网络增加一个简单的特征
【论文阅读笔记】（2015 ICML）Unsupervised Learning of Video Representations using LSTMs 小吴同学真棒学习人工智能 LSTM 动作识别无监督自监督 self-supervised
UnsupervisedLearningofVideoRepresentationsusingLSTMs（2015ICML）NitishSrivastava,ElmanMansimov,RuslanSalakhutdinovNotesContributionsOurmodelusesanencoderLSTMtomapaninputsequenceintoafixedlengthrepresent
使用动态网格的流体动画 Fluid Animation with Dynamic Meshes 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
目录引言背景方法离散化离散化的导数算子速度插值广义的半拉格朗日步重新网格化双向流固耦合和质量守恒原文：Klingner,BryanM.,etal.“Fluidanimationwithdynamicmeshes.”ACMSIGGRAPH2006Papers.2006.820-825.引言使用[Alliezetal.,2005]的方法动态生成不规则的四面体网格根据边界的位置、边界的形状、基于流体和速
【论文阅读笔记】AutoAugment:Learning Augmentation Strategies from Data 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
AutoAugment:LearningAugmentationStrategiesfromData摘要研究方法:本文描述了一种名为AutoAugment的简单程序，通过这个程序可以自动寻找改进的数据增强策略。研究设计了一个策略空间，其中策略包含多个子策略，在每个小批量数据中针对每张图片随机选择一个子策略。每个子策略由两个操作组成，每个操作是图像处理函数（如平移、旋转或剪切），以及应用这些函数的概
【论文阅读笔记】Contrastive Learning with Stronger Augmentations 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
ContrastiveLearningwithStrongerAugmentations摘要基于提供的摘要，该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习（ContrastiveLearningwithStrongerAugmentations，简称CLSA）。以下是对摘要的解析：问题陈述：表征学习（representationlearning）已在对比学习方法的推动
使用八叉树模拟水和烟雾 Simulating Water and Smoke with an Octree Data Structure 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
原文：Losasso,Frank,FrédéricGibou,andRonFedkiw.“Simulatingwaterandsmokewithanoctreedatastructure.”Acmsiggraph2004papers.2004.457-462.引言这篇文章扩展了[Popinet2003]的工作，拓展到表面自由流，并且使得八叉树不受限制自适应网格划分的一个缺点是，它的模板不是均匀的，
PointMixer论文阅读笔记 ZHANG8023ZHEN 论文阅读笔记
MLP-mixer是最近很流行的一种网络结构，比起Transformer和CNN的节构笨重，MLP-mixer不仅节构简单，而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳，PointMixer就是在保留了MLP-mixer优点的同时，还可以很好的处理点云问题。PointMixer可以很好的处理intra-set,inter-set,hierarchical-set的点云。
DCNNs之DNA论文阅读笔记苏十一0421
Article:DeepConvolutionalNeuralNetworkArchitectureWithReconfigurableComputationPatternsJournalTitle:IEEETransactionsonVeryLargeScaleIntegration(VLSI)SystemsIssue:No.08-Aug.(2017vol.25)ISSN:1063-8210pp
【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
UNSUPERVISEDREPRESENTATIONLEARNINGFORTIMESERIESWITHTEMPORALNEIGHBORHOODCODINGABSTRACT 本文提出了一种自监督框架，名为“时间邻域编码”（TemporalNeighborhoodCoding，TNC），用于学习非平稳时间序列的可泛化表示。该方法利用信号生成过程的局部平滑性来定义具有平稳性质的时间邻域。通过使用去偏差对
Deep Learning Workload Scheduling in GPU Datacenters:Taxonomy, Challenges and Vision 论文阅读牛码当驴云计算算法云计算论文阅读
【论文阅读笔记】DeepLearningWorkloadSchedulinginGPUDatacenters:Taxonomy,ChallengesandVision论文链接GPU数据中心的DL工作负载调度：分类、挑战、展望AbstractDeeplearning(DL)showsitsprosperityinawidevarietyoffields.ThedevelopmentofaDLmode
论文阅读笔记 RPT: Learning Point Set Representation for Siamese Visual Tracking faverr
论文阅读笔记RPT:LearningPointSetRepresentationforSiameseVisualTracking综合了可形变卷积、RepPoints检测、多层级卷积特征等思想论文地址代码地址现有跟踪方法中存在的问题现有的跟踪方法往往采用矩形框或四边形来表示目标的状态（位置和大小），这种方式忽略了目标自身会变化的特点（形变、姿态变化），因此作者采用表示点（Representative
SpanDB: A Fast, Cost-Effective LSM-tree Based KV Store on Hybrid Storage——论文泛读妙BOOK言论文阅读论文阅读 KV存储 lsm-tree
FAST2021Paper论文阅读笔记整理问题键值（KV）存储支持许多关键的应用和服务。它们在内存中执行快速处理，但通常受到I/O性能的限制。最近出现的高速NVMeSSD推动了新KV系统设计，以利用其低延迟和高带宽。挑战当前基于LSM树的KV存储未能充分发挥NVMeSSD的全部潜力。例如，在OptaneP4800X上部署RocksDB，相对于SATASSD，对于50%写入的工作负载，吞吐量仅提高了
DyTIS: A Dynamic Dataset Targeted Index Structure Simultaneously Efficient for Search, Inse...——论文泛读妙BOOK言论文阅读论文阅读 KV存储
EuroSys2023Paper论文阅读笔记整理问题在现实生活中，许多数据集都是复杂且动态的，即它们的键密度在整个键空间上变化，它们的键分布随时间变化。对于这样的动态数据集，使得索引结构能够高效支持数据管理中的所有关键操作，特别是搜索、插入和扫描，是一项具有挑战性的任务。挑战对于内存中的数据管理系统，例如内存数据库和键值存储[4,12,34,35,56]，索引结构的效率至关重要，强烈影响系统的最终
Gan论文阅读笔记 Alex·Fall 深度学习生成对抗网络论文阅读笔记
GAN论文阅读笔记2014年老论文了，主要记录一些重要的东西。论文链接如下：GenerativeAdversarialNets(neurips.cc)文章目录GAN论文阅读笔记出发点创新点设计训练代码网络结构代码测试代码出发点Deepgenerativemodelshavehadlessofanimpact,duetothedifficultyofapproximatingmanyintracta
PairLIE论文阅读笔记 Alex·Fall 低光增强论文阅读笔记
PairLIE论文阅读笔记论文为2023CVPR的LearningaSimpleLow-lightImageEnhancerfromPairedLow-lightInstances.论文链接如下：openaccess.thecvf.com/content/CVPR2023/papers/Fu_Learning_a_Simple_Low-Light_Image_Enhancer_From_Paire
点云transformer算法: FlatFormer 论文阅读笔记 zhaoyqcsdn 深度学习 transformer 算法论文阅读
代码：https://github.com/mit-han-lab/flatformer论文：https://arxiv.org/abs/2301.08739[FlatFormer.pdf]Flatformer是对点云检测中的backbone3d部分的改进工作，主要在探究怎么高效的对点云应用transformer具体的工作如下：一个缩写：**PCTs即pointcloudtransformers*
【论文阅读笔记】InstantID : Zero-shot Identity-Preserving Generation in Seconds LuH1124 论文阅读笔记图像编辑文生图论文阅读文生图扩散模型人脸识别
InstantID:秒级零样本身份保持生成理解摘要Introduction贡献RelatedWorkText-to-imageDiffusionModelsSubject-drivenImageGenerationIDPreservingImageGenerationMethod实验定性实验消融实验与先前方法的对比富有创意的更多任务新视角合成身份插值多身份区域控制合成结论和未来工作project：
【论文阅读笔记】Taming Transformers for High-Resolution Image Synthesis LuH1124 论文阅读笔记论文阅读 transformer cnn 图像生成
TamingTransformersforHigh-ResolutionImageSynthesis记录前置知识AbstractIntroductionRelatedWorkMethodLearninganEffectiveCodebookofImageConstituentsforUseinTransformersLearningtheCompositionofImageswithTransfo
【论文阅读笔记】Make-A-Character: High Quality Text-to-3D Character Generation within Minutes LuH1124 论文阅读笔记数字人 Relight 论文阅读 3d 数字人计算机图形学头发生成
【论文阅读笔记】分钟级别的高质量文本到3D角色生成AbstractIntroductionMethodLL/VM解析人脸面部属性并生成根据密集地标重建face/head形状几何生成纹理生成纹理提取漫反射反照率（DiffusionAlbedo）估计纹理矫正和补全头发生成（牛了）资产匹配实验未来工作paperhttps://arxiv.org/abs/2312.15430Demohttps://hug
【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS LuH1124 论文阅读笔记文生图论文阅读 text2img 扩散模型
WURSTCHEN：用于大规模文本到图像扩散模型的高效架构摘要贡献方法训练推理实验结论附录附录A附录B附录C附录D附录E这篇文章提出了一个高效的用于文本到图像生成模型架构，整体思路比较直白，在不损失图像生成质量的情况下，相比于现有T2I模型（SD1.4，SD2.1等）大大节约了成本。附录部分给了一些有趣的东西，比如FID的鲁棒性整篇文章还有点疑惑，比如阶段B的训练，使用的模型；节省成本主要是在说C
【论文阅读笔记】Advances in 3D Generation: A Survey LuH1124 论文阅读笔记 3DGeneration 论文阅读 3d 神经表示渲染
Advancesin3DGeneration:ASurvey挖个坑，近期填完摘要time：2024年1月31日paper：arxiv机构：腾讯挖个坑，近期填完摘要生成3D模型位于计算机图形学的核心，一直是几十年研究的重点。随着高级神经表示和生成模型的出现，3D内容生成领域发展迅速，能够创建越来越高质量和多样化的3D模型。该领域的快速增长使得很难跟上所有最近的发展。在本次调查中，我们旨在介绍3D生成
【论文阅读笔记】Transformer-XL 没啥信心
Paper:Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext重点关注论文中的相对位置编码及提高融合了相对位置信息的attentionscore的计算效率的部分。AbstractTransformer具有学习长依赖的能力，但受限于语言模型固定长度上下文的限定。本文提出的Transformer-XL神经网络架构可以在不打破
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方