kk__mm

论文阅读笔记（1）：Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

原文链接：https://arxiv.org/pdf/1901.08907v1.pdf

PS：做个笔记，以便自己查阅。

摘要

在真实的推荐场景中，协同过滤往往存在稀疏性和冷启动问题，因此，研究人员和工程师通常利用辅助信息来解决问题，提高推荐系统的性能。本文将知识图作为辅助信息的来源。提出了一种多任务特征学习方法MKR，用于知识图增强推荐。MKR是一个利用知识图嵌入任务来辅助推荐任务的深度端到端框架。这两个任务通过交叉压缩单元相关联，该单元自动共享潜在特征，并学习推荐系统中的项目与知识图中的实体之间的高阶交互。证明了交叉和压缩单元具有足够的多项式逼近能力，并表明MKR是推荐系统和多任务学习的几种代表性方法的通用框架。通过对真实世界数据集的大量实验，我们证明了MKR在电影、书籍、音乐和新闻推荐方面取得了巨大的进步，超越了比较先进的模型。即使用户-项目交互很少，MKR也能够保持良好的性能。

1 介绍

推荐系统（RS）旨在解决信息爆炸问题并满足用户的个性化兴趣。最受欢迎的推荐技术之一是协作过滤（CF）[11]，它利用用户的历史互动并根据用户的共同偏好进行推荐。但是，基于CF的方法通常会遇到用户与项目交互的稀疏性以及冷启动问题。因此，研究人员建议在推荐系统中使用辅助信息，包括社交网络[10]，属性[30]和多媒体（例如文本[29]，图像[40]）。知识图谱（KGs）是RS的一种辅助信息，通常包含丰富的事实和有关项目的联系。最近，研究人员提出了一些学术和商业的知识图谱，例如NELL1，DBpedia2，Google Knowledge Graph3和Microsoft Satori4。由于KG的高维和异构性，通常通过知识图嵌入（KGE）方法对其进行预处理[27]，该方法将实体和关系嵌入到低维向量空间中，同时保留其固有结构。

现有KG-aware模型

受到在各种任务中成功应用KG的启发，研究人员最近尝试利用KG来提高推荐系统的性能[31，32，39，40，45]。个性化实体推荐（PER）[39]和带有特征选择的分解因子机（FMG）[45]将KG视为异构信息网络，并提取基于元路径/元图的潜在特征来表示用户和项目之间的连通性不同类型的关系路径/图形。应该注意的是，PER和FMG严重依赖手动设计的元路径/元图，这限制了它在通用推荐方案中的应用。深度知识感知网络（DKN）[32]设计了一个CNN框架，将实体嵌入与单词嵌入相结合以进行新闻推荐。但是，在使用DKN之前需要实体嵌入，这导致DKN缺乏端到端的培训方式。关于DKN的另一个问题是，它几乎不能包含文字以外的辅助信息。RippleNet[31]是一个类似于内存网络的模型，它在KG中传播用户的潜在偏好，并探索用户的层次兴趣。但是关系的重要性在RippleNet中表现得很弱，因为关系R的嵌入矩阵很难训练成二次型v⊤R h（v和h是两个实体的嵌入向量）。协作性的知识基础嵌入（CKE）[40]在统一的框架中将CF与结构性知识，文本知识和视觉知识结合在一起。但是，CKE中的KGE模块（即TransR）比推荐更适合于图形应用（例如KG完成和链接预测）。另外，在贝叶斯框架下，CF模块和KGE模块在CKE中是松散耦合的，因此对于推荐系统，KG的监督不太明显。

方法

为了解决以往工作的局限性，我们提出了一种用于知识图增强推荐的多任务学习(MTL)方法MKR。MKR是一个通用的端到端的深度推荐框架，旨在利用KGE任务来辅助推荐任务5。注意，这两个任务不是相互独立的，而是高度相关的，因为RS中的一个项目可能与KG中的一个或多个实体相关联。因此，一个项目及其对应的实体可能在RS和KG中具有相似的邻近结构，在低层和非任务特定的潜在特征空间[15]中具有相似的特征。我们将在实验部分进一步验证相似性。为了对项目和实体之间的共享特性建模，我们在MKR中设计了一个交叉压缩单元。交叉压缩单元明确地对项与实体之间的高阶交互进行建模，并自动控制这两项任务的交叉知识传输。通过交叉压缩单元，项目和实体的表示可以互补，有助于避免拟合噪声和提高泛化能力。通过交替优化两个不同频率的任务，可以训练整个框架，使得MKR在实际的推荐算法中具有较高的灵活性和适应性。
我们探讨了MKR的表达能力，并通过理论分析表明，交叉压缩单元能够近似地表示项目和实体之间的高阶特征交互。我们还证明了MKR是一种广义的框架，适用于多种有代表性的推荐系统和多任务学习方法，包括因子分解机[22,23]、深度交叉网络[34]和十字绣网络[18]。根据经验，我们评估了我们的方法在四个推荐场景即。、电影、书籍、音乐和新闻推荐。结果表明，MKR在点击率(CTR)预测(例如，电影平均提高11.6%的AUC)和top-K推荐(例如，书籍平均提高66.4%的Recall@10)方面都取得了显著的进步。MKR还可以在稀疏场景中保持良好的性能。

贡献

值得注意的是，由于我们更关心推荐任务的性能，因此本文研究的问题也可以建模为跨域推荐[26]或迁移学习[21]。然而，关键的观察是，虽然跨域推荐和转移学习对于目标域只有一个目标，但是它们的损失函数仍然包含测量源域中数据分布或两个域之间相似性的约束项。在我们提出的MKR中，KGE任务明确地作为约束项，为推荐系统提供正则化。我们要强调的是，本文的主要贡献是将问题建模为多任务学习：我们比跨域推荐和转移学习更进一步，理论分析和实验结果表明，发现任务间的相似性不仅有助于推荐系统，而且有助于知识图谱的嵌入。

2 研究方法

在本节中，我们首先制定了知识图增强推荐问题，然后介绍了MKR的框架，并详细介绍了交叉压缩单元、推荐模块和KGE模块的设计。最后讨论了MKR的学习算法。

2.1问题公式化

在典型的推荐场景中，我们有一组M用户U={u1，u2，…，uM}和一组N项V={v1，v2，…，vN}。用户项交互矩阵Y∈RM×N是根据用户的隐式反馈定义的，其中yuv=1表示用户参与了项v，如点击、观看、浏览、购买等行为，否则yuv=0。此外，我们还可以访问一个知识图G，它由实体关系实体三元组（h，r，t）组成。这里h、r和t分别表示知识三元组的头、关系和尾。例如，三元组（昆汀·塔伦蒂诺，film.director.film，Pulp Fiction）表示昆汀·塔伦蒂诺导演电影Pulp Fiction。在许多推荐场景中，项目v∈v可能与G中的一个或多个实体相关联。例如，在电影推荐中，项目“低俗小说”与其在KG中的同名链接，而在新闻推荐中，新闻与标题“特朗普在技术会议上承诺向硅谷提供援助”与KG中的实体“唐纳德·特朗普”和“硅谷”相关联。鉴于用户-项目交互矩阵Y以及知识边缘图G，我们旨在预测用户u是否对之前没有互动的项目v感兴趣。我们的目标是学习预测函数yˆuv = F（u，v |Θ，Y，G），其中yˆuv表示用户u会参与项目v的概率，而Θ是函数F的模型参数。

2.2 框架

MKR的框架如图1a所示。MKR由三个主要组件组成：推荐模块、KGE模块和交叉压缩单元。
（1）左侧的推荐模块以用户和项目为输入，使用多层感知器（MLP）和交叉压缩单元分别提取用户和项目的短特征和密集特征。然后将提取的特征一起输入另一个MLP，输出预测概率。
（2）与左侧相似，右侧的KGE模块也使用多层结构从知识三元组的头部和关系中提取特征，并在分数函数f和真实尾部的监督下输出预测尾部的表示。
（3）推荐模块与KGE模块之间采用专门设计的交叉压缩单元桥接。该单元能自动学习推荐系统中项目与推荐实体之间的高阶特征交互。

2.3 交叉压缩单元

为了对物品和实体之间的特征交互进行建模，我们在MKR中设计了一个交叉压缩单元，如图5–8b所示。
对于物品v及与它关联的实体（之一）e，我们首先依据它们第层的特征和，构造一个dxd维的特征交互矩阵：

其中是第层的交叉特征矩阵，是特征的维度。这个操作叫做“交叉”操作，因为在交叉特征矩阵中，物品v及其相关联的实体e的任何一组可能的特征相互作用都被显式地建模。然后，我们将特征交叉矩阵投影到各自的特征空间中，并输出物品和实体的下一层的表示向量：
　　其中和是权值和偏置参数。这个操作叫做“压缩”操作，因为权值向量将交叉特征矩阵重新从的空间映射回了特征空间。注意到在公式（2）中，出于对称性的考虑，特征交叉矩阵被同时沿着水平和垂直的方向进行了压缩（通过在矩阵和上进行操作）。但是我们会在第3.2节中提供更多关于该设计的理解。为了记号简便，在下文中，我们将交叉压缩单元记为：
　　（3）
　　并使用后缀或来区分它的两个输出。通过交叉压缩单元，MKR可以适应性地调整知识迁移的权重并学习两个任务之间的相关度。
　　
值得注意的是，交叉单元只存在于MKR模型的低层（low-level layers），如图1a所示。这是因为（1）一般而言，在深度结构中，特征沿着网络结构逐渐从一般性（general）转到特定性（specic），特征的可迁移性在高层（high-levellayers）会随着任务不相似性的增加而显著下降[38]。因此，在高层中共享特征会增加负迁（negative transfer）的风险，特别是对于MKR中的异构任务。（2）在MKR的高层中，物品特征和用户特征发生了混合，实体特征也与关系特征发生了混合。这种混合特征不再适合共享，因为它们没有显式的关联。

2.4 推荐模型

MKR 中的推荐系统模块的输入为用户u和物品v的原始特征u和v。根据应用场景的不同，u和v可以是one-hotID[59]，属性[1]，词袋（bag-of-words）[52]，或它们的组合。给定用户u的原始特征u，我们使用一个 L 层的MLP来提取他的隐含特征：　
（4）
其中是一个权重参数为W、偏执参数为 b、非线性激活函数为σ(·) 的全连接层。对于物品v，我们使用 L 层的交叉压缩单元来提取它的特征：　
（5）
其中是S（V）是和物品v关联的实体的集合。
在得到了用户的特征以及物品的特征后，我们将和拼接起来以结合这两个通路。然而，一个简单的向量拼接不足以刻画用户和物品的交互[59]。因此，我们使用另一个 H层的MLP来处理拼接后的向量。相比于内积，MLP的设计使得 MKR 具有更多的灵活性和非线性能力来处理和的交互。最终，用户u和物品v有交互行为的预测概率为：
（6）

2.5 知识图谱特征学习模块

知识图谱特征学习的目的是将实体和向量映射到低维连续空间中，并保持它们的结构信息。最近，研究者们提出了很多知识图谱特征学习方法，包括翻译距离模型（translational distance models）[82,84] 和语义匹配模型（semantic matching models）[157,158]。在MKR 中，我们提出一种深度语义匹配模型用于知识图谱特征学习。和推荐系统模块类似，对于一个给定的三元组(h,r,t)，我们首先使用多个交叉压缩单元和非线性层来分别处理头结点 h 和关系 r 的原始输入。（这可以包括 ID[84]、种类[159]、文字描述[83] 等）。它们的特征随后被拼接起来，送入一个 K 层的MLP来预测尾节点 t：

其中是实体 h 关联的物品的集合，是预测的尾节点t的向量。最终，三元组 (h,r,t) 的分数通过一个评分函数计算得到：　
（8）
其中是t尾节点 t 的实际特征。在本文中，我们使用归一化的内积作为评分函数[160]，但是其它形式的相似度函数也可以在这里使用，例如Kullback–Leibler divergence。

2.6 学习算法

MKR的完整的损失函数如下所示：
（9）
在公式（9）中，第一项衡量推荐系统模块中的损失，其中u和v分别遍历了用户和物品的集合，J 是交叉熵（cross-entropy）函数。第二项计算了知识图谱特征学习模块中的损失，其中我们的目标是提升所有正确的三元组的分数，降低所有错误的三元组的分数。最后一项是防止过拟合的正则项。λ1 和 λ2 是权衡参数。

注意到公式（9）遍历了所有可能的用户-物品对和三元组。为了使计算更有效率，类似文献[17]，我们在训练过程中使用负采样技术。MKR的学习算法如算法1所示。一个训练轮中包含了两个阶段：推荐系统任务（第4-8行）和知识图谱特征学习任务（第10-12行）。在每轮中，我们重复训练 t 次推荐系统任务（t 是一个超参数且一般t > 1）并训练一次知识图谱特征学习任务，因为我们更关注于提升推荐性能。我们会在实验部分讨论 t 的选择。

【注】7：根据公式（1）-（6），（9），使用梯度下降法更新F的参数；
12：根据公式（1）-（3），（7）-（9），使用梯度下降法更新F的参数；

3 理论分析

在本节中，我们证明了交叉压缩单元具有足够的多项式逼近能力。我们也证明了MKR是一个广义的框架，它涵盖了几种典型的推荐系统和多任务学习方法。

3.1 多项式拟合

根据魏尔斯特拉斯逼近定理（Weierstrass approximation theorem） [25]，任何在特定平滑假设下的函数都可以被一个多项式近似到任意精度。因此，我们研究交叉压缩单元的高阶交互模拟的能力。我们证明交叉压缩单元可以拟合高达指数级别的物品-实体特征交互：

定理 1. 记 MKR 网络中的输入物品和实体的特征分别为和 e =。那么和（和的）的具有最大度数的交叉项是，其中；。
在推荐系统中，也叫做组合特征（combinatorial feature），因为它衡量了多个原始特征的交互。定理1表明交叉压缩单元可以自动模拟足够高阶的物品和实体之间的组合特征。和现有工作，例如Wide&Deep[3]、分解机（factorization machine）[22,23] 和DCN[34] 相比，MKR具有更强大的拟合能力。定理5.1的证明见附录。

3.2 代表方法的统一视角

在本节中，通过阐述推荐系统和多任务学习中的一些有代表性的方法是MKR的特殊版本或和MKR有理论上的关联，我们为这些方法提供一个统一的视角。这也验证了交叉压缩单元的设计的合理性，同时也从概念上解释了MKR和基准方法相比有较强的性能的原因。

3.2.1 分解机（Factorizationmachines）

因子分解机器[22,23]是推荐系统的一种通用方法。给定一个输入特征向量，FMs使用因式分解的参数对输入向量中所有变量之间的交互作用进行建模，从而能够在具有极大稀疏性的问题(如推荐系统)中估计交互作用。定义了2次因子分解机的模型方程为：

其中xi是第i个单元的输入向量x, w·体重标量,v·权向量,是两个向量的内积。我们证明分解机的核心和单层的交叉压缩单元在概念上是相似的。
命题 1.和的可以被写成如下形式：

其中，是两个标量的和。
有趣的是，与分解机中将的权值参数分解为两个向量的内积不同，在交叉压缩单元中的权值被分解成两个标量的和，用以减少参数的个数，提升模型的鲁棒性。

3.2.2 深度交叉网络（Deep&CrossNetwork）

深度交叉网络（DCN） [163] 通过引入如下的网络层来显式地学习高阶的特征交互：，其中、和分别是第层的特征、权值和偏置。我们通过如下的命题展示DCN和MKR之间的联系：
　命题 2. 在公式（2）的中，如果我们限制第一项满足，限制第二项为（以及对施加相似的限制），那么交叉压缩单元和 DCN 网络层在多任务学习的概念下是等价的：（13）
可以证明，上述的DCN等价版本的MKR的多项式拟合能力（即和中的交叉项的最大度数）为，这要远远弱于原版的交叉压缩单元的的拟合能力。

3.2.3十字绣网络（Cross-stitchNetworks）

十字绣网络[18]是卷积网络中的一个多任务学习模型，在该模型中，设计的十字绣单元可以学习两个任务之间共享和特定任务表示的组合。具体来说,给定两个激活地图和图层l为任务,十字绣网络学习线性组合和的输入激活和饲料这些组合作为输入到下一层的过滤器。激活图中(i, j)处的公式为：

其中a’s是任务a和任务b之间表示的可训练的转移权重。我们通过以下步骤说明公式(14)中的十字绣单元是我们的交叉压缩单元的简化版本。

命题3.如果我们忽略公式（2）中所有的偏置，那么交叉压缩单元可以写成如下形式：

公式（15）中的转换矩阵类似于十字绣网络中的，这些 α 是十字绣网络中控制任务A和任务B之间的特征迁移程度的参数。和十字绣网络类似， MKR可以通过让或变小来使得特定的层变得更加任务特定（task-specic），也可以给它们分配一个较大的数值来让该层变得更加共享（shared）。但是，交叉压缩单元中的转换矩阵更加细粒度（ne-grained），因为转换矩阵从十字绣网络中的两个数值变成了MKR中的两个向量的内积。更为有趣的是，公式（15）也可以被视为是一种注意力机制，因为转移权值的计算涉及了向量和本身。

【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
【论文笔记】GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
原文链接：https://arxiv.org/abs/2506.00034v1简介：现有的多传感器融合方法多使用基于注意力的拉直(flatten)融合或通过几何变换的BEV融合，但前者可解释性差，后者计算开销大（如下图(a)(b)所示）。本文提出GaussianFusion（下图(c)），一种基于高斯的多传感器融合框架，用于端到端自动驾驶。使用直观而紧凑的高斯表达，聚合不同传感器的信息。具体来说，
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
Llama改进之——均方根层归一化RMSNorm 愤怒的可乐 NLP项目实战 #llama
引言在学习完GPT2之后，从本文开始进入Llama模型系列。本文介绍Llama模型的改进之RMSNorm(均方根层归一化)。它是由RootMeanSquareLayerNormalization论文提出来的，可以参阅其论文笔记1。LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
论文笔记--Language Models are Unsupervised Multitask Learners Isawany 论文阅读论文阅读语言模型 transformer chatgpt 自然语言处理
论文笔记GPT-2--LanguageModelsareUnsupervisedMultitaskLearners1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1数据集WebText2.2.2分词方法3.GPT-1&GPT-24.文章亮点5.原文传送门6.References1.文章简介标题：LanguageModelsareUnsupervisedMultitaskLearners
You Only Look Once Unified, Real-Time Object Detection论文笔记 __Lo__ 目标检测论文阅读深度学习
文章结构统一检测框架(UnifiledDetection)核心思想YOLO将目标检测视为一个端到端的回归问题，输入的图像经过SingleForwardPass，直接输出物体的信息（边界框的位置、边界框的置信度、类别概率）；优势在于速度快，全局理解上下文，这里全局理解上下文的意思是识别物体和背景的关系，减少误检。网络设计网格划分（GridDivision）将图像划分为一个S×S的网格，文中S=7；共
【论文笔记】UnifiedQA：新SOTA，生成模型一统问答任务 iLuz 深度学习自然语言处理
目录引言模型介绍1.输入格式2.实验结果总结引言问答任务有多种形式，常见的有抽取式问答(EX)、摘要式问答(AB)、多选题式问答(MC)、判断式问答(YN)。一般的解决方案是针对不同形式的问答任务设计不同的模型。例如，抽取式问答、多选题式问答、判断式问答可以转化为分类任务，摘要式问答可以转换为生成任务。尽管任务形式不同，但模型所需的语义理解和推理能力是共通的，或许不需要format-special
[论文笔记] [2008] [ICML] Extracting and Composing Robust Features with Denoising Autoencoders Alexzhuan DL 神经网络机器学习
在06年以前，想要去训练一个多层的神经网络是比较困难的，主要的问题是超过两层的模型，当时没有好的策略或方法使模型优化的很好，得不到预期的效果。在06年，Hinton提出的stackedautoencoders改变了当时的情况，那时候的研究者就开始关注各种自编码模型以及相应的堆叠模型。这篇的作者提出的DAE（DenoisingAutoencoders）就是当时蛮有影响力的工作。那个时候多层模型效果得
【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization AustinCyy 论文笔记论文阅读
论文信息论文标题：SecAlign:DefendingAgainstPromptInjectionwithPreferenceOptimization-CCS25论文作者：SizheChen-UCBerkeley；Meta,FAIR论文链接：https://arxiv.org/abs/2410.05451代码链接：https://github.com/facebookresearch/SecAli
CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision Q同学的nlp笔记论文阅读语言模型人工智能 nlp 自然语言处理
导语会议：ICML2021链接：https://proceedings.mlr.press/v139/radford21a/radford21a.pdf当前的计算机视觉系统通常只能识别预先设定的对象类别，这限制了它们的广泛应用。为了突破这一局限，本文探索了一种新的学习方法，即直接从图像相关的原始文本中学习。本文开发了一种简单的预训练任务，通过预测图片与其对应标题的匹配关系，从而有效地从一个包含4亿
论文笔记：Large Language Models are Zero-Shot Next LocationPredictors UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
1intro下一个地点预测（NL）包括基于个体历史访问位置来预测其未来的位置。NL对于应对各种社会挑战至关重要，包括交通管理和优化、疾病传播控制以及灾害响应管理NL问题已经通过使用马尔可夫模型、基于模式的方法以及最近的深度学习（DL）技术（进行了处理。然而，这些方法并不具备地理转移能力因此，一旦这些模型在某个地理区域训练完毕，如果部署到不同的地理区域，它们将面临严重的性能下降尽管已经做出努力改善地
论文笔记：LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt UQI-LIUWJ 论文笔记论文阅读语言模型 prompt
202402arxiv1intro1.1大模型+时间序列预测一般有两种类型的方法使用海量时间序列数据重新训练一个时间序列领域的大模型论文笔记：TimeGPT-1_timegpt论文-CSDN博客直接利用现有的大模型，设计prompt，将时间序列数据转换成大模型理解的文本，实现时间序列预测代价小+有成熟的可供使用的大模型1.2本文思路之前的方法大多集中在如何将时间序列数据转换成文本上将时间序列的数字
【论文笔记】ResNet论文的全面解析浩瀚之水_csdn #论文阅读笔记人工智能
论文：DeepResidualLearningforImageRecognition发表时间：2015发表作者：(MicrosoftResearch)He-Kaiming,Ren-Shaoqing,Sun-Jian论文链接：论文链接一、ResNet论文基本信息论文标题与发表信息论文标题：《DeepResidualLearningforImageRecognition》发表时间：2015年，并在20
论文笔记：TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents CvBeginner 论文笔记轨迹预测计算机视觉
论文笔记：TrafficPredict:TrajectoryPredictionforHeterogeneousTraffic-Agents摘要这是百度在AAAI2019发布的一篇文章。这篇文章提出了一种基于4D-graph的方法实现复杂场景下的轨迹预测，研究对象包含行人、机动车和自行车。实现方法本文提出了一个基于LSTM的算法，名为TrafficPredict。构建了一个4DGraph，输入是轨
论文笔记：MobileNetV2: Inverted Residuals and Linear Bottlenecks 菜鸡信息技术 Deep Learning
MobileNetV2:InvertedResidualsandLinearBottlenecksMobileNetV2是MobileNetV1的改进版，Invertedresidual是个非常精妙的设计！MobileNetV1引入depthwiseseparableconvolution代替standardconvolution，减少运算量。MobileNetV1的结构其实非常简单，是类似于VG
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 深度学习人工智能计算机视觉机器学习 transformer 论文阅读
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Meta的AIGC视频生成模型——Emu Video 好评笔记 AIGC 深度学习人工智能机器学习 transformer 校招面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
[论文笔记] 超详细解读DeepSeek v3全论文技术报告心心喵论文笔记论文阅读
DeepSeek-V3是一个强大的专家混合（Mixture-of-Experts，MoE）语言模型，总共671B参数，每个token激活37B参数（可以理解为有多个专家，但每个token只会选择一部分专家进行推理，所以一个token的预测，只会用到37B参数），DeepSeek-V3使用了多头潜在注意力（
[论文笔记] pai-megatron qwen1.5报错心心喵论文笔记 python
Qwen1.5-0.5b-chat使用example中fintune.py报错·Issue#77·QwenLM/Qwen1.5·GitHub解决方案：transformers升级到4.37.0pipinstallsetuptools==65.5.1pipinstalltransformers==4.37.0
基于不确定性感知学习的单图像自监督3D人体网格重建（论文笔记与思考） Gamma and Beta 读博笔记算法笔记学习 3d 论文阅读
文章目录论文解决的问题提出的算法以及启发点论文解决的问题首先这是Self-Supervised3DHumanmeshrecoveryfromasingleimagewithuncertainty-awarelearning（AAAI2024）的论文笔记。该文中主要提出了一个自监督的framework用于人体的姿态恢复。主要是解决了现有的方法对大型数据集的依赖。提出的算法以及启发点论文总体的框架其实
LLM论文笔记 28: Universal length generalization with Turing Programs Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理笔记人工智能
Arxiv日期：2024.10.4机构：HarvardUniversity关键词图灵机CoT长度泛化核心结论TuringPrograms的提出提出TuringPrograms，一种基于图灵机计算步骤的通用CoT策略。通过将算法任务分解为逐步的“磁带更新”（类似图灵机的读写操作），允许模型通过简单的文本复制与局部修改完成复杂计算通用性：适用于任何算法任务（加法、乘法、SGD），不依赖任务特定的数据格
LLM论文笔记 27: Looped Transformers for Length Generalization Zhouqi_Hua 大模型论文阅读论文阅读语言模型人工智能论文笔记笔记
Arxiv日期：2024.9.25关键词长度泛化transformer结构优化核心结论1.RASP-L限制transformer无法处理包含循环的任务的长度泛化2.LoopTransformer显著提升了长度泛化能力InputInjection显著提升了模型的长度泛化性能，尤其在二进制加法等复杂任务上效果显著在推理中，通过输出置信度判断迭代停止点的策略能够实现接近最佳的性能主要方法Transfor
Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记 m_buddy BEV Perception 论文阅读人工智能深度学习
参考代码：Fast-BEV一稿多投的另一篇：Fast-BEV:TowardsReal-timeOn-vehicleBird’s-EyeViewPerception1.概述介绍：这篇文章提供了一种可实际部署的BEV感知方案，能够在当今车端主流计算单元上（NvidiaOrin）实现不错的帧率。从camera到BEV的转换思想来自于M2BEV，但是对这个转换方法中使用查找表和映射方法改进，使得整体视角转
读论文笔记-Flamingo：少样本视觉语言模型 joseanne_josie 论文阅读语言模型人工智能
读论文笔记-Flamingo：少样本视觉语言模型Plomblems本文拟解决多模态机器学习中，如何将训练好的模型快速适应到少量标注数据的新任务中的问题。Motivations已有的VLM虽然能在zero-shot的场景下适应于新任务，但他们只解决了有限的使用情况（如CLIP只解决了图片分类），由于主要缺乏生成语言的能力其不能应用于开放性任务。其他的一些方法虽然研究了基于视觉的语言生成但在数据量少的
论文笔记-基于多层感知器（MLP）的多变量桥式起重机自适应安全制动与距离预测 sagima_sdu 论文阅读
《IETCyber-SystemsandRobotics》出版山东大学TenglongZhang和GuoliangLiu团队的研究成果，文章题为“AdaptiveSafeBrakingandDistancePredictionforOverheadCranesWithMultivariationUsingMLP”。摘要桥式起重机的紧急制动及其制动距离预测是其安全运行中的关键难题。本文采用多层感知器
论文笔记：How Can Large Language Models Understand Spatial-Temporal Data? UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
arxiv2024011introLLM在NLP和CV领域表现出色，但将它们应用于时空预测任务仍然面临挑战，主要问题包括：数据不匹配传统的LLMs设计用于处理序列文本数据，而时空数据具有复杂的结构和动态性，这两者之间存在显著差异模型设计限制现有的时空预测方法通常需要为特定领域设计专门的模型，这限制了模型的通用性和适应性数据稀缺和泛化能力传统的时空预测方法在面对数据稀缺或稀疏的情况下表现不佳，且泛化
SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks论文笔记 catbird233 深度生成模型笔记
另一篇很好的解释：https://www.itcodemonkey.com/article/6378.html摘要在自然语言生成领域,不同情感标签的生成越来越受到人们的关注。近年来,生成性对抗网(gan)在文本生成方面取得了良好的效果。然而,gan产生的文本通常存在质量差、缺乏多样性和模式崩溃的问题。本文提出了一个新的框架--sentyan,它有多个生成器和一个多类判别器,以解决上述问题。在我们的
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache