zzy979

【论文笔记】HGT

Heterogeneous Graph Transformer

2020 WWW
论文链接：https://arxiv.org/pdf/2003.01332
代码：

官方代码：https://github.com/acbull/pyHGT
DGL实现：https://github.com/dmlc/dgl/tree/master/examples/pytorch/hgt
个人实现：https://github.com/ZZy979/pytorch-tutorial/tree/master/gnn/hgt

1.引言

异构图的常见实例包括学术图、Facebook实体图、LinkedIn经济图、物联网网络等
图1中的Open Academic Graph (OAG)有5种顶点：论文、学者、机构、期刊和领域

现有异构图挖掘研究存在的问题：

需要为每种异构图设计元路径，需要专业领域知识
要么简单地假设不同类型的节点/边共享相同的特征和表示空间，要么仅对节点类型或边类型保留不同的非共享权重，不足以捕获异构图的属性
忽略了图的动态性质
固有设计和实现使其无法建模Web规模（上亿级）的异构图

该论文提出了异构图Transformer(HGT)模型来解决以上问题，能够保持顶点和边类型相关的表示、捕捉网络动态性、避免自定义元路径以及能够扩展到Web规模的图

为了处理图的异构性，引入了顶点和边类型相关的注意力机制：异构互注意力，该方法使用元关系三元组<起点类型, 边类型, 终点类型>来参数化用于计算注意力的权重矩阵，从而不同类型的顶点和边可以保持各自不同的表示空间，同时不同类型的顶点还可以通过消息传递进行交互。这一结构使得HGT可以通过层间消息传递结合来自不同类型的高阶邻居的信息，这可以看作“软”元路径。因此，即使HGT的输入只有一跳的边而没有人工设计的元路径，模型也能自动学习并抽取出对不同的下游任务最重要的“元路径”。
为了处理图的动态性，提出了 相对时间编码(RTE) 策略，使得HGT能够学习到图的时间依赖和演化
为了处理Web规模的图数据，设计了异构子图采样算法HGSampling，来进行mini-batch GNN训练，其核心思想是使采样的异构子图中不同类型的顶点具有相似的比例，同时最小化信息损失，使得模型能够在任意规模的异构图上训练和推理

该论文使用Web规模的OAG数据集，包含1.8亿顶点和20亿边，时间范围为1900~2019（史上最大规模、最长时间跨度的异构图表示学习）；此外还使用了计算机科学和医学两个特定领域的图

2.预备知识和相关工作

2.1 异构图挖掘

异构图：G=(V, E, A, R)，包括顶点和边的类型映射τ(v): V→A, φ(e): E→R

元关系(meta relation)：边e=(s, t)的元关系表示为<τ(s), φ(e), τ(t)>
元路径定义为元关系的序列

动态异构图：如果顶点s在T时刻连接到顶点t，则给边e=(s, t)赋予一个时间戳T；如果s第一次出现则也将T赋予s，s可能被赋予多个时间戳
边的时间戳是不变的，表示其创建时间（“论文→会议”边的时间戳表示论文发表在会议上的时间）；而一个顶点可以有多个时间戳（例如WWW@1994和WWW@2020表示两个不同年份的统一会议）

2.2 图神经网络

一般GNN框架：设 $H^l [t]$ 为顶点t在第l个GNN层的顶点表示，则从第l-1层到第l层的更新过程为

其中N(t)表示顶点t的源顶点集合，E(s, t)表示所有从s到t的边
最重要的GNN运算符是Extract()和Aggregate()（就是消息传递的消息函数和归约函数），Extract()表示邻居信息提取器，Aggregate()使用某种聚集操作（如平均、求和、最大值等）来聚集邻居（源点）信息

现有的（同构）GNN模型有GCN, GraphSAGE, GAT等

2.3 异构图神经网络

现有的异构GNN模型有RGCN, HetGNN, HAN等，但这些模型没有充分利用异构图的属性，仅使用边类型或顶点类型来决定GNN的权重矩阵
该论文考虑了参数共享，给定一条边e=(s, t)，其元关系是<τ(s), φ(e), τ(t)>，如果使用三个交互矩阵来建模对应的三个元素，则大部分权重可以被共享。例如边类型“第一作者”和“第二作者”的起点和终点类型都是“学者”到“论文”，因此关于“学者”和“论文”的知识就可以共享。
该论文将这一思想与Transformer的注意力机制结合，提出了异构图Transformer(HGT)模型

3.异构图Transformer

3.1 HGT总体架构

HGT的总体架构如下图所示

HGT的目标是通过聚集来自源点的信息得到每个顶点的表示，这一过程可分解为三部分：异构互注意力、异构消息传递和目标相关的聚集
将第l个HGT层的输出记为 $H^{(l)}$ ，同时也是第l+1层的输入
堆叠L层，最终的输出 $H^{(L)}$ 即为顶点表示，可用于下游任务

3.2 异构互注意力

第一步是计算源顶点s和目标顶点t之间的互注意力（图2(1)）

一般的基于注意力的GNN模型为：

（就是“加权求和”）
其中有三个基本的运算符：

Attention用于估计源顶点（邻居）s对顶点t的重要性
Message用于从源顶点s中提取消息
Aggregate使用注意力权重聚集来自邻居的消息

以GAT为例，这三个运算符分别是

但是GAT用于同构图，假设s和t有相同的特征分布，但在异构图中不成立

该论文设计了异构互注意力机制，给定一个目标顶点t及其所有的源顶点（邻居）s∈N(t)，目的是基于它们的元关系（即<τ(s), φ(e), τ(t)>三元组）来计算它们的互注意力
受Transformer的结构设计启发，将目标顶点t映射到一个Query向量，将源顶点s映射到一个Key向量，计算它们的点积作为注意力

具体地，对于每条边e=(s, t)计算h头注意力：

首先，对于第i个注意力头 ${ATT-head}^i (s, e, t)$ ，使用一个线性映射 ${K−Linear}_{\tau(s)}^i:R^d \to R^\frac{d}{h}$ 将τ(s)类型的源顶点s映射到第i个Key向量 $K^i(s)$ 。注意K-Linear的下标包含τ(s)，这意味着每种类型的顶点都有一个不同的线性映射，从而能够建模分布差异。类似地，使用一个线性映射 ${Q−Linear}_{\tau(t)}^i:R^d \to R^\frac{d}{h}$ 将目标顶点t映射到第i个Query向量 $Q^i(t)$ 。

接下来要计算Query向量 $Q^i(t)$ 和Key向量 $K^i(s)$ 之间的相似度。异构图的一个特点是同一个顶点类型对（τ(s)和τ(t)）之间存在多种类型的边，因此不是直接计算Query和Key向量的点积，而是为每种边类型φ(e)使用一个独立的矩阵 $W_{\phi(e)}^{ATT} \in R^{\frac{d}{h} \times \frac{d}{h}}$ ，这样模型就可以捕获同一个顶点类型对之间不同的语义关系（例如“学者”和“论文”之间的“第一作者”和“第二作者”）。另外，由于不是所有的关系都对目标顶点有同等贡献，因此增加了一个先验张量 $\mu \in R^{|A| \times |R| \times |A|}$ 来表示每种元关系的重要性。

最后，将h个注意力头拼接在一起得到每个顶点对的注意力向量。之后，对于每个目标顶点t，对所有的邻居N(t)做softmax归一化，使得 $\sum_{\forall s \in N(t)}{{ATT−head}^i (s,e,t)}=1$ 。

注：（个人理解）虽然HGT的注意力在形式上与Transformer的多头注意力类似，但实际上完全不同

Transformer的Q和K来自编码器/解码器的输出；而HGT并没有编码器/解码器结构，只有一个多头注意力，Q和K是由顶点特征乘以不同的变换矩阵（K-Linear和Q-Linear）得到
Transformer的注意力可以写成矩阵形式： $QK^T \in R^{N \times N}$ ；而HGT的注意力是起点（邻居）对终点的注意力，每个顶点的邻居个数不同，无法写成矩阵的形式，因此公式中都是向量形式
${ATT-head}^i (s, e, t)$ 是一个数，实际就是边e上的一个特征，表示起点s对终点t的重要性，与GAT类似
为什么起点特征映射到K向量、终点特征映射到Q向量？Q和K表示什么意思？→人为设计，最终目的就是计算注意力权重

3.3 异构消息传递

从源顶点到目标顶点的消息传递过程（图2(2)）和计算互注意力是并行的
对于一条边（顶点对）e=(s, t)，使用以下方式计算多头消息：

为了得到第i个消息头 ${MSG-head}^i (s, e, t)$ ，首先使用一个线性映射 ${M−Linear}_{\tau(s)}^i:R^d \to R^\frac{d}{h}$ （图2中是V-Linear）将τ(s)类型的源顶点s映射到第i个Message向量（图2中是V[s]）；之后乘以一个矩阵 $W_{\phi(e)}^{MSG} \in R^{\frac{d}{h} \times \frac{d}{h}}$ ；最后将h个消息头拼接起来得到边e=(s, t)上的消息 ${Message}_{HGT} (s,e,t) \in R^d$

3.4 目标相关的聚集

计算出异构多头注意力和消息后，需要将其从源顶点到目标顶点进行聚集（图2(3)）
由于公式(3)已将注意力向量归一化，因此可以将其作为权重对来自源顶点的消息取平均，得到更新后的向量 $\tilde{H}^{(l)}[t]$ ：

这一步聚集了顶点t的来自不同特征分布的邻居（源顶点）的信息

最后一步是将顶点t的向量映射回其类型相关的分布，为此，使用一个线性映射 ${A−Linear}_{\tau(t)}:R^d \to R^d$ 和残差连接：

至此就得到了第l个HGT层的顶点t的输出，堆叠L层（L是一个很小的数）即可得到最终输出 $H^{(L)}$ ，可将其输入到任何模型来进行下游异构网络任务，例如顶点分类和连接预测

3.5 相对时间编码

这一节引入了相对时间编码(Relative Temporal Encoding, RTE)使HGT能够处理图的动态性，RTE是受Transformer的位置编码启发

具体地，给定一个源顶点s和一个目标顶点t，对应的时间戳分别为T(s)和T(t)，相对时间间隔ΔT(t, s)=T(t)-T(s)作为相对时间编码RTE(ΔT(t, s))的索引

其中T-Linear是一个线性映射 $R^d \to R^d$

最后将相对时间编码加到顶点表示上：

这样得到的顶点表示可以捕获源顶点s和目标顶点t的相对时间信息

示例：设d=4, ΔT∈[0, 5)，则
$Base=\begin{pmatrix} \sin \frac{0}{10000^0} & \cos \frac{0}{10000^\frac{1}{4}} & \sin \frac{0}{10000^\frac{2}{4}} & \cos \frac{0}{10000^\frac{3}{4}} \\ \sin \frac{1}{10000^0} & \cos \frac{1}{10000^\frac{1}{4}} & \sin \frac{1}{10000^\frac{2}{4}} & \cos \frac{1}{10000^\frac{3}{4}} \\ \sin \frac{2}{10000^0} & \cos \frac{2}{10000^\frac{1}{4}} & \sin \frac{2}{10000^\frac{2}{4}} & \cos \frac{2}{10000^\frac{3}{4}} \\ \sin \frac{3}{10000^0} & \cos \frac{3}{10000^\frac{1}{4}} & \sin \frac{3}{10000^\frac{2}{4}} & \cos \frac{3}{10000^\frac{3}{4}} \\ \sin \frac{4}{10000^0} & \cos \frac{4}{10000^\frac{1}{4}} & \sin \frac{4}{10000^\frac{2}{4}} & \cos \frac{4}{10000^\frac{3}{4}} \end{pmatrix}$
Base可以预先计算好，使用时直接查表即可，对于任意一条边(s, t)，s的相对时间编码即为Base矩阵中ΔT(t, s)对应的行
作者代码实现：

position = torch.arange(0., max_len).unsqueeze(1)
div_term = torch.exp(torch.arange(0, n_hid, 2) * -(math.log(10000.0) / n_hid))
emb = nn.Embedding(max_len, n_hid)
emb.weight.data[:, 0::2] = torch.sin(position * div_term) / math.sqrt(n_hid)
emb.weight.data[:, 1::2] = torch.cos(position * div_term) / math.sqrt(n_hid)

其中max_len表示ΔT的取值范围是[0, max_len)， $position=\begin{pmatrix} 0 \\ 1 \\ \vdots \\ max\_len-1 \end{pmatrix}$ 表示ΔT的各个取值， $divterm=\begin{pmatrix} \frac{1}{10000^0} & \frac{1}{10000^\frac{2}{d}} & \cdots & \frac{1}{10000^\frac{d-2}{d}} \end{pmatrix}$ 表示偶数列sin里边的分母部分，二者相乘是一个max_len*d/2的矩阵，表示偶数列sin里边的值，最后偶数列再取sin即可，奇数列同理
注：

代码中奇数列cos里边的部分也使用了position * div_term，即cos里边的分母并不是(2i+1)/d而是2i/d
div_term第2i项为 $\frac{1}{10000^\frac{2i}{d}}=10000^{-\frac{2i}{d}}=e^{-\frac{2i}{d}\ln ⁡10000}$
代码中在计算完sin和cos之后还除以了维数的平方根，但公式中并没有体现

4.Web规模的HGT训练

4.1 HGSampling

为了解决Web规模（超大规模）的GNN难以训练，以及现有基于采样的方法在异构图上导致子图不均衡的问题，该论文提出了异构子图采样算法HGSampling，该算法能够为每种类型保留相似数量的节点和边，以及使采样的子图保持密集，以最小化信息损失并减少样本方差


HGSampling的流程如算法1所示，其基本思想是为每个顶点类型τ维护一个预算B[τ]，并使用重要性采样策略每种类型采样相等数量的顶点来减小方差

给定已采样的顶点t，使用算法2将其所有直接邻居添加到对应的预算中，并在第8行将t的归一化的度加到这些邻居，之后用于计算采样概率

更新预算后，在算法1的第9行计算采样概率，在每个预算中计算每个顶点s的累积归一化度的平方，使用这样的采样概率可以减小采样方差
之后，第11行使用计算出的概率采样n个τ类型的顶点，第12~15行将这些顶点添加到输出顶点集合，将其邻居更新到预算中，并将其从预算中删除
重复这一过程L次可得到一个距初始顶点深度为L的采样子图，最后重建被采样顶点之间的邻接矩阵

4.2 归纳式时间戳分配

普通顶点(plain nodes)不与固定的时间关联，需要赋予不同的时间戳，例如会议顶点
事件顶点(event nodes)有显式关联的时间戳，例如论文顶点
该论文提出了归纳式时间戳分配算法，用于基于普通顶点关联的事件顶点来赋予其时间戳
该算法体现在算法2的第6行，其思想是普通顶点从事件顶点继承时间戳（就这么简单。。）

5.评价

5.1 Web规模的数据集

实验使用的数据集是Open Academic Graph (OAG)，包含1.78亿顶点和22.36亿边，是最大的公开学术数据集，其中每篇论文都关联了发表日期，从1900年到2019年
另外还构造了两个特定领域的子图：计算机科学(CS)和医学(Med)，也都包含几千万顶点和几亿边，比其他学术数据集（例如DBLP和Pubmed）至少大一个数量级

共有5种类型的顶点：P, A, F, V, I分别表示论文、学者、领域、期刊和机构顶点
OAG中的领域分6级L0~L5，被组织为层次树状结构，“论文-领域”边也分为相应的等级
另外，“学者-论文”边区分作者顺序（第一作者、最后一个作者和其他），“论文-期刊”边区分类型（期刊、会议和预印本），"Self"边表示自环连接（GNN模型通常都会添加）
除"Self"关系外，每种边类型φ都有一个逆关系 $φ^{-1}$

5.2 实验设置

任务和评价

论文中在4个真实世界的下游任务上评价HGT模型：预测论文-领域(L1)、论文-领域(L2)、论文-期刊，以及学者消歧
前3个顶点分类任务的目标是预测论文所属的L1领域、L2领域或发表的期刊，使用不同的GNN来获得顶点表示，使用一个softmax输出层来获得类标签
对于学者消歧，选择所有同名的作者及其关联的论文，任务是进行这些论文和候选学者之间的连接预测，从GNN获得顶点表示后，使用一个神经张量网络来获得“学者-论文”对应该被连接的概率

对于所有的任务，使用2015年之前的论文作为训练集，2015_{2016年的论文作为验证集，2016}2019年的论文作为测试集
使用NDCG和MRR作为评价指标
所有的模型都是训练5次，取测试性能的均值和标准差

Baseline

HGT和所有Baseline均使用PyG实现
同构图GNN：

GCN
GAT
异构图GNN：
RGCN
HetGNN
HAN

消融shiyan

HGT的两个主要部分：异构权重参数化(Heter)和相对时间编码(RTE)
为了研究这两个部分的影响，论文中进行了消融研究，"-Heter"表示给所有元关系赋予相同的权重，"-RTE"表示不加相对时间编码，共比较4种变体： ${HGT}_{−Heter}^{−RTE},{HGT}_{−Heter}^{+RTE},{HGT}_{+Heter}^{−RTE},{HGT}_{+Heter}^{+RTE}$

输入特征

对于论文，使用预训练的XLNet得到论文标题中每个单词的表示，之后以每个单词的注意力为权重取平均得到论文的输入特征
学者的输入特征即为其论文特征的平均
对于领域、期刊和机构，使用metapath2vec预训练的顶点嵌入作为输入特征

由于同构图GNN假设顶点特征属于相同的分布，而论文中提取的输入特征不满足这一假设（论文和学者顶点的特征是词向量，其他顶点特征是metapath2vec预训练的嵌入向量），为了公平，在将特征输入到GNN之前，还对每种类型的顶点进行不同的线性映射，将不同类型的顶点特征映射到相同的分布

实现细节

隐藏层维数为256，注意力头数为8，GNN均为3层
AdamW优化器，Cosine Annealing学习率调度器，200 epoch

5.3 实验结果

图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
基于多模态大模型的不完整多组学数据特征选择策略 m0_65156252 人工智能
基于多模态大模型的不完整多组学数据特征选择策略是当前生物信息学和精准医学领域的一个前沿问题。在多组学数据中，通常包括不同层次的生物信息（如基因组、转录组、蛋白质组、代谢组等），这些数据通常存在缺失、噪声或不一致的情况。因此，如何有效地在这些不完整的数据中进行特征选择，是实现精确疾病预测和个性化治疗的关键。结合多模态大模型（如自监督学习、图神经网络、Transformer等）可以有效解决这一问题。以
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning Zhouqi_Hua 大模型论文阅读人工智能 chatgpt 论文阅读机器学习深度学习语言模型
Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo
[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比心心喵论文笔记论文阅读深度学习人工智能
https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告：https://ai.meta.com/blog/meta-llama-3-1/
LLM时代的小模型思考：《What is the Role of Small Models in the LLM Era: A Survey》论文笔记 FrancisQiu learning nlp paper reading 论文阅读
论文：WhatistheRoleofSmallModelsintheLLMEra:ASurvey作者：LihuChenetal.单位：ImperialCollegeLondonAbstract问题：扩大模型大小会导致计算成本和能耗呈指数级增长，这使得这些模型对于学术研究人员和资源有限的企业来说不切实际小型模型（SMs）经常用于实际环境中，引发了关于小模型在LLM时代的作用的重要问题，且关注有限方法
【论文笔记】3DGS压缩相关工作2篇 AndrewHZ 深度学习新浪潮论文阅读 3DGS 计算机图形学算法三维高斯飞溅压缩方法
1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期
图神经网络实战（9）——GraphSAGE详解与实现盼小辉丶图神经网络从入门到项目实战图神经网络 GNN pytorch
图神经网络实战（9）——GraphSAGE详解与实现0.前言1.GraphSAGE原理1.1邻居采样1.2聚合2.构建GraphSAGE模型执行节点分类2.1数据集分析2.2构建GraphSAGE模型3.PinSAGE小结系列链接0.前言GraphSAGE是专为处理大规模图而设计的图神经网络(GraphNeuralNetworks,GNN)架构。在科技行业，可扩展性是推动系统增长的关键驱动力。因此
[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案心心喵论文笔记剪枝算法机器学习
https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记 Im Bug 3d 论文阅读
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对
大模型专栏博文汇总和索引 Donvink 大模型 transformer 深度学习人工智能语言模型
大模型专栏主要是汇总了我在学习大模型相关技术期间所做的一些总结和笔记，主要包括以下几个子专栏：DeepSeek-R1AIGC大模型实践Transformer多模态系统视频理解对比学习目标检测目标跟踪图神经网络大模型专栏汇总了以上所有子专栏的论文，目前暂时先按照不同的技术领域划分子专栏，子专栏之间的内容可能会有交集，不完全是独立的。为了方便查阅相关模块的内容，故以此文章进行汇总与索引。一、DeepS
图神经网络：拓扑数据分析的新时代 Jason_Orton 神经网络数据分析人工智能
随着图数据的广泛应用，图神经网络（GraphNeuralNetwork,GNN）作为一种强大的深度学习工具，逐渐成为机器学习领域中的一颗新星。图数据在许多现实世界问题中无处不在，诸如社交网络、交通网络、分子结构、推荐系统等都可以被建模为图结构。图神经网络通过直接处理图结构数据，能够更好地捕捉节点之间的关系信息，从而在众多任务中展现出了优异的性能。本文将深入探讨图神经网络的基本原理、常见的算法、应用
DeepSeek 高阶应用技术详解（4） Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 deepseek
1.引言在前三篇中，我们探讨了DeepSeek的基础功能、分布式训练、模型优化、模型解释性、超参数优化以及AutoML的应用。本篇将深入探讨DeepSeek在时间序列分析、图神经网络（GNN）和推荐系统中的应用。这些领域是深度学习的前沿方向，具有广泛的实际应用价值。2.DeepSeek在时间序列分析中的应用2.1时间序列分析简介时间序列分析是处理时间相关数据的重要技术，广泛应用于金融、气象、医疗等
Windows环境安装torch_geometric库报错一穷二白到年薪百万报错专栏 python anaconda pip
Windows下安装，最近在学习图神经网络需要用到geometric_torch结果怎么装都装不上。查阅了各种资料尝试了各种方法，有的说是因为visualc++buildtools没有安装博客链接，有的说升级conda甚至还有的说卸载pytorch重装命，令行如下：condaupdate#升级conda所有的包官网下载地址：https://pypi.org/project/torch-geom
论文笔记（七十二）Reward Centering（一）墨绿色的摆渡人文章论文阅读
RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202
论文笔记：Enhancing Sentence Embeddings in Generative Language Models UQI-LIUWJ 论文阅读语言模型人工智能
2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理深度学习笔记
Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加
多模态论文笔记——DiT（Diffusion Transformer）好评笔记多模态论文笔记深度学习 transformer DiT 人工智能机器学习 aigc stable diffusion
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化心心喵论文笔记论文阅读语言模型人工智能
成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文
字节跳动实习生和校招生内推飞300 python javascript php 业界资讯算法
机器学习算法实习生-平台治理1、2026届硕士及以上学位在读，计算机等相关专业优先；2、有扎实的代码能力，熟悉深度学习/图神经网络/机器学习框架，如Pytorch、Tensorflow、DGL、Pyg、Sklearn等；3、熟悉机器学习/图学习/序列学习算法中的一项或者多项，如图建模、时序信号建模、节点/子图分类、社区挖掘、表征学习、自监督/半监督学习等，有一定深度和广度；4、熟悉相关算法在数据挖
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：[email protected]）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》 I_dyllic 深度学习论文阅读深度学习人工智能
基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过
DeepSeek图神经网络（Graph Neural Networks, GNNs）基础与实践 Evaporator Core Python开发经验深度学习 DeepSeek快速入门神经网络人工智能深度学习
图神经网络（GraphNeuralNetworks,GNNs）是一种专门用于处理图结构数据的深度学习模型。与传统的神经网络不同，GNNs能够捕捉节点之间的关系和图的全局结构，广泛应用于社交网络分析、推荐系统、化学分子建模等领域。DeepSeek提供了强大的工具和API，帮助我们高效地构建和训练图神经网络。本文将详细介绍如何使用DeepSeek进行图神经网络的基础与实践，并通过代码示例帮助你掌握这些
TC-LLaVA论文笔记 0yumiwawa0 计算机视觉论文阅读
RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q
CNN-day5-经典神经网络LeNets5 谢眠深度学习深度学习计算机视觉人工智能
经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN博客1网络模型结构整体结构解读：输入图像：32×32×1三个卷积层：C1：输入图片32×32，6个5×5卷积核，输出特征图大小28×28（3
[论文笔记] llama3.2 蒸馏心心喵论文笔记论文阅读
参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
基于PyG搭建GCN-LSTM时空犯罪预测职业摸鱼能手 python 深度学习机器学习
基于PyG搭建GCN-LSTM时空犯罪预测1.前言最近针对犯罪时空预测、犯罪分布可视化开展研究，图神经网络是必不可少的研究工具之一，为了记录学习PyG的过程，本文通过结合官网案例(非常晦涩难懂)以及网上各位大佬的学习过程，撰写此文章，以此记录学习过程，以防后面遗忘，如有错误请嘴下留情。2.PyG安装过程以及需要的包此处省略安装过程3.数据描述本文采用的是美国纽约州的犯罪数据，具体可视化如图所示：数
图神经网络实战（8）——图注意力网络(Graph Attention Networks, GAT) 盼小辉丶图神经网络从入门到项目实战图神经网络 pytorch 图注意力网络 GNN
图神经网络实战（8）——图注意力网络0.前言1.图注意力层原理1.1线性变换1.2激活函数1.3Softmax归一化1.4多头注意力1.5改进图注意力层2.使用NumPy中实现图注意力层3.使用PyTorchGeometric实现GAT3.1在Cora数据集上训练GAT模型3.2在CiteSeer数据集上训练GAT模型3.3误差分析小结系列链接0.前言图注意力网络(GraphAttentionNe
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f