真·skysys

文献阅读笔记 # Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》用于快速搭建NLP任务的demo的开源项目sbert的原始论文，star数很多，EMNLP 2019(CCF-B)。
资源: pdf | code | doc
本文文献完成于 2019 年，因此仅代表当时的数据。
相关工作：bert-as-a-service | InferSent | universal-sentence-encoder

@inproceedings{reimers-2019-sentence-bert,
  title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
  author = "Reimers, Nils and Gurevych, Iryna",
  booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
  month = "11",
  year = "2019",
  publisher = "Association for Computational Linguistics",
  url = "https://arxiv.org/abs/1908.10084",
}

Abstract

BERT(2018) 和 RoBERTa(2019) 在 sentence-pair regression 类任务(如，semantic textual similarity, STS, 语义文本相似度任务)中取得了 SOTA，但计算效率低下，因为 BERT 的构造使其不适合 semantic similarity search 也不适合无监督任务，如聚类。

10000 sentences 找到最相似的 pair 需要约5千万次BERT推理(单张V100 ~65hours)

本文提出的 Sentence-BERT(SBERT) 使用了 Siamese 和 triplet network structures 对 BERT 网络进行修改生成 semantically meaningful sentence embedding 并可以通过余弦相似度进行比较。

这将寻找最相似 pair 的工作量在保持准确性的情况下从 ~65 hours 降低到约 5 seconds，约提速5万倍。
semantically meaningful 这里指在语义相近的句子在向量空间中相近。

本文在 STS 和常见的迁移学习任务中评估了 SBERT 和 SRoBERTa，并取得了 SOTA（2019年）。

1 Introduction

BERT 在不同的句子分类或句子对回归任务上刷新了 SOTA。其采用了 cross-encoder 结构：两个句子被输入进 transformer network 并预测 target value。但这个设置由于组合空间太大不适用于很多情况。
孪生和三元网络结构的采用让SBERT适用于BERT所不适用的特定新任务，如大规模语义相似度比较、聚类和通过语义搜索进行信息检索。

解决聚类和语义搜索的一个通用思路是把每个句子映射到向量空间且语义相似的句子的嵌入表示在向量空间中是相近的。一种尝试是将句子输入到 BERT 中并获得固定长度的 sentence embeddings。最常见的方法是 average the BERT output layer(BERT embeddings) 或者使用 first token([CLS] token) 的输出。但这种方式产生的嵌入质量很低：甚至比 2014 年的 GloVe embeddings 的还差。本文提出的 SBERT 就是解决 BERT 用来产生语义感知 embedding 问题的解决方案。

孪生架构可以得到输入句子的固定长度的向量。
使用余弦、曼哈顿、欧几里得距离等相似度量指标可以获得语义相似的句子，并且这些相似性度量指标在现代硬件上可以非常高效的计算。

本文在 NLI data 上 fine-tune 了 SBERT，获得了超越 InferSent(2017)、Universal Sentence Encoder(2018) 的嵌入。在 7 个 STS 任务上 SBERT 均超越了前述算法，在 SentEval (2018，一种用于评估 sentence embedding 的 toolkit) 上也实现了改进。

2 Related Work

BERT，pre-trained transformer network，BERT 用于句子对回归任务中的输入包含两个句子，由[SEP] token 分割。应用了超过 12 层(base-model)或者 24 层(large-model)的 Multi-head attention。输出被传递给一个简单的回归函数以获得最终的 label。RoBERTa 对 BERT 的 pre-training 过程进行了细微调整获得了进一步的提升。但 BERT 一个严重缺点是没有独立计算 sentence embedding，因此很难直接从 BERT 获得句子的嵌入。一种尝试是将单个句子输入到 BERT 中并获得固定长度的 sentence embeddings，然后通过 average the BERT output layer(BERT embeddings)【类似 average word embedding】或者使用 first token([CLS] token) 的输出。这两种方式在 bert-as-a-service repo 中有提供。
Sentence embeddings
- Skip-Thought： encoder-decoder 预测周围的句子。
- InferSent：a siamese BiLSTM network with max-pooling over the output
  - Datasets: Stanford Natural Language Inference dataset；MultiGenre NLI dataset；
- Universal Sentence Encoder：transformer network；augments unsupervised learning with training on SNLI.
Humeau et al. (2019) 解决了 BERT 中的 cross-encoder 运行时的开销问题并提出 poly-encoders 来计算 m context vectors 和使用注意力预先计算的 candidate embeddings 之间的 score。这个方案在大规模集合中查找最高得分的句子比较有效。缺点是 poly-encoders 的 score function 不是对称的(symmetric)，并且对于聚类这样的算法计算开销太大，O(n^2)。

3 Model

SBERT 在 BERT/RoBERTa 的输出中添加了 pooling 以获得固定大小的 sentence embedding。本文实验了三种 pooling 策略（默认策略是 MEAN）：1）使用CLS-token的输出；2）MEAN-strategy：计算所有输出向量的平均值；3）MAX-strategy：计算输出向量的 max-over-time。

网络结构取决于具体任务。如下所示：
Classification Objective Function：将 sentence embedding u、v 和 element-wise difference |u-v| 连接起来，并与可训练的权重 $W_t\in{R^{3n*k}}$ 相乘。

n: 句子嵌入的维度；k：标签总数；使用交叉熵进行优化。

Regression Objective Function：余弦相似度；loss选用MSE(mean-squared-error)。

Triplet Objective Function：anchor sentence a, positive sentence p, negative sentence n。triplet loss 目标是让 a 和 p 之间的距离比 a 和 n 之间的距离小。

$s_x$ : sententce embedding for a/n/p；Margin $\epsilon$ 确保 $s_p$ 到 $s_a$ 的距离至少比 $s_n$ 近 $\epsilon$ 。这里实验距离度量采用了欧氏距离， $\epsilon=1$ 。

3.1 Training Details

本文在 SNLI 和 Multi-Genre NLI 的组合数据集上训练 SBERT。SNLI 是一个包含57万个句子对的集合，标注了 contradiction, eintailment 和 neutral 的 label。Multi-Genre NLI 包含43万个句子对，涵盖了一系列口语和书面语的体裁。本文每个 epoch 以一个 3-way softmax-classifier 目标函数微调 SBERT。

batch size 设置为 16；采用学习率为 2e-5 的 Adam 优化器；linear learning rate warm-up over 10% of the training data；

Note：warm-up：模型刚开始训练时通常不太稳定，因此初始学习率设置的应该较低，但过低的学习率会导致网络训练很慢，因此采用较低学习率逐渐增加到较大学习率的方式实现网络训练的”热身“。

4 Evaluation - Semantic Textual Similarity

我们评估了 SBERT 在常见文本语义相似度(STS)任务中的性能。SOTA 的方法通常学习一个(复杂的)回归函数，然而，这些回归函数是 work pair-wise 且由于组合爆炸，如果句子集合达到一定规模，这些函数通常是不 scalable 的。相反，本文使用余弦相似度来比较两个句子嵌入之间的相似度。也用负的曼哈顿距离和负的欧氏距离作为相似性度量，但结果大致相同。

4.1 Unsupervised STS

数据集：STS tasks 2012 - 2016、STS benchmark、SICK-Relatedness。
训练集提供 0-5 的标签，0 表示两个句完全无关，5 表示两个句子完全相同。
经过实验证明，Pearson 相关性很不适合于评估 STS 任务。因此，使用 Spearman 相关性来评估。

实验结果表明，BERT模型在该类任务上表现极差，结果比GloVe还低，也验证了前文所说的，BERT模型不适合应用于该类任务上。

4.2 Supervised STS

数据集：STS benchmark (STSb)
微调SBERT。在预测时，我们计算句子嵌入之间的余弦相似度。所有实验都用10个随机种子进行训练，以排除统计方差。
两种训练策略：1）只在STSb训练集上训练；2）在NLI训练集上预训练，再在STSb数据集上训练。
实验结果：在SBERT模型上，第二种训练策略表现更好，提高了1-2个点。在BERT模型上，两种策略的影响较大，第二种策略提高了3-4个点。

4.3 Argument Facet Similarity

数据集：Argument Facet Similarity (AFS)
该数据集与STS数据集相比差异较大，STS数据通常是描述性的数据，而AFS数据是来自对话中的论据节选。由于 Argument数据集的特殊性，很多方法在该数据集上表现很多差。

在交叉主题评估上，SBERT的Spearman评分与BERT相差了7个点。原因是SBERT需要事先将未曾见过的具有相似的主张和理由的主题映射到向量空间中同一块区域，这个难度较大，然而BERT只需要逐一比较两个句子的单词差异。

4.4 Wikipedia Sections Distinction

训练集：Wikipedia section triplets dataset
经验认为，来自同一段落的句子间是比来自不同段落的句子更接近的，相似度更高。因此，Wikipedia 训练集将来自同一段的句子作为正例，来自不同段的句子作为负例。

5 Evaluation - SentEval

在 SentEval 中 sentence embedding 被用于逻辑回归分类器的特征。逻辑回归分类器在 10-fold 交叉验证设置下的各种任务上进行训练，并计算 test-fold 的 accuracy。

SBERT Sentence Embedding 并不是为了便于 Transfer Learning 到其他任务上。本文认为对新的任务微调 SBERT 是更合适的方式（因为会更新 SBERT 所有层）。但 SentEval 还是可用来评估对不同任务下当前的 embedding 的质量。

比较任务（seven SentEval transfer tasks）：

MR: Sentiment prediction for movie reviews snippets on a five start scale
CR: Sentiment prediction of customer product reviews
SUBJ: Subjectivity prediction of sentences from movie reviews and plot summaries
MPQA: Phrase level opinion polarity classification from newswire
SST: Stanford Sentiment Treebank with binary labels
TREC: Fine grained question-type classification from TREC
MRPC: Microsoft Research Paraphrase Corpus from parallel news sources

6 Ablation Study

different pooling strategies：MEAN, MAX, CLS
classification objective function：评估不同的 different concatenation 方法。对每个不同的设置，用10个不同的随机数种子初始化并训练SBERT，最终平均其表现。

分类任务采用数据集：SNLI、Multi-NLI；回归任务采用数据集：STS benchmark。

如表所示，分类任务采用的 concatenation 方式对结果影响较大，pooling 策略影响很小。但在回归任务中 pooling 策略影响很大，concatenation 与回归任务无关。

7 Computational Efficiency

实验数据集：STS benchmark
实验设备：Intel i7-5820K CPU @ 3.30GHz, Nvidia Tesla V100 GPU, CUDA 9.2 and cuDNN
- smart batching strategy：相近长度的句子被分到相同组，并 padding 到 mini-batch 组内最长元素的长度。

8 Conclusion

本文发现 BERT 直接对句子生成 embedding 在 STS tasks 中甚至不如 GloVe embeddings。因此本文提出 Sentence-BERT(SBERT)。SBERT 在孪生 triplet 网络架构中微调 BERT，在常见任务上取得了 SOTA。但把SBERT 架构中的 BERT 替换为 RoBERTa 在实验中无显著提升。
SBERT 能解决 BERT 不能解决的一些任务，且计算效率有极大提升。

你可能感兴趣的:(文献阅读,自然语言处理,bert,SBERT,孪生网络,NLP)

ROS多机通信（四）——Ubuntu 网卡 Mesh 模式配置指南爱尔兰的楠小楠机器人无人机开发 ubuntu linux 机器人去中心化分布式
引言使用Ad-hoc加路由协议和直接Mesh模式配置网卡实现的网络结构是一样的，主要是看应用选择，Ad-Hoc模式+B.A.T.M.A.N./OLSR优点：灵活性高，适合移动性强或需要优化的复杂网络。缺点：配置复杂，需手动管理路由协议。Mesh模式（802.11s）优点：配置简单，内置路由功能，易于部署。缺点：路由协议标准化，灵活性较低。在实现机器人之间的通信的时候，和为了适应大部分的场景我还是建
嵌入式Linux网络编程实战：基于libcurl实现Gitee文件上传银河码 Linux网络编程 linux 网络 gitee c语言 vscode tcp/ip 服务器
嵌入式Linux网络编程实战：基于libcurl实现Gitee文件上传【本文代码已在立创·泰山派平台验证通过，可直接用于物联网设备数据上报场景】一、功能概述与实现效果1.1核心功能本地文件读取：支持任意二进制/文本文件Base64编码转换：符合RFC4648标准HTTP传输：通过libcurl实现，也可以使用HTTPS加密通信GiteeAPI对接：自动创建/更新仓库文件1.2运行效果演示#上传本地
探索NebulaGraph：一个开源分布式图数据库的技术解析一休哥助手数据库分布式系统开源分布式数据库
1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
【2017-2024】Adobe AN多功能的动画制作软件安装 HIosng adobe
AdobeAN软件简介AdobeAnimate（简称AdobeAN）是由AdobeSystems开发的一款多功能的动画制作软件。它不仅可以用来设计二维动画，也支持创建交互性内容，为网络、游戏和应用程序提供了丰富的媒介。AdobeAnimate是创造动画、交互式内容与动态图形的强大工具，广受动画师、游戏开发者和设计师的欢迎。安装包https://pan.baidu.com/s/1BCK34EJWWu
分片文件异步合并上传零三零等哈来 java spring 前端
对于大文件，为了避免上传导致网络带宽不够用，还有避免内存溢出，我们采用分片异步上传。controller层，在前端对文件进行分片，先计算文件md5码，方便后续文件秒传，然后再计算可以分成多少个分片，得到分片总数以及当前分片下标。@RequestMapping("/uploadFile")@SentinelResource(value="uploadFile",blockHandler="uploa
TDengine 入坑 xijieyu tdengine docker linux
的最近想折腾一个时序数据库，所以入坑了TDengine我的环境是WIN10+虚拟机ubuntu，开发语言是C#。在虚拟机里一开始使用docker来拉取TDengine镜像，后来发现docker的网络配置不熟，所以干脆直接在宿主机上安装TDengine直接使用。安装完了后，taos怎么都连接不上，显示"Unabletoestablishconnection"，根据官方教程中的解释，一步一步排除各类连
Ubuntu常用命令大全 | 零基础快速上手指南算法练习生 Linux--Ubuntu ubuntu 开发语言笔记算法 linux
Ubuntu常用命令大全|零基础快速上手指南目录文件与目录操作文本查看与编辑权限管理系统管理网络操作磁盘与文件系统软件包管理压缩与解压其他实用命令1.文件与目录操作基础命令命令功能示例cd切换目录cd~(切换到用户主目录)pwd显示当前路径pwd→/home/userls列出目录内容ls-lh(显示详细文件大小)示例代码：ls-alh运行效果：drwxr-xr-x2usergroup4.0KOct
交换机救命命令手册：华为 & 思科平台最全运维指令速查表 IT程序媛-桃子数通华为认证服务器运维
引言：这是一份救命的交换机运维秘籍在交换机配置与故障排查过程中，不论你是初入网络世界的小白，还是年资数年的资深工程师，总会遇到那些“关键时刻靠得住的命令”。这篇文章，我将整理一份覆盖华为+思科双平台的实战命令手册，从最基础的设备状态查看，到VLAN、STP、防环、LACP、QOS、抓包、限速、安全加固等操作，通通囊括。关键时刻，拿来即用，就是这篇的全部意义。01️⃣基础生存命令：先活下来再说场景华
网络地址转换（NAT）：原理、类型与应用憨堡包^—^ 服务器网络运维
一、什么是NATNAT（NetworkAddressTranslation，网络地址转换）是一种将一个IP地址空间的地址转换为另一个地址空间的地址的技术。它最初是为了缓解IPv4地址不足的问题而设计的。在互联网环境中，NAT允许一个组织使用私有IP地址（如192.168.x.x、10.x.x.x等）来管理其内部网络，而只在需要与外部网络通信时，才将这些私有地址转换为合法的公网IP地址。二、NAT的
【Unity网络同步框架 - Nakama研究(二)】归海_一刀 unity 网络游戏引擎
Unity网络同步框架-Nakama研究(二)虽说官方文档和网站以及论坛建立的不错，而且还有中文翻译且质量也不错，但是总会遇到一些词不达意，说了但是依旧没懂的部分，甚至问AI也问不出什么东西，所以需要有一些比较明显的博客来记录实战部分服务端搭建使用官方推荐的Docker进行安装在将Docker软件下载到Windows环境后，请确保已安装node-js、typescript、lua和Go等环境（后续
【Unity网络同步框架 - Nakama研究】归海_一刀 Unity unity 游戏引擎 Nakama 网络同步
Unity网络同步框架-Nakama研究介绍如果你现在被委托了一个需求，要求调研并且撰写一份关于Unity网络同步框架方面的报告，你会如何做我知道，现在AI这么多，我马上打开DeepSeek进行光速搜索，那么好，如下是一部分关于这方面的咨询反馈：Mirror性能：性能表现良好，适合中小规模的多人游戏。易用性：上手难度较低，尤其是对于有UNet经验的开发者。功能完整性：功能较为全面，但扩展性有限。社
C#进阶之路：揭秘反序列化漏洞与解决方案计算机学长开发工具 C#web安全网络 c#
一、引言在现代软件开发中，数据的持久化和传输是至关重要的环节。C#作为一种广泛使用的编程语言，其序列化与反序列化机制在这两个环节中扮演着不可或缺的角色。序列化，是将对象的状态信息转换为可以存储或传输的形式的过程，比如将对象转换为字节流、JSON字符串或者XML格式。而反序列化则是将这些序列化后的数据重新转换回原始对象的过程。在实际应用中，当我们需要将对象保存到文件系统、数据库，或者通过网络在不同的
万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？羊不白丶大模型算法
引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具
亿级流量架构网关设计思路，常用网关对比，写得太好了。。 wadfdhsajd java 后端框架大数据
什么是网关网关,很多地方将网关比如成门,没什么问题,但是需要区分网关与网桥的区别,网桥工作在数据链路层，在不同或相同类型的LAN之间存储并转发数据帧，必要时进行链路层上的协议转换。可连接两个或多个网络，在其中传送信息包。网关是一个大概念，不具体特指一类产品，只要连接两个不同的网络都可以叫网关,网桥一般只转发信息,而网关可能进行包装。网关通俗理解根据网关的特性,举个例子:假如你要去找集团老板(这儿只
配置固定ip绕过ip限制 leeezp 杂物网络协议运维
0x00背景很多内网限制通过ip网段来做的，一般无线网和有线网网段不同，通过配置有线ip来一定程度绕过网络限制。0x01实践很多企业内网是通过DHCP动态分配ip地址，但有线网通常ip是固定的。例如固定ip通常是这样ip地址：子网掩码：默认网关：首选DNS：802.1x配置非固定ip自动获取ip地址=》点击高级默认勾选通过验证证书来验证服务器的身份如果还连接不上有线网，重启一下就好了。
【软考系统架构设计师】计算机网络① TCP/IP协议族万猫学社软考系统架构设计师简明教程软考系统架构设计师架构师系统架构网络
>>回到总目录2)2^n(n>2)2n(
squirrel语言全面介绍 C++ 老炮儿的技术栈开发语言 c++笔记学习
Squirrel是一种较新的程序设计语言，由意大利人AlbertoDemichelis开发，其设计目标是成为一个强大的脚本工具，适用于游戏等对大小、内存带宽和实时性有要求的应用程序。以下是对Squirrel语言的全面介绍：语言特性动态类型：变量的数据类型在运行时确定，无需显式声明，这使得编程更加灵活。面向对象：支持类和继承，允许定义类、创建类的实例，能自动执行构造函数，比Lua更好地支持面向对象编
k8s--集群内的pod调用集群外的服务 IT艺术家-rookie k8s与docker容器技术 kubernetes 容器云原生
关于如何让同一个局域网内的Kubernetes服务的Pod访问同一局域网中的电脑上的服务。可能的解决方案包括使用ClusterIP、NodePort、HeadlessService、HostNetwork、ExternalIPs，或者直接使用Pod网络。每种方法都有不同的适用场景，需要逐一分析。例如，ClusterIP是默认的，只能在集群内部访问，所以可能需要其他方式。NodePort会在每个节点
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
运维面试题（七） a_j58 运维
1.statefulset用来管理有状态的应用程序，有状态是什么意思？每一个pod都有一个固定的网络标识符，在整个生命周期中不会改变。每个实例都可以拥有自己的持久化存储卷，即使容器被删除并重新创建，存储卷仍然存在。StatefulSet确保了Pod按照顺序启动、更新和终止。2.主键是什么，它与索引有什么关系？主键确保表中每一行数据都可以被唯一标识，避免数据重复。主键通常会自动创建一个唯一索引，加快
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
WebRTC：构建实时通信应用的利器 Hello-ZHE webrtc
都已无处不在。而WebRTC（WebReal-TimeCommunication）则为开发者提供了一种简便的方式，来在浏览器中实现实时的音视频通信和数据传输。本文将介绍WebRTC的基本概念、工作原理，以及如何利用WebRTC构建实时通信应用。什么是WebRTC？WebRTC（WebReal-TimeCommunication）是一种开放的网络技术标准，它允许浏览器与浏览器之间进行实时音视频通话、
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
封装Socket编程接口南林yan Linux学习网络 linux 服务器
一、Socket编程接口与TCP/UDP的关系Socket是网路通信接口，介于传输层和应用层之间，其封装了传输层的TCP/UDP协议以及网络层的IP协议，允许开发者通过调用编程接口选择使用TCP或UDP协议来实现不同的通信需求。TCP协议特点：面向连接：通过三次握手建立连接（第一次握手：客户端调用connect函数向服务端申请建立连接；第二次握手：服务端处于监听状态，接收客户端的连接；第三次握手：
微服务即时通讯系统的实现（客户端）----（2） Smile丶凉轩项目微服务架构云原生
目录1.将protobuf引入项目当中2.前后端交互接口定义2.1核心PB类2.2HTTP接口定义2.3websocket接口定义3.核心数据结构和PB之间的转换4.设计数据中心DataCenter类5.网络通信5.1定义NetClient类5.2引入HTTP5.3引入websocket6.小结7.搭建测试服务器7.1创建项目7.2服务器引入http7.3服务器引入websocket7.4服务器引
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
linux内核路由子系统,深入理解Linux网络技术内幕——路由子系统的概念与高级路由... 罗心澄 linux内核路由子系统
本文讨论IPv4的路由子系统。(IPv6对路由的处理不同)。基本概念路由子系统工作在三层，用来转发入口流量。路由子系统主要设计路由器、路由、路由表等概念。路由器：配备多个网络接口卡(NIC)，并且能利用自身网络信息进行入口流量转发的设备。路由：流量转发，决定目的地的过程路由表：转发信息库，该库中储存路由需要本地接收还是转发的信息，以及转发流量时所需要的信息。(即，信息库用来判断，要不要转发，如果要
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他