DIF论文笔记

[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）

pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用

心心喵·2025-01-28 00:46

[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis

前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别

沉迷单车的追风少年·2025-01-23 23:10

【论文笔记】：DuBox: No-Prior Box Objection Detection via Residual Dual Scale Detectors

&Title:DuBox:No-PriorBoxObjectionDetectionviaResidualDualScaleDetectorsGithubaddrNone&Summary介绍了一种新的一阶段检测方法Dubox，它可以在没有先验框的情况下检测物体。设计的双尺度残差单元具有多尺度特性，使双尺度检测器不再独立运行。高层检测器学习低层检测器的残差。Dubox增强了启发式引导的能力，进一步使

Activewaste·2025-01-23 23:40

【论文笔记】AutoML: A survey of the state-of-the-art（下篇）

目录4.ModelGeneration模型生成4.1SearchSpace搜索空间4.1.1Entire-structuredsearchspace基于整个架构的4.1.2Cell-basedsearchspace基于Cell的空间4.1.3Hierarchicalsearchspace层次化的空间4.1.3Morphism-basedsearchspace基于“态射”的空间4.2网络优化方法（搜

pip install USART·2025-01-22 18:31

论文笔记 U-Net: Convolutional Networks for Biomedical Image Segmentation

摘要：人们普遍认为，深度网络的成功训练需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，该策略依赖于大量使用数据增强来更有效地使用可用的注释样本。该体系结构包括用于捕获上下文的收缩路径和用于实现精确定位的对称扩展路径。我们表明，这样的网络可以从很少的图像进行端到端训练，并且在ISBI挑战中优于先前的最佳方法（滑动窗口卷积网络）,用于分割电子显微堆栈中的神经元结构。使用在透射光显微

城南皮卡丘·2025-01-22 10:24

AIGC视频生成模型：Meta的Emu Video模型

优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图

好评笔记·2025-01-22 10:21

AIGC视频生成国产之光：ByteDance的PixelDance模型

优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构

好评笔记·2025-01-21 08:48

【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码)

YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，

YOLO大师·2025-01-20 22:47

论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor

论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation

入门打工人·2024-09-10 03:09

[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization

引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps

愤怒的可乐·2024-09-05 07:18

【论文笔记】Multi-Task Learning as a Bargaining Game

Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g

xhyu61·2024-09-03 09:26

[论文笔记] LLaVA

一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。Contribution:这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Followingab

心心喵·2024-09-03 08:53

[论文笔记] LLM模型剪枝

AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～

心心喵·2024-09-03 08:53

【论文笔记】Training language models to follow instructions with human feedback B部分

TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实

Ctrl+Alt+L·2024-09-02 01:12

【论文笔记】：LAYN：用于小目标检测的轻量级多尺度注意力YOLOv8网络

背景针对嵌入式设备对目标检测算法的需求，大多数主流目标检测框架目前缺乏针对小目标的具体改进，然后提出的一种轻量级多尺度注意力YOLOv8小目标检测算法。小目标检测精度低的原因随着网络在训练过程中的加深，检测到的目标容易丢失边缘信息和灰度信息等。获得高级语义信息也较少，图像中可能存在一些噪声信息，误导训练网络学习不正确的特征。映射到原始图像的感受野的大小。当感受野相对较小时，空间结构特征保留较多，但

hhhhhhkkkyyy·2024-09-01 10:39

激光SLAM--(8) LeGO-LOAM论文笔记

论文标题：LeGO-LOAM：LightweightandGround-OptimizedLidarOdometryandMappingonVariableTerrain应用在可变地形场景的轻量级的、并利用地面优化的LOAMABSTRACT轻量级的、基于地面优化的LOAM实时进行六自由度位姿估计，应用在地面的车辆上。强调应用在地面车辆上是因为在这里面要求雷达必须水平安装，而像LOAM和LIO-SA

lonely-stone·2024-08-30 20:29

论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库：用于 BabelNet Synsets 义元预测...

论文笔记整理：潘锐，天津大学硕士。来源：AAAI2020链接：https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。

开放知识图谱·2024-08-30 07:35

[论文笔记] LLM数据集——LongData-Corpus

https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载：#!/bin/bash#BaseURLbase_url="https://cloud.tsinghua.edu.cn/d/0670fcb14d294c97b5cf/fi

心心喵·2024-08-29 10:17

[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu，并保证端口未被使用

1.5B在eval时候两个任务一个gpu是可以的。7B+在evalbelebele时会OOM，所以分配时脚本不同。eval_fast.py：importsubprocessimportargparseimportosimportsocket#参数列表task_name_list=["flores_mt_en_to_id","flores_mt_en_to_vi","flores_mt_en_to_

心心喵·2024-08-28 19:00

【论文笔记】Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language

Abstract提出了DenseAV，一种新颖的双编码器接地架构，仅通过观看视频学习高分辨率、语义有意义和视听对齐的特征。在没有明确的本地化监督的情况下，DenseAV可以发现单词的"意义"和声音的"位置"。此外，它在没有监督的情况下自动发现并区分这两种类型的关联。DenseAV的定位能力源于一种新的多头特征聚合算子，该算子直接比较稠密的图像和音频表示进行对比学习。相比之下，许多其他学习"全局"音

xhyu61·2024-08-26 14:46

图形学论文笔记

文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(

Jozky86·2024-08-25 18:10

MACD黄白线0轴长飘，果断介入，后市将会有一波大行情！

理论上，MACD双线DIF和DEA可以无限升高，无限拉底，

小雅分析·2024-03-25 00:04

【视觉三维重建】【论文笔记】Deblurring 3D Gaussian Splatting

去模糊的3D高斯泼溅，看Demo比3D高斯更加精细，对场景物体细节的还原度更高，[官网]（https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/）背景技术Volumetricrendering-basednerualfields：NeRF.Rasterizationrendering:3D-GS.Rasterization比vol

CS_Zero·2024-03-12 05:51

[论文笔记] Transformer-XL

这篇论文提出的Transformer-XL主要是针对Transformer在解决长依赖问题中受到固定长度上下文的限制，如Bert采用的Transformer最大上下文为512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。Transformer-XL能学习超过固定长度的依赖性，而不破坏时间一致性。它由段级递归机制和一种新的位置编码方案组成。该方法不仅能够捕获长期

心心喵·2024-03-08 14:09

SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning 论文笔记

前言目前大多数小样本学习器首先使用一个卷积网络提取图像特征，然后将元学习方法与最近邻分类器结合起来，以进行图像识别。本文探讨了这样一种可能性，即在不使用元学习方法，而仅使用最近邻分类器的情况下，能否很好地处理小样本学习问题。本文发现，对图像特征进行简单的特征转换，然后再进行最近邻分类，也可以产生很好的小样本学习结果。比如，使用DenseNet特征的最近邻分类器，在结合均值相减（meansubtra

头柱碳只狼·2024-02-24 10:28

靖待·2024-02-24 10:27

【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律（smoothlybrokenpower-laws）。介绍目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数

lokol.·2024-02-20 08:49

【论文笔记】Unsupervised Learning of Video Representations using LSTMs

摘要翻译我们使用长短时记忆（LongShortTermMemory,LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LST

奶茶不加糖え·2024-02-20 08:25

MOSSE算法论文笔记以及代码解释

论文《VisualObjectTrackingusingAdaptiveCorrelationFilters》代码github1.论文idea提出以滤波器求相关的形式，找到最大响应处的位置，也就是我们所跟踪的目标的中心，进而不断的更新跟踪目标框和滤波器。2.跟踪策略如图，根据初始帧圈出的目标框训练滤波器，最大响应处为目标框的中心点，当移动到下一帧时，根据滤波器求相关的算法获得最大响应值，进而得出下

five days·2024-02-20 06:51

Attention Is All Your Need论文笔记

论文解决了什么问题？提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolution

xiaoyan_lu·2024-02-19 13:09

论文笔记：相似感知的多模态假新闻检测

整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图

图学习的小张·2024-02-11 19:11

[论文总结] 深度学习在农业领域应用论文笔记12

文章目录1.3D-ZeF:A3DZebrafishTrackingBenchmarkDataset(CVPR,2020)摘要背景相关研究所提出的数据集方法和结果个人总结2.Automatedflowerclassificationoveralargenumberofclasses(ComputerVision,Graphics&ImageProcessing,2008)摘要背景分割与分类数据集和实

落痕的寒假·2024-02-11 12:26

论文笔记之LINE:Large-scale Information Network Embedding

原文：LINE:Large-scaleInformationNetworkEmbedding本文提出一种新的networkembeddingmodel：LINE.能够处理大规模的各式各样的网络，比如：有向图、无向图、有权重图、无权重图.文中指出对于networkembedding问题，需要保留localstructure和globalstructure，分别对应first-orderproximi

小弦弦喵喵喵·2024-02-11 03:13

打败一切NeRF！ 3D Gaussian Splatting 的简单入门知识

新手的论文笔记3DGaussianSplatting的笔记introductionRelatedwork预备知识Gaussiansplatting3D高斯泼溅原理Overview3DGaussianSplatting

Ci_ci 17·2024-02-10 10:48

《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记

参考代码：无1.概述导读：在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能，但是只通过top-down的FPN网络是很难去重建由于特征图的漂移（水平或是垂直方向运动）在经过pooling操作（pooling不具有平移不变性）带来结果相差很大的问题（特别针对小目标），而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释（卷积的平移不变形），进而会导致一些小目标定位性能降低。对此可以通过

m_buddy·2024-02-09 18:37

html倒计时某天代码,JS 倒计时(一天的倒计时)

倒计时functionNextTime(next,cb){vart;(functionft(){vardif=(next.getTime()-(newDate()).getTime())/1000;if(dif

原来是婷子啊·2024-02-09 15:23

Vue源码系列讲解——虚拟DOM篇【二】(Vue中的DOM-Diff)

DOM-Dif

小彭努力中·2024-02-09 07:24

论文笔记-Generative Adversarial Nets

论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失

升不上三段的大鱼·2024-02-09 05:49

论文笔记：NIPS 2020 Graph Contrastive Learning with Augmentations

前言本文主要提出在图对比学习大框架下的图数据增强的若干方法。概括来说，本文提出了一种图对比学习框架来无监督的完成图表示学习，首先作者提出了基于各种先验信息的四种图数据增强方法。然后，作者分析了在四种不同的图数据增强条件下，不同组合对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。作者为GNN的预训练提出了基于图数据增强的对比学习框架来解决图中数据异质性的挑战，本文的主要贡献如下：作者提出

饮冰l·2024-02-09 00:54

论文笔记-vChain: Enabling Verifiable Boolean Range Queries over Blockchain Databases

核心方法：提出了一种基于累加器的可认证数据结构，可以动态聚合任意查询属性提出块内和块间索引，聚合块内和块间数据，可以做高效查询验证倒排前缀树结构，加速同时处理大量数据的订阅查询提出问题：1.range查询2.布尔查询3.没有可靠第三方、而且不能保证查询的完整性图中元素有：①全节点②矿工节点：是全节点，而且负责构建共识证明，比如计算nonce③轻节点：存nonce、区块的哈希，不存数据记录提出的Vc

qq_40431700·2024-02-06 16:38

论文笔记--Improving Language Understanding by Generative Pre-Training

论文笔记GPT1--ImprovingLanguageUnderstandingbyGenerativePre-Training1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1无监督预训练

Isawany·2024-02-05 15:20

最新论文笔记(+21)：Privacy-Preserving Byzantine-Robust Federated Learning via Blockchain Systems/ TIFS2022

Privacy-PreservingByzantine-RobustFederatedLearningviaBlockchainSystems可译为“利用区块链实现隐私保护的拜占庭鲁棒性联邦学习”这篇是今年八月份被TIFS2022（CCFA）收录的文章，写的利用全同态加密和区块链技术解决联邦学习中隐私问题和可信问题（虽然区块链仅仅只是存储的作用，也稍微提了一下）。精读完这篇文章，整体感觉还不错，毕

cryptocxf·2024-02-05 10:24

日志报错 git -c dif.mnemonicprefix=false -c core.guotepath=false 解决方法

前言：在进行下面操作前，必须确保，你是否安装了Git。查看Git在命令行窗口中输入`git--version`：如果这个命令成功显示了Git的版本信息，这表明Git已经被安装。1.使用SourcetreeSourceTree是Windows和MacOSX下免费的Git和Hg客户端，拥有可视化界面，容易上手操作。同时它也是Mercurial和Subversion版本控制系统工具。支持创建、提交、cl

秃头馒头·2024-02-05 01:51

【故障诊断分析】滚动轴承故障诊断系统含Matlab源码

充分显示了倒频谱技术在判断轴承故障的直观性,简化性,从而提高了滚动轴承故障判断的准确率.2部分代码%pinyu.m文件uiheight=0.05;uiweith=0.12;uilow=0.08;uileft=0.85;dif

matlab科研助手·2024-02-04 17:17

Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models——【论文笔记】

本文是发表于ACMTransactionsonGraphics期刊上的一篇论文论文地址：[2302.12228]基于编码器的域优化，用于文本到图像模型的快速个性化(arxiv.org)官方代码：mkshing/e4t-diffusion：实现基于编码器的域调优，以实现文本到图像模型的快速个性化(github.com)一、Introduction近年来，个性化大规模文本到图像模型的能力已经彻底改变了

我是浮夸·2024-02-04 14:51

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning——【论文笔记】

本文发表于ICCV2023论文地址：ICCV2023OpenAccessRepository(thecvf.com)官方代码：mkshing/svdiff-pytorch:Implementationof"SVDiff:CompactParameterSpaceforDiffusionFine-Tuning"(github.com)一、Introduction最近几年，基于扩散的文本到图像生成模型

我是浮夸·2024-02-04 14:19

论文浅尝 | 动态知识图谱对齐

论文笔记整理：谭亦鸣，东南大学博士生来源：AAAI‘21链接：https://ojs.aaai.org/index.php/AAAI/article/view/16585概述本文提出了一种动态图谱(KG

开放知识图谱·2024-02-04 07:05

《Revisiting Self-Supervised Monocular Depth Estimation》论文笔记

参考代码：rmd1.概述介绍：回顾前几年的一些自监督型深度估计算法，它们都是从不同的角度对自监督深度估计方法进行改进。总结这些算法中对自监督深度估计的改进idea，发现这些算法有的是为了解决场景光照变化对深度估计稳定性的影响；有的是对相机运动下场景中物体遮挡运动进行建模，从而减少对于前期假设先验的违背的影响。而这些改进的idea它们的来源是不同的文章，那么它们组合起来是否能达到比原方法更好的效果呢

m_buddy·2024-02-02 20:59

《LeReS：Learning to Recover 3D Scene Shape from a Single Image》论文笔记

参考代码：AdelaiDepth-LeReS1.概述介绍：基于单张图像的深度估计网络往往采用scale-shiftinvariant形式完成深度预测，其是将预测深度和GT深度映射到scale-shiftinvariant空间，之后再计算loss，自然使用该方法得到的深度在经过点云映射之后是存在扭曲的，这类方法以MiDaS为代表。除scale-shift之外其还存在焦距（focal）上的不确定，因而

m_buddy·2024-02-02 20:29

《Enforcing geometric constraints of virtual normal for depth prediction》论文笔记

参考代码：VNL_Monocular_Depth_Prediction1.概述介绍：这篇文章为深度估计提供了一种新的损失函数形式，在深度估计任务中常见的损失函数多以pixel-wise监督的形式出现，因此这些监督损失函数都是利用像素层面的浅层信息进行监督约束的。这样的浅层次深度信息学习自然不能很好学习到GT深度中的一些细节与结构差异信息，因而这篇文章提出将预测深度通过预先假定的相机内参映射到同一模