论文笔记（Paper

LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning

Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo

Zhouqi_Hua·2025-03-11 03:10

(即插即用模块-特征处理部分) 三十、(2024) BFAM & CBM & DFEM 特征聚合+特征提取+边界感知

文章目录1、BitemporalFeatureAggregationModule2、ChangeBoundary-AwareModule3、DeepFeatureExtractionModule4、代码实现paper

御宇w·2025-03-10 03:22

[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比

https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告：https://ai.meta.com/blog/meta-llama-3-1/

心心喵·2025-03-10 01:02

2022IJCAI速读：SparseTT，使用稀疏Transformers进行视觉跟踪

VisualTrackingwithSparseTransformers中文标题：SparseTT：使用稀疏Transformers进行视觉跟踪代码地址：GitHub-fzh0917/SparseTT:Theofficialimplementationforpaper"SparseTT

夜深人静打代码·2025-03-10 00:53

LLM时代的小模型思考：《What is the Role of Small Models in the LLM Era: A Survey》论文笔记

论文：WhatistheRoleofSmallModelsintheLLMEra:ASurvey作者：LihuChenetal.单位：ImperialCollegeLondonAbstract问题：扩大模型大小会导致计算成本和能耗呈指数级增长，这使得这些模型对于学术研究人员和资源有限的企业来说不切实际小型模型（SMs）经常用于实际环境中，引发了关于小模型在LLM时代的作用的重要问题，且关注有限方法

FrancisQiu·2025-03-09 14:02

GPT论文润色prompt模板

IampreparingtosubmitmyacademicpapertoXXX(期刊/会议)，pleasepolisheachparagraphinthestyleofaXXX(期刊/会议)article.YouarenowactingasanexpertinthefieldofXXX

s95.·2025-03-08 22:47

DAHSF: An Algorithm for Sequence Parsing for Specific Scenarios and Lightweight Deployment

FullPaperhttps://alphaxiv.org/pdf/2412.14054ProjectLinkhttps://blog.csdn.net/m0_62984100/article/details

AI是这个时代的魔法·2025-03-08 11:09

Python爬虫丨批量下载必应4K壁纸

该项目由GitHub用户niumoo维护，项目地址：niumoo/bing-wallpaper。该项目每天自动归档必应首页美图！但当我点开README.md时，发现仓库仅保存图片Markdown索引

凌小添·2025-03-07 18:20

Paper Reading | AI & 数据库融合经典论文回顾

人工智能（AI）和数据库（DB）在过去的50年里得到了广泛的研究，随着数据库近年来的不断发展，数据库开始与人工智能结合，数据库和人工智能（AI）可以相互促进。一方面，AI可以使数据库更加智能化（AI4DB）。例如，传统的数据库优化技术无法满足大规模数据库实例、各种应用程序和多样化用户的高性能要求，尤其是在云上。幸运的是，基于机器学习的技术可以缓解这个问题。另一方面，数据库技术可以优化AI模型（DB

·2025-03-07 16:14

MoE-FFD：Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection

PeijunBao1,YiYu1,HaoliangLi3,ZengweiZheng4,ShiqiWang3andAlexC.Kot1单位：1新加坡南洋理工大学;2中山大学;3香港城市大学;4浙江大学;Paper

Sherry Wangs·2025-03-07 15:44

【论文笔记】3DGS压缩相关工作2篇

1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期

AndrewHZ·2025-03-05 06:11

Readability.js 与 Newspaper提取网页内容和元数据

为什么选择Readability.js和Newspaper？Readability.js和Newspaper是两个非常流行的Node.js库，它们能够帮助我们从网

黑金IT·2025-03-03 16:47

强化学习与网络安全资源-论文和环境

TableofContentsRL-EnvironmentsPapersBooksBlogpostsTalksMiscellaneous↑EnvironmentsPentestingTrainingFrameworkforReinforcementLearningAgents

AI拉呱·2025-03-03 14:03

Qwen的github主页 - 介绍

HuggingFace|ModelScope|Paper｜️DemoWeChat(微信)|Discord｜APIQwen-Cha

强化学习曾小健·2025-03-02 20:41

UA 323 Development Economics

UA323ProblemSet1DevelopmentEconomicsDue:March6Thisproblemsetifbasedonthepaper“Thecolonialoriginsofcomparativedevelopment

·2025-03-01 21:31

[特殊字符]【CVPR2024新突破】Logit标准化：知识蒸馏中的自适应温度革命[特殊字符]

文章信息题目：LogitStandardizationinKnowledgeDistillation论文地址：paper代码地址：code年份：2024年发表于CVPR文章主题文章的核心目标是改进知识蒸馏

☞黑心萝卜三条杠☜·2025-03-01 19:48

arxiv论文爬虫

文章目录readmeArxivInterestingPapersCrawlerDescription:Thetimerangeofthepaperdownloading:Themodeofthedownloading

plasma-deeplearning·2025-03-01 09:39

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案

https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P

心心喵·2025-03-01 04:25

Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记

Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对

Im Bug·2025-02-28 07:24

51-29 CVPR 2024 | BEV-Planner：开环端到端自动驾驶中自车状态是你所需要的一切吗？

蛮幸运的，该论文提出了很多思考，证明了很多最优Paper在落地上车方面的无效性。咱们对待新方法能否成为自动驾驶的最佳实践要审慎。

深圳季连AIgraphX·2025-02-28 07:51

大模型之二十七-语音识别Whisper实例浅析

2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其paper

shichaog·2025-02-27 01:55

论文笔记（七十二）Reward Centering（一）

RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202

墨绿色的摆渡人·2025-02-26 21:20

KDD2015,Accepted Papers

AcceptedPapersbySessionResearchSessionRT01:SocialandGraphs1Tuesday10:20am–12:00pm|Level3–BallroomAChair

weixin_34124651·2025-02-26 21:48

【AI视野·今日NLP 自然语言处理论文速览第八十期】Fri, 1 Mar 2024

AI视野·今日CS.NLP自然语言处理论文速览Fri,1Mar2024Totally67papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLooseLIPSSinkShips

hitrjj·2025-02-26 21:48

论文笔记：Enhancing Sentence Embeddings in Generative Language Models

2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模

UQI-LIUWJ·2025-02-26 20:17

动态视觉SLAM的亿点点思考（含20项最新开源代码链接）[上篇]

0.笔者个人体会动态环境下的视觉SLAM一直都是研究的重点和难点，但最近动态SLAM的paper越来越少，感觉主要原因是动态SLAM的框架已经固化，很难做出大的创新。

3Ｄ视觉工坊·2025-02-26 05:57

降重避坑指南：为什么你的AIGC率总超标？

合规方案：AiPassPaper论文工具学术化改写：使用工具的「专业模式」替换AI常见句式；文献补充：一键插入知网关联参考文献（近5年占比≥60%）；退费兜底：知网/维普/Turnitin超标均可申请退费

Diamonds888·2025-02-25 10:44

深入探索连续变量量子神经网络：开启量子计算新纪元

开启量子计算新纪元quantum-neural-networksThisrepositorycontainsthesourcecodeusedtoproducetheresultspresentedinthepaper"Continuous-variablequantumneuralnetworks

倪姿唯Kara·2025-02-23 23:08

LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加

Zhouqi_Hua·2025-02-23 14:30

多模态论文笔记——DiT（Diffusion Transformer）

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat

好评笔记·2025-02-23 04:19

python 快速实现链接转 word 文档

python快速实现链接转word文档演示代码展示最后演示代码展示fromnewspaperimportArticlefromdocximportDocumentfromdocx.sharedimportPt

嘿嘿潶黑黑·2025-02-20 11:19

【CVPR 2021】Knowledge Review：知识蒸馏新解法

【CVPR2021】KnowledgeReview：知识蒸馏新解法论文地址：主要问题：主要思路：符号假设：具体实现：实验结果：关注我的公众号：联系作者：论文地址：https://jiaya.me/papers

BIT可达鸭·2025-02-20 07:17

LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers

Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和

Zhouqi_Hua·2025-02-20 07:15

[论文阅读] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

论文如下SeeSR:TowardsSemantics-AwareReal-WorldImageSuper-Resolution[paper][code]二

qianx77·2025-02-19 06:58

LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy

Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform

Zhouqi_Hua·2025-02-19 02:47

[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化

成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文

心心喵·2025-02-19 02:45

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

YOLOV11目标检测改进实例与创新改进专栏专栏地址：YOLOv11目标检测改进专栏，包括backbone、neck、loss、分配策略、组合改进、原创改进等本文介绍发paper，毕业皆可使用。

算法conv_er·2025-02-18 15:43

易飞ERP 查询报表打印凭证报错：Error reading Quick Report.PaperLength：Invalid pointer operation

处理办法：查询报表打印凭证报错：ErrorreadingQuickReport.PaperLength：Invalidpointeroperation-S3软件此问题，主要是由于计算机的默认打印设置错误导致

S3软件·2025-02-18 11:05

GUROBI之如何快速定位模型infeasible的原因

今天在用GUROBI写EVRPTW问题的模型时，遇到了很多问题参考：github上的一个用cplex来求解的paper:TheElectricVehicle-RoutingProblemwithTimeWindowsandRechargingStations

吃面包的快乐小狗·2025-02-18 00:00

InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens

InfiniteHiP:ExtendingLanguageModelContextUpto3MillionTokensonaSingleGPUPaper:https://huggingface.co/papers

伊织code·2025-02-16 14:18

【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：[email protected]）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe

大表哥汽车人·2025-02-15 02:40

论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》

基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过

I_dyllic·2025-02-14 03:57

CVPR 2023 | 一文看尽12篇Best Paper候选（附合集）

CVPR2023日前已经放榜，并公布了12篇bestpaper候选论文。本文就带大家一睹这12篇论文的风采，相关合集点击这里跳转获取。

马拉AI·2025-02-12 15:04

DARTS-PT: 重新思考可微分神经架构搜索中的架构选择

DARTS-PT:重新思考可微分神经架构搜索中的架构选择darts-pt[ICLR2021OutstandingPaper]RethinkingArchitectureSelectioninDifferentiableNAS

凌洲丰Edwina·2025-02-11 18:36

TC-LLaVA论文笔记

RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q

0yumiwawa0·2025-02-10 03:27

CNN-day5-经典神经网络LeNets5

经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN

谢眠·2025-02-10 03:54

[论文笔记] llama3.2 蒸馏

参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac

心心喵·2025-02-10 03:24

【神经网络搜索】NasBench301 使用代理模型构建Benchmark

Paper:NAS-Bench-301andThecaseforsurrogatebenchmarksforNeuralArchitectureSearchCode:https://githu

*pprp*·2025-02-08 03:32

[论文笔记] Deepseek技术报告

1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。介绍了两代模型：DeepSeek-R1-Zero（纯RL，无SFT冷启动数据）和DeepSeek-R1（在RL前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。核心思路直接在基础模型上应用大规模强化学习，利用

心心喵·2025-02-06 22:53

React Native第三方组件库汇总

项目地址:https://github.com/wix/react-native-ui-lib9，ReactNativePaperReactNativePaper是一个跨平台的UI组件库，它遵循MaterialDesign

2401_85124812·2025-02-05 12:16

推荐频道