Neil-Yale

《ReDeBug: Finding Unpatched Code Clones in Entire OS Distributions》精读

Abstract摘要
程序员不应该为同一个漏洞打两次补丁，但是很不幸，这经常发生，因为在给漏洞打补丁的时候，却没有给其对应的克隆代码打补丁，没有打补丁的克隆代码意味着潜在的漏洞、安全风险，急需被很快探测到。
在本文中我们介绍了ReDeBug，这个工具可以在大规模场景下快速找到没打补丁的克隆代码。尽管在之前已经有一些相关工作，但是ReDeBug的特点在于使用了快速的、基于语法的方法来提高扩展性。与之前的方法相比，ReDeBug可能会找到更少的克隆代码，但是提高了速度、可扩展性，减少了误报率,以及与语言无关。

Introduction前言
打补丁时经常不会给克隆代码同样触发漏洞的地方带上补丁。比如下图是一个XML解析器在2009年8月打的关于边界校验的补丁
Abstract摘要
程序员不应该为同一个漏洞打两次补丁，但是很不幸，这经常发生，因为在给漏洞打补丁的时候，却没有给其对应的克隆代码打补丁，没有打补丁的克隆代码意味着潜在的漏洞、安全风险，急需被很快探测到。
在本文中我们介绍了ReDeBug，这个工具可以在大规模场景下快速找到没打补丁的克隆代码。尽管在之前已经有一些相关工作，但是ReDeBug的特点在于使用了快速的、基于语法的方法来提高扩展性。与之前的方法相比，ReDeBug可能会找到更少的克隆代码，但是提高了速度、可扩展性，减少了误报率,以及与语言无关。

Introduction前言
打补丁时经常不会给克隆代码同样触发漏洞的地方带上补丁。比如下图是一个XML解析器在2009年8月打的关于边界校验的补丁

这个漏洞被利用时会造成拒绝服务供给。然而这一处漏洞代码在其他位于Debian\Ubuntu\SourceForage package等攻击386处都有，但是它们都没有打上补丁，这都是潜在可以被攻击的地方。我们称这种bug为unpatched code clone。
现有研究的缺点包括：
scalabiilty缺乏可扩展性
Lack of support for many different languages不支持多种编程语言
High false detection rate高误报率

ReDeBug
A.The core system
1.ReDeBug会标准化每个文件，默认情况下会删除注释、非ascii字符、除了新行外的冗余的空格键，如果是C,C++，java，perl的话还会忽略花括号
2.被标准化的文件会基于新行和正则表达式子串is tokenized
3.在token stream上有一个长度为n的滑动窗口，每个n tokens都被作为进行比较的一个代码单元
4.考虑两个n-tokens的集合fa,fb,我们计算他们相同代码的数量。当找到没打补丁的克隆时，如果fa是原始有漏洞的代码段，那么我们计算

如果我们想要衡量文件间总的相似性，我们会计算相同token的百分比，比如使用Jaccard 系数

如果结果超过我们预先设定的阈值。如果fa属于fb，那么阈值为1，这样就没必要计算Containment的准确的比例
5.ReDeBug移除Bloom filter 错误后会对识别出的未打补丁的代码进行精确的匹配。ReDeBug也使用编译器来确定哪些代码可能是dead code
举例来说，假设有两个文件A=t1t2t3t4,B=t1t3t4t2，每个ti都是一个token，那么tokenization后就是A={t1,t2,t3,t4},B={t1,t2,t4,t2}。当n=2时，这里有三个2-token：fa={(t1,t2),(t2,t3),(t3,t4)},fb={(t1,t3)(t3,t4)(t4,t2)}，则相似度为1/5

连续token的数量n，门限值cita，

本工作的设计和其他不同，其他工作也会规范表示代码，不过还会采取其他步骤，比如将代码转换为高级表示比如解析树parse tree和控制流图control flow graph，然后会应用高级的模糊匹配算法来找到我们可能会错过的代码克隆处。但是这会有很高的误报率，而且需要人工验证。并且实现一个好的解析器是非常困难的
B.Unpatched Code Clone Detection
ReDeBug寻找unix中以diff格式统一表示过的补丁对应的unpatched code clone。在流行的版本控制系统如Subversion中也有集成diff。
一个标准的diff补丁包含一系列不同的hunk。每个hunk都包含改变的名字，一系列的增删。增加的源码前面有+符号标记，删去的源码前面有-标记。行改变意味着删去原始行和增加改变的行
原始的原bug的代码包含所有被补丁删去的代码。然而，简单去查找被改变的行是远远不够的:我们必须考虑到补丁的上下文
如下所示

第一种补丁是用strncpy代替strcpy，我们可以找到代码中被删除的那一行，在其他地方看到时将其标记为漏洞代码。然而第二种补丁只是简单加了个校验。要想在对应的克隆代码处找到缺失的校验没有找一行缺失的代码直接。我们的方法是对改变的每一行找上下文token的拷贝，c，并报告克隆的上下文。
总体的步骤如下所示

预处理源码：
采用n-length的窗口得到n-tokens，并散列至Bloom flter
对每个以原始数据格式表示的源代码文件的Bloom filter将其保存下来
校对没打补丁的克隆代码
使用bitvector来加速pair-wise的比对

获得源码：对于Debian和Ubuntu来说，使用apt就可以了。对于SourceForge，我们爬取了所有的Subversion,CVS和Git目录
对于每个文件，都进行normalize和tokenize
对于每个n-token序列i,计算h(i)=d,然后设置对应文件的bitvector的第d个bit为m
计算每一对bitvector的相似度

Implementation & evaluation实现及评估
A.Implementation
ReDeBug由大约1000行c和250行python实现。归一化由python实现。
B.Unpatched code clone detection expeerimental setup
数据集

为了找到明显的bug，我们从debian,ubuntu security advisory（此处有相应的链接指向对应的package和patch/diff）收集了和安全相关的补丁。
D.Security-related bug
分三种情况进行讨论

E.The Identified Unpatched Code Clones

上图展示了我们多久找到克隆。。大多数patch有少于50个独立的未打补丁的克隆。
。。
主要是介绍一些关联性分析，

F.Code Clone Detection Errors
一种流行的指标是匹配过程的准确率，在ReDeBug中指的是布隆过滤器测试（Bloom filter test），它没有false negative,可能有false positive。
有时候匹配到的代码克隆漏洞会位于死代码（dead code，即无效代码）处，比如下图这个

这是位于libcompress-bzip2-perl，但是开发者说这是dead code，所以严格意义说不算漏洞。
在预处理阶段（pre-processing step），我们消除了在编译阶段不会被包含进去的dead code，
G.examples of security-realted bugs
我们向Debain安全团队报告了1532个克隆代码bug，目前收到了145个确认。接下来给出一些例子
QEMU是一款处理器模拟器。Cve-2008-0928可以使用攻击者拿到host机器上的root权限。

但是这个补丁没有被引用在派生出的packages，比如xen-qemu，这是Xen版本的qemu
下面这个是rsyslog的一个打了补丁的代码，利用这个漏洞攻击者可以伪造日志消息从而造成dos攻击

但是这个补丁没有被应用到Debian package rsyslogssapi，这是rsyslog带插件的版本，允许rsyslog写和接收GSSAPI加密的日志消息
下图是GIMP的Paint Shop Pro插件中的修补的一个缓冲区溢出漏洞

下图是php 5.3.6版本之前的整数溢出漏洞，会造成dos，可能还会造成信息泄露。但是这个补丁没有被应用在Debian php package中。

下图的补丁在ubuntu oneiric package实现了，但是没有应用在debian squeeze packge。这是修补了位于ecryptfsutils中的不正确的/etc/mtab所有权错误，可能会导致未挂载的任意位置（unmount arbitrary location，emmm不知道这是什么漏洞）

H.copied similarity metrics
主要就是通过实验发现代码克隆的现象非常普遍

DISCUSSION讨论

Related Work相关工作
MOSS是一款知名的使用n-tokens的相似度检测工具，MOSS基于叫做winnowing的算法，这是一种模糊hash技术，会选择n-tokens的子集来寻找相似的代码。ReDeBug与之区别在于ReDeBug使用特征hash来编码n-token为bitvector，从而使得ReDeBug可以以缓存有效的方法（cache-efficient）来执行相似性比较。我们使用特征hash来替换winnowing以提升速度。进一步地，为了发现未打补丁的代码克隆，我们只针对打了补丁的bug处开展我们的工作
近期学术界的大多数工作都是关注检测所有的代码克隆（比如减少缺失的代码克隆数量，但是会得到更高的误报率）。相关的例子有Deckard，CCFinder，CP-Miner和Deja Vu.探测到所有的代码。这种类型的研究会用到各种启发式的匹配算法，都需要基于高层次的代码抽象，比如CFG,解析树（parse tree）,这些都要求实现鲁棒性强的解析器，这是非常困难的。
前面提到的这些技术都代表了独特的思考点，ReDeBug相较于CP-Miner,Deja Vu有更低的误报率，并且有更好的扩展性。
与SYDIT相比，这个工具是程序转换工具，可以将程序转为抽象语法树，它侧重语义，而ReDeBug侧重语法。
Patch Miner与我们的工作比较像，但是与他们联系没有取得任何回应，所以无法比较。
Deja Vu Deckard,Deja Vu使用LSH（locality sensitive hashing）局部敏感hash配合Jaccard距离算法来加速Pairwise的比较。而我们使用的特征hash（feature hashing）。理论上而言，我们的方法性能更好。
Brumley认为一旦一个补丁是公开可获取的，攻击者可通过逆向工程写出漏洞利用工具，我们在以后的工作中会将这一点作为附加考虑的点来展开研究。

Conclusion结论：
本文设计了ReDeBug，旨在检测未打补丁的克隆代码，具有高度可扩展性，可以处理真实代码，并最小化误报率。通过分析一款商用桌面版系统的2.1百万行代码，ReDeBug发现了了15546个没打补丁的克隆代码，这些很有可能会引发漏洞。我们在最新版本的Debian Squeeze package中确认了145个实际的bug，证明了ReDeBug的实际效果。我们有理由相信，对于开发者而言，ReDeBug会成为解决他们编写的代码安全性的一种较为现实的方法。
这个漏洞被利用时会造成拒绝服务供给。然而这一处漏洞代码在其他位于Debian\Ubuntu\SourceForage package等攻击386处都有，但是它们都没有打上补丁，这都是潜在可以被攻击的地方。我们称这种bug为unpatched code clone。
现有研究的缺点包括：
scalabiilty缺乏可扩展性
Lack of support for many different languages不支持多种编程语言
High false detection rate高误报率

如果我们想要衡量文件间总的相似性，我们会计算相同token的百分比，比如使用Jaccard 系数

如果结果超过我们预先设定的阈值。如果fa属于fb，那么阈值为1，这样就没必要计算Containment的准确的比例
5.ReDeBug移除Bloom filter 错误后会对识别出的未打补丁的代码进行精确的匹配。ReDeBug也使用编译器来确定哪些代码可能是dead code
举例来说，假设有两个文件A=t1t2t3t4,B=t1t3t4t2，每个ti都是一个token，那么tokenization后就是A={t1,t2,t3,t4},B={t1,t2,t4,t2}。当n=2时，这里有三个2-token：fa={(t1,t2),(t2,t3),(t3,t4)},fb={(t1,t3)(t3,t4)(t4,t2)}，则相似度为1/5

连续token的数量n，门限值cita，

第一种补丁是用strncpy代替strcpy，我们可以找到代码中被删除的那一行，在其他地方看到时将其标记为漏洞代码。然而第二种补丁只是简单加了个校验。要想在对应的克隆代码处找到缺失的校验没有找一行缺失的代码直接。我们的方法是对改变的每一行找上下文token的拷贝，c，并报告克隆的上下文。
总体的步骤如下所示

预处理源码：
采用n-length的窗口得到n-tokens，并散列至Bloom flter
对每个以原始数据格式表示的源代码文件的Bloom filter将其保存下来
校对没打补丁的克隆代码
使用bitvector来加速pair-wise的比对

Implementation & evaluation实现及评估
A.Implementation
ReDeBug由大约1000行c和250行python实现。归一化由python实现。
B.Unpatched code clone detection expeerimental setup
数据集

为了找到明显的bug，我们从debian,ubuntu security advisory（此处有相应的链接指向对应的package和patch/diff）收集了和安全相关的补丁。
D.Security-related bug
分三种情况进行讨论

E.The Identified Unpatched Code Clones

上图展示了我们多久找到克隆。。大多数patch有少于50个独立的未打补丁的克隆。
。。
主要是介绍一些关联性分析，

这是位于libcompress-bzip2-perl，但是开发者说这是dead code，所以严格意义说不算漏洞。
在预处理阶段（pre-processing step），我们消除了在编译阶段不会被包含进去的dead code，
G.examples of security-realted bugs
我们向Debain安全团队报告了1532个克隆代码bug，目前收到了145个确认。接下来给出一些例子
QEMU是一款处理器模拟器。Cve-2008-0928可以使用攻击者拿到host机器上的root权限。

但是这个补丁没有被引用在派生出的packages，比如xen-qemu，这是Xen版本的qemu
下面这个是rsyslog的一个打了补丁的代码，利用这个漏洞攻击者可以伪造日志消息从而造成dos攻击

但是这个补丁没有被应用到Debian package rsyslogssapi，这是rsyslog带插件的版本，允许rsyslog写和接收GSSAPI加密的日志消息
下图是GIMP的Paint Shop Pro插件中的修补的一个缓冲区溢出漏洞

下图是php 5.3.6版本之前的整数溢出漏洞，会造成dos，可能还会造成信息泄露。但是这个补丁没有被应用在Debian php package中。

下图的补丁在ubuntu oneiric package实现了，但是没有应用在debian squeeze packge。这是修补了位于ecryptfsutils中的不正确的/etc/mtab所有权错误，可能会导致未挂载的任意位置（unmount arbitrary location，emmm不知道这是什么漏洞）

H.copied similarity metrics
主要就是通过实验发现代码克隆的现象非常普遍

DISCUSSION讨论

史上最全清华大学deepseek完全使用手册 2501_90739749 pdf
「DeepSeek资料大全」资源链接：https://pan.quark.cn/s/1352425b0645这几天项目比较忙，没时间分享，看到网络上一直有清华大学的Deepseek学习指南第一二三弹，清华大学Deepseek学习指南第四弹DeepSeek+DeepResearch让科研像聊天一样简单、第五弹DeepSeek与AI幻觉也都发布啦！第一时间我就整理了相关PDF分享给大家，感兴趣的小伙伴
教你本地复现Deep Research：DeepSeek R1+ LangChain+Milvus 大模型入门教程 langchain 人工智能大模型学习大模型 DeepSeek AI大模型大模型教程
金融机构、律所、科研党的福音来了！不久前，OpenAI新推出了一项名叫DeepResearch（深度研究）的功能，迅速风靡全球。我们可以将其理解为大模型+超级搜索+研究助理的三合一。在这项功能里，用户输入查询问题后，只需要选择DeepResearch选项，OpenAIo3就能自动查找分析数百优质在线资源，并对其进行综合整理并加工，为用户生成一份具备专业分析师水准的综合报告。不仅内容生成更加详实，而
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
SOC 108A Research Traditions 后端
SampleofaQuantitativeReportSOC108AResearchTraditions1.Introduction:Beginyourresearchreportbyidentifyingthesocialphenomenonthatyoustudied.Whyisthistopicimportant?Thissectionmustincludeatleast5reference
SpringBoot约定大于配置骆驼整理说分布式微服务框架开源框架及中间件 java spring boot
约定大于配置就是开箱即用中那些自动配置的细节，具体点就是配置文件（.yml）应该放在哪个目录下、命名规范等都可以被称为约定。maven目录结构的约定Spring官方文档，文档中描述的目录结构：Configlocationsaresearchedinreverseorder.Bydefault,theconfiguredlocationsareclasspath:/,classpath:/confi
使用神经架构搜索（Neural Architecture Search, NAS）自动化设计高效深度学习模型的技术详解瑕疵热点资讯
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高效深度学习模型的技术详解使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高效深度学习模型的技术详解使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：research@deepseek.com）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
论文代码阅读及部分复现：Revisiting Deep Learning Models for Tabular Data thorn_r 论文阅读深度学习人工智能
论文地址：https://arxiv.org/pdf/2106.11959.pdf项目地址：GitHub-yandex-research/rtdl-revisiting-models:(NeurIPS2021)RevisitingDeepLearningModelsforTabularData相关数据：https://www.dropbox.com/s/o53umyg6mn3zhxy/2024年2
非甾体抗炎药（NSAIDs）：市场蓝海下的强劲增长与未来机遇 QYR_11 人工智能
非甾体抗炎药（NSAIDs）作为一类广泛用于治疗疼痛、炎症和发热的药物，其在全球医药市场中占据着举足轻重的地位。随着全球人口老龄化趋势的加剧、慢性病发病率的上升以及人们健康意识的增强，NSAIDs的市场需求呈现出持续增长态势。据市场研究机构QYResearch（恒州博智）预测，根据研究团队调研统计，2023年全球非甾体抗炎药市场销售额达到了1401亿元，预计2030年将达到2019亿元，年复合增长
【鸿蒙开发实战教程】在MacOS上如何使用 Flutter 构建鸿蒙APP 「已注销」 harmonyos macos flutter 鸿蒙
前言根据研究机构CounterpointResearch发布的最新数据，2024年第一季度，鸿蒙OS份额由去年一季度的8%上涨至17%，iOS份额则从20%下降至16%。这意味着，华为鸿蒙OS在中国市场的份额超越苹果iOS，已成中国第二大操作系统。随着鸿蒙市场份额的不断提升，相应的岗位也会迎来一个爆发式的增长。这对于想要换赛道的程序员来说是一个非常好的消息，话说大家最近有想法转型鸿蒙开发吗？目前各
2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025) GSRA会务组房老师计算机视觉人工智能数据挖掘图像处理目标检测云计算语言模型
2025年计算机视觉研究进展与应用国际学术会议(ACVRA2025)2025InternationalConferenceonAdvancesinComputerVisionResearchandApplications重要信息2025年3月28-30日南京一轮截稿日期：2024年12月26日EI检索稳定早投稿，早审稿，早录用【会议简介】2025年计算机视觉研究进展与应用国际学术会议（ACVRA2
DARTS算法笔记（论文+代码）朴公英不会飞 NAS 算法笔记
DARTS:DIFFERENTIABLEARCHITECTURESEARCH论文链接：DARTS论文代码：DARTS-code本文主要对DARTS算法进行学习，重点关注算法在CIFAR-10,ImageNet（分类问题）的研究。DARTS通过两次近似，将问题简单化，以减少GPU计算天数，局部最优近似全局最优，有限差分近似求梯度。摘要：在CIFAR-10、ImageNet、PennTreebank和
【拥抱AI】如何使用Milvus向量数据库进行数据库检索？奔跑草- 人工智能人工智能 milvus 数据库
使用向量数据库进行数据库检索是一种高效的方法，特别是在处理大规模、高维度的数据时。以下是详细的步骤，帮助你理解和实施这一过程：1.准备环境选择向量数据库常见的向量数据库有：Faiss：由FacebookAIResearch开发，适用于大规模向量搜索。Milvus：开源的向量数据库，支持多种索引类型和相似度度量。Elasticsearch：虽然主要是全文搜索引擎，但也支持向量搜索功能。安装和配置根据
今日AI和商界事件(2025-02-09) LS_learner AI和商界事件人工智能
今日AI大事件主要包括以下几个方面：一、科技与应用进展多平台宣布上线DeepSeek大模型百度智能云、阿里云、华为云等科技巨头纷纷上线DeepSeek大模型，这标志着AI大模型技术在商业应用领域的进一步拓展。OpenAI推出新智能体DeepResearchOpenAI在AI研究领域继续深耕，推出新的智能体DeepResearch，并指出其存在的局限性，为AI技术的进一步发展提供了新思路。二、国际动
14.4K+ Star！GPT Researcher：一个基于AI的智能研究助手鱼满满记 AI应用 Github项目 python 人工智能 ai
GPTResearcher简介GPTResearcher[1]是一个基于大型语言模型（LLM）的自动化智能体，目标是对任何给定主题进行在线全面研究。该智能体能够生成详细、事实和无偏见的研究报告，并提供定制化选项，以关注相关资源和大纲。GPTResearcher的设计灵感来源于最新的Plan-and-Solve和RAG论文，目标是解决错误信息、速度、确定性和可靠性问题，通过并行化智能体工作而不是同步
【人工智能】谷歌推出最新AI模型Gemini 2.0，开放Deep Research新功能！ ChatGPT-千鑫 AI领域人工智能
2024年12月12日，谷歌推出了其最新一代人工智能模型——Gemini2.0，这一模型被誉为“代理时代的新人工智能模型”，标志着AI技术的又一次飞跃。那么，Gemini2.0究竟带来了哪些突破？它将如何影响我们的生活和工作？1.Gemini2.0的创新亮点：多模态与本地工具的结合Gemini2.0不仅仅是对信息的组织和理解，它更注重信息的实用性。通过多模态进展和本地工具的使用，Gemini2.0
【神经网络搜索】NasBench301 使用代理模型构建Benchmark *pprp* 神经网络搜索 AutoML NAS工具箱神经网络人工智能深度学习
【GiantPandaCV导语】本文介绍的是NAS中的一个benchmark-NASBench301,由automl.org组织发表，其核心思想是针对表格型基准存在的不足提出使用代理模型拟合架构与对应准确率。Paper:NAS-Bench-301andThecaseforsurrogatebenchmarksforNeuralArchitectureSearchCode:https://githu
【论文阅读】DeepSeek-R1：通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 DeepSeek 计算论文阅读 deepseek agi ai llm agent cot
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-R1：通过强化学习激励LLMs的推理能力DeepSeek-AIresearch@deepseek.com目录DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcem
Rust编程基础教程：结构体和枚举类型 AI天才研究院一天一门编程语言编程实践大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍一、什么是Rust语言？Rust是由MozillaResearch开发的一门新兴的现代通用编程语言，它的设计目标是提供高效、可靠和并发的软件。它已经成为MozillaFirefox、GoogleChrome、Dropbox等知名网站的后台语言，被越来越多的初创公司、小型公司和企业采用。它拥有独特的安全保证、极高的性能、实时性能保证以及活跃的社区支持。二、为什
一切皆是映射：元学习中的神经架构搜索（NAS）杭州大厂Java程序媛计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
元学习神经架构搜索NAS遗传算法强化学习演化算法一切皆是映射：元学习中的神经架构搜索（NAS）在人工智能的广阔领域中，神经架构搜索（NeuralArchitectureSearch，简称NAS）是一颗璀璨的明星，它代表着一种全新的方法，即通过算法自动寻找最优的神经网络架构。这种思想源于元学习（Meta-Learning），它关注的是如何使学习过程本身变得更加高效。本文将深入探讨NAS的原理、方法、
OpenAI发布"深度研究"AI助手：开启复杂问题分析新纪元
OpenAI近日宣布推出一款新的AI"代理"，旨在帮助用户通过ChatGPT平台进行深入、复杂的研究工作。这项新功能被恰如其分地命名为"深度研究"（deepresearch）。根据OpenAI周日发布的博客文章，这项新功能主要面向"在金融、科学、政策和工程等领域从事密集知识工作，需要进行全面、精确和可靠研究的人群"。该公司还表示，对于那些需要仔细研究才能做出购买决定的商品，如汽车、家电和家具等，这
一篇文章了解AI大神何凯明 Ai知识精灵人工智能
何凯明（KaimingHe）是一位在国际计算机视觉和深度学习领域享有盛誉的科学家。以下是对他的一些详细介绍：个人背景：何凯明出生于中国，后赴美国深造。他分别在2007年和2011年在清华大学获得学士和博士学位，专业是电子工程。职业经历：在完成博士学位后，何凯明加入了微软亚洲研究院（MicrosoftResearchAsia）。2015年，他加入了FacebookAIResearch（FAIR），成
神经架构搜索：自动化设计神经网络的方法俊星学长架构自动化神经网络
神经架构搜索：自动化设计神经网络的方法一、引言在深度学习领域，神经网络架构的设计对模型的性能具有至关重要的影响。传统的神经网络设计依赖于专家经验和大量实验，这一过程繁琐且耗时。为了解决这一问题，神经架构搜索（NeuralArchitectureSearch,NAS）应运而生。NAS是一种自动化设计神经网络架构的方法，旨在通过搜索最优的神经网络结构来提高模型性能。本文将详细介绍神经架构搜索的定义、产
C++计算精解【21】 sakura_sea 游戏引擎与高性能计算 c++开发语言
文章目录动手做汇编解释器【4】COCO/R概述变量赋值的ATG生成的代码框架参考文献动手做汇编解释器【4】COCO/R概述Coco/R是一个用于构造词法分析器（LexicalAnalyzers）和语法分析器（SyntaxAnalyzers）的开源工具。它是基于LALR(1)解析技术的，广泛用于编译器设计和软件开发中的语法分析阶段。https://ssw.jku.at/Research/Projec
OpenAI紧急加播：ChatGPT上新深度搜索，持续思考30分钟输出1万字，刷榜“人类最后的考试” 量子位
就在开源的DeepSeek-R1被整合进各路AI搜索工具之际，OpenAI临时举行小型发布会。4点27通知，8点开始直播。ChatGPT上新“DeepResearch”，把推理大模型的思考能力用于联网搜索。据介绍，DeepResearch功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。在“人类最后的考试”上，DeepResearch刷新了最高分，比o3-mini高推理设置分数高出一倍。该测
上海建筑物轮廓全境面图层shp格式arcgis数据无偏移坐标字段有高度和楼层属性内容测评天赐信息科技 arcgis
本文将详细解析标题和描述中提到的“上海建筑物轮廓全境面图层shp格式arcgis数据无偏移坐标字段有高度和楼层属性2022年6月”这一IT知识主题，主要涵盖GIS（地理信息系统）技术、数据格式、以及在城市规划与管理中的应用。我们要了解的是“shp”文件格式。SHP是ESRI（EnvironmentalSystemsResearchInstitute）开发的一种矢量图形数据格式，用于存储地理空间信息
matlab神经网络遥感反演,基于BP神经网络的盐渍土盐分遥感反演模型研究老许的花开 matlab神经网络遥感反演
采用遥感技术和BP神经网络技术,结合野外实测的盐渍土光谱特征和实验室化验的土壤含盐数据,对盐渍土盐分的遥感反演进行了模型的设计与编程实现。BP神经网络模型的预测精度在62.5%,明显高于传统统计模型的预测精度,表明BP神经网络能较好地模拟土壤含盐量与光谱数据之间的关系,可用于建立土壤盐分遥感反演模型。更多还原【Abstract】Theresearchonsalinityinversionfromr
表格化数据处理中大语言模型的微调优化策略研究 C7211BA 人工智能自然语言处理大语言模型
论文地址ResearchonFine-TuningOptimizationStrategiesforLargeLanguageModelsinTabularDataProcessing论文主要内容这篇论文的主要内容是研究大型语言模型（LLMs）在处理表格数据时的微调优化策略。具体来说，论文探讨了以下几个关键方面：背景与挑战：大型语言模型（LLMs）在自然语言处理（NLP）领域取得了显著进展，但在处
再见，Elasticsearch ！码农code之路 elasticsearch 大数据搜索引擎全文检索
新一代搜索引擎，是ES的15倍，号称干翻ES！ManticoreSearch是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。Ma
DeepSeek--通向通用人工智能的深度探索者油泼辣子多加专业名词解释人工智能
一、词源与全称“DeepSeek"由"Deep”（深度）与"Seek"（探索）组合而成，中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司"，英文对应"DeepSeekArtificialIntelligenceResearchInstitute"。这一命名体现了企业对深度学习技术与未知领域持续探索的双重追求。二、发展历程初创期（2023）公司成立于中国杭州，创始团队汇聚了来自
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "13241153187@163.com" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

《ReDeBug: Finding Unpatched Code Clones in Entire OS Distributions》精读

你可能感兴趣的:(research)