Scabbards_

3D- vista:预训练的3D视觉和文本对齐Transformer

论文：https://arxiv.org/abs/2308.04352

代码: GitHub - 3d-vista/3D-VisTA: Official implementation of ICCV 2023 paper "3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment"

摘要

三维视觉语言基础(3D- vl)是一个新兴领域，旨在将三维物理世界与自然语言联系起来，这对实现具身智能至关重要。目前的3D-VL模型严重依赖于复杂的模块、辅助损耗和优化技巧，这需要一个简单而统一的模型。在本文中，我们提出了3D- vista，一个预训练的3D视觉和文本对齐转换器，可以很容易地适应各种下游任务。3D-VisTA简单地利用self attention层进行单模态建模和多模态融合，而无需任何复杂的特定任务设计。为了进一步提高其在3D- vl任务上的性能，我们构建了ScanScribe，这是第一个用于3D- vl预训练的大规模3D场景文本对数据集。ScanScribe包含2,995个RGBD扫描，用于源自ScanNet和3R-Scan数据集的1,185个独特的室内场景，以及从现有3D-VL任务，模板和GPT-3生成的配对278K场景描述。3D-VisTA通过屏蔽语言/对象建模和场景文本匹配在ScanScribe上进行预训练。它在各种3D-VL任务上实现了最先进的结果，从视觉基础和密集的字幕到问题回答和情境推理。此外，3D-VisTA展示了卓越的数据效率，即使在下游任务微调期间注释有限也能获得强大的性能。

背景

将三维物理世界与自然语言结合起来是实现具身人工智能的关键一步[18,26,37]，智能体可以在现实世界中理解并进一步执行人类指令[5,29]。最近，3D视觉语言(3D- vl)任务引起了越来越多的关注[19]，包括3D视觉基础（3D visual grounding）[8,1]、密集字幕（dense captioning）[11]、语法学习（grammar learning）[23]、问题回答（question answering）[3,56]和情境推理（situated reasoning ）[36]。

然而，大多数为3D-VL开发的模型只关注这些3D-VL任务中的一个或两个，并采用特定的任务设计[7,3,36,35,10]。

例如，3D-SPS[35]和BUTD-DETR[27]通过关注VL特征，对每一层的物体进行检测，逐步发现目标物体。3DVG[55]、MVT[24]和ViL3DRel[10]通过在模型设计中明确地注入空间关系信息，改善了三维视觉基础。

3DJCG[7]通过共享的3D对象建议模块shared 3D object proposal module[16]和两个独立的任务头two separate task-specific heads[7]，共同学习3D密集字幕和视觉接地（dense captioning and visual grounding）。

此外，训练这些模型通常需要手动指定辅助损耗(例如，3D物体检测/分类和文本分[35,24,7,3,36])或优化技巧(例如，知识蒸馏[4,53])。

缺乏一个简单而统一的方法会造成严重的开发通用3D-VL模型的差距。

为了填补这一空白，我们引入了3D-VisTA，一个基于transformer的模型的3D视觉和文本对齐，可以易于适应各种下游任务。与之前的在设计复杂的任务特定模块的模型中，我们简单地使用一个普通的self attention transformer[46]对于单模态建模和多模态融合3 d-vista。作为一般做法进一步加强三维空间理解[10,55,7]，我们明确的将成对的空间关系编码成为对象间的self attention权重用于3D对象建模。

受NLP[15、41、42、6、52、31]、CV[22、17、21、25、38]和2D-VL[30、2、34、40]中大规模预训练成功的启发，我们提出在3D场景文本数据上预训练3D- vista，以期在3D- vl任务上获得更好的性能。为此，我们构建了ScanScribe，这是第一个用于3D- vl预训练的大规模3D场景文本对数据集。

我们在提议的ScanScribe数据集上预训练3D-VisTA。我们的预训练任务包括掩码语言建模、掩码对象建模和场景文本匹配。值得注意的是，类似的目标在2D-VL中被广泛采用，但在3D-VL领域却很少被探索。所提出的预训练过程有效地学习了三维点云和文本之间的对齐，从而消除了下游任务微调中对辅助损失和优化技巧的需要。

贡献

1）提出3D- vista，一个简单而统一的transformer，用于对齐3D视觉和文本。所建议的Transformer只是利用了自注意机制，没有任何复杂的特定于任务的设计。

2）构建了ScanScribe，这是一个大规模3D- vl预训练数据集，包含278K 3D场景文本对，用于1,185个独特室内场景的2,995个RGB-D扫描。

3）提出了一种基于掩码语言/对象建模和场景文本匹配的自监督预训练方案。它有效地学习了三维点云和文本对齐，进一步简化和提高了下游任务的微调。

4）对3D-VisTA进行微调，并在各种3D-VL任务上实现最先进的性能，从视觉基础和密集字幕到问题回答和情境推理。3D-VisTA还展示了卓越的数据效率，即使在有限的注释下也能获得强大的结果。

方法

3D-VisTA

如图2所示，3D-VisTA以一对场景点云和句子作为输入。首先通过文本编码模块对句子进行编码，然后通过场景编码模块对点云进行处理。然后通过多模态融合模块将文本和3D对象标记融合，以捕获3D对象和文本之间的对应关系。3D-VisTA使用自我监督学习进行预训练，可以很容易地对各种下游任务进行微调。

Text Encoding 文本编码

我们采用四层Transformer将句子S编码为文本标记{wcls,w1,w2，···，wM}序列，其中wcls为特殊分类标记([CLS])， M为句子长度。该文本编码模块由预训练BERT的前四层进行初始化[15]。?

Scene Encoding 场景编码

给定一个3D场景的点云，我们首先使用分割蒙版将场景分解成一包（bag）物体。
分割掩码既可以从ground truth中获得，也可以从实例分割模型中获得[16,28,44]。

1）对于每个对象，我们采样1024个点，并将其坐标归一化为单位球。

2）将目标点云输入PointNet++[39]获取其点特征和语义类。我们将点特征fi、嵌入语义类ci和位置li(即3D位置、长度、宽度、高度)组合为对象标记i的表示。其中Wc和Wl是附加的投影矩阵，将ci和li映射到与fi相同的维度↓

3）为了进一步提供对象的上下文表示，我们通过将对象token注入四层Transformer来捕获对象到对象的交互。受前人研究[55,24,10]的启发，我们将对象的成对空间关系明确编码到Transformer中(图2中的spatial Transformer)。

我们按照[10]定义了对象对i, j的成对空间特征↓

其中dij是欧几里得距离θh， θv是连接两个物体i，j中心的直线的水平线和对顶角

两两空间特征S = [sij]∈RN×N×5用于调节Transformer中自关注层的关注权重:

其中w∈R5用于将空间特征映射到注意分数，σ为sigmoid函数。

Multi-modal Fusion 多模态融合

我们简单地将文本和3D对象标记连接起来（？如何连接？直接相加还是相乘？看代码），并将它们发送到l层变压器(图2中的统一变压器)进行多模态融合。可学习的type embeddings 被添加到token中，以区分文本和3D对象。对于[CLS]、文本标记和3D对象标记，我们将多模态融合模块的输出分别表示为{wcls,w1:M, o1:N}。

Self-supervised Pre-training 自监督预训练

为了以自监督的方式学习3D场景和文本对齐，我们通过以下代理任务对3D- vista进行3D场景-文本对的预训练:

Masked Language Modeling (MLM)

Masked Object Modeling (MOM)

Scene-Text Matching (STM)

Downstream Task Finetuning

预训练的3D-VisTA可以很容易地适应各种
3D-VL任务通过添加轻量级任务头。更具体地说，我们在以下任务上微调3D-VisTA↓

3D Visual Grounding

3D Dense Captioning

3D Question Answering

3D Situated Reasoning

ScanScribe

scanscribe是我们建立的一个大规模的三维场景文本对数据集

如表3所示，ScanScribe中三维场景文本对的构建包括两部分:

3D场景：

我们从ScanNet[12]和3R-Scan[48]收集室内场景的RGB-D扫描。为了增加这些场景中3D对象的多样性，每个场景中10%的对象实例根据类别随机替换为Objaverse 3D对象数据库[13]中的对象。对于每个ScanNet和3R-Scan对象类别，我们从Objaverse下载大约40个对象实例作为候选对象替换。因此，我们收集了1,185个室内场景的2,995个RGB-D扫描，其中包含56.1K唯一对象实例

文本：

对于来自ScanNet的扫描，我们将基于ScanNet的现有数据集中的文本转换为场景描述，包括来自ScanQA[3]的问答对和来自Scan- reference[8]和refit3d[1]的引用表达式。对于来自3RScan的扫描，我们同时采用模板和GPT-3[6]，基于它们的场景图注释生成场景描述[51]。

具体地说，对于每个对象，我们首先从场景图中提取所有的〈object, relation, neighbor〉三元组。然后我们使用模板“This is a object, a neighbor is relation to object” 来生成描述。

注意，在基于模板的生成中，我们只选择邻居少于7个的对象。

我们进一步探索使用GPT-3生成带有如下提示“object is relation to neighbor...(repeat until all the neighbors have been used). Where is object? or Summarize the scene.”最终，对收集到的3D场景生成278K的场景描述。

这个貌似就可以解决我LISA:通过大语言模型进行推理分割_Scabbards_的博客-CSDN博客中如何用gpt3生成/改写提示的疑问了

实验

实现细节

预训练运行30个epoch，批大小为128。

AdamW[33]优化器，β1 = 0.9， β2 = 0.98。学习率设为1e−4，预热3000步，余弦衰减。

在预训练过程中，我们使用ground-truth segmentation masks生成对象级点云。

在微调过程中，我们使用ground-truth mask或Mask3d[44]，这取决于任务设置。在scanreference数据集上，我们还合并了PointGroup[28]与之前的方法进行比较。

在消融实验中，为了简单起见，我们在所有任务中都使用ground-truth masks。

预训练和微调都在单个NVIDIA A100 80GB GPU上进行。

实验结果

1.即使从头开始训练，3D-VisTA也可以通过SOTA方法获得具有竞争力的性能。

2.ScanScribe上的预训练显着提高了3D-VisTA的性能。

3.预训练的3D-VisTA在性能上大大优于SOTA。

4.在有限注释的下游任务上微调3D-VisTA可以获得强大的结果。

消融实验

Transformer Depth

Pre-training Objectives

Pre-training Data

定性研究和附加结果

我们进行额外的研究，以更好地理解预训练是如何帮助的。

如图4所示，预训练提高了3D-VisTA在视觉基础上的空间理解能力，使其更符合人类对空间关系的先验观点和推理。当模型需要将目标对象与同一类的多个实例区分开来时，这非常有用。预训练还有助于更好地理解颜色和形状等视觉概念，以及回答问题和情境推理的情况。

此外，预训练增强了长文本与3D场景对齐的能力，如图5所示，较长查询的改进幅度更大。

未来工作

目前，3D- vista使用离线3D物体检测模块，这可能是进一步改进的瓶颈。在预训练阶段共同优化目标检测模块是一个有趣的未来方向。此外，对于大规模3D-VL预训练，ScanScribe的数据量仍然不足，因此，扩大预训练数据集和模型大小是进一步提高3D-VL学习的一个有希望的方向。

自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
交错并联Buck+LLC变换器的建模与控制优化研究
交错并联Buck+LLC变换器的建模与控制优化研究前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。摘要本文针对宽输入电压范围(200-450V)、多电压输出(12-48V)的高效DC-DC变换系统，提出了一种基于交错并联Buck预调节器和LLC谐振变换器的两级式拓扑结构。中间母线电压设定为200V，系统输出功率为1500W，要求电压和
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
【速通RAG实战：数据库】6.RAG向量数据库原理无心水速通 RAG 实战！解锁 AI 2.0 高薪密码速通RAG实战 RAG快速开发实战 RAG RAG向量数据库相似度 FAISS Chroma
在RAG（检索增强生成）系统中，向量数据库扮演着至关重要的角色，它负责存储文本经过Embedding处理后的向量表示，并能高效地进行向量检索，以找出与查询向量最相似的文档。1.向量数据库原理1.向量表示在RAG系统里，文本首先会通过Embedding模型（如OpenAIEmbeddings、SentenceTransformers等）转化为固定维度的向量。这些向量能够捕捉文本的语义信息，使得语义相
全球软件技术峰会 2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴向日葵也有悲伤运维架构推荐算法数据结构大数据数据库架构
全球软件技术峰会2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴在软件定义未来的时代，人工智能与数字化技术正以颠覆性力量重塑全球产业格局。2025年8月15-16日，以"全球专家、卓越智慧"为宗旨的全球软件技术峰会将盛大启幕，特邀全球近50位来自微软、谷歌、亚马逊、字节跳动等企业的技术领袖及一线实战专家，围绕大模型智能应用开发、AI与ML智能运维、软件开发智能化、架构设计与演进四大核
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
开发小程序到底需要投入多少？发财北营销小程序产品运营
想开发小程序，却被价格搞得一头雾水？今天就给大家详细剖析下开发个小程序到底要多少钱✨开发方式决定基础价格-模板开发：最具性价比的选择，价格通常在1500-6000元左右。开发周期短，能快速上线。但功能和设计相对固定，个性化程度低，就像买了个精装修的样板房，格局基本不能大改。适合展示类的基础需求，如简单的企业介绍小程序。-SaaS模式：按年收费，费用从几千元到几万元不等。提供一站式解决方案，部署和维
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石大千AI助手人工智能 Python #Prompt 人工智能机器学习神经网络算法大模型幻觉 LLM
本文综合其在逻辑学、心理学及人工智能领域的核心定义、技术实现与前沿进展来对Self-Consistency（自洽性）进行系统性解析。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与跨学科内涵基础概念逻辑学定义：指理论或系统内部逻辑自洽，无矛盾或悖论。例如物理理论中，狭义相对论的速度变换
人工智能学习指南：从菜鸟到大神的进击之路橡晟人工智能深度学习计算机视觉算法学习 python
人工智能学习指南：从菜鸟到大神的进击之路前言：别慌，AI没那么可怕嘿！想学人工智能？恭喜你，你已经比90%的人更有眼光了！很多人一听到"人工智能"就开始头疼，仿佛这是什么高深莫测的巫术。其实不然，AI就像学做饭一样——刚开始可能会糊锅，但掌握了方法，你也能做出一桌好菜！目录第一章：认清现实，别被忽悠第二章：建立知识地图第三章：实战为王第四章：自检清单——你真的学会了吗？第五章：进阶之路结语：成为A
阴谋爆仓！社科院课堂朱民ST-balance节能风电被骗揭秘！受害者亲述不能出金真相！正义青天
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局若你也不幸被骗遇到此类平台一定不要打草惊蛇，早期不
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
横幅检测数据集-1500张图片智慧城市管理活动现场管理商业广告分析
横幅检测数据集-1500张图片已发布目标检测数据集合集（持续更新）️横幅检测数据集介绍数据集概览检测目标类型应用场景数据样本展示使用建议1.数据预处理优化2.模型训练策略3.实际部署考虑4.应用场景适配5.性能优化建议数据集特色商业价值技术实现路径模型选择建议特殊技术考虑集成方案建议应用效果评估性能指标建议业务价值指标YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.
低调赚钱的小生意，无需找市场，每天净赚超1500元，你敢信吗？氧惠爱高省
你是否对每天重复的朝九晚五工作生活感到乏味，渴望开启一条通往财富自由的旅程？我将为你揭示一个可能令你难以相信的秘诀——开展线上二手物品销售，日入1500元以上。没错，这正是你梦寐以求的小本生意。伴随着电子商务平台的崛起，二手商品的在线交易市场正在迅猛扩张。最新数据显示，预计到2025年全球二手市场将达到6400亿美元，增长速度将显著超过新商品市场。尽管市场竞争愈发激烈，二手市场由于其环保、性价比高
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
警惕!北恒私募高级班周一丰，马建军不正规。不让出金,不能提现,大家远离骗局! 昌龙律法
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，若你也不幸被骗遇到此类平
SIMATIC Step 7授权书的含义与应用
本文还有配套的精品资源，点击获取简介：Step7是西门子用于PLC编程的专业软件，适用于多种控制器系列，如S7-300/400和S7-1200/1500。授权书是用户合法使用该软件的证明，包含序列号或激活码，确保合法下载、安装和更新。它支持多种编程语言，符合IEC61131-3标准，并与多种自动化组件集成。此外，Step7V5.4版本可能表示软件的某个特定版本，包含新特性和性能优化。用户可以通过授
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
计算机发展史：人工智能时代的智能变革与无限可能 jdlxx_dongfangxing 计算机发展史计算机发展史
在计算机发展的漫长进程中，人工智能时代的到来无疑是最具革命性的篇章之一。它使计算机从单纯的数据处理工具，进化为能够模拟、延伸和拓展人类智能的强大系统，对科学研究、经济发展、社会生活乃至人类文明的走向，都产生了深远且不可逆转的影响。从早期对智能机器的设想，到如今人工智能技术在全球范围内的广泛应用，这一领域经历了无数次理论突破、技术迭代与实践探索，正以前所未有的速度重塑着我们的世界。人工智能的起源与早
走进区块城市，开启你的元宇宙之旅！口碑信息传播者
随着科技的飞速发展，虚拟现实、区块链、人工智能等前沿技术逐渐融入我们的生活。在这个大背景下，元宇宙概念应运而生，成为全球关注的焦点。本文将带领读者走进区块城市，一探元宇宙的究竟，感受这个未来世界的魅力。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新的虚拟世界，感受与现实世界无缝对接的震撼体验。加入国内区块链元宇
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后