喜欢打酱油的老鸟

BERT新转变：面向视觉基础进行预训练

2019-12-29 05:43:17

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

论文作者：

Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee（佐治亚理工学院、俄勒冈州立大学、Facebook AI Research）

论文地址：

https://www.aminer.cn/pub/5db9297647c8f766461f745b/

论文代码：

https://github.com/jiasenlu/vilbert_beta

摘要

本文提出ViLBERT(Vision-and-Language BERT)，该模型学习图像内容和自然语言的无任务偏好的联合表征。ViLBERT在BERT的基础上扩展为多模态双流模型，在各自的流中处理图像和文本输入，这两个流通过共注意力transformer层进行交互。该模型在Conceptual Captions数据集上进行预训练，再将其迁移应用到多个视觉-语言任务：视觉问答，视觉常识推理，指示表达(referring expressions)和基于字幕的图像检索。ViLBERT应用到下游任务时仅需对基础架构进行少量添加。实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。

ViLBERT代表了一种转向：从将学习视觉和语言之间的基础知识仅作为任务训练的一部分，转向将视觉基础知识作为一种可预训练和可迁移的能力。

介绍

视觉理解任务包括通过在图像、视频甚至整个3D环境中生成或响应自然语言已经取得了稳步的进展。这些方法和对应的任务可以归为"vision-and-language"。尽管人们普遍需要将自然语言和视觉刺激结合起来，即进行视觉基础训练，但用于vision-and-language任务的方法缺乏一个统一的基础以提升这种能力。相反，最主要的策略是先基于其他大规模任务分别预训练语言和视觉模型，然后将其作为具体任务训练的一部分学习基础知识。这种方案学习到的基础知识并不牢靠，当视觉-语言数据有限或有偏时，模型泛化能力很差。

先预训练再迁移的学习方案在计算机视觉和自然语言处理中广为应用。这种易用且表示能力强大的方案已经成为标配。对于vision-and-language任务来说使用这种方案当然也是必不可少的，与此同时考虑视觉和语言之间的关系也同等重要。比如即使狗品种分类的视觉表征是完美的，但是当下游vision-and-language模型无法将该视觉表征与形如"小猎犬"或"牧羊人"这样的近似短语进行关联时，这种完美的视觉表征也是近乎无用。因此，本文提出一种通用的视觉基础模型，这种模型可以学习上述的这些联系，并将它们运用到多个vision-and-language任务中。换句话说，ViLBERT是面向视觉基础的预训练。

为学习视觉和语言的联合表征，本文参照了最近在自监督学习方面取得的成果。在NLP领域的佼佼者如ELMo、BERT、GPT等，这些模型都取得了令人瞩目的成果。本文通过类似的方法来学习视觉基础知识，我们需要先确定一个视觉和语言能够相互对应的数据集。本文选用的是Conceptual Captions数据集，该数据集大概包括330万张图像，每张图像带有弱关联的描述标题。这些图像均来源于网络上带有alt-text的图像。补充一点，所谓alt-text是在html语法中图片的替代文字，当图片失效或是无法显示时，浏览器显示会被文字替代。

本文提出的ViLBERT是一个能够从视觉-语言数据集中学习到任务无关的视觉基础知识的联合模型。ViLBERT扩展了BERT模型以共同推理文本和图像。本文的关键创新点在于提出一种双流机制，即分别面向视觉和语言的流。该双流能够在共注意力transformer层进行交互。该结构能够适应每种模态的不同处理需求，并在不同表示深度上提供模态之间的交互。实验结果表明，该结构优于单流统一模型。

在Conceptual Captions进行预训练时涉及的目标函数：

(1)给定输入，预测被遮蔽的字和图像区域的语义；

(2)预测图像和文本是否语义匹配。

在预训练之后引入4个vision-and-language 任务：

(1)视觉问答；

(2)视觉常识推理；

(3)指示表达；

(4)基于字幕的图像检索。

ViLBERT在上述4个任务上都取得了SOTA结果。这里选用的基准是面向具体任务最先进模型(分别独立预训练视觉和语言模型)，实验结果表明ViLBERT在各个任务上都提升了2~10个百分点的精度。此外，ViLBERT针对这些任务的修改很简单，所以该模型可以作为跨多个视觉和语言任务的视觉基础。

方法

与BERT相关的基础理论就不赘述了。这里主要介绍ViLBERT对于BERT的改进。ViLBERT与BERT的对比见于Figure 1。ViLBERT修改BERT中query条件下的key-value注意力机制，将其发展成一个多模态共注意transformer模块。

Figure 1：本文基于transformer框架引入的一种新型共注意力机制。在多头注意力中交换的key-value对，该结构使得vision-attended语言特征能够并入视觉表征(反之亦然)。

（一）ViLBERT：联合图像和文本表征的BERT拓展

受BERT的启发，可以发展出类似的模型并训练出能够从文本-图像对中学习到图像和文本的联合表征。具体到本文，我们考虑的是静态图像及其对应描述文本的联合表征。

一种对BERT改动最小的简单方法是：通过聚类简单地将视觉输入的空间离散化，将这些看得到的"token"与文本输入完全一样对待，然后预训练一个BERT模型。这种框架有如下缺点：

(1)初始化的聚类可能造成错误离散化和丢失视觉细节；

(2)以相同的方式对待两种模式的输入，忽略了它们可能需要不同级别的处理。这其实是由于固有的复杂性或其输入表征的初始抽象级别所需要的。比如，图像区域之间的关系可能比句子中的单词弱，而视觉特征本身往往已经是一个非常深的网络的输出；

(3)强制将预训练的权重去适应大量额外的视觉"token"可能会破坏已经学习的BERT语言模型；

本文提出一个双流架构，分别对每种模态进行建模，然后通过一组基于注意力的交互将它们融合在一起。这种方法允许对每种模态使用可变的网络深度，并支持不同深度的跨模态连接。

ViLBERT的模型如Figure 2所示。该模型由分别作用于图像区域和文本段的2个平行BERT-style的模型组成。每个流都是由一系列的transformer blocks(TRM)和共注意力transformer层(Co-TRM)组成。其中Co-TRM是用以模态之间信息的交换。需要注意的是，流之间的信息交换是被限制于特定层的，所以，文本流在与视觉特征进行交流之前有更多的处理。这也符合我们的直觉，所选择的视觉特征已经相对高级，与句子中的单词相比，视觉特征需要有限的上下文聚合。

Figure 2：ViLBERT由两个平行的流组成，分别是视觉流(绿色)和语言流(紫色)，这两个流在共注意力transformer层进行交互。这种结构允许每个模态有不同的深度，并通过共注意力机制实现稀疏交互。虚线框下的乘数下标表示重复的层。

• 共注意力Transformer层：

本文引入的共注意力transformer层如Figure 1b所示。给定中间态的视觉表征和语言表征，该模块计算query、key和value矩阵(与标准的transformer block一样)。但是，每个模态中的keys和values输入到其他模态的多头注意力block。因此，注意力block为每一种依赖于另一种模态产生注意池化(attention-pooled )特征。这会在视觉流中表现为图像条件下的语言注意力，在语言流中表现为语言条件下的图像注意力。后者模仿了vision-and-language模型中常见的注意力机制。Transformer block的其余部分与BERT一样，包括与初始化表征的残差相加：产生一个多模态特性。一般来说，对vision-and-language的共同注意力并不是一个新概念(之前已有学者提出)，现有工作表明类似的共注意Transformer结构在视觉问答任务是有效的。

• 图像表征：

本文基于一个预训练的目标检测网络生成图像区域特征及其视觉特征。与文本中的词不同，图像区域是天然无序的。为此本文使用了一个5维的向量对区域位置编码，从而实现图像空间位置的编码。这5个维度分别是归一化后的bounding boxes的左上角和右下角的坐标以及图像区域的覆盖占比。然后通过映射将其维数与视觉特征的维数相匹配，并对它们进行求和。此外，将特定的IMG token作为图像区域序列的起始，并用IMG token最后的输出表征整个图像。换句话说，带有空间位置编码信息的视觉特征的均值池化表征整个图像。

• 训练任务和目标：

训练ViLBERT时采用了2个预训练的任务：

(1)遮蔽多模态建模

(2)预测多模态对齐

遮蔽多模态建模任务如Figure 3a所示：

Figure 3：在Conceptual Captions数据集上训练ViLBERT，训练过程使用两个任务目标以学习视觉基础。在学习遮蔽多模态中，模型需要根据带遮蔽的输入重建出被遮蔽掉的图像区域分类结果或词。在预测多模态任务中，模型需要预测标题描述是否与图像匹配。

• 遮蔽多模态建模：

与标准BERT一样，ViLBERT中词和图像区域输入的遮蔽占比大概是15%，在给定剩余输入的情况下，对输入进行重建。遮蔽图像区域的时候，90%时候是直接遮蔽，另外10%的时候保持不变。文本的遮蔽方式与BERT一样。需要注意的是，本文并不直接预测被遮蔽掉的特征值，而是预测对应图像区域在语义类别上的分布。为能够对此进行监督学习，本文采用用于特征抽取的预训练的目标探测模型的输出分布。训练的目标是最小化这两个分布的KL散度。这种选择反映了这样一种概念，即语言通常只识别视觉内容的高级语义，不太可能重建精确的图像特征。此外，应用回归损失可能会使其难以平衡遮蔽图像和文本输入引起的损失。

• 预测多模态对齐：

多模态对齐任务如Figure 3b所示，其目标是预测图像-文本对是否匹配对齐，即本文是否描述了图像。以图像特征序列的起始IMG token和文本序列的起始CLS token的输出作为视觉和语言输入的整体表征。借用vision-and-language模型中另一种常见结构，将IMG token的输出和CLS token的输出进行element-wise product作为最终的总体表征。再利用一个线性层预测图像和文本是否匹配。

实验设置

（一）训练ViLBERT

• 数据集：

本文使用Conceptual Captions数据集，该数据集原本是有330万图像-标题对，但是由于部分链接失效，本文只使用能够下载到的310万的数据对。

• 实施细节：

本文用BERT_base模型对ViLBERT中的语言流进行初始化。该BERT模型基于BookCorpus和English Wikipedia进行预训练。之所以选用BERT的base版主要是出于训练时间的考虑。至于更强大的BERT的large版可能会进一步提高性能，这将在未来进行试验。

使用基于Visual Genome数据集预训练的Faster R-CNN模型抽取图像区域特征。选用类别探测概率高于自信度阈值的区域，并保持10~36个的高分值的bounding boxe。视觉流中的Transformer和共注意力transformer blocks的隐含层大小为1024，注意力头为8个。

（二）Vision-and-Language迁移任务

对预训练ViLBERT用4个Vision-and-Language任务和一个诊断任务评测。这些任务具体分别是：

(1)视觉问答(VQA)，使用VQA 2.0数据集；

(2)视觉常识推理(VCR)，使用Visual Commonsense Reasoning (VCR)数据集；

(3)指示表达(referring expressions)，所谓的指示表达是对给定的自然语言指代找到对应的图像区域。本文使用的是RefCOCO+数据集；

(4)基于字幕的图像检索，使用Flickr30k数据集；

(5)零样本的基于字幕的图像检索。上述任务都是由特定下游数据集微调，在零样本任务中，直接将预训练的ViLBERT应用于Flickr30k数据集中的多模态对齐预测。

下游任务的微调策略其实很简单，只需增加一层分类器。这与社区内为每个这些任务开发专门模型所做的重大努力形成鲜明的对比。

实验结果与分析

（一）ViLBERT的基准模型

(1)Single-Stream。使用一个BERT架构处理多模态输入，这意味着视觉输入和文本输入要共享参数。与ViLBERT相比，该模型无需改动BERT体系结构，从而显著地提高了视觉处理的深度并提早了模式之间的交互。与该基准比较，以确定本文双流体系结构的影响。该基准由于两个流始终交互，所以无法缓存任何表征以提高效率。由于高计算成本，本文不在图像检索和零样本图像检索任务中评估该基准模型。

(2)没有使用预训练的ViLBERT。需要注意的是，该基准仍然对语言流进行BERT的初始化，并使用与完整ViLBERT模型相同的Faster R-CNN模型进行图像区域的表征。与此基准进行比较，以隔离偏好特定任务的基线模型的增益，这些基准模型可能是由于架构、语言初始化或视觉特性，而不是在Conceptual Captions数据集上预训练所带来的增益。

（二）上述下游任务的基准模型

(1)VQA：DFAF

(2)VCR：R2C

(3) RefCOCO+：MAttNet

(4)基于字幕的图像检索：SCAN

具体实验结果如 Table 1 所示。

基于Table 1 有以下重要发现：

(1)ViLBERT显著优于singl-stream模型；

(2)预训练能够提升视觉语言表征；

(3)在vision-and-language任务上使用ViLBERT+微调的方案十分强大。

总之，这些结果表明ViLBERT能够学习视觉-语言之间的重要关系，而这种关系能够在下游任务中被利用。

（三）视觉流深度的影响

在Table 2中对比了ViLBERT不同深度的迁移结果。

这里的深度是指CO-TRM-TRM blocks(Figure 2中的虚线部分)的重复数量。可以发现，对于VQA和图像检索任务更大的深度，性能单调增加，直到层深度为6。同样，随着深度的增加，零样本图像检索也会继续取得显著的提升。相比之下，VCR和RefCOCO+似乎更适合使用较浅的模型。

（四）大规模训练数据的优点

从Conceptual Caption数据集中随机取25%和50%的子集，并使用与上面相同的设置进行预训练和finetune ViLBERT。可以看出准确性随着数据量的增加而单调增长，这意味着ViLBERT可能会受益于更多的预训练数据集。

（五）ViLBERT在预训练过程中学到了什么

为了解ViLBERT在基于Conceptual Caption数据集的预训练中学到了什么。用零样本基于标题的图像检索任务来评估。零样本任务的性能(Table 1右)显著低于有微调的模型(31.86 vs 52.20 R1)。对于没有看到Flickr30k图像或标题该模型也能够正常执行(31.86 vs 48.60 R1)。这表明ViLBERT在预训练中学会了视觉和语言之间的语义对齐。

总结

本文面向图像和文本提出一个联合模型，并在自动收集的大规模数据集上进行预训练从而学习到视觉基础知识。本文提出的ViLBERT中引入了一种新的双流框架，该双流框架中使用了共注意力transformer blocks。ViLBERT迁移到多个vision-and-language任务时超过了最先进水平。此外，将ViLBERT迁移到这些任务是简单和容易实现：只需要为每个任务添加一个分类器。

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro