AITIME论道

如何再次提问？基于连续空间改写的生成式问句数据增广

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

问句数据增广旨在自动生成上下文相关的问句增广数据，在机器阅读理解、问答、问句生成和问答式自然语言推理等任务上进一步提升模型性能。基于可控式文本改写的思想，讲者提出了一种新的问句数据增广方法称为CRQDA。该方法将问句数据增广任务看作是一个带限制的文本改写任务以生成上下文相关的可回答和不可回答问句。

刘大一恒：四川大学3+2+3本硕博连读生，师从吕建成教授。主要研究方向为自然语言生成、预训练语言模型和机器阅读理解。目前在ACL、EMNLP、AAAI、TASLP、IJCNN、TALLIP等期刊会议上以第一作者和共一作者发表论文13篇。担任ACL、AAAI、IJCAI、EMNLP、NAACL、EACL、TNNLS等期刊会议审稿人。

一、背景知识

1、数据增广是什么？

数据增广是一种常用的提升模型泛化能力的方法。相比旋转、剪裁等图像数据常用的数据增广方法，合成新的高质量且多样化的离散文本相对来说更加困难。

2、文本数据增广方法分类

第一类是通过直接对文本数据进行局部修改，如采用一些随机替换、删除、插入等操作修改原始数据以得到新的数据样本。

第二类则是利用生成的方式，通过回译、复述、使用预训练语言模型和各类生成模型如VAE，GAN等生成新的训练数据。

3、什么是问句数据增广？

文本数据增广技术被应用到文本分类和机器翻译等任务，而问句数据增广则是文本数据增广中的一类技术，它主要为机器阅读理解、问句生成、问答式自然语言推理等任务对问句数据进行增广，生成额外的成对数据。

例1：如左图所示机器阅读理解要求模型在给定的段落中找到问句的答案片段。

例2：如右图所示，给定问句和相关段落中的句子，QNLI要求模型推断该句子是否包含问题的答案。

由于上述任务需要模型对问题-段落对进行推理，因此，使用现有文本数据增广的方法直接增广问句或段落数据的可，能会导致不相关的问句-段落对，从而无法提高下游模型的性能

4、现有技术

a、可回答的问句数据

问句数据增广技术主要通过利用一种称为往返一致性的技术合成可回答的问句数据。

这类方法的思路如下：

1）给定段落C，我们通过答案抽取模型生成潜在的答案片段A；

2）利用答案感知的问句生成模型以段落C和答案A为输入生成相应的问句Q；

3）利用预先训练好的机器阅读理解模型，通过输入段落C和问句Q预测答案片段A‘；

4）如果预测的答案A’与之前生成的答案A一致，则认为该数据对质量较高，可以被保留；

通过以上方法则可以生成大量的可回答问句数据

缺点：该类技术不是专为生成相近的不可回答问句而设计的。

b、不可回答的问句数据

目前研究了不可回答问句的数据增广问题的方法是：

通过特有的数据集，如SQuAD2.0，中对迷惑性答案的标注信息作为锚点，以构建不可回答问句和可回答问句的伪成对数据集，然后通过一个pari2seq的模型，通过有监督学习的方式，将已有的可回答问句改写为相似的不可回答问句。

缺点：

①大部分的数据集都没有提供这样的迷惑答案的标注信息；

②无法轻易的构建出这样的成对数据。

解决思路：

①能否使用无监督的方法实现可回答问句到不可回答问句的改写任务呢？

②如果将问句的可回答性看作一类特别的属性，能否借助现有的无监督属性可控的文本改写技术完成问句数据增广呢？

二、基于可控式改写的问句数据增广方法——CRQDA

受连续空间修改的可控式改写方法的启发，提出了基于可控式改写的问句增广方法（Controllable Rewriting based Question Data Augmentation, CRQDA）。

与在离散空间修改问句的方法不同，该方法在连续的词向量空间，以机器阅读理解模型作为指导对问句进行改写。

相比有监督的方法，该方法不需要成对的问句语料，就可以将可回答问句改写为相似的不可回答问句。

1、核心思想

在连续空间中，以机器阅读理解模型为指导，对问句进行修改并生成新的问句数据。

由两个模块构成

1）预先训练好的机器阅读理解模型，如左图所示，它用于通过梯度信息告诉我们该怎样在连续空间中对问句的表达进行修改；

2）基于Transformer结构的自编码器，由右图所示。它用于将离散的问句映射到连续空间中并重构回离散问句。

2.1 CRQDA模型结构

a、机器阅读理解模型

采用了基于预训练语言模型（如BERT， RoBERTa），该模型将离散的问句和段落作为输入，通过词向量得到二者的词向量序列，再通过多层的Transformer得到最终的隐层表达序列，在该序列上通过分类器去预测答案的起始和结束位置，同时通过起始位置的特殊字符对问句是否可回答进行分类。

b、Transformer自编码器

①将原始的离散问句数据输入到编码器，通过词向量得到问句在连续空间中的问句向量序列；

②再通过多层Transformer、GRU和求和池化得到问句向量表达；

③接着将问句表达输入到解码器中，重构回离散问句将机器阅读理解模型训练好；

④将它的词向量权值固定并共享到Transformer自编码器的编码器之中。

自编码器训练结束之后，这两个模型的问句词向量则位于同一个连续空间之中，因此可以在这个空间之中以机器阅读理解模型为指导改写问句了。

2、推理阶段

在推理阶段，假设给定一个可回答问句，想将其改写为不可回答问句，那么写需要满足三个限制。

1）改写后的问句与相应的段落输入到机器阅读模型之后，应该让机器阅读理解模型对问句类型的预测结果由原来的可回答转变为不可回答。

2）在连续空间中基于梯度进行改写的步长应该是自适应的，防止改写过大或改写无效。

3）最终改写后生成的问句应该与原始问句相似，这样有助于提升下游模型的性能。

2.2CRQDA问句改写过程

目标1

解决步骤：

①先将原始的离散问句同时输入到机器阅读理解模型和自编码器中，得到问句向量序列，注意这两个序列实际位于同一个连续空间之中。

②将相应的段落也输入到机器阅读理解模型中，并将不可回答问句的标签作为模型问句类型分类的目标，将原始答案也作为答案预测的标签；

③计算机器阅读理解模型的损失值和对应的问句词向量的梯度；

由于原始问句是可回答的，这里刚开始被机器阅读理解模型分类为不可回答的损失值较高。④优化该损失函数为目标，固定住模型的所有参数，利用梯度信息迭代式地改写问句的词向量序列，直到机器阅读理解模型预测改写后的问句为不可回答问句的置信度满足某一阈值，得到了最终改写后的问句词向量，由自编码器就可以重构出新的不可回答问句。

2.3 CRQDA问句修改算法

目标2

解决步骤：

使用了一种动态分配初始化步长的方法，通过分配一系列的改写初始化步长，进行多轮的改写，每次改写迭代使用权重衰减的方法控制步长。

目标3

解决步骤：

设计了一种简单的数据保留机制，即通过比较改写后的问句与原始问句的一元字符重叠率，保留该重叠率在某个阈值范围内的问句作为增广的训练数据

通过这样的方法，我们就可以在不使用可回答与不可回答成对语料的情况下，将可回答问句改写为不可回答问句，同时我们也能用同样的方式生成多个可回答问句

三、实验

在SQuAD2.0数据集上，将CRQDA方法与其他文本数据增广方法进行比较。将不同方法生成的增广数据去训练同样的一个BERT-large模型，然后根据该模型的性能作为评价标准。

1、其他文本数据增广方法

主要比较了四种经典的文本数据增广方法：

1)Easy data augmentation，该方法通过随机替换、删除、插入等操作对问句进行修改生成新的问句数据；

2)back-translation回译，该方法将原始的英文问句先翻译为法语，再将法语翻译回英文，得到新的问句数据；

3)变分自编码器，该方法将原始问句映射到隐空间中，通过采样生成新的问句数据；

4)基于Transformer的自编码器，该方法与CRQDA唯一的区别在于，它通过对词向量序列增加随机高斯分布的噪声来改写问句，而CRQDA通过机器阅读理解模型的梯度信息改写问句。

之外，比较了两种最新的问句数据增广方法；

1）到往返一致技术，通过该方法生成了300万个额外的可回答问句数据；

2）使用可回答与不可回答问句的成对语料训练的pair2seq方法；

Finetune BERT-large on SQuAD2.0+Augmented dataset

2、实验结果

第一行是使用原始数据训练BERT-large模型的性能，四种常用的文本数据增广方法，包括EDA, Back-Translation, Text-VAE, and AE with Noised，都无法进一步提升模型的性能。

分析认为由于这类方法单独对问句进行改写，没有考虑段落和相应的答案信息，可能会破坏问句推理出答案的关键信息，导致引入了额外的噪音，反而损害了模型的性能。

而三种问句数据增广方法，包括 roundtrip consistency, pair2seq, and CRQDA都可以进一步提升模型的性能，并且CRQDA超过了所有基准方法。

表1 SQuAD2.0数据增广方法对比

3、实验分析

对CRQDA方法进行了进一步的实验分析，用CRQDA方法生成的数据集在其他的机器阅读理解模型上是否也有效果。

a、其他机器阅读理解模型

将生成的同样的增广数据去分别训练BERT-base、BERT-large、RoBERTa-base和RoBERTa-large，可以看到CRQDA方法都可以不同程度上提升模型的性能，在BERT-base上，F1 score甚至可以提升2.4个点。

表2 CRQDA对不同机器阅读理解模型的性能提升

b、不同的数据集

用不同数据集去训练自编码器对性能的影响，使用SQuAD2.0训练集中的所有问句数据训练自编码器，或进一步去收集更多的问句数据，在不同的QA和MRC数据集上收集了200万的高质量问句数据来训练自编码器。进一步探索了通过使用16G的wikidata来进一步预训练自编码器，以及进一步引入一些MASK的机制来预训练自编码器。

表3 不同训练数据对CRQDA的性能影响

可以看到在使用了更多的数据之后，CRQDA生成的数据对下游模型的性能有明显提升，并且自编码器的重构能力也有了很大的提升，在预训练之后几乎可以百分之百的重构原始问句，而引入了mask机制预训练模型之后，尽管可以进一步提升自编码器的重构能力，却降低了它对问句的改写能力。

这样的结果是因为引入了mask这样的噪音预训练自编码器后，可能会加强自编码的抗噪音能力，使得引入的机器阅读理解模型的梯度信息也被一定程度上忽略掉，因此降低了改写问句的性能。

总体而言，使用了预训练之后可以进一步提升方法的效果。

c、不同设定下生成的问句增广数据集

对比了CRQDA在不同设定下生成的问句增广数据集对模型性能的影响，比如只增广可回答问句，只增广不可回答问句，同时增广可回答与不可回答问句，以及通过调整阈值来保留更多或更少的增广数据等等。

表4 CRQDA不同增广数据对性能影响

实验发现所有的设定下都可以进一步提升下游模型的性能，然而，使用更多的数据却不能总是保证模型性能有进一步的提升。使用不可回答问句的增广数据对模型的性能提升最大。

d、SQUAD1.1问句数据增广任务

最后进一步将CRQDA方法用于SQUAD1.1问句数据增广任务。

①将CRQDA生成的增广问句去训练文本生成预训练语言模型，先知网络Prophetnet，通过实验发现CRQDA方法也可以进一步提升它的性能，达到了该任务上的一个SOTA效果。

②将CRQDA应用到QNLI问答式自然语言推理任务上，发现CRQDA方法可以进一步提升BERT-large的性能。

这两个实验进一步说明了CRQDA方法的一个可扩展性。

表5 CRQDA对SQuAD1.1问句生成任务的性能提升

表6 CRQDA对QNLI问答自然语言推理任务的性能提升

总结

提出了一种新的问句数据增广方法称为CRQDA，该方法能够生成包括可回答问句和不可回答问句数据对的增广数据，实验在SQuAD2.0上验证了该方法的有效性。

通过实验验证了该方法可以进一步提升问句生成、问答式自然语言推理等任务的性能。未来也考虑将该方法用到其他的任务上，比如结合视觉信息的问答任务。

论文链接：

https://www.aclweb.org/anthology/2020.emnlp-main.467.pdf

e m t

往期精彩

AI i

整理：唐家欣

排版：岳白雪

审稿：刘大一恒

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

更多资讯请扫码关注

AI TIME欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你！

请将简历等信息发至[email protected]！

微信联系:AITIME_HY

（直播回放：https://b23.tv/MA9wF4）

（点击“阅读原文”下载本次报告ppt）

uwsgi 安装
1.根据机器python环境版本进行安装pip/pip3installuwsgi安装可能报错[gcc-pthread]plugins/python/python_plugin.oInfileincludedfromplugins/python/python_plugin.c:1:plugins/python/uwsgi_python.h:2:10:fatalerror:Python.h:Nosuc
第47章 Python uWSGI 安装配置教程你得不到的念想 Python python 开发语言 linux
本文主要介绍如何部署简单的WSGI应用和常见的Web框架。以Ubuntu/Debian为例，先install依赖包：apt-getinstallbuild-essentialpython-devPythoninstalluWSGI1、通过pip命令：pipinstalluwsgi2、downloadinstall脚本：curlhttp://uwsgi.it/install|bash-sdefaul
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
安装uwsgi
安装uWSGIpip3installuwsgi启动命令/usr/local/python3/bin/uwsgi--socket0.0.0.0:8889--workersrun_server:app_server--master--processes4--threads2--stats0.0.0.0:9191在项目目录下新建[uwsgi]#web应用的入口模块名称module=run_server:
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
Python装饰器（decorator）
Python装饰器（decorator）是一种高阶函数，用于在不修改原函数代码的情况下，动态地为函数添加额外的功能。它本质上是一个接受函数作为输入并返回新函数的函数，常用于日志记录、性能测试、权限验证等场景。以下是关于Python装饰器的详细讲解：1.基本概念装饰器是一个函数，它接受一个函数作为参数，并返回一个新的函数。新函数通常会在调用原函数前后执行一些额外的逻辑。装饰器的语法糖是@decora
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
【收藏系列】Python 常用装饰器全解析 Gaffey大杂烩 python python 装饰器
Python常用装饰器全解析装饰器是Python中一个强大的特性，它允许我们在不修改原函数或类的情况下，扩展或修改其功能。本文将详细介绍几个最常用的内置装饰器。Python装饰器速查表（一句话用途）装饰器一句话作用概述@classmethod定义一个类方法，第一个参数是类本身（cls），常用于工厂函数或操作类属性。@staticmethod定义一个不依赖实例或类的工具方法，无需self或cls参数
python中plus_Python token.PLUS属性代码示例
#需要导入模块:importtoken[as别名]#或者:fromtokenimportPLUS[as别名]deftest_exact_type(self):self.assertExactTypeEqual('()',token.LPAR,token.RPAR)self.assertExactTypeEqual('[]',token.LSQB,token.RSQB)self.assertExac
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Python入门--day04--Python 推导式、常见语句和内置函数总结 the time zips by #Python基础 python 开发语言
文章目录前言一、推导式1.列表推导式2.集合推导式3.字典推导式4.生成器推导式二、常见语句1赋值语句2.控制语句2.1条件语句2.1.1if-elif-else2.1.2match-case2.2循环语句2.2.1for循环2.2.2while循环2.3循环控制语句2.3.1break2.3.2continue2.3.3pass3.range语句3.函数定义语句4.异常处理语句4.1try-ex
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

如何再次提问？基于连续空间改写的生成式问句数据增广

你可能感兴趣的:(大数据,算法,python,计算机视觉,机器学习)