字节跳动技术范儿

字节跳动CVPR 2023论文精选来啦（内含一批图像生成新研究）

计算机视觉领域三大顶会之一的 CVPR 今年已经开奖啦。

今年的 CVPR 将于六月在加拿大温哥华举办，和往年一样，字节跳动技术团队的同学们收获了不少中选论文，覆盖文本生成图像、语义分割、目标检测、自监督学习等多个领域，其中不少成果在所属领域达到了 SOTA（当前最高水平）。

一起来看看这些成果吧~

一个简洁的文本监督语义分割框架

A Simple Framework for Text-Supervised Semantic Segmentation

这项工作由字节跳动商业化技术团队与上海交通大学、早稻田大学合作完成。

文本监督语义分割是一个新颖的研究课题，它可以通过图像-文本对比学习的方式获得语义分割结果。然而，该领域之前的方法使用了专门设计的网络结构（而非通用的主干网络）。

本文表明了最基本的图文预训练模型 CLIP 本身就具有文本监督语义分割能力。首先，我们揭示了原版 CLIP 模型在定位和分割上的缺失，因为它的优化是由密集对齐的视觉和语言特征驱动的。其次，我们提出局部对齐（LoDA）的学习方式来解决这个问题，让 CLIP 的优化由稀疏的局部表示进行驱动。最后，我们提出了一个简单的分割框架（SimSeg）。LoDA 和 SimSeg 共同改进了 CLIP，从而得到精细准确的语义分割结果。

我们的方法在 PASCAL VOC 2012、PASCAL Context 和 COCO 数据集上的表现明显优于之前最先进的方法。

Project page:

github.com/muyangyi/SimSeg

Clover: 统一的视频-文本对齐及融合预训练模型

Clover: Towards A Unified Video-Language Alignment and Fusion Model

这项工作由字节跳动智能创作团队与厦门大学合作共同完成。

适用于多种视频理解下游任务（如文本检索视频、视频问答等）的视频-文本预训练模型是一个重要研究问题。近期的主要研究工作都采用单模态特征编码器上堆叠一个跨模态特征编码模块的框架，并通过对比式预训练任务进行模型训练。这些方案具有较好的通用性，然而，作者研究发现这些模型不能同时较好地对齐各模态特征且对跨模态特征较好地融合。

因此，作者团队提出了 Clover 视频文本预训练方案来进行优化。沿用单模态特征编码器+跨模态特征编码模块的框架，本文在 Clover 中引入了一种三模态对齐的预训练任务，即将视频模态，文本模态以及视频文本融合模态在特征空间进行对齐。作者借助对训练样本的语义 masking 策略来增强三模态对齐训练的效果，同时引入了 pair-wise ranking loss 来辅助更精细的 pair-wise 特征对齐。此外，Masking Language Modeling 的训练思想被用于对跨模态特征融合模块的训练。

通过一系列视频理解下游任务上的效果评估，Clover 视频-文本预训练模型在 DiDeMo、MSRVTT 和 LSMDC 三个文本-视频检索任务上取得了 zero-shot 及 finetune performance 的最佳表现；在 8 个主流的视频问答 benchmark 上也达到了新的 state-of-the-art。

arXiv:

https://arxiv.org/pdf/2207.07885.pdf

Github:

https://github.com/LeeYN-43/Clover

FreeSeg：统一、通用、开域的图像分割

FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

这篇工作由字节跳动智能创作团队和中科院自动化所共同完成。

最近，开域图像分割可以实现任意类别的基于文本的描述的分割，将分割系统推广到更通用的应用场景。然而，现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化，从而阻碍了分割模型的一致性。

因此，在本文中，作者团队提出了通用框架 FreeSeg，用于实现统一、通用、开域的图像分割。FreeSeg 通过 One-Shot Learning 优化了一个 All-in-One 网络，并采用相同的架构和参数在推理过程中无缝处理不同的分割任务，包括语义，实例和全景分割。

此外，自适应提示学习有助于统一模型捕获任务感知和类别敏感概念，提高了多任务和多种场景中的模型鲁棒性。

在 COCO、ADE 等数据集上的广泛实验结果表明，FreeSeg 在三个开域分割任务的性能和泛化方面实现了新的最先进的结果。

arXiv:

https://arxiv.org/abs/2303.17225

project page:

https://FreeSeg.github.io

InstMove：以目标为中心的视频分割的实例运动

InstMove: Instance Motion for Object-centric Video Segmentation

这篇工作由字节跳动商业化技术团队与约翰霍普金斯大学、华中科技大学合作完成。

这篇论文主要研究如何在以物体为中心的视频分割任务（包括 VIS、VOS、MOTS）中使用物体运动信息。

现有的视频分割算法通常依赖目标的外观特征进行跟踪和分割，对于被遮挡或快速移动的物体十分敏感。物体的运动信息可用于解决这个问题，但之前基于光流的运动模型在物体遮挡或快速移动时表现不佳，而常用于 MOT 任务中的恒速或卡尔曼滤波模型过于简化了物体的运动，忽略了物体的形状和形变信息。

为此，作者提出了使用 InstMove，一个基于 memory bank 的实例级别（instance-level）运动预测模型来预测目标对象的位置和形状。这个运动预测模型可以直接插入大部分实例级别的视频分割任务，帮助已有视频分割模型获得更好的表现，尤其是在遮挡和快速运动的场景下。

实验证明，在 VIS、VOS、MOTS 三个下游视频分割任务的五个数据集上，将 InstMove 插入到现有 SOTA 模型可以进一步带来 1~5 个点的提升。

arXiv:

https://arxiv.org/abs/2303.08132

code:

https://github.com/wjf5203/VNext

文本驱动的开放词汇三维场景理解

Language-driven Open-Vocabulary 3D Scene Understanding

这篇工作由字节跳动商业化技术团队与香港大学 CVMI Lab 合作完成。

开放词汇三维场景理解旨在识别未标注的新颖类别。目前 2D 开放词汇检测已经有成功的方法，但是他们都依赖爬取互联网上海量成对的图片和文字进行训练，或者利用已有的 2D 大模型。然而成对的 3D 数据和自然语言并不能直接从互联网上免费获取，需要昂贵的人工标注，从而也难以训练大模型。

为解决该问题，作者团队提出了一种结合点云和自然语言的新范式PLA (Point-Language Assocation)，通过图片提取 2D 多模态大模型的知识并赋予 3D 点云，让 3D 模型也能够理解自然语言并识别数据集标注以外的类别。PLA 首先通过用 3D 点云对应的 2D 图像作为 2D 多模态大模型的输入，抽取对于图像的语言描述，然后利用图片和点云之间的投影关系，将图片的描述关联到 3D 点云。特别的，为了提供对于 3D 点云不同粒度的语言描述，作者团队提出了场景级，视角级和实例级三种多粒度的 3D 点云-自然语言关联的方式。

PLA 在开放词汇三维语义分割和实例分割任务上大幅度超过以前的基线方法，显著提升了已有模型在未标注类别的语义理解和定位能力，促进达到开放世界检测的目的，分享来自多模态大模型领域的进展。

arXiv:

https://arxiv.org/pdf/2211.16312.pdf

code:

https://github.com/CVMI-Lab/PLA

project page:

https://dingry.github.io/projects/PLA.html

面向商品实体级表示的多模态预训练方法

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce

这篇工作由字节跳动商业化技术团队与北京大学合作完成。

文章提出了一种旨在学习商品实体级表示(Instance-Level Representation)的多模态模型ECLIP，在电商领域的诸多下游任务中性能超过了传统的多模态学习方法。

目前在自然图像中的视觉语言学习中，已经出现类似 CLIP 这样的基础模型。其基于大规模的图像-文本对来学习一个通用多模态表示，从而在不同的视觉语言任务中取得了显著的进步。但是，我们却不能直接在电子商务领域中使用这些模型。下图显示了自然图像和电商领域的商品图片的不同特性：

对于自然图像，通常其大多数像素与文本的语义内容相关。然而，在电子商务领域中，这种相关性并不明显。例如，“煎锅”或“咖啡机”只占整个图像的一小部分，图像中的前景物体是由它所附带的文本指定的。因此，要为商品图片学习到一个比较鲁棒和通用的表示，我们必须使得模型能够根据商品的文本描述，定位到特定的图像区域（商品实例）上。

因此，本文提出了 ECLIP，其引入了一个 instance decoder 结构来提取图像中和商品实体相关的表示。Decoder 中包含了由用户指定的 instance query，用于寻找一张图片中和 query 关联的 prompt 内容相关的商品实体。

另外，作者团队注意到在电商领域中，一个商品的图片通常来自不同的源头。例如商品详情页、商品广告视频，以及买家的评论等等。这些图片因相机视角或场景的变化而有所不同，但是他们都包含相同的商品实例。本文据此设计了 inter-product 和 intra-product learning 两个特殊的预训练代理任务。

通过在 100M 的电商数据中进行预训练，ECLIP 在多个电商下游任务中超过了传统的多模态学习方法。

基于 Mano 参数和 Mesh 交互的单图像双手 3D 重建

MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction

本篇论文由字节跳动智能创作团队独立完成，文章提出了一种包含手部参数和非参数交互的双手重建网络结构，在双手数据集上达到了 SOTA 效果。

针对手重建任务提出的现有方法通常参数化通用 3D 手模型或直接预测手部顶点位置。由手形状和旋转姿势组成的 MANO 参数表示更稳定，而非参数方法可以预测更准确的顶点位置。

在本文中，我们同时从单个 RGB 图像重建手部定点并估计两只手的 MANO 参数，以充分利用两种手表示的优点。为了实现这一目标，我们提出了新颖的 Mesh-Mano 交互块 (MMIB)，它将顶点位置和 MANO 参数作为两种查询标记。

MMIB 由一个用于聚合局部信息的图卷积残差块和两个具有远程依赖关系建模能力的 Transformer 编码器组成。Transformer 编码器配备了不同的非对称注意力掩码，分别对两只手内部和它们之间进行注意力建模。此外，我们引入了网格对齐修正模块以进一步增强手部网格与图像之间的对齐。

在 InterHand2.6M 数据基准上进行的大量实验证明了我们的方法能达到 SOTA 效果。

arXiv:

http://arxiv.org/abs/2303.15718

基于元学习的对未见组合健壮的参考图片目标分割框架

Meta Compositional Referring Expression Segmentation

这篇工作由字节跳动商业化技术团队与新加坡科技与设计大学合作完成。

文章提出了在参考图片目标分割(Referring Expression Segmentation, RES) 领域关于提升模型对语言元素可组合性(Language Compositionality)健壮性的解决方案。

参考图片目标分割这个任务是指在给定图片中根据文字表述预测出对应物体的 mask. 尽管这个任务已经有不少的工作，但目前的工作都没有关注语言元素可组合性这个问题。这个问题指的是模型在训练集中见过原子的语言元素，没有见过对应的组合，在测试集遇到这种未见组合无法准确理解的问题。

如下图中的例子所示，模型在在训练集中见过 dark 和 coffee 这两个单词，但没见过 dark coffee 这个组合。当模型在测试时遇到这个组合，出现无法理解的情况，从而预测失败。

因此在这项工作中，为了提升模型对这种未见组合的表现，作者团队从元学习的角度提出了一个新颖的框架，这个框架只改变模型的训练方式，因此可以无缝的和现有模型结合起来去提升他们的表现。

首先作者分析了这个任务中现有文字表达主要的三种组合方式，即单词与单词的组合，单词与词组的组合，词组与词组的组合，可见下图中的例子。

为了提升模型对这三种未见组合的表现，作者的框架做了如下设计：

先将训练集分成四个部分，其中一个子集是随机划分的。根据这个子集，使得剩下三个子集中，每个子集对应于随机划分的子集都含有一种未见的组合方式。将模型在随机划分的子集上先做训练，然后在剩下三个子集上做测试，根据测试结果去更新模型，使得模型去学习泛化的知识，从而能够更好的处理的未见的语言组合。

通过这样改变模型的训练方式，作者团队有效的提升了模型对未见组合的表现，并且在现有的数据集上取得了显著的提升。

可驱动的 3D 头像生成

OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis

这篇工作由字节跳动智能创作团队和新加坡国立大学合作完成。

这篇工作提出了一个全新的几何引导的 3D 头像合成模型 OmniAvatar。我们的网络训练只需要单视角图片就可以合成多样的外观以及丰富可信的动态细节，在保持人物一致的同时，自由控制渲染角度，头型，表情以及脖子和下巴的角度。

为了达到这样的解偶控制，我们首先基于参数化的 3D 人头模型 FLAME，定义了一个隐式的带语义的符号距离函数（SDF, signed distance function)。这个函数建立了观察空间和正则空间的可微分的 3D 点到点映射。由此我们可先利用 3D GAN（EG3D）的模型框架，在正则空间下生成符合预定义表情和头型的 3D 人头几何和外观，然后再基于我们的隐式映射函数形变到观察空间下，生成目标表情和头型。为提高控制的准确度，我们训练网络的时候要求生成的几何和底层的 FLAME SDF 尽量接近，同时生成图像里预测出来的表情系数需要符合我们输入的目标表情参数。在此基础上，我们还提出了基于表情的动态细节合成，进一步提升了动画的逼真度。

我们的模型定性和定量都超越了先前的 2D/3D 可控图像生成网络，不仅可以生成大量逼真的 3D 头像动画，也支持从单视角图像或者视频里重建可驱动的个性化 3D 头像。

arxiv:

http://arxiv.org/abs/2303.15539

360 卡通角色生成

PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime Characters

这篇工作由字节跳动智能创作团队和马里兰大学合作完成。

传统的 3D 人像重建工作通常只适用于真人的图片，而在动漫角色的 3D 重建方向的探索较少。在这篇文章中，研究者们探索了第一个基于 3D GAN 的 2D-3D 动漫角色重建模型。作者们贡献了两个卡通角色训练集(1) Vtuber Illustrations Dataset和(2) Vroid 3D Models Dataset。

第一个数据集用于训练 image translation 模型做 2D 卡通到 3D 动漫渲染风格的转换。由于卡通草稿图与 3D 渲染图存在风格上的不一致（例如草稿图中存在描边），作者们发现这一风格转换的步骤是后续的 3D 重建所必要的。

第二个数据集用于训练一个渲染图到 3D 模型的重建模型。该重建模型为一个条件 3D GAN （基于 EG3D）。其输入为一张正面的渲染图，输出则为一个 feature volume grid（和 PanoHead 相同的自研 tri-grid 表征）。

arXiv:

https://arxiv.org/abs/2303.14587

code:

https://github.com/ShuhongChen/panic3d-anime-reconstruction

3D 全头 360 度图像合成

PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360◦

这篇工作由字节跳动智能创作团队和威斯康辛麦迪逊大学合作完成。

3D GAN 网络可以合成高质量的人物头像，同时可以控制视角保持人物的一致性。但先前的 3D GAN 通常只能生成前脸，并且无法在大角度渲染下保持头像一致性。

这篇工作提出了 PanoHead, 首次实现了能 360 度全角度合成人头的 3D GAN 网络。我们的网络训练只需要单视角图片就可以合成多样的外观（比如波浪发，爆炸头）以及 3D 全头几何，同时保持360度的渲染一致性。为此，我们在之前的 3D GAN (EG3D）框架的基础上，提出了 3 个创新性的拓展。

首先，我们对训练图像集补充了大角度包括后脑勺的图像，同时提出了自适应的图像对齐（image alignment)模块，使得大角度图片在无法有效检测出人脸关键点的情况下也能和前脸图像对齐用于 GAN 网络训练。其次，我们提出了 tri-grid 的空间表示，比先前的 tri-plane 更能有效的对前脸和后脑特征解耦。最后我们还对训练图像进行了前景分割，并训练网络让其能够合成 RGB 图像的同时生成前景的分割。

PanoHead 支持任意角度渲染，并且也能从一张单视角图片中重建出 3D 全头，包括它的几何以及外观。

arxiv:

https://arxiv.org/abs/2303.13071

PlenVDB：一种用于快速训练和渲染的、内存高效的基于 VDB 的辐射场

PlenVDB: A Memory Efficient VDB-Based Radiance Fields for Fast Training and Rendering

这篇工作由字节跳动智能创作团队与上海交通大学合作完成。

论文提出了一种新的神经辐射场表示方法，利用了 VDB 这种分层稀疏体数据结构，以加速 NeRF 模型的训练和推断过程。VDB 是一种兼具稀疏和密集体积优点的数据结构，既可以紧凑地表示数据，又可以高效地访问随机和空间相关数据，因此非常适合用于 NeRF 模型的数据插值和射线投射。

Plenoptic VDB（PlenVDB），采用一种新颖的训练策略，可以直接从一组已知姿态的图像中学习 VDB 数据结构，并在实时渲染中使用。

实验结果表明，相较于之前的方法，PlenVDB 方法具有更高的效率和更好的效果。

首先，它在训练过程中收敛速度更快；其次，它提供了更紧凑的 NeRF 数据呈现格式；最后，它可以在普通的图形硬件上更加高效地进行渲染。PlenVDB 在移动端也能实时渲染，在 iPhone12 手机上达到了对于输出 1280x720 分辨率的画面每秒 30 帧的速率。

Project page:

https://plenvdb.github.io/

用于地点识别的统一检索和重排序Transformer

R2Former: Unified Retrieval and Reranking Transformer for Place Recognition

这篇工作由字节跳动智能创作团队和中佛罗里达大学合作完成。

视觉位置识别（VPR）通过将查询图像与参考数据库中的图像进行匹配来估计查询图像的位置。传统方法一般采用聚合 CNN 特征进行全局检索，并采用基于 RANSAC 的几何验证进行重新排序。然而，RANSAC 只考虑几何信息，但忽略了其他可能对重新排序有用的信息，例如局部特征相关性和注意力值。

在本文中，我们提出了一个统一的位置识别框架，该框架使用一种新颖的转换器模型处理检索和重新排序，名为 R2Former。所提出的重新排序模块考虑了特征相关性、注意力值和 xy 坐标，并学习确定图像对是否来自同一位置。整个方法是端到端可训练的，单独的重新排序模块也可以作为通用组件在其他 CNN 或 Transformer 主干上采用。

值得注意的是，R2Former 在主要 VPR 数据集上取得了显著优于最先进的方法的精确度和更少的推理时间与内存消耗。目前在 MSLS 挑战集上排名第一，并可以作为现实世界大规模应用的简单而强大的解决方案。实验还表明，视觉 Transformer 的 token 拥有与 CNN 局部特征相似的局部信息，有时在图像局部匹配上会优于 CNN 局部特征。

粒度对齐的多模态模型训练

Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

这篇工作由字节跳动智能创作团队和罗格斯大学合作完成。

传统方法在训练图片-文本模型时分别从视觉和文本 transformer 提取特征，再通过损失函数对齐两种模态的语义。然而视觉和文本信息本质上的信息粒度和尺度不同会造成学习的困难。本篇论文提出了利用共享的离散 token (Finite Discrete Tokens, FDT) 来作为统一粒度的多模态表征，从而加强图片-文本模型的语义对齐。对比 VQ 等传统方法，整个 FDT 模型是端到端可训练的，单模态 transformer 学习到的特征可通过 FDT 及交叉注意力机制得到更好的对齐，同时 FDT 从损失函数中学到好的语义信息表达。我们在图像分类和图文检索的多个数据集的实验表明，FDT 可以改进传统多模态方法(CLIP, DeCLIP)的语义对齐问题，并得到更加精确的可视化结果。

arXiv:

https://arxiv.org/abs/2303.14865

STAN：CLIP 图文预训练模型知识中的时序建模

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring

这项工作由字节跳动智能创作团队和北京大学团队共同完成。

以 CLIP 为代表的图像-文本预训练模型得益于从大规模图像-文本数据对中所学习到的图文多模态通用知识，在各类图像视觉任务中都取得了优越的性能。这些宝贵的跨模态知识是能够迁移至视频-文本领域的，并对于提升视频领域的视觉表征学习有着极大的潜在价值。为了实现图文模型的迁移，如何赋予图文模型在处理视频数据时所需的时空建模能力是其中关键的一环。

通过对过往图文模型迁移算法中时空建模方法的回顾和研究，本工作提出了一种新的旁枝结构并以此为基础构建了时空辅助网络(STAN)用于强化 CLIP 模型的时空建模能力。这种时空建模机制在不破坏图文预训练模型的高层语义知识的情况下同时利用好模型的低层视觉模式知识，从而在高层语义主导任务（如检索）和低级视觉模式主导任务（如识别）上均取得了显著的性能增益。

通过一系列视频理解下游任务上的效果评估，此方法在 DiDeMo、MSRVTT 和 LSMDC 三个文本-视频检索任务上的 finetune performance 取得了同等模型规模下最佳的性能表现；并在 Kinetics-400 和 Something-Something-v2 两个视频行为识别 benchmark 上也达到了新的 state-of-the-art.

arXiv:

https://arxiv.org/pdf/2301.11116.pdf

Github:

https://github.com/farewellthree/STAN

偏移扩散模型在文本生成图像的应用

Shifted Diffusion for Text-to-image Generation

本篇论文由字节跳动智能创作团队和纽约州立大学布法罗分校共同完成。文章提出了偏移扩散模型（Shifted Diffusion）并探讨了其在文本生成图像（Text-to-image Generation）任务上的应用。

本篇论文提出了一个全新的扩散模型，能够从文本数据推断与文本配对的、未知图像的嵌入特征（Image Embedding）。和此前的工作（DALL-E 2）相比，本文提出的偏移扩散模型从多模态预训练模型CLIP的模态差异（Modality Gap）出发，能够更有效率地生成更高质量的图像嵌入特征。当将生成的嵌入特征应用在下游的文本生成图像模型上时，我们能够得到图片质量以及准确性上的提升。

除此之外，利用偏移扩散模型，作者提出了在缺少文本数据的情况下训练或微调文字生成图像模型的新方法。和需要文本-图像配对数据集的方法不同，本文的方法可以在只有下游图像数据的情况下训练或微调文字生成图像模型。利用预训练的偏移扩散模型，我们能够节省构造下游高质量数据集的时间和金钱成本。作者在实验中取得了相同条件下最优的结果，大幅超越了先前的工作（LAFITE）。

arxiv:

https://arxiv.org/abs/2211.15388

github:

https://github.com/drboog/Shifted_Diffusion

从理论角度解决后训练量化的振荡问题

Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective

这篇工作由字节跳动智能创作团队和厦门大学共同完成。

这篇论文首次发现了以往后训练量化算法中一致存在的振荡问题。论文通过一系列理论分析发现这种震荡现象与相邻模块能力的差异有关。作者随机采样了大量重构方案，通过 PTQ 算法得到重构方案精度并且观察到震荡程度与后训练量化精度呈相关关系。

作者提出了混合重构粒度算法 MRECG。通过估计相邻模块的能力差异，排序并选择 Top-k 差异较大的邻接模块在量化过程中进行联合优化来抹平这种振荡。此外，作者在有数据和无数据两种场景分别提供了基于 loss 和基于 ModCap 指标的两种模块能力估计方式。

在抹平震荡的同时，MRECG 在不同模型广泛的比特配置下取得了后训练量化的 SOTA 性能。特别的，在小模型或低比特的配置下，重构损失震荡的更加剧烈。与此同时，作者团队的算法在抹平这种振荡的同时带来了明显的精度收益(3-6% 精度提升)。

arXiv:

https://arxiv.org/abs/2303.11906

code:

https://github.com/bytedance/MRECG

用文本信息和知识图谱来辅助 Transformer 做视频描述任务

Text with Knowledge Graph Augmented Transformer for Video Captioning

这篇工作由字节跳动和中科院合作完成。

视频描述任务的目的是用自然语言来描述视频内容。虽然近年来该任务进展显著，然而因为长尾词等难题，在现实世界的应用中仍有很大的提高空间。

在这篇工作中我们提出了 TextKG，它是利用文本信息和知识图谱来扩充 transformer 以用于视频描述的方法。TextKG 是一个由外部流和内部流组成的双流 transformer。外部流为额外的知识（例如预先构建的知识图谱等）和视频内部信息（例如显著物体区域、语音台词、视频描述）之间的交互做了建模，用于抽取额外的知识来缓解长尾词难题。而内部流用于利用视频的多模态信息（例如视频的外观、语音台词、视频描述等）来确保最终描述结果的质量。此外两个流之间还用交叉关注机制来共享信息。通过这种方式，两个流可以互相帮助以获得更准确的结果。

我们在四个视频描述数据集上进行的大量实验表明，本篇工作所提出的 TextKG 性能优于 SOTA，特别是在 YouCook2 数据集上将 CIDEr 分数提高了 18.7%。

arXiv:

https://arxiv.org/pdf/2303.12423.pdf

基于强化 Token 的自注意力网络的鲁棒自监督预训练

Token Boosting for Robust Self-Supervised Visual Transformer Pre-training

这篇工作由字节跳动商业化技术团队与新加坡科技与设计大学合作完成。

文章提出了在一种通过增强自注意力网络(Transformer)中 Token 表征能力从而使得自注意力网络在预训练的过程中可以有效的对抗输入数据的噪声，从而提升在下游任务中自注意力网络的表现。

近些年来，基于自监督训练的自注意力网络(Transformer)在很多领域取得了很好的表现，这得益于大量标记数据的预训练。自注意力网络通过自监督学习，重构被掩码的(masking)部分，使得自身可以提取具备丰富语义信息的特征。然而在现实世界的应用场景中，自注意力网络的输入数据往往包含各种类型的噪声（如下图所示），进而导致输入数据的不可靠，影响自监督预训练的效果。

因此在本文中，作者团队提出通过强化自注意力网络中 Token 的表征能力，使得自注意力网络在面对不可靠的噪声输入数据时仍然能够自动适应，学习到更为鲁棒的特征。值得注意的是，在自监督预训练的过程中，我们无需利用无噪声的数据来指导网络的学习。通过理论推导我们得出结论，在仅依靠噪声数据的情况下，我们的方法依然可以提取相对鲁棒的特征，从而提升自注意力网络在噪声数据上的表现。

在本文中，作者为自注意力网络提出了 Token 强化模块 TBM(Token Boosting Module)。该模块由一个小型的自编码器网络 g 以及可学习参数 α 构成，可以将之放置在任意自注意力网络模块后。该自编码器网络的输入特征由两部分 F、Q 构成。F 表示前级网络输出的含噪特征，Q 表示可控噪声（由 α 调节），两者相加构成输入特征。输入特征 I 送入自编码器网络 g 进行重构，得到的重构特征 F^ 经由公式（1）的计算得到模块输出 R^ 并送入自注意力网络的下一层。作者在文中进行了相应的理论推导得出结论，经过 TBM 的处理，模块的输出特征在保留表征能力的基础上具备了对噪声输入的鲁棒性，并进行了详尽的实验验证。

UNINEXT: 基于目标检测和检索的统一实例感知框架

Universal Instance Perception as Object Discovery and Retrieval

这篇工作由字节跳动商业化技术团队与大连理工大学、香港大学合作完成。

文章将 10 项常见的实例感知任务统一成了一种提示词引导的物体发现与检索范式，并训练了一个统一模型在来自 10 项任务的 20 个富有挑战性的数据集上取得了优异的性能。

常见的 10 项实例感知任务本质上都是要找到具有特定属性的实例。然而，当前大多数实例感知方法都是为单一或者部分子任务设计，并且只在特定任务的数据上训练的。这一分裂的设计理念带来了以下缺点：

（1）不同任务上学习到的知识难以共享，导致学习到的表征的泛化能力不足且参数冗余

（2）忽视了不同任务之间相互帮助的可能性。

本文中，作者团队提出了 UNINEXT：下一代通用实例感知模型。UNINEXT 将 10 项实例感知任务统一成了一种提示词引导的物体发现与检索范式。具体来说，在提示词的引导下，UNINEXT 首先发现 N 个物体，之后根据实例-提示匹配度分数检索出最终的实例预测结果。基于这一统一的建模方式，通过改变输入的提示词（例如类别名称，语言描述，物体标注），UNINEXT 即可灵活地感知不同属性的实例。

基于这一统一的模型结构，UNINEXT 可以从来自 10 项任务的大量数据中学习通用的物体表示，并用一个模型一套参数同时解决 10 项实例感知任务。大量的实验表明，UNINEXT 在 20 个富有挑战性的数据集上取得了优异的性能。

arXiv:

https://arxiv.org/abs/2303.06674

code:

https://github.com/MasterBin-IIAU/UNINEXT

你可能感兴趣的:(深度学习,计算机视觉,人工智能,CVPR)

语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？ 985小水博一枚呀人工智能 pytorch 语言模型大模型
【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？文章目录【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？前言思维链（CoT）在大模型中的应用示例示例任务：应用思维链提示：模型输出：分析：思维
什么是智能体（Agent）？用什么都重名大模型相关人工智能 Agent 大模型
目录前言一、大语言模型1.什么是大语言模型？2.应用领域二、什么是Agent三、Agent核心特点1.感知能力2.规划能力3.行动能力4.记忆能力总结前言目前智能体市场正处于快速发展阶段，呈现出市场规模增长迅猛、应用领域广泛、竞争格局多元化等特点。基于此，让我们一起来学习一下何为智能体。一、大语言模型1.什么是大语言模型？大语言模型是一种采用大量数据进行训练的人工智能模型，主要用于理解和生成自然语
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
中电金信：十问高质量数据集：金融大模型价值重塑有“据”可循
2025年，随着大模型在金融领域的深度应用，高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期，国家政策不断深入推进：2月，国务院国资委启动“AI+”专项行动，着力攻克数据难题；5月，数字中国峰会发布了首批30项央企AI高质量数据集成果；6月，在央国企金融领域人工智能高质量数据集工作推进会上，14家企业共同签署了“央国企金融数据产业共同体倡议书”，旨在推动人工智能与数据
毕业论文 | 人工智能侵权责任法律问题研究——以无人驾驶汽车为例北斗猿毕业论文设计人工智能无人驾驶法律侵权责任法民法典
===========================================github：https://github.com/MichaelBeechanCSDN：https://blog.csdn.net/u011344545===========================================人工智能侵权责任法律问题研究——以无人驾驶汽车为例目录摘要一、绪论(一)课
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
算法化资本——智能投顾技术重构金融生态的深度解析田园Coder 人工智能科普人工智能科普
金融市场的数字化进程正经历着本质性跃迁。当传统交易大厅的开放式喊价被服务器集群的低频嗡鸣取代，当投资决策从人类直觉转向概率矩阵计算，一场由人工智能驱动的资本范式革命已悄然降临。智能投顾作为这场变革的核心载体，其技术架构不仅重塑财富管理的运作逻辑，更在认知层面挑战着金融市场的存在根基。理解这场变革的深度与广度，需要穿透技术表象，审视算法与资本结合引发的复杂生态嬗变。智能投顾系统的技术支柱建立于三重认
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
生成式人工智能认证（GAI认证）含金量怎么样？技能咖 GAI认证生成式人工智能认证人工智能
当生成式人工智能（GenerativeAI）的浪潮以摧枯拉朽之势重塑职业版图时，一个尖锐的问题正悬在无数人的心头：在技术迭代比眨眼更快的时代，如何证明自己具备驾驭AI的核心能力？这场认知革命的背后，一张认证证书的价值早已超越了纸面——它既是个人能力的“信用背书”，也是企业筛选人才的“技术密码”。而生成式人工智能认证（GAI认证）的诞生，恰似一把打开未来之门的密钥，其含金量究竟几何？答案藏在三个维度
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析 G皮T #大语言模型人工智能 LLM 大语言模型 chatgpt deepseek DeepSeek-R1 DeepSeek-V3
ChatGPT、DeepSeek-R1、DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3核心区别总结2.4如何选择3.R1和V3有什么含义3.1DeepSeekR1的"R"3.2DeepSeekV3的"
在学校研究学习的偏算法，秋招投递开发岗位还有希望吗程序员
前言Thelasttime,Ihavelearned这是星球同学，在周五晚上答疑聊天的时候对我的提问：如果简历上的项目偏算法，但是自学了一些操作系统和计网的知识，秋招的时候投递偏开发的岗位有希望吗？简历上是否也要加上相关项目？估计也是很多朋友的疑问，毕竟很多同学读研，有些老师疯狂push，要成果，发论文。要想尽快发论文，那只能“研究”人工智能、算法的一些东西了。但是众所周知，算法要求很高，不仅要求
【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿东临碣石82 人工智能
摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。如今，人工智能领域也正经历着类似的演变，标志着从仅能对图像进行思考的模型向真正
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi