m0_61899108

【ICCV 2023】EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction, ICCV 2023

论文：https://arxiv.org/abs/2205.14756

代码：https://github.com/mit-han-lab/efficientvit

解读：MIT Han Lab | EfficientViT：高分辨率低计算视觉识别的增强线性注意力 - 知乎 (zhihu.com)

EfficientViT | 边缘设备上实时语义分割-腾讯云开发者社区-腾讯云 (tencent.com)

摘要

高分辨率密集预测得到越来越多的应用，如计算摄影、自动驾驶等。然而，巨大的计算成本使得在硬件设备上部署最先进的高分辨率密集预报模型变得困难。本文提出EfficientViT，一个新的高分辨率视觉模型家族，具有新颖的多尺度线性特性。不同于现有的高分辨率密集预测模型依赖于大量的softmax注意力、硬件低效的大内核卷积或复杂的拓扑结构来获得良好的性能，多尺度线性注意力只需轻量级和硬件高效的操作就可以实现全局感受野和多尺度学习（高分辨率密集预测的两个理想特征）。

EfficientViT在移动CPU、边缘GPU和云GPU的各种硬件平台上，与以前sota相比，提供了显著的性能提升。在不损失Cityscapes性能的情况下，EfficientViT分别比SegFormer和SegNeXt提供高达13.9倍和6.2倍的GPU延迟降低。对于超分辨率，EfficientViT比Restormer提供高达6.4倍的加速，同时在PSNR中提供0.11dB的增益。对于SegmentAnything，EfficientViT提供与ViT-Huge类似的零样本图像分割质量，GPU吞吐量高84倍。

引言

高分辨率密集预测是计算机视觉中的一项基本任务，在现实世界中有着广泛的应用，包括自动驾驶、医学图像处理、计算摄影等。因此，在硬件设备上部署最先进的（SOTA）高分辨率密集预测模型可以使许多用例受益。然而，SOTA高分辨率密集预测模型所需的计算成本与硬件设备的有限资源之间存在很大差距。它使得在实际应用中使用这些模型变得不切实际。特别是，高分辨率密集预测模型需要高分辨率图像和强大的上下文信息提取能力才能很好地工作。因此，直接从图像分类移植高效的模型架构不适合高分辨率密集预测。

本文介绍了EfficientViT，一种用于高效高分辨率密集预测的新的视觉变换器模型家族。EfficientViT的核心是一个新的多尺度线性注意力模块，它能够通过硬件高效操作实现全局感受野和多尺度学习。

因此，本文模块的设计原则是能够实现这两个关键功能，同时避免硬件低效操作。具体而言，用轻量级ReLU线性注意力代替低效的softmax注意力，以获得全局感受野。ReLU线性注意利用矩阵乘法的关联性，可以在保持函数性的同时，将计算复杂度从二次降到线性。此外，它避免了像softmax这样的硬件低效操作，使其更适合硬件部署。

然而，由于缺乏局部信息提取和多个量表学习能力。因此，用卷积增强ReLU线性注意力，并引入多尺度线性注意力模块来解决ReLU线性注意的容量限制。具体来说，用小内核卷积聚合门附近的令牌，以生成多尺度令牌。对多尺度标记进行ReLU线性关注，以将全局感知场与多尺度学习相结合。还将深度卷积插入到FFN层中，以进一步提高局部特征提取能力。

在两个高分辨率密集预测任务上广泛评估了EfficientViT：语义分割和超分辨率。与先前的SOTA高分辨率密集预测模型相比，EfficientViT性能提升。更重要的是，EfficientViT不涉及硬件低效操作，因此其FLOP减少可以很容易地转化为硬件设备上的延迟减少。

还将EfficientViT应用于Segment Anything，这是一种新兴的可提示分割任务，允许将零样本转移到许多视觉任务。EfficientViT在A100 GPU上比ViT-Huge实现了84倍的加速，同时保持了相当的零样本图像分割质量。

贡献总结如下：

介绍了一种新的多尺度线性注意力模块，用于高效的高分辨率密集预测。它实现了全局感受野和多尺度学习，同时在硬件上保持了良好的效率。据论文所知，该工作首次证明了线性注意力对高分辨率密集预测的有效性。
设计了EfficientViT，这是一个新的高分辨率视觉模型家族，基于所提出的多尺度线性注意力模块。
与之前的SOTA模型相比，论文的模型在不同硬件平台（移动CPU、边缘GPU和云GPU）上的语义分割、超分辨率、Segment Anything和ImageNet分类方面显著加快。

方法

多尺度线性注意力

Enable Global Receptive Field with ReLU Linear Attention

NLP中的线性注意力为softmax注意力，

本文使用ReLU作为核函数，对硬件更友好。公式（1）可改写为

线性注意力有两个关键优点：

允许利用矩阵乘法的关联属性来将计算复杂度从二次降低到线性而不改变功能。
在注意力模块中不涉及 softmax。 Softmax 在硬件上效率非常低，避免它可以减少延迟。

Softmax注意力与ReLU线性注意力比较。和softmax注意不同，由于缺乏非线性相似函数，ReLU线性注意不能产生尖锐的注意分布。它的局部信息提取能力弱于softmax注意力。

Softmax注意和ReLU线性注意的延迟比较。ReLU线性注意力比具有类似计算的softmax注意力快3.3-4.5倍，这要归功于消除了对硬件不友好的操作（softmax）。延迟是在高通Snapdragon 855 CPU上测量的，该CPU具有TensorFlow Lite、批量大小1和fp32。

Address ReLU Linear Attention’s Limitations

尽管ReLU线性注意力在计算复杂度和硬件稳定性方面优于softmax注意力，但ReLU线性注意有局限性。图3展示了softmax注意力和ReLU线性注意力的注意力图。由于缺乏非线性相似函数，ReLU线性注意力无法生成集中注意力图，使其在捕捉局部信息方面较弱。

为了减轻它的局限性，建议用卷积来增强ReLU的线性注意力。具体来说，在每个FFN层中插入一个深度卷积。构建块的概述如图2（左）所示，其中ReLU线性注意力捕获上下文信息，FFN+DWConv捕获局部信息。

聚合来自附近Q/K/V令牌的信息，以获得多尺度令牌，从而提高ReLU线性模型的多尺度学习能力。该信息聚合过程对于每个头部中的每个Q、K和V是独立的。只使用小内核深度可分离卷积进行信息分离，以避免损害硬件效率。在实际实现中，在GPU上独立执行这些聚合操作是低效的。因此，利用组卷积来减少总运算次数。具体而言，将所有DWConv融合为单个DWConv，而将所有1x1 Conv组合为单个1x1组卷积，其中组的数量为3×#头，每组中的通道数量为d。在获得多尺度令牌后，对它们进行ReLU线性关注，以提取多尺度全局特征。最后，沿着头部维度连接特征，并将它们提供给最终的线性投影层以融合特征。

EfficientViT结构

Backbone. EfficientViT的主干遵循标准设计，由input stem和四个stage组成，这些阶段的特征图大小逐渐减小，通道数量逐渐增加。在stage3和stage4插入EfficientViT模块，下采样使用MBConv。

Head. P2、P3和P4表示阶段2、3和4的输出，形成特征图的金字塔。使用1x1卷积和标准上采样操作（例如，双线性/双三次上采样）来匹配它们的空间和信道大小，并通过加法将它们融合。采用了一种简单的头部设计，该设计包括几个MBConv块和输出层（即预测和上采样）。

实验

多尺度学习的消融实验

ImageNet分类比较实验

Cityscapes语义分割比较实验

ADE20K语义分割比较实验

超分辨率比较实验

COCO val2017零样本图像分割比较实验

可视化结果

关键代码

seg.py

#https://github.com/mit-han-lab/efficientvit/blob/master/efficientvit/models/efficientvit/seg.py

import torch
import torch.nn as nn

from efficientvit.models.efficientvit.backbone import EfficientViTBackbone, EfficientViTLargeBackbone
from efficientvit.models.nn import (
    ConvLayer,
    DAGBlock,
    FusedMBConv,
    IdentityLayer,
    MBConv,
    OpSequential,
    ResidualBlock,
    UpSampleLayer,
)
from efficientvit.models.utils import build_kwargs_from_config

__all__ = [
    "EfficientViTSeg",
    "efficientvit_seg_b0",
    "efficientvit_seg_b1",
    "efficientvit_seg_b2",
    "efficientvit_seg_b3",
    "efficientvit_seg_l1",
    "efficientvit_seg_l2",
]


class SegHead(DAGBlock):
    def __init__(
        self,
        fid_list: list[str],
        in_channel_list: list[int],
        stride_list: list[int],
        head_stride: int,
        head_width: int,
        head_depth: int,
        expand_ratio: float,
        middle_op: str,
        final_expand: float or None,
        n_classes: int,
        dropout=0,
        norm="bn2d",
        act_func="hswish",
    ):
        inputs = {}
        for fid, in_channel, stride in zip(fid_list, in_channel_list, stride_list):
            factor = stride // head_stride
            if factor == 1:
                inputs[fid] = ConvLayer(in_channel, head_width, 1, norm=norm, act_func=None)
            else:
                inputs[fid] = OpSequential(
                    [
                        ConvLayer(in_channel, head_width, 1, norm=norm, act_func=None),
                        UpSampleLayer(factor=factor),
                    ]
                )

        middle = []
        for _ in range(head_depth):
            if middle_op == "mbconv":
                block = MBConv(
                    head_width,
                    head_width,
                    expand_ratio=expand_ratio,
                    norm=norm,
                    act_func=(act_func, act_func, None),
                )
            elif middle_op == "fmbconv":
                block = FusedMBConv(
                    head_width,
                    head_width,
                    expand_ratio=expand_ratio,
                    norm=norm,
                    act_func=(act_func, None),
                )
            else:
                raise NotImplementedError
            middle.append(ResidualBlock(block, IdentityLayer()))
        middle = OpSequential(middle)

        outputs = {
            "segout": OpSequential(
                [
                    None
                    if final_expand is None
                    else ConvLayer(head_width, head_width * final_expand, 1, norm=norm, act_func=act_func),
                    ConvLayer(
                        head_width * (final_expand or 1),
                        n_classes,
                        1,
                        use_bias=True,
                        dropout=dropout,
                        norm=None,
                        act_func=None,
                    ),
                ]
            )
        }

        super(SegHead, self).__init__(inputs, "add", None, middle=middle, outputs=outputs)


class EfficientViTSeg(nn.Module):
    def __init__(self, backbone: EfficientViTBackbone or EfficientViTLargeBackbone, head: SegHead) -> None:
        super().__init__()
        self.backbone = backbone
        self.head = head

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        feed_dict = self.backbone(x)
        feed_dict = self.head(feed_dict)

        return feed_dict["segout"]


def efficientvit_seg_b0(dataset: str, **kwargs) -> EfficientViTSeg:
    from efficientvit.models.efficientvit.backbone import efficientvit_backbone_b0

    backbone = efficientvit_backbone_b0(**kwargs)

    if dataset == "cityscapes":
        head = SegHead(
            fid_list=["stage4", "stage3", "stage2"],
            in_channel_list=[128, 64, 32],
            stride_list=[32, 16, 8],
            head_stride=8,
            head_width=32,
            head_depth=1,
            expand_ratio=4,
            middle_op="mbconv",
            final_expand=4,
            n_classes=19,
            **build_kwargs_from_config(kwargs, SegHead),
        )
    else:
        raise NotImplementedError
    model = EfficientViTSeg(backbone, head)
    return model

Backbone.py

# https://github.com/mit-han-lab/efficientvit/blob/master/efficientvit/models/efficientvit/backbone.py

import torch
import torch.nn as nn

from efficientvit.models.nn import (
    ConvLayer,
    DSConv,
    EfficientViTBlock,
    FusedMBConv,
    IdentityLayer,
    MBConv,
    OpSequential,
    ResBlock,
    ResidualBlock,
)
from efficientvit.models.utils import build_kwargs_from_config

__all__ = [
    "EfficientViTBackbone",
    "efficientvit_backbone_b0",
    "efficientvit_backbone_b1",
    "efficientvit_backbone_b2",
    "efficientvit_backbone_b3",
    "EfficientViTLargeBackbone",
    "efficientvit_backbone_l0",
    "efficientvit_backbone_l1",
    "efficientvit_backbone_l2",
    "efficientvit_backbone_l3",
]


class EfficientViTBackbone(nn.Module):
    def __init__(
        self,
        width_list: list[int],
        depth_list: list[int],
        in_channels=3,
        dim=32,
        expand_ratio=4,
        norm="bn2d",
        act_func="hswish",
    ) -> None:
        super().__init__()

        self.width_list = []
        # input stem
        self.input_stem = [
            ConvLayer(
                in_channels=3,
                out_channels=width_list[0],
                stride=2,
                norm=norm,
                act_func=act_func,
            )
        ]
        for _ in range(depth_list[0]):
            block = self.build_local_block(
                in_channels=width_list[0],
                out_channels=width_list[0],
                stride=1,
                expand_ratio=1,
                norm=norm,
                act_func=act_func,
            )
            self.input_stem.append(ResidualBlock(block, IdentityLayer()))
        in_channels = width_list[0]
        self.input_stem = OpSequential(self.input_stem)
        self.width_list.append(in_channels)

        # stages
        self.stages = []
        for w, d in zip(width_list[1:3], depth_list[1:3]):
            stage = []
            for i in range(d):
                stride = 2 if i == 0 else 1
                block = self.build_local_block(
                    in_channels=in_channels,
                    out_channels=w,
                    stride=stride,
                    expand_ratio=expand_ratio,
                    norm=norm,
                    act_func=act_func,
                )
                block = ResidualBlock(block, IdentityLayer() if stride == 1 else None)
                stage.append(block)
                in_channels = w
            self.stages.append(OpSequential(stage))
            self.width_list.append(in_channels)

        for w, d in zip(width_list[3:], depth_list[3:]):
            stage = []
            block = self.build_local_block(
                in_channels=in_channels,
                out_channels=w,
                stride=2,
                expand_ratio=expand_ratio,
                norm=norm,
                act_func=act_func,
                fewer_norm=True,
            )
            stage.append(ResidualBlock(block, None))
            in_channels = w

            for _ in range(d):
                stage.append(
                    EfficientViTBlock(
                        in_channels=in_channels,
                        dim=dim,
                        expand_ratio=expand_ratio,
                        norm=norm,
                        act_func=act_func,
                    )
                )
            self.stages.append(OpSequential(stage))
            self.width_list.append(in_channels)
        self.stages = nn.ModuleList(self.stages)

    @staticmethod
    def build_local_block(
        in_channels: int,
        out_channels: int,
        stride: int,
        expand_ratio: float,
        norm: str,
        act_func: str,
        fewer_norm: bool = False,
    ) -> nn.Module:
        if expand_ratio == 1:
            block = DSConv(
                in_channels=in_channels,
                out_channels=out_channels,
                stride=stride,
                use_bias=(True, False) if fewer_norm else False,
                norm=(None, norm) if fewer_norm else norm,
                act_func=(act_func, None),
            )
        else:
            block = MBConv(
                in_channels=in_channels,
                out_channels=out_channels,
                stride=stride,
                expand_ratio=expand_ratio,
                use_bias=(True, True, False) if fewer_norm else False,
                norm=(None, None, norm) if fewer_norm else norm,
                act_func=(act_func, act_func, None),
            )
        return block

    def forward(self, x: torch.Tensor) -> dict[str, torch.Tensor]:
        output_dict = {"input": x}
        output_dict["stage0"] = x = self.input_stem(x)
        for stage_id, stage in enumerate(self.stages, 1):
            output_dict["stage%d" % stage_id] = x = stage(x)
        output_dict["stage_final"] = x
        return output_dict


def efficientvit_backbone_b0(**kwargs) -> EfficientViTBackbone:
    backbone = EfficientViTBackbone(
        width_list=[8, 16, 32, 64, 128],
        depth_list=[1, 2, 2, 2, 2],
        dim=16,
        **build_kwargs_from_config(kwargs, EfficientViTBackbone),
    )
    return backbone

AI离全社会普及，只差一个计算中心？ a13163944010 人工智能
过去十年，人工智能（AI）大爆炸，并第一次走进普通人的生活。但蓬勃发展的AI却碰到一个空前棘手的问题：自2012年以来，AI算力需求6年增长30万倍，远超摩尔定律！人类现有的基础设施，已跟不上AI算力需求的增长。未来，该怎么办？【1】一百多年前，人类也曾面临同样的难题。1866年，德国西门子发明自激发电机，开启了人类的电力时代。此后十几年，虽然很多企业纷纷采用电能这种新的动力，但一台电机只能供应一
首次使用“非英伟达”芯片！OpenAI租用谷歌TPU，降低推理计算成本加百力科技知识财经研究人工智能 chatgpt
OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。英伟达的芯片主导地位正被侵蚀，OpenAI租用谷歌TPU，为首次大规模使用“非英伟达”芯片。周六，据媒体报道，作为全球最大的人工智能芯片客户之一，OpenAI近期开始租用谷歌的TPU芯片为ChatGPT等产品
AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
Netty学习路线图 - 第二阶段：Java NIO基础 by.G 学习 java nio
Netty学习路线图-第二阶段：JavaNIO基础Netty学习系列之二本文是Netty学习路线的第二篇，重点讲解JavaNIO的核心概念及编程模型，这是理解Netty设计理念的关键基础。引言在上一篇文章中，我们介绍了学习Netty的第一阶段：Java基础与网络编程基础。本篇文章我们将深入探讨JavaNIO(NewI/O或Non-blockingI/O)的核心概念和编程模型，这是理解Netty框架
『大模型笔记』KV缓存：Transformer中的内存使用！ AI大模型前沿研究大模型笔记缓存 transformer KVcache 大模型 LLM
『大模型笔记』KV缓存：Transformer中的内存使用！文章目录一.KV缓存：Transformer中的内存使用！1.1.介绍1.2.自注意力机制回顾1.3.KV缓存的工作原理1.4.内存使用和示例1.4.1.存储键值缓存需要多少内存1.4.2.Example:OPT-30B（300亿参数）四.参考文献进一步阅读：加速GPT-KV缓存：https://www.dipkumar.dev/beco
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
初学Spring AI 笔记笑衬人心。大模型学习 spring 人工智能笔记
目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain对比常见问题与建议SpringAI简介SpringAI是Spring团队推出的人工智能集成框架，旨在简化AI模型（如OpenAI、HuggingFace、Mistral、AzureOpenA
AI新高度——DEEPSEEK 数字隐士·赛博智者 ai
DeepSeek是由中国人工智能公司「深度求索」开发的一系列高性能大语言模型产品及相关技术体系，其定位为通用人工智能（AGI）探索者，目前已发展成为全球增长最快、性能领先的开源模型之一。下面是关于DeepSeek的详细介绍：一、DeepSeek的开发者与背景‌公司名称‌：杭州深度求索人工智能基础技术研究有限公司（成立于2023年）‌核心支持‌：由中国知名对冲基金「高毅资产」创立并提供资金与技术资源
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
Python流星雨
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
关于举办首届中国工业互联网大赛的通知—— 500万奖金池 kelebb 工业互联网产业互联网工业互联网比赛大赛工信部产业互联网
*500万奖金池：关于举办首届中国工业互联网大赛的通知各有关单位：为贯彻《国务院关于深化“互联网+先进制造业”发展工业互联网的指导意见》等系列文件精神，推进工业互联网创新发展应用，定于2019年9-12月举办首届中国工业互联网大赛。现将大赛有关事项和安排通知如下：一、大赛主题点亮智慧之光二、组织机构指导单位：工业和信息化部、浙江省人民政府主办单位：中国工业互联网大赛组委会承办单位：国家工业信息安全
【机器学习&深度学习】本地部署 vs API调用：关键看显存！一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、本地部署VSAPI调用1.模型运行方式2.性能与速度3.成本4.隐私与安全5.何时选择哪种方式？二、为什么推荐本地部署？1️⃣零依赖网络和外部服务，更可靠稳定2️⃣无调用次数限制，更适合高频或批量推理3️⃣避免长期API费用，节省成本4️⃣保护用户隐私和数据安全5️⃣可自定义、深度优化6️⃣加载一次即可复用，低延迟高性能7️⃣离线可用（重要！）三、适合本地部署的情况四、本地部署条件4.1模
深度学习 vs 传统机器学习：哪个更适合你的项目？ AI大模型应用之禅深度学习机器学习人工智能 ai
深度学习vs传统机器学习：哪个更适合你的项目？关键词：深度学习、传统机器学习、特征工程、数据量、计算资源、项目选择、算法对比摘要：本文将用"炒菜"和"拼图"等生活案例，从核心原理、适用场景、资源需求等维度对比深度学习与传统机器学习。通过具体代码示例和真实项目场景分析，帮助开发者和企业决策者快速判断：你的项目该选深度学习还是传统机器学习？背景介绍目的和范围随着AI技术普及，"该用深度学习还是传统机器
LLM大语言模型学习笔记（1） Arixs666 大语言模型语言模型笔记人工智能
1.概念大语言模型（LLM，LargeLanguageModel），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。LLM通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。2.能力2.1涌现能力区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一是它们的涌现能力。涌现能力是一种令人惊讶的能力，它在小型模型中不明显
Spring 中 Bean 的生命周期笑衬人心。 JAVA学习笔记 spring java 后端
一、什么是Bean生命周期？Spring中的Bean生命周期是指一个Bean从被容器创建到最终销毁所经历的一系列过程。它体现了SpringIOC容器在管理Bean实例时所执行的各个钩子流程，包括初始化、依赖注入、增强处理、销毁等多个环节。二、Bean生命周期完整流程（逻辑顺序）1.实例化（Constructor）2.属性注入（依赖注入，DI）3.感知阶段（Aware接口）4.初始化前处理（Bean
大语言模型（LLM）笔记笑衬人心。大模型学习语言模型笔记人工智能
一、什么是大语言模型（LLM）？LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。其本质任务是**预测下一个token（词/字/符号）**的概率分布，但通过大规模参数和数据的支持，表现出类人智能的行为。二、核心架构：Transformer由Google在2017年提出，是目前LLM的主流架构。
第十三节：Vben Admin 最新 v5.0 (vben5) + Python Flask 快速入门 - 接口操作审计日志功能锅锅来了 Vben python flask 开发语言
Vben5系列文章目录基础篇✅第一节：VbenAdmin最新v5.0(vben5)+PythonFlask快速入门✅第二节：VbenAdmin最新v5.0(vben5)+PythonFlask快速入门-PythonFlask后端开发详解(附源码)✅第三节：VbenAdmin最新v5.0(vben5)+PythonFlask快速入门-对接后端登录接口(上)✅第四节：VbenAdmin最新v5.0(v
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
人类编程时代即将终结？OpenAI首席产品官预测AI将在今年底全面超越人类程序员前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读近日，OpenAI首席产品官KevinWeil在接受采访时表示，人工智能的发展速度远超预期，今年底就有可能在编程领域永久性地超越人类程序员。这一观点立即引发了行业热议，也让程序员们对未来产生了深刻的思考。人工智能的进展速度远超想象在与VarunMayya和TanmayBhat共同主持的YouTube节目《O
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
免费文件管理智能转换GC-Prevue：PDF 转 Word 多种格式一键完成文哥工具箱2 开源软件电脑软件工程
前言在现代办公环境中，高效的数据处理和文档管理是提高工作效率的关键。GC-Prevue是一款专为Windows系统设计的办公辅助软件，软件下载地址安装包它通过一系列实用的功能，帮助用户更高效地处理和管理文档，提升整体办公效率。软件介绍GC-Prevue是一款集成了多种办公辅助功能的软件，旨在帮助用户更便捷地处理文档、表格和演示文稿。它支持多种文件格式，包括PDF、Word、Excel和PowerP
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
【SpringBoot从入门到精通】一、快速入门与核心概念半夜偷你家裤衩子 SpringBoot spring boot 后端 java
导读：作为SpringBoot系列的第一篇文章，本文将带你快速入门SpringBoot，了解其核心概念和基本原理，并通过一个实例演示如何创建你的第一个SpringBoot应用。一、SpringBoot是什么？SpringBoot是Spring团队推出的一个用于简化Spring应用开发的框架。它消除了传统Spring应用中繁琐的配置，提供了一种快速创建可独立运行、生产级别Spring应用的方式。Sp
Python|读取word文档表格内容算法与编程之美算法之美编程语言人工智能 python 数据挖掘数据可视化
本文首发于微信公众号："算法与编程之美"，欢迎关注，及时了解更多此系列文章。引言在日常生活里，不管是办公、学习还是制作邀请函、请柬、简历等等，我们都会使用一个软件MicrosoftOfficeWord，OfficeWord是微软公司的一个收费文字处理应用程序，是最流行的文字处理程序之一，它虽功能强大，但简学易懂，但同时也有一个缺点，当一个Word文档储存的内容特别庞大的时候，使用者想要提取自己想要
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1