我爱计算机视觉

让模型实现“终生学习”，佐治亚理工学院提出Data-Free的增量学习

关注公众号，发现CV技术之美

写在前面

目前的计算机视觉模型在进行增量学习新的知识的时候，就会出现灾难性遗忘的问题。缓解这种遗忘的最有效的方法需要大量重播（replay）以前训练过的数据；但是，当内存限制或数据合法性问题存在时，这种方法就存在一定的局限性。

在本文中，作者研究了无数据类增量学习(DFCIL)的问题，也就是增量学习能够学习新的知识，而不存储生成器或过去任务的训练数据。目前，DFCIL的一种方法是通过倒置学习分类模型的冻结副本，来合成图像用于训练，使得模型能够不忘记以前任务的知识，也不用replay以前训练过的数据。但是，作者通过实验表明了当使用标准蒸馏策略时，这种方法对于常见的类增量benchmark都是无效的。

因此，在本文中，作者分析了这种方法失败的原因，并提出了一种新的DFCIL增量蒸馏策略，提供了一个改进的交叉熵训练和重要性加权特征蒸馏。最终作者通过实验表明，在类增量benchmark上，与SOTA DFCIL方法相比，本文提出的方法在精度上提高了25.1%，甚至优于几种需要存储图像的基于replay的方法。

论文和代码地址

Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning

论文地址：https://arxiv.org/abs/2106.09701

代码地址：尚未开源

Motivation

目前，计算机视觉的一个局限是，它们通常使用一个包含在部署过程中所有可能遇到的数据的大型数据集，进行脱机训练。然而，现实情况是许多应用程序需要在遇到新的情况和数据后不断更新模型。这就是类增量学习的范式，在学习新任务的时候忘记以前学习到的知识的问题被称为在灾难性遗忘 。目前，比较成功的增量学习方法有一个缺点：它们需要大量的内存来replay以前看到过的或建模的数据，以避免灾难性遗忘问题。

这在很多计算机视觉的应用中也是不现实的，因为：

1）许多计算机视觉应用程序都是在设备上的，因此内存有限；

2）在工业界，可能会存在很多不允许被存储的数据（比如用户的隐私信息）。

因此，作者就提出了这样一个问题：计算机视觉系统如何能在不存储数据的情况下增量地学习新信息？作者将这样的设置称为无数据类增量学习(DFCIL)。

DFCIL的一种直观方法是同时训练生成模型进行采样以进行replay，以防止忘记以前的知识。但是与分类模型相比，训练生成模型的计算和内存都更密集。

因此，作者探索了模型反演图像 合成的概念，就是通过反转已经提供的推理网络，来获得网络中与训练数据具有相似激活作用的图像。这样一来，就不需要训练额外的网络（因为它只需要现有的推理网络）。

（上图展示了当使用合成数据进行基于replay类增量学习时，特征嵌入的分布。图a展示了合成数据的直接应用使模型的学习特征更容易区分是真实数据还是合成数据，而不是任务1和2，这也是本文要解决的主要问题；图b展示了修改分类损失和添加正则化可以减轻真实和合成图像之间的特征位移；图c是理想的特性分布，使任务1和任务2更可分离。）

上图展示了DFCIL增量学习失败的原因（图a），用当前任务的真实图像和代表过去任务的合成图像训练模型时，特征提取模型提取的特征会变成：当前真实图像的特征分布与当前真实图像的特征分布（即使他们不属于同一个类）更接近，与合成图像的特征分布更不接近 ，这就导致了预测时候的偏差。

这一现象表明，当训练一个具有两种数据分布的网络时，同时包含语义位移和分布位移，分布位移对特征嵌入有更高的影响。因此，来自以前任务的的测试图像将被识别为新的类，因为模型会更关注于它们的分布，而不是它们的语义内容（这就与分类任务的目标背道而驰了）。

为了解决这个问题，作者提出了一种新的类增量学习方法，该方法学习了具有局部分类损失的新任务特征，依赖于重要性加权特征蒸馏和线性分类head微调来分离新任务和过去任务的特征嵌入。

作者通过实验表明，在类增量benchmark上，与SOTA DFCIL方法相比，本文提出的方法在精度上提高了25.1%，甚至优于几种需要存储图像的基于replay的方法。

方法

3.1. 先验知识-类增量学习

在类增量学习中，一个模型需要学习了对应于M个语义对象类、、、的数据，但这些数据是通过N个task依次暴露给模型的，每个任务中子类都不会重合。

我们用来表示任务n中引入的类集，其中表示任务n中对象类的数量。每个类只出现在单个任务中，模型目标就是逐步学习引入的新对象类，并对它们进行分类，同时保留之前学习过的类的知识。

为了描述推理模型，我们将 θ ，表示在i时刻使用任务n的类训练的模型。

3.2. Baseline Approach

在本节中，作者基于之前工作，提出了一个Data-Free的用于类增量学习的baseline。

3.2.1. Model-Inversion Image Synthesis

大多数模型反演图像合成方法都是通过直接对先验的鉴别模型 θ 进行优化来合成图像。然而，一次优化一个Batch的图像在计算上是效率低下的。因此作者选择使用卷积网络参数化函数 φ 用噪声生成合成图像进行近似优化。这就使每个任务只需要训练一次 φ ，当前任务结束时就可以直接丢弃。

首先， φ 需要生成多样性的图片，因此作者优化合成了图像的类预测的多样性，以匹配均匀分布。将 θ 表示为模型θ对输入x产生的预测类分布，需要使合成样本的平均类预测向量的熵最大化，如下所是（label diversity loss）：

其中为信息熵。

除了多样性之外，为了在DFCIL中合成有用的图像，图像还需要校准的类置信度、特征统计数据的一致性和局部平滑的潜在空间。

对于校准的类置信度 ，作者使用了Content Loss，通过对图像张量的类预测一致性最大化，这样 θ 就能对所有输入做出足够confident的预测了。Content Loss的具体计算表示如下所示：

通过将和相结合，就确保合成的图像将代表过去所有任务类的分布。

对于特征统计数据的一致性 ，先前的工作发现，模型反演的复杂性会导致 θ 特征的分布大大偏离合成图像的分布。因此，合成图像的Batch统计应该与 θ 中的Batch Norm层相匹配。基于此，作者进一步提出了stat alignment loss：

其中代表KL散度。

对于局部平滑的潜在空间 ，先验知识告诉我们，自然图像在像素空间中比初始噪声更局部平滑。因此作者又提出了一个损失函数smoothness prior loss，这个函数就是生成图像和高斯模糊版本的生成图像的L2距离：

最后， φ 的损失函数为上面提到的损失函数之和：

3.2.2. Distilling Synthetic Data for Class-Incremental Learning

在类增量学习中，对合成图像的知识蒸馏通常被用于 θ 正则化，迫使它学习，学习的同时，将的知识遗忘减到最小。对于任务，我们从任务期间训练的 θ 的冻结副本中合成图像。这些合成图像帮助我们将任务中学习的知识提炼到我们当前的模型 θ 中。

在Baseline方法中，作者采用了DeepInversion中使用的蒸馏方法。具体表示为，给定当前的任务数据和合成的蒸馏数据，我们最小化：

其中是一种知识蒸馏正则化方法：

3.3. Diagnosis: Feature Embedding Prioritizes Domains Over Semantics

为了探究为什么DFCIL的Baseline方法会失败，作者使用度量（MID）分析了嵌入特征之间的表征距离，这种度量用于捕获两个分布样本的平均图像embedding之间的距离。作者将这种度量实例化为Mean Image Distance (MID) score，高分表示不同的特征，低分表示相似的特征。计算如下：

作者计算任务1真实数据的特征embedding与任务2真实数据之间的MID，然后计算任务1真实数据的特征embedding与任务1合成数据之间的MID，结果如上图所示。对于(a)DeepInversion，任务1真实数据与任务1合成数据之间的MID得分明显高于任务1真实数据与任务2真实数据之间的MID得分。

这表明embedding空间对domain有更高的优先级，而不是语义，但这不是模型想要的结果。对于作者提出的方法（b），任务1真实数据和任务1合成数据之间的MID分数明显低得多，这表明特性embedding的语义优先于domain。

3.4. A New Distillation Strategy for DFCIL

基于上面的分析，作者提出了持续的学习应该在以下几个方面保持平衡：（1）针对新任务的学习特征；（2）最小化超过上一个任务的特征偏移；（3）在embedding空间中分离新的类和以前的类之间的类重叠。

对于上面的三个平衡，（1）和（3）可以通过实现。但是作者认为，通过将其分成两种不同的损失，可以在学习新任务的时候，不区分真实图像和合成图像的特征。根据这个想法，作者提出了一种为DFCIL设计的新的类增量学习方法，该方法独立地解决这些目标。

（蓝色箭头表示之前合成的任务数据的计算路径，绿色箭头表示真实的当前任务数据的计算路径，黄色箭头表示真实数据和合成数据的计算路径。）

模型的overview如上图所示

3.4.1. Learning current task features

作者方法背后的intuition是需要学习当前task的特征的同时，绕过偏向最近task真实数据的特征表示。具体实现上，作者通过只计算在新的线性分类head上的局部交叉熵分类损失来实现这一点。有了这种模式，作者阻止了模型学习通过domain分离新的和过去的类数据，损失函数如下：

3.4.2. Minimizing feature drift over previous task data

与真实的当前任务图像相比，蒸馏图像属于另一个domain，因此作者寻找了另一个损失函数，直接减轻遗忘的损失函数。要实现这个目标，一个选择是特性蒸馏：

虽然强化了过去任务数据的重要组成部分，但它的强正则性抑制了模型的学习新任务的能力。另一方面并不抑制新任务的学习，可能导致真实数据和合成数据的bias。

因此，作者提出了一种重要性加权特征蒸馏，它只强化了过去任务数据中最重要的组成部分，同时允许不那么重要的特性来适应新任务。表示如下：

W为重要性权重矩阵，W权重大的特征更为重要。

3.4.3. Separating Current and Past Decision Boundaries

最后，模型需要分离当前类和过去类的决策边界，而不允许特征空间来区分真实数据和合成数据。作者通过用交叉熵损失函数来fine-tuning线性分类head来实现。除了线性分类head之外，这个损失函数并不会更新 θ ，：中的任何参数：

3.4.4. Final Objective

最终模型的损失函数为上述损失函数之和，如下所示：

实验

4.1. DFCIL （CIFAR-100 ）

从上表结果可以看出，本文的方法不仅优于DFCIL方法，甚至优于生成方法。

4.2. CIL with Replay Data （CIFAR-100 ）

在上表中，作者将本文的方法（不存储回放数据）与其他存储回放数据的方法进行了比较。可以看出，本文方法的performance可以优于LwF和Rehersal，但是后者需要存储回放数据，这就意味着更高的内存消耗。

4.3. Ablation Study（CIFAR-100 ）

从上表可以看出，文中对Data-Free增量学习专门设计的几个损失函数和蒸馏方法，对于整个模型性能的提高，都有着非常重要的作用。

4.4. DFCIL （ImageNet）

作者还使用ImageNet数据集来验证本文的方法在大规模图像数据集上的表现。可以看出，本文的方法在这个大规模图像数据集上的实验结果也没有比基于replay的方法落后太多。

总结

在本文中，作者表明现有的类增量学习方法在使用真实训练数据学习新任务和使用合成蒸馏数据保存过去的知识时，performance较差。因此，作者提出了一种新的方法来实现了无数据类增量学习的SOTA性能，并与基于replay的SOTA方法性能相当。

作者提出无数据类增量学习是希望消除在类增量学习中存储回放数据的需要，使计算机视觉的广泛和实际应用成为可能。不存储数据的增量学习解决方案，将对计算机视觉应用产生直接影响，进一步促进计算机视觉任务的落地应用。

▊ 作者简介

厦门大学人工智能系20级硕士

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END,入群????备注：CV

双目立体视觉（6.1）测距 2501_90596733 双目立体视觉计算机视觉人工智能 opencv
在计算机视觉领域，双目相机测距是一项关键技术，它通过模拟人类双眼的视觉机制，利用两个相机从不同角度拍摄同一场景，进而计算出物体的深度信息。一、双目测距的基本原理1.1视差图（DisparityMap）视差图是一种存储了单视图所有像素的视差值的二维图像。视差值是同一物体在左右两幅图像中的列坐标差，即通过比较左右两幅图像的对应像素差异来计算物体的深度信息。视差图是以图像对中任一幅图像为基准生成的，其大
ShardingSphere 和 Spring 的动态数据源切换机制的对比以及原理龙大. 系统设计 Spring Mysql spring java 数据库
ShardingSphere与Spring动态数据源切换机制的对比及原理一、核心定位对比维度ShardingSphereSpring动态数据源（如AbstractRoutingDataSource）定位分布式数据库中间件轻量级多数据源路由工具核心目标分库分表、读写分离、分布式事务多数据源动态切换适用场景大数据量、高并发、复杂分片需求简单多数据源隔离（如多租户、环境隔离）实现层级JDBC驱动层（拦截
深度学习模型：原理、应用与代码实践 accurater c++算法笔记人工智能深度学习
引言深度学习作为人工智能的核心技术，已在图像识别、自然语言处理、代码生成等领域取得突破性进展。其核心在于通过多层神经网络自动提取数据特征，解决复杂任务。本文将从基础理论、模型架构、优化策略、应用场景及挑战等多个维度展开，结合代码示例，系统解析深度学习模型的技术脉络与实践方法。一、深度学习基础理论神经网络基本原理神经网络由输入层、隐藏层和输出层构成，通过反向传播算法调整权重。以全连接网络为例，前向传
用于网络安全的生成式 AI：利用 AI 增强威胁检测和响应云上笛暮 AI for Security 人工智能
一、引言技术的进步彻底改变了我们的生活、工作和交流方式。然而，随着这些技术的进步，保护它们免受网络威胁的挑战也随之而来。网络安全已成为任何组织的重要组成部分，随着网络攻击越来越复杂，传统的威胁检测和响应方法已不再足够。这导致了生成人工智能等新技术的发展，这些技术在增强网络安全方面显示出巨大潜力。在这篇博客中，我们将探讨生成式人工智能的概念、它在网络安全中的重要性，以及它如何用于增强威胁检测和响应。
解决方案｜回归医院运营管理本质，从建立指标体系出发机器学习人工智能
医疗行业一直是一个备受关注的领域，尤其在当前全球卫生挑战背景下更是备受瞩目。随着数字化技术和大数据应用的不断深入，医疗行业正在经历一次前所未有的变革和转型。在2023年的两会上，大数据和数字化技术将再次成为热点议题，这意味着政府将会更加关注并支持医疗行业数据转型。在这个背景下，我们需要思考如何充分利用数字化技术和大数据，为医疗行业的发展注入新的活力，并为人类的健康保障提供更好的保障。最近几年，随着
【TVM 教程】使用元组输入（Tuple Inputs）进行计算和归约编译器编程后端人工智能深度学习
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：ZihengJiang若要在单个循环中计算具有相同shape的多个输出，或执行多个值的归约，例如argmax。这些问题可以通过元组输入来解决。本教程介绍了TVM中元组输入的用法。from__future__importabsolut
深度解构：DeepSeek大模型架构与前沿应用的未来探秘威哥说编程架构 ai
随着人工智能（AI）领域的快速发展，深度学习模型逐渐向着更加复杂和强大的方向演进。在这一波技术浪潮中，DeepSeek大模型作为一个重要代表，凭借其卓越的表现和广泛的应用，正在重新定义我们对AI的认知和期待。本篇文章将从架构到应用，全面解析DeepSeek大模型的技术特点，探索其在未来可能带来的创新与变革。1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于Transformer
T41LQ专为人工智能物联网（AIoT）应用设计，适用于智能安防、智能家居、机器视觉等领域软硬件资料+样品测试 li15817260414 君正人工智能物联网智能家居
君正（Ingenic）T系列芯片涵盖多个型号，每个型号根据不同应用需求提供了多个版本。以下是各型号及其主要版本：1.T23系列：T23N：标准版，适用于移动摄像机、安全监控、视频通话和视频分析等应用。T23ZN：佐罗标准版，功能与T23N类似，针对特定市场需求进行了优化。2.T31系列：T31L：简化版，适用于对成本和功耗有严格要求的应用场景。T31N：标准版，适用于广泛的智能视频应用。T31X：
人工智能生成内容（AIGC）对程序员的影响 AmHardy AIGC 人工智能 AIGC 程序员 chatgpt kimi
人工智能生成内容（AIGC）对程序员的影响引言AIGC技术正在深刻影响软件开发行业，给程序员带来诸多机遇和挑战。程序员不仅需要适应这些新兴技术，还要有效利用它们来提升自己的工作效率和创新能力。AIGC技术的优势效率提升代码生成:AI工具如GitHubCopilot可以预测代码片段、自动完成代码和生成文档，从而显著提升编程效率。自动化测试:AI可以自动生成测试用例和检测代码中的潜在问题，减少了手动测
【路径规划】基于A算法和Dijkstra算法的路径规划附Python代码天天Matlab科研工作室无人机matlab仿真电子资源算法 python 开发语言
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍路径规划作为人工智能和机器人技术领域的核心问题之一，在导航、交通运输、游戏开发等领域有着广泛的应用。解决路径规划问题，旨在找到一条从起始点到目标点，并满足特定约束条件（如最短
【AI】如何理解与应对AI中的敏感话题：详细分析与实用指南丶2136 AI 人工智能 AI 敏感话题
引言随着人工智能（AI）技术的不断发展，我们在与AI交互时，可能会遇到敏感话题的讨论限制。在许多情况下，AI系统为了避免触及社会、政治或文化敏感点，会对用户输入进行一定的筛选和过滤。那么，这些敏感话题是如何定义的，AI如何识别并避免这些话题，以及作为开发者和用户，我们该如何应对这一问题？本文将详细探讨这些问题，并通过表格、图示等方式帮助大家更好地理解。目录引言一、AI中的敏感话题分类与处理策略1.
帆软认证BI工程师（FCBA）部分考试题目及答案隼丶帆软 FineBi
判断题1.安装32位系统的FineBI，最多只能支持2G内存。正确2.FineBI产品目前不支持vertical大数据平台。错误3.FineBI可以和FineReport两款产品进行整合使用。正确4.同一个仪表板中，可以同时使用实时和抽取数据进行分析。正确5.血缘分析可以让用户查看该表的来源表和子孙表/模板，当前用户创建的子孙表或模板不会灰化，但是非当前用户创建的子孙表或模板会灰化显示。正确6.F
特征缩放：统一量纲，提高模型性能 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征缩放：统一量纲，提高模型性能1.背景介绍在机器学习和数据挖掘领域，我们经常会遇到不同特征之间量纲差异很大的情况。比如，一个数据集中可能包含年龄（0-100）、收入（0-100000）、身高（150-200cm）等不同尺度的特征。这种量纲不统一会给许多机器学习算法（如梯度下降）带来问题，导致收敛速度慢、模型性能差等。特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理
Python 机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习算法链管道网格搜索
Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明目录Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明一、简单介绍二、算法链与管道1、算法链与管道的概念2、使用Pipeline的示例3、关键点说明三、用预处理进行参数选择四、构建管道五、在网格搜索中使用管道1、举例说
智能算法安全优化与关键技术实践智能计算研究中心其他
内容概要智能算法的安全优化与关键技术实践已成为人工智能发展的核心命题。在医疗影像分析、金融风控、自动驾驶等场景中，联邦学习的分布式协作机制有效解决了数据孤岛问题，而生成对抗网络通过对抗训练增强数据生成能力，为小样本场景提供技术支撑。与此同时，可解释性算法通过特征重要性分析与决策路径可视化，显著提升模型透明度，降低黑箱风险。在技术实现层面，特征工程的自动化筛选与超参数动态调整策略优化了模型性能，结合
Kubeflow学习小高高不要bug 学习 kubernetes 大数据
Kubeflow学习介绍架构Kubeflow在ML工作流中的组件介绍Kubeflow致力于使在Kubernetes上部署机器学习工作流变得简单、可移植和可扩展。目标不是重新创建其他服务，而是提供一种直接的方式来将最佳的ML开源系统部署到不同的基础设施。在任何运行Kubenertes的地方，都应该能够运行Kubeflow。Kubeflow是Kubernetes的机器学习工具包。要使用Kubeflow
深度学习系列71：表格检测和识别 IE06 深度学习系列深度学习人工智能
1.pdf处理如果是可编辑的pdf格式，那么可以直接用pdfplumber进行处理：importpdfplumberimportpandasaspdwithpdfplumber.open("中新科技：2015年年度报告摘要.PDF")aspdf:page=pdf.pages[1]#第一页的信息text=page.extract_text()print(text)table=page.extract
【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统 kakaZhui 解码前沿多模态大模型：认知分析和工业级实战 python 开发语言 AIGC 人工智能 chatgpt
写在前面：为什么需要端到端语音交互近年来，随着深度学习技术的飞速发展，语音交互技术取得了显著的进步。从智能音箱到虚拟助手，语音交互已经渗透到我们生活的方方面面。然而，传统的语音交互系统往往采用“语音识别（ASR）-自然语言理解（NLU）-对话管理（DM）-自然语言生成（NLG）-语音合成（TTS）”的级联式架构，这种架构存在着诸多弊端，如：错误累积：每个模块的错误都会传递到下一个模块，导致最终结果
体育数据分析：竞技表现优化与商业价值挖掘的技术范式 Tina0898 数据分析数据挖掘
体育数据分析作为一门交叉学科，正在重塑现代体育产业的发展轨迹。通过多源数据采集、机器学习建模和商业智能分析，体育数据分析已经形成了完整的技术体系和应用生态。本文将深入探讨体育数据分析的技术架构、应用场景和商业价值。一、数据采集与处理技术架构现代体育数据采集系统采用分布式架构，集成了计算机视觉、惯性测量单元(IMU)和生物电传感器等多模态数据源。计算机视觉系统通过高速摄像机和深度学习算法，可实现运动
Django 中的算法应用与实现岱宗夫up 教学 sqlite 数据库 python django opencv
Django中的算法应用与实现在Django开发中，算法的应用可以极大地扩展Web应用的功能和性能。从简单的数据处理到复杂的机器学习模型，Django都可以作为一个强大的后端框架来支持这些算法的实现。本文将介绍几种常见的算法及其在Django中的使用方法。1\.协同过滤算法1.1算法简介协同过滤是一种常用的推荐系统算法，通过分析用户的行为数据（如评分、浏览历史等），为用户推荐他们可能感兴趣的内容。
特征工程 (Feature Engineering) AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征工程(FeatureEngineering)作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在机器学习和数据科学领域，特征工程（FeatureEngineering）一直是一个至关重要的环节。它指的是从原始数据中提取或构造出有助于模型学习的特征，从而提高模型预测准确性的过程。特征工程的成功与否，直接关系到模型性能的好坏
探索大数据分析的无限可能：R语言的应用与实践 Echo_Wish 大数据数据分析 r语言数据挖掘
探索大数据分析的无限可能：R语言的应用与实践随着数据时代的来临，大数据已经成为各行各业的重要资产。如何从海量数据中挖掘出有价值的信息，成为了企业和研究人员关注的焦点。在众多的数据分析工具中，R语言因其强大的统计分析功能和丰富的生态系统，备受青睐。本文将深入探讨使用R语言进行大数据分析的方法和实践，并通过实例代码加以说明。为什么选择R语言？R语言是一种专门用于统计分析和数据可视化的编程语言，具有以下
PyTorch 深度学习快速入门教程有人给我介绍对象吗 AI论文写作深度学习 pytorch 人工智能
PyTorch深度学习快速入门教程PyTorch是一个灵活且易用的深度学习框架，支持动态图计算，广泛用于学术研究和工业应用。本教程将带你快速掌握PyTorch的基本用法，涵盖张量（Tensor）操作、自动求导（Autograd）、构建神经网络以及模型训练。1.安装PyTorch在终端或命令行中运行以下命令安装PyTorch：pipinstalltorchtorchvisiontorchaudio安
开源跨平台大模型工具Ollama的安全隐患 X.Cristiano AI新闻 Ollama 漏洞大模型
源跨平台大模型工具Ollama的安全隐患及应对策略在当今数字化飞速发展的时代，人工智能技术尤其是大模型的应用已经渗透到我们生活的方方面面。从智能家居到医疗健康，从金融风控到教育娱乐，大模型为各个领域带来了前所未有的便利和创新。然而，随着技术的进步，安全问题也日益凸显。近期，清华大学网络空间测绘联合研究中心发布了一则关于开源跨平台大模型工具Ollama的安全通报，揭示了其默认配置中存在的严重安全隐患
第0节机器学习与深度学习介绍汉堡go 李哥深度学习专栏人工智能机器学习神经网络
人工智能：能够感知、推理、行动和适应的程序机器学习：能够随着数据量的增加而不断改进性能的算法（数学上的可解释性但准确率不是百分百，灵活度不高）深度学习：机器学习的一个子集：利用多层神经网络从大量数据中进行学习（设计一个很深的网络架构让机器自己学）（深度学习就是找一个函数f）机器学习算法简介（狭义）一般是基于数学，或者统计学的方法，具有很强的可解释性经典传统机器学习算法：KNN、决策树、朴素贝叶斯一
Python常见的第三方库：requests、numpy、pandas 大数据张老师 python numpy pandas
常见的第三方库：requests、numpy、pandasPython拥有丰富的第三方库，涵盖了数据分析、网络爬取、人工智能、科学计算等多个领域。其中，requests、numpy和pandas是最常用的三个库，分别用于网络请求、数值计算和数据处理。本节将详细介绍它们的基本功能，并通过示例代码帮助理解它们的使用方法。requests：处理网络请求的库requests是Python中用于处理HTTP
80| Python可视化篇 —— Matplotlib数据可视化小刘要努力。 Python教程系列专栏可视化数据分析 python
文章目录Matplotlib和数据可视化安装matplotlib绘制折线图绘制散点图绘制正弦曲线绘制直方图使用Pygal绘制矢量图3D图Matplotlib和数据可视化数据的处理、分析和可视化已经成为Python近年来最为重要的应用领域之一，其中数据的可视化指的是将数据呈现为漂亮的统计图表，然后进一步发现数据中包含的规律以及隐藏的信息。数据可视化又跟数据挖掘和大数据分析紧密相关，而这些领域以及当下
新型模型架构（参数化状态空间模型、状态空间模型变种）三月七꧁ ꧂ LLM 语言模型 gpt 文心一言 prompt embedding AIGC agi
文章目录参数化状态空间模型状态空间模型变种 Transformer模型自问世以来，在自然语言处理、计算机视觉等多个领域得到了广泛应用，并展现出卓越的数据表示与建模能力。然而，Transformer的自注意力机制在计算每个词元时都需要利用到序列中所有词元的信息，这导致计算和存储复杂度随输入序列长度的平方级别增长。在处理长序列时，这种复杂性会消耗大量的计算资源与存储空间。为了解决这个问题，研究人
awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
【机器学习】决策树 ( Decision Tree ) AI天才研究院 ChatGPT DeepSeek R1 &大数据AI人工智能大模型深度学习实战机器学习决策树算法支持向量机人工智能
【机器学习】决策树(DecisionTree)文章目录【机器学习】决策树(DecisionTree)1.ID3(1)信息增益(2)ID3的算法流程(3)实现ID32.C4.53.CART(1)决策桩DecisionStump(2)回归CART：最小二乘回归树leastsquaresregressiontree⚪回归CART的例子(3)分类CART(4)处理缺失值Handlemissingfeatu
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "xxx@xx.com" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(