HERODING77

【论文精读】Learning Transferable Visual Models From Natural Language Supervision

Learning Transferable Visual Models From Natural Language Supervision

前言
Abstract
1. Introduction and Motivating Work
2. Approach
- 2.1. Creating a Sufficiently Large Dataset
- 2.2. Selecting an Efficient Pre-Training Method
- 2.3. Choosing and Scaling a Model
- 2.4. Pre-training
- 2.5. Using CLIP
3. Analysis
- 3.1. Initial Comparison to Visual N-Grams
- 3.2. Zero-Shot Performance
- 3.3. Representation Learning
- 3.4. Robustness to Natural Distribution Shift
4. Data Overlap Analysis
5. Broader Impacts
6. Limitations
7. Related Work
8. Conclusion
阅读总结

前言

CLIP作为多模态对比学习里程碑式工作，在创新性，有效性和领域性三个方面都拉满了。它最伟大的地方在于，打破了固有的基于给定类别分类的壁垒，让即使是未见过的类也能给出很好的结果，这大大提升了模型的灵活性，也让其更适配多种下游任务。

Paper	http://proceedings.mlr.press/v139/radford21a/radford21a.pdf
Code	https://github.com/OpenAI/CLIP
From	ICML2021

Abstract

目前CV系统最佳的模型都是基于固定对象类别进行训练的。这种监督训练方式限制了它们的通用性和可用性，直接从原始文本中学习图像是一种很有前途的替换方案，它可以利用更广泛的监督来源。作者证明，通过预测图像和其对应文本的简单预训练任务是一种高效可扩展的方案。作者从互联网上收集了4亿对图文数据，并在该数据集上重头开始训练。预训练后，通过自然语言来引导学习的视觉概念，实现在下游任务零样本迁移。作者研究了30多个下游任务上CLIP的性能，包括OCR、视频动作识别等，CLIP可以轻松迁移到各种任务上，甚至达到了完全监督训练的结果。

1. Introduction and Motivating Work

直接从原始文本中学习的预训练方法彻底改变了NLP领域，典型的模型如GPT-3，几乎不需要特定于数据集的训练就可以在很多下游任务上取得很好的结果。这一结果表明，大规模无标注数据集可实现的总体监督超过了高质量的人工标注数据集。但是在CV领域，主流的做法仍然是在监督数据集上预训练，亟待无监督的预训练方法在CV中带来突破。
此前就有科研人员在CV无监督学习上进行尝试。包括对图片和其caption建模，采用基于Transformer的机构建模，掩码语言建模以及对比学习等方法从文本中学习图像的表示潜力。
但是上述的方法仍然低于领域的SOTA。作者认为gap的产生主要来自于规模，因此作者研究大规模自然语言监督训练图像模型的行为。最后作者提出了CLIP模型用于对比语言图像预训练，这是一种从自然语言监督中学习的高效且可扩展的方法。
CLIP在预训练期间学习执行一系列任务，效果优于公开可用的ImageNet模型，并且计算高效。作者还发现CLIP模型在零样本下甚至能够达到监督训练的效果。

2. Approach

2.1. Creating a Sufficiently Large Dataset

作者发现，现有的图文数据集如MS-COCO、Visual Genome，虽然质量很高，但是规模太小，只有10万规模的数据。作为对比，其他CV系统在多达35亿张图像的Instagram数据集上训练。YFCC100M数据集虽然规模上亿，但是质量过低。因此作者构建了一个包含四亿对图文的数据集，这些数据从互联网各种公开来源收集。该数据集称作WIT。

2.2. Selecting an Efficient Pre-Training Method

作者最初的方法也是采用生成式方法来预测图像的标题，但是这种方法计算量大，效率低下。如下图所示：

因此作者探索一个系统可以解决更容易的代理任务。作者发现，如果将预测任务更换为文本与哪个图像配对，即换成对比学习的方法，效率提升了四倍。
整体的过程第二节开头的流程图和下面的伪代码所示：

给定一批图文对，分别用两个编码器对图文进行编码，图片的编码器可以是ResNet，也可以是ViT；文本的编码器是Transformer。CLIP通过联合训练图像和文本编码来学习多模态嵌入空间，以最大化批次中N个图像和其对应文本的余弦相似度，并最小化与其它 $N^2-N$ 个负样本的余弦相似度。
由于模型规模和数据集相匹配，CLIP不会出现过拟合的问题。作者重头开始训练CLIP，并且将表示对比嵌入空间之间的非线性投影替换为了线性投影。作者还删除了文本转换函数，简化了图像转换函数，只保留了随机裁剪的数据增强。最后作者将温度 $\tau$ 优化为可学习参数（调参成本太高了）。

2.3. Choosing and Scaling a Model

作者考虑了两个不同的图像编码架构，即ResNet50和ViT。前者使用广泛，后者潜力无限。文本编码器采用Transformer。作者分别对这些模型进行了简单的变体，具体可见原文。

2.4. Pre-training

作者训练了5种ReNets和3种ViT，ResNet分别采用了RestNet50，ResNet101，以及另外三个变体，RN50×4，RN50×16，RN50×64，代表相对ResNet50的计算量。对于ViT，训练了ViT-B/32、ViT-B/16和ViT-L/14。最好的训练模型是ViT-L/14@336px，后面所提到的CLIP都是指该模型。

这里@336px代表的是以336像素的分辨率额外进行了预训练，从而提升模型的性能，该方法在FixRes上得到证实。

2.5. Using CLIP

CLIP经过预训练，可以预测图像和其对应的文本是否在WIT中配对。为了探索CLIP应用于下游任务的功能，作者对其进行了零样本性能测试。对于每个数据集，作者使用数据集中的类作为潜在的文本配对的集合。此外，作者还尝试为CLIP提供文本prompt以提升性能。

3. Analysis

3.1. Initial Comparison to Visual N-Grams

Visual N-Grams方法是已知和本文类似的工作，同样进行了zero-shot迁移。下表是CLIP和Visual N-Grams的zeroshot对比：

在ImageNet上，CLIP将性能从11.5%提升到76.2%。并且达到了与原始ResNet相近的性能。此外，CLIP的Top-5准确率明显更高，当然这样的比较并不公平，Visual N-Grams无论从模型大小还是训练数据的规模都远远落后于CLIP。

3.2. Zero-Shot Performance

CV中的zero-shot一般指的是对未见目标的泛化，本文在更广泛的意义上定义该任务，即对未见的数据集的泛化。虽然无监督学习的研究集中在学习表征上，但是本文希望其作为衡量机器学习特定任务的学习能力。从这个角度出发，一个数据集用于评估特定分布上任务的表现，但是许多热门CV数据集的构建是作为基线指导通用图像分类方法的开发，而不是衡量特定任务的性能。
作者在30多个数据集上进行评估，并与50多个现有的CV系统进行比较。首先是CLIP在分类任务上的表现与监督ResNet50的对比，如下所示：

CLIP在27个数据集中的16个上取得更好的性能。对于细粒度的分类任务上，CLIP的优势明显，作者推测自然语言为涉及动词的视觉概念提供了更广泛的监督。在一些专门、复杂或抽象上的任务上，CLIP表现相当薄弱，这些结果表明了CLIP在更复杂的任务上能力较差，可能的原因是缺乏相应的领域知识。
虽然将CLIP的零样本能力和完全监督模型进行比较可以体现CLIP的任务学习能力，但是小样本可以是更直接的比较，零样本可以认为是极限的小样本任务。下图可视化了多个模型线性层微调的小样本性能，当然也包括了CLIP的零样本性能。

有趣的是，4-shot以下的CLIP性能不如零样本CLIP，这是二者方法之间差异导致的，零样本CLIP通过自然语言引导，可以直接具体化视觉概念，但是监督学习需要间接从训练样本中推断概念。但是基于自然语言引导的学习缺点是许多不同的假设和数据保持一致，即不能再提供更细致化的视觉信息，因此当样本数量增多，监督学习的性能还是超过了零样本性能。
和其他模型相比，CLIP的小样本性能都要更优。

3.3. Representation Learning

与其惊叹于CLIP的零样本能力，不如关注于CLIP的表征学习能力。作者对多个模型进行线性层全量数据集微调，得到如下图的结果：

最好的CLIP模型比现有最好的模型平均高出2.6%，此外，与之前端到端训练的单个计算机视觉模型相比，CLIP模型可以学习到更广泛的任务，结果如右图所示，这是在27个更广泛的数据集上评估的性能。CLIP的优势更加明显，比之前系统提升了2.6%到5%。

3.4. Robustness to Natural Distribution Shift

虽然深度学习在ImageNet的性能超过了人类的判断，但是其仍会出现很多简单的错误。作者认为是否是因为训练和微调都是在ImageNet数据集上进行了，所以来带了观察上鲁棒性的gap。而CLIP并没有在ImageNet上训练，只是做零样本学习，直观上不会利用领域的特定模式或关系。所以CLIP理应表现更高的鲁棒性。下图是零样本CLIP与现有模型在自然分布变化上的性能。

所有CLIP模型都大幅提高了鲁棒性。这些结果表明，最近面向大规模任务和数据集无关的预训练的转变，可以提供对真实模型性能更准确的评估。

4. Data Overlap Analysis

CLIP性能表现如此好，是否是因为收集得到的4亿样本有下游任务上的数据泄露？为此作者进行了重复数据删除分析。在研究的35个数据集中，有9个数据没有重叠，平均重叠为3.2%，重叠量很小，对结果的影响微乎其微。

5. Broader Impacts

CLIP由于数据集分布的问题，可能会带来一定的偏见。包括种族，性别，年龄的歧视问题。作者希望这项工作能够激发未来对此类模型的能力、缺点和偏差的表征的研究。

6. Limitations

零样本的CLIP只能和传统的ResNet-50基线模型进行比较，远低于现有的SOTA。当前的硬件不足以支撑其达到SOTA的能力。因此有必要进一步研究提高CLIP计算和数据效率。
尽管作者强调零样本的迁移，但是还是反复通过测试性能来指导开发（即调参）。因此作者希望能够有个专门的评估数据集，只用于评估，而不作为调参的工作。

7. Related Work

略。

8. Conclusion

本文提出CLIP，用于研究其迁移学习的能力。为了优化其目标，作者采用自然语言引导的方式来利用模型学习到的特征，实现零样本迁移。在足够的规模下，这种方法的性能可以与特定任务的监督模型相媲美，尽管仍有很大的改进空间。

阅读总结

CLIP作为一种多模态对比学习方法，在创新性，有效性和领域性三个领域上都拉满了，可谓是十分硬核的里程碑式的工作。创新性上，作者采用了文本和图像两个模态信息进行对比学习，让模型同时学到文本和视觉语义信息；零样本实验采用自然语言引导，帮助模型理解任务。有效性上，零样本的CLIP可以达到监督训练ResNet-50的性能，线性层微调也超过了当前多个SOTA方法。领域性上，CLIP是无监督学习方法，本质上是对图像表征的学习，通过文本和图像两个模态信息的结合，CLIP可以学习到强大的表征，在多个CV下游任务上经过简单的微调甚至是零样本，就能得到部分领域的SOTA性能。
由于最近对无监督学习有比较多的理解，在我看来，CLIP这篇工作还有很多可以改进的地方，首先对比学习可以采用生成式的代理任务，更难的代理任务往往能学习到更复杂的表征。其次预训练的数据集可以是清理过的数据，并且进一步扩大规模，图像的编码器可以换成swin Transformer，能够学习到更复杂的图像表征。

2024年最新PyTorch深度学习项目实战100例数据集_python 深度学习项目演练 2401_84585440 程序员深度学习 python pytorch
前言最近很多订阅了《PyTorch深度学习项目实战100例》的用户私信咨询有些数据集下载不了以及一些文章中没有给出数据集链接，为了解决这个问题，专门开设了本篇文章，提供数据集下载链接，打包100例的所有数据集。本专栏适用人群：深度学习初学者，刚刚接触PyTorch的用户群体，专栏将具体讲解如何快速搭建深度学习模型用自己的数据集实现深度学习小项目，快速让新手小白能够对基于深度学习方法有个基本的框架认
PyTorch 学习路线 gorgor在码农 #python入门基础 python pytorch
学习PyTorch需要结合理论理解和实践编码，逐步掌握其核心功能和实际应用。以下是分阶段的学习路径和资源推荐，适合从入门到进阶：1.基础知识准备前提条件Python基础：熟悉Python语法（变量、函数、类、模块等）。数学基础：了解线性代数、微积分、概率论（深度学习的基础）。机器学习基础：理解神经网络、损失函数、优化器（如梯度下降）等概念。学习资源Python入门：Python官方教程机器学习基础
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
C++的内存管理脆脆鲨＜码＞ C++c++开发语言
1.C/C++内存分布我们先来看下面的一段代码和相关问题intglobalVar=1;staticintstaticGlobalVar=1;voidTest(){staticintstaticVar=1;intlocalVar=1;intnum1[10]={1,2,3,4};charchar2[]="abcd";constchar*pChar3="abcd";int*ptr1=(int*)mall
机器学习篇——决策树基础巷955 机器学习算法决策树
引言：决策树是一种常见的机器学习算法，广泛应用于分类和回归任务。它通过树状结构表示决策过程，每个内部节点代表一个特征测试，每个分支代表一个可能的测试结果，而每个叶节点则代表一个类别或回归值。本文将详细介绍决策树的原理、构建过程、优缺点以及实际应用。1.决策树的基本概念1.1什么是决策树？决策树是一种监督学习算法，主要用于分类和回归任务。它通过递归地将数据集划分为更小的子集，最终生成一棵树状结构。决
当深度学习遇见禅宗：用东方智慧重新诠释DQN算法带上一无所知的我智能体的自我修炼：强化学习指南深度学习算法人工智能 DQN
当深度学习遇见禅宗：用东方智慧重新诠释DQN算法“好的代码如同山水画，既要工笔细描，又要留白写意”——一个在终端前顿悟的开发者DQN是Q-Learning算法与深度神经网络的结合体，通过神经网络近似Q值函数，解决传统Q-Learning在高维状态空间下的"维度灾难"问题。引言：代码与禅的碰撞♂️在某个调试代码到凌晨三点的夜晚，我突然意识到：强化学习的过程，竟与佛家修行惊人地相似。智能体在环境中探索
无监督AI训练:机遇与挑战并存 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
无监督AI训练：机遇与挑战并存关键词：无监督学习、AI训练、机器学习、聚类算法、降维技术、深度学习摘要：本文深入探讨无监督AI训练这一新兴领域，首先介绍了其基本概念与原理，然后详细解析了无监督AI训练的核心技术，如聚类算法和降维技术，以及无监督深度学习。接着，本文通过实际项目案例分析，展示了无监督AI训练的应用实践。最后，本文分析了无监督AI训练面临的挑战，并展望了其未来发展趋势。通过本文的阅读，
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
[网络安全提高篇] 一二八.恶意软件分析之利用MS Defender实现恶意样本家族批量标注（含学术探讨） Eastmount 网络安全自学篇 web安全恶意软件分析恶意样本家族标注 MS Defender
2024新的战场，继续奋斗。“网络安全提高班”新的100篇文章即将开启，包括Web渗透、内网渗透、靶场搭建、CVE复现、攻击溯源、实战及CTF总结，它将更加聚焦，更加深入，也是作者的慢慢成长史。换专业确实挺难的，Web渗透也是块硬骨头，但我也试试，看看自己未来四年究竟能将它学到什么程度，漫漫长征路，偏向虎山行。享受过程，一起加油~前文介绍了IDAPython配置过程和基础用法，然后尝试提取恶意软件
员工管理系统（简单版） java王不二后端 java
1、项目介绍员工管理系统9功能简单，实现了用户的注册和登录、增删改查用户，适合新手学习2、项目技术后端框架：Servlet、mvc模式前端技术：jsp、css、JavaScript、JQuery3、开发环境JAVA版本：JDK1.8IDE类型：IDEA、Eclipse都可运行tomcat版本：Tomcat7-10版本均可数据库类型：MySql（5.x和8.x版本都可）maven项目：否硬件环境：W
AI时代的多模态输入与理解：挑战与局限性智享食事人工智能
随着人工智能技术的快速发展，以及AI的普及，AI系统逐渐在各个领域展现出强大的潜力，一种感觉AI已经无所不能，已经很快就要取代我们人类，甚至代替我们工作。然而，现实情况并没有这么乐观，现实中AI要实现与人类相似的感知和理解，仍然面临着许多技术和应用上的难题。本文将从几个方面探讨当前AI在多模态输入与理解中的局限性，特别是在教育、心理咨询、医疗诊断等领域的应用挑战。一、多模态输入的现状与不完善所谓多
（ECCV2018）CBAM改进思路这张生成的图像能检测吗即插即用模块+改进思路深度学习人工智能计算机视觉机器学习图像处理神经网络论文笔记
论文链接：https://arxiv.org/abs/1807.06521论文题目：CBAM:ConvolutionalBlockAttentionModule会议：ECCV2018论文方法利用特征的通道间关系生成了一个通道注意图。由于特征映射的每个通道被认为是一个特征检测器，通道注意力集中在给定输入图像的“什么”是有意义的。为了有效地计算通道注意力，我们压缩了输入特征映射的空间维度。对于空间信息
python | flower，一个强大的 Python 库！双木的木 python拓展学习 python库 python 开发语言计算机视觉人工智能算法联邦学习深度学习
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：flower，一个强大的Python库！大家好，今天为大家分享一个强大的Python库-flower。Github地址：https://github.com/mher/flower随着机器学习模型应用的增长，联邦学习（FederatedLearning，FL）逐渐成为一个重要方向。联邦学习允许多个客户端在不共享原始数据的情
C#截屏操作 Luskyle c#
//////截全屏并保存成图片///publicvoidgetScreen(){//ImagemyImage=newBitmap(Screen.PrimaryScreen.Bounds.Width,Screen.PrimaryScreen.Bounds.Height);//截取整个屏幕ImagemyImage=newBitmap(Screen.PrimaryScreen.WorkingArea.R
关于自然语言处理（三）深度学习中的文字序列数据的分词操作 MatrixSparse 大模型人工智能自然语言处理深度学习人工智能
深度学习中的文字序列数据二维文字序列在文字数据中，样本与样本之间的联系是语义的联系，语义的联系即是词与词之间、字与字之间的联系，因此在文字序列中每个样本是一个单词或一个字（对英文来说大部分时候是一个单词，偶尔也可以是更小的语言单位，如字母或半词），故而在中文文字数据中，一张二维表往往是一个句子或一段话，而单个样本则表示单词或字。此时，不能够打乱顺序的维度是vocab_size，它代表了一个句子/一
【开源项目】2024最新PHP在线客服系统源码/带预知消息/带搭建教程于飞SEO 免费资源分享开源 php 开发语言
简介随着人工智能技术的飞速发展，AI驱动的在线客服系统已经成为企业提升客户服务质量和效率的重要工具。本文将探讨AI在线客服系统的理论基础，并展示如何使用PHP语言实现一个简单的AI客服系统。源码仓库地址：ym.fzapp.top在线客服系统的理论基础AI在线客服系统通过自然语言处理（NLP）、机器学习（ML）和深度学习（DL）技术，能够理解和响应客户的查询。这些系统通常包括以下几个关键组件：自然语
基于CNN-BIGRU-Attention模型的功率预测（模型详解及代码复现）清风AI 深度学习算法详解及代码复现深度学习人工智能算法机器学习计算机视觉 cnn 神经网络
整体架构基于CNN-BiGRU-Attention模型的功率预测模型是一种融合了卷积神经网络(CNN)、双向门控循环单元(BiGRU)和注意力机制(Attention)的深度学习架构。这种混合模型旨在充分利用CNN的局部特征提取能力、BiGRU的长序列处理能力以及Attention机制的关键特征突出能力，从而提高功率预测的准确性和可靠性。模型的整体架构主要包括以下几个关键组件：输入层：设计的输入特
使用OpenCV和MediaPipe库——驼背检测（姿态监控） WenJGo AI学习之路 Python之路 opencv 人工智能计算机视觉算法 python numpy
目录驼背检测的运用1.驾驶姿态与疲劳关联分析2.行业应用案例1.教育场景痛点分析2.智能教室系统架构代码实现思路1.初始化与配置2.MediaPipe和摄像头设置3.主循环4.资源释放RGB与BGR的区别一、本质区别二、OpenCV的特殊性内存结构示意图：三、转换必要性分析转换流程图示：四、常见问题场景五、性能优化建议六、底层原理七、验证实验八、现代发展趋势整体代码效果展示驼背检测的运用1.驾驶姿
文生图图生视频文生视频人工智能AI工具节选行思理 AI 人工智能文生图文生视频图生视频数字人
1、MidjourneyAI图像和插画生成工具，官网地址：Midjourney中文站,MJ中文站-专业AI绘图网站2、StableDiffusion一种基于扩散技术的深度学习文本转图像模型，演示地址：StabilityAI3、通义万相阿里云通义大模型旗下的AI创意作画与视频生成平台，官网地址：通义万相_AI创意作画_AI绘画_人工智能-阿里云4、PhotoStudioAI模特AI商品图及视频一键生
ChatGPT-4o引领医学革命：临床科研创新与效率的新纪元小艳加油教程语言类人工智能数据分析 ChatGPT-4o 临床医学
2024年5月12日，更强版本的ChatGPT-4o上线，文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。因此，帮助广大临床医学相关的医院管理人员、医生、学生、科研人员更加熟练地掌握ChatGPT-4o在临床医学日常生活、工作与学习、课题申报、论文选题、实验方案设计、实验数据统计分析与可视化等方面的强大功能，同时更加系统地学习人工智能（包括传统机器学习、深度学习等）的基础理
【CVTE】嵌入式软件开发-Linux方向{一面} 阿猿收手吧！面经 linux 运维服务器面试
文章目录数组和链表的区别？特点？使用场景？**1.数组（Array）****特点：****使用场景：****2.链表（LinkedList）****特点：****使用场景：****3.数组vs链表对比****4.代码示例****数组示例****链表示例（单链表）****5.结论**全局变量和局部变量在linux内存存储的区别**1.全局变量（GlobalVariables）****存储位置：***
人工智能引领技术革命：ChatGPT与深度学习的突破性进展撒旦骑路西法，大战吕布国内外安全资讯人工智能
在全球科技快速发展的今天，人工智能（AI）正以前所未有的速度渗透到各个行业，成为推动社会变革的重要力量。特别是在自然语言处理（NLP）领域，OpenAI的ChatGPT凭借深度学习技术的持续突破，展现了AI在理解、推理、对话生成等方面的惊人进步。本文将深入探讨ChatGPT及深度学习的最新突破，以及它对不同行业的深远影响。1.ChatGPT：AI语言模型的革新者1.1什么是ChatGPT？Chat
8.版本控制svn和git majorty Android基础 svn git 版本控制
1、常见的版本控制软件[1]cvs已过时[2]svn(需要服务器)集中式[3]ClearCaseibm公司开发(只有自己公司用)[4]vss微软公司开发(没人用)[5]git(不需要服务器)分布式云计算由好多台电脑组成了一个整体github.com2、SVN简介Svn（Subversion）是近年来崛起的版本管理工具，在当前的开源项目里(J2EE)，几乎95%以上的项目都用到了SVN。Subver
深入探索Deeplearning4j（DL4J）：Java深度学习的全面指南软件职业规划 java 深度学习开发语言
一、DL4J框架概述Deeplearning4j（DL4J）是一个开源的深度学习框架，专为Java和Scala设计，运行在Java虚拟机（JVM）上。它由Skymind公司开发并维护，旨在将深度学习技术应用于大规模商业应用。DL4J支持多种深度学习模型，包括卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）等。自2014年首次发布以来，DL4J已经成为Java深度学习领域的
电机的声音数据进行AI分析鹿屿二向箔人工智能
对电机的声音数据进行分析，尤其是当数据来源于加速度传感器时，涉及到的不仅仅是声音分析，还包含了振动分析。这类问题通常可以归类于机械故障诊断或预测性维护领域。以下是一些适合处理这种类型数据的人工智能模型和方法：1.特征工程+传统机器学习模型在直接应用深度学习之前，通常首先会进行特征提取。对于振动信号（即使通过加速度传感器采集），常用的方法包括计算频域特征（如傅里叶变换后的频谱）、时域特征（如均方根值
李沐深度学习预备知识——数据操作 flex_university 李沐课程学习笔记深度学习人工智能
预备知识——数据操作1、数据操作1.1基本操作importtorchx=torch.arange(12)print(x)print(x.shape)print(x.numel())x=x.reshape(3,4)#变形x=x.reshape(2,-1)#-1代表自动计算torch.zeros((2,3,4))#生成全0张量torch.ones((2,3,4))#生成全1张量torch.randn(
可解释性机器学习——从金融科技视角（1） flex_university 可解释性机器学习与金融科技机器学习深度学习金融
可解释性机器学习——从金融科技视角（1）内容摘要：可解释性的重要性文章目录可解释性机器学习——从金融科技视角（1）1、过程为什么重要2、可解释性机器学习模型能做到什么3、什么时候不需要可解释性1、过程为什么重要尽管机器学习模型表现良好，但单一指标（如分类准确性）是对大多数实际任务的不完整表述。（Doshi-Velez&Kim2017）。某些任务不仅需要得到预测结果，更需要解释模型是如何得出预测的。
基于Pytorch的语音情感识别系统鱼弦人工智能时代 pytorch 人工智能 python
基于Pytorch的语音情感识别系统介绍语音情感识别（SpeechEmotionRecognition,SER）是指通过分析和处理人的语音信号来识别其情感状态。常见的情感状态包括愤怒、喜悦、悲伤、惊讶等。基于Pytorch的语音情感识别系统使用深度学习技术，通过训练神经网络模型来实现情感识别任务。应用使用场景客户服务中心：自动识别客户情绪，提供有针对性的服务。智能语音助手：提升人机交互体验，更加智
大规模语言模型构建流程人工智能技术笔记语言模型人工智能自然语言处理
大规模语言模型1.大语言模型大规模语言模型（LargeLanguageModels，LLM），也称大语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。2.预训练语言模型受到计算机视觉领域采用ImageNet对模型进行一次预训练，使得模型可以通过海量图像充分学习如何提取特征，然后再根据任务目标进行模型精调的预训练范式影响，自然语言处理
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin