学渣67656

多模态学习笔记

模型种类
常见任务
CLIP
- 读完感受：或许clip科研用于分类的检测，但对于缺陷的检测，并不是很适用
- - jupyter 更改路径时遇到的问题
- CLIP读代码
- - 模型代码地址
  - 零样本代码示例
ViLT模型
关键名词收录
- - - 1.视觉语言联合表征（Visual-Textual Joint Representation）：
- - - 2.visual embedder，textual embedder，和 modality interaction
    - 性能指标
    - - 五级标题
      - 六级标题
- 欢迎使用Markdown编辑器
- 新的改变
- 功能快捷键
- 合理的创建标题，有助于目录的生成
- 如何改变文本的样式
- 插入链接与图片
- 如何插入一段漂亮的代码片
- 生成一个适合你的列表
- 创建一个表格
- - 设定内容居中、居左、居右
  - SmartyPants
- 创建一个自定义列表
- 如何创建一个注脚
- 注释也是必不可少的
- KaTeX数学公式
- 新的甘特图功能，丰富你的文章
- UML 图表
- FLowchart流程图
- 导出与导入
- - 导出
  - 导入

模型种类

Clip ViLT Blip

常见任务

分类任务
retrieval任务：retrieval的含义是检索的意思,该任务指的是从一组数据中检索出与给定查询最相关的信息
常见的数据集：VQAv2 NLVR2 Flickr30k MSCOCO

CLIP

Learning Transferable Visual Models From Natural Language Supervision
CLIP没有开源代码，但是开源了模型，即使开源代码，可能也没有公司能做到OPENAI公司那么大的数据集四亿个图片文字对的数据集。
什么是上游任务和下游任务？
什么是自回归
预训练方式，自回归和完形填空
对比学习是什么
混精度训练

图像和文本的输入分别通过 Image Encoder 和 Text Encoder 得到图像和文本的特征
其中 Image Encoder 可以是 ResNet 或 Vision Transformer，Text Encoder 可以是 CBOW 或 Text Transformer。

通过一个映射层映射层主要就是学习如何从单模态变到多模态，然后再做 L2 归一化，就得到了用来对比学习的特征代码相关重要问题，什么是交叉熵损失

读完感受：或许clip科研用于分类的检测，但对于缺陷的检测，并不是很适用

利用两个东西
1大规模的数据
2与下游任务无关的训练方式 task-agnostic web-scale pre-training
两种工具加持后nlp领域模型的效果特别好

jupyter 更改路径时遇到的问题

找到Jupyter Notebook的启动快捷方式，右键点击属性
将目标中的路径的最后面的%USERPROFILE%删掉，并按确认
键退出。亲测有用。

CLIP读代码

模型代码地址

https://github.com/openai/CLIP
点开后对应着看，先看readme文件

模型伪代码

# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - 输入图片维度
# T[n, l] - 输入文本维度，l表示序列长度

# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter

# 1 分别提取图像特征和文本特征
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]

# 2 对两个特征进行线性投射，得到相同维度的特征d_e，并进行l2归一化，保持数据尺度的一致性
# 多模态embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)

# 3计算缩放的余弦相似度：[n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)

# 4 symmetric loss function
labels = np.arange(n) #  对角线元素的labels
loss_i = cross_entropy_loss(logits, labels, axis=0) # image loss
loss_t = cross_entropy_loss(logits, labels, axis=1) # text loss
loss = (loss_i + loss_t)/2 # 对称式的目标函数

readme文件里，usage用法第二个框相当于对clip的一个简单测试，单独放在一个test文件里run一下就好了

import torch
import clip
from PIL import Image

device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)

with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    
    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

print("Label probs:", probs)  # prints: [[0.9927937  0.00421068 0.00299572]]

零样本代码示例

下面的代码使用 CLIP 执行零样本预测，如论文的附录 B 所示。此示例从 CIFAR-100 数据集中获取图像，并预测数据集中 100 个文本标签中最可能的标签。

import os  # 导入os模块，用于文件和目录操作
import clip  # 导入CLIP库，用于多模态学习
import torch  # 导入PyTorch库，用于深度学习
from torchvision.datasets import CIFAR100  # 从torchvision库中导入CIFAR100数据集类

# 加载CLIP模型和预处理函数，指定设备为GPU或CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load('ViT-B/32', device)

# 下载CIFAR-100数据集的测试集，并将其存储在用户的缓存目录中
cifar100 = CIFAR100(root=os.path.expanduser("~/.cache"), download=True, train=False)

# 从CIFAR-100数据集中获取一个图像及其对应的类别ID
image, class_id = cifar100[3637]

# 对图像进行预处理，增加一个批次维度，并将其发送到GPU或CPU
image_input = preprocess(image).unsqueeze(0).to(device)

# 对CIFAR-100数据集中的所有类别名称进行分词处理，并将它们连接成一个张量，然后发送到GPU或CPU
text_inputs = torch.cat([clip.tokenize(f"a photo of a {c}") for c in cifar100.classes]).to(device)

# 对应伪代码中步骤1  使用torch.no_grad()上下文管理器，避免在推理过程中计算梯度
with torch.no_grad():
    # 使用CLIP模型的图像编码器将预处理后的图像编码成特征向量
    image_features = model.encode_image(image_input)
    # 使用CLIP模型的文本编码器将分词后的文本编码成特征向量
    text_features = model.encode_text(text_inputs)

# 对应伪代码步骤2 对图像特征和文本特征进行归一化处理
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)

# 步骤3 计算图像特征和文本特征之间的相似度，并应用softmax函数将相似度转换为概率
similarity = (100.0 * image_features @ text_features.T).softmax(dim=-1)

# 从相似度概率中找出最高的五个值及其对应的索引
values, indices = similarity[0].topk(5)

# 打印标题
print("\nTop predictions:\n")

# 遍历相似度最高的五个值及其索引，并打印每个类别名称和对应的相似度百分比
for value, index in zip(values, indices):
    print(f"{cifar100.classes[index]:>16s}: {100 * value.item():.2f}%")

上段代码中数据集下载到了哪里？
os.path.expanduser(“~/.cache”) 这个函数调用会扩展为当前用户的主目录下的 .cache 文件夹。具体来说：

~ 符号代表当前用户的主目录，这在大多数操作系统中都是通用的。
.cache 是主目录下的一个子目录，用于存放应用程序的缓存文件。
所以，当你使用 os.path.expanduser(“~/.cache”) 作为 CIFAR100 数据集的 root 参数时，意味着你想要将 CIFAR-100 数据集的测试集下载并存储在你的主目录下的 .cache 文件夹中。

想要查看具体的路径，可以在Python中打印出来：

python
import os
cache_dir = os.path.expanduser("~/.cache")
print("Cache directory is:", cache_dir)

这将在你的控制台或终端中显示 .cache 文件夹的完整路径。

image_input = preprocess(image).unsqueeze(0).to(device) 是一个图像预处理的常见操作

preprocess(image): 这个函数 preprocess 通常是一个自定义的函数，用于对图像进行预处理。预处理可能包括多种操作，如调整图像大小、归一化像素值、转换颜色空间等，以确保图像数据适合神经网络的输入要求。
.unsqueeze(0): 这个方法是PyTorch中的一个操作，用于在指定的维度上增加一个大小为1的维度。在图像数据的上下文中，unsqueeze(0) 通常用于增加一个批次维度（batch dimension）。
在PyTorch中，图像数据通常以 [channel, height, width] 的格式存储，其中 channel 是颜色通道数。增加一个批次维度后，数据的形状变为 [batch_size, channel, height, width]。即使只有一张图像，也会增加这个维度，使得数据的形状从 [channel, height, width] 变为 [1, channel, height, width]。
.to(device): 这个操作用于将数据移动到指定的硬件通常是gpu或cpu

对单个图像进行预处理，增加一个批次维度，然后将处理后的图像数据移动到指定的计算设备上。这是将图像数据准备为神经网络输入的典型步骤。

ViLT模型

训练时间和训练需求和clip比小了很多
模型基于pytorch lighting写的和pytorch还有所不同
论文硬件需求64个32g的V100Gpu训练三天左右

关键名词收录

1.视觉语言联合表征（Visual-Textual Joint Representation）：

是一种技术：将视觉信息（如图像、视频）和语言信息（如文本、语音）嵌入到一个共享的表示空间中，以便让模型能够同时理解和处理这两种模态的数据。
目的：将图像和文本之间的语义关系对齐，从而实现跨模态的理解和任务处理。

2.visual embedder，textual embedder，和 modality interaction

三个模型后面简称VE ,TE和MI

VE ：用于将视觉模态（如图像或视频）的输入数据转换为一个高维的嵌入向量（Embedding
Vector）。这个嵌入向量是图像或视频的特征表示，用于捕捉视觉内容的语义信息。通常使用深度学习模型（如卷积神经网络 CNN或视觉 Transformer, ViT）来提取视觉特征
TE:是一种模型或模块，用于将语言模态（如文本或句子）的输入数据转化为一个高维的嵌入向量。这个嵌入向量表示文本的语义信息。使用自然语言处理模型（如Transformer、BERT 或 GPT）来提取文本特征。
MI 视觉模态（如图像）和语言模态（如文本）之间的特征交互或融合。通过这种交互，模型可以理解两种模态之间的语义关系，比如图像和文本的对齐关系。

fine-tuning：微调

性能指标

R@1 (Recall at 1): 在模型预测的前1个结果中，如果正确的结果（或最相关的结果）包含在内，则认为模型达到了召回。R@1 指标衡量的是模型在最顶端预测中就能准确找到正确结果的能力。
R@5 (Recall at 5): 类似于 R@1，但这里考虑的是模型预测的前5个结果。如果正确的结果在这5个结果中，那么认为模型达到了召回。
R@10 (Recall at 10): 这个指标扩展到模型预测的前10个结果。如果正确的结果在这些结果中，那么认为模型达到了召回。

五级标题

六级标题

欢迎使用Markdown编辑器

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

创建一个自定义列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何创建一个注脚

一个具有注脚的文本。²

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 $\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N$ 是通过欧拉积分

$\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.$

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

2014-01-07 2014-01-09 2014-01-11 2014-01-13 2014-01-15 2014-01-17 2014-01-19 2014-01-21 已完成进行中计划一计划二现有任务 Adding GANTT diagram functionality to mermaid

关于 甘特图 语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：

张三李四王五你好！李四, 最近怎么样? 你最近怎么样，王五？我很好，谢谢! 我很好，谢谢! 李四想了很长时间, 文字太长了不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三李四王五

这将产生一个流程图。:

链接

长方形

圆

圆角长方形

菱形

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

Created with Raphaël 2.3.0 开始我的操作确认？结束 yes no

关于 Flowchart流程图 语法，参考这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

mermaid语法说明 ↩︎
注脚的解释 ↩︎

【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
CMake学习笔记 Ethan@LM 学习笔记 c++
第1章cmake的基础命令1.1基础命令cmake-S-B-S：指定源码目录(CMakeLists.txt所在目录)。-B：指定构建目录（即输出目录）。1.2指定编译器和编译选项-DCMAKE_C_COMPILER=设置C语言编译器的路径。-DCMAKE_CXX_COMPILER=设置C++编译器的路径。-DCMAKE_C_FLAGS="-g"设置C语言编译标志（例如调试信息）。-DCMAKE_C
深度学习数据集加载 Ethan@LM 深度学习人工智能
数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
【无标题】妮妮喔妮前端 javascript 开发语言
使用yarnaddclassnames安装。这是antd中关于button组件的写法！所以我们自己取类名也可以这么取！现在我们直接模仿antd官网中button组件的样式搜索网站UNPKG这是自己写组件的大致导入导出格式。写好组件之后记得引入。好像看到很多次JSX了确实应该了解一下然后图片的Base64格式也应该学习一下。目前的包管理器我知道的有npm、pnpm、yarn、cnpm这些，cnpm就
Java学习之鸡兔同笼问题崇志广勤 Java java
案例介绍：编写程序：解决鸡兔同笼问题。鸡和兔在同一只笼子里，共有100条腿，40只脑袋，问鸡兔各有多少只？案例代码：publicclassChickenHare{publicstaticvoidmain(String[]args){intlegs=100;intheads=40;intchick;inthare;for(chick=0;chick<=50;chick++){for(hare=0;h
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南周情津Raymond
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
Java小白入门200例56之鸡兔同笼问题编程界小明哥 Java小白入门200例 java java小白入门实例
作者简介作者名：编程界明世隐简介：CSDN博客专家，从事软件开发多年，精通Java、JavaScript，博主也是从零开始一步步把学习成长、深知学习和积累的重要性，喜欢跟广大ADC一起打野升级，欢迎您关注，期待与您一起学习、成长、起飞！引言很多Java初学者问我，新手明明很用心、很努力学习的Java知识，转头又忘记了，很让人犯愁，小白如何能够快速成长、成为大牛呢？其实要成为大神的技巧只有一个：“多
flask部署机器学习_如何开发端到端机器学习项目并使用Flask将其部署到Heroku cumichun6193 大数据 python 机器学习人工智能深度学习
flask部署机器学习There'sonequestionIalwaysgetaskedregardingDataScience:关于数据科学，我经常被问到一个问题：WhatisthebestwaytomasterDataScience?Whatwillgetmehired?掌握数据科学的最佳方法是什么？什么会雇用我？Myanswerremainsconstant:Thereisnoalterna
嵌入式学习之Linux入门篇笔记——8，Linux帮助手册讲解玄奕子嵌入式学习之Linux入门篇 linux 学习笔记 ubuntu
配套视频学习链接：http://【【北京迅为】嵌入式学习之Linux入门篇】https://www.bilibili.com/video/BV1M7411m7wT/?p=4&share_source=copy_web&vd_source=a0ef2c4953d33a9260910aaea45eaec81.Linux帮助手册使用man命令打开，使用手册一共有九页。（按Q退出帮助手册）1.可执行的程序
韦东山嵌入式入门笔记之——应用开发基础篇（二）
三、Makefile的使用1、为什么需要Makefile在编写程序后，如果仅改动了一个源文件（比如.h文件），那么不可能通过一系列的命令来重新编译所有的源文件，甚至有时改动的源文件比较多，出现最后忘记编译某些源文件的情况。而make工具可以解决上述问题，它会在有必要时重新编译所有受改动影响的源文件。而Makefile文件则告诉make怎样编译和连接成一个程序。Makefile带来的好处就是——“自
C语言学习——四则运算，关系运算，逻辑运算与位运算许白掰 C语言学习学习 c语言开发语言
目录前言编辑一、四则运算1.四则运算的概念2.注意事项3.小结二、关系运算1.关系运算的概念三、逻辑运算1.逻辑运算的概念2.逻辑运算中的短路法则（1）对于&&运算（2）对于||运算3.取非运算（!）四、位运算1.位运算的概念2.深度剖析位运算（1）再论数据类型（2）所以位运算时需要明确知道的事（3）类型补充知识——char字符型3.小结五、总结前言——C语言中支持下面四种类型的运算一、四则运算1
SpringBoot电商项目实战：从零搭建百万级架构
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot电商项目实战：从
CCNA 网络基础知识最新PPT课程
本文还有配套的精品资源，点击获取简介：CCNA课程涵盖了网络基础的各个方面，包含OSI模型、TCP/IP协议、路由协议、VLAN以及思科设备配置等内容。本套PPT资源旨在帮助学习者全面理解网络通信的运作，从OSI的七层模型到TCP/IP协议簇，再到路由协议的选择与配置，以及VLAN技术的实现与管理，学习者能够逐步掌握网络技术，为通过CCNA认证或解决实际网络问题打下坚实基础。1.OSI模型全面介绍
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【机器学习|学习笔记】类别特征（Categorical Features）处理方法，附代码。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记神经网络人工智能深度学习
【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。文章目录【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。前言✅为什么要处理类别特征？原因1：大多数模型不能处理字符串原因2：避免“错误的顺序假设”原因3：方便模型泛化与特征交互✅
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习架构
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构结果与讨论3.1消融区制图欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要
Linux基础IO——文件系统与动静态库栖林_ Linux linux 运维服务器
文章目录什么是文件系统磁盘的物理结构扇区中的块组软硬链接硬链接软连接动静态库生成静态库使用静态库生成动态库使用动态库什么是文件系统我们之前所说的文件读写都是通过进程对已经打开的文件进行操作，也就是对操作系统对文件所创建的结构体进行操作那么对于磁盘中没有打开的文件是如何进行管理的磁盘的物理结构这里我们主要讨论机械磁盘而非固态磁盘，因为机械磁盘的价格较低，而且学习之后也能更好的理解整个系统这是机械硬盘
【集成学习】Bagging、Boosting、Stacking算法详解
文章目录1.相关算法详解：2.算法详细解释：2.1Bagging：2.2Boosting：2.3Stacking：2.4K-foldMulti-levelStacking：集成学习（EnsembleLearning）是一种通过结合多个模型的预测结果来提高整体预测性能的技术。它通过将多个学习器的结果集成起来，使得最终的模型性能更强，具有更好的泛化能力。常见的集成学习框架包括：Bagging、Boos
数字图像处理学习笔记 andwhataboutit? 学习笔记
1-图像处理基础_哔哩哔哩_bilibili输出图像像素点需要将图象值要作类型转换，转成Int图像仿射变换线性变换+平移线性变换：1，变换前直线，变换后仍然直线2，直线比例不变3，直线到远点的距离不变仿射变换计算：常见变换：恒等变换：变换前后一致尺度变换：对尺寸作放大或缩小旋转变换：图像旋转但是尺寸不变平移：：位置移动尺寸不变偏移（垂直、水平）：垂直或者水平方向变化代码示例：importcv2im
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
隐马尔可夫模型：语音识别系统的时序解码引擎大千AI助手人工智能 Python #OTHER 语音识别人工智能机器学习概率马尔科夫链 HMM
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！1HMM与语音识别的理论基础隐马尔可夫模型（HMM）作为一种双重随机过程的统计模型，其核心在于描述一个包含隐含状态的马尔可夫链，以及这些状态生成可观测输出的概率分布。在语音识别领域，HMM的时序建模能力与语音信号的特性形成了完美契合：隐含状态：对应语音
Python 2.7.13安装与配置教程金融先生-Frank
本文还有配套的精品资源，点击获取简介：Python2.7.13是Python2.x系列的最后一个版本，虽然不再维护，但许多遗留系统仍在使用。本教程详细介绍了Python2.7.13在Windows系统上的安装流程，并提供了环境变量配置、安装验证以及如何开始使用Python的方法。同时强调了Python3.x的迁移重要性，并提供了学习资源和第三方库安装的指导。1.Python2.7.13重要性与现状
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
手把手实现RPC框架--简易版Dubbo构造（四）服务端线程池处理请求反射调用 ”PANDA JAVA rpc dubbo java
本节commit源码地址：11e4aca服务端实现--反射调用服务端如果收到请求就创建一个线程来处理调用，利用线程池创建线程，对多线程情况进行处理（Java线程池学习请戳：https://blog.csdn.net/suifeng3051/article/details/49443835）publicclassRpcServer{privatefinalExecutorServicethreadP
重生学AI第十五集：学习非线性激活函数
背景知识激活是什么意思？“激活”一词来源于生物学神经系统，在人的大脑中，存在着大量的神经元。每个神经元在接收到足够强的刺激时，会被激活，产生电信号并传递给其他神经元。这些电信号在神经网络中层层流动，最终形成了大脑对外界信息的反应。神经元就等同于人工神经网络中的基本计算单元，每一个网络层都包含着许多这样的神经元，激活函数就是为了能够判断输入是否达到“激活”标准，达到激活标准，则会影响后续计算，反之，
SpringBoot+MySQL旅游资源管理系统Java源码幽络源小助理 spring boot vue.js 后端 spring java
概述基于SpringBoot+MySQL开发的旅游资源管理系统完整源码，该系统功能完善，包含从景点管理到路线推荐的全流程解决方案，采用主流技术栈开发，代码规范易于二次开发，是学习SpringBoot项目实战的优秀范例。主要内容前台功能展示系统前台设计简洁实用，主要包含以下核心功能模块：导航菜单：首页、在线留言、公告消息、景点资讯、景点信息、酒店信息、个人中心搜索功能：支持关键词搜索旅游景点和酒店信
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

多模态学习笔记

多模态学习笔记

模型种类

常见任务

CLIP

读完感受：或许clip科研用于分类的检测，但对于缺陷的检测，并不是很适用

jupyter 更改路径时遇到的问题

CLIP读代码

模型代码地址

零样本代码示例

ViLT模型

关键名词收录

1.视觉语言联合表征（Visual-Textual Joint Representation）：

2.visual embedder，textual embedder，和 modality interaction

性能指标

五级标题

六级标题

欢迎使用Markdown编辑器

新的改变

功能快捷键

合理的创建标题，有助于目录的生成

如何改变文本的样式

插入链接与图片

如何插入一段漂亮的代码片

生成一个适合你的列表

创建一个表格

设定内容居中、居左、居右

SmartyPants

创建一个自定义列表

如何创建一个注脚

注释也是必不可少的

KaTeX数学公式

新的甘特图功能，丰富你的文章

UML 图表

FLowchart流程图

导出与导入

导出

导入

你可能感兴趣的:(学习,笔记)