limmmy

MNIST手写体识别（Tensorflow）

文章目录

一、Tensorflow配置与安装
二、卷积神经网络ConvNet

1.卷积层（Padding）
2.Pooling层
3.全连接层

三、MNIST数据集的特征

1.MNIST训练集的特征
2.MNIST测试集的预测情况

容易误判但是判断正确的图像
误判的图像

一、Tensorflow配置与安装

Python3.6.2 + Anaconda （conda 4.3.27）+ tensorflow-gpu1.8.0下测试通过

1.首先要安装CUDA，我安装的是CUDA9.0
安装完之后在命令行输入可以查看是否安装成功以及版本：

 nvcc -V

2.其次是安装Anaconda
我是选择用Anaconda安装tensorflow，方便管理各种环境。（还有pip直接安装tensorflow库的办法，但是由于我的python2和python3的环境有点冲突，当时没有弄好，现在发现原来是我在给3版本的python重命名为python3的时候，只修改了名字没有修改里面的文件埋下了隐患，详情见这篇文章：两个版本的python，现在是解决了，这里还是选择用Anaconda安装tensorflow）
在 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 寻找你与你电脑系统对应的版本。下载对应安装包，按提示安装，查看版本查看是否安装成功：

conda --version

在Anaconda里建立TensorFlow的环境：

conda create -n tensorflow Python=3.6

激活TensorFlow环境：

activate TensorFlow

关闭环境：

deactivate

3.安装TensorFlow

pip install --upgrade --ignore-installed tensorflow-gpu

安装TensorFlow指定版本

pip3 install --upgrade tensorflow_gpu

（我是pip3，因为用python3安装的气自己修改了名字）
简单测试：
在TensorFlow环境里打开Python：

import tensorflow as tf
hello = tf.constant("Hello!TensorFlow")
sess = tf.Session()
print(sess.run(hello))

可以运行就说明安装成功了，或者也可以通过查看tensorflow版本查看是否安装成功。

具体有啥问题可以参考官网：
http://www.tensorfly.cn/tfdoc/get_started/os_setup.html
有一个GPU的检测

二、卷积神经网络ConvNet

背景：如果采用全连接结构，存在参数爆炸问题。如对1000 * 1000 的图像进行卷积，大约需要1000 * 1000 * 1000 * 1000个参数。利用局部卷积替换全连接结构，可将参数降低至1000 * 1000 * 10 * 10 ≈ 100M。如果进一步采用权值共享的策略，即同一特征图卷积核、 Bias相同，将卷积参数将至10*10。为尽可能地保存信息，可设计多个卷积特征图，将参数将至10K。

在卷积网络（ConvNet）中，基本上有三种类型的层：

1.卷积层（Convolution layer）
2.Pooling层（Pooling layer）
3.全连接层（Fully connected layer）

1.卷积层（Padding）

卷积层是为了增加特征图，每进行一次卷积操作就会多输出一张图像。
用3×3滤波器对6×6维的输入进行卷积，得到4×4输出。我们可以推广它并说如果输入是n X n并且滤波器大小是f X f，那么输出大小将是
$（ n - f + 1 ） X （ n - f + 1 ）$ ：

输入： n X n
滤镜尺寸： f X f
输出：（n-f + 1）X（n-f + 1）

这里主要有两个缺点：

每次我们应用卷积运算时，图像的大小都会缩小
与中心像素相比，在卷积期间存在于图像角落中的像素仅使用了几次。因此，我们不会过分关注角落，因为这会导致信息丢失
为了克服这些问题，我们可以使用额外的边框填充图像，即我们在边缘周围添加一个像素。这意味着输入将是8×8矩阵（而不是6×6矩阵）。在其上应用3×3的卷积将产生6×6矩阵，这是图像的原始形状。这就是padding出现的地方：

输入： n X n
填充： p
滤镜尺寸： f X f
输出：（n + 2p-f + 1）X（n + 2p-f + 1）
填充有两种常见的选择：

有效：表示没有填充。如果我们使用有效填充，输出将是
$（ n - f + 1 ） * （ n - f + 1 ）$
相同：这里，我们应用填充，使输出大小与输入大小相同，即
$n + 2 p - f + 1 = n$

因此，p =（f-1）/ 2
我们现在知道如何使用填充卷积。这样我们就不会丢失大量信息，图像也不会缩小。

一旦我们使用过滤器对整个图像进行卷积后得到输出，我们就会向这些输出添加偏置项，最后应用激活函数来生成激活。这是一个卷积网络的一层。

卷积层的符号摘要：

f [l] =滤波器大小
p [l] =填充
s [l] =步幅
n [c] [l] =过滤器数量

在我们的例子中，输入（6×6×3）是[0]，滤波器（3×3×3）是权重w [1]。来自第1层的这些激活充当第2层的输入，依此类推。显然，在卷积神经网络的情况下参数的数量与图像的大小无关。它主要取决于过滤器的大小。假设我们有10个滤波器，每个滤波器的形状为3 X 3 X 3.该层中的参数数量是多少？

每个滤波器的参数数量= 3 * 3 * 3 = 27
每个过滤器都有一个偏差项，因此每个过滤器的总参数= 28
由于有10个过滤器，该层的总参数= 28 * 10 = 280
无论图像有多大，参数仅取决于滤镜的大小。

2.Pooling层

Pooling层主要用于减小输入的大小，从而加速计算。也就是将高分辨率的图像转换为低分辨率的图像。
图片来源：http://cs231n.github.io/convolutional-networks/

原版的LeNet的Pooling是平均采样，现在是Maxpooling，更多Pooling方法参考链接
max pooling 的操作：整个图片被不重叠的分割成若干个同样大小的小块（pooling size）。每个小块内只取最大的数字，再舍弃其他节点后，保持原有的平面结构得出 output。

Max pooling 的主要功能是 downsampling（降采样），却不会损坏识别结果。这意味着卷积后的 Feature Map 中有对于识别物体不必要的冗余信息。那么我们就反过来思考，这些 “冗余” 信息是如何产生的。

直觉上，我们为了探测到某个特定形状的存在，用一个 filter （滤波器）对整个图片进行逐步扫描。但只有出现了该特定形状的区域所卷积获得的输出才是真正有用的，用该 filter 卷积其他区域得出的数值就可能对该形状是否存在的判定影响较小。比如下图中，我们还是考虑探测 “横折” 这个形状。卷积后得到 3x3 的 Feature Map 中，真正有用的就是数字为 3 的那个节点，其余数值对于这个任务而言都是无关的。所以用 3x3 的 Max pooling 后，并没有对 “横折” 的探测产生影响。试想在这里例子中如果不使用 Max pooling，而让网络自己去学习。网络也会去学习与 Max pooling 近似效果的权重。因为是近似效果，增加了更多的 parameters 的代价，却还不如直接进行 Max pooling。

3.全连接层

在CNN的训练架构中，全连接层的学习和BP完全一致。
BP网是一种前馈多层（一般都选用3层）网络。理论已经证明一个三层网络可以无限近似任意连续函数。
计算方式：计算输入向量和权重向量之间的点积，再加上一个偏置，结果通过sigmoid函数输出。每个神经元的激活值表示对应字符的相应强度，最大值则为对应的识别结果。

最后的Output层也属于全连接层，共有10个节点，分别代表数字0到9，且如果节点i的值为0，则网络识别的结果是数字i。

可以看下这篇文章：LeNet-5详解

三、MNIST数据集的特征

1.MNIST训练集的特征

“0”的手写体的训练集的特征：比较标准，虽然“0”的形状有的有些扭曲，但是大多数“”0都闭合而且大小宽瘦适合。

“1”的手写体的训练集：涵盖了一些印刷体“1”的写法，可以避免误判为数字“7”，而且有些“1”有旋转角度（<=45度）

“2”的手写体的训练集： “2”多种花式，比较容易和数字“4”和数字“6”混淆

“3”的手写体的训练集： “3”中规中矩，与其他数字有较大的区分度，人眼观察比较不容易误判成其他数字

“4”的手写体的训练集： “4”是两笔写成的数字，在0-9中规范书写来说只有数字“4”和数字“5”是由两笔写成的，相对于其他数字应该更容易区分，但是不排除数据集里存在不少一笔写成的“4”，而且数字“4”也极其容易和数字“9”混淆，虽然很多数字“4”很不像“4”，容易看做字母“H”，但是我们的输出并没有“H”这一个分类，也没有数字和“H”相似。

“5”的手写体的训练集： “5”和“4”一样是由两笔组成的，但是连贯起来或者一笔写成比较像字母“S”，“S”比较像数字“6”，所以有可能会误判为数字“6”。

“6”的手写体的训练集：数字“6”和数字“4”比较容易辨别错误，数据集里一些“6”写的真的很想“4”，属于人眼判断其为数字“4”也说得过去的那种。但是仔细观察，数字“6”的柄明显会比数字“4”的长一些，而且该数据集也包含了很多像数字“4”的数字“6”，起到了训练的效果。而且“4”的手写体训练集里较少很像数字“6”的数字“4”，应该也可以较好的区分“6”和“4”。

“7”的手写体的训练集：包括了有些人书写“7”习惯加一个横杆的情况，这种写法只要不会太夸张，都不会被认作数字“9”。虽然和“1”相似，但是数字“1”实在太有特点了，不太容易别误判为“1”。

“8”的手写体的训练集： “8”写的太快常常不闭合，如果不连通的区域太大的话，可能挥别盘坐数字“6”。还有就是“8”存在一些旋转角度，不过再怎么旋转也不容易和其他数字混淆。

“9”的手写体的训练集：容易和“0”混淆。就算上面的圈圈不闭合也不容易和“4”混淆，因为“4”是由两笔组成的而“9”只有一笔。

2.MNIST测试集的预测情况

容易误判但是判断正确的图像

数字“0”，结果准确：数字“0”训练集里存在不闭合的“0”

数字“0”，结果准确

数字“2”，结果准确数字“2”训练集里存在各式各样的花式“2”

数字“5”，结果准确虽然这张“5”很扭曲，但是其余数字也没有和它更相近的了
数字“3”，结果准确虽然这张“3”很扭曲，但是其余数字也没有和它更相近的了

数字“6”，结果准确这张测试图是一个很像“4”的“6”，预测准确的原因：
1.“4”和“6”的区别：数字“6”的柄明显会比数字“4”的长一些
2.“数字6”数据集也包含了很多像数字“4”的数字“6”，起到了训练的效果
3.“4”的手写体训练集里较少很像数字“6”的数字“4”，所以这张不一定会被分到“4”
数字“9”，结果准确一张像“4”的“9”，因为是一笔画出的数字，还是可以和两笔化成的数字“4”区分开

误判的图像

标签是“4”，误判为：9 “4”的顶部闭合

标签是“4”，误判为：9

标签是“5”，误判为：3

标签是“5”，误判为：8

标签是“7”，误判为：9

标签是“8”，误判为：7

标签是“8”，误判为：7

标签是“9”，误判为：0

分析:
1.尽管写的实在是不像原数字，但是和其余的数字更没有任何的相似数字，所以只能别分到正确组。
2.尽管数字“A”和数字“B”相似，但是*训练集“A”中存在一些容易混淆的情况训练了可以较好区分数字“A”和数字“B”的网络
3.尽管数字“A”和数字“B”相似，但是训练集“B”*中的图像都和原数字相似，所以数字“A”不容易被分到“B”类
4.一笔画的数字：1 2 3 6 7 8 9；二笔画的数字：4 5，相似的（9,4）一定程度上可以被区分
5.线条构成的数字：1 4 7；圆弧构成的数字：2 3 6 8 9，相似的（9,4）一定程度上可以被区分

误判的原因：
1.含有圆圈需要闭合的数字9、6和8 ，常常因为没有完全闭合被误判为：4
2.带柄的数字，柄的长度可以作为区分的标准，但是柄的长度并不符合标准

有一个难以解释的预测，数字“8”和数字“7” 数字“5”和数字“8”哪里像了

你可能感兴趣的:(计算机视觉)

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
OpenCV多分辨率模板匹配与容错优化实战指南追寻向上 opencv 人工智能计算机视觉
第一章：问题背景与挑战1.1传统模板匹配的局限性模板匹配（TemplateMatching）是计算机视觉中基础且广泛使用的技术，其核心思想是通过滑动窗口在目标图像中寻找与模板最相似的位置。然而，传统方法（如OpenCV的cv2.matchTemplate）在实际应用中存在以下问题：尺寸敏感性当目标的实际尺寸与模板不一致时，匹配结果会严重偏离。例如，在工业检测中，摄像头与物体的距离变化会导致目标缩放
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他