openabox

keras框架下的深度学习（一）手写体数字识别

文章目录

前言

一、keras的介绍及其操作使用

二、手写题数字识别

1.介绍

2.对数据的预处理

3.搭建网络框架

4.编译

5.循环训练

6.测试训练的网络模

7.总代码

三、附：梯度下降算法

1.导数的梯度下降算法

2.偏导数的梯度下降算法

总结

前言

这个系列文章主要记录使用keras框架来搭建深度学习模型的学习过程，其中有一些自己的想法和体会，主要学习的书籍是：Deep Learning with Python。使用的IDE是pycharm，需要安装keras以及相应的tensorflow的库。这篇文章主要是keras的介绍以及在keras框架下的mnist手写体数字识别程序的讲解。

一、keras的介绍及其操作使用

Keras 是一个 Python 深度学习框架，可以方便地定义和训练几乎所有类型的深度学习模型。Keras 最开始是为研究人员开发的，其目的在于快速实验。我们可以进入网站：主页 - Keras 中文文档查看keras内的配置，如图所示：

Keras的使用很简单上手，但是运行keras需要一个后端引擎，这里推荐使用tensorflow后端。

当我们对keras代码中有什么疑惑时，可以选择查看网页上对应的内容，然后对源代码进行查看。比如说我们选择查看常用数据集（Datasets）：

　　接下来我们在本地文件路径下：C:\Users\Quiming\AppData\Roaming\Python\Python37\site-packages\keras\datasets，可以看到每个数据集的调用文件的源代码：

我们随便选择一个数据集文件打开，比如说mnist.py文件：

我们可以看到mnist里面的load_data函数具体是做什么，不一定要看懂，但是至少要知道在函数中输入的是什么，输出的是什么，这样更能方便于理解。

当我们不理解layers层时，我们可以查看layers文件下的编程文件：

所以当遇到keras中遇到语句不明白的或者错误但是找不到原因的，可以尝试去keras网页上或者本地文件中查看每个部分的信息；若只关注代码的使用，则需要明白函数的输入输出，以及这个函数大概做了什么事情。（三大利器：keras文档网页、源码以及baidu搜索）

二、手写题数字识别

1.介绍

　　在深度学习中的深度指的是数据模型中包含着的多个层次，而深度学习是对一堆数值做数学运算，但是这种数学运算是高纬度的，是大量的；在这些数学运算中，深度学习中的层通过反馈（比如后向传播）来对参数进行调整，然后再进行计算。如此反复数次，从而越来越接近我们所给出的正确结果。而在这个过程中，深度学习中的每个层所学习到的就是参数的具体数值。模型训练好以后，只需要一个输入，就能得到相应的输出。

对于深度学习的编程，以下是具体步骤（针对于keras框架）：

　　1.对数据的预处理，如把图片数据变成数值矩阵，把离散的数据变成向量，把数据归一化等等，其目的是为了之后的学习；2.搭建网络框架，即输入层，隐藏层和输出层，深度学习所需要学习的参数在这些层里面；3.编译，即定义所需要用的优化器、损失函数等；4.循环训练，让网络一次又一次的运行，最后得到学习后的参数；5.测试训练的网络模型，在模型训练结束后，进行测试来验证其泛化能力。

　　本文中我们使用mnist数据集，这个数据集包含60000张训练图像和10000张测试图像，全部都是尺寸28*28像素的手写数字图片，如下图所示：

2.对数据的预处理

from keras.datasets import mnist
(train_image,train_labels),(test_images,test_labels)=mnist.load_data()

第一句是从keras.datasets中导入mnist，具体来说，我们在pychram中下载了keras这个库。它是一个文件夹，里面由很多的文件，而其中一个文件是datasets，里面主要用来调用各种数据集；比如mnist是keras文件下datasets文件中的一个编程文件（.py），和我们自己写的编程文件没有区别，而这个文件的具体功能是取爬取到mnist网站中的训练集和测试集。在mnist中有一个load_data的函数，在该函数中把训练集和测试集都分类好了，所以我们用(train_image,train_labels),(test_images,test_labels)来调用该函数中的训练集和测试集。训练集是为了训练模型识别手写体，而测试集是为了检测模型训练好之后对其他非训练集图片识别的能力，也就是泛化能力，而模型的优秀泛化能力是我们所需要的。

　　其中train_image的类型是一个三维张量：（60000，28，28），即是拥有60000张28*28的照片。而train_labels是一个一维的张量：（60000，），表示有60000个标签。测试集test也和训练集合类似，只是照片总数只有10000张，所以标签也只有10000个。

　　在导入数据集后，我们首先对数据进行处理，首先我们得确定深度学习网络是用什么层来搭建，我们假设使用全连接层（后面会讲到用卷积网络），则需要把图片数据处理成一个矩阵输入，该矩阵的多少行表示是有多少张照片，列是图像28*28个像素值（把图片拉成一维的）因为矩阵内是灰色图片的像素点，又需要把矩阵里面的数值压缩到0到1之间变成float32类型，所以我们需要把矩阵内的数值变成浮点型变量后除以255，最后还需要对标签（是什么数字）处理成为一个一维的向量（one-hot），比如，如果标签是3（对应的图片是手写体数字3），则生成一个只在索引3写入1，其他地方写入0的一维向量：[0,0,0,1,0,0,0,0,0,0,]。代码如下：

train_image=train_image.reshape((60000,28*28)) #定义训练集的数据类型，是一个（60000，784）的矩阵
train_image=train_image.astype('float32')/255 #把以上定义的矩阵内数值变成一个在（0，1）之间的数

test_images=test_images.reshape((10000,28*28))  #同上
test_images=test_images.astype('float32')/255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

3.搭建网络框架

from keras import models
from keras import layers
network=models.Sequential()
network.add(layers.Dense(512,activation='relu',input_shape=(28*28,)))
network.add(layers.Dense(10,activation='softmax'))

　　首先需要导入models和layers，即导入keras中编写好了的层和模型，第一行和第二行是要放在最前面的（所有的导入都需要放在最前面，这里为了方便讲解，所以和相应的代码放在一起）

我们可以想象该程序在keras这个文件中，导入models编程文件和layers文件，然后使得network为models.Sequential（），sequential是models中的一个函数，表示以下的网络结构都是线性排列下去。

然后我们添加了两个全连接层（Dense），该网络一共就只有两个层次。第一层，神经元是512个，激活函数是relu函数，而且定义了输入的形状，其参数一共有：28*28*512+512=401920（图像像素尺寸*神经元个数+权值b）。第二层是最后一层也是输出层，因为是判断手写数字，所以是10个神经元，表示输出10个概率值（总和为1）的列表，其中激活函数是softmax，其参数一共有：512*10+10=5120（上一层神经元个数*该层神经元个数+权值b）。

4.编译

network.compile(
optimizer='rmsprop',
loss='categorical_crossentropy',
metrics=['accuracy']
)

这一步是为第二步定义的网络结构做训练的准备，其中有三个参数：1.损失函数（loss）：告诉网络学习的情况，如何让网络朝着争取的放向进行。（告诉网络，你和正确值差了多少，然后用优化器来反馈信号（后向传播）进行参数更新）2.优化器（optimizer）：用于训练数据和损失函数来更新网络的机制。3训练过程中需要监视的指标（metrics）：这里只监视训练的正确率如何（把每一次运行的accuracy的数值打印在页面）

对于损失函数，我们可以调用optimizer文件对其优化器进行选择，以及其参数的修改，具体操作在下一篇文章会进行讨论。

5.循环训练

network.fit(train_image,train_labels,epochs=100,batch_size=34)

　　用之前定义的network调用fit函数执行循环训练，在fit中，train_image和train_labels是训练要使用的图片数据和标签，epochs是指训练多少次，batch_size是指一次训练多少个数据（比如每一次epoch中，一共要训练60000组数据，但是一次性只训练34次）。在这里的代码，我们可以令其等于一个变量，然后在最后画出准确率和损失值的图形（详细方法在下篇文章讨论）

6.测试训练的网络模

test=network.evaluate(test_images,test_labels)
print(test)

在network中调用evaluate函数对最后的测试集进行评估，然后把数赋值给test，最后把test打印出来，得到最后的acc（准确度）和loss（损失值）。一般来说，最后的测试是在训练好了模型之后，去测试模型的泛化能力。

7.总代码

from keras.datasets import mnist
from keras import models
from keras import layers
from keras.utils import to_categorical
#导入数据集
(train_image,train_labels),(test_images,test_labels) = mnist.load_data()
#数据预处理
train_image=train_image.reshape((60000,28*28)) 
train_image=train_image.astype('float32')/255 

test_images=test_images.reshape((10000,28*28)) 
test_images=test_images.astype('float32')/255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)
#定义网络架构
network=models.Sequential()
network.add(layers.Dense(512,activation='relu',input_shape=(28*28,)))
network.add(layers.Dense(10,activation='softmax'))
#编译
network.compile(
    optimizer='rmsprop',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)
#开始循环训练网络
network.fit(train_image,train_labels,epochs=100,batch_size=34)
#对网络进行评估
test=network.evaluate(test_images,test_labels)
print(test)

三、附：梯度下降算法

1.导数的梯度下降算法

　梯度下降算法其内容不是很难，主要是在某个点找到其梯度的方向，然后选择梯度的反方向移动，最后慢慢的接近函数的极值点。

　举个简单的例子，令f(x)=x**2（函数是x的平方）,然后取一个点：x=2，下面我们编写其梯度下降的算法。

　　在编写之前，我们首先要明白，梯度下降算法是怎么慢慢的接近极值点的。在上面例子中，我们选定点x=2后，我们在x=2这一点求其导数，然后用x减去该导数乘以学习率，得到一个新的x坐标，计算出函数的值，再重复以上步骤，让其慢慢接近极值点（导数为零，或者每一次移动都足够小，小到满足需求）。

　　其python程序如下：

　　首先我们定义f(x)函数，以及其一阶导函数fn(x):

def f(x):
    f=x**2
    return f
def fn(x):  
    h=0.0001
    fn=(f(x+h)-f(x-h))/(2*h)
    return fn

　　注：fn=(f(x+h)-f(x-h))/(2*h)是取了x两边的变化（中心差分），这会使得导数误差更小。

　　然后定义学习率，循环的次数以及x的初始值，代码如下：

eta=0.01         #学习率
mun_times=1000   #循环次数
x_value=[]       #保存x的值
f_value=[]       #保存f(x)的值
x=2              #让x从2开始取值

　　之后就是通过循环，不断的接近函数的极值：

for i in range(mun_times):
    x-=eta*fn(x)            #更新x的取值
    x_value.append(x)       
    f_value.append(f(x))

最后可以把x的每次取值和f(x)的值画出来，看看梯度下降的轨迹图：

import matplotlib.pyplot as plt
plt.plot(x_value,f_value)
plt.show

　　图形如下图所示：

　　总的代码为：

import matplotlib.pyplot as plt
def f(x):
    f=x**2
    return f
def fn(x):  #输入的是x输出的是derivate
    h=0.0001
    fn=(f(x+h)-f(x-h))/(2*h)
    return fn

eta=0.01         #学习率
mun_times=1000   #循环次数
x_value=[]       #保存x的值
f_value=[]       #保存f(x)的值
x=2              #让x从2开始取值

for i in range(mun_times):
    x-=eta*fn(x)            #更新x的取值
    x_value.append(x)
    f_value.append(f(x))

plt.plot(x_value,f_value)
plt.show()

2.偏导数的梯度下降算法

　　下面讨论一下偏导数的梯度下降，核心思想是求出x（x在这里是一个列表，有多个数值）的偏导数，然后把梯度存储在一个列表中，最后总的进行数值更新：

　　首先我们定义其求偏导的过程，即分别求x列表中的每个x的偏导数：

def gradient(f,x):
    h=0.0001
    grad = np.zeros_like(x) #生成一个与x大小一致的全零矩阵

    for i in range(x.size):
        tem = x[i]
        x[i] = tem + h    #求第i个x的前向差分
        fh1 = f(x)

        x[i] = tem - h     #求第i个x的后向差分
        fh2 = f(x)

        grad[i] = (fh1-fh2)/(2*h)    #求第i个x的中心差分
        x[i] = tem           #把第i个x的值还给它自己  
    return grad

　　定义函数，这里为了方便，我们只定义一个包含两个变量的函数：

def function(x):
    return x[0]**2+x[1]**2

　定义初始参数：

x_list1=[]                  #存储x[0]的值
x_list2=[]                  #存储x[1]的值
function_list=[]            #存储函数的值
x = np.array([-2.0,4.0])    #选定初始的点
lr=0.01                     #学习率是0.01
ste_num=500                 #循环500次

　梯度下降：

for i in range(ste_num):
    x_list1.append(x[0])    
    x_list2.append(x[1])
    function_list.append(function(x))
    grad=gradient(function,x)   #计算x的梯度
    x -= lr * grad              #更新x的值

　　最后画图查看：

import matplotlib.pyplot as plt
plt.plot(x_list1,function_list,'r',label='x[0]')
plt.plot(x_list2,function_list,'b',label='x[1]')
plt.show()

图像如下图所示：

　　总代码：

import numpy as np
import matplotlib.pyplot as plt
def gradient(f,x):
    h=0.0001
    grad = np.zeros_like(x)

    for i in range(x.size):
        tem = x[i]
        x[i] = tem + h
        fh1 = f(x)

        x[i] = tem - h
        fh2 = f(x)

        grad[i] = (fh1-fh2)/(2*h)
        x[i] = tem
    return grad

def function(x):
    return x[0]**2+x[1]**2
x_list1=[]                  #存储x[0]的值
x_list2=[]                  #存储x[1]的值
function_list=[]            #存储函数的值
x = np.array([-2.0,4.0])    #选定初始的点
lr=0.01                     #学习率是0.01
ste_num=500                 #循环500次
for i in range(ste_num):
    x_list1.append(x[0])
    x_list2.append(x[1])
    function_list.append(function(x))
    grad=gradient(function,x)   #计算x的梯度
    x -= lr * grad              #更新x的值

plt.plot(x_list1,function_list,'r',label='x[0]')
plt.plot(x_list2,function_list,'b',label='x[1]')
plt.show()

总结

第一部分是对keras的简单介绍，在遇到不懂的语句时，可以借助keras中文文档以及keras文件下的源码进行了解。

第二部分是编写一个简单的深度学习网络来识别手写数字。难度不是很大，主要是对keras框架中语句的调用，以及参数的改写（keras已经把深度学习中的一系列操作打包成了函数或者编程文件，所以我们只需要调用即可）。该深度学习模型的主要步骤是：首先对数据进行预处理，变成归一化的浮点型数值矩阵输入神经网络的输入层，然后第一层的权重与输入的数据做运算后加上权重b，通过一个非线性函数输入到下一层，其他层类似；最后在输出层设有10个神经元，表示最后的输出是一个一行十列的数组，用来存放估计的数字的概率。之后由损失函数（categorical_crossentropy）进行后向传播来更新网络中的权重，其中所用到的优化器是rmsprop。

第三部是简单梯度下降算法，类似于自己编写简单的梯度下降算法，只要清楚的了解深度学习的每个步骤，就可以自己尝试编写代码完成，从简单的开始，一步步去优化。这样会更加有利于去理解keras中的每个步骤是怎么来的，对深度学习的每个步骤理解更深。在之后的文章中，可能会慢慢的把深度学习中的步骤一一的尝试去实现。

2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统 yolov8来训练无人机数据集并检测无人机 QQ_767172261 无人及视角 YOLO 无人机深度学习
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统yolov8来训练无人机数据集并检测无人机无人机数据集，yolo格式种类为uav，一共近5w张图片，如何用yolov8代码训练无人机检测数据集文章目录以下文章及内容仅供参考。1.环境部署2.数据预处理数据集准备划分数据集3.模型定义4.训练模型5.评估模型6.结果分析与可视化7.集成与部署PyQt6GUI(`
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
ChatGPT是强人工智能吗? 呵呵爱吃菜 chatgpt 人工智能
ChatGPT是强人工智能吗?本文从人工智能发展的三个阶段的角度,分析当前强大的AI大模型所处的阶段,并通过对比各阶段的定义,明确各阶段的特点和未来发展方向;NarrowAI（弱人工智能）、AGI（人工通用智能）和ASI（人工超级智能）代表了人工智能发展的三个不同阶段，它们在智能水平、任务范围和应用场景上存在显著差异。以下是它们的总结与对比：1.定义与特点类型NarrowAI（弱人工智能）AGI（
AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
基于深度学习的舆论分析与检测系统应用与研究计算机软件程序设计机器学习深度学习人工智能舆论检测
【1】系统介绍研究背景随着互联网技术的迅猛发展和社会媒体平台的普及，信息传播的速度和范围达到了前所未有的水平。这一变化不仅极大地丰富了人们的社交生活，也为社会科学研究提供了新的视角和工具。舆论分析作为社会科学研究的一个重要分支，其目的是通过收集和分析网络上的公众意见和情感倾向，来了解人们对特定事件或话题的看法和态度。近年来，基于深度学习的自然语言处理技术取得了显著进步，这为提高舆论分析的准确性和效
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
【深度学习】搭建PyTorch神经网络进行气温预测睡不着还睡不醒深度学习深度学习 pytorch 神经网络
第一步数据加载与观察①导包importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttorchimporttorch.optimasoptimimportwarningswarnings.filterwarnings("ignore")%matplotlibinline②加载数据features=pd.read_csv("te
GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系 surfirst LLM ai 语言模型 chatgpt
简介近年来，人工智能技术飞速发展，特别是在自然语言处理领域。GPT-4是OpenAI推出的新一代大模型，而GPT-4O和GPT-4O-mini是其优化版本，专门为不同应用场景和计算资源需求进行调整。在这篇文章中，我们将详细比较GPT-4、GPT-4O和GPT-4O-mini的区别与联系，帮助开发者更好地选择适合的模型。GPT-4是OpenAI发布的第四代通用预训练模型，具备强大的生成和理解能力，适
讯飞绘镜（ai生成视频）技术浅析（一）爱研究的小牛 AIGC—视频 AIGC—技术综述人工智能 AIGC 深度学习
讯飞绘镜（也称为星火绘镜）是科大讯飞推出的一款基于人工智能技术的短视频创作平台，旨在通过先进的AI技术简化视频创作流程，让用户能够轻松将创意转化为高质量的视频内容。以下是对讯飞绘镜相关技术、工作原理及具体实现的详细介绍：一、核心技术讯飞绘镜的核心技术主要依托于科大讯飞的星火大模型，并结合了多种先进的AI技术，包括：1.大模型技术：基于讯飞星火大模型，为脚本生成、分镜生成等提供基础能力支持。该模型能
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
开发基于WebRTC和OpenAI实时API的AI语音助手框架：技术解析与最佳实践花生糖@ AIGC学习资料库 webrtc 人工智能
随着人工智能（AI）和实时通信技术的发展，构建一个能够提供即时响应、多语言支持以及个性化用户体验的AI语音助手变得越来越重要。本文将深入探讨如何使用现代Web技术和先进的AI工具开发这样一个语音助手框架，具体来说，我们将基于Next.js、WebRTC和OpenAIAPI创建一个高效且用户友好的解决方案。技术架构主框架-Next.js选择Next.js作为主框架不仅因为它提供的服务端渲染（SSR）
深度学习-97-大语言模型LLM之基于langchain的实体记忆和知识图谱记忆皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1内存记忆Memory1.1记忆系统支持的操作1.2记忆的存储1.3记忆的查询2记忆的应用2.1设置环境变量2.2ConversationEntityMemory实体记忆2.3ConversationKGMemory知识图谱记忆2.3.1创建ConversationKGMemory2.3.2创建ConversationChain2.4ConversationBufferWindowMemo
国外各领域专家学者的一些谏言：如何使AI代理架构变得成功强哥之神人工智能语言模型 AI代理智能体大模型 Agent
最近在研究AI代理架构为什么比较难落地，看到有一篇文章是关于各领域专家学者对AI代理架构的一些看法，值得关注。我将其整理成了中文，大家可一起细品各家观点，全文如下。代理型人工智能被寄予厚望，其潜力在于能够独立完成复杂任务。然而，目前该领域的炒作热潮远超实际成功案例，背后原因复杂多样。“2024年，AI代理已成为众多供应商的营销热词。但对于用户组织而言，代理技术还处于早期探索阶段，充满好奇心与实验性
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
【深度学习】常见模型-生成对抗网络（Generative Adversarial Network, GAN） IT古董人工智能深度学习机器学习深度学习生成对抗网络人工智能
生成对抗网络（GenerativeAdversarialNetwork,GAN）是一种深度学习模型框架，由IanGoodfellow等人在2014年提出。GAN由生成器（Generator）和判别器（Discriminator）两个对抗网络组成，通过彼此博弈的方式训练，从而生成与真实数据分布极为相似的高质量数据。GAN在图像生成、文本生成、数据增强等领域中有广泛应用。核心思想GAN的核心是两个神经
InceptionV1实现猴痘病识别案例小叮当爱咖啡计算机视觉人工智能神经网络深度学习
本文为为365天深度学习训练营内部文章原作者：K同学啊InceptionModule是InceptionV1的核心组成单元，提出了卷积层的并行结构，实现了在同一层就可以提取不同的特征为了改善计算量大的问题，使用了1*1的卷积核实现降维操作，以此来减小网络的参数量与计算量1*1卷积核的作用：降低输入特征图的通道数，减小网络的参数量与计算量最后InceptionModule基本由1*1卷积，3*3卷积
【人工智能时代】- 开源向量数据库比较：Chroma, Milvus, Faiss,Weaviate xiaoli8748_软件开发人工智能时代人工智能开源数据库
语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较，希望你能够选择出最符合自己特定需求的数据库。什么是向量数据库?向量数据库是一种将数据存储为高维向量的数据库，高维向量是特征或属性的数学表示。每个向量都有一定数量的维度，根据数据的复杂性和粒度，可以从数十到
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？ DO_Community 技术科普商业建议人工智能 gpu算力 DigitalOcean ai AIGC
近年来，随着人工智能技术的发展，特别是深度学习模型的广泛应用，GPU（图形处理单元）作为加速计算的重要硬件，在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比，推理通常对GPU的要求有所不同，更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发，对比分析NVIDIA的L40s、A10、A40、A100、A6000五款GPU在AI推理任务中的表
tensorflow对应的python版本_tensorflow + python + keras 版本对应关系 weixin_39912303
TensorFlow2.2tensorflow-2.2TensorFlow2.2.0+Keras2.3.1onPython3.7.TensorFlow2.1tensorflow-2.1TensorFlow2.1.0+Keras2.3.1onPython3.6.TensorFlow2.0tensorflow-2.0TensorFlow2.0.0+Keras2.3.1onPython3.6.Tenso
国内的AI大模型有可能超过ChatGPT吗？ AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能深度学习 AI写作 AIGC
这是一个非常有前瞻性和现实意义的问题。要回答国内AI是否有可能超过ChatGPT，我们需要从多个方面来分析，包括技术基础、数据资源、应用场景、政策支持以及人才储备等。以下是对这一问题的详细探讨：1.技术基础（1）现状国内AI技术：国内的AI技术发展迅速，尤其在深度学习、自然语言处理（NLP）和计算机视觉等领域已经取得了显著进展。例如，百度的文心一言、阿里的通义千问等大语言模型（LLM）已经在技术上
WGAN - 瓦萨斯坦生成对抗网络池央生成对抗网络人工智能神经网络
1.背景与问题生成对抗网络（GenerativeAdversarialNetworks,GANs）是由IanGoodfellow等人于2014年提出的一种深度学习模型。它包括两个主要部分：生成器（Generator）和判别器（Discriminator），两者通过对抗训练的方式，彼此不断改进，生成器的目标是生成尽可能“真实”的数据，而判别器的目标是区分生成的数据和真实数据。虽然传统GAN在多个领域
（详细整理！！！！）Tensorflow与Keras、Python版本对应关系！！！今天不想Debug tensorflow keras 人工智能
小伙伴们大家好，不知道大家有没有被tensorflow框架困扰过今天我就给大家整理一下tensorflow和keras、python版本的对应关系大家这些都可以在官网找到，下面我把官网的连接给大家放在这里：在Windows环境中从源代码构建|TensorFlow(google.cn)但是为了方便大家，我给大家列在下面啦！！！下面这个是我给大家总结的（也是为我自己整理的，嘿嘿~~~）（然后后面我也把
InternLM: LMDeploy 量化部署进阶实践 dilvx 机器学习
LMDeploy部署模型模型部署是将训练好的深度学习模型在特定环境中运行。欢迎使用LMDeploy，支持市面上主流的格式和算法。大模型缓存推理本章的前半部分主要讲量化，包括KV-Cache量化、权重量化、激活值量化。量化主要是为了节省存储空间，用int4,int8来重新表示fp16，将模型的显存占用控制在200G可接受的范围下。值得注意的是，在transformer架构下，计算的瓶颈主要在显存带宽
线性回归——最小二乘法代数详细计算过程在天愿作比翼鸟在地愿为连理枝机器学习和人工智能学习概述线性回归最小二乘法机器学习
Reference:动手实战人工智能AIByDoing关于矩阵方法的求解可参考：最小二乘法矩阵详细计算过程基本定义：通过找到一条直线去拟合数据点的分布趋势的过程，就是线性回归的过程。在上图呈现的这个过程中，通过找到一条直线去拟合数据点的分布趋势的过程，就是线性回归的过程。而线性回归中的「线性」代指线性关系，也就是图中所绘制的红色直线。所以，找到最适合的那一条红色直线，就成为了线性回归中需要解决的目
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

keras框架下的深度学习（一）手写体数字识别

文章目录

前言

一、keras的介绍及其操作使用

二、手写题数字识别

1.介绍

2.对数据的预处理

3.搭建网络框架

4.编译

5.循环训练

6.测试训练的网络模

7.总代码

三、附：梯度下降算法

1.导数的梯度下降算法

2.偏导数的梯度下降算法

总结

你可能感兴趣的:(keras学习,深度学习,keras,人工智能)