一只干巴巴的海绵

tf.keras搭建神经网络八股：六步法，实践鸢尾花分类、MNIST手写数字识别、Fashion-mnist数据集

keras简介

Keras官方文档

tensorflow2引入的高封装度的框架
用于快速搭建神经网络模型，为支持快速实验而生
深度学习框架之中最终易上手的一个，提供了一致而简洁的API，能够极大地减少一般应用下的工作量，提高代码地封装程度和复用性

学习API：阅读源码和注释

1. 在pycharm集成开发环境中查看框架源码

将鼠标放置在函数上按住Ctrl键，会显示函数的基本信息，包括封装函数的类，函数入口参数，函数功能等；
按住Ctrl键点击函数会跳转到函数的源代码部分，使用者可以根据源码和注释进一步了解函数的实现方法。

2. 在tensorflow官网中查询函数文档

TensorFlow API

tf.keras搭建神经网络“六步法”

第一步：import相关模块

比如import tensorflow as tf。

第二步：指定输入网络的训练集和测试集

告知要喂入的训练集、测试集是什么，如指定训练集的输入x_train和标签y_train，测试集的输入x_test和标签y_test。

第三步：逐层搭建网络结构

注：tensorflow2.* 以后的版本可以直接使用tf.keras.Sequential()和tf.keras.Model()两个类。不用再使用keras.models的API。

1. tf.keras.models.Sequential()（顺序结构）

在sequential()中搭建网络结构，逐层描述每层网络，相当于走了一遍前向传播。
Sequential函数是一个容器，描述了神经网络的网络结构，在Sequential函数的输入参数中描述从输入层到输出层的网络结构。

拉直层：拉直层可以变换张量的尺寸，把输入特征拉直为一维数组，是不含计算参数的层。

tf.keras.layers.Flatten()

全连接层：

tf.keras.layers.Dense( 神经元个数,
						activation=”激活函数”,
						kernel_regularizer=”正则化方式”)

activation：字符串给出，可选'relu'、'softmax'、'sigmoid'、'tanh'等。
kernel_regularizer：可选tf.keras.regularizers.l1()、tf.keras.regularizers.l2()

卷积层：

tf.keras.layers.Conv2D( filter = 卷积核个数,
						kernel_size = 卷积核尺寸,
						strides = 卷积步长,
						padding = “valid” or “same”)

LSTM层：

tf.keras.layers.LSTM()

示例：

import tensorflow as tf
from tensorflow.keras import layers, models

model = models.Sequential()

model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

也可以不使用.add方法。直接在Sequntial里放入层列表：

import tensorflow as tf
from tensorflow.keras import layers, models

model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])

2. 使用类/class（非顺序结构）

使用Sequential()可以快速搭建网络结构，但是如果网络包含跳连等其他复杂网络结构，Sequential()就无法表示了。这就需要使用class来声明网络结构。如下是使用class类封装网络结构的模板：

class MyModel(Model):
	def __init__(self):
		super(MyModel, self).__init__()
		初始化网络结构
	def call(self, x):
		y = self.d1(x)
		return y

MyModel表示声明的神经网络的名字，括号中的Model表示创建的类需要继承tensorflow库中的Model类。
__init__()函数为类的构造函数用于初始化类的参数，spuer(MyModel,self).__init__()这行表示初始化父类的参数。之后便可初始化网络结构,搭建出神经网络所需的各种网络结构块。
call()函数中调用__init__()函数中完成初始化的网络块，实现前向传播并返回推理值。

搭建好网络结构后只需要使用Model=MyModel()构建类的对象，就可以使用该模型了。

3. tf.keras.models.Model()

搭建多输入多输出的网络。
流程使用keras.Input定义输入张量shape；创建网络层，定义每层的输入和输出张量；keras.models.Model确定输入张量和输出层，keras可以根据每一层的输入输出关系完成整个网络图的创建。

import tensorflow as tf
from tensorflow.keras import layers, models, Input

input_tensor = Input(shape=(32, 32, 3))
x = layers.Conv2D(32, (3, 3), activation='relu')(input_tensor)
x = layers.MaxPooling2D((2, 2))(x)
x = layers.Conv2D(64, (3, 3), activation='relu')(x)
x = layers.MaxPooling2D((2, 2))(x)
x = layers.Conv2D(64, (3, 3), activation='relu')(x)
output_tensor1=layers.Flatten()(x)
x = layers.Dense(64, activation='relu')(output_tensor1)
output_tensor2 = layers.Dense(10, activation='softmax')(x)

model = models.Model(inputs=input_tensor, outputs=[output_tensor1, output_tensor2])
model.summary()

TensorFlow2网络结构的搭建方法及共享权重问题

第四步：配置训练方法

在model.compile()中配置训练方法，选择训练时使用的优化器、损失函数和最终评价指标。

Model.compile( optimizer = 优化器,
				loss = 损失函数,
				metrics = [“准确率”])

optimizer 可以是字符串形式给出的优化器名字，也可以是函数形式，使用函数形式可以设置学习率、动量和超参数。

字符串形式	函数形式
‘sgd’	tf.optimizers.SGD( lr=学习率,decay=学习率衰减率,momentum=动量参数)
‘adagrad’	tf.keras.optimizers.Adagrad(lr=学习率,decay=学习率衰减率)
‘adadelta’	tf.keras.optimizers.Adadelta(lr=学习率,decay=学习率衰减率)
‘adam’	tf.keras.optimizers.Adam (lr=学习率,decay=学习率衰减率)

Loss可以是字符串形式给出的损失函数的名字，也可以是函数形式。

字符串形式	函数形式
‘mse’	tf.keras.losses.MeanSquaredError()
‘sparse_categorical_crossentropy’	tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False)
‘categorical_crossentropy’
‘binary_crossentropy’
‘hinge’
‘squared_hinge’

损失函数常需要经过softmax等函数将输出转化为概率分布的形式。from_logits则用来标注该损失函数是否需要转换为概率的形式，取False时表示转化为概率分布，取True时表示没有转化为概率分布，直接输出。

Metrics标注网络评测指标。

‘accuracy’：y_和y都是数值，如y_=[1] y=[1]。
‘categorical_accuracy’：y_和y都是以独热码和概率分布表示。如y_=[0, 1, 0], y=[0.256, 0.695, 0.048]。
‘sparse_ categorical_accuracy’：y_是以数值形式给出，y是以独热码形式给出。如y_=[1],y=[0.256, 0.695, 0.048]。
*‘accuracy’：准确率

Tensorflow2.0 model.compile详细介绍

第五步：执行训练过程

在model.fit()中执行训练过程，告知训练集和测试集的输入值和标签、每个batch的大小（batchsize）和数据集的迭代次数（epoch）。

model.fit(训练集的输入特征， 训练集的标签， batch_size, epochs,
			validation_data = (测试集的输入特征，测试集的标签)，
			validataion_split = 从测试集划分多少比例给训练集，
			validation_freq = 测试的epoch间隔次数)

x_train,y_train分别表示网络的输入特征和标签，
batch_size表示一次喂入神经网络的数据量，
epochs表示数据集的迭代次数
validation_split表示数据集中测试集的划分比例，
validation_freq表示每迭代多少次在测试集上测试一次准确率。

第六步：打印网络结构，统计参数数目

使用model.summary()打印网络结构，统计参数数目。

tf.keras搭建神经网络八股：六步法，实践鸢尾花分类、MNIST手写数字识别、Fashion-mnist数据集_第1张图片

实例

1.iris数据集

tf.keras.models.Sequential()

#-------第一步：import相关模块------
import tensorflow as tf
from sklearn import datasets
import numpy as np

#-------第二步：指定输入网络的训练集和测试集------
#1.测试集的输入特征x_test和标签y_test可以像x_train和y_train一样直接从数据集获取；
#2.在model.fit()中按比例从训练集中划分。
x_train = datasets.load_iris().data
y_train = datasets.load_iris().target

#打乱数据集
np.random.seed(116)
np.random.shuffle(x_train)
np.random.seed(116)
np.random.shuffle(y_train)
tf.random.set_seed(116)

#-------第三步：逐层搭建网络结构-------
#本例使用了单层全连接网络
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(3, activation='softmax', kernel_regularizer=tf.keras.regularizers.l2())
])

#-------第四步：配置训练方法-------
#由于神经网络输出使用了softmax激活函数，使得输出是概率分布，而不是原始输出，所以需要将from_logits参数设置为False；
#鸢尾花数据集给的标签是0，1，2这样的数值，而网络前向传播的输出为概率分布，所以metrics需要设置为sparse_categorical_accuracy。
model.compile(optimizer=tf.keras.optimizers.SGD(lr=0.1),
     		  loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

#-------第五步：在model.fit()中执行训练过程-------
model.fit(x_train, y_train, batch_size=32, epochs=500, validation_split=0.2, validation_freq=20)
#-------第六步：打印网络结构，统计参数数目-------
model.summary()

使用类/class

#-------第一步：import相关模块------
import tensorflow as tf
from tensorflow.keras.layers import Dense
from tensorflow.keras import Model
from sklearn import datasets
import numpy as np

#-------第二步：指定输入网络的训练集和测试集------
x_train = datasets.load_iris().data
y_train = datasets.load_iris().target

np.random.seed(116)
np.random.shuffle(x_train)
np.random.seed(116)
np.random.shuffle(y_train)
tf.random.set_seed(116)

#-------第三步：逐层搭建网络结构-------
class IrisModel(Model):
    def __init__(self):
        super(IrisModel, self).__init__()
        self.d1 = Dense(3, activation='softmax', kernel_regularizer=tf.keras.regularizers.l2())

    def call(self, x):
        y = self.d1(x)
        return y
#实例化
model = IrisModel()

#-------第四步：配置训练方法-------
model.compile(optimizer=tf.keras.optimizers.SGD(lr=0.1),
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

#-------第五步：在model.fit()中执行训练过程-------
model.fit(x_train, y_train, batch_size=32, epochs=500, validation_split=0.2, validation_freq=20)

#-------第六步：打印网络结构，统计参数数目-------
model.summary()

使用Sequential()方法和class方法的区别：

(1). import中添加了Model模块和Dense层、Flatten层。
(2). 使用class声明网络结构，model = IrisModel()初始化模型对象。

2.MNIST数据集

数据集介绍

MNIST数据集一共有7万张图片，是28×28像素的0到9手写数字数据集，其中6万张用于训练，1万张用于测试。每张图片包括 $784（28\times28）$ 个像素点，使用全连接网络时可将784个像素点组成长度为784的一维数组，作为输入特征。数据集图片如下所示。

tf.keras搭建神经网络八股：六步法，实践鸢尾花分类、MNIST手写数字识别、Fashion-mnist数据集_第2张图片

导入、查看数据集

导入数据集

import tensorflow as tf
from matplotlib import pyplot as plt
#keras函数库中提供了使用mnist数据集的接口
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()

使用plt库中的两个函数可视化训练集中的图片

# 可视化训练集输入特征的第一个元素
plt.imshow(x_train[0], cmap='gray')  # 绘制灰度图
plt.show()

tf.keras搭建神经网络八股：六步法，实践鸢尾花分类、MNIST手写数字识别、Fashion-mnist数据集_第3张图片

使用print打印出训练集中第一个样本以二位数组的形式打印出来

# 打印出训练集输入特征的第一个元素
print("x_train[0]:\n", x_train[0])
# 打印出训练集标签的第一个元素
print("y_train[0]:\n", y_train[0])

tf.keras搭建神经网络八股：六步法，实践鸢尾花分类、MNIST手写数字识别、Fashion-mnist数据集_第4张图片

打印出测试集样本的形状，共有10000个28行28列的三维数据

# 打印出整个训练集输入特征形状
print("x_train.shape:\n", x_train.shape)
# 打印出整个训练集标签的形状
print("y_train.shape:\n", y_train.shape)
# 打印出整个测试集输入特征的形状
print("x_test.shape:\n", x_test.shape)
# 打印出整个测试集标签的形状
print("y_test.shape:\n", y_test.shape)

训练MNIST数据集

使用Sequential实现手写数字识别

import tensorflow as tf

mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

model.fit(x_train, y_train, batch_size=32, epochs=5, validation_data=(x_test, y_test), validation_freq=1)
model.summary()

使用class实现手写数字识别

import tensorflow as tf
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras import Model

mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

class MnistModel(Model):
    def __init__(self):
        super(MnistModel, self).__init__()
        self.flatten = Flatten()
        self.d1 = Dense(128, activation='relu')
        self.d2 = Dense(10, activation='softmax')

    def call(self, x):
        x = self.flatten(x)
        x = self.d1(x)
        y = self.d2(x)
        return y


model = MnistModel()

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

model.fit(x_train, y_train, batch_size=32, epochs=5, validation_data=(x_test, y_test), validation_freq=1)
model.summary()

值得注意的是训练时需要将输入特征的灰度值归一化到[0,1]区间，这可以使网络更快收敛。

训练时每个step给出的是训练集accuracy不具有参考价值，有实际评判价值的是validation_freq中设置的隔若干轮输出的测试集accuracy。

3.Fashion-mnist数据集

Fashion_mnist数据集具有mnist近乎所有的特征，包括60000张训练图片和10000张测试图片，图片被分为十类，每张图像为28×28的分辨率。

import tensorflow as tf

fashion = tf.keras.datasets.fashion_mnist
(x_train, y_train),(x_test, y_test) = fashion.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

model.fit(x_train, y_train, batch_size=32, epochs=5, validation_data=(x_test, y_test), validation_freq=1)
model.summary()

import tensorflow as tf
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras import Model

fashion = tf.keras.datasets.fashion_mnist
(x_train, y_train),(x_test, y_test) = fashion.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0


class MnistModel(Model):
    def __init__(self):
        super(MnistModel, self).__init__()
        self.flatten = Flatten()
        self.d1 = Dense(128, activation='relu')
        self.d2 = Dense(10, activation='softmax')

    def call(self, x):
        x = self.flatten(x)
        x = self.d1(x)
        y = self.d2(x)
        return y


model = MnistModel()

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

model.fit(x_train, y_train, batch_size=32, epochs=5, validation_data=(x_test, y_test), validation_freq=1)
model.summary()

北大人工智能实践：Tensorflow笔记

从零开始大模型开发与微调：PyCharm的下载与安装 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyCharm的下载与安装1.背景介绍随着人工智能和深度学习技术的不断发展,大型语言模型(LargeLanguageModels,LLMs)已经成为当前最引人注目的研究热点之一。LLMs能够在各种自然语言处理任务上展现出惊人的性能,例如机器翻译、文本生成、问答系统等。PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm
PyTorch从入门到精通：探索深度学习新境界 lmtealily 深度学习 pytorch 人工智能
引言PyTorch作为当前最受欢迎的深度学习框架之一，凭借其动态计算图的独特设计和与Python生态的无缝集成，正重塑着人工智能开发的新范式1。从NVIDIA的研究实践到Meta的产业应用，PyTorch的价值已渗透至学术研究、工业部署的每个角落。本文将带领您从张量操作基础开始，逐步探索GPU加速、动态图机制、框架生态集成等高级主题，最终实现理论与实战的双重突破。一、PyTorch核心基础构建1.
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
大模型开发教程：从零开始的入门指南！程序员二飞人工智能 java 数据库职场和发展深度学习
概述大模型开发教程引领人工智能领域前沿，从基础概念至实战项目，全面覆盖Python与深度学习框架使用，指导初学者构建线性回归、逻辑回归、神经网络等模型，深入探索图像分类、情感分析等复杂应用，为探索未来智能世界提供坚实基石。前排提示，文末有大模型AGI-CSDN独家资料包哦！二、基础知识2.1人工智能与深度学习的概念人工智能(AI)是计算机科学的一个分支，旨在使计算机能够执行通常需要人类智能的任务。
GAN生成对抗网络小记文弱_书生乱七八糟生成对抗网络人工智能神经网络
生成对抗网络（GAN）深入解析：数学原理与优化生成对抗网络（GenerativeAdversarialNetwork,GAN）是一个基于博弈论的深度学习框架，通过生成器（G）和判别器（D）之间的对抗训练，生成高度逼真的数据。其核心思想是让GGG生成伪造数据以欺骗DDD，而DDD则努力分辨真实数据与伪造数据。GAN在理论上可以看作一个极小极大（Minimax）优化问题。1.GAN的数学公式1.1生成
python和pytorch关系_PyTorch：Python优先的深度学习框架 weixin_39877182
最近，Torch7团队开源了PyTorch。据该项目官网介绍，PyTorch是一个Python优先的深度学习框架，能够在强大的GPU加速基础上实现张量和动态神经网络。PyTorch是一个Python软件包，其提供了两种高层面的功能：使用强大的GPU加速的Tensor计算（类似numpy）构建于基于tape的autograd系统的深度神经网络如有需要，你也可以复用你最喜欢的Python软件包（如nu
Activeloop Deep Lake: AI时代的数据湖解决方案 HGWAcsdgvs 人工智能 python
技术背景介绍在当前AI技术蓬勃发展的背景下，数据的存储和检索显得尤为重要。ActiveloopDeepLake是一种多模态向量存储解决方案，支持嵌入和元数据（如文本、Json、图像、音频、视频等）的存储。它适用于本地、云端或Activeloop存储，通过嵌入以及其属性进行混合搜索。该解决方案是一个无服务器的数据湖，具备版本控制、查询引擎和深度学习框架的流媒体数据加载器。核心原理解析DeepLake
Deep Lake：人工智能时代的数据湖开源项目精选人工智能
DeepLake是一款由Activeloop开发的开源深度学习数据湖，旨在解决深度学习数据管理的挑战。它提供高效的多模态数据管理、类似Git的版本控制、强大的查询和可视化功能，并与MLOps生态系统无缝集成，助你轻松驾驭海量数据，加速模型训练！Stars数8,458Forks数652主要特点多模态数据支持：支持图像、视频、音频、文本、点云等各种数据类型。张量存储：以深度学习框架友好的张量格式存储数
PyTorch深度学习框架进阶学习计划 - 第21天：自然语言处理基础凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程 AIGC 自然语言处理
PyTorch深度学习框架进阶学习计划-第21天自然语言处理基础今天我们将深入学习自然语言处理(NLP)的基础概念，重点关注词嵌入技术、序列建模原理以及主流模型之间的区别和优缺点。通过理解这些基础知识，你将能够更好地应用PyTorch构建NLP应用。1.词嵌入原理与实现词嵌入(WordEmbeddings)是NLP中的核心概念，它将单词映射到连续向量空间，使得语义相似的词在向量空间中距离较近。为什
PyTorch深度学习框架60天进阶学习计划 - 第19天：时间序列预测凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程迁移学习 python
PyTorch深度学习框架60天进阶学习计划-第19天：时间序列预测目录时间序列预测概述滑动窗口数据构造方法归一化策略对比：MinMaxvsZ-ScoreLSTM基础原理Attention机制与LSTM结合LSTM-Attention模型实现TeacherForcing技术与应用Prophet基准模型对比多步预测的滚动验证方法综合实战：股票价格预测1.时间序列预测概述时间序列预测是机器学习中的一个
PyTorch深度学习框架60天进阶学习计划 - 第18天：模型压缩技术凡人的AI工具箱深度学习 pytorch 学习 python 人工智能
PyTorch深度学习框架60天进阶学习计划-第18天：模型压缩技术目录模型压缩技术概述知识蒸馏详解软标签生成策略KL散度损失推导温度参数调节结构化剪枝技术通道剪枝评估准则L1-norm剪枝算法APoZ剪枝算法量化训练基础量化类型与精度PyTorch量化API剪枝与量化协同优化Torch.fx动态计算图修改自动化模型压缩流程实现实战案例：ResNet模型压缩性能评估与分析进阶挑战与思考1.模型压缩
训练大模型LLM选择哪种开发语言最好大0马浓人工智能训练 python
训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。以下是常见语言的分析和推荐：---1.Python（首选语言）优势：-生态系统丰富：主流深度学习框架（PyTorch、TensorFlow、JAX）均以Python为主要接口，提供完整的工具链（数据处理、模型训练、评估部署）。-开发效率高：语法简洁，适合快速实验和原型开发，社区
如何增强机器学习基础，提升大模型面试通过概率 weixin_40941102 机器学习面试人工智能
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型（如Transformer、GPT-4、LLaMA等）在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中的广泛应用，AI行业的招聘竞争愈发激烈。面试官不仅要求候选人熟练使用深度学习框架（如PyTorch、TensorFlow），还希望他们具备扎实的机器学习理论基础、算法实现能力和实际问题解决经验。本文将从机器学习基础入手
为什么VAE效果不好，但VAE+diffusion效果就好了？ AndrewHZ 深度学习新浪潮算法计算机视觉深度学习扩散模型 VAE 生成式模型技术分析
1.什么是VAE?VAE（VariationalAutoencoder，变分自编码器）是一种基于概率生成模型的深度学习框架，主要用于数据生成和潜在空间建模。它结合了自编码器（Autoencoder）的结构和变分推断（VariationalInference）的思想，能够从数据中学习有意义的潜在表示，并生成与训练数据相似的新样本。VAE的核心思想编码-解码结构类似传统自编码器，VAE包含两个部分：编
探索未来：FacebookResearch的JEPa项目详解瞿旺晟
探索未来：FacebookResearch的JEPa项目详解去发现同类优质开源项目:https://gitcode.com/项目简介是FacebookResearch推出的一个开源项目，全称为"JointEmbeddingofProgramsandAttributes"。它是一个用于程序理解和属性预测的深度学习框架，旨在提升代码的理解和自动化程度，为开发者提供更智能的编程辅助工具。技术分析**1.
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
深入探索Deeplearning4j（DL4J）：Java深度学习的全面指南软件职业规划 java 深度学习开发语言
一、DL4J框架概述Deeplearning4j（DL4J）是一个开源的深度学习框架，专为Java和Scala设计，运行在Java虚拟机（JVM）上。它由Skymind公司开发并维护，旨在将深度学习技术应用于大规模商业应用。DL4J支持多种深度学习模型，包括卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）等。自2014年首次发布以来，DL4J已经成为Java深度学习领域的
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶凡人的AI工具箱深度学习 pytorch 学习人工智能 python AI编程
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶在深度学习处理序列数据时，循环神经网络(RNN)家族的模型扮演着至关重要的角色。今天，我们将深入探讨循环神经网络的进阶内容，包括BiLSTM的工作机制、注意力机制的数学原理，以及Transformer编码层的实现。目录BiLSTM的双向信息流机制LSTM回顾BiLSTM架构解析时序特征融合策略BiLSTM实现与案例注意力机制原理
使用 DeepSeek 训练属于自己写小说的模型 xinxiyinhe DeepSeek 人工智能 python
如果你想使用DeepSeek训练一个专门用于写小说的模型，以下是详细的指导指南。DeepSeek是一个强大的深度学习框架，支持自然语言处理任务。我们将基于DeepSeek的API和工具，结合HuggingFace的Transformers库，完成模型的训练和部署。详细指南：使用DeepSeek训练写小说模型1.环境准备1.1安装必要的库确保你已经安装了以下Python库：pipinstalltor
Keras深度学习实战——手写文字识别鱼弦机器学习设计类系统深度学习 keras 人工智能
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Keras深度学习实战——手写文字识别1.介绍本教程将介绍如何使用Keras深度学习框架进行手写文字识别。手写文字识别是指将手写文字转换为相应的文本，该文本可
PyTorch 深度学习快速入门教程有人给我介绍对象吗 AI论文写作深度学习 pytorch 人工智能
PyTorch深度学习快速入门教程PyTorch是一个灵活且易用的深度学习框架，支持动态图计算，广泛用于学术研究和工业应用。本教程将带你快速掌握PyTorch的基本用法，涵盖张量（Tensor）操作、自动求导（Autograd）、构建神经网络以及模型训练。1.安装PyTorch在终端或命令行中运行以下命令安装PyTorch：pipinstalltorchtorchvisiontorchaudio安
【AI学习从零至壹】pytorch基础 flyyyya AI 算法人工智能学习 pytorch
pytorch基础pytorch基础张量（Tensor）张量的属性张量的索引和切⽚：张量的拼接张量的算数运算单元素张量In-place操作与numpy之间的转换张量到numpy数组计算图静态计算图动态计算图pytorch计算图可视化pytorch基础PyTorch是⼀个开源的深度学习框架，由Facebook的⼈⼯智能研究团队开发和维护，在学术界和⼯业界都得到了⼴泛应⽤。张量（Tensor）张量（T
深圳传音控股AI算法岗内推飞300 人工智能 python java 业界资讯
1扎实的数学基础，熟练掌握机器学习相关的数学知识。2熟悉常用的机器学习算法，掌握常用的深度学习模型与编程实践。3熟悉Pytorch或TensorFlow等深度学习框架，有一定项目经验。4良好的沟通协调能力，执着的专业精神。5参与部门AI创新项目，包括自动化测试平台、BPM流程管理等项目开发登录链接：transsion.zhiye.com/campus/jobs填写我的推荐码：EVHPB3投递，简历
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
深度学习进阶：TensorFlow实战指南 ELSON麦香包
本文还有配套的精品资源，点击获取简介：《TensorFlow实战Google深度学习框架》详细指导读者学习TensorFlow，涵盖基础概念、数据流图、API使用、张量和变量操作，深度学习基础如CNN和RNN，以及自定义层和优化算法。书中还提供使用TensorFlow构建和训练深度学习模型的实例，包括AlexNet、VGG、ResNet以及LSTM和GRU，并通过图像分类和文本情感分析等实战案例，
深度学习day1 孤城laugh 深度学习人工智能笔记学习机器学习
深度学习day11.深度学习与机器学习的区别1.1特征提取方面1.2数据量与计算性能要求1.3算法代表2.深度学习框架之TensorFlow2.1TensorFlow基础2.2TensorFlow基础知识1.**张量（Tensor）**：多维数组、多维列表2.**变量（Variable）**：用于表示程序处理的共享持久状态3.**图与函数**4.**可视化学习（TensorBoard）**：用来展
56、深度学习-自学之路-自己搭建深度学习框架-17、关于为什么LSTM可以解决RNN的梯度爆炸和梯度消失的问题的解析。小宇爱深度学习-自学之路深度学习 rnn lstm
我的话太苍白，你们可以去哔哩哔哩上搜索一个"大白话讲解LSTM长短期记忆网络如何缓解梯度消失，手把手公式推导反向传播”不仅仅解释了为什么，还把公式的推导也给了出来。讲的已经非常好了。还可以看一下他的专辑内容，其中有RNN，LSTM,GRU的详细解释。比我说的好。
深度学习框架之主流学习框架 uu1224 深度学习学习人工智能机器学习神经网络
深度学习框架是一类专门设计用来简化和加速神经网络模型开发过程的软件工具。它们提供了构建、训练和部署神经网络所需的各种功能和库。以下是一些主流的深度学习框架及其特点：TensorFlow：由Google开发，是一个广泛使用的开源深度学习框架。它以强大的图计算模型和分布式计算能力著称，并且通过高级API如Keras，为用户提供了易于上手的开发体验。PyTorch：由Facebook开发，以其动态计算图
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，