付康为

TensorFlow模型的保存和加载

文章目录

保存模型的方法
将TensorFlow的网络导出为单个文件
Tensorflow模型持久化
保存为CKPT格式的模型
- 保存为PB格式模型
- CKPT转换成PB格式

保存模型的方法

将训练好的模型参数保存起来，以便以后进行验证或测试，这是我们经常要做的事情。tf里面提供模型保存的函数是tf.train.Saver模块。模型保存先要创建一个Saver对象：

saver = tf.train.Saver()

在创建Saver对象的时候，有一个参数经常会用到，就是max_to_keep，这个是用来设置保存模型的个数，默认为5，保存最近的5个模型。如果你想每训练一次(epoch)就想保存一次模型，则可以将max_to_keep设置为None或者0：

saver = tf.train.Saver(max_to_keep=0)

但是这样做除了多占用硬盘，并没有实际多大的用处，因此不推荐。当然，如果你只想保存最后一代的模型，则只需要将max_to_keep设置为1即可：

saver = tf.train.Saver(max_to_keep=1)

创建完saver对象后，就可以保存训练好的模型了：

saver.save(sess, 'ckpt/mnist.ckpt', global_step=step)

第一个参数sess，这个就不用说了。第二个参数设定保存的路径和名字，第三个参数将训练的次数作为后缀加入到模型名字中：

saver.save(sess, 'my-model', global_step=0) == > filename: 'my-model-0'
saver.save(sess, 'my-model', global_step=1000) == > filename: 'my-model-1000'

该函数会在目录下生成如下几个文件：

通过tf.train.Saver类实现保存和载入神经网络模型：

import tensorflow as tf

v1 = tf.Variable(tf.constant(1.0, shape=[1]), name="v1")
v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2")
result = v1 + v2

saver = tf.train.Saver()

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    saver.save(sess, "Model/model.ckpt")

加载TensorFlow模型的方法：

import tensorflow as tf

v1 = tf.Variable(tf.constant(1.0, shape=[1]), name="v1")
v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2")
result = v1 + v2

saver = tf.train.Saver()

with tf.Session() as sess:
    saver.restore(sess, "./Model/model.ckpt")  # 注意此处路径前添加“./”
    print(sess.run(result))  # 结果为[ 3.]

若不希望重复定义计算图上的运算，可直接加载已经持久化的图：

import tensorflow as tf

saver = tf.train.import_meta_graph("Model/model.ckpt.meta")

with tf.Session() as sess:
    saver.restore(sess, "./Model/model.ckpt")  # 注意路径写法
    print(sess.run(tf.get_default_graph().get_tensor_by_name("add:0")))  # 结果为[ 3.]

tf.train.Saver类也支持在保存和加载时给变量重命名：

import tensorflow as tf

# 声明的变量名称name与已保存的模型中的变量名称name不一致
u1 = tf.Variable(tf.constant(1.0, shape=[1]), name="other-v1")
u2 = tf.Variable(tf.constant(2.0, shape=[1]), name="other-v2")
result = u1 + u2

# 若直接声明Saver类对象，会报错变量找不到。使用一个字典dict
# 重命名变量即可，语法为{"已保存的变量的名称name": 重命名变量名}，
# 原来名称name为v1的变量现在加载到变量u1(名称name为other-v1)中
saver = tf.train.Saver({"v1": u1, "v2": u2})

with tf.Session() as sess:
    saver.restore(sess, "./Model/model.ckpt")
    print(sess.run(result))  # [ 3.]

保存滑动平均模型：

import tensorflow as tf

v = tf.Variable(0, dtype=tf.float32, name="v")

for variables in tf.global_variables():
    print(variables.name)  # 结果为“v:0”

ema = tf.train.ExponentialMovingAverage(0.99)
maintain_averages_op = ema.apply(tf.global_variables())

for variables in tf.global_variables():
    print(variables.name)  # 结果为“v:0(换行)v/ExponentialMovingAverage:0”

saver = tf.train.Saver()

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    sess.run(tf.assign(v, 10))
    sess.run(maintain_averages_op)
    saver.save(sess, "Model/model_ema.ckpt")
    print(sess.run([v, ema.average(v)]))  # 结果为[10.0, 0.099999905]

通过变量重命名直接读取变量的滑动平均值：

import tensorflow as tf

v = tf.Variable(0, dtype=tf.float32, name="v")
saver = tf.train.Saver({"v/ExponentialMovingAverage": v})

with tf.Session() as sess:
    saver.restore(sess, "./Model/model_ema.ckpt")
    print(sess.run(v))  # 结果为0.0999999

通过tf.train.ExponentialMovingAverage的variables_to_restore函数获取变量重命名字典：

import tensorflow as tf

# 注意此处的变量名称name一定要与已保存的变量名称一致
v = tf.Variable(0, dtype=tf.float32, name="v")
ema = tf.train.ExponentialMovingAverage(0.99)
# 如下结果为{'v/ExponentialMovingAverage': 
# shape=() dtype=float32_ref>}，此处的v取自上面变量v的名称“name="v"”
print(ema.variables_to_restore())
saver = tf.train.Saver(ema.variables_to_restore())

with tf.Session() as sess:
    saver.restore(sess, "./Model/model_ema.ckpt")
    print(sess.run(v))  # 0.0999999

如果变量定义在name_scope的里面：

import tensorflow as tf

with tf.name_scope('input'):
    v1 = tf.Variable(tf.constant(1.0, shape=[1]), name="v1")
    v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2")

result = v1 + v2
saver = tf.train.Saver()

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    saver.save(sess, "./model.ckpt")

提取变量时使用如下语句：

import tensorflow as tf

saver = tf.train.import_meta_graph("Model/model.ckpt.meta")

with tf.Session() as sess:
    saver.restore(sess, "./Model/model.ckpt")  # 注意路径写法
    print(sess.run(tf.get_default_graph().get_tensor_by_name("input/v2:0")))  # 结果为[2.]

我们可以使用tf.train.latest_checkpoint来自动获取最后一次保存的模型：

latest_checkpoint(checkpoint_dir, latest_filename=None)

代码如下：

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/", one_hot=False)

x = tf.placeholder(tf.float32, [None, 784])
y_ = tf.placeholder(tf.int32, [None, ])

dense1 = tf.layers.dense(
    inputs=x, units=1024, activation=tf.nn.relu,
    kernel_initializer=tf.truncated_normal_initializer(stddev=0.01),
    kernel_regularizer=tf.nn.l2_loss)
dense2 = tf.layers.dense(
    inputs=dense1, units=512, activation=tf.nn.relu,
    kernel_initializer=tf.truncated_normal_initializer(stddev=0.01),
    kernel_regularizer=tf.nn.l2_loss)
logits = tf.layers.dense(
    inputs=dense2, units=10, activation=None,
    kernel_initializer=tf.truncated_normal_initializer(stddev=0.01),
    kernel_regularizer=tf.nn.l2_loss)

loss = tf.losses.sparse_softmax_cross_entropy(labels=y_, logits=logits)
train_op = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)
correct_prediction = tf.equal(tf.cast(tf.argmax(logits, 1), tf.int32), y_)
acc = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())

is_train = False
saver = tf.train.Saver(max_to_keep=3)

if is_train:  # 训练阶段
    max_acc = 0
    f = open('ckpt/acc.txt', 'w')

    for i in range(100):
        batch_xs, batch_ys = mnist.train.next_batch(100)
        sess.run(train_op, feed_dict={x: batch_xs, y_: batch_ys})
        val_loss, val_acc = sess.run([loss, acc], feed_dict={x: mnist.test.images, y_: mnist.test.labels})
        print('epoch:%d, val_loss:%f, val_acc:%f' % (i, val_loss, val_acc))
        f.write(str(i + 1) + ', val_acc: ' + str(val_acc) + '\n')

        if val_acc > max_acc:
            max_acc = val_acc
            saver.save(sess, 'ckpt/mnist.ckpt', global_step=i + 1)

    f.close()
else:  # 验证阶段
    model_file = tf.train.latest_checkpoint('ckpt/')
    saver.restore(sess, model_file)
    val_loss, val_acc = sess.run([loss, acc], feed_dict={x: mnist.test.images, y_: mnist.test.labels})
    print('val_loss:%f, val_acc:%f' % (val_loss, val_acc))

sess.close()

这里的latest_checkpoint函数的参数表示模型存储的位置，不需要提供模型的名字，它会去查看checkpoint文件，看看最新保存结果的命名。

将TensorFlow的网络导出为单个文件

有时我们需要将TensorFlow的模型导出为单个文件(同时包含模型架构定义与权重)，方便在其他地方使用(例如在C++中部署网络)。Tensorflow提供如下API来存储和加载模型：

生成检查点文件(checkpoint file)，扩展名一般为.ckpt，通过在tf.train.Saver对象上调用Saver.save生成。它包含权重和其他在程序中定义的变量，不包含图结构。如果需要在另一个程序中使用，需要重新创建图形结构，并告诉TensorFlow如何处理这些权重。
生成图协议文件(graph proto file)，这是一个二进制文件，扩展名一般为.pb，用tf.train.write_graph保存。它只包含图形结构，不包含权重，然后使用tf.import_graph_def来加载图形。

通过convert_variables_to_constants函数将计算图中的变量及其取值通过常量的方式保存于一个文件中：

import tensorflow as tf
from tensorflow.python.framework.graph_util import convert_variables_to_constants

# 构造网络
a = tf.Variable([[3], [4]], dtype=tf.float32, name='a')
b = tf.Variable(4, dtype=tf.float32, name='b')
output = tf.add(a, b, name='out')  # 一定要给输出tensor取一个名字

with tf.Session() as sess:  # 转换Variable为constant，并将网络写入到文件
    sess.run(tf.global_variables_initializer())
    # 这里需要填入输出tensor的名字
    graph = convert_variables_to_constants(sess, sess.graph_def, ["out"])
    tf.train.write_graph(graph, '.', 'graph.pb', as_text=False)

执行结果：

Converted 2 variables to const ops.

载入包含变量及其取值的模型：

import tensorflow as tf

with tf.Session() as sess:
    with open('./graph.pb', 'rb') as f:
        graph_def = tf.GraphDef()
        graph_def.ParseFromString(f.read())
        output = tf.import_graph_def(graph_def, return_elements=['out:0'])
        print(sess.run(output))

执行结果：

[array([[7.],
        [8.]], dtype=float32)]

如果我们的网络需要有一个输入自定义数据的接口，可以采用如下方法：

import tensorflow as tf
from tensorflow.python.framework.graph_util import convert_variables_to_constants

a = tf.Variable([[3], [4]], dtype=tf.float32, name='a')
b = tf.Variable(4, dtype=tf.float32, name='b')
input_tensor = tf.placeholder(tf.float32, name='input')
output = tf.add((a + b), input_tensor, name='out')

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    graph = convert_variables_to_constants(sess, sess.graph_def, ["out"])
    tf.train.write_graph(graph, '.', 'graph.pb', as_text=False)

上述代码重新保存网络至graph.pb，这次我们有了一个输入placeholder，下面来看看怎么恢复网络并输入自定义数据：

import tensorflow as tf

with tf.Session() as sess:
    with open('./graph.pb', 'rb') as f:
        graph_def = tf.GraphDef()
        graph_def.ParseFromString(f.read())
        output = tf.import_graph_def(
                    graph_def, input_map={'input:0': 4.},
                    return_elements=['out:0'], name='a')
        print(sess.run(output))

执行结果：

[array([[11.],
        [12.]], dtype=float32)]

当然也可以在input_map那里可以替换为自定义的placeholder：

import tensorflow as tf

new_input = tf.placeholder(tf.float32, shape=())

with tf.Session() as sess:
    with open('./graph.pb', 'rb') as f:
        graph_def = tf.GraphDef()
        graph_def.ParseFromString(f.read())
        output = tf.import_graph_def(
                    graph_def, input_map={'input:0': new_input},
                    return_elements=['out:0'], name='a')
        print(sess.run(output, feed_dict={new_input: 4}))

Tensorflow模型持久化

当我们使用TensorFlow训练神经网络的时候，模型持久化对于我们的训练有很重要的作用。
如果我们的神经网络比较复杂，训练数据比较多，那么我们的模型训练就会耗时很长，如果在训练过程中出现某些不可预计的错误，导致我们的训练意外终止，那么我们将会前功尽弃。为了避免这个问题，我们就可以通过模型持久化(保存为CKPT格式)来暂存我们训练过程中的临时数据。
如果我们训练的模型需要提供给用户做离线的预测，那么我们只需要前向传播的过程，只需得到预测值就可以了，这个时候我们就可以通过模型持久化(保存为PB格式)只保存前向传播中需要的变量并将变量的值固定下来，这个时候只需用户提供一个输入，我们就可以通过模型得到一个输出给用户。

保存为CKPT格式的模型

定义运算过程，声明并得到一个Saver，通过Saver.save保存模型：

import tensorflow as tf
import os.path

MODEL_DIR = "model/ckpt"
MODEL_NAME = "model.ckpt"

if not tf.gfile.Exists(MODEL_DIR):  # 创建目录
    tf.gfile.MakeDirs(MODEL_DIR)

# 下面的过程你可以替换成CNN、RNN等你想做的训练过程，这里只是简单的一个计算公式
# 输入占位符，并指定名字，后续模型读取可能会用的
input_holder = tf.placeholder(tf.float32, shape=[1], name="input_holder")
W1 = tf.Variable(tf.constant(5.0, shape=[1]), name="W1")
B1 = tf.Variable(tf.constant(1.0, shape=[1]), name="B1")
_y = (input_holder * W1) + B1
# 输出节点名字，后续模型读取会用到，比50大返回true，否则返回false
predictions = tf.greater(_y, 50, name="predictions")

init = tf.global_variables_initializer()
saver = tf.train.Saver()  # 声明saver用于保存模型

with tf.Session() as sess:
    sess.run(init)
    # 输入一个数据测试一下
    print("predictions : ", sess.run(predictions, feed_dict={input_holder: [10.0]}))
    saver.save(sess, os.path.join(MODEL_DIR, MODEL_NAME))  # 模型保存
    # 得到当前图有几个操作节点
    print("%d ops in the final graph." % len(tf.get_default_graph().as_graph_def().node))

for op in tf.get_default_graph().get_operations():  # 打印模型节点信息
    print(op.name, op.values())

运行后生成的文件如下：

checkpoint：记录目录下所有模型文件列表。
ckpt.data：保存模型中每个变量的取值。
ckpt.meta：保存整个计算图的结构。

保存为PB格式模型

定义运算过程，通过get_default_graph().as_graph_def得到当前图的计算节点信息，通过graph_util.convert_variables_to_constants将相关节点的values固定，通过tf.gfile.GFile进行模型持久化：

import tensorflow as tf
from tensorflow.python.framework import graph_util

output_graph = "model/add_model.pb"

# 下面的过程你可以替换成CNN、RNN等你想做的训练过程，这里只是简单的一个计算公式
input_holder = tf.placeholder(tf.float32, shape=[1], name="input_holder")
W1 = tf.Variable(tf.constant(5.0, shape=[1]), name="W1")
B1 = tf.Variable(tf.constant(1.0, shape=[1]), name="B1")
_y = (input_holder * W1) + B1
predictions = tf.add(_y, 10, name="predictions")  # 做一个加法运算(输出节点名是“predictions”)

init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    print("predictions : ", sess.run(predictions, feed_dict={input_holder: [10.0]}))
    # 得到当前的图的GraphDef部分，通过这个部分就可以完成重输入层到输出层的计算过程
    graph_def = tf.get_default_graph().as_graph_def()
    output_graph_def = graph_util.convert_variables_to_constants(sess, graph_def, ["predictions"])

    with tf.gfile.GFile(output_graph, "wb") as f:  # 保存模型
        f.write(output_graph_def.SerializeToString())  # 序列化输出

    print("%d ops in the final graph." % len(output_graph_def.node))
    print(predictions)

GraphDef这个属性记录了TensorFlow计算图上节点的信息。add_model.pb里面保存了从输入层到输出层这个计算过程的计算图和相关变量的值，我们得到这个模型后传入一个输入，即可以得到一个预估的输出值。

CKPT转换成PB格式

通过传入CKPT模型的路径得到模型的图和变量数据，通过import_meta_graph导入模型中的图，通过saver.restore从模型中恢复图中各个变量的数据，通过graph_util.convert_variables_to_constants将模型持久化：

import tensorflow as tf
import os.path
import argparse
from tensorflow.python.framework import graph_util

MODEL_DIR = "model/"
MODEL_NAME = "frozen_model.pb"

if not tf.gfile.Exists(MODEL_DIR):  # 创建目录
    tf.gfile.MakeDirs(MODEL_DIR)

def freeze_graph(model_folder):
    checkpoint = tf.train.get_checkpoint_state(model_folder)  # 检查目录下ckpt文件状态是否可用
    input_checkpoint = checkpoint.model_checkpoint_path  # 得到ckpt文件路径
    output_graph = os.path.join(MODEL_DIR, MODEL_NAME)  # PB模型保存路径

    output_node_names = "predictions"  # 原模型输出操作节点的名字
    # 得到图、clear_devices：Whether or not to clear the device field for an 'Operation' or 'Tensor' during import
    saver = tf.train.import_meta_graph(input_checkpoint + '.meta', clear_devices=True)

    graph = tf.get_default_graph()  # 获得默认的图
    input_graph_def = graph.as_graph_def()  # 返回一个序列化的图代表当前的图

    with tf.Session() as sess:
        saver.restore(sess, input_checkpoint)  # 恢复图并得到数据
        # 测试读出来的模型是否正确，注意这里传入的是输出和输入节点的tensor的名字，不是操作节点的名字
        print("predictions : ", sess.run("predictions:0", feed_dict={"input_holder:0": [10.0]}))
        # 注意，如果有多个输出节点，以逗号隔开
        output_graph_def = graph_util.convert_variables_to_constants(sess, input_graph_def, output_node_names.split(","))

        with tf.gfile.GFile(output_graph, "wb") as f:  # 保存模型
            f.write(output_graph_def.SerializeToString())  # 序列化输出

        print("%d ops in the final graph." % len(output_graph_def.node))  # 得到当前图有几个操作节点

        for op in graph.get_operations():
            print(op.name, op.values())

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument("model_folder", type=str, help="input ckpt model dir")  # 命令行解析，help是提示符，type是输入的类型
    # 这里运行程序时需要带上模型ckpt的路径，不然会报“error: too few arguments”
    aggs = parser.parse_args()
    freeze_graph(aggs.model_folder)

你可能感兴趣的:(深度学习,tensorflow,深度学习,神经网络)

KAN-Transfomer——基于新型神经网络KAN的时间序列预测 MatpyMaster 时间序列付费专栏神经网络人工智能深度学习
1.数据集介绍ETT(电变压器温度)：由两个小时级数据集（ETTh）和两个15分钟级数据集（ETTm）组成。它们中的每一个都包含2016年7月至2018年7月的七种石油和电力变压器的负载特征。traffic(交通)：描述了道路占用率。它包含2015年至2016年旧金山高速公路传感器记录的每小时数据electrity（电力）：从2012年到2014年收集了321个客户每小时电力消耗。exchange
CNN-LSTM神经网络多输入单输出回归预测【MATLAB】沅_Yuan 炼丹师神经网络 cnn lstm
1CNN（卷积神经网络）部分作用：特征提取：CNN主要用于从输入数据中提取空间特征。它能够处理图像、视频帧或其他形式的空间数据。组成部分：卷积层：使用卷积核对输入数据进行卷积操作，生成特征图。激活函数：通常使用ReLU（线性整流单元）激活函数，增加非线性。池化层：通过最大池化（MaxPooling）或平均池化（AveragePooling），减少特征图的尺寸，保留最重要的特征，减少计算复杂度。流程
DAY 41 简单CNN 冬天给予的预感 cnn 人工智能神经网络
知识回顾数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层Flatten->Dense(withDropout，可选)->Dense(Output)importtorchimporttorch.nnasnnimpo
Python打卡训练营-Day41-简单CNN traMpo1ine cnn python 深度学习
@浙大疏锦行知识回顾数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层Flatten->Dense(withDropout，可选)->Dense(Output)这里相关的概念比较多，如果之前没有学习过复试班强化班中
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
RNN循环神经网络原理解读 zhishidi ai笔记 rnn 人工智能深度学习
我们把循环神经网络想象成一个有记忆的助手，特别擅长处理按顺序出现的信息，比如句子、语音、股票价格、音乐旋律等。核心思想：记住过去的信息，帮助理解现在。普通神经网络的局限（没有记忆）想象一个普通的神经网络（比如用于识别图片的）：输入：你给它一张图片。处理：它分析这张图片的像素。输出：告诉你图片里是“猫”还是“狗”。问题：它每次只看一个独立的输入（一张图片），输入之间没有联系。给它看一个视频（连续很多
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
搜索领域知识图谱的知识推理算法研究搜索引擎技术知识图谱算法人工智能 ai
搜索领域知识图谱的知识推理算法研究关键词：知识图谱、知识推理、搜索算法、图神经网络、路径推理、规则推理、表示学习摘要：本文深入探讨搜索领域中知识图谱的知识推理算法。我们将从知识图谱的基本概念出发，分析不同类型的知识推理算法原理，包括基于规则的推理、基于表示的推理和基于路径的推理。通过实际案例和代码实现，展示这些算法如何提升搜索效果，最后讨论该领域的未来发展趋势和挑战。背景介绍目的和范围本文旨在系统
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
庙算兵棋推演AI开发初探（7-神经网络训练与评估概述）超自然祈祷智能决策人工智能神经网络深度学习
前面我们提取了特征做了数据集、设计并实现了处理数据集的神经网络，接下来我们需要训练神经网络了，就是把数据对接好灌进去，训练后查看预测的和实际的结果是否一致——也就是训练与评估。数据解析提取数据编码为数据集设计神经网络-->>神经网络训练与评估神经网络一个重要指标是收敛，就是用可以逼近任意函数的神经网络是否可以逼近你数据集中隐含的模式。再重复一遍【特征工程】与【神经网络】的区别：前者就像人发现了牛顿
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
第 3 章：神经网络如何学习鱼摆摆拜拜神经网络学习人工智能
第3章：神经网络如何学习在第二章中，我们详细了解了神经网络的静态结构：由神经元组成的层，以及连接它们的权重和偏置。现在，我们将进入整个教程最核心的部分：神经网络是如何从数据中"学习"的？这个学习过程是一个动态的、不断调整自身参数以求更佳预测的过程。我们将通过四个关键概念来揭示这个秘密：前向传播(ForwardPropagation)：数据如何通过网络产生一个预测？损失函数(LossFunction
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
分布式训练架构解析
一、分布式训练的问题根源与需求驱动在深度学习领域，模型与数据规模呈指数级增长趋势，传统单机训练模式已难以满足日益复杂的业务需求，分布式训练技术应运而生，其核心驱动力源于以下三大关键困境：1.1算力瓶颈与训练效率危机单GPU设备的计算能力存在物理上限。以NVIDIAA100为例，其单卡FP32算力约为19.5TFLOPS，面对GPT-4这样拥有1.8万亿参数的超大型模型，若采用单机单卡训练，仅完成一
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective 无敌悦悦王文献阅读 cnn 人工智能神经网络计算机视觉图像处理 python 深度学习
摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。研究人员已发现轻量级ViT与轻量级CNN之间存在许多结构关联，但二者在模块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。本研究从ViT视角重新审视轻量级CNN的高效设计，并强调其在移动设备上的应用前景。具体而言，我们通过整合轻量级ViT的高效架构设计，逐步
Day33打卡 @浙大疏锦行 ayuan0119 python打卡shu python
知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）#仍然用4特征，3分类的鸢尾花数据集作为我们今天的数据集fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitimportnumpyasnp
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。