YiXuanYa9527

基于Tensorflow 2.0实现的图片风格迁移

摘要神经风格迁移是一种优化技术，用于将两个图像（一个内容图像和一个风格参考图像）混合在一起，使输出的噪声图像看起来像内容图像，
但是使用了风格参考图像的风格。这是通过优化输出图像以匹配内容图像的内容统计数据和风格参考图像的风格统计数据来实现的。
这些统计数据可以使用卷积网络从图像中提取。
本次论文采用Tensorflow2.0实现简单的图片风格迁移，采用官方VGG19训练模型，对内容、风格图片进行训练，通过增加训练次数与噪声图片生成次数达到减小图片内容损失以及风格损失的目的；实验表明通过增加训练次数与噪声图片生成次数可以明显的减小图片的内容以及风格损失。
关键词：神经网络；风格迁移；卷积网络；VGG19；Tensorflow2.0

1 绪论

所谓图像风格迁移，即给定内容图片A，风格图片B，能够生成一张具有A图片内容和B图片风格的图片C。比如说，我们可以使用梵高先生的名画《星夜》
作为风格图片，来与其他图片生成具有《星夜》风格新图片。举两个简单的例子：利用梵高的名画——《星夜》作为风格图片，一个常见的动漫图片作为内容图片。分别计算出内容图片与风格图片的内容特征，再基于风格图片生成的的噪声图片风格特征与内容图片融合生成一张新的噪声图片即风格迁移后的图片。

图1-1 风格图片以及迁移前后对比图

针对原Demo对其训练次数以及训练后融合次数进行修改，将训练次数改为150次（原Demo为100次），融合次数改为30次（原Demo为20次）。随着训练次数和融合次数增加图片的内容损失以及风格损失有着明显的降低。下图为修改后对比图：

图1-2 训练次数与融合次数不同对比图
**

2 项目

2.1 项目器材

联想拯救者Y7000笔记本Windows10系统，16GB内存，主硬盘128GB，CPU（Intel@Core i5-8300H），显卡（NVIDIA GTX 1050 Ti 4GB）

2.2 项目环境

Anaconda3-5.1.0+PyCharm+Python3.6

2.3 项目内容

2.3.1 项目包含文件

本项目一共包含四个Python文件以及一个TXT文件，其中model.py文件为模型初始化文件，即调用官方VGG19模型文件；settings.py文件为整个项目设置相关参数的重要文件，主要设置内容特征层loss加权系数、风格特征层loss加权系数、内容图片和风格图片输入路径、生成图片输出路径、内容和特征总loss加权系数、输出图片大小以及训练次数等；utils.py文件主要作用为对图片进行解码、归一化处理；train.py文件主要作用为计算风格和内容特征、计算风格和内容loss、加速训练以及生成噪声图片（即风格迁移后的图片）；requirements.txt文件可通过修改文件中涉及相关Python包的版本，达到在不同电脑上也能正常运行的目的。

2.3.2 实验过程

首先查看运行设备的Python环境以及项目涉及的相关附件包版本，通过修改requirements.txt文件，将涉及包版本修改与运行设备中相关版本。如下图所示：

图2.3.2—1 修改requirements.txt文件

其次通过settings.py文件设置图片的输入与输出位置和输出图片的大小以及相关训练epoch个数以及epoch训练次数。如下图所示：

图2.3.2—2 修改相关参数

运行train.py文件，等待模型训练，训练结束后可在输出文件夹中查看输出风格迁移后的图片。如下图：

图2.3.2—3 风格迁移后的输出图片
**

3 项目所遇问题

3.1 版本兼容性问题

由于python以及相关附件包版本不同，部分相关函数的调用方法有所改变。以至于在初步运行Demo时总是报错，其中报错最多的为找不到某一个附件包内所涉及的函数调用。通过在CSDN网站内大量查询解决办法，最终确定为版本不兼容，更新项目所涉及相关附件包后得以解决。
其中在正式确定本次项目Demo前，在运行其它类似项目时遇到以下问题：
Tensorflow与keras版本有相关对应关系[1]。
例如keras2.3.1对应tensorflow2.1、2.0.1.15.
Tensorflow与python版本有对应关系。[2]
例如windows环境下tensorflow1.6.0对应python3.5-3.6
Pytorch和Torchvision以及python版本有严格对应关系[3]。
例如torch1.4.0对应torchvision0.5.0，python2.7或者python3.5—3.8。

3.2 图片输出问题

在原项目源码中发现对于风格迁移后的噪声图片输出大小做出了严格的限制（即将图片压缩后输出），在查询相关知识点后，发现可以通过python的图像处理库——PIL修改输出图片的大小[4]；PIL提供了功能丰富的方法，比如格式转换、旋转、裁剪、改变尺寸、像素处理、图片合并等。源码将输出图片大小定为450*300，通过PIL库中Image读取内容噪声图片，再通过相关方法将输出噪声图片大小改为与内容图片大小。

图3.2—1 修改噪声图片输出大小

3.3 epoch训练问题

原项目中epoch训练个数为20个，训练次数为100次，从输出的噪声图片看，输出的噪声图片对风格、内容特征的损失比较少，但再将epoch训练个数增加至30个、训练次数增加至150次后，输出的噪声图片的内容、风格特征损失达到一个理想值，当继续增加epoch训练个数和训练次数时提升并不明显，最终确定epoch训练个数为30个训练次数为150次。

结论

原项目中[5]重点提到了以梵高名画《星空》作为风格图片进行相关的图像风格融合，且风格与内容的损失比较少。但该项目对于其它风格的图像迁移也有着不错的表现，例如赛博朋克风格、素描风格等，其中赛博朋克风格在建筑上的表现更佳，对于其它类型的图片表现不够理想，素描风格的整体表现都不错。
该项目所训练的模型不止能对于绘画内的风格迁移，摄影类也能很好的进行风格迁移，但对于摄影类（即真实类）的风格、内容损失较大，能够明显的感受到有很大的突兀感，不够真实。其绘画（素描）类的风格迁移表现不够理想，突兀感很强烈，风格损失过大。

赛博朋克凤格：

素描风格：

该项目还有着很大的优化空间，当风格、内容图像特点比较多时，项目训练时间也会更长。后续可以通过提升电脑性能以及优化源码完成对训练时间的缩短。

参考文献

[1]tensorflow和keras版本对应关系(blog.csdn.net/weixin_40109345/article/details/106730050?spm=1001.2014.3001.5502)
[2]各操作系统与Tensorflow版本配套关系(blog.csdn.net/u014797226/article/details/80632440?spm=1001.2014.3001.5502)
[3]Pytorch和Torchvision版本对应（blog.csdn.net/qq_40263477/article/details/106577790?spm=1001.2014.3001.5502）
[4]Python「PIL」：调整图片大小（blog.csdn.net/qq_41297934/article/details/105302393?spm=1001.2014.3001.5502）
[5]有趣的深度学习——使用TensorFlow 2.0实现图片神经风格迁移
（https://blog.csdn.net/aaronjny/article/details/104879258）

附录

model.py

import typing
import tensorflow as tf
import settings
def get_vgg19_model(layers):
    """
    创建并初始化vgg19模型
    :return:
    """
    # 加载imagenet上预训练的vgg19
    vgg = tf.keras.applications.VGG19(include_top=False, weights='imagenet')
    # 提取需要被用到的vgg的层的output
    outputs = [vgg.get_layer(layer).output for layer in layers]
    # 使用outputs创建新的模型
    model = tf.keras.Model([vgg.input, ], outputs)
    # 锁死参数，不进行训练
    model.trainable = False
    return model
class NeuralStyleTransferModel(tf.keras.Model):
    def __init__(self, content_layers: typing.Dict[str, float] = settings.CONTENT_LAYERS,
                 style_layers: typing.Dict[str, float] = settings.STYLE_LAYERS):
        super(NeuralStyleTransferModel, self).__init__()
        # 内容特征层字典 Dict[层名,加权系数]
        self.content_layers = content_layers
        # 风格特征层
        self.style_layers = style_layers
        # 提取需要用到的所有vgg层
        layers = list(self.content_layers.keys()) + list(self.style_layers.keys())
        # 创建layer_name到output索引的映射
        self.outputs_index_map = dict(zip(layers, range(len(layers))))
        # 创建并初始化vgg网络
        self.vgg = get_vgg19_model(layers)
    def call(self, inputs, training=None, mask=None):        
        outputs = self.vgg(inputs)
        # 分离内容特征层和风格特征层的输出，方便后续计算 typing.List[outputs,加权系数]
        content_outputs = []
        for layer, factor in self.content_layers.items():
            content_outputs.append((outputs[self.outputs_index_map[layer]][0], factor))
        style_outputs = []
        for layer, factor in self.style_layers.items():
            style_outputs.append((outputs[self.outputs_index_map[layer]][0], factor))
        # 以字典的形式返回输出
        return {'content': content_outputs, 'style': style_outputs}

settings.py

from PIL import Image
# 内容特征层及loss加权系数
CONTENT_LAYERS = {'block4_conv2': 0.5, 'block5_conv2': 0.5}
# 风格特征层及loss加权系数
STYLE_LAYERS = {'block1_conv1': 0.2, 'block2_conv1': 0.2, 'block3_conv1': 0.2, 'block4_conv1': 0.2,
                'block5_conv1': 0.2}
# 内容图片路径
CONTENT_IMAGE_PATH = './images/test_0.jpg'
# 风格图片路径
STYLE_IMAGE_PATH = './images/style_2.jpeg'
# 生成图片的保存目录
OUTPUT_DIR = './output/'

# 内容loss总加权系数
CONTENT_LOSS_FACTOR = 1
# 风格loss总加权系数
STYLE_LOSS_FACTOR = 100

# 加载内容图片
img_pillow = Image.open(CONTENT_IMAGE_PATH)

# 图片宽度
#WIDTH = 450
WIDTH = img_pillow.width
# 图片高度
#HEIGHT = 300
HEIGHT = img_pillow.height
# 训练epoch数
EPOCHS = 1
# 每个epoch训练多少次
STEPS_PER_EPOCH = 100
# 学习率
LEARNING_RATE = 0.03

utils.py

import tensorflow as tf
import settings
# 我们准备使用经典网络在imagenet数据集上的与训练权重，所以归一化时也要使用imagenet的平均值和标准差
image_mean = tf.constant([0.485, 0.456, 0.406])
image_std = tf.constant([0.299, 0.224, 0.225])
def normalization(x):
    """
    对输入图片x进行归一化，返回归一化的值
    """
    return (x - image_mean) / image_std
def load_images(image_path, width=settings.WIDTH, height=settings.HEIGHT):
    """
    加载并处理图片
    :param image_path:　图片路径
    :param width: 图片宽度
    :param height: 图片长度
    :return:　一个张量
    """
    # 加载文件
    x = tf.io.read_file(image_path)
    # 解码图片
    x = tf.image.decode_jpeg(x, channels=3)
    # 修改图片大小
    x = tf.image.resize(x, [height, width])
    x = x / 255.
    # 归一化
    x = normalization(x)
    x = tf.reshape(x, [1, height, width, 3])
    # 返回结果
    return x


def save_image(image, filename):
    x = tf.reshape(image, image.shape[1:])
    x = x * image_std + image_mean
    x = x * 255.
    x = tf.cast(x, tf.int32)
    x = tf.clip_by_value(x, 0, 255)
    x = tf.cast(x, tf.uint8)
    x = tf.image.encode_jpeg(x)
    tf.io.write_file(filename, x)

train.py

import os
import numpy as np
from tqdm import tqdm
import tensorflow as tf
from model import NeuralStyleTransferModel
import settings
import utils
# 创建模型
model = NeuralStyleTransferModel()
# 加载内容图片
content_image = utils.load_images(settings.CONTENT_IMAGE_PATH)
# 风格图片
style_image = utils.load_images(settings.STYLE_IMAGE_PATH)
# 计算出目标内容图片的内容特征备用
target_content_features = model([content_image, ])['content']
# 计算目标风格图片的风格特征
target_style_features = model([style_image, ])['style']
M = settings.WIDTH * settings.HEIGHT
N = 3
def _compute_content_loss(noise_features, target_features):
    """
    计算指定层上两个特征之间的内容loss
    :param noise_features: 噪声图片在指定层的特征
    :param target_features: 内容图片在指定层的特征
    """
    content_loss = tf.reduce_sum(tf.square(noise_features - target_features))
    # 计算系数
    x = 2. * M * N
    content_loss = content_loss / x
    return content_loss
def compute_content_loss(noise_content_features):
    """
    计算并当前图片的内容loss
    :param noise_content_features: 噪声图片的内容特征
    """
    # 初始化内容损失
    content_losses = []
    # 加权计算内容损失
    for (noise_feature, factor), (target_feature, _) in zip(noise_content_features, target_content_features):
        layer_content_loss = _compute_content_loss(noise_feature, target_feature)
        content_losses.append(layer_content_loss * factor)
    return tf.reduce_sum(content_losses)
def gram_matrix(feature):
    """
    计算给定特征的格拉姆矩阵
    """
    # 先交换维度，把channel维度提到最前面
    x = tf.transpose(feature, perm=[2, 0, 1])
    # reshape，压缩成2d
    x = tf.reshape(x, (x.shape[0], -1))
    # 计算x和x的逆的乘积
    return x @ tf.transpose(x)


def _compute_style_loss(noise_feature, target_feature):
    """
    计算指定层上两个特征之间的风格loss
    :param noise_feature: 噪声图片在指定层的特征
    :param target_feature: 风格图片在指定层的特征
    """
    noise_gram_matrix = gram_matrix(noise_feature)
    style_gram_matrix = gram_matrix(target_feature)
    style_loss = tf.reduce_sum(tf.square(noise_gram_matrix - style_gram_matrix))
    # 计算系数
    x = 4. * (M ** 2) * (N ** 2)
    return style_loss / x


def compute_style_loss(noise_style_features):
    """
    计算并返回图片的风格loss
    :param noise_style_features: 噪声图片的风格特征
    """
    style_losses = []
    for (noise_feature, factor), (target_feature, _) in zip(noise_style_features, target_style_features):
        layer_style_loss = _compute_style_loss(noise_feature, target_feature)
        style_losses.append(layer_style_loss * factor)
    return tf.reduce_sum(style_losses)


def total_loss(noise_features):
    """
    计算总损失
    :param noise_features: 噪声图片特征数据
    """
    content_loss = compute_content_loss(noise_features['content'])
    style_loss = compute_style_loss(noise_features['style'])
    return content_loss * settings.CONTENT_LOSS_FACTOR + style_loss * settings.STYLE_LOSS_FACTOR


# 使用Adma优化器
optimizer = tf.keras.optimizers.Adam(settings.LEARNING_RATE)

# 基于内容图片随机生成一张噪声图片
noise_image = tf.Variable((content_image + np.random.uniform(-0.2, 0.2, (1, settings.HEIGHT, settings.WIDTH, 3))) / 2)


# 使用tf.function加速训练
@tf.function
def train_one_step():
    """
    一次迭代过程
    """
    # 求loss
    with tf.GradientTape() as tape:
        noise_outputs = model(noise_image)
        loss = total_loss(noise_outputs)
    # 求梯度
    grad = tape.gradient(loss, noise_image)
    # 梯度下降，更新噪声图片
    optimizer.apply_gradients([(grad, noise_image)])
    return loss


# 创建保存生成图片的文件夹
if not os.path.exists(settings.OUTPUT_DIR):
    os.mkdir(settings.OUTPUT_DIR)

# 共训练settings.EPOCHS个epochs
for epoch in range(settings.EPOCHS):
    # 使用tqdm提示训练进度
    with tqdm(total=settings.STEPS_PER_EPOCH, desc='Epoch {}/{}'.format(epoch + 1, settings.EPOCHS)) as pbar:
        # 每个epoch训练settings.STEPS_PER_EPOCH次
        for step in range(settings.STEPS_PER_EPOCH):
            _loss = train_one_step()
            pbar.set_postfix({'loss': '%.4f' % float(_loss)})
            pbar.update(1)
        # 每个epoch保存一次图片
        utils.save_image(noise_image, '{}/{}.jpg'.format(settings.OUTPUT_DIR, epoch + 1))

requirements.txt

tensorflow==2.0.0
numpy==1.19.5
tqdm==4.62.3

转载请注明来源

【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
使用OpenCV和Python将图像读取为RGB UixnContext opencv python 人工智能 OpenCV
在计算机视觉和图像处理中，OpenCV是一个广泛使用的开源库，提供了许多功能强大的图像处理工具。其中一个常见的任务是将图像读取为RGB格式，以便进一步处理和分析。在本文中，我将向您展示如何使用OpenCV和Python来实现这个任务。首先，确保您已经安装了OpenCV库。您可以使用以下命令在Python中安装OpenCV：pipinstallopencv-python一旦安装完成，我们可以开始写代
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
大模型驱动的智能代码生成系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型驱动的智能代码生成系统关键词大模型智能代码生成自然语言处理计算机视觉系统设计与实现摘要本文深入探讨了基于大模型的智能代码生成系统的构建与实现。首先，我们分析了智能代码生成的背景与意义，随后介绍了大模型的基本原理及其在代码生成中的潜力。接着，我们详细阐述了智能代码生成系统的设计与实现过程，包括系统需求分析、架构设计、模型集成与优化等方面。随后，本文通过自然语言处理、计算机视觉和代码生成应用，展
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
Python图片识别脚本：从零开始实现图像识别！ Python_trys python 开发语言编程 Python入门 Python基础 Python识别 Python学习
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】图像识别是计算机视觉领域的一个重要应用，Python凭借其丰富的库和工具，成为了实现图像识别的首选语言之一。本文将带你从零开始，使用Python编写一个简单的图片识别脚本。我们将使用OpenCV和TensorFlow来实现这个功能。1.环境准备在开始之前，我们需要安装一些必要的Python库。你可以使用pip来安装这些库：pipinsta
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
python库下载——清华源爱吃鱼的猫℡ python
pipinstalltensorflow-ihttps://pypi.tuna.tsinghua.edu.cn/simple/这段代码是用来通过pip安装TensorFlow库的命令，其中包含了以下内容：pipinstalltensorflow:这部分命令告诉pip工具去安装名为TensorFlow的Python库。-ihttps://pypi.tuna.tsinghua.edu.cn/simpl
Grok 3能否打破大模型的魔咒？ TGITCIC AI-大模型的落地之道 grok grok3 大模型小模型 scaling law 开源大模型
新模型旧魔咒Grok3的问世，仿佛是科技界的一声惊雷。面对老掉牙的大模型法则，大家不禁要问：这到底意味着什么？以前，一提深度学习就能引出一场血雨腥风，现如今却有人说“没钱也能玩”。这风浪可真是一波未平一波又起。也许这就是科技的魅力：一统江湖的法则瞬间瓦解。缩小与提升大模型不再是唯一的解决方案，大家发现，原来小模型也可以撬动市场。不过，面对如何提升模型的智商，各路英雄却依然不得不面对两个选择：大力度
深度学习_第二轮 Humingway 深度学习深度学习人工智能
损失函数对偏置和权重求导，x、y作为常量确实，当进行模型训练时，(x)和(y)分别代表输入特征和对应的输出值，它们以数据点对的形式存在，一个数据集中通常包含多对这样的数据。每一对((x_i),(y_i))代表了数据集中的一个样本。在计算损失函数的梯度（即关于权重的偏导数）时，需要考虑整个数据集中的所有样本。对于每个样本((x_i),(y_i))，我们计算其对损失函数的贡献，并通过求和或平均这些贡献
对深度学习中的基本概念—梯度的理解 Humingway 深度学习深度学习人工智能
本文讨论一下对“梯度”的理解。“梯度”是深度学习中基本又非常核心的概念，没有它就没有人工智能的今天。然而，即使抛开令人眼花缭乱的术语（比如sgd、ada、moment、adam）不谈，即使最简单的“梯度”本身，也值得讨论一下。1.提出问题该如何理解梯度？让我们结合具体的例子来体会一下。2.定义例子首先，我们定义一个简单的例子，来模拟一下深度学习的学习过程。已知：有一个正确的数据对（或者叫样本），(
《基于WebGPU的下一代科学可视化——告别WebGL性能桎梏》 Eqwaak00 matplotlib webgl 微服务架构云原生分布式
引言：科学可视化的算力革命当WebGL在2011年首次亮相时，它开启了浏览器端3D渲染的新纪元。然而面对当今十亿级粒子模拟、实时物理仿真和深度学习可视化需求，WebGL的架构瓶颈日益凸显。WebGPU作为下一代Web图形标准，通过显存直存、多线程渲染和计算着色器三大革新，将科学可视化性能提升至10倍以上。本文将深入解析如何利用WebGPU突破大规模数据渲染的极限。一、WebGPU核心架构解析1.1
自动驾驶---Perception之大模型应用智能汽车人自动驾驶人工智能机器学习
1背景自动驾驶感知（Perception）模块在自动驾驶系统中扮演着至关重要的角色，它负责收集、处理并理解车辆周围的环境信息。随着深度学习技术的快速发展，大模型也逐渐在自动驾驶感知模块中得到了广泛应用。本篇博客主要介绍大模型在感知模块的应用。前面也介绍过如下几篇Perception相关的文章，有兴趣的读者可以了解相关内容：《自动驾驶---Perception之IPM图和BEV图》《自动驾驶---P
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能图像识别人工智能深度学习
一、介绍害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）","蜜蜂（bees）","甲虫（beetle）","毛虫（catterpillar）","蚯蚓（earthworms）","蜚蠊（earwig）","蚱蜢（grasshopper）","飞蛾（moth）","鼻涕虫（slug）","蜗牛
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
基于OpenCV的Java人脸识别系统设计与实现小呀白呀兔 java spring boot
基于OpenCV的Java人脸识别系统设计与实现1.引言随着计算机视觉技术的发展，人脸识别在安全监控、身份验证等领域得到了广泛应用。本文将详细介绍如何使用OpenCV库和Java语言构建一个简单的人脸识别系统。该系统能够从图像中检测人脸，并通过深度学习模型提取特征进行比对，最终输出相似度评分及置信度等级。2.环境搭建为了确保项目顺利运行，请按照以下步骤配置开发环境：安装JDK：确保已安装JavaD
智能教育：DeepSeek在个性化学习中的创新应用与代码实现 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 #深度学习学习
教育是塑造未来的基石，而个性化学习则是现代教育的重要趋势。随着人工智能技术的飞速发展，教育领域正迎来一场深刻的变革。DeepSeek作为人工智能领域的领军者，正在通过其强大的技术能力，推动个性化学习的创新应用。本文将结合代码实现，深入探讨DeepSeek在个性化学习中的应用。一、个性化学习路径：从数据到洞察个性化学习的核心在于根据学生的学习数据，生成定制化的学习路径。DeepSeek通过深度学习算
大白话聊聊“深度学习”和“大模型” 程序员鬼鬼深度学习人工智能 AI编程 AIGC chatgpt ai
1950年图灵发表论文《计算机器与智能》（ComputingMachineryandIntelligence），提出了“机器智能”（MachineIntelligent）的概念，并且提出了著名的“图灵测试”的方法来判断机器是否有智能。1956年，达特茅斯会议，“人工智能”（ArtificialIntelligent）概念被首次提出，人工智能作为一个学科开始被研究。科学家梦想着未来可以用复杂物理结构
OpenCV实现在图像中绘制汉字海上的风浪 opencv 人工智能计算机视觉编程
在本文中，我将向您展示如何使用OpenCV库在图像中绘制汉字。OpenCV是一个广泛使用的计算机视觉库，它提供了许多强大的功能，包括图像处理和绘图。首先，我们需要安装OpenCV库。您可以通过在终端或命令提示符中运行以下命令来安装它：pipinstallopencv-python接下来，我们将使用Python编写代码来实现在图像中绘制汉字。请确保您已经安装了Python和OpenCV库。impor
【精华推荐】AI大模型学习必逛的十大顶级网站大模型入门学习人工智能学习大模型入门 llama 大模型教程大模型学习大模型
随着人工智能技术的快速发展，AI大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说，找到合适的学习资源至关重要。本文将为大家推荐十大必备网站，帮助你更好地理解和应用AI大模型。1.CourseraCoursera是一个在线学习平台，提供各类AI和机器学习课程，包括斯坦福大学的机器学习课程和深度学习专项课程。通过视频讲解
深度学习分类回归（衣帽数据集）何仙鸟深度学习分类回归
一、步骤1加载数据集fashion_minst2搭建classNeuralNetwork模型3设置损失函数，优化器4编写评估函数5编写训练函数6开始训练7绘制损失，准确率曲线二、代码导包，打印版本号：importmatplotlibasmplimportmatplotlib.pyplotasplt%matplotlibinlineimportnumpyasnpimportsklearnimport
BP神经网络计算过程：从数学原理到实践优化 Acd_713 BP神经网络神经网络人工智能深度学习
引言：神经网络的时代意义与BP算法地位在深度学习重构人工智能边界的今天（Goodfellowetal.,2016），误差反向传播（Backpropagation，BP）算法作为神经网络训练的基石，其数学优雅性和工程实用性完美统一。本文将深入剖析BP神经网络的计算本质，揭示其如何在非线性空间中构建认知通道。第1章神经网络拓扑结构的数学建模1.1生物神经元到M-P模型的抽象跃迁McCulloch-Pi
成为LLM大师的必读书籍：这几本大模型书籍，详细到让你一篇文章就收藏足够 AGI大模型老王产品经理大模型教程学习大模型人工智能 LLM 大模型书籍
以下是几本关于大模型和人工智能领域的经典书籍，它们各自具有独特的特点和适用人群：《深度学习》（DeepLearning）作者：伊恩·古德费洛（IanGoodfellow）、约书亚·本吉奥（YoshuaBengio）、亚伦·库维尔（AaronCourville）简介：《深度学习》是深度学习领域的经典之作，全面介绍了深度学习的基础知识、主要模型及其应用。书中详细讲解了神经网络、卷积神经网络、循环神经网
深度学习模型未来可能会在这些领域取得突破性进展 xinxiyinhe 人工智能深度学习人工智能深度学习模型深度学习
深度学习模型作为人工智能的核心技术之一，未来有望在多个领域取得突破性进展。以下是一些可能的方向：1.通用人工智能（AGI）目标：开发具有通用智能的模型，能够像人类一样处理多种任务。潜在突破：更强的推理和抽象能力，解决复杂问题。结合多模态数据（文本、图像、声音等）实现更全面的理解。自我学习和适应能力，减少对大量标注数据的依赖。2.医疗与生命科学目标：提升疾病诊断、药物研发和个性化治疗的水平。潜在突破
深度学习进阶：TensorFlow实战指南 ELSON麦香包
本文还有配套的精品资源，点击获取简介：《TensorFlow实战Google深度学习框架》详细指导读者学习TensorFlow，涵盖基础概念、数据流图、API使用、张量和变量操作，深度学习基础如CNN和RNN，以及自定义层和优化算法。书中还提供使用TensorFlow构建和训练深度学习模型的实例，包括AlexNet、VGG、ResNet以及LSTM和GRU，并通过图像分类和文本情感分析等实战案例，
TensorFlow.js - 使用 CNN(卷积神经网络) 识别手写数字宁静_致远_ 前端开发 javascript tensorflow cnn
目录index.htmldata.jsscript.js备注参考文献index.htmlTensorFlow.jsTutorialdata.js/***@license*Copyright2018GoogleLLC.AllRightsReserved.*LicensedundertheApacheLicense,Version2.0(the"License");*youmaynotusethisf
Python深度学习之路：TensorFlow与PyTorch对比步入烟尘 Python超入门指南全册 python 深度学习 tensorflow
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
深度学习实战：TensorFlow 开源项目指南劳治亮
深度学习实战：TensorFlow开源项目指南Deep-Learning-TensorFlow项目地址:https://gitcode.com/gh_mirrors/dee/Deep-Learning-TensorFlow项目介绍本项目基于GitHub仓库https://github.com/blackecho/Deep-Learning-TensorFlow.git，旨在提供一个全面的学习与开发
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

基于Tensorflow 2.0实现的图片风格迁移

基于Tensorflow 2.0实现的图片风格迁移

1 绪论

2 项目

2.1 项目器材

2.2 项目环境

2.3 项目内容

2.3.1 项目包含文件

2.3.2 实验过程

3 项目所遇问题

3.1 版本兼容性问题

3.2 图片输出问题

3.3 epoch训练问题

结 论

参考文献

附录

你可能感兴趣的:(tensorflow,深度学习,计算机视觉)

结论