Hughpp

图示时序卷积网络(Temporal Convolutional Networks)结构与过程

参考:
Temporal Convolutional Networks and Forecasting - Unit8 翻译原意为主, 加入部分补充说明
Darts: unit8co/darts: A python library for easy manipulation and forecasting of time series. (github.com)
Darts-TCN 例子: darts/05-TCN-examples.ipynb at master · unit8co/darts (github.com)
TCN论文: 《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》

卷积网络(Convolutional Neural Network, CNN)过去广泛应用于图像领域, 最近有工作发现, 经过改造的 CNN 可以高效完成序列(sequence)建模与预测. 本文详细说明了时序卷积网络(Temporal Convolutional Network, TCN)中的基本块(block)结构, 并且借助开源时间序列预测库 Darts, 用 TCN 实现在真实数据集上的准确预测.

下面对 TCN 的相关描述参考了文献《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》, 具体参考位置以[*]标出.

Motivation

长期以来, 深度学习领域通常采用循环神经网络(Recurrent Neural Network, RNN)完成序列建模任务, 比如 LSTM 和 GRU. 然而, [*]指出 CNN 在序列建模上潜力巨大, 并且在许多任务上表现甚至超过 RNN, 同时避免了 RNN 的共性问题, 比如梯度爆炸/消失、长期记忆差; 并且CNN 支持并行计算, 因此效率高于 RNN. 下面将详细介绍 [*] 提出的 TCN 结构, 文中参数命名与 Darts 实现保持一致, 以粗体表示.

模型基本原理

TCN 有以下 4 个关键特性:

一维卷积(1DConv)
卷积层输入输出 length 相同
因果(causal)卷积
膨胀(dilated)卷积

译者注:

本文中 length 表示时间序列的长度, size 表示每个时刻的特征数. 特征维度 size 对应 channel, 卷积操作发生在 length 维度上.
下文中会出现两类 length, 一是指 TCN 网络的输入输出 length, 二者是相等的, 不加粗; 二是指数据的 input_length 和 output_length, 可以不相等, 加粗.

1DConv 一维卷积

一维卷积的输入输出都是三维 tensor, TCN 中, 输入 shape 为 (batch_size, input_length, input_size), 输出 shape 为 (batch_size, input_length, output_size).

TCN 每一层的输入和输出 length 相同, 只有第三维(size)不同, 单变量场景(一元时间序列)下, input_size 和 output_size 都是 1. 更一般的多元问题中, 二者可以大于 1, 并且 input_size 和 output_size 可以不相等, 比如输入为多元, 目标输出只有一元.

例一: input_size == output_size == 1

下面首先说明最简单的情形, 即 batch_size、input_size、output_size 都等于 1, 卷积核大小(kernel_size)为 3.

如图, 卷积操作中, 一个输出元素, 对应连续的 kernel_size 长的输入元素. 计算方式是与 kernel_size 长的 kernel 向量做点积. 计算下一个输出元时, 卷积核向右"滑动"一位(这里滑动一位即卷积层设置 stride=1, 是预测任务中的普遍设置). 注意, 计算时, 卷积核不断移动, 但是卷积核权重保持不变, 每个输出元素都是由相同的权重计算而来. 下图展示了连续两个输出元素对应的输入子序列:

注意: 为了简洁表示, 这里没有展示 kernel 的点积操作, 只需记住所有 input 到 output 的卷积计算中, 都需要这样的点积操作. 下文同理.

例二: input_size == 2

当 size > 1 时, 对应 CNN 层的多个 channel, 上述过程对每个 channel 执行, 但不同 channel 的 kernel 权重不同. 如下图所示:
可以发现, 该过程体现出二维卷积的特点, 可以看做输入 tensor 的 shape 为(input_length, input_channel) (注:原文中写的是 size*channel, 应为笔误), 卷积核 shape 为(kernel_size, input_channel)的 2DConv. 但其本质依然是 1DConv, 因为固定了卷积核的宽度为 input_channel, 所以 kernel 只沿着 length 维度移动.

同样, 如果 output_channel 也大于 1, 那么对每一个 outpu_channel 也做上述操作, 并且 kernel 的权重不同. 此时, 总权重数目为 kernel_size * input_channel * output_channel.

channel 的取值与对应层的位置有关, 输入层的 input_channel = input_size, 输出层 output_channel = output_size. Darts 中其他位置的 channel 数都为 num_filters.

输入输出 length 相等

由上面的例子可以看出, 卷积计算下, 输出 tensor 的 length 与输入 tensor 往往不相等(kernel_size>1 时, 输出 length 小于输入 length). 为了保证相等, 则需要对输入 tensor 补零(zero-padding), 即在 length 维度上向左右两侧补充 0 元素, 由此调节输出 tensor 的 length. TCN 中的补零方式将在下一节(因果卷积)中说明.

因果卷积

所谓因果, 即序列中任意位置 i 上的元素只受它之前的元素影响, 而不受后面元素的影响. 换言之, 预测位置 i 的元素, 应当仅用 i 之前观察到的元素, 而不能用未来的观察. 这样就对补零方式提出了要求.

传统图像处理中, 往往在四周对称补零, 而在因果卷积中, 只在输入 tensor 的 length 维度左侧补零.

不难理解, 要满足"因果"的要求, 输出 tensor 的首元素只能参考输入 tensor 的首元素, 这样不足 kernel_size 的部分必须用 0 补全; 而 output tensor 的尾元素也不能参考未来的元素, 所以 input tensor 的右侧补零没有意义. 如下图所示:

这里 input_length=4, kernel_size=3, 需要在左侧补足 kernel_size 的大小, 才能得到首元素(红色方格).

在没有膨胀卷积时, 补零的数目为 kernel_size - 1.

膨胀卷积

感受域

首先说明感受域(receptive field)的概念: 感受域表示一个输出元素受到多少输入元素的影响, 由卷积网络结构决定. 如下图所示, 2 层 kernel_size = 3 的卷积网络, 感受域大小为 5.

推广到一般情形: kernel 长为 k 的 n 层卷积层, 感受域为: $n\times(k-1)$

为什么需要膨胀卷积

序列预测任务中, 我们希望感受域尽可能大, 最好能够覆盖整个 input_length, 这样就能够利用已知的全部信息进行预测, 文中称为 full history coverage.

普通卷积下, 根据公式, 假设 input_length = $l$ , 需要的卷积层数为: $\lceil (l-1) / (k-1) \rceil$ , 与 $l$ 是线性关系.

当 $l$ 比较大时, 就需要很多层卷积网络, 需要学习的权重参数过多, 并且过深的网络存在退化问题, 不利于训练.

引入膨胀卷积就是为了提高感受域的增加速率, 以降低网络层数.

什么是膨胀卷积

上文所述的普通卷积网络作用于输入 tensor 的连续元素, 而膨胀卷积中, 卷积核对应的输入元素间有间隔. dilation 的值就是间隔大小, 默认情况下 dilation=1, 下图展示了 dilation=2 的情景, 这里 kernel_size=3, input_length=4.

可以看到, 参与卷积的输入元素下标间距为 2. 相比普通卷积, 同样的卷积核大小, 得到感受域为 5. 此时感受域变为: $1+n\times d\times (k-1)$ , 获得常数级提升. 此处以 d 表示 dilation 值.

进一步, 令 d 随 n (网络深度)指数级增加, 取 dilation_base 记为 b, 在第 i 层, $d = b^i$ , 下图给出一个例子. 其中 input_length = 10, kernel_size=3, dilation_base = 2, 三层卷积网络即实现完全覆盖.

这里只展示了输出 tensor 的末尾元素计算以及对应的补零位置, 实际上, 上面的网络结构最多支持 length=15 的全覆盖.

如此, n 层 TCN 网络的感受域长度 w 为:

$w=1+\sum_{i=0}^{n-1}(k-1)\times b^i = 1+(k-1)\times \frac{b^n-1}{b-1}$

此处 k 为 kernel_size, b 为 dilation_base.

注意, 不合适的 k 和 b 可能导致空洞, 比如, 若 b=3, k=2:

虽然长度上满足要求, 但是红色方格的元素并没有被覆盖到, 这样的设置是不合理的. 需要将 k 增大到 3 , 或 b 减小到 2. 一般地, 要实现无空洞的全覆盖, 应保证 $\le k$ .

因此, 要实现对 length = $l$ 的全覆盖, 层数 n :

$\left\lceil log_b\left( \frac{(l-1)(b-1)}{(k-1)} +1 \right) \right\rceil$

这样一来, 网络层数由线性增长减低到指数增长.

补零个数

限制 input_length 每层都相等的情况下, 第 i 层补零个数 p 为: $p = b^i \times (k-1) $

解释: 因为每层实际的有效 length 都为 input_length, 补 0 的个数即为卷积核总跨度-1(总跨度由 k 和 d 决定, 应去掉首元素占一个位置).

TCN 全貌

整合上述设计, TCN 整体结构如下:

训练与预测

在时间序列预测任务中, 通过已知序列预测未来的序列, 通常原始数据集较长, 训练时输入一段连续的子序列.

TCN 的输出输出 length 相等, 因此网络输出的序列长度与 input_length 相等.

根据预测需要, 具体向后预测的步数(即 output_length)不超过 input_length 即可(向后预测的长度也称为 forecasting horizon), 允许输入输出序列出现部分重叠. 如下图所示:

模型其他改进

[*]以上述 TCN 为基础, 添加了一些深度学习常用的改进设计, 包括残差连接(residual connection)、正则化(regularization)、激活函数(activation function).

残差块(residual block)

残差是将网络输出与原始输入相加作为最终输出结果, 是常用的深度学习优化技巧.

残差块构造是对基础模型的最大改变. 将原有 TCN 中的各层因果膨胀卷积层替换成为一个残差块, 块内是两层 dilation 相同的 1DConv 层, 并添加残差连接, 如下图所示.

这里残差连接的 1*1 卷积起到变换输入 channel 数的作用, 保证与网络输出的 channel 一致, 才能相加.

Darts 中, 除输入层和输出层的 channel 有变化, 中间各层的输入输出 channel 相等, 由 num_filters 指定. 而输出层输出层涉及到 channel 的调整, 残差连接中需要用到 1*1 卷积.

这一步的改进中, 增加了一层膨胀卷积, 因此感受域也变长了, 第 n 块的感受域长度 w , 和全覆盖要求的残差块个数 n 计算公式更新为:

$w=1+\sum_{i=0}^{n-1}2\cdot(k-1)\cdot b^i = 1+2\cdot (k-1)\cdot \frac{b^n-1}{b-1} \\ n = \left\lceil log_b\left( \frac{(l-1)(b-1)}{(k-1) \cdot 2} +1 \right) \right\rceil$

激活函数, 归一化(normalization)和正则化

使用 ReLU 作为激活函数.

为避免梯度爆炸问题, 加入 weight normalization 层.

为避免过拟合, 加入 dropout 层引入正则化.

最终一个残差块结构如下:

第二层 ReLU 的星号表示最后一个输出层不加激活函数, 以支持负数输出(这与[*]中的设计不同).

最终版 TCN

这里, $l$ 为输入子序列长度 input_length; $k$ 为卷积核大小 kernel_size; $b$ 为膨胀底数 dilation_base, 且保证 $b\le k$ ; $n$ 为残差块总数, 由完全覆盖公式计算得到.

Darts 用例

下面介绍使用 Darts 库 TCN 预测时间序列的流程.

准备数据集

这里用到 Kaggle dataset, 使用西班牙的每小时发电量数据, 预测"run-of-river hydroelectricity(川流式水力发电)"的值, 为了缩小问题规模, 将每天的发电量取均值得到粒度为"天"的序列.

from darts import TimeSeries
from darts.dataprocessing.transformers import MissingValuesFiller
import pandas as pd

df = pd.read_csv('energy_dataset.csv', delimiter=",")
df['time'] = pd.to_datetime(df['time'], utc=True)
df['time']= df.time.dt.tz_localize(None)

df_day_avg = df.groupby(df['time'].astype(str).str.split(" ").str[0]).mean().reset_index()

value_filler = MissingValuesFiller()
series = value_filler.transform(TimeSeries.from_dataframe(df_day_avg, 'time', ['generation hydro run-of-river and poundage']))

series.plot()

序列可视化:

可以看到, 数据有每年的季节性变化, 还出现有规律的峰值(大约以月为间隔), 因此, 最好在全局日期之外, 加入"current day of the month(每月几号)"作为额外特征, 有利于快速收敛. 这样输入通道数(input_size)为 2.

series = series.add_datetime_attribute('day', one_hot=True)

最后, 将数据集划分为训练集和验证集, 并标准化(standardization).

from darts.dataprocessing.transformers import Scaler

train, val = series.split_after(pd.Timestamp('20170901'))

scaler = Scaler()
train_transformed = scaler.fit_transform(train)
val_transformed = scaler.transform(val)
series_transformed = scaler.transform(series)

模型创建与训练

设置 output_length = 7 表示每次预测一周.

训练和验证时, 目标序列关注电量, 不带处理数据集时额外加入的"每月几号"参数.

from darts.models import TCNModel

model = TCNModel(
    input_size=train.width,
    n_epochs=20, 
    input_length=365,
    output_length=7, 
    dropout=0, 
    dilation_base=2, 
    weight_norm=True,
    kernel_size=7,
    num_filters=4,
    random_state=0
)

model.fit(
    training_series=train_transformed,
    target_series=train_transformed['0'],
    val_training_series=val_transformed,
    val_target_series=val_transformed['0'], 
    verbose=True
)

模型评估

这里想使用训练好的模型, 在验证集的不同时间点上做测试, 这里使用了 backtest 函数, 并将 stride 设置为 5 以节约时间.

测试时输入的数据与训练不同, 但不再更新模型参数.

pred_series = model.backtest(
    series_transformed,
    target_series=series_transformed['0'],
    start=pd.Timestamp('20170901'), 
    forecast_horizon=7,
    stride=5,
    retrain=False,
    verbose=True,
    use_full_output_length=True
)

最后将测试结果与真实值对比, 并可视化:

from darts.metrics import r2_score
import matplotlib.pyplot as plt

series_transformed[900:]['0'].plot(label='actual')
pred_series.plot(label=('historic 7 day forecasts'))
r2_score_value = r2_score(series_transformed['0'], pred_series)

plt.title('R2:' + str(r2_score_value))
plt.legend()

更多相关细节, 可参考 darts/05-TCN-examples.ipynb at master · unit8co/darts (github.com)

数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
深度学习中的Channel，通道数是什么？ %KT% 深度学习深度学习人工智能
参考文章：直观理解深度学习的卷积操作，超赞！-CSDN博客如何理解卷积神经网络中的通道（channel）_神经网络通道数-CSDN博客深度学习-卷积神经网络—卷积操作详细介绍_深度卷积的作用-CSDN博客正文：在跑深度学习代码的过程中，经常遇到的一个报错是：模型尺寸不匹配的问题。一般pytorch中尺寸/张量的表现方式是：torch.size([16,3,24,24])。这四个参数的含义如下：16
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
yolo模型coco数据集详解工头阿乐深度学习 YOLO
深度学习文章目录深度学习前言前言instances_train2017.json和instances_val2017.json文件均分为五大部分，这五部分对应的关键字分别为info、licenses、images、annotations、categories。{"info":info,"licenses":[license1,license2,license3,...],"images":[ima
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
大模型黑书阅读笔记--第一章 53年7月11天大模型黑书笔记人工智能自然语言处理语言模型
cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformertransformer的核心概念可以理解为混合词元（token），rnn通过循环函数顺序分析次元，而transformer模型不是顺序分析，而是将每个词元与序列中其他词元关联起来。为突破cnn的极限，注意力的概念出来了：cnn做序列处理时只关注最后
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源 yxx122345 算法
计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。这些参数主要分布在以下几个部分：Transformer层：多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNetwork）嵌入层（EmbeddingLayer）：词嵌入（TokenEmbeddings）位置编码（
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
最新NPU芯片详解及应用场景美好的事情总会发生 AI 嵌入式硬件硬件工程 linux 人工智能 ai
近年来，NPU（神经网络处理器）技术快速发展，各大厂商推出多款高性能AI加速芯片，覆盖从端侧设备到云端数据中心的多样化需求。以下是NPU芯片及其核心特点与应用场景的详细说明：1.苹果M3系列芯片（M3/M3Pro/M3Max）NPU架构：第二代16核神经网络引擎，采用台积电3nm工艺。算力：18TOPS（每秒万亿次操作），较M2提升40%。技术亮点：支持混合精度计算（FP16/INT8），动态分配
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现） wlz249 python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
C#学习笔记（3）：调用YOLOv8 playerofIE c#学习笔记 YOLO python
最近做的项目需要C#编写上位机程序，同时也要使用yolo进行深度学习检测。使用pythonnet调用写好的py文件，C#代码如下:Runtime.PythonDLL="python310.dll";PythonEngine.Initialize();using(Py.GIL()){dynamicsys=Py.Import("sys");dynamictorch=Py.Import("torch")
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
llama.cpp 和 LLM（大语言模型）这个懒人 llama 语言模型人工智能
llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型。它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。
注意力机制+多尺度卷积一只小小的土拨鼠解构前沿：文献精读深度学习 python 人工智能 YOLO 深度学习
多尺度卷积先提供丰富的特征信息，注意力机制再从中筛选出关键信息，这样结合起来，不仅可以进一步提高模型的识别精度和效率，显著提升模型性能，还可以增强模型的可解释性。MPARN:multi-scalepathattentionresidualnetworkforfaultdiagnosisofrotatingmachines方法：论文介绍了一种用于旋转机械故障诊断的多尺度卷积神经网络结构，称为多尺度路
构建未来智能：在Mojo模型中自定义模型架构的艺术 2401_85761003 mojo 架构
构建未来智能：在Mojo模型中自定义模型架构的艺术在深度学习的世界里，模型架构的设计往往决定了算法的性能和适用性。Mojo模型，作为一个假想中的高级机器学习框架，允许用户实现自定义的模型架构来解决特定的问题。本文将深入探讨如何在Mojo模型中实现自定义模型架构，并提供详细的步骤和代码示例，以帮助读者掌握这一强大的技术。自定义模型架构的重要性灵活性自定义模型架构提供了设计适合特定问题需求的模型的灵活
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
锂电池剩余寿命预测 | 基于CNN-BiLSTM的锂电池剩余寿命预测研究附Matlab参考代码默默科研仔锂电池寿命预测 cnn matlab 人工智能
基于CNN-BiLSTM的锂电池剩余寿命预测研究附Matlab参考代码一、引言1.1、研究背景和意义锂电池因其高能量密度和长循环寿命，在移动设备、电动汽车和储能系统等领域得到广泛应用。准确预测锂电池的剩余寿命（RemainingUsefulLife,RUL）对于优化电池使用、维护和管理具有重要意义，可以有效减少运营成本，提高设备的安全性和可靠性。随着锂电池应用领域的扩展，对其性能和寿命的预测需求日
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。