hxtyy

Temporal Fusion Transformersfor Interpretable Multi-horizon Time Series Forecasting代码解读（tensoreflow）

论文来源：https://arxiv.org/pdf/1912.09363.pdf

代码来源：google-research/tft at master · google-research/google-research · GitHub

1、框架介绍

2、代码详解

2.1 tensorflow环境要求

2.2 文件夹框架

2.3 数据结构

2.4 tft_model.py框架搭建

1、def linear_layer()

2、apply_mlp()

3、def apply_gating_layer()

4、def add_and_norm(）

5、def gated_residual_network()

6、def get_decoder_mask(）

7、class ScaledDotProductAttention()

8、 class InterpretableMultiHeadAttention()

9、class TemporalFusionTransformer()

10、def _batch_sampled_data()等

11、def _build_base_graph()

12、def build_model(self)

13、def fit(self)

14、def evaluate(self)

15、……接下来的诸如predict函数都是一般神经网络的基本步骤，没什么特殊（我也写不动了）。

2.5 script_train_fixed_params.py

3、总结

1、框架介绍

框架的话，我直接粘了论文的原图。

TFT用于时序预测，也有异常预测等具体应用。

如上图，TFT将原始的时序数据分解为三部分：Observed_Inputs、Known_Inputs、Static_inputs。其中Observed_Inputs(已观测输入)即历史KPI数据，且已知这些数据的Target（输出）；Known_Inputs指所有条目都已知的数据(包括历史的以及接下来需要预测的)，例如时间戳；Static_Inputs指静态输入，本人理解为离散输入，对预测结果的影响不大的输入，比如CPU占用率数据中的计算机类别ID。

简单地介绍一下用上述三个数据完成异常预测：首先将数据集分割为上述三部分，其次分别训练历史已观测输入、历史已知数据与历史静态输入学习得到目标输出（异常标签），测试过程中输入已知数据，通过已学习得的静态输入与已观测输入的特征矩阵，预测相应输出。

看到这里，相信大家一定也有很多具体实现的疑惑，下面将通过代码介绍具体框架介绍。

2、代码详解

打开script_download_data.py与script_train_fixed_params.py，将其中add_argument函数中expt_name的default设置为electricity（或其他），运行script_download_data.py下载数据集，运行script_train_fixed_params.py实现TFT。

2.1 tensorflow环境要求

因为这里的代码是由tensorflow1版本完成的，而现在大部分使用的都是tensorflow2。因此，需要对调用的tensorflow代码进行相应更改。

（1）更改 import tensorflow as tf

import tensorflow.compat.v1 as tf

（2）model文件头添加：

tf.compat.v1.experimental.output_all_intermediates(True)

说实话，这是代码报错后要求的，我也不知道什么原理，有机会再调研一下。

2.2 文件夹框架

data_formatters文件夹主要完成文件的下载与预处理

expt_settings文件夹完成各种参数的配置，前期不需要太关注

libs文件夹中tft_model.py文件实现神经网络框架的搭建

script_download_data.py 下载原始数据集，script_train_fixed_params.py 运行默认参数的TFT，script_hyperparam_opt.py是具体调参的TFT实现。

script_download_data.py较简单，不做详解，具体介绍script_train_fixed_params.py中TFT的实现流程。

2.3 数据结构

传统数据集由时间戳、KPI具体值与输出值等组成。data_formatters文件夹的favorita.py等实现原始数据集的预处理。

去除时间戳与序号后的数据列可分为以下几类：

列为输入类型，行为数据类型

	observed_input	known_input	target	static
real_value
category

2.4 tft_model.py框架搭建

这里，我们一个函数一个函数讲。

1、def linear_layer()

定义Dense线性层。但相比Dense，增加了一个TimeDistributed层，在每个时间步上均操作Dense。

2、apply_mlp()

定义两层Dense，MLP多层感知器。

3、def apply_gating_layer()

定义GLU门限单元，这个在论文中有提到：

具体操作即Dropout后，分别定义激活函数为sigmoid与无激活函数的Dense层，将两Dense层的输出矩阵相乘即获得门限单元。

门限单元的作用即门限，相当于给变量加一个阀门，乘以一个系数（非线性）。

4、def add_and_norm(）

残差与归一化网络。防止过拟合。

5、def gated_residual_network()

定义GRN门限残差网络，属于门限装置。

输入先通过 linear_layer()函数定义的Dense层，使用ELU指数激活函数后，再通过linear_layer()函数定义的Dense层，apply_gating_layer()函数定义的门限层，最后经过残差与归一化网络输出。其作用相当于主成分分析，提取有效特征。

如果还输入了上下文特征矩阵c，a、c同时通过Dense层得到两个特征矩阵后相加。其作用大致相当于同时提取有效（对输出有影响）的上下文特征。

6、def get_decoder_mask(）

相当与大名鼎鼎的Transformer中的looking_ahead_masking层。因为在实际情况中，一条数据的数据只受历史与当前数据的影响，而与未来状态无影响。因此，我们需要一个矩阵用来盖住下文特征。而该函数创建了一个上三角为1的矩阵，乘以负无穷，加在特征矩阵上后，使第i条数据输出，只受前i-1条数据的影响，之后数据的影响为0，参数为负无穷。

（转载自https://towardsdatascience.com/illustrated-guide-to-transformers-step-by-step-explanation-f74876522bc0）

7、class ScaledDotProductAttention()

实现自注意力机制。

self_attention的实现这里不细讲。主要流程为：

Q(uary)、K(ey)、V(alue)取相同值
Q、K矩阵相乘，再除以维度的根号，得到序列内部子注意力系数矩阵
子注意力系数与V相乘，得到自注意力矩阵

8、 class InterpretableMultiHeadAttention()

可解释的多头自注意力机制的实现。

在我看来，这里的可解释值的是多头的可解释：在传统的多头自注意力机制中，我们将多维的数据切割为单维，每维的数据都投入神经网络，得到各自自注意力矩阵，再将多个矩阵合成单个矩阵，但问题是，我们无法解释每维数据得到的矩阵代表着什么，因为输入的仅是矩阵的一维，我们无法将输出作为数据整体的子注意力的一部分，这是不可解释的。而论文的创新点在于不再将矩阵切成n维后分别投入，而是通过Dense层得到单维的特征矩阵，再投入自注意力机制。

这个方法使矩阵的输入变得合理，有一定的解释性。本来，我想专门调研以下可解释性的Transformer的，但导师说神经网络可解释性的水太深，不是我一个本科生能把握住的~-~。

9、class TemporalFusionTransformer()

这里是TFT的具体搭建。

（1）__init__函数

实现各种参数的初始化与赋值。

（2）def get_tft_embeddings(self, all_inputs)函数

目的在于规范化各项输入，嵌入相同的维度。all_inputs格式为(None, 192, 5)。

首先，检查预处理数据，可观测数据中不含输出，可观测数据不是静态量，以及输入格式相符。

其次，创建embeddings层，处理每个category列(None,192,1)->(None, 192, 5)。

再次，生成静态输入，取每个滑动窗口每个static列的第一个数据(None,1)，以Dense层转化为(None,5),与上述category列[:, 0, :]相加，得到静态输入[None,5]。reshape为[None,1,5]

再次，处理输出格式，取每个滑动窗口每个target列(None, 192, 1)，通过Dense层生成

(None, 192, 5) ，reshape为(None, 192, 5,1) 。

再次，生成可观测输入,取每个滑动窗口中的category列中的observed列(None,192,1)，embedding为(None,192,5);取每个滑动窗口中的real_value列中的observed列(None,192,1)，embedding为(None,192,5),将两者连接reshape(None,192,5,1)。

再次，生成已知输入，分别取每个滑动窗口中real_value与category列的known_input列(None,192,1)embedding为(None,192,5);数组连接将两者reshape(None,192,5,1)。

最后，返回可观测输入，已知输入，输出，静态输入。

10、def _batch_sampled_data()等

将预处理数据切割为batch，具体不做详解。

inputs = np.zeros((max_samples, self.time_steps, self.input_size))
outputs = np.zeros((max_samples, self.time_steps, self.output_size))
time = np.empty((max_samples, self.time_steps, 1), dtype=object)
identifiers = np.empty((max_samples, self.time_steps, 1), dtype=object)

11、def _build_base_graph()

构建TFT的神经网络框架。

首先，规定输入格式： all_inputs = (None,time_steps,combined_input_size)(None,192,5)。

其次，调用get_tft_embedding函数生成各种输入。

再次，将未知输入，已知输入，输出连接为known_combined_layer：(None,192,5,1) -> (None,192,5,3)。

再次，取known_combined_layer与obs_inputs每个滑动窗口的前encoder_steps个数据historical_inputs 作为编码器的输入，取known_combined_layer每个滑动窗口的剩余数据future_inputs 作为解码器的输入。

11.1 def static_combine_and_mask(embedding)

该函数用于静态协变量的变量选择，选择对输出造成影响的协变量。

其中参数embedding为生成的静态输入，格式为[None,1,5]，即每个滑动窗口用一个五维的特征矩阵表示静态特征。

首先，调用Flatten函数展开静态输入[None,1,5]->[None,5]。

其次，调用gated_residual_network函数，提取Flattened_Inputs中的有效输入，并以softmax作为激活函数，输出[None,1]，再expand_dims为sparse_weights[None,num_static,1]。

再次，对embedding[:, i:i + 1, :]即每个滑动窗口的每行静态特征，取其第三维调用 gated_residual_network函数，输出[None,1,5]后重新组合为原来格式transformed_embedding[None,num_static,feature]。

最后，sparse_weights与transformed_embedding矩阵相乘取和，提取出有效静态变量。

static_inputs 调用 static_combine_and_mask 函数获得静态编码与静态权重static_encoder, static_weights。

最后，对静态编码调用gated_residual_network函数，获得静态变量选择器static_context_variable_selection。[None,5]->[None,5]

11.2 def lstm_combine_and_mask(embedding)

该函数是框架利用LSTM层提取局部上下文特征的前置工作。其中embedding为历史合成输入historical_inputs。

首先，reshape historical_inputs为flatten：

[None,time_steps,embedding_dim,num_inputs]->[None,time_steps,embedding_dim*num_inputs]

[Noen,192,5,4]->[None,192,20]

其次，对静态变量选择器static_context_variable_selection调用expand_dims函数：

[None,5]->[None,1,5]

再次，对flatten调用Variable selection weights框架，其中additional_context = expanded_static_context，旨在提取flatten中的静态有效变量，最终得到temporal_ctx[None,5]。

分别对historical_inputs与future_inputs调用lstm_combine_and_mask函数，得到historical_features与future_features。

11.3 get_lstm(return_state)

该函数旨在用LSTM提取局部的上下文特征。

函数基本方式为调用 tf.keras.layers.LSTM()函数，通过设置不同参数，实现LSTM。

分别对historical_features与future_features调用get_lstm函数。historical_features_LSTM的初始状态为静态变量选择器，return_state=True;future_features_LSTM的初始状态为historical_features_LSTM的输出状态，return_state=False。连接history_lstm与future_lstm为lstm_layer。

连接history_feature与future_feature为input_embeddings，调用apply_gating_layer与add_and_norm函数，生成跳过LSTM的输出temporal_feature_layer。

对temporal_feature_layer调用gated_residual_network函数，实现静态变量的富集，其中additional_context为expand_dims的静态变量选择器[None,5]->[None,1,5]。

提取mask层后，对输出调用可解释的多头自注意力机制，再分别调用apply_gating_layer与add_and_norm函数解码。

最后，根据结构图，经过GRN、Gate、add&norm，获得最终输出层transformer_layer。

12、def build_model(self)

这是构建TFT的主函数。

_build_base_graph函数搭建神经网络，生成输出层transformer_layer，再通过Dense函数生成相应格式输出。再设置Adam优化器，最后建立model：

      model = tf.keras.Model(inputs=all_inputs, outputs=outputs)

调用utils.tensorflow_quantile_loss函数建立损失，compile函数编译模型。

model.compile(
          loss=quantile_loss, optimizer=adam, sample_weight_mode='temporal')

13、def fit(self)

这里不作细讲，大概就是预处理原始数据后调用fit函数拟合模型。

14、def evaluate(self)

用于评估预测的结果，因与大部分模型大致相同，这里也不作细讲。

15、……接下来的诸如predict函数都是一般神经网络的基本步骤，没什么特殊（我也写不动了）。

2.5 script_train_fixed_params.py

该文件主要调用tft.model中的各种函数实现流程，大致相当于一个调用的主函数。

3、总结

说是时序预测，但在我看来，TFT的设计天生就是为了异常预测。

而TFT的优势，主要体现在其GRN类似主成分分析的特征筛选以及可解释的多头自注意力机制。可解释性还没完全搞懂，而其GRN作为门限装置，在TFT更似于代替了Dense层，但相比Dense层，提取了有效成分，提高了模型的性能和学习效率。

总的来说，TFT就是应用了GRN的LSTM-Transformer编码器-解码器模型。能够有效提取KPI中的重要成分，分析局部与总体上下文关系，并一定程度上避免了梯度消失问题，以及多头自注意力机制的可解释性问题（虽然他说的挺有道理，但我无论怎么看，Self-Attention还是不可解释的）

Java 程序员必读书单 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 Java实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Java是一门高级、新兴的静态面向对象编程语言，在互联网、移动互联网、大数据、云计算、人工智能、物联网等领域都有广泛应用。作为Java程序员的你是否也经常被面试官或者HR问到有关Java的知识点呢？如果你最近在准备面试或阅读相关技术文档，则本文正是适合你。在本文中，我将给你一些你可能不知道的关于Java的重要概念和知识，并通过具体的代码示例和图表来帮助你理解这些
一文彻底搞清楚HarmonyOS NEXT的元服务 harmonyos-next
程序员Feri一名12年+的程序员,做过开发带过团队创过业,擅长Java、嵌入式、鸿蒙、人工智能等,专注于程序员成长那点儿事,希望在成长的路上有你相伴！君志所向,一往无前！1.什么是元服务在万物互联时代，人均持有设备量不断攀升，设备种类和使用场景更加多样，使得应用开发、应用入口变得更加复杂。在此背景下，应用提供方和用户迫切需要一种新的服务提供方式，使应用开发更简单、服务（如听音乐、打车等）的获取和
从阅读空间到知识孵化器，AI时代智慧图书馆何为？技能咖生成式人工智能认证 GAI认证人工智能
在人工智能（AI）浪潮席卷全球的当下，图书馆作为知识传播与文化传承的重要场所，正面临着前所未有的变革。从传统的阅读空间到如今的知识孵化器，智慧图书馆在AI时代肩负着新的使命与挑战。本文将探讨智慧图书馆在AI时代的发展方向，并引入生成式人工智能认证（GAI）认证，为图书馆从业者的技能提升提供新思路。AI时代智慧图书馆的新角色知识资源整合与挖掘者在AI时代，信息爆炸式增长，图书馆不再仅仅是纸质书籍的收
基于人工智能的扫阅卷和数据分析服务需求文档 YiWait 人工智能人工智能数据分析数据挖掘
基于人工智能的扫阅卷和数据分析服务需求文档一、项目背景在教育领域，传统的人工阅卷方式效率低下、主观性强且易出错，难以满足大规模考试及频繁测评的需求。随着人工智能技术的飞速发展，基于人工智能的扫阅卷和数据分析服务应运而生。该服务利用先进的图像识别、自然语言处理等技术，实现试卷扫描、自动阅卷、成绩统计以及深度数据分析，为教育机构、学校提供高效、准确、全面的测评解决方案，助力教学质量提升和教育决策优化。
AI程序员大逃杀：从“码农”到“魔法师”的奇幻漂流 ——揭秘人工智能如何重塑程序员工作流 lifire_H 人工智能
当程序员遇上AI，是“饭碗不保”还是“原地飞升”？这场代码界的工业革命，正在让每个程序员经历从“流水线工人”到“科技魔法师”的奇幻蜕变。一、效率革命：当键盘遇上“读心术”1.需求分析：从“鸡同鸭讲”到“灵魂共鸣”还记得那些年被客户需求文档支配的恐惧吗？甲方爸爸一句“我想要五彩斑斓的黑”，就能让产品经理和程序员集体崩溃。现在，AI就像个自带翻译机的“需求捕手”——把客户支离破碎的诉求往WPSAI里一
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅步子哥 AGI通用人工智能语言模型人工智能自然语言处理
在浩如烟海的人工智能技术中，构建和调教大语言模型（LLMs）的过程就像是一场精心策划的奇幻冒险。本文带您走进一个鲜为人知的领域——如何利用“量身定制”的数据，让模型在知识的海洋中游刃有余。我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》，探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调（SFT）的效果，以及这一方法如何
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

Temporal Fusion Transformersfor Interpretable Multi-horizon Time Series Forecasting代码解读（tensoreflow）

1、框架介绍

2、代码详解

2.1 tensorflow环境要求

2.2 文件夹框架

2.3 数据结构

2.4 tft_model.py框架搭建

1、def linear_layer()

2、apply_mlp()

3、def apply_gating_layer()

4、def add_and_norm(）

5、def gated_residual_network()

6、def get_decoder_mask(）

7、class ScaledDotProductAttention()

8、 class InterpretableMultiHeadAttention()

9、class TemporalFusionTransformer()

10、def _batch_sampled_data()等

11、def _build_base_graph()

12、def build_model(self)

13、def fit(self)

14、def evaluate(self)

15、……接下来的诸如predict函数都是一般神经网络的基本步骤，没什么特殊（我也写不动了）。

2.5 script_train_fixed_params.py

3、总结

你可能感兴趣的:(transformer,tensorflow,人工智能,深度学习)