slience_me

【论文笔记合集】TimesNet之TimesBlock详解

本文作者： slience_me

文章目录

TimesNet之TimesBlock详解
- 1. 源代码
- 2. 分步详解
- - 2.1 init部分代码
  - 2.2 forward部分代码

TimesNet之TimesBlock详解

1. 源代码

class TimesBlock(nn.Module):
    def __init__(self, configs):
        super(TimesBlock, self).__init__()
        self.seq_len = configs.seq_len
        self.pred_len = configs.pred_len
        self.k = configs.top_k
        self.conv = nn.Sequential(
            Inception_Block_V1(configs.d_model, configs.d_ff,
                               num_kernels=configs.num_kernels),
            nn.GELU(),
            Inception_Block_V1(configs.d_ff, configs.d_model,
                               num_kernels=configs.num_kernels)
        )

    def forward(self, x):
        B, T, N = x.size()
        period_list, period_weight = FFT_for_Period(x, self.k)

        res = []
        for i in range(self.k):
            period = period_list[i]
            if (self.seq_len + self.pred_len) % period != 0:
                length = (((self.seq_len + self.pred_len) // period) + 1) * period
                padding = torch.zeros([x.shape[0], (length - (self.seq_len + self.pred_len)), x.shape[2]]).to(x.device)
                out = torch.cat([x, padding], dim=1)
            else:
                length = (self.seq_len + self.pred_len)
                out = x
            out = out.reshape(B, length // period, period, N).permute(0, 3, 1, 2).contiguous()
            out = self.conv(out)
            out = out.permute(0, 2, 3, 1).reshape(B, -1, N)
            res.append(out[:, :(self.seq_len + self.pred_len), :])
        res = torch.stack(res, dim=-1)
        period_weight = F.softmax(period_weight, dim=1)
        period_weight = period_weight.unsqueeze(1).unsqueeze(1).repeat(1, T, N, 1)
        res = torch.sum(res * period_weight, -1)
        res = res + x
        return res

2. 分步详解

2.1 init部分代码

seq_lem：序列长度

pred_len：预测长度

tok_k：最高的k个

d_model：模型的维数

d_ff：全连接层的维度

num_kernels：卷积核的数量

def __init__(self, configs):
    super(TimesBlock, self).__init__()
    self.seq_len = configs.seq_len
    self.pred_len = configs.pred_len
    self.k = configs.top_k
    self.conv = nn.Sequential(
        Inception_Block_V1(configs.d_model, configs.d_ff, num_kernels=configs.num_kernels),
        nn.GELU(),
        Inception_Block_V1(configs.d_ff, configs.d_model, num_kernels=configs.num_kernels)
    )

class Inception_Block_V1(nn.Module):
    def __init__(self, in_channels, out_channels, num_kernels=6, init_weight=True):
        super(Inception_Block_V1, self).__init__()
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.num_kernels = num_kernels
        kernels = []
        for i in range(self.num_kernels):
            kernels.append(nn.Conv2d(in_channels, out_channels, kernel_size=2 * i + 1, padding=i))
        self.kernels = nn.ModuleList(kernels)
        if init_weight:
            self._initialize_weights()

    def _initialize_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)

    def forward(self, x):
        res_list = []
        for i in range(self.num_kernels):
            res_list.append(self.kernels[i](x))
        res = torch.stack(res_list, dim=-1).mean(-1)
        return res

GELU()函数

GELU（Gaussian Error Linear Unit）是一种激活函数，它在神经网络中用于引入非线性性。GELU 的特点包括以下几个方面：

光滑性： GELU 是一种光滑的激活函数，它的导数在整个实数域内都是定义良好的。这对于反向传播算法的有效性和数值稳定性是有益的。

非饱和性： GELU 在整个实数域内都不饱和。这意味着在输入信号的范围内，梯度不会消失，避免了一些激活函数（如 sigmoid、tanh）中可能出现的梯度消失问题。

逼近性质： GELU 在大部分实数域内近似于线性函数，这使得它在模型中可以起到近似线性的作用。在输入较大或较小的情况下，GELU 可能不太线性，但在输入接近零时，它趋向于线性变换。

归一化性质： GELU 的形式中包含了高斯分布的累积分布函数（CDF），这使得 GELU 对输入信号的归一化具有一定的性质。这有助于训练深度神经网络时的稳定性。

引入噪声： GELU 的形式与高斯分布相关，因此在一定程度上可以被视为引入了一些噪声。这种噪声引入可以有助于模型的鲁棒性，对抗一些过拟合问题。

GELU 出现在一些深度学习模型中，特别是在一些 Transformer 模型中，作为激活函数的选择。其性质使得它在一些情况下表现得很好，但在实践中，选择激活函数通常还取决于具体任务和经验。

GELU的优点 参考链接

GELU的优点是，它在处理负数时不会像ReLU一样将输入裁剪到0，这可能导致梯度消失的问题。

具有更光滑的导数：

GELU函数的导数是连续的，这使得在训练深度神经网络时可以更容易地传播梯度，避免了ReLU函数在处的导数不连续的问题，从而减少了训练过程中出现的梯度消失问题

可以加速收敛：

GELU函数在激活函数的非线性变换中引入了类似于sigmoid函数的变换，这使得GELU函数的输出可以落在一个更广的范围内，有助于加速模型的收敛速度。

2.2 forward部分代码

def forward(self, x):
    B, T, N = x.size()
    period_list, period_weight = FFT_for_Period(x, self.k)

    res = []
    for i in range(self.k):
        period = period_list[i]
        if (self.seq_len + self.pred_len) % period != 0:
            length = (((self.seq_len + self.pred_len) // period) + 1) * period
            padding = torch.zeros([x.shape[0], (length - (self.seq_len + self.pred_len)), x.shape[2]]).to(x.device)
            out = torch.cat([x, padding], dim=1)
        else:
            length = (self.seq_len + self.pred_len)
            out = x
        out = out.reshape(B, length // period, period, N).permute(0, 3, 1, 2).contiguous()
        out = self.conv(out)
        out = out.permute(0, 2, 3, 1).reshape(B, -1, N)
        res.append(out[:, :(self.seq_len + self.pred_len), :])
    res = torch.stack(res, dim=-1)
    period_weight = F.softmax(period_weight, dim=1)
    period_weight = period_weight.unsqueeze(1).unsqueeze(1).repeat(1, T, N, 1)
    res = torch.sum(res * period_weight, -1)
    res = res + x
    return res

B: Batch size 批大小

T: Time steps or sequence length 时间序列长度

N: Number of channels or features 通道特征数量

B, T, N = x.size() # 获取三个值的大小
period_list, period_weight = FFT_for_Period(x, self.k) # 函数调用

period_list：信号中每个最大频率成分的周期长度list
period_weight：相应频率成分的平均振幅信息

res = []
for i in range(self.k):
    # 获取第i个频率对应的周期长度
    period = period_list[i]
    # 如果总的序列长度（self.seq_len + self.pred_len）不能被实际周期整除，说明需要进行填充
    if (self.seq_len + self.pred_len) % period != 0:
        # 计算调整后的序列长度，使其能够整除周期长度
        # 默认label_len=48，pred_len=96，48+96=144
        length = (((self.seq_len + self.pred_len) // period) + 1) * period
        # 创建一个零张量，用于进行填充，保持与输入序列相同的批量大小和特征数
        # 创建一个0填充张量，形状为 [B, 填充长度, N]
        padding = torch.zeros([x.shape[0], (length - (self.seq_len + self.pred_len)), x.shape[2]]).to(x.device)
        # 将输入序列 x 与填充的零张量拼接在时间步维度上，以得到填充后的新序列。
        out = torch.cat([x, padding], dim=1)
    else:
        length = (self.seq_len + self.pred_len)
        out = x
    out = out.reshape(B, length // period, period, N).permute(0, 3, 1, 2).contiguous()
    # 2D conv: from 1d Variation to 2d Variation
    out = self.conv(out)
    # reshape back
    # [B, period, N, length // period]
    # 使用 reshape 操作将张量的形状调整为 [B, -1(自动计算的维度，以确保总的元素数量不变), N]
    out = out.permute(0, 2, 3, 1).reshape(B, -1, N)
    res.append(out[:, :(self.seq_len + self.pred_len), :])

<<<<<< 问题：>>>>>>

在1D变2D时，涉及到了 length = (((self.seq_len + self.pred_len) // period) + 1) * period，我不是很明白这边为什么要把self.pred_len也加入进去？来源

对于预测任务来说，TimesNet的pipeline是：在embedding之后先将序列长度扩充为self.seq_len + self.pred_len，然后再不断refine预测结果。所以在中间层的TimesBlock其实在处理预测的中间结果（其长度为self.seq_len + self.pred_len）。但是对于其他任务，self.pred_len=0，所以加和不加self.pred_len没有影响。

<<<<<< 填充的过程解析>>>>>>

假设 self.seq_len 是 100，self.pred_len 是 20，period_list 是一个包含两个实际周期的列表 [25, 30]，而 self.k 是 2。

首先，对于第一个实际周期（25），计算填充后的新序列长度：
length = (((self.seq_len + self.pred_len) // 25) + 1) * 25
将具体数值代入计算：
length = (((100 + 20) // 25) + 1) * 25
       = (120 // 25 + 1) * 25
       = (4 + 1) * 25
       = 5 * 25
       = 125
因此，对于第一个实际周期，填充后的新序列长度是 125。然后，根据这个长度创建一个零张量 padding：
padding = torch.zeros([x.shape[0], (125 - (self.seq_len + self.pred_len)), x.shape[2]]).to(x.device)
接下来，将输入序列 x 与填充的零张量拼接在时间步维度上：
out = torch.cat([x, padding], dim=1)
对于第二个实际周期（30），同样进行类似的计算和操作。最终，out 将是根据实际周期填充或未填充的新序列。

out = out.reshape(B, length // period, period, N).permute(0, 3, 1, 2).contiguous()

这行代码对 out 进行了形状调整（reshaping）和维度交换（permutation），并最终得到一个新的张量。让我们逐步解释：

out.reshape(B, length // period, period, N): 这一步通过 reshape 操作将 out 的形状调整为四维张量。具体来说，新的形状是 [B, length // period, period, N]。这里的含义是：

B: 批量大小，保持不变。

length // period: 新的时间步数，表示实际周期的倍数。

period: 实际周期，表示每个周期内的时间步数。

N: 特征数，保持不变。

.permute(0, 3, 1, 2): 这一步使用 permute 操作交换张量的维度。具体来说，它将原始张量的维度重新排列为 [B, N, length // period, period]。这里的含义是：

第一个维度保持为批量大小 B。

第二个维度变为特征数 N。

第三个维度变为新的时间步数 length // period。

第四个维度变为实际周期 period。

.contiguous(): 这一步确保张量的内存是连续的，有时在进行形状调整后可能会导致不连续的内存布局。

最终，通过这些操作，out 被调整为一个四维张量，表示批量中每个样本的时间序列，其中时间步按照实际周期分组，每个组内有 period 个时间步。这种形状的张量可能是为了后续的处理或模型输入的需要。

self.seq_len + self.pred_len = 48 + 96 = 144

length = (((self.seq_len + self.pred_len) // period) + 1) * period

out before shape： [B, period, N]

out after shape：[B, N, length//period, period]

<<<<<<Inception_Block_V1的输入要求？>>>>>>

这 Inception_Block_V1 模块的输入形状应该是一个四维的张量，即 (batch_size, in_channels, height, width)。让我们详细解释：

输入张量 x 的形状：

batch_size: 表示批量中样本的数量。

in_channels: 表示输入特征图的通道数。

height: 表示输入特征图的高度。

width: 表示输入特征图的宽度。

模块内部操作：

对于每个卷积核，它接收输入张量 x，其中卷积核的大小是 2 * i + 1，padding 为 i。这样设计的目的是使用不同大小的卷积核来捕获输入中的不同尺度的特征。

每个卷积核的输出形状是 (batch_size, out_channels, height, width)。

nn.ModuleList 和权重初始化：

使用 nn.ModuleList 存储多个卷积核。

在 _initialize_weights 方法中对每个卷积层的权重进行初始化。这里使用了 Kaiming 初始化。

前向传播 (forward 方法)：

对于每个卷积核，通过 self.kernels[i](x) 计算输出。

将所有卷积核的输出堆叠在一起，形成一个张量，其形状为 (batch_size, out_channels, height, width, num_kernels)。

沿着最后一个维度对这些卷积核的输出进行平均池化，得到最终的输出 res，其形状为 (batch_size, out_channels, height, width)。

因此，Inception_Block_V1 模块接受一个四维的输入张量，对每个卷积核计算输出，然后将这些输出进行平均池化，最终产生一个具有相同通道数和空间尺寸的输出张量。

out before shape： [B, N, length//period, period]

out after shape： [B, N, length//period, period]

out = out.permute(0, 2, 3, 1).reshape(B, -1, N)

这行代码对 out 进行了进一步的形状调整。让我们逐步解释：

out.permute(0, 2, 3, 1): 使用 permute 操作重新排列张量的维度。具体来说，将 out 的维度重新排列为 [B, period, N, length // period]。这里的含义是：

第一个维度保持为批量大小 B。

第二个维度变为实际周期 period。

第三个维度变为特征数 N。

第四个维度变为新的时间步数 length // period。

.reshape(B, -1, N): 使用 reshape 操作将张量的形状调整为 [B, -1, N]。这里 -1 表示自动计算该维度的大小，以保持总的元素数量不变。因此，最终形状是：

B: 批量大小，保持不变。

-1: 自动计算的维度，以确保总的元素数量不变。

N: 特征数，保持不变。

通过这些操作，out 被调整为一个三维张量，表示批量中每个样本的时间序列，其中每个时间步对应于实际周期的一个子序列。这种形状可能是为了更方便地传递给模型的下一步处理。

out before shape： [B, N, length//period, period]

out after shape： [B, period, N]

针对上述操作，一个shape样例：

period_list: [1751  583  437], period_list.shape: (3,)
period_weight.shape: torch.Size([16, 3])
period: 1751
out.shape: torch.Size([16, 1751, 32])
reshape&permute out.shape: torch.Size([16, 32, 1, 1751])
self.conv(out) out.shape: torch.Size([16, 32, 1, 1751])
permute&reshape out.shape: torch.Size([16, 1751, 32])
period: 583
out.shape: torch.Size([16, 2332, 32])
reshape&permute out.shape: torch.Size([16, 32, 4, 583])
self.conv(out) out.shape: torch.Size([16, 32, 4, 583])
permute&reshape out.shape: torch.Size([16, 2332, 32])
period: 437
out.shape: torch.Size([16, 2185, 32])
reshape&permute out.shape: torch.Size([16, 32, 5, 437])
self.conv(out) out.shape: torch.Size([16, 32, 5, 437])
permute&reshape out.shape: torch.Size([16, 2185, 32])

res.append(out[:, :(self.seq_len + self.pred_len), :])

这行代码通过 res.append(out[:, :(self.seq_len + self.pred_len), :]) 将处理后的 out 张量的一个部分添加到列表 res 中。让我们解释一下：

out[:, :(self.seq_len + self.pred_len), :]: 这部分代码是对 out 进行切片操作，选择每个样本的前 (self.seq_len + self.pred_len) 个时间步。具体来说：

[:, :(self.seq_len + self.pred_len), :]:

第一个冒号表示选择所有批次（样本）。

:(self.seq_len + self.pred_len) 表示选择前 (self.seq_len + self.pred_len) 个时间步。

最后一个冒号表示选择所有特征（通道）。

res.append(...): 这部分将上述切片得到的部分添加到列表 res 中。

整体而言，这行代码的作用是将处理后的时间序列数据的一个部分，即每个样本的前 (self.seq_len + self.pred_len) 个时间步，添加到结果列表 res 中。这样，res 中将包含每个样本的部分时间序列数据，可能是为了后续的模型训练或其他分析步骤。

out before shape： [B, period, N]

out after shape： [B, period:(self.seq_len + self.pred_len), N]

res = torch.stack(res, dim=-1) # 按最高维 对序列数据内部的张量进行扩维拼接
period_weight = F.softmax(period_weight, dim=1)
period_weight = period_weight.unsqueeze(1).unsqueeze(1).repeat(1, T, N, 1)

这两行代码涉及到对 period_weight 张量进行操作，其中 F 可能是指代 PyTorch 中的函数库（例如 torch.nn.functional）。让我们逐步解释这两行代码：

period_weight = F.softmax(period_weight, dim=1): 这一行代码使用 softmax 操作对 period_weight 进行归一化，使得其每一行的元素都在 (0, 1) 范围内，并且所有行的元素之和为 1。dim=1 表示在第二个维度上进行 softmax 操作，通常这个维度表示不同的频率。

period_weight = period_weight.unsqueeze(1).unsqueeze(1).repeat(1, T, N, 1): 这一行代码进行了一系列的张量操作：

period_weight.unsqueeze(1).unsqueeze(1): 通过 unsqueeze 在第二和第三个维度上插入维度，将 period_weight 转换为形状 [B, 1, 1, k]，其中 B 是批量大小，k 是振幅最高的前 k 个频率。

.repeat(1, T, N, 1): 通过 repeat 操作将张量在第一个维度上进行复制，使得最终的形状为 [B, T, N, k]，其中 T 是时间步数，N 是特征数。这样，period_weight 在每个时间步和特征上都有相同的权重值。

这样的操作可能是为了将振幅最高的前 k 个频率的权重在时间步和特征上进行扩展，以便后续的加权操作。可能是为了在模型的训练或预测中更好地考虑不同时间步和特征上的频率权重。

res = torch.sum(res * period_weight, -1)
res = res + x

这行代码使用 torch.sum 对 res 和 period_weight 进行加权求和，其中权重由 period_weight 提供。让我们解释这一行代码：

res * period_weight: 这是一个逐元素的乘法操作，对 res 中的每个元素分别乘以对应位置上的 period_weight 中的元素。这实际上是在对每个时间步和特征上的频率分量进行加权。

torch.sum(res * period_weight, -1): 这一步是在最后一个维度上（-1 表示最后一个维度）对上述乘法结果进行求和。这将得到一个形状为 [B, T, N] 的张量，其中每个元素表示对应位置上的频率分量经过加权求和后的结果。

整体而言，这行代码的作用是将 res 中的频率分量按照 period_weight 中的权重进行加权求和。这可能是为了在模型中更加重视振幅较高的频率分量，或者以某种方式调整时间序列的重要性。

维度变换的样例：

res.length: 3
res:{}
res.shape: torch.Size([16, 1751, 32, 3]) # 按最高维 对序列数据内部的张量进行扩维拼接
period_weight.shape after softmax  : torch.Size([16, 3])
period_weight.shape after unsqueeze: torch.Size([16, 1751, 32, 3])
res.shape: torch.Size([16, 1751, 32])

你可能感兴趣的:(论文笔记,论文阅读)

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
【论文笔记】GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
原文链接：https://arxiv.org/abs/2506.00034v1简介：现有的多传感器融合方法多使用基于注意力的拉直(flatten)融合或通过几何变换的BEV融合，但前者可解释性差，后者计算开销大（如下图(a)(b)所示）。本文提出GaussianFusion（下图(c)），一种基于高斯的多传感器融合框架，用于端到端自动驾驶。使用直观而紧凑的高斯表达，聚合不同传感器的信息。具体来说，
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
Segment Anything in High Quality之SAM-HQ论文阅读 qq_41627642 深度学习论文阅读论文阅读
摘要最近的SegmentAnythingModel（SAM）在扩展分割模型规模方面取得了重大突破，具备强大的零样本能力和灵活的提示机制。尽管SAM在训练时使用了11亿个掩码，其掩码预测质量在许多情况下仍不理想，尤其是对于结构复杂的目标。我们提出了HQ-SAM，使SAM能够精确地分割任意目标，同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了SAM预训练的模型权重，仅引入
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
Llama改进之——均方根层归一化RMSNorm 愤怒的可乐 NLP项目实战 #llama
引言在学习完GPT2之后，从本文开始进入Llama模型系列。本文介绍Llama模型的改进之RMSNorm(均方根层归一化)。它是由RootMeanSquareLayerNormalization论文提出来的，可以参阅其论文笔记1。LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi