芳樽里的歌

BiLSTM之二：工程应用须知

现在有很多成熟的深度学习框架集成了BiLSTM模型，但想使用它们并非没有门槛，至少要对说明文档中的参数的释义有充分的理解。我之前写过一篇介绍BiLSTM的文章（以下用「上一篇」来指代该文章），其侧重于模型的内部结构而非工程实现，作为对该文章的补充，本文以计算BiLSTM的参数数量为切入点，再深入理解一下模型的工程实现。

建议不熟悉BiLSTM的读者在阅读本文之前先阅读上一篇文章，本文的公式及符号与该文章保持一致。

1、`paddlepaddle`中的LSTM模型

为叙述方便，我们将上一篇文章中的一个LSTM cell的内部结构图粘贴到此：

cell可以被翻译为“神经元”，但在LSTM的场景中容易让人误解，因为一层的LSTM模型只有一个“神经元”——这看上去似乎不够「深度学习」，所以我将不再翻译，并直接使用cell来指代这个结构。请读者仔细思考全连接神经网络中的“神经元”的概念以及此处这个cell的概念之间的区别。

观察这个cell结构，我们不难发现，整个计算中存在维度变化的地方只在于 $a_{t-1}$ 与 $X_t$ 的合并向量与权重相乘时。

在飞浆中，通过调用paddle.nn.LSTM类就可以实现LSTM的搭建。提醒读者注意，类的实例化是搭建神经网络结构的过程；而真正的前向计算，是通过调用该实例的forward()方法实现的。

首先，导入基础模块：

from paddle import nn

然后，实例化一个LSTM对象：

lstm = nn.LSTM(input_size=3, hidden_size=9)

上一行代码初始化了一个LSTM实例。对于LSTM类而言，只有前两个参数是必须的，即input_size和hidden_size，这里赋值分别为3和9。input_size指的是cell新输入的数据的维度，即 $X_t$ 的维度。hidden_size指的是 $X_t$ （其实还有 $a_{t-1}$ ，但它并不影响维度）经过与权重做矩阵乘法后的输出维度，这个维度完全由权重矩阵的形状决定，因此被称为“隐藏层大小”。

介绍完关键参数之后，接下来看一下参数数量是如何计算的。

2、参数的数量

首先，不考虑 $a_{t-1}$ 和 $C_{t-1}$ 的输入时，给定一个 $(3, 1)$ 的输入向量，那么会得到一个 $(9, 1)$ 的输出向量，其计算过程如下：

这里以「输出门」为例，直观地展现了计算过程中的维度变化情况。其他的「输入门」、「遗忘门」以及与 $W$ 的计算过程都是类似的。也就是说，在不考虑 $a_{t-1}$ 和 $C_{t-1}$ 的情况下，所需要的参数总量一共是：

$(3 * 9 + 9) * 4 = 144$

在LSTM中， $a_{t-1}$ 和 $C_{t-1}$ 与 $o_t$ 具有相同的维度，在这里为9。因此， $a_{t-1}$ 与 $X_t$ 同时参与运算的过程如下：

此时的参数数量一共为：

$(9 * 9 + 9 * 1 + 9 * 3 + 9 * 1) * 4 = 504$

至此，我们已经得到了单层的LSTM的参数数量的计算公式：

如果输入向量的维度为 $n$ ，隐藏层维度为 $m$ ，则参数总量为 $4(m^2+2m+mn)$ 。

3、BiLSTM

如果想要构造BiLSTM，则可以在实例化LSTM类时指定direction参数：

lstm = nn.LSTM(input_size=3, hidden_size=9, direction='bidirect')

其参数数量是相同设置的LSTM的参数数量的2倍。

不同的深度学习框架基于LSTM构造BiLSTM的方法略有不同。

4、一个回归的例子

4.1 基础版本

我们不涉及任何具体的业务，也不涉及数据预处理过程，只讨论如何基于飞浆建立一个BiLSTM回归模型。

4.1.1 原始数据

首先让我们生成数据：

import numpy as np
import pandas as pd
import paddle
from paddle import nn

np.random.seed(1234)

data = np.random.random(size=(10000, 8))
df = pd.DataFrame(data, columns=[f'x{i}' for i in range(1, 8)] + ['y'])
print(df.head())

由于指定了随机数种子，输出一定是下面的内容：

         x1        x2        x3  ...        x6        x7         y
0  0.191519  0.622109  0.437728  ...  0.272593  0.276464  0.801872
1  0.958139  0.875933  0.357817  ...  0.712702  0.370251  0.561196
2  0.503083  0.013768  0.772827  ...  0.615396  0.075381  0.368824
3  0.933140  0.651378  0.397203  ...  0.568099  0.869127  0.436173
4  0.802148  0.143767  0.704261  ...  0.924868  0.442141  0.909316
[5 rows x 8 columns]

现在，假设我们面临的是一个价格预测问题：y是我们的目标列，表示价格；x1到x7为特征列；样本是按照时间顺序排列的。于是，我们的目标是建立一个基于BiLSTM的回归模型来对其进行预测。

4.1.2 模型修改

假设样本数据直接输入BiLSTM模型，那么它的输入大小为7，我们再定义其隐藏层的大小为32，于是，定义网络的代码为：

bilstm = LSTM(7, 32, direction="bidirect")

通过上面的分析可知，对于一个特定的样本（例如，第一行数据），利用bilstm对其进行前向计算后输出分为三部分：输出 $o_0$ ，长期记忆 $C_0$ 以及短期记忆 $a_0$ ；其中的 $C_0$ 和 $a_0$ 又将和下一个样本（第二行数据）一起再进行前向计算。

这里所有的下标与python保持一致，从0开始。

如果我们指定的时间步长为5，于是，模型将重复上述过程直到它遍历到第5个样本。这时，我们会得到一个输出 $o_4$ ，并将它作为这一组样本所预测的输出。

但这个输出的维度是64，再与下一个时刻的真实价格 $y_5$ 计算误差前，首先需要将其变为1维。这很简单，再接一个维度为 $(64, 1)$ 的全连接层即可。于是，我们计算 $\hat y$ 与 $y_5$ 的误差后，就可以将该误差反向传播并更新网络参数了。

为了将BiLSTM网络和全连接网络连接到一起，我们可以使用「组网」的方式。它的API是paddle.nn.Sequential，基本用法是：

model = paddle.nn.Sequential(
	net1,
    net2,
    ...
)

它的作用是很直观的：将不同的网络结构堆叠起来，前面网络的输出作为后续网络的输入，从而实现快速建模。

但使用这个API的时候要注意：前一个网络的输出的形状必须与后一个网络的输入的形状一致。我们知道，BiLSTM的输出有三部分：第一部分是 $\hat y$ ，后面两部分存储在一个元组中，分别表示 $a$ 和 $C$ 。所以，为了能够正确地只将第一部分传入全连接网络，需要对基础的paddle提供的LSTM类进行改写：

class MyLSTM(nn.LSTM):
    def __init(self, *args, **kwargs):
        # 实例化时与父类保持一致
        super().__init__(*args, **kwargs)
	
    def forward(self, inputs):
        # 调用父类的前向函数来计算，但只取返回结果的第一部分
        output, _ = super().forward(inputs)
        return output[:, -1, :]  # 在第二个维度上只取最后一组值，其实就是获取最后一个时间步输出的y_hat

有的读者可能会产生一个疑问：这样修改前向运算的输出之后，第一个时间步的输出就少了 $a$ 和 $C$ ，那下一个时间步在运算时岂不是就无法捕获长短时的记忆了？

这里就需要解释一下LSTM的实现机制了。在paddle中，forward其实是在计算完所有的时间步后才一次性输出的。也就是说，假设我们的时间窗口选的是5，那么forward的第一个输出其实是包含了对应于这5个样本点的5个输出值，第二个输出的 $a$ 和 $C$ 只保留最终的状态，即各有一个值。

注意：

这里的「值」代表的是向量。

在真实的运算中还需要指定batch_size，这里默认为1，在讨论中省略，实际上即使为1也需要对在输入的第一个维度进行指定。

读者可以通过以下的代码来验证一下：

import paddle

# 用上文的data来创建一个tensor，注意这里没有留y，所以input size是8
tiny_tensor = paddle.to_tensor(data[:5], dtype=np.float32)

# 通过两次设置随机数种子，可以是lstm和mylstm的权重完全相同
paddle.seed(1234)
lstm = nn.LSTM(8, 32)
paddle.seed(1234)
mylstm = MyLSTM(8, 32)

tiny_tensor = tiny_tensor.reshape(shape=(-1, 5, 8))  # 必须指定batch_size，这里自动计算
my_out = mylstm(tiny_tensor)
out, _ = lstm(tiny_tensor)
print(my_out == out[:, -1, :])

应该打印以下内容：

Tensor(shape=[1, 32], dtype=bool, place=CPUPlace, stop_gradient=False,
       [[True, True, True, True, True, True, True, True, True, True, True, True,
         True, True, True, True, True, True, True, True, True, True, True, True,
         True, True, True, True, True, True, True, True]])

4.1.3 模型组网

接下来就可以进行模型组网了，非常简单：

model = nn.Sequential(
	MyLSTM(7, 32, direction='bidirect', dropout=0.5),
    nn.Linear(64, 1)
)

# 将模型封装
model = paddle.Model(model)

# 定义优化器、损失函数
model.prepare(paddle.optimizer.RMSProp(0.0001, parameters=model.parameters()),
              paddle.nn.MSELoss())

在调用.fit()方法进行训练之前，我们还需要对训练数据进行一些封装。

4.1.4 数据的处理

在训练开始之前，还需要对数据做如下处理：

按照指定的时间步长转化成「序列」的形式，划分训练集测试集；
封装成paddle可接收的数据格式。

对于第一部分，通过以下函数可以实现：

def create_sequence(df, window: int = 5):
    """
    为了能够输入LSTM模型，将数据处理成序列的形式。
    假设输入的df一共有N行，那么处理后的数据的维度为：[N-window, window, 7]
    """
    N = df.shape[0]
    ret = np.empty(shape=(N - window, window, 7))
    y = np.empty(N - window)
    for i in range(N - window):
        end = i + window
        arr = df[['x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7']].iloc[i: end].values
        ret[i] = arr
        y[i] = df['y'].iloc[i + window]
    return ret, y


X, y = create_sequence(df)

接着，划分训练集与测试集：

# 按80/20的比例划分
train_size = int(train_X.shape[0] * 0.8)
test_size = train_X.shape[0] - train_size
train_X = X[:train_size]
train_y = y[:train_size]
test_X = X[-test_size:]
test_y = y[-test_size:]

对于第二部分，我们首先需要将数据转化为Tensor：

train_X_tensor = paddle.to_tensor(train_X, dtype=np.float32)
train_y_tensor = paddle.to_tensor(train_y, dtype=np.float32)
test_X_tensor = paddle.to_tensor(test_X, dtype=np.float32)
test_y_tensor = paddle.to_tensor(test_y, dtype=np.float32)

接下来，传给.fit()的训练数据需要满足一定的格式，这里是通过继承Dataset类来实现的。使用这种方法只需要重写Dataset的__getitem__和__len__方法即可：

class MyDataset(paddle.io.Dataset):
    def __init__(self, dataset_type):
        self.dataset_type = dataset_type
        
    def __getitem__(self, idx):
        if self.dataset_type == 'train':  # 训练集的话，返回特征和标签
            return train_X_tensor[idx], train_y_tensor[idx]
        if self.dataset_type == 'test':  # 测试集的话，返回特征
            return test_X_tensor[idx]
       
    def __len__(self):
        if self.dataset_type == 'train': 
            return train_X_tensor.shape[0]
        if self.dataset_type == 'test':
            return test_X_tensor.shape[0]

最终，可以对模型进行训练了：

model.fit(MyDataset('train'), batch_size=32)

然后可以预测：

model.predict(MyDataset('test'))

当然，由于用的是随机数，结果不具备评价意义。

4.2 进阶版本

有时，作为输入的特征不止x1,...,x7，还有历史价格。

换言之，模型由：

变成了：

这对于训练过程的影响倒是不大，只需要将create_sequence函数对应的输入特征和输入维度增加，在模型组网时修改输入的维度即可。

但在预测时，问题变得有些麻烦。

我们在预测未来的多个时刻的价格时，需要逐时刻预测，并且将上一时刻的预测价格填充到下一时刻的输入特征中，因为我们没有上一时刻的真实价格数据。

目前，我没有找到paddle中关于处理这种情形的方案，因此，我对MyDataset类和预测的代码做了一些修改：

class MyDataset(Dataset):
    def __init__(self, dataset_type, sub_tensor=None):
        self.dataset_type = dataset_type
        self.sub_tensor = sub_tensor
    
    def __getitem__(self, idx):
        # 训练时不变，但在预测时，必须逐tensor进行预测，这样才能在传入
        # 模型前对输入的tensor进行价格填充
        if self.dataset_type == 'train':
            return train_X_tensor[idx], train_y_tensor[idx]
        if self.dataset_type == 'test':
            # 直接返回输入的tensor
            return self.sub_tensor

    def __len__(self):
        if self.dataset_type == 'train':
            return len(train_y_tensor)
        if self.dataset_type == 'test':
            # 对应的长度永远是1
            return 1

同时，预测的过程也做了修改，用一个定长的队列来存储预测过的价格：

from collections import deque

last_pred = deque(maxlen=5)  # 最大长度为时间窗口长度，再之前的数据对于预测下一个时刻无用
pred_value = []  # 存储预测结果
for i in range(test_X_tensor.shape[0]):
    sub_tensor = test_X_tensor[i]  # 获取待输入的tensor
    if last_pred:  # 已经存在预测结果，则将该结果填充到tensor中
        num = len(last_pred)
        # paddle的tensor修改貌似比较复杂，我没深入研究，采取了个笨办法
        sub_array = sub_tensor.numpy()
        sub_array[-num:][:,-1] = list(last_pred)
        sub_tensor = paddle.to_tensor(sub_array)
    res = model.predict(MyDataset('test', sub_tensor))
    pred_value.append(res)
    last_pred.append(res)  # 更新队列

如果有其他的解决方案，欢迎评论让我知道。

参考：

LSTM and Bidirectional LSTM for Regression
paddlepaddle的LSTM如何写到Sequential中

解决更新python版本后，虚拟环境不可用的问题 Superstarimage diffusers编程 python python 人工智能开发语言
因为安装xformers，需要额外加装triton，而triton需要的python版本（3.10）高于我当前虚拟环境的版本（3.8），因此博主手动提升了当前虚拟环境的版本：condainstallpython=3.10结果应用该虚拟环境时，始终报如下错误：(TrainControlNet)F:\XYX\Documents\SpongeCakeInverse\AITools\the3rdparty
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
Python: 如何用Python的迭代器或生成器实现斐波那契数列 KevinShi_BJ python
斐波那契数列（Fibonaccisequence）是指这样一个数列：1，1，2，3，5，8，13，21，34，55，89...这个数列从第3项开始，每一项都等于前两项之和。斐波那契数列的定义者，是意大利数学家莱昂纳多·斐波那契（LeonardoFibonacci）。以兔子繁殖为例子而引入，故又称为”兔子数列“。斐波那契数列又称黄金分割数列，n越大，相邻两值的比越接近黄金分割0.618，非常有趣。百
Python实现布林带策略完整代码程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
Python实现布林带策略完整代码布林带是个啥玩意儿？我见过太多新手一上来就问"布林带能不能赚钱"，这问题就跟问"菜刀能不能切菜"一样。布林带就是个工具，关键看你怎么用。简单来说，它就是在均线上下画两条通道线，股价大部分时间都在这个通道里晃悠。记得去年有个客户，拿着布林带当圣杯，结果亏得妈都不认识。后来我给他看了我的Python策略代码，这哥们才明白原来工具要配合仓位管理和止损。现在他账户已经翻倍
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱那个让我夜不能寐的亏损账户去年有个客户老张来找我，50万本金半年亏了15万。他红着眼睛问我："为什么我跟着大V买卖还是亏？"我看了他的交易记录就明白了——全是凭感觉操作，涨了追，跌了割，完全被市场情绪牵着鼻子走。这让我想起自己刚入行时，盯着分时图眼睛发酸的日子。直到有天看到营业部老总桌上那本《量化交易入门》，才恍然大悟：原来职业玩家都在用
python分支语句_python入门基础教程10 python的分支语句 weixin_39604280 python分支语句
if分支语句分支语句的作用是在某些条件控制下有选择的执行实现一定功能语句块。if分支语句则是当if后的条件满足时，if下的语句块被执行，语法格式如下所示：if:statements让我们看看代码吧。>>>sex='male'>>>ifsex=='male':print'Man!'#此处有两次回车键Man!>>>ifsex=='female':print'Woman'#此处有两次回车键>>>if_e
Python 分支语句，分支语句嵌套，三目运算龙技术 Python语法 python
1、分支语句单一条件判断if条件：条件成立时执行的代码#格式:'''if条件:条件成立时执行的代码'''age=int(input('请输入你的年龄:'))#上网ifage>=18:print('小帅哥快来玩啊')print('回家睡觉')对立条件判断if条件：条件成立时执行的代码else：条件不成立时执行的代码#if...else...'''if条件:条件成立时执行的代码else:条件不成立时执
十五天Python系统学习教程第十五天
Day15详细学习计划：Python综合项目实战与学习路径规划学习目标✅综合运用前14天知识完成完整项目开发✅掌握生产级项目架构设计与优化技巧✅制定后续学习计划与技能提升方案✅理解Python工程化开发最佳实践一、实战项目：企业级任务管理系统1.1项目需求核心功能：用户认证（JWT令牌）任务CRUD与状态流转（待办/进行中/已完成）任务分类与优先级管理数据统计可视化（任务完成率/耗时分析）邮件通知
Python分支语句注意事项乔代码嘚 python 开发语言 github
一、单分支语句：if语句1.语法:if：语句块2.注意事项:1）if语句首先判断的结果值，如果结果为True，则执行语句块里的语句序列。如果结果为False，语句块里的语句会被跳过；2）语句块是if条件满足后执行的一个或多个语句序列；3）语句块中语句通过与if所在行形成缩进表达包含关系。4）if判断语句还可以简写：iftag:print("True")当x为0、0.0、0j、None或者空的字符串
python函数
四、函数定义P.1函数定义把一段实现某个功能的完整代码，用一个函数封装，后期可以通过调用函数名，实现依次编写，多次调用的目的函数，可以等价于我们初高中学过的f(x)，f是运算法则，也就是代码函数中对应的代码执行块，每有一个x对应经过f运算之后得到一个值，如f(x)对应的是让x乘3加2，每有一个x进入f中便会得到一个值。高中对应的函数三要素是，定义域、运算法则、值域，而编程中的函数也有三要素，分别为
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
Python程序员如何制定学习计划？提高编写代码的能力
在工作和生活压力之下，如何提升自己的技能和能力？这是许多人都面临的问题。如果你也有这样的问题，那么首先要明确的是，要想提升自己的能力，必须要有一个清晰的计划和方向。这个计划可以是长期的，也可以是短期的，但必须要有一个大的方向性。接下来，我们来看看如何制定一个有效的计划。如果你不知道如何制定计划，其实很简单。你可以闭上眼睛，想一想自己哪些方面比较薄弱，比如多线程锁、Spring的一些核心技术源码、分
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
Python: 包
一、Python包基础概念1.1什么是Python包Python包(Package)是一种组织Python模块的方式，它使用目录结构来组织相关的模块。一个包本质上是一个包含__init__.py文件的目录，该文件可以是空的，也可以包含包的初始化代码。my_package/├──__init__.py├──module1.py└──module2.py1.2包与模块的区别模块(Module):单个.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
python爬虫正则表达式使用说明 yuwinter Python python 爬虫正则表达式
Python爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用Python编写爬虫，结合正则表达式提取网页中的数据。一、基础知识点1.安装必要库爬虫通常需要使用库来处理HTTP请求和解析网页，常用库有：requests：用于发送HTTP请求，获取网页内容。re：Python自带的正则表达式库，用于模式匹配和提取数据。BeautifulSoup（可选）：如果你需要更高级的网
python：正则表达式符号初于青丝mc终于白发 python相关正则表达式 python pycharm
本次给大家带来的是python中的正则表达式符号的复习呀，还记得清楚嘛^^？匹配零次或一次前面的分组*匹配零次或多次前面的分组+匹配一次或多次前面的分组{n}匹配n次前面的分组{n，}匹配n次或更多次前面的分组{，m}匹配零次或m次前面的分组{n，m}匹配至少n次，至多m次前面的分组{n，m}？、*？、+？对前面的分组进行非贪心匹配^spam意味着字符串必须以spam开始spam$意味着字符串必须
Python：正则表达式慕婉0307 python基础知识点正则表达式
正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文将详细介绍Python正则表达式的使用方法，包括基础语法、高级技巧和re模块API的详细解析。一、正则表达式基础1.1什么是正则表达式正则表达式(RegularExpression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。1.2Python中的re模块Python通过内置的r
PythonOCC-core项目中的Wayland显示支持探索颜如良
PythonOCC-core项目中的Wayland显示支持探索pythonocc-coretpaviot/pythonocc-core:是一个基于Python的OpenCASCADE(OCCT)几何内核库，提供了三维几何形状的创建、分析和渲染等功能。适合对3D建模、CAD、CAE以及Python有兴趣的开发者。项目地址:https://gitcode.com/gh_mirrors/py/pytho
【Python 算法零基础 4.排序 ⑦ 桶排序】 L_cl Python常见算法排序算法数据结构算法
草木不争高，争的是生生不息——25.5.26选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定最小值：假设
【Python 算法零基础 4.排序 ⑥ 快速排序】 L_cl Python常见算法排序算法算法
既有锦绣前程可奔赴，亦有往日岁月可回首——25.5.25选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定
Python练习--Day1 IT小白成长记 python
1、输入三个整数：判断这三个整数能否组成一个三角形？构成三角形的条件：任意两个数之和大于第三个数首先输入三个数：使用Python内置函数input()从标准输入读入一行文本，默认的标准输入为键盘输入input所读入内容的数据类型为字符串类型，需要使用int、float等转换成我们需要的数据类型使用分支结构判断a=int(input("请输入第一个整数："))b=int(input("请输入第二个整
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方