大鹏的编程之路

将强化学习应用到量化投资中实战篇（学习模块开发下）

强化学习学习模块（learners.py）包含实现各种强化学习方法的类。DQNLearner、PolicyGradientLearner、ActorCriticLearner、A2CLearner 和 A3CLearner 分别是基于深度 Q -learning、策略梯度、Actor-critic、A2C 和 A3C 强化学习技术的类实现。根据股票投资的特点，每种技术在理论上可能略有不同。

文章目录

- 将强化学习应用到量化投资中实战篇（学习模块开发下）
- - 6. Epoch初始化函数
  - 7. 训练价值神经网络和策略神经网络
  - 8. 可视化 epoch 结果
  - - 8.1 ReinforcementLearner类：可视化函数（一）
    - 8.2 ReinforcementLearner类：可视化函数（二）
  - 9. 强化学习执行函数
  - - 9.1 强化学习执行函数（一）
    - 9.2 强化学习执行函数（二）
    - 9.3 强化学习执行函数（三）
    - 9.4 强化学习执行函数（四）
    - 9.5 强化学习执行函数（五）
    - 9.6 强化学习执行函数（六）
    - 9.7 强化学习执行函数（七）
    - 9.8 强化学习执行函数（8）
  - 10.DQN强化学习类
  - 11.策略梯度强化学习类
  - 12.Actor-Critic 强化学习类
  - 13.A3C强化学习类

6. Epoch初始化函数

reset()以下代码片段显示了一个函数，该函数使用存储在每个 epoch 中的新数据初始化变量。

 def reset(self):
        self.sample = None
        self.training_data_idx = -1
        # 初始化环境
        self.environment.reset()
        # 初始化代理
        self.agent.reset()
        # 初始化可视化
        self.visualizer.clear([0, len(self.chart_data)])
        # 初始化内存
        self.memory_sample = []
        self.memory_action = []
        self.memory_reward = []
        self.memory_value = []
        self.memory_policy = []
        self.memory_pv = []
        self.memory_num_stocks = []
        self.memory_exp_idx = []
        self.memory_learning_idx = []
        # 初始化epoch相关信息
        self.loss = 0.
        self.itr_cnt = 0
        self.exploration_cnt = 0
        self.batch_size = 0
        self.learning_cnt = 0

此函数重置为从头开始training_data_idx再次读取训练数据。-1随着训练数据的读取，该值增加 1。读取的数据存储在样本中，但由于初始化阶段没有读取训练数据，因此将其分配为 None。

此外，它初始化所有与环境、代理、可视化、memory和epoch相关的信息。environment,调用的函数agent和reset()的visualizer函数。clear()并memory_*清空列表。

初始化epoch相关信息。loss 是一个变量，用于存储神经网络的结果与训练数据的差异程度。loss建议值随着训练的进行而减小。

itr_cnt该变量存储执行的时期数。exploration_cnt该变量存储进行随机投资的次数。epsilon如果这是 0.1，并且您有 100 个投资决策，您将进行大约 10 个随机投资。

要训练的 mini-batch 的大小batch_size存储在中，learning_cnt在一个 epoch 中执行的 mini-batch 训练的数量存储在中。

7. 训练价值神经网络和策略神经网络

build_sample()下面显示了一个函数，该函数生成一个构成训练数据的样本。

    def build_sample(self):
        self.environment.observe()
        if len(self.training_data) > self.training_data_idx + 1:
            self.training_data_idx += 1
            self.sample = self.training_data.iloc[
                self.training_data_idx].tolist()
            self.sample.extend(self.agent.get_states())
            return self.sample
        return None

调用环境对象observe()中的函数从图表数据中的当前索引读取下一个索引数据。并检查训练数据上的下一个索引是否存在。

如果训练数据中存在下一个索引数据，training_data_idx则将变量加1，从training_data数组中获取training_data_idx索引的数据，sample并将其存储为 . 到目前为止，样本数据由 26 个值组成。接下来，sample添加一个代理状态以sample使用 28 个值对其进行配置。
。
例 1 显示了一个生成批量训练数据的get_batch()函数和一个训练神经网络以训练神经网络的函数update_networks()。

示例1 ReinforcementLearner 类中的 get_batch()、

	@abc.abstractmethod
    def get_batch(self, batch_size, delayed_reward, discount_factor):
        pass

    def update_networks(self, 
            batch_size, delayed_reward, discount_factor):
       # 生成批量训练数据
        x, y_value, y_policy = self.get_batch(
            batch_size, delayed_reward, discount_factor)
        if len(x) > 0:
            loss = 0
            if y_value is not None:
                # 更新价值神经网络
                loss += self.value_network.train_on_batch(x, y_value)
            if y_policy is not None:
               # 更新策略神经网络
                loss += self.policy_network.train_on_batch(x, y_policy)
            return loss
        return None

get_batch()函数是一个抽象方法，ReinforcementLearner类的子类必须实现这个函数。ReinforcementLearner如果您从一个类继承但没有实现此抽象方法，NotImplemented则会引发异常。

update_networks()函数get_batch()调用函数生成批量训练数据，调用神经网络类的tra函数训练价值神经网络和策略神经网络in_on_batch()。价值神经网络从DQNLearner,ActorCriticLearner中学习，A2CLearner策略神经网络从PolicyGradientLearner, ActorCriticLearner,中学习A2CLearner。

返回训练后发生的损失。如果我们同时训练一个价值神经网络和一个策略神经网络，我们会返回两个训练损失的总和。

以下代码片段fit()显示了 ReinforcementLearner 类中的一个函数。

ReinforcementLearner 类中的 fit() 函数

    def fit(self, delayed_reward, discount_factor):
        # 批量训练数据生成和神经网络更新
        if self.batch_size > 0:
            _loss = self.update_networks(
                self.batch_size, delayed_reward, discount_factor)
            if _loss is not None:
                self.loss += abs(_loss)
                self.learning_cnt += 1
                self.memory_learning_idx.append(self.training_data_idx)
            self.batch_size = 0

fit()该函数调整批量训练数据的大小update_networks()并调用该函数。然后，将返回的学习损失值_loss添加loss到。loss将在 epoch 期间产生总的学习损失。learning_cnt我们将训练的数量存储在其中，然后除以，被认为是 epoch 中的学习损失loss。learning_cnt并将memory_learning_idx学习位置保存在 .

是否使用 epoch 中积累的所有数据进行训练是一个 full 参数，如果 full 为 True，则对整个数据进行训练。这用于在 epoch 结束时进一步训练价值神经网络。

8. 可视化 epoch 结果

以下代码片段是完成一个 epoch 以可视化 epoch 相关信息的部分

8.1 ReinforcementLearner类：可视化函数（一）

 def visualize(self, epoch_str, num_epoches, epsilon):
        self.memory_action = [Agent.ACTION_HOLD] \
            * (self.num_steps - 1) + self.memory_action
        self.memory_num_stocks = [0] * (self.num_steps - 1) \
            + self.memory_num_stocks
        if self.value_network is not None:
            self.memory_value = [np.array([np.nan] \
                * len(Agent.ACTIONS))] * (self.num_steps - 1) \
                    + self.memory_value
        if self.policy_network is not None:
            self.memory_policy = [np.array([np.nan] \
                * len(Agent.ACTIONS))] * (self.num_steps - 1) \
                    + self.memory_policy
        self.memory_pv = [self.agent.initial_balance] \
            * (self.num_steps - 1) + self.memory_pv

我们可视化的是代理的行为、持有的股票数量、价值神经网络输出、策略神经网络输出、投资组合价值、探索位置、学习位置等。

使用LSTM神经网络和CNN神经网络时，agent行为、持股数量、价值神经网络输出、策略神经网络输出、投资组合价值在第一部分用无意义的值填写，num_steps – 1因为它们少高于环境的日均值。num_steps – 1

Python 提示：在 Python 中，当您将一个列表相乘时，相同的列表会附加到末尾。例如，[1, 2, 3] * 3将[1, 2, 3, 1, 2, 3, 1, 2, 3]是。

8.2 ReinforcementLearner类：可视化函数（二）

self.visualizer.plot(
            epoch_str=epoch_str, num_epoches=num_epoches, 
            epsilon=epsilon, action_list=Agent.ACTIONS, 
            actions=self.memory_action, 
            num_stocks=self.memory_num_stocks, 
            outvals_value=self.memory_value, 
            outvals_policy=self.memory_policy,
            exps=self.memory_exp_idx, 
            learning_idxes=self.memory_learning_idx,
            initial_balance=self.agent.initial_balance, 
            pvs=self.memory_pv,
        )
        self.visualizer.save(os.path.join(
            self.epoch_summary_dir, 
            'epoch_summary_{}.png'.format(epoch_str))
        )

调用对象上visualizer的函数。plot()并将生成的epoch结果图片保存为PNG图片文件。

9. 强化学习执行函数

run()函数是ReinforcementLearner一个类的核心函数，它的长度也比较长。所以，让我们把它分解成几个部分。下面run()显示了函数的声明部分。

9.1 强化学习执行函数（一）

 def run(
        self, num_epoches=100, balance=1000000,
        discount_factor=0.9, start_epsilon=0.5, learning=True):
        info = "[{code}] RL:{rl} Net:{net} LR:{lr} " \
            "DF:{discount_factor} TU:[{min_trading_unit}," \
            "{max_trading_unit}] DRT:{delayed_reward_threshold}".format(
            code=self.stock_code, rl=self.rl_method, net=self.net,
            lr=self.lr, discount_factor=discount_factor,
            min_trading_unit=self.agent.min_trading_unit, 
            max_trading_unit=self.agent.max_trading_unit,
            delayed_reward_threshold=self.agent.delayed_reward_threshold
        )
        with self.lock:
            logging.info(info)

       ＃ 开始时间
        time_start = time.time()

num_epoches是要执行的迭代总数。随着价值神经网络和策略神经网络通过迭代学习朝着增加投资组合价值的方向逐渐更新，需要设置足够的迭代次数。但num_epoches设置过大，学习时间会过长，所以要适当设置。这取决于你训练了多少数据，但这里将默认值设置为 100。

balance是决定代理人初始投资资金的因素。

discount_factor是找到状态动作值时应用的贴现率。当奖励发生时，当前奖励会影响在上一次奖励发生和当前奖励发生之间所采取的所有行动。此时，过去越远，应用当前奖励就越弱，因为当你进入过去时，应用当前奖励的基础变得模糊。

start_epsilon是初始探索率。在强化学习的早期，探索率应该很大，以允许更多的探索，即随机投资。通过探索，您可以获得经验来确定在特定情况下什么是好的，什么不是。

learning是一个布尔值，决定是否学习。布尔值是一个二进制值，可以是 True 或 False。训练后，创建训练好的价值神经网络模型和策略神经网络模型。learning如果你想通过这种方式训练来做一个神经网络模型True，learning给False。

run()当它进入函数时，它会记录强化学习设置。并节省学习开始时间。这是记录学习结束后的时间差作为学习时间。

9.2 强化学习执行函数（二）

         # 准备可视化
         # 由于图表数据没有变化，所以提前可视化。
        self.visualizer.prepare(self.environment.chart_data, info)

        # 准备一个文件夹来保存可视化结果
        self.epoch_summary_dir = os.path.join(
            self.output_path, 'epoch_summary_{}'.format(
                self.stock_code))
        if not os.path.isdir(self.epoch_summary_dir):
            os.makedirs(self.epoch_summary_dir)
        else:
            for f in os.listdir(self.epoch_summary_dir):
                os.remove(os.path.join(self.epoch_summary_dir, f))

        # 设置代理的初始资本
        self.agent.set_balance(balance)

        # 初始化学习信息
        max_portfolio_value = 0
        epoch_win_cnt = 0

通过调用可视化对象上visualizer的函数来prepare()准备可视化。prepare()该功能将图表数据提前可视化。

并准备好保存可视化结果的路径。可视化结果保存在output_path路径下的文件夹中epoch_summary_*。如果文件夹中已经epoch_summary_*保存了文件，则所有文件都将被删除。

并设定代理的初始资金。100万RMB作为基本资本。

max_portfolio_value该变量存储执行的时期中最高的投资组合价值。epoch_win_cnt该变量存储执行的时期中获利时期的数量。也就是说，投资组合价值超过初始资本的时期数。

以下是循环的介绍部分，该循环通过重复指定数量的 epoch 的股票投资模拟来学习。

9.3 强化学习执行函数（三）

        #重复学习
        for epoch in range(num_epoches):
            time_start_epoch = time.time()

            
            q_sample = collections.deque(maxlen=self.num_steps)

            # 环境、代理、神经网络、可视化、内存初始化
            self.reset()

            # 探索率随着学习的进展而降低
            if learning:
                epsilon = start_epsilon \
                    * (1. - float(epoch) / (num_epoches - 1))
                self.agent.reset_exploration()
            else:
                epsilon = start_epsilon

	Python 提示：在 Python 中，代码块由缩进分隔。特别是在使用 , class, def, if, elif, else, for, while, try, except,final等with时要注意缩进。

进入循环时，首先记录epoch的开始时间。这是为了查看执行一个 epoch 需要多长时间。

并num_step初始化一个队列以容纳尽可能多的样本。

	Python 提示：队列是先进先出 (FIFO) 数据结构。甲板可以被视为一个交互式队列。在 Python 中，您可以将交互式队列数据结构创建为collections模块中的函数。deque这时候，maxlen你可以通过给一个参数来限制这个交互队列的大小。

然后，调用 reset() 函数来初始化每个 epoch 初始化的环境、代理、神经网络、可视化信息和内存。

随着每个时期，epsilon 从 start_epsilon 逐渐减小。在确定 epsilon 值时，start_epsilon 值，即初始随机投资比率，乘以当前 epoch 数乘以学习进度。例如，如果 start_epsilon 为 0.5，则第一个 epoch 有 30% 的机会进行随机投资。假设要执行的 epoch 总数为 100，在第 50 个 epoch，epsilon 变为 0.5×(1-49/99)≈0.49。然后，通过调用代理对象的 reset_exploration() 函数，exploration_base 被重新设置。 explore_base 是随机设置的，值越大，基于购买的探索越多。

9.4 强化学习执行函数（四）

  while True:
                # 创建训练样本
                next_sample = self.build_sample()
                if next_sample is None:
                    break

                # 按 num_steps 存储样本
                q_sample.append(next_sample)
                if len(q_sample) < self.num_steps:
                    continue

调用 build_sample() 函数从环境对象中读取一个样本。如果 next_sample 为 None，则数据已读完，因此 while 循环结束。

num_stepscontinue后面的逻辑被跳过，直到样本队列中的样本满了，因为样本的数量必须准备好来确定动作。

下面是用价值神经网络和策略神经网络计算预测动作值和预测动作概率的一部分。

9.5 强化学习执行函数（五）

              # 价值，策略神经网络预测
                pred_value = None
                pred_policy = None
                if self.value_network is not None:
                    pred_value = self.value_network.predict(
                        list(q_sample))
                if self.policy_network is not None:
                    pred_policy = self.policy_network.predict(
                        list(q_sample))

                # 通过神经网络或探索确定行为
                action, confidence, exploration = \
                    self.agent.decide_action(
                        pred_value, pred_policy, epsilon)

                # 执行你决定的行动并获得即时和延迟奖励
                immediate_reward, delayed_reward = \
                    self.agent.act(action, confidence)

调用每个神经网络对象的函数，predict()得到预测动作值和预测动作概率。动作由以这种方式获得的值和概率决定。

投资行为是由这样得到的预测值和概率决定的。在这里，您在买卖之间做出决定。这种行为决策要么以随机投资比率值的概率随机作出，要么epsilon通过神经网络的输出作出。策略神经网络的输出表示在买卖时增加投资组合价值的概率。也就是说，如果买入的策略神经网络输出高于卖出的输出，则选择买入，反之亦然。如果策略神经网络没有输出，则选择价值神经网络输出较高的动作。价值神经网络的输出是动作的预测值（盈亏比）。

decide_action()该函数返回三个值。它是决策行为，决策action的确定性程度，以及confidence是否存在随机投资exploration。

act()调用代理的函数来执行它已经决定的动作。act()函数执行操作并返回即时和延迟奖励。

下一部分将执行的动作和动作的结果存储在内存中并执行学习。

9.6 强化学习执行函数（六）

               # 记住动作和动作的后果
                self.memory_sample.append(list(q_sample))
                self.memory_action.append(action)
                self.memory_reward.append(immediate_reward)
                if self.value_network is not None:
                    self.memory_value.append(pred_value)
                if self.policy_network is not None:
                    self.memory_policy.append(pred_policy)
                self.memory_pv.append(self.agent.portfolio_value)
                self.memory_num_stocks.append(self.agent.num_stocks)
                if exploration:
                    self.memory_exp_idx.append(self.training_data_idx)

               # 更新迭代信息
                self.batch_size += 1
                self.itr_cnt += 1
                self.exploration_cnt += 1 if exploration else 0

                # 发生延迟补偿时的小批量训练
                if learning and (delayed_reward != 0):
                    self.fit(delayed_reward, discount_factor)

            # epoch 结束后的学习
            if learning:
                self.fit(self.agent.profitloss, discount_factor)

我们将动作和动作结果存储在以memory开头的变量中。这些变量是存储训练数据样本、代理行为、即时奖励、价值神经网络输出、策略神经网络输出、投资组合价值、持有的股票数量和探索头寸的数组。内存变量有两个用途（1）作为训练中的批量训练数据和（2）在可视化器中绘制图表时。

增加批大小batch_size、迭代次数itr_cnt、随机投资次数exploration_cnt。对于exploration_cnt，仅在已探索时增加1，否则添加0 不做任何更改。

当延迟补偿发生时，调用神经网络训练函数 fit()。当发生超过延迟补偿阈值的损益时，将授予延迟补偿。

在 while 块中，它从环境中接收样本并执行一个 epoch。当没有更多样本时退出 while 块。退出 while 块后学习剩余的小批量。在这种情况下，由于大多数情况下没有发生延迟补偿，因此使用代理对象的盈亏比。

这样while，它从块内的环境中接收样本并执行一个 epoch。当没有更多样本时while退出该块。while退出区块后学习剩余的小批量。在这种情况下，大部分延迟补偿都没有发生，所以使用代理对象的盈亏比。

 Python 提示：Python 允许if else将语句写在一行上。例如，让我们编写代码，当x大于0或等于时1递增，0小于时1递减。以通用方式，您可以编写：

   if x >= 0:
    x += 1
else:
    x -= 1

 在 Python 中，您可以像这样在一行中编写此代码：x += 1 if x >= 0 else -1

以下是记录和可视化有关一个 epoch 的信息的部分。

9.7 强化学习执行函数（七）

             #epoch相关的日志信息
            num_epoches_digit = len(str(num_epoches))
            epoch_str = str(epoch + 1).rjust(num_epoches_digit, '0')
            time_end_epoch = time.time()
            elapsed_time_epoch = time_end_epoch - time_start_epoch
            if self.learning_cnt > 0:
                self.loss /= self.learning_cnt
            logging.info("[{}][Epoch {}/{}] Epsilon:{:.4f} "
                "#Expl.:{}/{} #Buy:{} #Sell:{} #Hold:{} "
                "#Stocks:{} PV:{:,.0f} "
                "LC:{} Loss:{:.6f} ET:{:.4f}".format(
                    self.stock_code, epoch_str, num_epoches, epsilon, 
                    self.exploration_cnt, self.itr_cnt,
                    self.agent.num_buy, self.agent.num_sell, 
                    self.agent.num_hold, self.agent.num_stocks, 
                    self.agent.portfolio_value, self.learning_cnt, 
                    self.loss, elapsed_time_epoch))

            # 可视化epoch相关信息
            self.visualize(epoch_str, num_epoches, epsilon)

            # 更新学习相关信息
            max_portfolio_value = max(
                max_portfolio_value, self.agent.portfolio_value)
            if self.agent.portfolio_value > self.agent.initial_balance:
                epoch_win_cnt += 1

一个epoch的日志记录包括股票代码、当前时期编号、该时期的探索率、时期内执行的买入操作数、卖出操作数、等待次数、持有的股票数量、达到的投资组合价值、以及在 epoch 期间执行的小批量学习。包括次数、学习损失和执行 epoch 所用的时间。

检查字符串长度以获取 epoch 总数。如果 epoch 的总数为 1,000，则长度为 4。使用当前的 epoch 数创建一个长度为 num_epoches_digit 的字符串，并将其存储在 epoch_str 中。假设我们正在创建一个 4 位数的字符串，在第一个 epoch 的情况下，由于 epoch 为 0，我们加 1 并在前面填写“0”以形成“0001”。

并且时间 elapsed_time_epoch 是通过从当前时间 time_end_epoch 中减去 time_start_epoch 来保存的。损失变量是该时期执行的小批量的所有学习损失的总和。将损失除以训练次数，并将其更新为小批量的平均训练损失。

Python 提示：rjust()函数是通过位数对字符串进行右对齐的函数。例如，如果"1".rjust(5)您' 1'这样做。前面填4个空格，加1组成一个5位数的字符串。您还可以指定要填充的字符而不是空格作为第二个参数。"1".rjust(5, '0')变成'00001'.
一个类似的函数是一个ljust()函数。此函数填充现有字符串前面的空格或特定字符。这种填充在现有字符之前或之后称为填充。
Python 提示：在 Python 字符串format()函数中，您可以通过在关键字名称前加上冒号 (:) 来指定格式选项。{:,.0f}表示千位加逗号（,），不显示小数点。

使用可视化对象，将时代信息可视化为图片并将其保存为文件。为此，我们调用了可视化（）函数。

现在更新学习相关信息。在执行一个时期时，如果投资组合价值高于该时期的权益，则更新最大投资组合价值并增加 epoch_win_cnt。

这是对应于语句块的 epoch 迭代的部分。以下代码段显示了在所有 epoch 执行后强化学习执行功能的剩余逻辑。

9.8 强化学习执行函数（8）

       # 结束时间
        time_end = time.time()
        elapsed_time = time_end - time_start

        # # 记录学习相关信息
        with self.lock:
            logging.info("[{code}] Elapsed Time:{elapsed_time:.4f} "
                "Max PV:{max_pv:,.0f} #Win:{cnt_win}".format(
                code=self.stock_code, elapsed_time=elapsed_time, 
                max_pv=max_portfolio_value, cnt_win=epoch_win_cnt))

执行所有 epoch 并记录执行所有 epoch 所需的时间。然后，它记录总前置时间、最大投资组合价值以及投资组合价值高于股本的时期数。

以下函数保存训练好的神经网络模型。

ReinforcementLearner 类：神经网络模型存储功能

 def save_models(self):
        if self.value_network is not None and \
                self.value_network_path is not None:
            self.value_network.save_model(self.value_network_path)
        if self.policy_network is not None and \
                self.policy_network_path is not None:
            self.policy_network.save_model(self.policy_network_path)

如果存在价值神经网络，则检查价值神经网络模型文件路径save_model()并调用神经网络类中的函数。同样，如果存在学习的策略神经网络，则将其保存到文件中。

10.DQN强化学习类

DQN 是一种仅使用价值神经网络的强化学习方法。下面展示了 DQNLearner 类的构造函数和生成批量训练数据的函数。

示例 DQNLearner 类

class DQNLearner(ReinforcementLearner):
    def __init__(self, *args, value_network_path=None, **kwargs):
        super().__init__(*args, **kwargs)
        self.value_network_path = value_network_path
        self.init_value_network()

    def get_batch(self, batch_size, delayed_reward, discount_factor):
        memory = zip(
            reversed(self.memory_sample[-batch_size:]),
            reversed(self.memory_action[-batch_size:]),
            reversed(self.memory_value[-batch_size:]),
            reversed(self.memory_reward[-batch_size:]),
        )
        x = np.zeros((batch_size, self.num_steps, self.num_features))
        y_value = np.zeros((batch_size, self.agent.NUM_ACTIONS))
        value_max_next = 0
        reward_next = self.memory_reward[-1]
        for i, (sample, action, value, reward) in enumerate(memory):
            x[i] = sample
            y_value[i] = value
            r = (delayed_reward + reward_next - reward * 2) * 100
            y_value[i, action] = r + discount_factor * value_max_next
            value_max_next = value.max()
            reward_next = reward
        return x, y_value, None

在 DQNLearner 的构造函数中，我们将 value_network_path 保存为一个属性，并调用 init_value_network() 函数来创建值神经网络。 DQNLearner 继承自 ReinforcementLearner 类，因此它具有 ReinforcementLearner 的所有属性和功能。任何扩展 ReinforcementLearner 的类都必须实现 get_batch() 函数，它是 Reinforcement-Learner 类的抽象方法。

在 DQNLearner 的 get_batch() 函数中，我们首先捆绑内存数组。此时，内存阵列是反向绑定的。并准备一个样本数组 x 和一个标签数组 y_value。该数组用全零填充。

Python 提示：您可以在 Python 中反转列表。以下是反转列表的三种方法。列表变量的 reverse() 函数、
reversed() 内置函数和 [::-1] 切片技巧可用于反转列表的元素。当有一个名为 lst 的列表变量时，它可以像
lst.reverse()、reversed(lst)、lst[::-1] 一样使用。请注意， lst.reverse() 反转 lst
变量本身。也就是说， reverse() 函数就地更改值。 reversed() 内置函数返回一个 lst 反转的新列表。
lst[::-1] 切片技巧也返回一个新列表。 Python 提示：NumPy 的 zeros()
函数将数组的形状作为参数。返回填充了零的此形状的数组。例如， zeros(3, 1) 返回 [0, 0, 0]， zeros((2, 2))
返回 [ [0, 0], [0, 0] ]。请注意，在多维数组的情况下，类型必须作为元组传递。

现在用 for 语句为样本数组和标签数组填充值。因为python列表是向后取的，所以 for 语句从批量训练数据的最后一部分开始。首先，我们将样本填入 x[i]，并将值神经网络的输出放入 y_value[i]。

在变量 r 中，我们得到用于训练的奖励并将其存储。其中delayed_reward 是批处理数据中的延迟奖励，reward 是执行行为获得得奖励。最终奖励和当前奖励相减，执行下一个动作时的盈亏百分比和执行当前动作时的盈亏百分比相加。

然后，将贴现率应用于下一个状态的最大值，并添加 r。应用这个值作为状态动作值来学习。下一个状态的最大值存储在变量 value_max_next 中。并将下一个动作时的盈亏比存储在 next_reward 变量中。

Python 提示：NumPy 数组具有基本的统计函数，如 min()、max()、mean() 等。你可以像
np_array.min()、np_array.max()、np_array.mean() 一样使用它。

get_batch() 函数最终返回一个样本数组、一个值神经网络训练标签数组和一个策略神经网络训练标签数组。在 DQNLearner 的情况下，策略神经网络训练标签数组部分被视为无，因为它不使用策略神经网络。

可以修改 get_batch() 函数，以其他方式生成批量训练数据

11.策略梯度强化学习类

策略梯度强化学习是一种仅使用策略神经网络进行强化学习的方法。下面展示了用于策略梯度强化学习的 PolicyGradientLearner 类。

PolicyGradientLearner 类

class PolicyGradientLearner(ReinforcementLearner):
    def __init__(self, *args, policy_network_path=None, **kwargs):
        super().__init__(*args, **kwargs)
        self.policy_network_path = policy_network_path
        self.init_policy_network()

    def get_batch(self, batch_size, delayed_reward, discount_factor):
        memory = zip(
            reversed(self.memory_sample[-batch_size:]),
            reversed(self.memory_action[-batch_size:]),
            reversed(self.memory_policy[-batch_size:]),
            reversed(self.memory_reward[-batch_size:]),
        )
        x = np.zeros((batch_size, self.num_steps, self.num_features))
        y_policy = np.full((batch_size, self.agent.NUM_ACTIONS), .5)
        reward_next = self.memory_reward[-1]
        for i, (sample, action, policy, reward) in enumerate(memory):
            x[i] = sample
            y_policy[i] = policy
            r = (delayed_reward + reward_next - reward * 2) * 100
            y_policy[i, action] = sigmoid(r)
            reward_next = reward
        return x, None, y_policy

x是一组学习数据和Agent状态的示例数组。y_policy是学习策略神经网络的标签。x阵列的形状由布局数据大小和学习数据特征大小的二维组成。y_policy数组的形状由批处理数据大小和策略神经网络确定的代理行为的数量组成。y_policy以0.5的形式进行填充。

Python提示：Numpy的full（）函数返回Numpy数组，该数组以第一个参数的形式显示，并以第二个参数的输入值填充。例如，full（3,1）返回[1,1,1,1]，full（2,2），0.5）返回[0.5,0.5]，[0.5,0.5]。

批处理数据的大小由延迟补偿决定，因此每次都不同，学习数据特征的大小和代理行为的数量固定为28和2。当然，如果改变了学习数据的特征，并增加了预测概率的行为，那么这个数字就会改变。

为x[i]指定特征向量，并将策略神经网络的输出放入y_policy[i]。这里和DQNLearner一样寻求奖励。为此值取sigmoid函数作为策略神经网络学习标签。

由于在策略倾斜强化学习中没有价值神经网络，PolicyGradient Learner的get_batch（）函数将第二个返回值为None。

12.Actor-Critic 强化学习类

A2C（优势演员-评论家）强化学习与演员-评论家强化学习非常相似。但是，在训练策略神经网络时，我们使用 Advantage 而不是按原样使用价值神经网络的值。示例 5.58 显示了 A2CLearner 类。

A2C学习类

class A2CLearner(ActorCriticLearner):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def get_batch(self, batch_size, delayed_reward, discount_factor):
        memory = zip(
            reversed(self.memory_sample[-batch_size:]),
            reversed(self.memory_action[-batch_size:]),
            reversed(self.memory_value[-batch_size:]),
            reversed(self.memory_policy[-batch_size:]),
            reversed(self.memory_reward[-batch_size:]),
        )
        x = np.zeros((batch_size, self.num_steps, self.num_features))
        y_value = np.zeros((batch_size, self.agent.NUM_ACTIONS))
        y_policy = np.full((batch_size, self.agent.NUM_ACTIONS), .5)
        value_max_next = 0
        reward_next = self.memory_reward[-1]
        for i, (sample, action, value, policy, reward) \
            in enumerate(memory):
            x[i] = sample
            r = (delayed_reward + reward_next - reward * 2) * 100
            y_value[i, action] = r + discount_factor * value_max_next
            advantage = value[action] - value.mean()
            y_policy[i, action] = sigmoid(advantage)
            value_max_next = value.max()
            reward_next = reward
        return x, y_value, y_policy

A2CLearner 类扩展了 ActorCriticLearner 类。因此，A2CLearner类的构造函数除了调用父类的构造函数外，没有任何作用。

A2CLearner 类中的一个函数get_batch()使用 Advantage 训练一个策略神经网络。优势是状态-动作值减去状态值。优势是在给定状态下一个动作比另一个动作更有价值多少。这里，对价值神经网络的预测状态-动作值进行平均，作为状态值。将获得的优势应用于 sigmoid 函数并用作策略神经网络的训练标签。

13.A3C强化学习类

A3C（异步优势actor-critic）是一种并行执行A2C强化学习的强化学习方法。A3C 还使用价值神经网络和策略神经网络。下面展示了用于 A3C 强化学习的 A3CLearner 类的构造函数。

A3CLearner 类：构造函数

class A3CLearner(ReinforcementLearner):
    def __init__(self, *args, list_stock_code=None, 
        list_chart_data=None, list_training_data=None,
        list_min_trading_unit=None, list_max_trading_unit=None, 
        value_network_path=None, policy_network_path=None,
        **kwargs):
        assert len(list_training_data) > 0
        super().__init__(*args, **kwargs)
        self.num_features += list_training_data[0].shape[1]

        #创建共享神经网络
        self.shared_network = Network.get_shared_network(
            net=self.net, num_steps=self.num_steps, 
            input_dim=self.num_features)
        self.value_network_path = value_network_path
        self.policy_network_path = policy_network_path
        if self.value_network is None:
            self.init_value_network(shared_network=self.shared_network)
        if self.policy_network is None:
            self.init_policy_network(shared_network=self.shared_network)

       #创建A2CLearner
        self.learners = []
        for (stock_code, chart_data, training_data, 
            min_trading_unit, max_trading_unit) in zip(
                list_stock_code, list_chart_data, list_training_data,
                list_min_trading_unit, list_max_trading_unit
            ):
            learner = A2CLearner(*args, 
                stock_code=stock_code, chart_data=chart_data, 
                training_data=training_data,
                min_trading_unit=min_trading_unit, 
                max_trading_unit=max_trading_unit, 
                shared_network=self.shared_network,
                value_network=self.value_network,
                policy_network=self.policy_network, **kwargs)
            self.learners.append(learner)

A3CLearner 类扩展了 ReinforcementLearner 类。构造函数的参数接受股票代码作为列表、图表数据、训练数据以及最小和最大投资单位进行训练，这与我们之前看到的 A2C 不同。创建与这些列表大小相等的 A2CLearner 类的对象。learners将创建的 A2CLearner 类对象保存在列表中。每个 A2CLearner 类对象共享一个价值神经网络和一个策略神经网络。

下面展示了A3CLearner类的强化学习性能函数。

A3CLearner 类：并行强化学习函数

def run(
        self, num_epoches=100, balance=10000000,
        discount_factor=0.9, start_epsilon=0.9, learning=True):
        threads = []
        for learner in self.learners:
            threads.append(threading.Thread(
                target=learner.fit, daemon=True, kwargs={
                'num_epoches': num_epoches, 'balance': balance,
                'discount_factor': discount_factor, 
                'start_epsilon': start_epsilon,
                'learning': learning
            }))
        for thread in threads:
            thread.start()
            time.sleep(1)
        for thread in threads: thread.join()

A3C 同时并行执行 A2C。共享价值神经网络和策略神经网络，同时训练它们。一个 A2CLearner 类对象探索单一的股票市场环境，并朝着增加盈亏比的方向训练价值神经网络和策略神经网络。

A3CLearnerrun()类的功能使用线程同时执行run()每个 A2CLearner 类对象的功能。等到所有A2C强化学习完成，最后完成A3C强化学习。

Python 提示：要在 Python 中使用线程，请使用threading模块的 Thread 类。Thread
类接收要执行的函数作为target参数。要传递给此目标函数的参数可以args用
和参数指定。将可变数量的参数作为元组传递。以字典的形式传递关键字参数。kwargsargskwargs Python
提示：daemon您可以指定是否成为守护线程作为 Thread 类的参数。守护线程是在主线程退出时终止的线程

博主创作不易，无论是找资料还是写代码都是需要花费时间和精力的，茫茫人海，如果你看到了我的博客，觉得写的还行的话，希望能赞同、收藏、喜欢支持一下，让我更有创作的动力！有什么建议或者问题，评论区见！

你可能感兴趣的:(量化投资之强化学习,人工智能,深度学习,强化学习,量化投资,算法)

AES加密解密CBC模式与ECB模式_aes cbc加解密全栈_XzJ python 开发语言
一、概要AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于信息安全领域。AES支持多种密钥长度，包括128比特、192比特和256比特。在AES加密和解密中，同一个密钥用于两个过程。下面是一个简单的Python实例，演示如何使用AES加密和解密文本。这里使用的是Python标准库中的cryptography模块，确保你已经安装该模块：pipinstallc
贪心算法（11）（java）加油站奋进的小暄算法贪心算法算法
题目：在一条环路上有n个加油站，其中第i个加油站有汽油gas[i]升.。你有一辆油箱容量无限的的汽车，从第i个加油站开往第i+1个加油站需要消耗汽油cost[i]升。你从其中的一个加油站出发，开始时油箱为空。给定两个整数数组gas和cost,如果你可以按顺而环招行驶一周，则返回出发时加油站的编号，否则返回-1。如果存在解,则保证它是唯一的.示例1:输入:gas=[1,2,3,4,5]，cost=[
Java 程序员必读书单 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 Java实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Java是一门高级、新兴的静态面向对象编程语言，在互联网、移动互联网、大数据、云计算、人工智能、物联网等领域都有广泛应用。作为Java程序员的你是否也经常被面试官或者HR问到有关Java的知识点呢？如果你最近在准备面试或阅读相关技术文档，则本文正是适合你。在本文中，我将给你一些你可能不知道的关于Java的重要概念和知识，并通过具体的代码示例和图表来帮助你理解这些
大模型微调方法之Delta-tuning 空白II 大语言模型论文解读微调方法介绍微调方法 delta-tuning 论文解读大语言模型
大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing,
3.22 codeforces小结 Brokenrivers 总结随记 Codeforces 算法竞赛编译错误签到题实战经验
说来好笑，也算接触小半年算法了，这次算是第一次"正式"的打cf。之前因为一些原因比较倾向于找个空闲时间上oj上刷题，虽然知道cf对一个搞算法竞赛的人的重要性，但是一直没去蹲点打比赛（我觉得就是我们宿舍这破网上个cf要转两分钟圈圈还经常崩的原因），最多会在比赛结束找比赛题目的文档练习。这次因为组队了，希望能和队友实时交流，手机开了梯子热点打完了这次的cf。感觉就是，自己像个傻子一样，提交代码的语言选
一文彻底搞清楚HarmonyOS NEXT的元服务 harmonyos-next
程序员Feri一名12年+的程序员,做过开发带过团队创过业,擅长Java、嵌入式、鸿蒙、人工智能等,专注于程序员成长那点儿事,希望在成长的路上有你相伴！君志所向,一往无前！1.什么是元服务在万物互联时代，人均持有设备量不断攀升，设备种类和使用场景更加多样，使得应用开发、应用入口变得更加复杂。在此背景下，应用提供方和用户迫切需要一种新的服务提供方式，使应用开发更简单、服务（如听音乐、打车等）的获取和
蓝桥杯算法实战：技巧、策略与进阶之路竣雄蓝桥杯算法职场和发展
摘要蓝桥杯作为国内颇具影响力的程序设计竞赛，对提升大学生算法思维与编程能力意义重大。本文深入剖析蓝桥杯算法竞赛，结合历年真题总结核心考点与典型题型，分享实用解题技巧与备考策略，并探讨算法优化与进阶方向。通过系统学习与实践，助力参赛者提升算法水平，在竞赛中取得优异成绩。关键词蓝桥杯；算法竞赛；解题技巧；备考策略；算法优化一、引言蓝桥杯全国软件和信息技术专业人才大赛旨在选拔优秀的软件和信息技术人才，推
算法小分队-刷题2 「已注销」 c++
注：代码周日刷完一块交3.20小鱼的游泳时间(1425)模拟竖式运算，注意借位问题3.21小鱼比可爱(1428)简单的循环比较大小3.22小玉在游泳(1420)注意数据的处理，浮点还是整数3.23手机(1765)只会简单的条件循环判断然后累加3.24轰炸III(1830)调错：轰炸的次序处理
从阅读空间到知识孵化器，AI时代智慧图书馆何为？技能咖生成式人工智能认证 GAI认证人工智能
在人工智能（AI）浪潮席卷全球的当下，图书馆作为知识传播与文化传承的重要场所，正面临着前所未有的变革。从传统的阅读空间到如今的知识孵化器，智慧图书馆在AI时代肩负着新的使命与挑战。本文将探讨智慧图书馆在AI时代的发展方向，并引入生成式人工智能认证（GAI）认证，为图书馆从业者的技能提升提供新思路。AI时代智慧图书馆的新角色知识资源整合与挖掘者在AI时代，信息爆炸式增长，图书馆不再仅仅是纸质书籍的收
基于人工智能的扫阅卷和数据分析服务需求文档 YiWait 人工智能人工智能数据分析数据挖掘
基于人工智能的扫阅卷和数据分析服务需求文档一、项目背景在教育领域，传统的人工阅卷方式效率低下、主观性强且易出错，难以满足大规模考试及频繁测评的需求。随着人工智能技术的飞速发展，基于人工智能的扫阅卷和数据分析服务应运而生。该服务利用先进的图像识别、自然语言处理等技术，实现试卷扫描、自动阅卷、成绩统计以及深度数据分析，为教育机构、学校提供高效、准确、全面的测评解决方案，助力教学质量提升和教育决策优化。
Java实现生日悖论的算法，计算至少有两个人生日相同的概率 YiWait java 算法
importjava.util.Random;publicclassBirthdayParadox{publicstaticvoidmain(String[]args){intn=23;//邀请的人数inttrials=1000000;//实验次数intcount=0;//至少有两个人生日相同的实验次数Randomrand=newRandom();for(inti=0;i
算法竞赛备赛——【数论】高精度 Aurora_wmroy 算法竞赛备赛算法 c++数据结构蓝桥杯
高精度高精度计算，也被称作大整数计算，运用了一些算法结构来支持更大整数间的运算（数字大小超过语言内建整型）。加法P1601A+BProblem（高精）-洛谷#includeusingnamespacestd;constintN=10100;inta[N],b[N],c[N];intinit(intx[]){//读入数返回位数strings;cin>>s;intl=s.size();for(inti
算法竞赛备赛——【数据结构】链表 Aurora_wmroy 算法竞赛备赛数据结构算法链表 c++蓝桥杯
链表原地逆置206.反转链表-力扣（LeetCode）classSolution{public:ListNode*reverseList(ListNode*head){//链表无头节点原地逆置ListNode*pre=head;ListNode*cur=NULL;ListNode*t=NULL;//t=head->next若head指向空链表会报错非法访问其他空间while(pre!=NULL){
吊打面试官之 HTTP 协议的前世今生 ~Maple~ 计算机网络 http 网络协议网络
1、HTTP的基本概念HTTP是超文本传输协议（HyperTextTransferProtocol），下面具体解释一下：协议：HTTP是一个用在计算机世界里的协议，它使用计算机能够理解的语言确立了一种计算机之间交流通信的方式（两个及以上的参与者），以及相关的各种控制和错误处理方式（行为约定和规范）。传输：HTTP是一个双向协议，比如A浏览器访问B服务器，使用HTTP协议来通信，数据就在A和B之间传
AI程序员大逃杀：从“码农”到“魔法师”的奇幻漂流 ——揭秘人工智能如何重塑程序员工作流 lifire_H 人工智能
当程序员遇上AI，是“饭碗不保”还是“原地飞升”？这场代码界的工业革命，正在让每个程序员经历从“流水线工人”到“科技魔法师”的奇幻蜕变。一、效率革命：当键盘遇上“读心术”1.需求分析：从“鸡同鸭讲”到“灵魂共鸣”还记得那些年被客户需求文档支配的恐惧吗？甲方爸爸一句“我想要五彩斑斓的黑”，就能让产品经理和程序员集体崩溃。现在，AI就像个自带翻译机的“需求捕手”——把客户支离破碎的诉求往WPSAI里一
啸叫抑制（AFS）从算法仿真到工程源码实现-第一节-效果演示 aflyingwolf_pomelo 语音信号处理算法人工智能
一、概述啸叫抑制算法也叫声反馈抑制，本专题我们讨论啸叫抑制算法的平台搭建，算法仿真和设备端的工程落地实现。完整记录一个扩声系统的搭建。更多资料和代码可以进入https://t.zsxq.com/qgmoN，同时欢迎大家提出宝贵的建议，以共同探讨学习。二、啸叫抑制算法视频演示啸叫抑制算法演示视频三、语谱图3.1产生啸叫效果3.2去啸叫后的效果四、总结这一节我们主要记录了啸叫抑制（去啸叫）算法的效果演
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅步子哥 AGI通用人工智能语言模型人工智能自然语言处理
在浩如烟海的人工智能技术中，构建和调教大语言模型（LLMs）的过程就像是一场精心策划的奇幻冒险。本文带您走进一个鲜为人知的领域——如何利用“量身定制”的数据，让模型在知识的海洋中游刃有余。我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》，探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调（SFT）的效果，以及这一方法如何
MySQL 奇幻之旅：从基础探秘到高级应用魔法进阶的华夫饼进大厂 mysql 数据库
MySQL奇幻之旅：从基础探秘到高级应用魔法在数据库的神秘世界里，MySQL宛如一座蕴藏无尽宝藏的城堡，我怀揣着探索的热情与求知的渴望，踏上了这趟扣人心弦的学习征程。一、MySQL基础：城堡基石的雕琢（一）数据库与表的操作：构建数据的栖息之所数据库创建与管理：绘制数据城堡的蓝图：犹如精心绘制城堡的设计图，我熟练掌握了使用CREATEDATABASE语句创建数据库的魔法咒语，像CREATEDATAB
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
基于推理的强化学习智能体设计与开发由数入道人工智能人工智能多智能体强化学习知识推理
1.理论基础与核心概念1.1推理强化学习（Reasoning-EnhancedRL）定义核心思想：在传统强化学习的马尔可夫决策过程（MDP）基础上，引入符号推理、因果推断和知识引导机制，解决复杂环境中的长程依赖和稀疏奖励问题。数学建模：扩展MDP为R-MDP：⟨S,A,P
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
小米新款智能眼镜今日发布；苹果CEO库克来访中国，盛赞DeepSeek | 极客头条 CSDN资讯 AI
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！小米米家智能眼镜新品今日发布，号称“精细之镜”宇树科技王兴兴谈家用人形机器人何时上市：近两三年实现不了网传商汤联创徐冰或离职，公司回应：目前未收到辞呈何小鹏：预计2025年下半年会实现L3级别全场景自动驾驶
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不