Adam坤

使用Python中的OpenAI Gym进行深度Q-Learning的实践介绍

Introduction

我一直对游戏着迷。看似无限的选择可以在紧迫的时间线下执行一个动作 - 这是一个惊心动魄的经历。没有什么比得上它了。

因此，当我读到DeepMind想出的令人难以置信的算法（如AlphaGo和AlphaStar）时，我被迷住了。我想学习如何在自己的机器上制作这些系统。这使我进入深度强化学习的世界（Deep RL）。

即使您不参与游戏，Deep RL也很重要。只需查看目前使用Deep RL进行研究的各种功能：

适合行业的应用程序呢？好吧，这里有两个最常被引用的Deep RL用例：

谷歌的Cloud AutoML
Facebook的Horizon Platform

Deep RL的范围是IMMENSE。这是进入这一领域并从中创造事业的好时机。

在本文中，我的目标是帮助您迈出深度强化学习的第一步。我们将使用RL中最流行的算法之一深度Q学习来了解RL的深度。锦上添花？我们将使用Python在一个很棒的案例研究中实现我们所有的学习。

The Road to Q-Learning
Why ‘Deep’ Q-Learning?
Introduction to Deep Q-Learning
Challenges of Deep Reinforcement Learning as compared to Deep Learning
- Experience Replay
- Target Network
Implementing Deep Q-Learning in Python using Keras & Gym

The Road to Q-Learning

在深入深层强化学习的深度之前，你应该注意一些概念。别担心，我已经帮你了。

我之前写过关于强化学习的各种文章的各种文章，介绍了多臂强盗，动态规划，蒙特卡罗学习和时间差分等概念。我建议按以下顺序浏览这些指南：

Nuts & Bolts of Reinforcement Learning: Model-Based Planning using Dynamic Programming
Reinforcement Learning Guide: Solving the Multi-Armed Bandit Problem from Scratch in Python
Reinforcement Learning: Introduction to Monte Carlo Learning using the OpenAI Gym Toolkit
Introduction to Monte Carlo Tree Search: The Game-Changing Algorithm behind DeepMind’s AlphaGo
Nuts and Bolts of Reinforcement Learning: Introduction to Temporal Difference (TD) Learning

这些文章足以从一开始就详细了解基本RL。

但请注意，上面链接的文章绝不是读者理解Deep Q-Learning的先决条件。在探索什么是深度Q-Learning及其实现细节之前，我们将快速回顾一下基本的RL概念。

RL Agent-Environment

强化学习任务是培训与其环境相互作用的代理。代理通过执行操作到达称为状态的不同场景。行动导致奖励可能是积极的和消极的。

代理人在这里只有一个目的 - 在一集中最大化其总奖励。此剧集是环境中第一个州与最后一个或终端州之间发生的任何事情。我们强化代理人以学习通过经验来执行最佳操作。这是战略或政策。

让我们举一个极受欢迎的PubG游戏的例子：

士兵是这里与环境互动的代理人
状态正是我们在屏幕上看到的
一集是一个完整的游戏
动作是前进，后退，左，右，跳，鸭，射击等。
奖励是根据这些行动的结果确定的。如果士兵能够杀死敌人，那么在被敌人射击时需要积极的奖励是负面的奖励

现在，为了杀死敌人或获得积极的奖励，需要采取一系列行动。这就是延迟或延期奖励的概念发挥作用的地方。 RL的关键是学习如何执行这些序列并最大化奖励。

Markov Decision Process (MDP)

需要注意的重要一点 - 环境中的每个状态都是其先前状态的结果，而状态又是其先前状态的结果。但是，即使对于短剧集的环境，存储所有这些信息也将变得不可行。

为了解决这个问题，我们假设每个状态都遵循Markov属性，即每个状态仅取决于先前的状态以及从该状态到当前状态的转换。看看下面的迷宫，以更好地理解这是如何工作的直觉：

现在，有2个场景有2个不同的起点，并且代理遍历不同的路径以达到相同的倒数第二个状态。现在，代理到达红色状态的路径无关紧要。退出迷宫并到达最后状态的下一步是向右走。显然，我们只需要关于红色/倒数第二个状态的信息来找出下一个最佳动作，这正是马尔可夫属性所暗示的。

Q Learning

假设我们知道每个步骤的每个动作的预期奖励。这基本上就像是代理人的备忘单！我们的代理人将确切知道要执行的操作。

它将执行最终将产生最大总奖励的一系列动作。这个总奖励也被称为Q值，我们将我们的战略正式化为：

上述等式表明，处于状态s并且执行动作a的Q值是立即奖励r（s，a）加上可能来自下一状态s’的最高Q值。这里的Gamma是折扣因素，它可以在未来进一步控制奖励的贡献。

Q（s’，a）再次取决于Q（s“，a），其将具有伽马平方的系数。因此，Q值取决于未来状态的Q值，如下所示：

调整伽玛值将减少或增加未来奖励的贡献。

由于这是一个递归方程，我们可以从对所有q值进行任意假设开始。凭借经验，它将汇聚到最优政策。在实际情况中，这是作为更新实现的：

其中alpha是学习率或步长。这简单地确定了新获取的信息在多大程度上覆盖了旧信息。

##为什么’深入’Q-Learning？
Q-learning是一种简单但功能强大的算法，可以为我们的代理创建备忘单。这有助于代理确切地确定要执行的操作。

但如果这个备忘单太长了怎么办？想象一下，每个州拥有10,000个州和1,000个行动的环境。这将创建一个包含1000万个单元格的表。事情很快就会失控！

很明显，我们无法从已经探索过的状态推断新状态的Q值。这提出了两个问题：

首先，保存和更新该表所需的内存量会随着状态数量的增加而增加
其次，探索每个州创建所需Q表所需的时间是不现实的

这是一个想法 - 如果我们用机器学习模型（如神经网络）来近似这些Q值怎么办？嗯，这是DeepMind算法背后的想法，导致谷歌以5亿美元收购它！

Deep Q-Networks

在深度Q学习中，我们使用神经网络来近似Q值函数。给出状态作为输入，并且生成所有可能动作的Q值作为输出。 Q学习和深度Q学习之间的比较如下所示：

那么，使用深度Q学习网络（DQN）进行强化学习的步骤是什么？

所有过去的经验都由用户存储在内存中
下一个操作由Q网络的最大输出决定
这里的损失函数是预测的Q值和目标Q值 - Q *的均方误差。这基本上是回归问题。但是，由于我们正在处理强化学习问题，因此我们不知道目标或实际值。回到从Bellman方程导出的Q值更新方程。我们有：

绿色部分代表目标。我们可以争辩说它正在预测它自己的价值，但由于R是无偏见的真实奖励，网络将使用反向传播更新其梯度以最终收敛。

深度学习与深度学习相比的挑战

到目前为止，这一切看起来都很棒。我们了解神经网络如何帮助代理人学习最佳行动。然而，当我们将深度RL与深度学习（DL）进行比较时，存在挑战：

非静止或不稳定目标：让我们回到伪代码进行深度Q学习：

正如您在上面的代码中看到的那样，目标随着每次迭代而不断变化。在深度学习中，目标变量不会改变，因此训练是稳定的，这对于RL来说是不正确的。

总而言之，我们通常依靠强化学习中的政策或价值函数来抽样行动。然而，随着我们不断学习探索什么，这种情况经常发生变化。当我们玩游戏时，我们会更多地了解状态和动作的基本真值，因此输出也在变化。

因此，我们尝试学习映射以不断变化的输入和输出。但那么解决方案是什么？

1目标网络

由于同一网络正在计算预测值和目标值，因此这两者之间可能存在很多分歧。因此，我们可以使用两个来代替使用1one神经网络进行学习。

我们可以使用单独的网络来估计目标。该目标网络具有与函数逼近器相同的架构，但具有冻结参数。对于每个C迭代（超参数），来自预测网络的参数被复制到目标网络。这导致更稳定的训练，因为它保持目标函数固定（一段时间）：

2. Experience Replay

To perform experience replay, we store the agent’s experiences – ??=(??,??,??,??+1)

上述陈述是什么意思？系统不会在模拟或实际体验期间对状态/动作对进行Q-learning，而是将[state，action，reward，next_state]发现的数据存储在一个大表中。

让我们用一个例子来理解这一点。

假设我们正在尝试构建一个视频游戏机器人，其中游戏的每个帧代表不同的状态。在训练期间，我们可以从最后100,000帧中随机抽取64帧来训练我们的网络。这将使我们成为一个子集，其中样本之间的相关性较低，并且还将提供更好的采样效率。

Putting it all Together

到目前为止我们学到了什么概念？它们共同构成了深度Q学习算法，用于在Atari游戏中实现人类级别的性能（仅使用游戏的视频帧）。

我在下面列出了深度Q网络（DQN）中涉及的步骤：

预处理并将游戏屏幕（状态s）提供给我们的DQN，这将返回该州所有可能操作的Q值
使用epsilon-greedy策略选择一个操作。利用概率epsilon，我们选择随机动作a并且概率为1-epsilon，我们选择具有最大Q值的动作，例如a = argmax（Q（s，a，w））
在状态s中执行此操作并移至新状态s’以获得奖励。该状态s’是下一个游戏屏幕的预处理图像。我们将这个转换作为存储在我们的重放缓冲区中
接下来，从重放缓冲区中对一些随机批次的转换进行采样并计算损失
众所周知：

这只是目标Q和预测Q之间的平方差

根据我们的实际网络参数执行梯度下降，以最大限度地减少这种损失
在每次C迭代之后，将我们的实际网络权重复制到目标网络权重
对M个剧集重复这些步骤

Implementing Deep Q-Learning in Python using Keras & OpenAI Gym

好吧，所以我们对深度Q学习的理论方面有了扎实的把握。现在看到它在行动怎么样？那是对的 - 让我们开启我们的Python笔记本！

我们将制作一款可以玩CartPole游戏的代理商。我们也可以使用Atari游戏，但培训代理人需要一段时间（从几个小时到一天）。我们的方法背后的想法将保持不变，因此您可以在您的机器上的Atari游戏上尝试此操作。

CartPole是OpenAI健身房（游戏模拟器）中最简单的环境之一。正如您在上面的动画中所看到的，CartPole的目标是平衡与移动车顶部的一个关节连接的杆。

代替像素信息，由状态给出的信息有四种（例如杆的角度和推车的位置）。代理可以通过执行0或1的一系列操作来移动购物车，向左或向右推动购物车。

我们将在这里使用keras-rl库，这样我们就可以实现深入的Q-learning。

Step 1: Install keras-rl library

从终端，运行以下代码块：

git clone https://github.com/matthiasplappert/keras-rl.git
cd keras-rl
python setup.py install

Step 2: Install dependencies for the CartPole environment

假设您已安装pip，则需要安装以下库：

pip install h5py
pip install gym

Step 3: Let’s get started!

首先，我们必须导入必要的模块：

import numpy as np
import gym

from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.optimizers import Adam

from rl.agents.dqn import DQNAgent
from rl.policy import EpsGreedyQPolicy
from rl.memory import SequentialMemory

然后，设置相关变量：

ENV_NAME = 'CartPole-v0'

# Get the environment and extract the number of actions available in the Cartpole problem
env = gym.make(ENV_NAME)
np.random.seed(123)
env.seed(123)
nb_actions = env.action_space.n

接下来，我们将构建一个非常简单的单隐层神经网络模型：

model = Sequential()
model.add(Flatten(input_shape=(1,) + env.observation_space.shape))
model.add(Dense(16))
model.add(Activation('relu'))
model.add(Dense(nb_actions))
model.add(Activation('linear'))
print(model.summary())

现在，配置并编译我们的代理。我们将策略设置为Epsilon Greedy，将我们的记忆设置为顺序记忆，因为我们希望存储我们执行的操作的结果以及我们为每个操作获得的奖励。

policy = EpsGreedyQPolicy()
memory = SequentialMemory(limit=50000, window_length=1)
dqn = DQNAgent(model=model, nb_actions=nb_actions, memory=memory, nb_steps_warmup=10,
target_model_update=1e-2, policy=policy)
dqn.compile(Adam(lr=1e-3), metrics=['mae'])

# Okay, now it's time to learn something! We visualize the training here for show, but this slows down training quite a lot. 
dqn.fit(env, nb_steps=5000, visualize=True, verbose=2)

测试我们的强化学习模型：

dqn.test(env, nb_episodes=5, visualize=True)

这将是我们模型的输出：

不错！恭喜您建立了您的第一个深度Q学习模型。?

End Notes

OpenAI健身房提供了几个融合Atari游戏DQN的环境。那些使用计算机视觉问题的人可能直观地理解这一点，因为这些是每个时间步的游戏的直接帧，该模型包括基于卷积神经网络的架构。

还有一些更先进的Deep RL技术，例如Double DQN Networks，Dueling DQN和Prioritized Experience重播，可以进一步改善学习过程。这些技术使用更少数量的剧集为我们提供更好的分数。我将在以后的文章中介绍这些概念。

我鼓励您在CartPole以外的至少一个环境中尝试DQN算法来练习并了解如何调整模型以获得最佳结果。

简单线性插值去马赛克算法的Python实现大DA_辉 ISP图像处理_python python 计算机视觉人工智能
在图像处理领域中，去马赛克（Demosaicing）是一项关键技术，用于从单色彩滤波阵列（CFA）图像恢复全彩图像。本文将介绍一种简单的线性插值去马赛克算法，并将其从MATLAB代码转换为Python代码。最终结果将展示如何从Bayer格式的图像数据恢复出RGB全彩图像。什么是马赛克图像？马赛克图像是一种通过在传感器上覆盖彩色滤光片阵列（CFA）生成的单通道图像。最常见的CFA模式是Bayer模式
OpenStack的G版Keystone对象模型 ztejiagn OpenStack
Users：表示API的一个特定使用者，属于一个指定的domain。可以赋予user权限(role)，每一个user-domain或user-project都可以有一组权限。Groups：表示一组拥有某权限的用户，属于一个指定的domain。可以赋予group特定的role，此时group内的user都自动具备该role表示的权限。Credentials：与user关联的认证凭据。一个user可能
numpy1.19.4与python3.9版本冲突解决 weixin_47154407
numpy1.19.4与python3.9版本冲突解决一、问题分析runtimeError:packagefailstopassasanitycheck解决方法如下：解决一：使用python3.9和numpy1.19.4时会发生此错误，卸载numpy1.19.4并安装1.19.3,即可解决此问题使用pipuninstallnumpy再安装numpy1.19.3版本即可，使用如下命令卸载命令：pip
y_t_rank = len(y_t.shape.as_list()) AttributeError: ‘tuple‘ object has no attribute ‘shape‘’ 专业混水 tensorflow python tensorflow 深度学习 anaconda
在model.fit()的时候遇到了如下问题：Epoch1/400Traceback(mostrecentcalllast):File"F:/code/MYSTUDY/MODEL_version0.0/comparsion/trainST.py",line234,inmain()File"F:/code/MYSTUDY/MODEL_version0.0/comparsion/trainST.py"
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
flutter 装饰类【BoxDecoration】飞川001 Fluttter flutter dart android-studio
装饰类BoxDecorationBoxDecoration是Flutter中用于控制Container等组件外观的装饰类，它提供了丰富的属性来设置背景、边框、圆角、阴影等样式。BoxDecoration的主要属性1.color背景颜色。类型：Color?示例：color:Colors.blue,2.image背景图片。类型：DecorationImage?示例：image:DecorationIm
spring boot 服务使用过程常见bug 解决寅灯 spring boot相关 spring boot
springboot服务使用过程常见bug今天开始持续汇总：1、【Springboot端口号占用】Webserverfailedtostart.Portxxxxxwasalreadyinuse.检查此端口号：tasklist|findstr"50010"netstat-ano|findstr"50010"cmd命令查看端口号占用情况，例如查看端口50010，可以看出进程号为1572；cmd中通过命
【c++】【算法】【动态规划】最长公共子序列钟离墨笺算法算法 c++动态规划
【c++】【算法】【动态规划】最长公共子序列//递归方式//最长公共子序//直接递归求最长公共子序长度intFindValue(conststring&X,conststring&Y,inti,intj){if(i==0||j==0)return0;if(X[i]==Y[j])returnFindValue(X,Y,i-1,j-1)+1;elsereturnstd::max(FindValue(X
分布式-分布式必备理论基础：CAP和BASE 后端
一、CAP分布式系统不可能同时满足一致性（C：Consistency）、可用性（A：Availability）和分区容忍性（P：PartitionTolerance），最多只能同时满足其中两项。一致性一致性指的是多个数据副本是否能保持一致的特性，在一致性的条件下，系统在执行数据更新操作之后能够从一致性状态转移到另一个一致性状态。对系统的一个数据更新成功之后，如果所有用户都能够读取到最新的值，该系统
二叉树算法 JAVA 爱掉发的小龙 java 开发语言前端后端 python
二叉树是一种常用的数据结构，它由一系列的节点组成，每个节点最多有两个子节点，分别称为左子节点和右子节点。在Java中，我们可以通过定义一个二叉树的节点类来实现二叉树算法。一个典型的二叉树节点类如下所示：classNode{intval;Nodeleft;Noderight;publicNode(intval){this.val=val;this.left=null;this.right=null;
JVM-内存分配与回收策略后端
内存分配与回收策略对象的内存分配，就是在堆上分配（也可能经过JIT编译后被拆散为标量类型并间接在栈上分配），对象主要分配在新生代的Eden区上，少数情况下可能直接分配在老年代，分配规则不固定，取决于当前使用的垃圾收集器组合以及相关的参数配置。JetBrains软件使用以下列举几条最普遍的内存分配规则，供大家学习。对象优先在Eden分配大多数情况下，对象在新生代Eden区中分配。当Eden区没有足够
调用工具流程，调用并把调用结果最后一起发给openai接口进行归纳在一起 Ai君臣 python flask 开发语言
是的，这是OpenAI/AzureOpenAIAPI的规范要求。根据OpenAI的文档，当使用工具调用时，对话历史中需要保持以下顺序：Assistant消息（包含tool_calls）对应的Tool响应消息这种结构设计有几个重要原因：完整性追踪Assistant的消息记录了它想要调用哪些工具每个tool_call都有唯一的ID后续的工具响应通过tool_call_id与这些调用建立关联对话上下文A
程序员必须掌握的消息中间件-RabbitMQ 后端
一、Rabbit概述RabbitMQ是一个开源的消息代理和队列服务器，用来通过普通协议在完全不同的应用中间共享数据，RabbitMQ是使用Erlang语言来编写的，并且RabbitMQ是基于AMQP协议的。特点：开源、性能优秀Erlang语言最初用在交换机的架构模式，这样使得RabbitMQ在Broker之间进行数据交互的性能时非常优秀的。Erlang的优点：Erlang有着和原生Socket一样
【Block总结】CDFA，对比驱动特征聚合模块|即插即用，极大增强特征表达！ AI浩 Block总结计算机视觉深度学习目标检测
论文信息标题:ConDSeg:AGeneralMedicalImageSegmentationFrameworkviaContrast-DrivenFeatureEnhancement作者:MengqiLei,HaochenWu,XinhuaLv,XinWang机构:中国地质大学（武汉），百度公司发表时间:2024年12月11日会议:AAAI2025论文:https://arxiv.org/pdf
商业软件许可证介绍｜简单原理探究后端
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview引入话题既然是商业软件，涉及到商业，那目的就是赚钱。就拿IDEA举例，IDEA有多个版本，社区版功能少一些，本身使用上没有什么限制，而且省去了版权纠纷等问题；但是如果想要享受JetBrains的其他服务，那就必须要考虑商业化版本了，缺点可能就是贵一点。像IDEA、Navi
揭秘AIP智能体平台：构建未来AI基础设施的新引擎大东（AIP内容运营专员）人工智能
在人工智能的浪潮中，科技正在改变我们生活的方方面面。从智能推荐到自动驾驶，从个性化广告到实时风险控制，AI的触角无处不在。但这些令人瞩目的成果背后，究竟是什么在支撑着AI的飞速发展？答案是——人工智能平台。人工智能平台是连接计算资源、开发工具和行业应用的重要桥梁，支撑着从模型开发到行业场景落地的每一个环节。它不仅为开发者提供高效便捷的工具，还为企业创造了无限的创新可能。本文将带你深入了解人工智能平
风控系统建设，指标策略规则流程设计，LiteFlow隐式子流程，构造EL和Chain
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview简介前面有很多文章已经说了，我要利用LiteFlow做风控系统。至于进度嘛，只能尽力而为，毕竟我的惰性也很强。下面是目前Git的提交记录，代码托管在Github和Gitee，但是是私有仓库，因为还不是开放的时候，还有很多要做的。其中能梳理的仅是主流程的TODO都有下面这么
rocketmq的启动关闭 chen_zi_ rocketmq linux 服务器
rocketmq的启动1.启动NameServer[root@dailybluebin]#nohupshmqnamesrv&检查日志：[root@dailybluebin]#tail-f~/logs/rocketmqlogs/namesrv.log2.启动Brokernohupshmqbroker-c../conf/broker.conf-n192.168.88.23:9876autoCreate
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
《鸿蒙Next应用商店：人工智能开启智能推荐与运营新时代》人工智能深度学习
在科技飞速发展的当下，鸿蒙Next系统的出现为操作系统领域带来了新的变革与机遇，而人工智能技术的融入更是让其应用商店的智能化推荐和运营迈向了一个全新的高度。用户画像精准构建在鸿蒙Next系统中，应用商店可以借助系统强大的权限管理和数据收集能力，全方位收集用户的多维度数据。通过对用户在应用商店内的浏览历史、下载记录、搜索关键词，以及在其他鸿蒙应用中的使用行为等多源数据进行汇总和分析，利用人工智能算法
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
python 安装scipy Half0pen linux machine learning
之前安装pybrain,fann2要用到scipy,numpy但是用pip并没有安装成功sudoapt-getinstallpython-numpypython-scipypython-matplotlib安装成功==
C语言 qsort 详解 Communist19 c语言开发语言
qsort1.定义：qsort,基于快速排序(QuickSort)算法的一个库函数,可以将一串整型类型、浮点类型、字符串类型、结构体类型等的数据进行排序。比冒泡排序，选择法排序好用，且速度更快。2.语法：具体语法如下：qsort(arr,sizeof(arr)/sizeof(arr[0]),sizeof(int),cmp)形参1：arr:需排序数组的首个元素的地址(切记不能用arr[0],arr[
Electron 开发者的 Tauri 2.0 实战指南：安全实践技术出海录人工智能前端 React
在桌面应用开发中，安全性至关重要。相比Electron，Tauri2.0提供了更严格的安全模型和更完善的权限系统。本文将帮助你理解和实践Tauri的安全特性。权限系统对比Electron的安全模型在Electron中，我们通常这样处理安全：//main.jsconst{app,BrowserWindow}=require('electron')functioncreateWindow(){cons
遗传算法神罗天征666 c++整理算法
遗传算法（GA）一、什么是遗传算法？遗传算法（GeneticAlgorithm，GA）是一类模仿生物进化过程的搜索启发式算法。它们是由约翰·霍兰德（JohnHolland）在20世纪70年代初提出的。遗传算法通过自然遗传机制（如选择、交叉、变异等）的模拟，对问题的潜在解进行进化，以期找到或逼近最优解。基本原理是类比达尔文进化论—“物竞天择，适者生存”其实很好理解，学过生物的都知道达尔文进化论的大概
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多