中宇哥

强化学习教程（四）：从PDG到DDPG的原理及tf代码实现详解

强化学习教程（四）：从PDG到DDPG的原理及tf代码实现详解

原创 lrhao 公众号：ChallengeHub
收录于话题
#强化学习教程

前言

在前面强化学习教程（三）中介绍了基于策略「PG」算法，相比较DQN算法，PG是一种学习连续行为控制策略的方法，通过概率分布分布函数π，来表示每一步的最优策略，在每一步根据该概率分布进行action采样，获取当前最佳的action取值，即：

生成action的过程，本质是一个随机过程，最后学习到的策略，也是一个随机策略（stochastic polic）。

1.DPG
确定性策略梯度（Deterministic Policy Gradient，DPG），每一步的行为通过函数μ直接获得确定的值：
图片
这个函数μ即最优行为策略，不再是一个需要采样的随机策略。

我们在强化学习教程（三）中知道，策略梯度的损失函数就是负的最大化奖励函数，即策略梯度就是沿着使得目标函数变大的方向调整策略的参数，定义如下：

在上述公式中，我们能能够发现J函数主要与策略梯度和值函期望有关，因此为了解决策略和值函数之间的问题，采用一种新的思路将两个网络分开，即Actor-Critic网络。

1.1Actor-Critic
从命名中中可以显而易见知道这两个网络的工作流程：即
Actor(演员)-Critic(评论家)框架，相当于演员和评论家共同来提升表演，演员跳舞的姿态可能动作不到位，于是评论家告诉演员，你这样跳舞不好，它会建议演员修改一下舞姿了，当演员在某个舞姿上表演的比较好，那评论家就会告诉演员, 不错，你可以加大力度往这个方向发展，是不是明白其中的意思了？

在Actor-Critic（AC）框架中：
使用acotr神经网络来近似策略函数，输入时obsseraction（obs），输出action（a）；
critic神经网络来近似值函数，输入是action和obs [a, s]，输出是Q(s, a)。

AC框架的流程：首先环境会给出一个obs，智能体根据actor网络（后面会讲到在此网络基础上增加噪声）做出决策action，环境收到此action后会给出一个奖励reward，及新的obs。这个过程是一个step。此时我们要根据reward去更新critic网络，然后沿critic建议的方向去更新actor网络。接着进入下一个step。如此循环下去，直到我们训练出了一个好的actor网络。

那么每次迭代如何更新这两个神经网络的参数呢？

与DQN一样，DDPG中也使用了target网络来保证参数的收敛：
假设critic网络为Q(s,a;ω)，他对应的target critic网络为
Q(s,a;ω−)。
actor网络为π(s;θ)，它对应的target actor网络为
π(s;θ−)。

1.1.1actor网络更新
actor网络用于参数化策略。这里涉及到之前说到的策略梯度Policy Gradient。

Tips：策略梯度这一块可以分为四种情况分别讨论：stochastic on-policy, stochastic off-policy, deterministic on-policy 和 deterministic off-policy，其实就是决定性策略和随机性策略，对应的在线学习和离线学习两辆组合。

确定性策略梯度定理提供了更新确定性策略的方法。将此方法用到Actor-Critic算法中：
(1) On-Policy Deterministic Actor-Critic

由于使用的是Sarsa（是一种在线学习算法）更新critic，因此是一种在线的确定性AC策略

(2) Off-Policy Deterministic Actor-Critic
由于使用的是Q-Learning更新critic，因此是一种离线的确定性AC策略

1.1.2critic网络更新
critic网络用于值函数近似，更新方式与DQN中的类似：

然后使用梯度下降法进行更新。

注意：actor和critic都使用了target网络来计算target。

2.DDPG

深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）是将深度学习神经网络融合进DPG的策略学习方法，相比较DPG核心改进地方在于：
采用卷积神经网络作为策略函数μ和Q函数的模拟，即策略网络和Q网络；然后使用深度学习的方法来训练上述神经网络。
在DQN中使用单个Q神经网络算法，学习过程很不稳定，
因为Q网络的参数在频繁gradient update的同时，又用于计算Q网络和策略网络的gradient：

在训练完一个mini-batch的数据之后，通过SGA/SGD算法更新online网络的参数，然后再通过soft update算法更新 target 网络的参数。soft update是一种running average的算法：

优点：target网络参数变化小，用于在训练过程中计算online网络的gradient，比较稳定，训练易于收敛。
代价：参数变化小，学习过程变慢。

DDPG核心思想

采用经验回放方法
采用target目标网络更新，不过DQN中的target更新是hard update，即每隔固定步数更新一次target网络，DDPG使用soft update，每一步都会更新target网络，只不过更新的幅度非常小
AC框架
确定性策略梯度

DDPG算法流程

初始化actor-critic神经网络thea_Q、thea_u
将online网络参数拷贝给对应target网络
初始化replay memory buffer R；
for each episode：
初始化UO随机过程；
for t = 1，T：
下面的步骤与DDPG算法实现框架图中步骤编号对应：

DDPG实现框架：

总结一下：
actor-critic框架是一个在循环的episode和时间步骤条件下，通过环境、actor和critic三者交互，来迭代训练策略网络、Q网络的过程。

DDPG对于DPG的关键改进

使用卷积神经网络来模拟策略函数和Q函数，并用深度学习的方法来训练，证明了在RL方法中，非线性模拟函数的准确性和高性能、可收敛；
而DPG中，可以看成使用线性回归的机器学习方法：使用带参数的线性函数来模拟策略函数和Q函数，然后使用线性回归的方法进行训练。
experience replay memory的使用：actor同环境交互时，产生的transition数据序列是在时间上高度关联(correlated)的，如果这些数据序列直接用于训练，会导致神经网络的overfit，不易收敛。
DDPG的actor将transition数据先存入experience replay buffer, 然后在训练时，从experience replay buffer中随机采样mini-batch数据，这样采样得到的数据可以认为是无关联的。
target 网络和online 网络的使用，使的学习过程更加稳定，收敛更有保障。

DDPG算法应用

下面展示DDPG算法将杆子立起来的一个应用

  1import tensorflow as tf
  2import numpy as np
  3import gym
  4import time
  5
  6# 定义超参数
  7MAX_EPISODES = 200
  8MAX_EP_STEPS = 200
  9LR_A = 0.001    # actor学习率
 10LR_C = 0.002    # critic学习率
 11GAMMA = 0.9     # 累计折扣奖励因子
 12TAU = 0.01      # 软更新tao
 13MEMORY_CAPACITY = 10000  # buffer R, 经验回放容器
 14BATCH_SIZE = 32  # 每批随机读取批次大小
 15
 16RENDER = False
 17ENV_NAME = 'Pendulum-v0'
 18
 19# 定义DDPG类
 20class DDPG(object):
 21    def __init__(self, a_dim, s_dim, a_bound,):
 22        # memory 存放的是序列（s,a,r,s+1）= s*2+a+1(r=1)
 23        self.memory = np.zeros((MEMORY_CAPACITY, s_dim * 2 + a_dim + 1), dtype=np.float32)
 24        self.pointer = 0
 25        self.sess = tf.Session()
 26
 27        self.a_dim, self.s_dim, self.a_bound = a_dim, s_dim, a_bound,
 28        self.S = tf.placeholder(tf.float32, [None, s_dim], 's')
 29        self.S_ = tf.placeholder(tf.float32, [None, s_dim], 's_')
 30        self.R = tf.placeholder(tf.float32, [None, 1], 'r')
 31
 32        # 建立网络，actor网络输入是S,critic输入是s,a
 33        self.a = self._build_a(self.S,)
 34        q = self._build_c(self.S, self.a, )
 35
 36        a_params = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, scope='Actor')
 37        c_params = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, scope='Critic')
 38        # soft updating
 39        """
 40        tf.train.ExponentialMovingAverage(decay)是采用滑动平均的方法更新参数。这个函数初始化需要提供一个衰减速率（decay），用于控制模型的更新速度。这个函数还会维护一个影子变量（也就是更新参数后的参数值），这个影子变量的初始值就是这个变量的初始值，影子变量值的更新方式如下：
 41   shadow_variable = decay * shadow_variable + (1-decay) * variable
 42   shadow_variable是影子变量，variable表示待更新的变量，也就是变量被赋予的值，decay为衰减速率。decay一般设为接近于1的数（0.99,0.999）。decay越大模型越稳定，因为decay越大，参数更新的速度就越慢，趋于稳定。
 43        """
 44
 45        ema = tf.train.ExponentialMovingAverage(decay=1 - TAU)          # soft replacement
 46        def ema_getter(getter, name, *args, **kwargs):
 47            return ema.average(getter(name, *args, **kwargs))
 48
 49        target_update = [ema.apply(a_params), ema.apply(c_params)]      # soft update operation
 50        a_ = self._build_a(self.S_, reuse=True, custom_getter=ema_getter)   # replaced target parameters
 51        q_ = self._build_c(self.S_, a_, reuse=True, custom_getter=ema_getter)
 52
 53        a_loss = - tf.reduce_mean(q)  # maximize the q
 54        self.atrain = tf.train.AdamOptimizer(LR_A).minimize(a_loss, var_list=a_params)
 55
 56        with tf.control_dependencies(target_update):    # soft replacement happened at here
 57            q_target = self.R + GAMMA * q_
 58            td_error = tf.losses.mean_squared_error(labels=q_target, predictions=q)
 59            self.ctrain = tf.train.AdamOptimizer(LR_C).minimize(td_error, var_list=c_params)
 60
 61        self.sess.run(tf.global_variables_initializer())
 62
 63    # 选取动作函数
 64    def choose_action(self, s):
 65        return self.sess.run(self.a, {self.S: s[np.newaxis, :]})[0]
 66
 67    # 从R buffer中学习
 68    def learn(self):
 69        indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE)
 70        bt = self.memory[indices, :]
 71        bs = bt[:, :self.s_dim]
 72        ba = bt[:, self.s_dim: self.s_dim + self.a_dim]
 73        br = bt[:, -self.s_dim - 1: -self.s_dim]
 74        bs_ = bt[:, -self.s_dim:]
 75
 76        self.sess.run(self.atrain, {self.S: bs})
 77        self.sess.run(self.ctrain, {self.S: bs, self.a: ba, self.R: br, self.S_: bs_})
 78
 79    # 存储序列
 80    def store_transition(self, s, a, r, s_):
 81        transition = np.hstack((s, a, [r], s_))
 82        index = self.pointer % MEMORY_CAPACITY  # replace the old memory with new memory
 83        self.memory[index, :] = transition
 84        self.pointer += 1
 85
 86    # 建立actor网络（输入S_dim，输出a_dim, 采用tanh激活函数）
 87    def _build_a(self, s, reuse=None, custom_getter=None):
 88        trainable = True if reuse is None else False
 89        with tf.variable_scope('Actor', reuse=reuse, custom_getter=custom_getter):
 90            net = tf.layers.dense(s, 30, activation=tf.nn.relu, name='l1', trainable=trainable)
 91            a = tf.layers.dense(net, self.a_dim, activation=tf.nn.tanh, name='a', trainable=trainable)
 92            return tf.multiply(a, self.a_bound, name='scaled_a')
 93
 94    # 建立critic网络（输入S_dim，s_dim, 输出q）
 95    def _build_c(self, s, a, reuse=None, custom_getter=None):
 96        trainable = True if reuse is None else False
 97        with tf.variable_scope('Critic', reuse=reuse, custom_getter=custom_getter):
 98            n_l1 = 30
 99            w1_s = tf.get_variable('w1_s', [self.s_dim, n_l1], trainable=trainable)
100            w1_a = tf.get_variable('w1_a', [self.a_dim, n_l1], trainable=trainable)
101            b1 = tf.get_variable('b1', [1, n_l1], trainable=trainable)
102            net = tf.nn.relu(tf.matmul(s, w1_s) + tf.matmul(a, w1_a) + b1)
103            return tf.layers.dense(net, 1, trainable=trainable)  # Q(s,a)
104
105
106# training process
107
108# 环境初始化
109env = gym.make(ENV_NAME)
110env = env.unwrapped
111env.seed(1)
112
113# 获取s,a的维度
114s_dim = env.observation_space.shape[0]
115a_dim = env.action_space.shape[0]
116a_bound = env.action_space.high
117
118ddpg = DDPG(a_dim, s_dim, a_bound)
119
120var = 3  # 定义探索因子
121
122t1 = time.time()
123for i in range(MAX_EPISODES):
124    s = env.reset()
125    ep_reward = 0
126    for j in range(MAX_EP_STEPS):
127        if RENDER:
128            env.render()
129
130        # 添加探索噪音
131        a = ddpg.choose_action(s)
132        a = np.clip(np.random.normal(a, var), -2, 2)    # 随机选取动作探索
133        # np.clip()函数是，如果随机生成的数字大于2，则为2 ，如果小于-2，则为-2，其他则为本身
134
135        s_, r, done, info = env.step(a)
136        ddpg.store_transition(s, a, r / 10, s_)
137
138        if ddpg.pointer > MEMORY_CAPACITY:
139            var *= .9995    # 减缓动作探索度，即衰减速率
140            ddpg.learn()
141
142        s = s_
143        ep_reward += r
144        if j == MAX_EP_STEPS-1:
145            print('Episode:', i, ' Reward: %i' % int(ep_reward), 'Explore: %.2f' % var, )
146            # if ep_reward > -300:RENDER = True
147            break
148
149print('Running time: ', time.time() - t1)

参考资料

https://blog.csdn.net/gsww404/article/details/80403150
https://blog.csdn.net/kenneth_yu/article/details/78478356
https://wanjun0511.github.io/2017/11/19/DDPG/

END

欢迎加入学习交流群

添加助手微信，可加入微信交流群

1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
OA协同办公软件为守护企业数据安全出的这套方案 oa协同软件即时通讯数据安全
在信息化时代，安全性是每个企业都绕不开的话题。企业酷信通过多重安全防护，让你在处理日常业务时无需为信息安全担忧。这里没有复杂的技术术语，只有实实在在的保护。登录安全：给每次登录加把“锁”企业酷信不仅提供传统的用户名和密码保护，还结合多因子认证和图形校验码，给每一次登录都加了几把“锁”。更重要的是，采用了先进的RSA和MD5算法加密，确保即使密码泄露，数据依然安全。业务安全：小细节，大保障日常的业务
python webdriver-manager 实现selenium 免下载安装webdriver 小马MT python selenium 爬虫
pythonwebdriver-manager实现selenium免下载安装webdriverselenium在自动化测试中，通常需要使用浏览器驱动来与浏览器进行交互。然而，手动下载、安装、以及管理这些驱动非常麻烦，尤其是当驱动版本频繁更新时。为此，webdriver-manager库提供了一个极简的方案，自动帮我们下载、更新和管理驱动，使Selenium代码更简洁优雅。webdriver-man
python tkinter控件位置_python tkinter组件摆放方式详解 weixin_39895995 python tkinter控件位置
1.最小界面组成#导入tkinter模块importtkinter#创建主窗口对象root=tkinter.Tk()#设置窗口大小(最小值：像素)root.minsize(300,300)#创建一个按钮组件btn=tkinter.Button(root,text='屠龙宝刀，点击送')btn.pack()#加入消息循环root.mainloop()设置初始化界面大小#设置初始化界面大小root.g
python表格控件_Python使用tkinter的Treeview组件实现表格功能 weixin_39619481 python表格控件
fromtkinterimportTk,Scrollbar,Framefromtkinter.ttkimportTreeview#创建tkinter应用程序窗口root=Tk()#设置窗口大小和位置root.geometry('500x300400300')#不允许改变窗口大小root.resizable(False,False)#设置窗口标题root.title('通信录管理系统')#使用Tre
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
深入探究 Ryu REST API 漫谈网络网络技术进阶通途网络
Ryu4.34RESTAPI详细接口说明与示例Ryu4.34的RESTAPI提供了对SDN网络的核心管理功能，涵盖交换机、流表、端口、拓扑和QoS等操作。以下是详细的接口分类、功能说明及Python示例代码。1.交换机管理1.1获取所有交换机DPID端点:GET/stats/switches功能:返回当前连接到控制器的所有交换机的DPID（数据路径标识符）列表。示例:importrequestsR
python web开发pyramid库安装与使用范哥来了 python
为了在Python中使用Pyramid进行Web开发，你需要先安装Pyramid库。接着我会指导你如何安装它，并给出一个简单的示例来展示如何创建一个基本的Pyramid应用。安装Pyramid确保你的环境中已经安装了pip工具，然后可以通过以下命令安装Pyramid：pipinstallpyramid如果你想要开始一个新的Pyramid项目，推荐同时安装pyramid_starter模板，这可以帮
Python激活码 qq_36357944 Python
EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ
前端笔试高频算法题及JavaScript实现 GISer_Jinger 前端算法 javascript
以下是前端笔试常见的编程算法题及JavaScript代码现，结合最新面试题整理：一、数组/字符串处理两数之和找出数组中两数之和等于目标值的索引consttwoSum=(nums,target)=>{constmap=newMap();for(leti=0;i{letmap=newMap(),max=0,left=0;for(letright=0;right[...newSet(arr.flat(I
回溯算法入门（排列树问题 + 子集树问题）啊龙阿算法
#include#include//排列数问题/*如[1,2,3]的所有全排列结果为[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]总的排列数量为3!个*///法一：交换位置法voidswap(int*a,int*b){inttemp=*a;*a=*b;*b=temp;}voidprintArr(int*arr,intn){inti;for(i=0;i
tksheet：强大的Python Tkinter表格组件江连日Silver
tksheet：强大的PythonTkinter表格组件tksheetPython3.6+tkintertablewidgetfordisplayingtabulardata项目地址:https://gitcode.com/gh_mirrors/tk/tksheet项目基础介绍与编程语言tksheet是一个基于Python的Tkinter库开发的高性能表格控件，专为展示和编辑大量的tabular数
tksheet: 强大的Python Tkinter表格控件柏珂卿
tksheet:强大的PythonTkinter表格控件项目地址:https://gitcode.com/gh_mirrors/tk/tksheet在探索Python的GUI库时，你会发现tksheet是一个引人注目的名字。它不仅仅是一款简单的表格插件；实际上，这是一个功能丰富且优化得当的数据管理工具，尤其适合那些依赖于Tkinter构建界面的应用开发者。项目介绍tksheet是基于Tkinter
⭐算法OJ⭐汉明距离【位操作】（C++ 实现）Total Hamming Distance Vitalia 算法OJ 算法 c++开发语言
HammingDistance（汉明距离）是用于衡量两个等长字符串在相同位置上不同字符的个数的度量。它通常用于比较两个二进制字符串或编码序列的差异。定义给定两个长度相同的字符串AAA和BBB，它们的汉明距离D(A,B)D(A,B)D(A,B)是在相同位置上字符不同的位置的数量。示例二进制字符串：A=1011101B=1001001汉明距离D(A,B)=2D(A,B)=2D(A,B)=2（第3位和第
为什么程序员需要学习数字电路 Vitalia 理论基础程序人生学习开发语言数字电路
在编程的世界里，我们通常关注的是算法、数据结构、框架和设计模式等软件层面的知识。然而，数字电路作为计算机硬件的核心基础，对程序员来说同样重要。掌握数字电路不仅能帮助我们更好地理解计算机的底层原理，还能在实际开发中解决一些棘手的问题。本文将通过理论和实例，探讨程序员学习数字电路的必要性。1.数字电路与计算机的关系计算机的核心是中央处理器（CPU），而CPU的本质是由大量的数字电路组成的。数字电路通过
【Python安装】2024年最新下载安装教程！详细步骤，有这一篇就够了！！！「已注销」 python 开发语言
（点击领取Python安装包+学习资料）Python安装说明1.访问Python官网首先，访问Python的官方网站：WelcometoPython.org。2.下载Python安装程序在官网首页，找到“Downloads”部分。根据你的操作系统（Windows,macOS,Linux等）选择合适的版本下载。对于大多数用户，推荐下载最新版本的Python3.x（例如Python3.9或更高版本）。
Python+Selenium 使用webdriver-manager解决浏览器与驱动不匹配所带来自动化无法执行的问题_web自动化最新版本浏览器驱动,驱动连接不了浏览器 2401_84140040 程序员 python 学习面试
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
python常用内置函数 Tan程序员 python 开发语言
函数作用print()打印输出help()用于查看函数或模块用途的详细说明list()将一个可迭代对象转换成列表tuple()将一个可迭代对象转换成元组set()将一个可迭代对象转化成集合dict()用于创建一个新字典sorted()将一个序列排序，返回排序后的序列reversed()将一个序列反转，返回翻转序列后的迭代器range()用于生成可迭代对象的数值列表的表示eval()执行字符串类型的
解决python tkinter库：_tkinter.TclError: bad window path name “.!button“类似错误 Tan程序员 python 开发语言
本文目录报错信息问题分析问题解决本文将介绍怎么解决pythontkinter库_tkinter.TclError:badwindowpathname".!toplevel.!button3"错误（以及类似错误）报错信息我们在使用tkinter库时可能会遇到类似这样的问题：_tkinter.TclError:badpathname".!button"_tkinter.TclError:badwind
2024 年java 和Python 开发工具系列激活码（持续更新） hhhaadei java ide
7EX1SHUD24-eyJsaWNlbnNlSWQiOiI3RVgxU0hVRDI0IiwibGljZW5zZWVOYW1lIjoibWFvIHplZG9uZyIsImxpY2Vuc2VlVHlwZSI6IlBFUlNPTkFMIiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IiIsI
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
「QT」布局类之 QHBoxLayout 水平布局类何曾参静谧「QT」QT5程序设计 qt 开发语言
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）文章专栏「QT」QT5程序设计全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Ma
python+flask实现360全景图和stl等多种格式模型浏览 mosquito_lover1 python
1.安装依赖pipinstallflask2.创建Flask应用创建一个基本的Flask应用，并设置路由来处理不同的文件类型。fromflaskimportFlask,render_template,send_from_directoryapp=Flask(__name__)#设置静态文件路径app.static_folder='static'@app.route('/')defindex():r
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
Python爬虫教程：如何通过接口批量下载视频封面（FFmpeg技术实现） Python爬虫项目 python 爬虫开发语言数据库数据分析 scrapy selenium
引言随着在线视频平台的蓬勃发展，视频封面作为视频内容的预览图，一直以来都是观众对视频的第一印象。在爬取视频资源时，很多开发者和研究者往往只关注视频本身，而忽略了视频封面。实际上，视频封面不仅能提供重要的信息（例如视频标题、主题或情感等），而且它们也能作为数据集中的重要属性，用于视频分类、推荐系统等应用。在这篇博客中，我们将深入探讨如何使用Python通过接口批量下载视频封面，利用FFmpeg等技术
python vuejs聊天室_ws模块指南+Vue在线聊天室无1234 python vuejs聊天室
简介ws模块是Node端的一个WebSocket协议的实现,该协议允许客户端(一般是浏览器)持久化和服务端的连接.这种可以持续连接的特性使得WebScoket特别适合用于适合用于游戏或者聊天室等使用场景.ws模块相较于其他基于WebSocket协议的模块来说非常的纯粹.他只关注基于WebSocket协议的实现,其他例如Socket.io提供了回退手段,当WebSocket无法使用的时候会利用轮询来
Python的struct模块 smilelance Python python struct alignment string buffer exception
struct模块提供将二进制数据转换为结构化数据或相反的功能，它定义了以下函数和异常：exceptionstruct.errorstruct.pack(fmt,v1,v2,…)返回一个string，string由v1,v2…经过给出的格式fmt组成，参数的个数有和类型要和给出的格式一一对应struct.pack_into(fmt,buffer,offset,v1,v2,…)按照格式fmt将v1,v
python的一些基础知识学习勇敢一点♂ python 学习
列表（list）和元组（tuple）列表和元组，都是一个可以放置任意数据类型的有序集合，比如里面可以同时包含int和string类型都是有序的列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素。元组是静态的，长度大小固定，无法增加删减或者改变常规操作关于赋值，list可以很轻松的根据索引赋值，但是tuple不可以listA=[1,2,3,4]listA[3]=10print(listA
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

强化学习教程（四）：从PDG到DDPG的原理及tf代码实现详解

你可能感兴趣的:(python,人工智能,机器学习,算法,强化学习,机器学习,python,神经网络)