难受啊！马飞...

初探强化学习（5）DDPG算法。包含逐行分析Pytorch代码和算法分析

这个博客适合老鸟来看，讲得很清楚。但是不详细。
有没有循环神经网络的感觉？这个博客都是这种图，很有意思

本文代码参考这个博客点击博客两字即可跳转。。

主要从这个博客搬来的https://zhuanlan.zhihu.com/p/111257402

还有这个博客讲的很清楚https://blog.csdn.net/weixin_43316082/article/details/89467208?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultbaidujs_title~default-1.queryctrv2&spm=1001.2101.3001.4242.2&utm_relevant_index=4

前言–如何快速搞懂一个算法

0.1 搞懂数据流向

只有弄明白数据流向，才能知道开发这个算法人的思想。

0.2 结合代码看如何实现

很多人实现代码的方式是不一样的，但是最终的数据流应该是一样的。

1. 我认为最清晰的图和算法流程分析

$a_{t} = \mu(s_{t})$

DDPG算法流程如下：

初始化Actor\Critic的 online 神经网络参数: $\theta^{Q}$ 和 $\theta^{\mu}$ ；将online网络的参数拷贝给对应的target网络参数： $\theta{Q{\prime}} \leftarrow \theta^{Q}$ , $\theta{\mu{\prime}} \leftarrow \theta^{\mu}$ ;
初始化replay memory buffer R;
for each episode:
初始化UO随机过程；
for t = 1, T:
下面的步骤与DDPG实现框架图中步骤编号对应：
1. actor 根据behavior策略选择一个 $a_{t}$ , 下达给gym执行该 $a_{t}$

behavior策略是一个根据当前online策略 $\mu$ 和随机UO噪声生成的随机过程, 从这个随机过程采样获得 $a_{t}$ 的值。
2. gym执行 $a_{t}$ ，返回reward $r_{t}$ 和新的状态 $s_{t+1}$
3. actor将这个状态转换过程(transition): $s_{t}, a_{t}, r_{t}，s_{t+1})$ 存入replay memory buffer R中，作为训练online网络的数据集。
4. 从replay memory buffer R中，随机采样 N个 transition 数据，作为online策略网络、 online Q网络的一个mini-batch训练数据。我们用 $s_{i}, a_{i}, r_{i}，s_{i+1})$ 表示mini-batch中的单个transition数据。
5. 计算online Q网络的 gradient：
Q网络的loss定义：使用类似于监督式学习的方法，定义loss为MSE: mean squared error：

其中, $y_{i}$
可以看做"标签"：

基于标准的back-propagation方法，就可以求得L针对 $\theta^{Q}$ 的gradient： $\triangledown_{\theta^{Q}} L$ 。
有两点值得注意：

$y_{i}$ 的计算，使用的是 target 策略网络 $\mu^{\prime}$ 和 target Q 网络 $Q^{\prime}$ ,
这样做是为了Q网络参数的学习过程更加稳定，易于收敛。
这个标签本身依赖于我们正在学习的target网络，这是区别于监督式学习的地方。

6. update online Q：采用Adam optimizer更新 $\theta^{Q}$ ;
7. 计算策略网络的policy gradient：
policy gradient的定义：表示performance objective的函数 $J$ 针对 $\theta^{\mu}$ 的gradient。根据2015 D.Silver 的DPG 论文中的数学推导，在采用off-policy的训练方法时，policy gradient算法如下：

也即，policy gradient是在s根据 $\rho^{\beta}$ 分布时， $\triangledown_{a}Q\cdot \triangledown_{\theta^{\mu}} \mu$ 的期望值。我们用Monte-carlo方法来估算这个期望值：
在replay memory buffer中存储的(transition) $s_{i}, a_{i}, r_{i}，s_{i+1})$ ,是基于agent的behavior策略 $\beta$ 产生的，它们的分布函数(pdf)为 $\rho^{\beta}$ ，所以当我们从replay memory buffer中随机采样获得mini-batch数据时，根据Monte-carlo方法，使用mini-batch数据代入上述policy gradient公式，可以作为对上述期望值的一个无偏差估计 (un-biased estimate), 所以policy gradient 可以改写为：

8. update online策略网络：采用Adam optimizer更新 $\theta^{\mu}$ ;
9. soft update target网络 $\mu^{\prime}$ 和 $Q^{\prime}$ ,使用running average 的方法，将online网络的参数，soft update给target网络的参数：

2. 我自己总结的DDPG算法流程图和算法分析

2.1 DDPG算法的数据流向图

我自己整理的DDPG算法的数据走向流程图

其中，紫色直线表示训练策略Actor网络每个阶段数据的流向，紫色虚线表示策略Actor网络整体数据的流向。
绿色直线表示训练Q值Critic网络时每个阶段数据的流向，绿色曲线表示训练Q值网络时数据的整体流向。
红色子项表示经验池中数据的流向。

2.2 DDPG算法的优化方法图

从上面可以看出，共有四个网络，actor, critic, Actor_target, cirtic_target。
只要记着一点：目标网络只是用在求target的过程中。如果不是求target用的，就不用目标网络。

2.2 算法分析

DDPG是一种基于Actor-Critic算法的连续型强化学习算法。
因此，我们首先得从AC算法开始分析。

Critic更新(AC) （更新价值网络参数 $\theta^{Q}$ ）

价值网络拟合的目标一般跟DQN网络一样是最大动作价值函数 $Q^*$ ，期望显然没法求，于是通过蒙特卡洛方法，使用观测值 $Q(s,a;\theta^{Q})$ 来近似，再通过TD算法来改进 $\theta^{Q}$ :

于是 TD error为：

然后通过TD error 梯度下降来更新网络参数 $\theta^{Q}$ :

Actor更新(AC) （更新策略网络参数 $\theta^u$ ）

Critic 输出的价值代表了Actor预测动作的好坏，因此策略网络的目标是最大化价值Value ，自然就想到了用梯度上升法来最大化 $Q(s,a;\theta^Q)$ ,于是，我们可以对 $Q(s,a;\theta^u)$ 求 $\theta^u$ 的梯度，让我们将策略网络记作 $\pi(s;\theta^u)$ ：

然后用梯度上升更新 $\theta^u$ :

Actor更新(DDPG) （更新策略网络参数 $\theta^u$ ）

和AC不同，Actor（DDPG）输出的是一个确定的动作，Actor（AC）输出的则是这组动作的概率值，毕竟用的是softmax函数。对比AC算法和DDPG算法的Actor部分不难发现，Actor（AC）的输出尺寸是动作空间的维度，而Actor（DDPG）输出尺寸则是1.
Actor的功能是，输出一个动作A，这个动作A输入到Crititc后，能够获得最大的Q值。
所以Actor的更新方式和AC不同，不是用带权重梯度更新，而是用梯度上升。记住这个梯度上升。

Critic更新(DDPG) （更新策略网络参数 $\theta^u$ ）

Critic网络的作用是预估Q，虽然它还叫Critic，但和AC中的Critic不一样，这里预估的是Q不是V；
注意Critic的输入有两个：动作和状态，需要一起输入到Critic中；
Critic网络的loss其还是和AC一样，用的是TD-error。这里就不详细说明了。

优化高估或低估问题

观察上面的推导过程，我们容易发现，这玩意跟DQN类似，因为bootstraping的通病，一开始低估了就会不断低估，一开始高估了就会不断高估，将会使得估计误差一边倒，导致学习的效果不好。为了处理这个问题，有很多种解决方案，大概就是跟DQN 差不多，DDPG就是这么做的。

引入target network
其实就是加入一个延迟更新策略，分别用两个网络来分别估计 $t + 1$ 时刻和 $t$ 时刻的值，即：

仔细观察上面的四个公式和上面与之类似的公式，我们可以发现：在原始的AC算法中，当前时刻和下一时刻的各种数据都是通过同一个函数计算的，也就是同一组参数。
但是在DDPG算法中，针对Actor和Critic是分别有两个网络的，而且这两个网络是相互隔离的。
这样一来就隔断了用自己的估计来估计自己，避免了不断被强化的倾向。但是，实际更新target network参数的过程采用的是这样一种方式：

因为target net的参数还是依赖于原来的网络参数，这种传递无法完全避免。

3. 分析pytorch代码

为什么要介绍代码？其实到目前为止，如果大家真的在看我的博客，应该能知道DDPG的所有思想了，但是还有一个关键点的地方就是，DDPG到底该如何保存训练经验的？
往下看…

3.1 Actor代码部分

为了看得清楚点，这块代码我直接截图

我在代码中做了注释了，
看看算法使用两个nn.Linear()层构成，第一层的输入就是状态s，输出30维的张量，然而第二层还是一个nn.Linear()层组成，输入是上面第一层输出的30维张量，输出是a_dim。哎？看到这边大家是不是矛盾了？为什么说好的输出一个具体的动作，怎么又搞个动作维度呢？到底怎么回事！希望源码程序员给个交代…
好，我现在就给你个胶带…

哦，不好意思，上错图了。其实我真的没有威胁你，

下面先看这个代码的参数部分：

我们使用的是gym里面最简单的部分了
然后，让我们在代码里print一下s_dim和a_dim

看到没有，a_dim = 1，s_dim = 3，注意了，这里的s_dim

3.2 Critic代码部分

直接上代码截图

前面怎么说的来着？Critic（DDPG）输出的是Q值，因为Actor（DDPG）输出的是一个具体的动作。
Critic（AC）输出的是V值，因为Actor（AC）输出的是一个状态S下所有的动作概率。
前面还说了，Critic（DDPG）输入的是状态s和动作a。所以可以看出来Cnet代码里有fcs和fca
这两个层用的都是nn.Linear（）输入分别是状态和动作，输出都是30维的张量。
然后输出out用的还是nn.Linear（）。注意下面的forward部分，直接是relu（x+y）。其实这里不一定是x+y，也可以是连接，如果是连接的话，就得设置self.out = nn.Linear(60,1)#输出为1，即Q值.
30改成60.

两个主要的网络结构介绍完了。下面介绍DDPG网络
这个模块比较长，对，比你还长，应该超过25厘米了。所以我只能贴代码了

3.3 DDPG模块

class DDPG(object):
    def __init__(self, a_dim, s_dim, a_bound,):
        self.a_dim, self.s_dim, self.a_bound = a_dim, s_dim, a_bound,
        self.memory = np.zeros((MEMORY_CAPACITY, s_dim * 2 + a_dim + 1), dtype=np.float32)
        self.pointer = 0
        #self.sess = tf.Session()
        self.Actor_eval = ANet(s_dim,a_dim)
        self.Actor_target = ANet(s_dim,a_dim)
        self.Critic_eval = CNet(s_dim,a_dim)
        self.Critic_target = CNet(s_dim,a_dim)
        self.ctrain = torch.optim.Adam(self.Critic_eval.parameters(),lr=LR_C)
        self.atrain = torch.optim.Adam(self.Actor_eval.parameters(),lr=LR_A)
        self.loss_td = nn.MSELoss()

    def choose_action(self, s):
        s = torch.unsqueeze(torch.FloatTensor(s), 0)
        return self.Actor_eval(s)[0].detach() # ae（s）

    def learn(self):

        for x in self.Actor_target.state_dict().keys():
            eval('self.Actor_target.' + x + '.data.mul_((1-TAU))')
            eval('self.Actor_target.' + x + '.data.add_(TAU*self.Actor_eval.' + x + '.data)')
        for x in self.Critic_target.state_dict().keys():
            eval('self.Critic_target.' + x + '.data.mul_((1-TAU))')
            eval('self.Critic_target.' + x + '.data.add_(TAU*self.Critic_eval.' + x + '.data)')

        # soft target replacement
        #self.sess.run(self.soft_replace)  # 用ae、ce更新at，ct

        indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE)
        bt = self.memory[indices, :]
        bs = torch.FloatTensor(bt[:, :self.s_dim])
        ba = torch.FloatTensor(bt[:, self.s_dim: self.s_dim + self.a_dim])
        br = torch.FloatTensor(bt[:, -self.s_dim - 1: -self.s_dim])
        bs_ = torch.FloatTensor(bt[:, -self.s_dim:])

        a = self.Actor_eval(bs)
        q = self.Critic_eval(bs,a)  # loss=-q=-ce（s,ae（s））更新ae   ae（s）=a   ae（s_）=a_
        # 如果 a是一个正确的行为的话，那么它的Q应该更贴近0
        loss_a = -torch.mean(q) 
        #print(q)
        #print(loss_a)
        self.atrain.zero_grad()
        loss_a.backward()
        self.atrain.step()

        a_ = self.Actor_target(bs_)  # 这个网络不及时更新参数, 用于预测 Critic 的 Q_target 中的 action
        q_ = self.Critic_target(bs_,a_)  # 这个网络不及时更新参数, 用于给出 Actor 更新参数时的 Gradient ascent 强度
        q_target = br+GAMMA*q_  # q_target = 负的
        #print(q_target)
        q_v = self.Critic_eval(bs,ba)
        #print(q_v)
        td_error = self.loss_td(q_target,q_v)
        # td_error=R + GAMMA * ct（bs_,at(bs_)）-ce(s,ba) 更新ce ,但这个ae(s)是记忆中的ba，让ce得出的Q靠近Q_target,让评价更准确
        #print(td_error)
        self.ctrain.zero_grad()
        td_error.backward()
        self.ctrain.step()

    def store_transition(self, s, a, r, s_):
        transition = np.hstack((s, a, [r], s_))
        index = self.pointer % MEMORY_CAPACITY  # replace the old memory with new memory
        self.memory[index, :] = transition
        self.pointer += 1

首先看一下初始化部分

self.memory这一行用于创建经验回放机制的经验池，大小是2000。
然后下面一些的就是实例化DDPG的四个网络。
对应一下符号
eval部分表示的是算法中的online部分，这块的网络参数是实时更新的
self.Actor_eval = ANet(s_dim,a_dim)
self.Critic_eval = CNet(s_dim,a_dim)
target部分表示的是算法中的target部分，这块的网络参数是软更新的
self.Actor_target = ANet(s_dim,a_dim)
self.Critic_target = CNet(s_dim,a_dim)
优化两个神经网络的分别是ctrain和atrain，但是最终只有一个损失函数self.loss_td = nn.MSELoss()
一个模型不能有两个损失函数，这样就没法收敛了、。

3.4 选择动作

torch.unsqueeze()的作用是扩展维度

torch.tensor.detach()用法介绍：
（1）返回一个新的从当前图中分离的Variable。
（2）返回的 Variable 不会梯度更新。
（3）被detach 的Variable volatile=True， detach出来的volatile也为True。
（4）返回的Variable和被detach的Variable指向同一个tensor

3.5 Learning框架

indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE)
这个就不解释了，从记忆池中按批次提取训练数据
bt = self.memory[indices, :]
bs = torch.FloatTensor(bt[:, :self.s_dim])
ba = torch.FloatTensor(bt[:, self.s_dim: self.s_dim + self.a_dim])
br = torch.FloatTensor(bt[:, -self.s_dim - 1: -self.s_dim])
bs_ = torch.FloatTensor(bt[:, -self.s_dim:])
这一连串的也不用说了，明显是对indices做切片的，肯定是把前面保存的（s,a,r,s_）挨个提取出来。
a = self.Actor_eval(bs)
q = self.Critic_eval(bs,a) # loss=-q=-ce（s,ae（s））更新ae ae（s）=a ae（s_）=a_
这两个不说了。分别用actor和critic求动作和q值。
loss_a = -torch.mean(q)
self.atrain.zero_grad()#清零梯度
loss_a.backward()#反向传播计算
self.atrain.step()
这部分的代码是实时训练训练actor网络，
从这块代码可以看出，online网络是实时训练的。
调用backward()函数之前都要将梯度清零，因为如果梯度不清零，pytorch中会将上次计算的梯度和本次计算的梯度累加。这样逻辑的好处是，当我们的硬件限制不能使用更大的bachsize时，使用多次计算较小的bachsize的梯度平均值来代替，更方便，坏处当然是每次都要清零梯度。
一般形似这样

optimizer.zero_grad()
output = net(input)
loss = loss_f(output, target)
loss.backward()

.step()******标记这个
这是大多数optimizer所支持的简化版本。一旦梯度被如backward()之类的函数计算好后，我们就可以调用step()这个函数。

a_ = self.Actor_target(bs_) # 这个网络不及时更新参数, 用于预测 Critic 的 Q_target 中的 action
q_ = self.Critic_target(bs_,a_) # 这个网络不及时更新参数, 用于给出 Actor 更新参数时的 Gradient ascent 强度
q_target = br+GAMMA*q_ # q_target = 负的
q_v = self.Critic_eval(bs,ba)
td_error = self.loss_td(q_target,q_v)
# td_error=R + GAMMA * ct（bs_,at(bs_)）-ce(s,ba) 更新ce ,
#但这个ae(s)是记忆中的ba，让ce得出的Q靠近Q_target,让评价更准确
self.ctrain.zero_grad()
td_error.backward()
self.ctrain.step()
这一部分代码是更新target网络代码，同时也适用于估计下一时刻动作a_和q_值的代码。
同时还包含了TD算法的代码，使用TD_error更新Critic网络。
注意看这边的Actor_target，Critic_target，Critic_eval，的输入是什么？是从及一单元中提取出来的。
再看看记忆回访单元

看看它都存储了哪些东西？
首先看一下np.hstack这个函数，可以参考这个链接。他的作用是将上面的四个张量都堆叠到一块。
index = self.pointer % MEMORY_CAPACITY#取模 - 返回除法的余数
取模运算，self.pointer是0，1，2，3，4，5，6，7，8，9，…它与MEMORY_CAPACITY=10000的余数成为替换memary中数据的标签。
大家注意这边，这边是通过一种近似随机的方式替换记忆池。也就是说可能会把不好的也存进来，把好的给删除了。

3.6 再看训练部分

首先，为什么有人说强化学习其实是一种进化算法，类似于经预算法WOA，遗传算法之类的。
因为这两类算法选优的核心机制是Exploration and Exploitation
翻译成中文就是探索和开发
探索，就是在执行探索的时候多用随机动作。
开发，就是在执行动作的时候使用经验池中的经验。
env = gym.make(ENV_NAME)
env = env.unwrapped
env.seed(1)
上面三个代码就是调用环境，第三个代码就是伪随机数
s_dim = env.observation_space.shape[0]
a_dim = env.action_space.shape[0]
a_bound = env.action_space.high
ddpg = DDPG(a_dim, s_dim, a_bound)
var = 3 # control exploration控制探索
t1 = time.time()
这边也是基础的参数设置，然后实例化DDPG网络，DDPG网的三个主要输入都弄好了。
下面就是关于var这个变量，我们先从下面这个大循环开始吧。把大循环讲完了就结束了
首先，我们讲一下np.clip（）这个函数
介绍
clip函数：限制一个array的上下界
给定一个范围[min, max]，数组中值不在这个范围内的，会被限定为这个范围的边界。如给定范围[0, 1]，数组中元素值小于0的，值会变为0，数组中元素值大于1的，要被更改为1.
参数
numpy.clip(a, a_min, a_max, out=None)
a : array
a_min : 要限定范围的最小值
a_max : 要限定范围的最大值
out : 要输出的array，默认值为None，也可以是原array
下面开始讲大循环：
外循环当然是迭代次数了200
s = env.reset()
ep_reward = 0
reset()函数详解
reset()为重新初始化函数。那么这个函数有什么用呢？
在强化学习算法中，智能体需要一次次地尝试，累积经验，然后从经验中学到好的动作。一次尝试我们称之为一条轨迹或一个episode. 每次尝试都要到达终止状态. 一次尝试结束后，智能体需要从头开始，这就需要智能体具有重新初始化的功能。函数reset()就是这个作用。
每次episode结束之后，将奖励值清零，环境状态也清零，重新开始。唯一没清零的是什么？是学习到的网络的参数
开始小循环，
小循环是，每一个episode中智能体的探索步骤次数，在这个步骤内探索到目标点则结束，探索不到则200次强制结束。
render()函数详解
render()函数在这里扮演图像引擎的角色。一个仿真环境必不可少的两部分是物理引擎和图像引擎。物理引擎模拟环境中物体的运动规律；图像引擎用来显示环境中的物体图像。其实，对于强化学习算法，该函数可以没有。但是，为了便于直观显示当前环境中物体的状态，图像引擎还是有必要的。另外，加入图像引擎可以方便我们调试代码。下面具体介绍gym如何利用图像引擎来创建图像。
好了，我们来看看小循环到底做了什么

小循环就是agent在的探索过程：
首先是DDPG算法选择一个动作，大家在脑袋里想一下那个流程图
a = np.clip(np.random.normal(a, var), -2, 2)#为探索的行动选择添加随机性
首先里面的np.random.normal(a, var)是生成高斯分布的概率密度随机数
其中a是此概率分布的均值（对应着整个分布的中心centre）
var是此概率分布的标准差（对应于分布的宽度，scale越大越矮胖，scale越小，越瘦高）
这边的意思是什么呢？本来呢，DDPG算法输出的是一个确定的动作，而且网络更新呢还是异步的，这就导致算法动作一直是一样的，所以呢，这里就通过这种方式来让动作具有一定随机性，即
np.clip这个函数使用来选择动作的，但是呢，为了防止随机的步子太大扯到了蛋，随意它约束了最终的结果，让np.random.normal(a, var)生成的值在（-2,2）之间。
然后，选择这个动作之后，首先需要让这个动作与环境交互，生成新的s_,r等
s_, r, done, info = env.step(a)
done用于判断是否到目标点。
ddpg.store_transition(s, a, r / 10, s_)
然后DDPG把这一步的记忆存储到记忆池中。
导致一步我们明白了该博客第三节的开头的目的

DDPG是每个步骤存储一次的。
然后看下面这一步，
这个if’条件句判断的是什么？
是当这个记忆池满了之后，前面的高斯函数会变瘦，我给大家画个图


看，这个if条件句的意思就是，当记忆单元存满之后，var会越来越小，越小则函数越瘦，这样的意思就是不用探索了。直接训练，ddpg.learn()就是训练模型。
训练好后，将s_赋值给s，进行下一个步骤累加期望奖励ep_reward += r
然后判断时候到了最终的尝试次数

好了，讲完了…
搞懂了DDPG，下面就可以去想着如何跟实际环境结合了。

深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
坚定理想信念，锤炼党性修养知涵知
理想信念是中国共产党人的政治灵魂，是共产党人精神上的“钙”，没有理想信念，理想信念不坚定，精神上就会“缺钙”，就会得“软骨病”。党员干部只有坚定理想信念，强化责任担当，锤炼道德操守，提升党性修养，才能切实做到为党分忧、为国尽责、为民奉献。坚定理想信念，就要强化学习精神、自律精神、担当精神。思想理论上的坚定清醒是政治上坚定的前提，党员干部要始终把理论学习作为政治责任、事业需要和精神追求，积极参加组织
python 物理引擎_在 Gym 上构建会动的人工智障1（python） weixin_39542608 python 物理引擎
背景说明作者最近使用processing的一个重要目标就是为学生的编程学习设计具体的应用场景，最近突然发现有一个包已经提供了部分功能，所以探索一下。这个包就是我们今天的主人公：Gym。Gym是用于开发和比较强化学习算法的python包，但是我们也完全可以使用它来作为我们自己程序的应用背景，并提供可视化。简单的说，就是我们使用自己写的小程序，而不是强化学习算法，来尝试完成其中的任务，并把完成任务的过
强化学习（二）----- 马尔可夫决策过程MDP Duckie-duckie 机器学习数据数据分析数据挖掘机器学习算法
1.马尔可夫模型的几类子模型大家应该还记得马尔科夫链(MarkovChain)，了解机器学习的也都知道隐马尔可夫模型(HiddenMarkovModel，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(MarkovDecisionProcess,MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作
Python强化学习，基于gym的马尔可夫决策过程MDP，动态规划求解，体现序贯决策 baozouxiaoxian python gym qlearning python 强化学习 mdp 动态规划求解马尔科夫决策过程
决策的过程分为单阶段和多阶段的。单阶段决策也就是单次决策，这个很简单。而序贯决策指按时间序列的发生，按顺序连续不断地作出决策，即多阶段决策，决策是分前后顺序的。序贯决策是前一阶段决策方案的选择，会影响到后一阶段决策方案的选择，后一阶段决策方案的选择是取决于前一阶段决策方案的结果。强化学习过程中最典型的例子就是非线性二级摆系统，有4个关键值，小车受力，受力方向，摆速度，摆角，每个状态下都需要决策车的
强化学习分类 0penuel0
Model-free:Qlearning,Sarsa,PolicyGradientsModel-based:能通过想象来预判断接下来将要发生的所有情况.然后选择这些想象情况中最好的那种基于概率：PolicyGradients基于价值：Qlearning,Sarsa两者融合：Actor-Critic回合更新：Monte-carlolearning，基础版的policygradients单步更新：Ql
7. 深度强化学习：智能体的学习与决策 Network_Engineer 机器学习学习机器学习深度学习神经网络 python 算法
引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。1.强化学习的基本框架强化学习是机器学习的一个分支，专注于智能体在与环境的交互过程中，学习如何通过最大
深度强化学习之DQN-深度学习与强化学习的成功结合 CristianoC
目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。image通常的做法是把
一对一包教会脑电教学服务茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★最近有不少人留言“脑电该怎么学习？想强化学习脑电某个内容版块可以吗？...”，也有小伙伴联系我们，咨询脑电相关内容能
基于时序差分的无模型强化学习：Q-learning 算法详解晓shuo 算法强化学习
目录一、无模型强化学习中的时序差分方法与Q-learning1.1时序差分法1.2Q-learning算法状态-动作值函数（Q函数）Q-learning的更新公式Q-learning算法流程Q-learning的特点1.3总结一、无模型强化学习中的时序差分方法与Q-learning 动态规划算法依赖于已知的马尔可夫决策过程（MDP），在环境的状态转移概率和奖励函数完全明确的情况下，智能体无需与环
（18-1）基于深度强化学习的股票交易模型：项目介绍+准备环境码农三叔强化学习从入门到实践人工智能深度学习股票交易模型 DRL Double DQN Dueling DQN
在本章的这个项目中，实现了一个用于股票交易的DRL模型，旨在展示DRL在金融领域的潜力，提供其在股票交易中应用的实际例子。希望通过本章内容的学习，能够为那些对金融与机器学习交叉领域感兴趣的人士提供有益的参考。1.1项目介绍在金融市场中，股票交易是一项充满挑战的任务，需要在高度波动和复杂的市场环境中做出快速且精准的决策。传统的交易策略通常依赖于经验、基本面分析或技术分析。然而，这些方法往往无法在快速
深度学习算法——Transformer fw菜菜数学建模深度学习 transformer 人工智能数学建模 python pytorch
参考教材：动手学pytorch一、模型介绍Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。Transformer作为编码器－解码器架构的一个实例，其整体架构图在下图中展示。正如所见到的，Trans‐former是由编码器和解码器
sumo carla 自动驾驶联合仿真安装配置教程开发驾驶模拟强化学习 jZhUeZPQZw 自动驾驶人工智能机器学习
sumocarla自动驾驶联合仿真安装配置教程开发驾驶模拟强化学习轨迹预测轨迹规划标题：基于SUMO和CARLA的自动驾驶联合仿真系统安装与配置：教程与开发探索摘要：随着自动驾驶技术的迅猛发展，仿真环境在自动驾驶系统的评估、训练和验证中扮演着重要的角色。本文介绍了基于SUMO（SimulationofUrbanMObility）和CARLA（CarLearningtoAct）的自动驾驶联合仿真系统
Python知识点：如何使用Python实现强化学习机器人杰哥在此 Python系列 python 机器人开发语言编程面试
实现一个强化学习机器人涉及多个步骤，包括定义环境、状态和动作，选择适当的强化学习算法，并训练模型。下面是一个简单的例子，使用Python和经典的Q-learning算法来实现一个强化学习机器人，目标是通过OpenAIGym提供的FrozenLake环境训练机器人学会如何在冰面上移动以找到目标。1.安装必要的库首先，需要安装OpenAIGym和Numpy。你可以使用以下命令安装它们：pipinsta
机器学习在医学中的应用听忆. 机器学习人工智能
边走、边悟迟早会好机器学习在医学中的应用是一个广泛且复杂的领域，涵盖了从基础研究到临床应用的多个方面。以下是一个万字总结的结构性思路，分章节深入探讨不同应用场景、技术方法、挑战与未来展望。1.引言背景与发展：介绍医学领域的数字化转型以及机器学习的兴起，探讨其在医学中的潜力。机器学习的基本概念：简要介绍机器学习的基本原理、分类（监督学习、非监督学习、强化学习等）和常用算法（如神经网络、支持向量机、随
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
学习日志6 Simon#0209 学习
关于量子强化学习：论文Variational_Quantum_Circuits_for_Deep_Reinforcement_Learning：变分量子电路在深度强化学习中的应用论文主要内容：将经典深度强化学习算法（如经验重放和目标网络）重塑为变分量子电路的表示摘要当前最先进的机器学习方法基于经典冯·诺伊曼计算架构，并在许多工业和学术领域得到广泛应用。随着量子计算的发展，研究人员和技术巨头们试图为
【科技前沿】用深度强化学习优化电网，让电力调度更聪明！风清扬雨人工智能人工智能 python 智能电网深度强化学习
Hey小伙伴们，今天我要跟大家分享一个超级酷炫的技术应用——深度强化学习在电网优化中的典型案例！如果你对机器学习感兴趣，或是正寻找如何用AI技术解决实际问题的方法，这篇分享绝对不容错过！‍✨开场白大家好，我是你们的技术小助手！今天我们要聊的是如何利用深度强化学习（DRL）来优化电网的调度，让电力系统变得更智能、更高效。引入话题想象一下，如果你能够通过一种先进的技术手段，自动调整电网中的能源分配，不
大模型对齐方法笔记一：DPO及其变种IPO、KTO、CPO chencjiajy 深度学习笔记机器学习人工智能
DPODPO(DirectPreferenceOptimization)出自2023年5月的斯坦福大学研究院的论文《DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel》，大概是2023-2024年最广为人知的RLHF的替代对齐方法了。DPO的主要思想是在强化学习的目标函数中建立决策函数与奖励函数之间的关系，以规避
多智能体环境设计（二） AI-星辰强化学习自定义环境 python 机器学习
多智能体环境设计：接口设计与实现目录引言PettingZoo框架概述核心接口方法详解3.1reset()方法3.2step(action)方法3.3observe(agent)方法3.4render()方法空间定义4.1观察空间4.2动作空间高级特性5.1并行环境5.2智能体通信5.3动态环境性能优化测试和调试实际应用示例最佳实践和常见陷阱1.引言多智能体环境是强化学习和人工智能研究中的一个重要领
【伤寒强化学习训练】打卡第四十五天一期90天 A卐炏澬焚
3.5.2麻黄汤续讲与大、小青龙汤麻黄九禁【7.18】脉浮紧者，法当汗出而解。若身重心悸者，不可发汗，须自汗出乃愈。所以然者，尺中脉微，此里虚也。须里实，津液自和，便自汗出愈。【7.19】脉浮紧者，法当身疼痛，宜以汗解之。假令尺中迟者，不可发汗。所以然者，以荣气不足，血弱故也。【7.18】：脉浮紧的人照理说要发汗，如果身体重、心悸是不可以发汗；发汗，不一定用麻黄汤，大青龙汤也可以感冒很多人身体都是
从自动驾驶看无人驾驶叉车的技术落地和应用电气_空空自动驾驶自动驾驶机器人人工智能毕设
摘要｜介绍无人驾驶叉车在自动驾驶技术中的应用，分析其关键技术，如环境感知、定位、路径规划等，并讨论机器学习算法和强化学习算法的应用以提高无人叉车的运行效率和准确性。无人叉车在封闭结构化环境、机器学习、有效数据集等方法的助力下，可有效推动叉车无人驾驶关键技术的发展。关键词：无人叉车；自动驾驶；机器学习；数据集随着人工智能技术的持续进步，无人叉车领域的供给与需求均呈现迅猛增长态势。它们不仅正在逐步替代
强化学习自定义环境基础知识 AI-星辰强化学习自定义环境 python 机器学习
1.引言本文旨在全面介绍OpenAIGym自定义环境的创建过程，重点解析其接口、关键属性和函数。本指南适合初学者深入了解强化学习环境的构建原理和实践方法。2.OpenAIGym环境基础OpenAIGym提供了一个标准化的接口，用于创建和使用强化学习环境。了解这个接口的核心组件是创建自定义环境的基础。2.1Env类所有Gym环境都继承自gym.Env类。这个基类定义了环境应该具有的基本结构和方法。i
【《伤寒论》强化学习训练】打卡第32天，一期目标90天最闪亮的那颗星_b02d
一、桂枝加葛根汤和葛根汤不能通用，因为葛根汤里有麻黄，会散阳气。太阳传到阳明时血分受邪，要用麻黄从血分把邪气发出来，所以用葛根汤治燥热感冒。桂枝汤治营卫不调的出汗或桂枝加附子汤治阳虚自汗，不能一开始就用黄芪，黄芪会让桂枝汤发挥不了通营卫的效果，汗止不了。人体表面的能量不足的时候，身体不能收摄自己身体的水分，桂枝加附子汤里有附子，可治阳虚自汗。玉屏风散治表虚的汗有效；桂枝加附子汤治虚汗有效，但是两个
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement