wilbertzhou

剖析强化学习 - 第七部分

作者：Massimiliano Patacchiola

到目前为止，我们已经通过查找表（或者矩阵）表示效用函数。这种方法有一个问题，当潜在的马尔可夫决策过程很大时，有太多的状态和动作存储在内存中。此外，在这种情况下，访问所有可能的状态是非常困难的，这意味着我们无法估计这些状态的效用值。关键问题是泛化：如何产生一个只有很小子集的大状态空间的良好近似。在这篇文章中，我将向您展示如何使用特性的线性组合以便近似效用函数，这项新技术将使我们能够更有效地解决新老问题。例如，在本文中，您将学习如何实现TD(0)算法的线性版本以及如何使用它来查找多个gridworld的效用。

这篇文章的参考文献是Sutton和Barto所著的“泛化和函数逼近” 一书的第8章。另外一个很好的资源是David Silver的视频课程6。任何好的机器学习教科书都会给出函数逼近的更广泛的介绍，我建议阅读Christopher Bishop的模式识别和机器学习。我想通过神经科学领域短暂的旅行开始这篇文章，让我们看看函数逼近器如何与生物大脑相关。

Approximators（逼近器和祖母细胞）

如果不使用强大的逼近器：大脑，你无法阅读这篇文章。第一个原始大脑，一群神经细胞，给了基本生物更好的感知和反应，极大地延长了他们的寿命。千百年来，进化塑造了大脑，优化了容量、模块化和连接性。有一个大脑似乎至关重要，为什么？大脑的目的是什么？我们可以认为世界是一个巨大而混乱的状态空间，在这个空间中，对特定刺激的正确评估会导致生与死之间的差异，大脑存储有关环境的信息并允许与其进行有效的交互。假设我们的大脑是一个巨大的查找表，它可以存储单个状态在单个神经元（或单元）中，这被称为本地表示(local representation)，这个理论通常被称为祖母细胞(grandmother cell)。祖母细胞是一个假想的神经元，只对特定的和有意义的刺激作出反应，比如祖母的形象。这个术语是由认知科学家JerryLettvin提出的，他用它来澄清麻省理工学院讲座期间概念的不一致性。为了描述祖母细胞理论，我将使用下面的例子。假设我们带一个受试者到一个孤立的房间里，不断监测受试者大脑中一组神经元的活动。在受试者前面有一个屏幕，向他展示他的祖母的照片，我们注意到一个特定的神经元被激活，在不同的环境下展示祖母（例如在一组图片中）再次激活神经元，然而在屏幕上显示中性刺激不会激活神经元。

在20世纪70年代，祖母细胞进入神经科学期刊，并开始引起了适当的科学讨论。在同一时期，Gross等人（1972）观察到猴子的颞下皮层中的神经元选择性地对手和面部激活，祖母细胞理论开始被认真研究。这个理论很吸引人，因为它简单易懂，非常直观。然而，对祖母细胞的理论分析证实了许多潜在的弱点，例如，在这个框架中，一个细胞的损失意味着损失了一个特定的信息块，基本的神经生物学观察完全给出了相反的证据。有可能假设存在多个祖母细胞，它们以分布式的方式编码相同的信息，冗余的存在防止信息的损失。这种解释使情况更加复杂，因为存储单个状态需要查找表中有多个条目，存储N个状态为避免信息损失的风险，至少需要2 × N个细胞。祖母细胞的悖论是试图简化大脑的功能，最终使其复杂化。

祖母细胞假说有其他方式吗？我们可以假设信息以分布式的方式存储，并且每个单一的概念通过一种活动模式来表示。Geoffrey Hinton（深度学习的“教父”之一）和James McClelland等研究人员强烈支持这一理论。分布式表示(distributed representation)理论给出的一大优势，有N细胞可能表示超过N个状态，而对于本地表示来说则不然。此外，分布式表示是鲁棒的，它防止了损失，保证了隐含的冗余。虽然每个活动单元的含义不那么具体，但活动单元的组合更具体。要理解这两种表示之间的区别，请参考计算机键盘，在本地表示中，每个单一的键只能编码一个字符，在分布式表示中，我们可以使用组合键（例如Shift和Ctrl）将多个字符关联到同一个键。在下面的图片中（灵感来自Hinton，1984）代表了两个刺激（红色和绿色的点）是如何在本地和分布式方案中编码的，本地方案被表示为一个二维网格，其中总是必须由两个活动单元来编码刺激。我们可以将分布式表示看作径向单元之间的重叠，两个刺激通过封闭在特定激活半径内的单元给出的高级模式进行编码。

使用分布式表示如何解释Gross等人（1972）描述的猴子选择性神经元？选择性神经元可以是封装信息的底层网络的可见部分。进一步的研究表明，这些选择性神经元在其反应性方面有很大的变化，并且它与面部的不同方面有关。这一观察结果表明，这些神经元嵌入了脸部的分布式表示。

如果你认为祖母细胞理论是七十年代出生和死亡的东西，那么你错了。近年来，本地表示理论得到了生物学观察的支持（参见Bowers 2009），然而这些结果受到了Plaut和McClelland（2009）的强烈批评。对于最近的一项调查，我建议你阅读这篇文章。从机器学习的角度来看，我们知道分布式表示的工作原理，深度学习的成功基于神经网络，它是强大的函数逼近器。另外，不同的方法，如dropout，与分布式表示理论密切相关。现在是回到强化学习的时候了，看看分布式表示如何解决由于本地表示造成的问题。

函数逼近的直觉

在这里我将再次使用之前文章中描述的清洁机器人示例。机器人在我们称之为gridworld的二维世界中移动，它只有4种可能的动作可用（前进、后退、左、右），其目标是到达充电器（绿色电池）并避免落在楼梯（红色电池）上。我用U(s)定义通常的效用函数，以及Q(s,a)定义状态-行动函数。网格世界是一个离散的矩形状态空间，具有c列和r行。使用表格方法，我们可以使用包含r × c = N个元素的表格表示U(s)，其中N代表状态的总数。为了表示Q(s,a)，我们需要一个大小为N × M的表格，其中M是动作的总数。在以前的文章中，我总是用矩阵表示查找表，作为效用函数，我使用了和世界具有相同大小的矩阵，而对于状态-动作函数，我使用了具有N列（状态）和M行（动作）的矩阵。在第一种情况下，为了获得效用，我们必须访问与我们所处的特定状态相对应的矩阵的位置；在第二种情况下，我们使用状态作为索引来访问状态-动作矩阵中的列，并从该列返回所有可用动作的效用。

我们如何在这个方案内拟合函数逼近机制？我们从一些定义开始，定义S={s1,s2,...,sN}为一组可能的状态， A={a1,a2,...,sM}为一组可能的动作，定义一个效用函数逼近器Û(S,w)，其参数存储在向量w中。在这里我使用带有上面帽子的Û函数来和表格版本U进行区分。

在解释如何创建函数逼近器之前，将其可视化为黑盒子很有帮助。下面介绍的方法可以用于不同的逼近器，因此我们可以很容易地将它应用于盒子内容。黑盒子将当前状态作为输入，并返回状态的效用或状态-动作的效用，主要优点是相对于表格方法，我们可以使用较少的参数逼近（具有任意小误差）效用。我们可以说存储在向量w中的元素的数量小于表格对应的值的数量N。

我猜你的脑中会有个问题：黑盒子里面有什么？这是一个合情合理的问题，现在我会尽力给你直觉的解释。在这种情况下黑盒子就是逼近一个效用函数，盒子的内容是Û (s,w)。您可以将效用函数想象为音乐混合器，权重的向量w作为混合器的滑块，我们想要调整滑块以获得与预定义音调相似的声音，怎么做？我们可以移动其中一个滑块并将输出与参考音调进行比较，如果输出与参考更类似，我们知道我们正确地移动了滑块。多次重复这个过程，我们最终获得与参考声音非常相似的音调。使用更正式的观点，我们可以说矢量w在每次迭代中调整，移动一个Δ量的值，以达到最小化成本函数的目标。成本由一个误差度量给出，我们可以将这个函数的输出与一个目标进行比较。例如，我们从以前的帖子就知道，我们在gridworld中的状态（4,1）的实际效用值是0.388。假设在时间t该盒子的输出是0.352，在更新步骤之后的输出是0.371，我们移动的结果更接近了目标值。

函数逼近是监督学习的一个实例。原则上，所有监督学习技术都可以用于函数逼近。矢量w可以是神经网络的连接权值或决策树的分裂点和叶子值的集合。然而在这里，我将只考虑可微函数逼近器，如特征和神经网络的线性组合，它代表了当今最有前途的技术。在这篇文章中，我将重点介绍特性的线性组合。

在描述线性逼近器的最简单情况之前，我想介绍用于调整权值向量的一般方法。函数逼近的目标是通过调整存储在w中的内部参数使其尽可能接近实际效用函数。为了实现这个目标，我们需要两件事情，第一是误差度量，它可以给我们一个关于我们与目标有多接近的反馈，第二是调整权重的更新规则。在下一节中，我将描述这两个组件。

方法

为了提高函数逼近器的性能，我们需要一个误差度量和一个更新规则，这两个组件在每个监督式学习技术的学习周期中都紧密合作，他们在强化学习中的使用与他们在分类任务中的使用方式没有多大区别。为了理解本节，您需要了解多变量微积分的一些概念，例如偏导数和梯度。

误差度量：常见误差度量由两个量之间的均方误差（MSE）给出。例如，如果我们有最优效用函数U∗(S)和一个逼近函数Û (s,w)，那么MSE定义如下：

就是这样，MSE是由期望E[(U∗ (s)− Û(s,w))2]给出，表示期望量化目标与逼近器输出之间的差异。当训练正常运行时，MSE会降低意味着我们越来越接近最优效用函数。MSE是监督学习中常用的损失函数，然而，在强化学习中，经常使用称为均方值误差（MSVE）的MSE的重新定义。所述MSVE引入一个分布μ(s)≥0，它规定了我们对每个状态s的关心程度。正如我告诉你的，函数逼近器是基于一组包含的元素数量少于状态总数的权重w，由于这个原因，调整权重的一个子集意味着提高某些状态的效用预测，但是会降低其它状态的精度。我们资源有限，必须认真管理它们，函数μ(s)给了我们一个明确的解决方案并使用它，我们可以重写以前的方程如下：

更新规则：可微逼近器的更新规则是梯度下降(gradient descent)。梯度是施加到多变量的标量值函数的导数概念的推广。您可以将梯度想象为指向最大增长率方向的矢量，直观地说，如果你想要到达山顶，那么梯度就是一个路标，在每个时刻都会显示你应该走向哪个方向。梯度通常用操作符∇表示，也被称为nabla。梯度下降的目标是最小化误差度量。我们可以实现向负梯度向量方向移动的目标，这意味着我们不再移动到山顶，而是向下移动，在每一步我们调整参数向量w向谷底靠近一步。首先，我们必须估计MSE(w)或MSVE(w)的梯度向量，这些误差函数基于w，为了得到梯度向量，我们必须计算每个权重相对于所有其他权重的偏导数。其次，一旦我们有梯度向量，我们必须根据梯度的负方向调整所有权重的值。用数学术语来说，我们可以在t+1时刻更新向量w如下：

最后一步应用了链式规则(chain rule)，因为我们正在处理一个函数组合。我们希望找到关于权重的误差函数的梯度向量，并且权重是我们的函数逼近器Û(s,wt)的一部分。数量1/2前面的减号用于改变梯度向量的方向，请记住，梯度指向山顶，而我们想要到底部（最小化误差）。最后，上面的规则告诉我们，我们需要的是逼近器的输出和它的梯度。寻找线性逼近器的梯度特别容易，而在非线性逼近器（例如神经网络）中，它需要更多的步骤。

在这一点上，你可能会认为我们有开始学习过程所需要的一切，然而还缺少一个重要的部分，我们认为使用最优效用函数U∗作为误差估计步骤中的目标是有可能的。我们没有最佳的效用函数，想想看，拥有这个函数意味着我们根本不需要逼近器。来到我们的网格世界中，我们可以简单地在每个时间步骤t调用U∗(st)并获得该状态的实际效用值。我们可以建立一个目标函数U∼来解决这个问题，它代表一个近似的目标并将其应用到我们的公式中：

如何估计近似目标？我们可以采用不同的方法，例如使用Monte Carlo或TD学习。在下一节中，我将介绍这些方法。

目标估计

在上一节中我们得出结论，我们需要近似目标函数U∼(s)和Q∼(s,a)用于误差评估和更新规则，所使用的目标类型是强化学习中函数逼近的核心。有两种主要方法：

蒙特卡洛目标(Monte Carlo target)：通过与环境的直接交互可以获得目标的近似值。使用蒙特卡洛方法（见第二篇文章），我们可以生成一个episode，并基于过程中遇到的状态更新函数U∼(s)。因为E[U∼(s)]= U∗ (s)所以最优函数U∗(s)的估计是无偏的，意味着预测保证收敛。

自助目标(Bootstrapping target)：用于构建目标的另一种方法称为自助，我在第三篇文章中介绍了它。在自助方法中，我们不必完成一个用于估计目标的episode，而是可以在每次访问后直接更新逼近器参数。自助目标的最简单形式是基于TD(0)的自助目标，其定义如下：

就是这样，目标是通过逼近器本身在st+1给出的近似值获得的。

我已经写了两种方法之间的区别，但是在这里我想在函数逼近的新环境中再次讨论它，在这两种情况下的函数U∼(s)和Q∼(s,a)基于权重w的向量，为此，我们打算从现在开始，使用正确的符号U∼(s,w)和Q∼(s,a,w)。在基于梯度的逼近器中使用自助法时，我们必须特别小心。自助法不是真正的梯度下降，因为它们只关心Û(s,w)中的参数。在训练时我们基于误差的度量调整在逼近器Û(s,w)中的w，但我们不改变基于误差度量的目标函数U∼(s,w)中的参数。自助法忽略了对目标的影响，仅考虑估计的梯度，由于这个原因，自助技术被称为半梯度法(semi-gradient methods)。由于这个问题，半梯度方法不能保证收敛。在这一点上，你可能会认为使用蒙特卡罗方法更好，因为至少它能保证收敛。自助法有两个主要优点。首先，它们能在线学习，并不需要完成episode来更新权重；其次，他们学习速度更快，并且计算更友好。

广义策略迭代（GPI）（见第二篇文章），在这里也适用。假设我们从一组随机权重开始，在第一步中，agent遵循ε-贪婪策略在最高效用的状态下移动，在第一步之后，可以使用梯度下降来更新权重。这种调整的效果是什么？效果是略微改善效用函数。在下一步，agent再次遵循贪婪策略，然后通过梯度下降更新权重，以此类推。正如你所看到的，我们再次应用了GPI方案。

线性逼近器(Linear approximator)

是时候把所有东西都放在一起了！我们已经建立了基于误差度量和更新规则的方法，并且我们知道如何估计目标。现在我将向您展示如何构建一个逼近器，由函数Û(s,w)表示的黑盒的内容。我将描述一个线性逼近器，它是线性组合的最简单情况，而在下一节中，我将描述一些高阶逼近器。在描述线性逼近器之前，我想澄清一个关键点以避免常见的误解，线性逼近器是更广泛的特征的线性组合的特例。线性组合基于多项式，它可以是或不是一条直线，仅使用一条直线来区分状态可能非常有限。线性组合意味着参数是线性组合的。我们没有提到任何有关输入特征的信息，事实上这些输入特征可能由高阶多项式表示。希望这个区别在帖子结尾会很清楚。

在线性逼近器中，我们将状态建模为向量x。该向量包含时间t的当前状态值，这些值被称为特征。向量x有不同的符号表示，但最常见的是x(st)和xt，我将使用这两个符号。这些特征可以是机器人的位置，倒立摆的角度位置和速度，围棋游戏中的棋子布局等。这里我还定义了w作为我们的线性逼近器的权重（或参数）的向量，它和x的元素数量相同。现在我们有两个向量，我们希望在线性函数中使用它们。怎么做？很简单，我们必须象下面这样在x和w之间执行点积：

如果你不习惯线性代数符号，不要害怕，这相当于以下的总和：

其中N是特性的总数。在几何上，这个解决方案由一条线（在二维空间中），一个平面（在三维空间中）或超平面（在超空间中）表示。现在我们知道黑盒的内容，它由向量x和w的乘积给出。然而，为了应用上一节中描述的方法，我们仍然需要误差度量、更新规则和目标。使用MSE，我们可以按如下方式定义误差度量：

使用TD(0)定义，我们可以如下定义目标：

之前定义的更新规则也可以在这里重用，但是我们必须引入奖励rt+1以及强化学习定义所要求的折扣因子gamma：

很好，我们几乎有了我们所需要的一切。我几乎忘了说明最后一点，更新规则需要梯度∇wÛ(s,w)。如何找到它？事实证明，线性逼近器的梯度简化为非常好的形式。首先，根据以前的定义，我们可以按如下方式重新定义梯度：

现在我们必须找到函数逼近器关于每个单个权重w1、w2、...的偏导数…。对于每个未知数，我们必须找到将其他未知数视为常数的导数，例如，第一个未知w1的偏导数是简单的x1，因为所有其他值都被认为是常数值，常数的导数为零：

对所有其他权重应用相同的过程，我们会得到以下梯度向量：

仅此而已，梯度是输入向量x(s)。现在我们可以重写更新规则如下：

太好了，这是线性逼近器更新规则的最终形式。我们拥有我们现在需要的一切。让我们开始派对吧！

应用：gridworld（偏置项）

假设我们有一个方形网格世界，充电站（绿色单元）和楼梯（红色单元）分布在多个地点。正值和负值单元的位置可能会有所不同，从而产生四个世界我称之为OR-world、AND-world、NAND-world、XOR-world。世界的规则与前一篇文章中定义的相似，机器人有四个可用的动作：前进、后退、左、右，当执行动作时，有0.2的概率可能会导致错误的移动。绿色单元的奖励为正值（+1.0），红色单元为负值（-1.0），所有其他情况下无奖励值。状态的索引约定是通常的（列，行），其中（0,0）表示左下角的单元，（4,4）表示右上角的单元。

如果您熟悉布尔代数，您已经注意到世界中存在反映基本布尔运算的模式。从几何角度来看，当我们将线性逼近器应用于布尔世界时，我们试图在三维空间中找到一个平面，该平面可以区分具有高效用（绿色单元）和低效用状态（红色单元）。

在三维空间中，x轴由世界的列表示，而y轴由行表示，效用值由给定z轴给出。在梯度下降期间，我们不断改变权重，调整平面的倾斜度以及与每个状态相关的效用。为了更好地理解这一点，你在Wolfram Alpha中带入方程z=x+y，并查看结果图。更改与x和y关联的系数，会更改与这些特征相关的权重，而您实际上正在移动平面。用再试一次，或者如果你懒惰，请点击这里。

Python实现是基于自由在世界中移动的随机agent。在这里，我们只对估算状态效用感兴趣，我们不想找到一个策略。代码的核心是上一节中定义的更新规则，这要归功于Numpy，几行代码就可以搞定：

def update(w, x, x_t1, reward, alpha, gamma, done):
  '''Return the updated weights vector w_t1

  @param w the weights vector before the update
  @param x the feauture vector obsrved at t
  @param x_t1 the feauture vector observed at t+1
  @param reward the reward observed after the action
  @param alpha the ste size (learning rate)
  @param gamma the discount factor
  @param done boolean True if the state is terminal
  @return w_t1 the weights vector at t+1
  '''
  if done:
    w_t1 = w + alpha * (reward - np.dot(x,w)) * x)
  else:
    w_t1 = w + alpha * ((reward + (gamma*(np.dot(x_t1,w))) - np.dot(x,w)) * x)
  return w_t1

函数numpy.dot()是点积的实现，条件语句用于区分终止（done=True）和非终止（done=False）状态。在终止状态的情况下，只使用奖励获得目标，这是显而易见的，因为在终止状态之后，没有另一个状态用于近似目标。你可以在系列的官方GitHub仓库中查看完整的代码，python脚本名称为boolean_worlds_linear_td.py。在我的实验中，我设置了学习率α = 0.001，我线性地减少它到10– 6，运行3 × 104次迭代，权重随机地在[ - 1 ，+ 1 ]范围内初始化。使用matplotlib我在三维图中绘制为世界生成的平面：

平面的表面是线性逼近器返回的效用值，效用在红色单元附近应该为-1，在绿色单元附近为+1。然而，检查图我们注意到一些奇怪的事情发生了，除了OR-world，其它世界的平面是水平的，所得到的效用总是接近零。似乎逼近器根本不工作，并且其输出始终为空。到底怎么回事？我们目前对逼近器的定义没有考虑到一个重要因素，即平面平移。在xy平面上我们只有两个权重用于旋转表面，但是我们无法上下平移它。如果您考虑gridworld的单元(0,0)，这个问题会变得很清楚。这个单元的输入向量是x={0,0}，给定这个输入，不管我们为权重选择哪个值，当我们执行点乘积xTw时我们将最终得到零的效用。从几何的角度来看，平面可以旋转，但它被限制穿过点(0,0)。例如，在AND-world中，(0,0)中的约束特别令人不安，(4,4)中的效用无法调整到1.0，因为(0,4) 和(4,0)中的其他两个红色单元会出现更高的误差，最好的办法是保持平面水平，类似的推理可以应用于其它世界。只有在OR-world中，才有可能调整倾斜度并满足所有约束条件。我们如何解决这个问题？我们必须介绍偏置单元(bias unit)。偏置单元可以表示为总是等于1的附加输入。使用偏置单元，输入矢量变为x={x1,x2,...,xN,xb}，其中xb = 1。同时，我们必须在权向量w={w1,w2,...,wN,wb}中增加一个附加值，附加权重wb与其他权重类似地更新。再次使用Wolfram Alpha，您可以看到在我们通常的方程z = x + y + 1中插入偏置的效果是什么，以及关于具有零偏置的相同方程z = x + y的差异。我再次运行boolean_worlds_linear_td.py脚本，设置变量use_bias=True并使用与以前相同的超参数，获取以下图形：

结果好多了！平面不再水平，因为引入了偏置项，这样才有可能上下移动。现在可以调整平面以适应所有的限制，该脚本还将打印由该逼近器返回的权重向量和效用：

------AND-world------
w: [ 0.12578254  0.12194905 -0.71257655]
[[-0.21 -0.09  0.03  0.16  0.28]
 [-0.34 -0.21 -0.09  0.03  0.15]
 [-0.46 -0.34 -0.22 -0.1   0.03]
 [-0.59 -0.46 -0.34 -0.22 -0.1 ]
 [-0.71 -0.59 -0.47 -0.35 -0.22]]

------NAND-world------
w: [-0.12242233 -0.12346582  0.71111163]
[[ 0.22  0.1  -0.03 -0.15 -0.27]
 [ 0.34  0.22  0.1  -0.03 -0.15]
 [ 0.47  0.34  0.22  0.1  -0.03]
 [ 0.59  0.47  0.34  0.22  0.09]
 [ 0.71  0.59  0.46  0.34  0.22]]

------OR-world------
w: [ 0.12406486  0.11832163 -0.26037356]
[[ 0.24  0.35  0.47  0.59  0.71]
 [ 0.11  0.23  0.35  0.47  0.59]
 [-0.01  0.11  0.22  0.34  0.46]
 [-0.14 -0.02  0.1   0.22  0.34]
 [-0.26 -0.14 -0.02  0.09  0.21]]

------XOR-world------
w: [ 0.00220366 -0.00094763  0.00044972]
[[ 0.01  0.01  0.01  0.01  0.01]
 [ 0.01  0.01  0.01  0.    0.  ]
 [ 0.    0.    0.    0.    0.  ]
 [ 0.    0.    0.   -0.   -0.  ]
 [ 0.   -0.   -0.   -0.   -0.  ]]

在终端上打印的效用矩阵可以计算gridworld每个状态的线性逼近器的输出。在Numpy中，状态(0,0)是左上角的元素，打印矩阵时很难阅读，出于这个原因，矩阵已经被垂直翻转以便将值与gridworld的单元匹配。从效用值我们可以看到，在大多数的世界里，它们都非常好。例如，在AND-world中，我们应该有一个-1.0的状态(0,0)，逼近器返回-0.71的效用（矩阵中的左下角元素）。在另外两个红色单元中，值是-0.21和-0.22，它们并不如此接近-1.0，但至少是负值。状态（4,4）中的正单元具有1.0的效用，逼近器返回0.28。

在这一点上，应该清楚为什么使用函数逼近器是至关重要的。通过查找表方法，我们可以使用5行5列的表来表示布尔世界的效用，总共有25个变量保存在内存中。现在我们只需要两个权重和一个偏置，总共有3个变量。一切似乎都很好，我们有一个逼近器，它工作得很好，很容易调整。但是我们的问题还没有完成，如果你看看XOR-world，你会发现平面仍然是水平的。这个问题比前一个严重得多，并且没有办法解决它。在XOR-world中没有可以分隔红色和绿色单元的平面。尝试一下，调整平面以满足所有的限制条件，其结果是不可行的。该XOR-world 不是线性可分的，使用线性逼近器我们只能近似线性可分的函数。我们为XOR-world逼近效用函数的唯一机会是真正地去弯曲平面，要做到这一点，我们必须使用更高阶的逼近器。

高阶逼近器

线性逼近器是最简单的逼近方式。线性方式吸引人的地方，不仅因为它简单，而且因为它保证了收敛。但是，线性模型中存在一个重要的限制：它不能表示特征之间的复杂关系。就是这样，线性方式不允许表示特征之间的交互，这种复杂的交互自然会出现在物理系统中。有些特征只有在没有其它特征时才可以提供信息。例如，倒立摆角位置和速度紧密联系，高角速度是好的还是坏的取决于杆的位置。如果角度高，那么高角速度意味着即将发生坠落的危险，而如果角度低，那么高角速度意味着杆正在自我调整。

解决异或问题非常简单，只需附加特性。

如果你看看方程，我添加的是新的项x1x2w3，这个项引出了两个特征x1和x2之间的关系。现在，由方程表示的表面不再是一个平面，而是一个双曲抛物面，一个完全适应XOR-world的鞍形曲面。我们不需要重写更新函数，因为它保持不变。我们总是有一个特征的线性组合，并且梯度总是等于输入向量。在存储库中，您会找到另一个脚本xor_paraboloid.py，其中包含新逼近器的实现。运行与线性情况下使用的参数相同的脚本，我们会得到下图：

这里抛物面是用四种不同的视角表示的。训练结束时获得的结果表明效用值非常好。

w: [ 0.36834857  0.36628493 -0.18575494 -0.73988694]
[[ 0.73  0.36 -0.02 -0.4  -0.77]
 [ 0.37  0.17 -0.02 -0.21 -0.4 ]
 [-0.   -0.01 -0.01 -0.02 -0.02]
 [-0.37 -0.19 -0.01  0.17  0.35]
 [-0.74 -0.37 -0.01  0.36  0.73]]

我们应该在左下角和右上角有-1，逼近器返回-0.74和-0.77，这一结果是很好的估计。针对正状态类似的结果已经在左上角和右下角处得到，其中近似值返回0.73和0.77，这非常接近1.0的真实效用。我建议您使用不同的超参数（例如学习率alpha）来运行脚本，以查看最终绘图和效用表上的效果。

几何上的直觉是有帮助的，因为它给出了不同逼近器的更直接的直觉。我们看到，使用附加特征和更复杂的函数可以更好地描述效用空间。高阶逼近者可能会发现特征之间有用的联系，而纯粹的线性逼近者则不可能。高阶逼近器的一个例子是二次逼近器，在二次逼近器中，我们使用二阶多项式来模拟效用函数。

选择正确的多项式并不容易。像线性算子这样的简单逼近器可能会错过特征与目标之间的相关关系，而高阶逼近器可能无法推广到新的不可见的状态，通过机器学习中已知的微妙折衷(偏差-方差折衷)来实现最佳平衡。

结论

在这篇文章中，我介绍了函数逼近，并且我们看到了如何基于误差度量、更新规则和目标构建方法论。这种方法非常灵活，我们将在未来的帖子中再次使用它。此外，我介绍了线性方法，这是最简单的逼近器，线性函数逼近受到限制，因为它无法捕获要素之间的重要关系。使用高阶多项式通常可以解决问题，但仍然是一种有限的方法，因为对特征之间的关系进行建模仍然存在着设计选择。在复杂的物理系统中，多个元素之间相互作用，很难找到可能描述这些关系的正确多项式。如何解决这个问题呢？我们可以使用非线性函数逼近器。在下一篇文章中，我将介绍神经网络，并向您展示如何在强化学习中使用它。

索引

1. [第一篇]马尔科夫决策过程，贝尔曼方程，值迭代和策略迭代算法。

2. [第二篇]蒙特卡罗概念，蒙特卡洛方法，预测与控制，广义策略迭代，Q函数。

3. [第三篇]时间差分概念，动物学习，TD(0), TD(λ)和资格痕迹，SARSA，Q-learning。

4. [第四篇] Actor-Critic方法背后的神经生物学，计算Actor-Critic方法，Actor-only和Critic-only方法。

5. [第五篇]进化算法介绍，强化学习中的遗传算法，遗传算法的策略选择。

6. [第六篇]强化学习应用，多臂老虎机，山地车，倒立摆，无人机着陆，难题。

7. [第七篇]函数逼近概念，线性逼近器，应用，高阶逼近器。

8. [第八篇] 非线性函数逼近，感知器，多层感知器，应用，政策梯度。

资源

· The complete code for theReinforcement Learning Function Approximation is available on the dissecting-reinforcement-learningofficialrepository on GitHub.

· Reinforcement learning:An introduction (Chapter 8 ‘Generalization and Function Approximation’) Sutton, R.S., & Barto, A. G. (1998). Cambridge: MIT press. [html]

参考

Bowers, J. S. (2009). On the biological plausibility ofgrandmother cells: implications for neural network theories in psychology andneuroscience. Psychological review, 116(1), 220.

Gross, C. G., Rocha-Miranda, C. E. D., & Bender, D. B.(1972). Visual properties of neurons in inferotemporal cortex of the Macaque.Journal of neurophysiology, 35(1), 96-111.

Gross, C. G. (2002). Genealogy of the “grandmother cell”. TheNeuroscientist, 8(5), 512-518.

Hinton, G. E. (1984). Distributed representations.

Plaut, D. C., & McClelland, J. L. (2010). Locating objectknowledge in the brain: Comment on Bowers’s (2009) attempt to revive thegrandmother cell hypothesis.

你可能感兴趣的:(人工智能)

使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
DeepSeek API在AutoCAD中的创新应用与挑战 CodeJourney. 数据库算法人工智能
在数字化设计领域，随着人工智能技术的飞速发展，将AI能力融入传统设计软件成为提升设计效率和质量的重要趋势。AutoCAD作为广泛应用的计算机辅助设计软件，与DeepSeekAPI的结合展现出了巨大的潜力。这种融合不仅为设计工作带来了全新的思路和方法，还在多个方面对设计流程进行了优化和创新。一、DeepSeekAPI赋能AutoCAD的多元应用场景（一）智能设计辅助：让创意快速落地在传统设计过程中，
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
DeepSeek的崛起：2025新春国产AI模型的全球影响力耶耶Norsea 网络杂烩人工智能百度
摘要在2025年新春之际，国产AI模型DeepSeek以现象级的姿态迅速崛起，凭借免费、易用及高性能的特点，吸引了全球科技界的广泛关注。这款大型人工智能模型不仅展现了国产技术的实力，还为用户提供了高效便捷的使用体验，成为行业内的焦点。关键词DeepSeek崛起,2025新春,国产AI模型,免费易用,高性能特点一、国产AI的崭新篇章1.1DeepSeek的诞生背景在2025年新春之际，DeepSee
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
ONE Deep模型：LG AI Research的开源突破耶耶Norsea 网络杂烩自动化
摘要由LGAIResearch开发的ONEDeep系列开源AI模型，参数规模覆盖2.4亿至32亿。经评估，2.4B参数规模的ONEDeep模型在性能上优于同类其他模型，展现出显著优势。这一成果为AI技术的应用与研究提供了强有力的支持。关键词ONEDeep模型,开源AI模型,LGAIResearch,2.4B参数,性能优越一、ONEDeep模型概述1.1ONEDeep模型的开发背景在当今人工智能技术
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造” 耘瞳科技科技
在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作……作为南京市机器人产业“一核多翼”布局的“核”，江宁开发区当前聚集人工智能产业核心及上下游关联企业超百家。近日，《南京日报》走访了多家链条上的“明星企业”，耘瞳科技作为中国领先的智能检测与测量
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
编程行业必备！12个热门AI工具帮你写代码~ DevSecOps选型指南人工智能软件供应链安全工具代码安全开发助手 SAST 安全
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s