coderpai

强化学习入门及其实现代码

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai

介绍

目前，对于全球科学家而言，“如何去学习一种新技能”成为了一个最基本的研究问题。为什么要解决这个问题的初衷是显而易见的，如果我们理解了这个问题，那么我们可以使人类做一些我们以前可能没有想到的事。或者，我们可以训练去做更多的“人类”工作，常遭一个真正的人工智能时代。

虽然，对于上述问题，我们目前还没有一个完整的答案去解释，但是有一些事情是可以理解的。先不考虑技能的学习，我们首先需要与环境进行交互。无论我们是学习驾驶汽车还是婴儿学习走路，学习都是基于和环境的相互交互。从互动中学习是所有智力发展和学习理论的基础概念。

强化学习

今天，我们将探讨强化学习，这是一种基于环境相互交互的学习算法。有些人认为，强化学习是实现强人工智能的真正希望。这种说法也是正确的，因为强化学习所拥有的潜力确实是巨大的。

目前，有关强化学习的研究正在快速增长，人们为不同的应用程序生成各种各样的学习算法。因此，熟悉强化学习的技术就变得尤其重要了。如果你还不是很熟悉强化学习，那么我建议你可以去看看我以前有关强化学习文章和一些开源的强化学习平台。

一旦你已经掌握和理解了强化学习的基础知识，那么请继续阅读这篇文章。读完本文之后，你会对强化学习有一个透彻的了解，并且会进行实际代码实现。

注：在代码实现部分，我们假设你已经有了Python的基本知识。如果你还不知道Python，那么你应该先看看这篇教程。

强化学习是学习如何去做，如何根据与环境的交互采取相应的行动。最终的结果就是使得系统的回报信号数值最大化。学习者不会被告知去执行哪个行动，而是要他自己去发现哪种行动将产生最大的回报。让我们通过一个简单的例子来解释一下：

我们将一个正在学习走路的孩子作为一个例子。

以下是孩子在学习走路时所要采取的步骤：

1.孩子会观察的第一件事，就是注意你是如何走路的。你使用两条腿，一次走一步，一步一步往前走。孩子会抓住这个概念，然后试图去模仿你。

2.但很快他/她又会明白，在走路之前，孩子必须先站起来！在学习走路的时候，这对于孩子来说是一个挑战。因此，孩子试图自己站起来，他/她不断跌倒，但是任然不断地站起来。

3.然而还有另外一个挑战需要应付。站起来是相对容易的，但是要保持站立状态就是另一个挑战了。在一个狭小的空气中，找到支撑，孩子设法保持站立。

4.现在，孩子的真正任务就是开始学习走路了。但是学习走路说起来很容易，而实际做起来就不是那么容易了。在孩子的大脑中需要处理很多事情，比如平衡身体，决定哪个脚是下一次需要放下的，放在哪里。

这听起来像是一个很困难的任务，对吗？它实际上确实是一个挑战，先要学习站立，然后才能学习行走。但是，现在我们不都学会了走路嘛，再也不会被这个问题所困扰了。现在，你可以明白，为什么这对于孩子是多么困难的原因了。

让我们形式化上面的例子。例子所要陈述的问题是“走路问题”，其中孩子是一个试图通过采取行动（走路）来操纵环境（在地上走路）的智能体，他/她试图从一个状态（即，他/她走的每一步）转移到另一个状态。当他/她完成任务的一个子模块（即，孩子走了几步）时，孩子会获得奖励（比如，一些巧克力），但是当他/她不会走路时，他/她不会收到任何巧克力（这是一个负反馈过程）。这就是像话学习问题的简单描述。

这是一个有关强化学习很好的介绍视频。

2. 与其他机器学习方法的比较

强化学习属于更打雷的机器学习算法。以下是有关机器学习算法类型的描述。

让我们比较一下强化学习算法和别的类型算法之间的区别：

监督学习与强化学习：在监督学习中，在外部有一个“监督主管”，它拥有所有环境的知识，并且与智能体一起共享这个知识，从而帮助智能体完成任务。但是这样存在一些问题，因为在一个任务中，其中存在如此多的子任务之间的组合，智能体应该执行并且实现目标。所以，创建一个“监督主管”几乎是不切实际的。例如，在象棋游戏中，存在数万个可以移动的玩法。因此，去创建一个可以获胜的玩法知识库是一个单调乏味的任务。在这些问题中，从自己的经验中学习，并且获得知识是更加合理可行的。这就是强化学习和监督学习的主要区别。在监督学习和强化学习中，在输入和输出之间都存在映射。但是在强化学习中，存在的是对智能体的奖励反馈函数，而不是像监督学习直接告诉智能体最终的答案。
无监督学习与强化学习：在强化学习中，有一个从输入到输出的映射过程，但是这个过程在无监督学习中是不存在的。在无监督学习中，主要任务是找到一个最基础的模式，而不是一种映射关系。例如，如果任务是向用户推荐新闻文章，则无监督学习算法是先查看该人以前读过的类似文章，并把它们推荐给其他人。而强化学习算法则是，通过用户的一些文章，并且获得用户的不断反馈，从而构建一个“知识图谱”，从而得知用户与文章之间的喜爱关系。

还有第四种类型的机器学习，成为半监督学习，其本质上是监督学习和无监督学习的组合。它不同于强化学习，类似于监督学习和半监督学习具有直接的参照答案，而强化学习不具有。

3.解决强化学习问题的框架

为了理解如何去解决一个强化学习问题，让我们通过一个经典的例子来说明一下强化学习问题——多臂赌博机。首先，我们需要了解探索与开发的基本问题，然后去定义解决强化学习问题的框架。

老虎机如上图，假设你已经在老虎机上面玩了很多次了。

现在你想做的是从老虎机上面获得最大的回报，并且尽可能的快。你会怎么做呢？

一个比较天真的想法是，只选择一个老虎机，然后一整天都在玩它。这听起来非常无聊，但老虎机可能会给你一些“报酬”，即让你赢钱。使用这种方法，你可能中奖的概率大约是0.00000…..1。也就是说，大多数时间你可能知识坐在老虎机面前亏钱。正式说明一下，这可以被定义为一种纯粹的开发方法。但是这是最佳选择吗？答案当然是否定的。

让我们看看另外一种方法。我们可以拉每个老虎机的拉杆，并且向上帝祈祷，让我们至少打中一个。当然，这是另一种天真的想法，你只会一天都在拉动拉杆，但只是给你一点点报酬。正式说明一下，这种方法只是一种纯粹的探索方法。

这两种方法都不是最优的，我们必须在它们之间找到适当的平衡点，已获得最大的回报。这被称为强化学习的探索和开发困境。

首先，我们正式的定义解决强化学习问题的框架，然后列出可能的方法来解决这个问题。

马尔科夫决策过程：

在强化学习场景中，我们定义问题的数学框架被称之为马尔科夫决策过程。这可以被设计为：

状态集合：S
动作集合：A
奖励函数：R
策略：π
价值：V

我们必须采取一定的行动（A），让我们从开始状态移动到结束状态（S）。每当我们采取一个行动之后，我们都会得到一定的回报作为奖励。当然，所获得的奖励的性质（正面奖励还是负面奖励）是由我们的行动决定的。

我们的策略集合（π）是由我们的动作集合来确定的，而我们得到的回报确定了我们的价值（V）。在这里，我们的任务就是通过选择正确的策略来最大化我们的价值。所以我们必须最大化下面的方程：

对于时间t，所有可能的S。

旅行推销员问题

让我们通过另外一个例子来说明一下。

这个问题是一系列旅行商（TSP）问题的代表。任务是以尽可能低的成本，完成从地点A到地点F。两个字母之间的每条边上的数字表示两地之间的距离花费。如果这个值是负数，那么表示经过这条路，你会得到一定的报酬。我们定义价值是当你用选择的策略走完整个路程时，所获得的总价值。

这里说明一下符号：

状态节点集合：{A,B,C,D,E,F}
动作集合是从一个地点到另一个地点：{A->B, C->D, etc}
奖励函数是边上的值
策略函数指的是完整的路径规划，比如: {A -> C -> F}

现在假设你在地点A，唯一你能看见的路就是你下一个目的地（也就是说，你只能看见B，D，C，E），而别的地点你是不知道的。

你可以采取贪心算法，去获取当前状态下最有利的步骤，也就是说你从{A -> (B,C,D,E)}中选择采取 {A->D} 这种方法。同样，现在你所在的地点是D，想要到达地点F。你可以从{D -> (B, C, F)} 中采取 {D -> F} 这个方法，可以让你得到最大的报酬。因此，我们采取这一条路。

至此，我们的策略就是采取{A -> D -> F}，我们获得的回报是-120。

恭喜！你刚刚就实现了强化学习算法。这种算法被称之为 epsilon 贪婪算法。这是一种逐步测试从而解决问题的贪婪算法。现在，如果见你（推销员）想再次从地点A到地点F，你总是会选择这一条路了。

其他旅游方式？

你能猜出我们的策略是属于哪个类别（纯粹的探索还是纯粹的开发）吗？
请注意，我们采取的策略并不是一个最佳策略。我们必须“探索”一点，然后去寻找最佳的策略。在这里，我们采取的方法是局域策略的而学习，我们的任务是在所有可能的策略中找到最佳的策略。有很多的方法都可以解决这个问题，在这里，我们简要的列出一些主要类别：

策略优先：我们的重点是找到最佳的策略
回报优先：我们的重点是找到最佳的回报价值，即累计奖励
行动优先：我们的重点是在每个步骤上采取最佳行动

在以后的文章中，我会深入讨论强化学习算法。到那时，你可以参考这篇关于强化学习算法调研的论文。

4.强化学习的实现

接下来，我们将使用深度Q学习算法。Q学习是一种基于策略的学习算法，它具有和神经网络近似的函数表示。这个算法被Google使用，并且打败了Atari游戏。

让我们看看Q学习的伪代码：

1.初始化价值表 ‘Q(s, a)’.
2.观察当前的状态值 ‘s’.
3.基于动作选择一个策略（例如，epsilon贪婪）作为该状态选择的动作.
4.根据这个动作，观察回报价值 ’r’ 和下一个新的状态 s.
5.使用观察到的奖励和可能的下一个状态所获得的最大奖励来更新状态的值。根据上述公式和参数进行更新。
6.将状态设置为新的状态，并且重复上述过程，直到达到最终状态。

Q学习的简单描述可以总结如下：

我们首先来了解一下 Cartpole 问题，然后继续编写我们的解决方案。

当我还是一个孩子的时候，我记得我会选择一根木棍，并试图用一只手指去使它保持平衡。我和我的朋友过去有这样一个比赛，看谁能让木棍保持平衡的时间更多，谁就能得到一块巧克力作为奖励。

这里有一个简单的视频来描述一个真正的 Cart-Pole 系统。

让我们开始编写代码吧！

在开始编写之前，我们需要先安装几个软件。

步骤一：安装 keras-rl包

在终端中，你可以运行以下命令：

git clone https://github.com/matthiasplappert/keras-rl.git
cd keras-rl
python setup.py install

步骤二：安装CartPole环境的依赖

我们假设你已经安装好了pip，那么你只需要使用以下命令进行安装：

pip install h5py
pip install gym

步骤三：开始编写代码

首先我们需要导入一些我们需要的模块

import numpy as np
import gym

from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.optimizers import Adam

from rl.agents.dqn import DQNAgent
from rl.policy import EpsGreedyQPolicy
from rl.memory import SequentialMemory

然后，设置相关变量

ENV_NAME = 'CartPole-v0'

# Get the environment and extract the number of actions available in the Cartpole problem
env = gym.make(ENV_NAME)
np.random.seed(123)
env.seed(123)
nb_actions = env.action_space.n

之后，我们来构建一个非常简单的单层神经网络模型。

model = Sequential()
model.add(Flatten(input_shape=(1,) + env.observation_space.shape))
model.add(Dense(16))
model.add(Activation('relu'))
model.add(Dense(nb_actions))
model.add(Activation('linear'))
print(model.summary())

接下来，我们配置和编译我们的智能体。我们将策略设置为 Epsilon 贪婪，我们还将我们的存储空间设置为序列存储，因为我们要需要存储我们执行操作的结果和每一个操作所获得的奖励。

policy = EpsGreedyQPolicy()
memory = SequentialMemory(limit=50000, window_length=1)
dqn = DQNAgent(model=model, nb_actions=nb_actions, memory=memory, nb_steps_warmup=10,
target_model_update=1e-2, policy=policy)
dqn.compile(Adam(lr=1e-3), metrics=['mae'])

# Okay, now it's time to learn something! We visualize the training here for show, but this slows down training quite a lot. 
dqn.fit(env, nb_steps=5000, visualize=True, verbose=2)

现在，让我们来测试一下我们的强化学习模型

dqn.test(env, nb_episodes=5, visualize=True)

下图是模型的输出结果：

瞧，你刚刚就建立了一个强化学习机器人！

5.增加复杂性

现在，你已经看到了强化学习的一个基本实现，让我们开始学习更多的问题吧，每次增加一点点复杂性。

汉诺塔问题

对于那些不知道比赛的人来说，汉诺塔问题是在1883年发明的。它是由3根木棍和一系列大小不一的圆盘组成的（比如，上图中的3个）。从最左侧的木棍开始，目的是以最少的移动次数，把最左边的圆盘移动到最右边的圆盘上。

如果我们要处理这个问题，那么我们先从处理状态开始：

初始状态：三个圆盘都在最左边的木棍上（从上到下，依次编号为1,2,3）
结束状态：三个圆盘都在最右边的木棍上（从上到下，依次编号为1,2,3）

所有可能的状态：

这里是我们可能得到的27种状态：

其中，(12)3* 表示，圆盘1和圆盘2在最左边的木棍上面（从上往下编号），圆盘3在中间那个木棍上面，最右边的木棍没有圆盘。

数值奖励：

由于我们想要以最少的移动步数解决这个问题，所以我们可以给每个移动赋予 -1 的奖励。

策略：

现在，如果我们不考虑任何的技术细节，那么前一个状态可能会存在几种下一个状态。比如，当数值奖励为-1时，状态 (123)* 会转移到状态 (23)1，或者状态 (23)*1 。
如果你现在看到了一个并发进行的状态，那么上面提到的这27个状态的每一个都可以表示成一个类似于旅行商问题的图，我们可以通过通过实验各种状态和路径来找到最优的解决方案。

3 x 3 魔方问题

虽然我可以为你解决这个问题，但是我想让你自己去解决这个问题。你可以按照我上述同样的思路，你应该就可以解决了。

从定义开始状态和结束状态开始，接下来，定义所有可能的状态及其转换，以及奖励和策略。最后，你应该就可以使用相同的方法来构建自己的解决方案了。

6.深入了解强化学习的最新进展

正如你所认识到的，一个魔方的复杂性比汉诺塔问题要高很多倍。现在，让我们来想象一下棋类游戏中的状态和选择的策略数量吧，比如围棋。最近，Google DeepMind公司创建了一个深度强化学习算法，并且打败了李世石。

最近，随着在深度学习方面的成功。现在的重点是在慢慢转向应用深度学习来解决强化学习问题。最近洪水一般的消息就是，由Google DeepMind创建的深度强化学习算法打败了李世石。在视频游戏中也出现了类似的情况，开发的深度强化学习算法实现了人类的准确性，并且在某些游戏上，超越了人类。研究和实践仍然需要一同前进，工业界和学术界共同策划努力，以实现建立更好地自适应学习机器人。

以下是几个已经应用强化学习的主要领域：

博弈论和多个智能体交互
机器人
计算机网络
车载导航
医学
工业物流

还有这么多的领域没有被开发，结合目前的深度学习应用于强化学习额热潮，我相信以后肯定会有突破！

这里是最近的消息之一：

7.其他资源

我希望你现在能够深入了解清华学习的工作原理。这里还是一些额外的资源，以帮助你学习更多有关强化学习的内容。

有关强化学习的视频
有关强化学习的书籍
GitHub上有关强化学习的资料库
David Silver的强化学习课程

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
AI技术全景图鉴：从模型开发到落地部署的全链路拆解大模型玩家人工智能 langchain 大模型产品经理学习 ai 程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命 LucianaiB 评测人工智能自动驾驶 devops
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。摘要(Abstract)本文深入探讨了人工智能大模型（AILargeModels）如何驱动DevOps从“自动化”（Automation）向“自主化”（Autonomous）的革命性跃迁。文章指出，AI大模型正成为现代软件工厂的“中枢神经系
解读《生成式人工智能服务管理暂行办法》我的大模型服务需要备案还是登记？纵深企服人工智能 AIGC 安全
一、大模型备案和登记是什么？根据《暂行办法》及相关指引文件，大模型相关的合规路径主要分为“备案”和“登记”两种。准确理解二者的定义、适用情形及区别，是企业合规的第一步。1、大模型备案（生成式人工智能服务上线备案）定义：大模型备案，通常指的是生成式人工智能服务上线备案。根据《暂行办法》，“提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估，并按照《互联网信息服务
显卡GPU的架构和工作原理 InnoLink_1024 芯片人工智能 AGI 架构硬件架构人工智能
显卡GPU（图形处理单元）是专为并行计算和图形处理设计的芯片，广泛应用于游戏、科学计算、人工智能和数据中心等领域。以下详细介绍GPU的架构和工作原理，涵盖核心组件、计算流程和关键技术，尽量简洁清晰。一、GPU架构概述GPU架构与CPU不同，专注于高并行计算，适合处理大量简单、重复的任务。其核心设计目标是最大化吞吐量，而非单任务的低延迟。主流GPU厂商（如NVIDIA、AMD、Intel）架构虽有差
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
Python 生态发展之路仓颉编程语言技术文章 python
目录#Python是如何炼成的##生态系统持续扩张##Python开发的开源社区运作#更加广义的Python社区#广泛应用##Web开发、数据科学##不得不提的人工智能#支持Python成长的商业公司#Python成功之路小结##附：Python生态发展大事记#参考Python是现今最受欢迎的编程语言之一，2021年8月的TIOBE编程语言排行榜中，Python排名第二，仅次于C[1]。2017年
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

强化学习入门及其实现代码

介绍

强化学习

目录

1. 确定一个强化学习问题

2. 与其他机器学习方法的比较

3. 解决强化问题的框架

4. 强化学习的实现

5. 增加复杂性

6. 深入了解强化学习的最新进展

7. 其他资源

1. 确定一个强化学习问题

2. 与其他机器学习方法的比较

3.解决强化学习问题的框架

4.强化学习的实现

5.增加复杂性

6.深入了解强化学习的最新进展

7.其他资源

你可能感兴趣的:(人工智能,人工智能)