Williamtym

开悟AIArena，深度学习神经网络，暑假开悟比赛的学习

1.赛题简介

1.1.赛题目标

1.2.地图介绍

1.3.规则介绍

2.环境介绍

2.1.观测空间（Observation Space）

2.1.1.原始数据：

2.1.2.特征数据

2.1.3.特征提取

2.2.动作空间（Action Space）

2.3.坐标介绍（Coordinate）

2.4.玩法配置（Setup）

2.5.积分规则（Score）

2.6.奖励机制（Reward）

3.代码包介绍

3.1.目录介绍

3.2.代码入口&流程介绍

3.3.建议修改的代码

3.4.网络结构

3.5.重要API介绍

3.5.1.Class DQNModel

3.5.2.Class Game

4.训练介绍

4.1.监控介绍

4.1.1.查看监控

4.1.2.Algorithm - DQN

4.1.3.查看日志

5.代码更新说明

6.KaiwuDRL强化学习框架

6.1.简介

6.2.Gamecore & Battle Server

6.3.AI Server

6.4.Actor/Learner

6.5.Model pool

1.赛题简介

1.1.赛题目标

峡谷漫步v1场景的目标是：通过算法训练一个智能体，让其在对地图不断的探索中学习移动策略，减少碰撞障碍物，以最少的步数从起点走到终点并且收集宝箱。

本赛题支持的框架为：

PyTorch是一个开源的机器学习框架。

PyTorch是一个由Facebook开发的深度学习框架，它主要针对GPU加速的深度神经网络（DNN）编程，并且可以用于其他数学密集型应用2。

PyTorch的特点：

简洁：PyTorch的设计追求最少的封装，尽量避免重复造轮子。
可以顺畅的在 eager 和 graph 模式下切换。
加速了科研到生产的道路。

本赛题支持的算法为：DQN

DQN算法指深度Q网络（Deep Q-network），是一种基于深度学习的Q-Learing算法。

DQN算法原理是将强化学习任务所面临的状态空间是连续的，存在无穷多个状态，这种情况就不能再使用表格的方式存储价值函数。在这种情况下，我们可以用一个函数Q(s，a;w)来近似动作-价值Q(s，a)，这个函数是由神经网络来生成的，称为Q网络（Deep Q-network），其中w是神经网络训练的参数。

1.2.地图介绍

峡谷漫步v1使用64*64的网格化的地图（智能体每步移动的距离是一网格），地图中包含起点、终点、道路、障碍物和宝箱。

1.3.规则介绍

本赛题的基本目标是控制智能体，使用尽量少的步数，从起点走到终点，并且尽可能多的收集宝箱。

在地图中，智能体没有全图视角，通过向前、后、左、右四个方向移动进行试探，遇到障碍物时无法继续前进，需要调整方向开启新的试探。任务启动时，地图中会随机出现宝箱，智能体通过探索可以获得宝箱里的奖励。

训练过程中，若在最大步数内没有走到终点，则判定为任务超时（即超过最大步数后智能体仍未走到终点，最大步数默认为2000）。

这是局部的判断，智能体只能看到周围的事物，不能观察到全局的。

智能体只能上下左右4个方向进行移动，遇到障碍物无法移动。

2.环境介绍

2.1.观测空间（Observation Space）

2.1.1.原始数据：

以下是从环境中获取的原始数据：

数据名	数据类型	数据描述
step_no	int32	当前步数
heroes	GorgeWalkHero	英雄信息
organs	GorgeWalkOrgan	物件信息
score	int32	每一步的即时得分
total_score	int32	累计得分

其中 GorgeWalkHero 和 GorgeWalkOrgan 的数据类型定义如下

GorgeWalkHero	数据类型	数据描述
hero_id	int32	英雄ID（默认使用鲁班）
treasure_count	int32	收集到的宝箱数量
pos	(int32, int32)	英雄位置坐标

峡谷漫步v1不支持更换英雄，所以hero_id默认固定为112（鲁班七号）

GorgeWalkOrgan	数据类型	数据描述
sub_type	int32	物件类型（目前只有“宝箱”一种）
config_id	int32	物件ID
pos	(int32, int32)	物件位置坐标
status	bool	物件状态（1已收集, 0未收集）
reward	int32	物件奖励

sub_type用来区分物件的类型，比如宝箱，buff，防御塔等。峡谷漫步v1只支持宝箱，所以sub_type默认固定为1

2.1.2.特征数据

GorgeWalkFeature是对原始数据经过简单的特征处理得到的特征信息（包含位置信息，宝箱收集信息，视野域信息）。不同算法所使用的特征不尽相同，比如像Q-learning这类value-based的TD算法，更倾向于使用整型的网格坐标作为状态之一；而像DQN这类深度强化学习算法涉及到微分计算，则倾向于使用浮点数的位置坐标，另外一种方式是采用one-hot vector的形式来表征位置。总而言之，下面列出的特征只是为同学们提供一个参考，除了直接使用提供的特征以外，建议同学们通过原始数据生成自己需要的特征。

GorgeWalkFeature	数据类型	数据维度	数据描述
positions	PositionPack	2*3=6	位置信息
treasure	int32的list	10	宝箱收集信息（1表示可收集，0表示不可收集）
feature_map	FeatureMap	25*3=75	视野域的特征图
location_memory	float	64x64=4096	地图探索的历史记忆

下面是对三种特征更详细的描述：

位置信息

PositionPack	数据类型	数据维度	数据描述	举例
position	(int32, int32)	2	网格坐标	(29, 9)
pos_norm	(float32, float32)	2	归一化后的网格坐标	(0.453125, 0.140625)
pos_polar	(float32, float32)	2	归一化后的极坐标	(0.335483, 0.191572)

对于坐标的介绍请查看坐标介绍。

宝箱收集信息

峡谷漫步v1的宝箱总共有10个可能出现的位置，每个位置对应了一个config_id（即宝箱id）。宝箱收集信息（treasure）是一个长度为10的list，宝箱的config_id对应了该宝箱在list里的index。初始状态时，treasure为[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]，当游戏启动时，会随机生成宝箱，生成的宝箱状态会变为1。比如前5个宝箱被生成了，那treausre为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0], 假如宝箱2和宝箱4被收集，则treasure变为[1, 1, 0, 1, 0, 0, 0, 0, 0, 0]。

视野域信息

FeatureMap	数据类型	数据维度	数据描述
obstacle_map	bool的list	5*5=25	障碍物信息
treasure_map	bool的list	5*5=25	宝箱信息
end_map	bool的list	5*5=25	终点信息

视野域是指以英雄所在位置为中心，分别向上下左右四个方向拓宽VIEW（default=2）格数的一个正方形观察域（defualt=5x5）。

视野域中会标注出障碍物、宝箱、终点的位置，分别存储在obstacle_map, treasure_map, end_map三个向量中。以obstacle_map为例，VIEW=2时，obstacle_map向量长度为25，是5x5的矩阵视野域的一维展开，有阻挡的位置为1，无阻挡的位置为0。

历史记忆信息

为了避免多余的探索加速模型的训练，可以考虑加入智能体对环境探索的历史记忆信息，用一个64x64的矩阵来表示。矩阵里的每一个元素对应的就是地图里的一个坐标，值限制在[0, 1]，初始化为0。智能体每走到一个位置，该坐标下的值+0.1，最大为1，即到达同一位置的次数大于等于10。

2.1.3.特征提取

特征的使用见仁见智，不同的算法特征也不尽相同，下面的特征输入仅供参考，相关的代码参见app/gorge_walk/env/gorge_walk_state.py里的parse_from_proto_to_state(req_pb)函数

Feature	数据类型	数据维度	数据描述
pos_row	one-hot list	64	位置信息-行
pos_col	one-hot list	64	位置信息-列
obstacle_map	int list	5*5=25	障碍物信息(Local)
treasure_map	int list	5*5=25	宝箱信息(Local)
walked_map	int list	5*5=25	历史信息(Local)
list_treasure	int list	10	宝箱收集信息

向量特征

坐标：采用64*2的one-hot list的方式来表示位置信息

# 横坐标
pos_row = [0] * 64
pos_row[int(pos.x)] = 1
observation.extend(pos_row)

# 纵坐标
pos_col = [0] * 64
pos_col[int(pos.z)] = 1
observation.extend(pos_col)

宝箱: 采用一个10维的list来表示宝箱收集信息

list_treasure = req_pb.ai_req.frame_state.features.treasure
observation.extend(list_treasure)

矩阵特征

特征图：采用3个5*5的矩阵来表示障碍物，宝箱，以及历史记忆信息的局部观察信息，分别存储在obstacle_map, treasure_map, walked_map中。

observation = list()
feature_map = req_pb.ai_req.frame_state.features.feature_map

# 局部障碍物信息
obstacle_map = feature_map.obstacle_map
observation.extend([0 if x == False else 1 for x in obstacle_map])

# 局部宝箱信息
treasure_map = feature_map.treasure_map
observation.extend([0 if x == False else 1 for x in treasure_map])

# 长度为64x64=4096的一维向量，记录了地图探索的历史记忆，value=min(1, count/10)
location_memory = req_pb.ai_req.frame_state.features.location_memory

# 局部历史记忆信息
walked_map = list()
for i in range(5):
    idx_start = (x - 2 + i) * 64 + (z - 2)
    walked_map.extend(
        [1 if k != 0 else 0 for k in location_memory[idx_start:idx_start+5]])

特征提取（神经网络）：利用神经网络的特征提取和抽象的能力进行特征提取，当前示例将向量特征concat起来，仅使用全连接网络进行特征提取，当然也可以使用CNN等技术进行特征提取。这部分的代码参见app/gorge_walk/algorithm/torch_network.py

self.layers = [
        nn.Linear(np.prod(state_shape), 256),
        nn.ReLU(inplace=True)]
    self.layers += [nn.Linear(256, 256), nn.ReLU(inplace=True)]
    self.layers += [nn.Linear(256, 128), nn.ReLU(inplace=True)]

2.2.动作空间（Action Space）

峡谷漫步v1的动作空间非常简单，仅仅只有上下左右四个动作，操作智能体以网格为单位进行四个方向的移动，每次移动一格。

合法指令包含：

['UP', 'DOWN', 'RIGHT', 'LEFT', 0, 1, 2, 3]

对应关系如下

UP = 0;         // 向上移动一格
DOWN = 1;       // 向下移动一格
LEFT = 2;       // 向左移动一格
RIGHT = 3;      // 向右移动一格

2.3.坐标介绍（Coordinate）

峡谷漫步v1中共有两种坐标：绝对坐标和网格坐标

注意，这里不考虑y轴，所有的二维坐标均默认为[x, z]

绝对坐标：指智能体在网格化之前的地图中的坐标，地图左上角为原点[0,0]

网格坐标：是相对坐标，指将地图网格化之后生成的坐标，地图左下角为原点[0, 0]，对应的绝对坐标为[0, -64000]

坐标间的换算：

以起点位置为例，绝对坐标 = [x, z] = [29500, -54500]

网格坐标 = [x', z'] = [29, 9]

[x', z'] = [x/1000 - 0.5, z/1000 + 63.5] [x′,z′]=[x/1000−0.5,z/1000+63.5]

[x, z] = [(x' + 0.5) * 1000, (z' - 63.5) * 1000] [x',z]=[(* x * ′+0.5)∗1000,(z′−63.5)∗1000]

2.4.玩法配置（Setup）

以下坐标均为网格坐标，宝箱后的数字为宝箱的config_id

描述(description)	网格坐标(grid position)	分数(score)
起点(start)	[29, 9]	0
终点(end)	[11, 55]	150
宝箱-0	[19, 14]	50
宝箱-1	[9, 28]	100
宝箱-2	[9, 44]	100
宝箱-3	[42, 45]	100
宝箱-4	[32, 23]	50
宝箱-5	[49, 56]	200
宝箱-6	[35, 58]	100
宝箱-7	[23, 55]	50
宝箱-8	[41, 33]	100
宝箱-9	[54, 41]	150

游戏启动时的一个必要参数为treasure_num，指该局游戏宝箱的数量，默认n = 5n=5。然后从宝箱池（N=10）中不重复地随机抽取n个宝箱作为这局游戏的可收集宝箱。

2.5.积分规则（Score）

游戏环境会实时反馈出智能体的总分数，初始分数为0，分数的计算基于以下三个规则

宝箱积分：每获得一个宝箱，便能增加该宝箱对应的积分，宝箱积分的大小与获取难度相关，范围在[50, 200]
终点积分：到达终点+150积分
步数积分：当智能体到达终点后，根据剩余的步数额外增加积分，计算公式如下：

步数积分 = 剩余步数 * 奖励系数(0.2)，其中剩余步数 = 最大步数 - 完成步数

注意：以上的得分属于环境给出的游戏得分，积分是游戏用于衡量玩家在游戏中的表现，也作为衡量强化学习训练后的模型的优劣，与强化学习里的奖励要区别开。

2.6.奖励机制（Reward）

这里的奖励指强化学习中的Reward，reward的设计以及权重的分配一直都是强化学习里的重要一环，我们这里提供三个思路：

直接使用游戏的得分作为Reward
修改积分规则的奖励值，将修改后的即时得分作为Reward
自定义Reward（下面提供几个思路）
- 游戏的三种积分已经体现了对于宝箱，终点，以及更少步数这三点的奖励
- 撞墙惩罚：如果撞墙要给予负奖励
- 重复探索惩罚：如果反复探索已经探索过的区域要给予负奖励
- 距离奖励：可以通过判断连续两帧与终点的距离差值来给予奖励或惩罚

注意：峡谷漫步v1的游戏环境非常简单，我们鼓励同学们在算法侧自己去定义Reward，如果遇到了数据不足的情况请及时与我们沟通，我们非常愿意为同学们提供更加丰富的数据来支持多样化的Reward

3.代码包介绍

3.1.目录介绍

app/gorge_walk为主要代码目录，包括：

algorithm: 强化学习中的模型和算法，torch_network.py实现了神经网络模型，torch_dqn_model.py实现了DQN算法。
env: 对应于强化学习里的Environment，包含了特征处理（feature_process），样本处理（sample_process），协议（protocl）等等。
tools: 工具集合。

conf/gorge_walk_v1为配置文件，主要为一些配置参数。

3.2.代码入口&流程介绍

整体框架的流程及详细内容可以查看强化学习框架部分，这里简单讲解一下峡谷漫步v1代码的入口以及流程。

下图是Battlesrv的主要逻辑实现，battlesrv也是整个流程的发起者。其中NatureClient作为中间件，负责沟通game core和AI Server。

如果感兴趣具体的实现细节，可以按照以下顺序阅读代码：

app/gorge_walk/env/client/battlesrv.py

battlesrv的主要功能是调用NatureClient，开始训练/评估，分别用train(), test()函数来实现。除此之外，battlesrv还负责配置文件的初始化，日志，监控，alloc服务等功能。

app/gorge_walk/env/client/nature_client.py

NatureClient的功能主要包含：

与game core和AI Server的通信和数据传输
主循环，通过run()函数实现，包含start_game(), on_update(), 以及stop_game()
游戏结束后的统计数据，通过save_game_stat()实现

app/gorge_walk/env/client/gamecore_controller.py

NatureClient调用的一个控制器，负责向game core发送游戏启动和游戏结束的命令

app/gorge_walk/env/client/game.py

峡谷漫步v1游戏环境的离散化/网格化处理，game.py本身可以作为峡谷漫步v1的一个本地测试环境，其中的run()函数可以实现玩家在terminal下的一个简单的带有可视化的游戏体验。

app/gorge_walk/env/gorge_walk_state.py

parse_from_proto_to_state( )函数负责把从NatureClient里传来的proto数据进行解析，并生成state
parse_from_proto_to_reward( )函数负责生成reward

注意：同学们如果需要修改特征（state）或奖励（reward），可以在上述位置进行相应修改

3.3.建议修改的代码

我们建议可以从以下五个方向进行代码的修改，用以测试不同的强化学习效果：

Reward

conf/gorge_walk_v1/gorge_walk_config.json里的XXX_REWARD标签定义了强化学习中的回报，同学们可以在这里修改各个回报的权重，去训练出玩法风格截然不同的agent。同学们可以通过消融实验的方法，去测试每个reward对agent训练的影响。但是不同reward之间不是相互独立的，同时修改多个reward的效果不能简单的用单个reward的实验结果进行简单的线性叠加。如何能达到一个相对平衡的点并取得游戏的胜利，是同学们可以思考的方向。

注意：conf/gorge_walk_v1/gorge_walk_config.json里的其他参数请同学们不要修改。

另外，同学们也可以直接在app/gorge_walk/env/client/game.py里的move( )函数里修改reward的生成逻辑。默认的奖励设计并非最优，我们鼓励同学们自己设计reward。

简单总结，可以修改reward的地方：

app/gorge_walk/env/gorge_walk_state.py 里的 parse_from_proto_to_reward
conf/gorge_walk_v1/gorge_walk_config.json 里的 XXX_REWARD
app/gorge_walk/env/client/game.py 里的 move( )函数

Hyperparameters

建议同学们修改的超参数包含：

conf/gorge_walk_v1/config.py里的DimConfig, AlgoConfig, DQNConfig
conf/actor.ini里的predict_batch_size
conf/aisrv.ini里的send_sample_size
conf/configure.ini里的train_batch_size, production_consume_ration
conf/leaner.ini里的replay_buffer_capacity, preload_ratio, dump_model_freq

同学们需要首先学习并了解每个参数的含义以及对训练/推演的影响，判断出哪些是可以去优化的，再利用实验去验证。

注意：超参数的调整一直是深度学习中非常需要依靠研究员经验的部分，同样的算法，同样的参数，针对不同的应用场景都可能会有较大的表现差异。

Graph

app/gorge_walk/algorithm/torch_network.py里有对网络的定义，具体实现参考BaseNetwork类，同学们可以在这里进行修改网络的操作。

Model

app/gorge_walk/algorithm/torch_dqn_model.py里定义了model和算法，包括loss的计算和predict函数。同学们如果想修改算法，可以从这里进行操作。

State

app/gorge_walk/env/gorge_walk_state.py里包含了生成state的代码，修改特征可以在这里进行。

❗️注意：未在上述内容中提及的代码文件请勿擅自更改，有可能会使训练效果变差，甚至无法正常训练。例如，在app/gorge_walk/env/client目录下，除了game.py和game_test.py以外，其他代码文件涉及大量的通信逻辑和数据传输。

3.4.网络结构

网络为最简单的全连接层，网络的输出由配置控制是否输出多头网络、是否输出softmax网络

self.layers = [nn.Linear(np.prod(state_shape), 256),nn.ReLU(inplace=True)]
self.layers += [nn.Linear(256, 256), nn.ReLU(inplace=True)]
self.layers += [nn.Linear(256, 128), nn.ReLU(inplace=True)]
if not multi_head:
  self.layers += [nn.Linear(128, np.prod(action_shape))]
if use_softmax:
  self.layers += [nn.Softmax(dim=-1)]
self.model = nn.Sequential(*self.layers).to(self.device)

3.5.重要API介绍

3.5.1.Class `DQNModel`

__init__(self, network, name, role='actor'):
- Introduction: dqn算法模型的实现：包括神经网络、模型预测、模型训练、模型保存、模型恢复
- Parameters
  - network torch_network.BaseNetwork类型，神经网络通过参数传入
  - name string类型，该模型的名字，用于标识
  - role string类型，适配框架, 用于区分当前模型的使用场景(actor或learner), 当前模型不进行区分
update_target_q(self)
- Introduction: 该方法将网络参数更新到target网络
learn(self, g_data)
- Introduction: 该方法实现了dqn算法和模型的训练过程
- Parameters
  - g_data list类型，由reverb传送过来的一个batch的原始训练数据
- Return: 训练过程中产生的数据, 用于统计
predict(self)
- Introduction: 该方法实现了模型的预测
- Parameters
  - obs dict类型，由aisvr传送过来的一个observation数据
- Return
  - format_action list类型，预测得到的动作序列
  - network_sample_info list类型，返回的其他信息，该算法无需返回有效信息
  - lstm_info list类型，返回的lstm相关信息，该网络没有使用lstm，则返回None
__rdata2tdata(self, r_data)
- Introduction：该方法将reverb传入的数据转换成可以训练的数据
- Parameters
  - r_data list类型，由reverb传入的原始数据
- Return
  - t_data list类型，训练数据
save_param(self, path=None, id='1')
- Introduction：保存模型的方法
- Parameters
  - path string类型，保存模型的路径
  - id int类型，保存模型的id

3.5.2.Class `Game`

❗️注意：Game类主要负责游戏逻辑，在__init( )__和reset( )函数里进行了课程学习相关的操作来加速训练。

在move( )函数中，同学们可以进行reward的修改，但请勿修改score。关于score和reward的区别，在环境介绍一文中有详细说明。

除非有特殊情况，我们建议同学们不要修改Game类的其他函数和功能。请遵循这些指导原则，以确保训练和评估顺利进行。

```
__init__(self, map_path, treasure_path, max_steps, logger, idx_end=10, is_train=True):
```
- Introduction: 初始化
- Parameters
  - map_path string类型，网格化后的地图配置文件
  - treasure_path string类型，网格化后的宝箱配置文件
  - max_steps int类型，最大步数
```
reset(self, treasure_id):
```
- Introduction: 重启一局游戏
- Parameters
  - treasure_id int类型的list，传入该局游戏需要生成的宝箱id
```
_reset_treasure_data(self, treasure_id):
```
- Introduction: 重启游戏时重新设置新的宝箱位置
- Parameters
  - treasure_id int类型的list，传入该局游戏需要生成的宝箱id
```
_get_distance(self, pos):
```
- Introduction: 返回当前位置距离终点的最短路径距离
- Parameters
  - pos: int类型的list，当前位置坐标（2维的网格坐标）
```
__build_obs(self):
```
- Introduction: 本地拼装observation（仅用于本地测试，实际训练并没有调用）
```
step(self, action):
```
- Introduction: 外部调用的接口，执行每一步的移动操作，若大于最大步数，则游戏结束
- Parameters
  - action: Command类型，这一步需要执行的动作
```
run(self, interactive=False, visualization=False, cmd_list=None):
```
- Introduction: 本地mini-game的实现，实际训练中并未调用
- Parameters
  - interactive: bool类型，设置为True则通过命令行读取用户输入指令来执行每一步的动作，设置为False则通过读取cmd_list来执行动作
  - visualization: bool类型，设置成True则会在terminal里打印当前位置的局部观察信息
  - cmd_list: Command类型的list，命令列表，顺序执行
```
move(self, direction, score_decay=False):
```
- Introduction: 每一步动作的执行逻辑，更新英雄位置，同时包含了score和reward的计算及更新
- Parameters
  - direction: Commandl类型，这一步需要执行的动作
  - score_decay: bool类型，设置成True则宝箱分数会随步数增大而衰减
```
_bump(self, loc):
```
- Introduction: 撞墙检测，如果撞墙则返回True，否则返回False
- Parameters
  - loc: int类型的list，当前位置坐标（2维的网格坐标）
```
_check_treasure(self):
```
- Introduction: 宝箱检测，如果当前位置有宝箱，则返回该宝箱的分数，否则返回0
```
_update_local_view(self):
```
- Introduction: 更新局部观察域
- Return
  - local_map： string类型，大小为5x5（view=2）的矩阵
```
_get_raw_state(self):
```
- Introduction: 重新编码局部观察域
- Return
  - raw_state： int类型，大小为5x5（view=2）的矩阵
```
_update_location_memory(self):
```
- Introduction: 更新历史记忆信息
- Return
  - location_memory： float类型，大小为64x64的矩阵（全局记忆信息）
```
__visualize(self)
```
- Introduction: 将当前的局部观察域打印出来

4.训练介绍

4.1.监控介绍

4.1.1.查看监控

在训练管理页面，提供了“查看监控”功能，如下图所示。同学们可以通过查看监控数据实时的定位自己的模型训练流程，从而帮助大家更快更准确的找到问题所在。

监控页面包含了四个模块的数据：Algorithm, Battle, Learner, Actor。

注意：训练开启10分钟后监控才有记录

需要同学们重点关注的两个监控数据（Learner的train以及Actor的predict_succ_cnt）被展开显示在了页面的顶端。以下是各个监控模块的重要指标的简要介绍。

Learner

Learner主要负责训练，监控数据主要反映了训练流程的健康度，重点关注以下指标。

train：训练次数，即训练成功的次数。

Actor

Actor主要负责预测，监控数据主要反映了预测流程的健康度，重点关注下面这一个指标。

predict_succ_cnt: 预测次数，即推演成功的帧数，正常情况下应该呈现为一个斜向上的直线。

Battle

Battle负责的是对战，采用self-play的模式，监控数据主要反映了对战过程的评估指标。

step：游戏步数

treasure_count：获得的宝箱数量

treasure_score：通过宝箱获得的奖励值

total_score：游戏总分

4.1.2.Algorithm - DQN

Algorithm负责强化学习算法，监控数据主要反映了几个重要的算法指标。

loss：损失函数计算出的损失值，包含policy_loss，entropy_loss, 和value_loss，随时间推移，loss应该呈下降趋势。

all_loss_value: 上述三个loss的加权求和

reward：奖励值，随时间推移，reward应该呈上升趋势。

4.1.3.查看日志

在训练过程中或训练完成后，你都可以点击开悟客户端本地训练页面的【训练日志】按钮来打开本地日志文件。

5.代码更新说明

版本	更新内容
v0.4.20-dev.1	开放了目录`app/gorge_walk/env/client`，你能够进行编辑保存该目录下的代码
v0.4.18-dev.1	初始代码包

6.KaiwuDRL强化学习框架

6.1.简介

KaiwuDRL框架是开悟基于python研发的用于异步的off-policy强化学习训练的分布式框架，可以稳定高效地完成王者荣耀场景下的强化学习相关任务。KaiwuDRL的前身是SAIL，关于SAIL框架的详细信息见参考文档，并且已经在github开源。

下图展示了KaiwuDRL框架的核心功能模块，主要分为Battle Server, AI Server, Learner和Actor。Learner和Actor对应于强化学习算法中的Agent，其中Actor负责与环境交互产生训练样本，Learner负责消耗样本数据训练模型。Battle Server和AI Server对应于强化学习算法中的Environment，其中Battle Server能够发送每一帧的State数据，接收返回的Action指令并执行。AI Server可以视为一个中间桥梁，游戏侧负责与Battle Server交互，框架内负责与Actor，Learner交互。

6.2.Gamecore & Battle Server

Gamecore可以理解为游戏引擎，负责处理游戏逻辑，生成游戏帧数据。当接收到action指令后，gamecore会执行该指令并生成新的帧数据。
Battle Server可以理解为游戏服务器，对内会调用gamecore进行state的上报和驱动游戏获取state的更新，对外Battle Server只与AI Server进行交互，负责把处理后的帧数据发送给AI Server并接收新的Action指令。

总体来说，可以把Gamecore和Battle Server打包理解成强化学习里的环境（Environment）。

6.3.AI Server

AiServer是一个中间桥梁，沟通Gamecore与Actor/Learner，并实现业务相关的功能。这部分内容与强化学习课程关系不大，而且也不建议同学们修改，为了同学们对框架能有个更全面的理解，下面给出了简单的解释供大家参考。

AI Server <--> Battle Server
- 游戏启动时，AI Server会从Battle Server收到三个请求，分别为：
  - init_req: AI Server与Battle Server建立连接
  - ep_start_req: 一局游戏的开始（ep对应强化学习里的episode）
  - agent_start_req: 一局游戏里agent的开始（如王者荣耀里的英雄，多个agent需多次调用）
- 游戏过程中，main loop里会不断处理AI Server与Battle Server之间的请求与响应，采用一问一答的方式：
  - update_req: Battle Server将当前的state数据发送给AI Server
  - update_rsp: AI Server将从Actor获得的预测响应（Action）返回给Battle Server
- 游戏结束时，Battle Server会向AI Server发送game_over的信号，AI Server收到了包含有game_over信号的帧数据后立即跳出main loop
- 采用TCP通信
AI Server <--> Actor
- AiServer从Gamecore拿到state数据后向Actor发起模型预测请求
- Actor将模型预测响应（Action）返回给AiServer
- 采用zmq通信，其中actor是ZmqServer，Aisrv是ZmqClient
AI Server <--> Learner
- AiServer从Gamecore拿到state数据后向Learner发送模型训练样本，即[State, Reward]
- 注意AiServer不会从Learner得到回答，Learner会定期将模型参数同步给Actor，这里的细节可参考下面的Model pool部分
- 采用Reverb通信，其中Aisrv是ReverbClient，与ReverbServer通信，同时ReverbServer和Learner之间采用ReplayBuffer，支持reverb，tf_uniform等
sample_processor
- 样本生产相关逻辑，负责样本的生成，存储，拼接和发送
- 这一部分不建议同学们进行修改
protocl
- 包含了aisrv与battlesrv的通信协议，部分场景还包含了battlesrv和gamecore之间的通信协议
- Protocol buffers 是 Google 开发的语言中立、平台中立、可扩展的结构化数据序列化机制，与XML类似，但更小、更快、更简单。用户定义了一次数据的结构化方式，然后可以使用特殊生成的源代码轻松地将结构化数据写入各种数据流并使用各种语言从中读取结构化数据。想要更多的了解protobuf可以参考官网
- 原始的协议文件均以.proto结尾，编译后的协议文件以pb2.py结尾
feature_process
- 主要包含以下特征处理方式，包含了机器学习里一些传统的特征值处理方法：
  - 图像特征通道化：输出了6个channels，注意这里的channel和计算机视觉中的常见的RBG channels是不一样的，这6个channel是抽象出来的，每个通道代表了某一方面的信息，比如小地图信息，草丛信息等
  - 连续特征归一化：把连续特征的值归一化到[0, 1]的区间
  - 离散特征用one-hot
- 1v1，3v3场景下不建议同学们修改特征，因为特征工程本身是一个相对繁琐并且依赖丰富工程经验的过程，我们这里给出的特征值处理方式可以认为已经达到了王者荣耀相关训练任务的实验最优，同学们直接沿用即可

6.4.Actor/Learner

Actor/Learner对应于强化学习里的agent ，但各有分工。其中Actor主要负责推理，先从Learner获取模型，根据模型参数与state数据推理出预测动作（Action）；Learner主要负责训练模型并更新模型参数。

以1v1场景为例，Actor/Learner会调用同一个model(model.py)，通过Model类里[actor, learner]的mode选择来区别。PPO算法的主要实现均在model.py里，其中包括loss的计算以及inference函数（注意actor和learner虽然会调用同一个_inference函数，但是对于输出的处理是不一样的）。Actor/Learner共享模型的配置文件config.py(common/config.py)，这里包含了所有模型/算法/训练超参数的定义，同学们可以在此进行修改。 GameController(actor_learner/game_controller.py)里定义了Graph，包含gradient的生成以及forward/backward propagation的逻辑。GameController里还实现了actor/learner的模型初始化，actor的predict函数以及learner的train函数。

Actor/Learner是框架的核心，详细信息请同学们阅读代码。

6.5.Model pool

Actor和Learner之间的模型同步采用model pool的方式，如上图所示

主Learner定时push最新模型到master的model pool中
- 只有主Learner才能上传model，主Learner负责训练，上传COS，上传model
- 从Learner主要负责训练，并且和主Learner之间同步模型参数信息
- 主Learner和从Learner之间采用horovod框架同步信息
Actor可以在各自的replica model pool中选择pull最新模型或某个历史模型
- 各个Actor的model pool之间采用p2p的方式同步模型参数

你可能感兴趣的:(深度学习,深度学习,神经网络,人工智能,机器学习,游戏程序)

当下是否入行AI ? 一场关于未来的赌注与机遇 dami_king 随笔人工智能
当下是否入行AI：一场关于未来的赌注与机遇在科技的浪潮中，人工智能（AI）无疑是最为汹涌的一波。它不仅改变了我们与机器互动的方式，还重塑了各行各业的面貌。面对这样的变革，许多人站在十字路口犹豫不决——现在进入AI领域还来得及吗？这个问题的答案，并非简单的“是”或“否”。今天，让我们一起深入探讨这个话题，看看对于想要投身AI的人来说，当下是不是一个好的时机。AI行业的现状与发展2024年，AI已经从
频域增强通道注意力机制EFCAM模型详解及代码复现呆头鹅AI工作室深度学习算法详解及代码复现深度学习人工智能神经网络 conda python
背景与动机在深度学习领域，如何有效处理时间序列数据一直是一个重要的研究方向。近年来，频域分析技术在时间序列处理中展现出了巨大潜力，特别是离散余弦变换（DCT）因其能够高效捕捉低频信息并避免高频噪声干扰而受到广泛关注。FECAM模型的开发正是基于这一背景，旨在结合频域分析和通道注意力机制，以提高模型对时间序列数据的特征提取和表示能力。通过这种创新方法，FECAM模型能够更有效地捕捉时间序列中的关键特
大数据新视界 -- 大数据大厂之 Impala 性能优化：融合人工智能预测的资源预分配秘籍（上）（29 / 30）青云交大数据新视界 #Impala 之道大数据 Impala 人工智能预测资源预分配数据收集模型构建查询性能优化
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
AI代码生成器赋能软件原型快速构建：吴恩达的最佳实践指南前端
快速构建软件原型对于验证想法、迭代产品至关重要。而随着人工智能技术的飞速发展，AI代码生成器等AI辅助编程工具的出现，为开发者提供了前所未有的效率提升。本文将结合吴恩达教授的观点，探讨如何利用AI工具，高效构建软件原型。吴恩达教授强调选择合适的技术栈并有效利用AI工具是关键，这将帮助开发者在短时间内完成原型开发，快速验证其想法。选择并精通“有主见”的技术栈：效率为王吴恩达教授推荐的技术栈——Pyt
从RNN到Transformer：生成式AI技术演变与未来展望非著名架构师人工智能 rnn transformer
生成式人工智能（GenerativeAI）近年来取得了令人瞩目的进展，其背后的核心技术是自回归模型的不断演进。从传统的递归神经网络（RNN）到革命性的Transformer架构，本文将全面剖析这一技术发展历程。一、RNN：生成式模型的起点1.RNN的基本原理递归神经网络（RecurrentNeuralNetwork,RNN）是一种专为处理序列数据设计的神经网络架构。其核心思想是通过循环连接的隐藏状
开源多模态推理模型QVQ：视觉推理能力的突破与未来展望前端
近年来，AI代码生成器等人工智能技术飞速发展，多模态推理模型作为其中一个重要分支，正展现出越来越强大的能力。它能够理解和处理多种类型的数据，例如图像、文本、音频等，并进行复杂的推理和决策。阿里云通义千问团队近日发布的QVQ-72B-Preview模型，就是一个极具代表性的例子。该模型开源且在视觉推理方面表现突出，为多模态模型的发展树立了新的里程碑。QVQ模型的核心能力与突破QVQ-72B-Prev
PyTorch建模与应用：从深度学习到大模型屿小夏书籍推荐深度学习 pytorch 人工智能
文章目录一、内容简介二、值得一读1.从基础到深入，适合不同层次的读者2.丰富的实战案例3.全面的数据处理与模型构建三、适用人群1.AI技术初学者2.在校学生和从业者3.培训机构和高校教学四、总结一、内容简介《动手学PyTorch建模与应用:从深度学习到大模型》是一本从零基础上手深度学习和大模型的PyTorch实战指南。全书共11章，内容涵盖了从深度学习的基础概念到大语言模型的应用。第1章介绍了深度
遗传算法与深度学习实战（25）——使用Keras构建卷积神经网络盼小辉丶遗传算法与深度学习实战深度学习 keras cnn
遗传算法与深度学习实战（25）——使用Keras构建卷积神经网络0.前言1.卷积神经网络基本概念1.1卷积1.2步幅1.3填充1.4激活函数1.5池化2.使用Keras构建卷积神经网络3.CNN层的问题4.模型泛化小结系列链接0.前言卷积神经网络(ConvolutionalNeuralNetwork,CNN)的提出是为了解决传统神经网络的缺陷。即使对象位于图片中的不同位置或其在图像中具有不同占比，
Python网络爬虫入门教程：从抓取数据到应用实现冷夜雨. python
引言在大数据时代，信息就是力量。各种网站每天产生着海量的数据，这些数据中蕴藏着巨大的商业价值和研究价值。如何快速、自动化地从互联网上获取这些信息，成为了数据科学、人工智能、市场分析等领域中的一个重要课题。Python，作为一门易于学习且功能强大的编程语言，其丰富的库和工具使得构建网络爬虫变得非常简单。网络爬虫（WebScraper）是一种自动化程序，用来从网页中提取信息。无论是用于数据分析、竞争对
编程语言大揭秘：各显神通的编程世界冷夜雨. python java c++c#javascript
在当今数字化的时代，编程语言犹如一把把神奇的钥匙，打开了通往不同技术领域的大门。从网页开发到人工智能，从数据分析到游戏制作，每一种编程语言都有其独特的优势与适用场景。今天，就让我们一同深入探索几种主流编程语言的奥秘，看看在什么情况下它们能发挥最大的威力。Python：万能胶水，快速开发的利器Python以其简洁、易读的语法著称，仿佛是用自然语言编写代码一般，新手程序员也能快速上手。它拥有庞大且丰富
【深度学习地学应用|滑坡制图、变化检测、多目标域适应、感知学习、深度学习】跨域大尺度遥感影像滑坡制图方法：基于原型引导的领域感知渐进表示学习（一）努力学习的大大论文推荐深度学习人工智能机器学习神经网络变化检测
【深度学习地学应用|滑坡制图、变化检测、多目标域适应、感知学习、深度学习】跨域大尺度遥感影像滑坡制图方法：基于原型引导的领域感知渐进表示学习（一）【深度学习地学应用|滑坡制图、变化检测、多目标域适应、感知学习、深度学习】跨域大尺度遥感影像滑坡制图方法：基于原型引导的领域感知渐进表示学习（一）文章目录【深度学习地学应用|滑坡制图、变化检测、多目标域适应、感知学习、深度学习】跨域大尺度遥感影像滑坡制图
遗传算法与深度学习实战（26）——编码卷积神经网络架构盼小辉丶遗传算法与深度学习实战深度学习 cnn 遗传算法
遗传算法与深度学习实战（26）——编码卷积神经网络架构0.前言1.EvoCNN原理1.1工作原理1.2基因编码2.编码卷积神经网络架构小结系列链接0.前言我们已经学习了如何构建卷积神经网络(ConvolutionalNeuralNetwork,CNN)，在本节中，我们将了解如何将CNN模型的网络架构编码为基因，这是将基因序列进化在为给定数据集上训练最佳模型的先决条件。1.EvoCNN原理进化卷积神
关于2025年智能化招聘管理系统平台发展趋势 yongyoudayee 数智招聘
2025年，招聘管理领域正站在变革的十字路口，全新的技术浪潮与不断变化的职场生态相互碰撞，促使招聘管理系统成为重塑企业人才战略的关键力量。智能化招聘管理系统平台在这一背景下迅速崛起，其发展趋势不仅影响企业的招聘效率与质量，还深刻改变着人力资源市场的生态格局。一、智能化招聘管理系统平台的核心特征与发展趋势1.深度学习算法与大数据分析的应用2025年的招聘管理系统将依托深度学习算法与大数据分析，彻底颠
《C++ 赋能强化学习：Q - learning 算法的实现之路》 c++人工智能深度学习
在当今科技飞速发展的时代，人工智能无疑是最热门的领域之一，而强化学习作为其中的重要分支，正逐渐改变着我们解决复杂问题的方式。Q-learning算法作为强化学习中的经典算法，在众多领域如游戏、机器人控制、资源管理等有着广泛的应用前景。本文将深入探讨如何用C++实现强化学习中的Q-learning算法，带您领略C++在人工智能领域的强大魅力。一、强化学习与Q-learning算法概述强化学习是一种通
《C 语言向量运算：点亮人工智能几何计算之路》 c人工智能深度学习
在人工智能蓬勃发展的时代，数学运算作为其坚实的基石发挥着不可替代的作用。而向量的点积与叉积运算，更是在人工智能的几何计算领域有着独特且关键的地位。今天，就让我们一同深入探讨如何在C语言中实现向量的点积、叉积运算，并领略其在人工智能几何计算中的精彩应用。向量，作为既有大小又有方向的量，在几何世界里是极为重要的元素。点积，也被称为数量积，它的几何意义与向量的投影密切相关。当我们计算两个向量的点积时，其
微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
不能否认，微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的，一如ChatGPT在NLP领域的随心所欲，予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术，其影响力由此可见一斑，仅有的白璧微瑕之处就是价格略高，虽然国内也可以使用科大讯飞语音合成进行平替，但我们只想要最好的那一个，本次我们使用免费的开源库edge-tts来实现文本转语
AI Prompt 设计指南：从基础构建到高质量生成的全面解析网罗开发 AI 大模型人工智能 OpenAI 深度学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
211本硕二战腾讯大模型算法岗，已凉...... AI大模型入门算法阿里云人工智能云计算目标跟踪
01背景本弱鸡211本硕，nlp，无论文有实习（老板没资源且放养），本科有acm经历（1铜），面试pcg日常实习。02技术一面（时长1h）Q1：了解什么机器学习算法，讲一下原理？当时只记得实体识别用到了隐马尔可夫模型，讲了讲怎么怎么定义观测状态和隐藏状态、前向传播、解码和应用场景。Q2：讲一下Bert的结构和怎么训练的，怎么用bert做下游任务？八股，双向transformerencoder结构，
【精选】基于RFCBAMConv与YOLOv8优化的杂草分割系统农业智能检测平台、深度学习图像分割与注意力机制融合杂草智能识别与分类系统、深度学习目标分割优化改、进型YOLOv8杂草图像分割系统程序员阿龙深度学习实战案例 Python精选毕业设计 YOLO 感受野注意力卷积图像分割与分类智能农业图像分析农业智能检测系统农作物生长环境监测
博主介绍：✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W+粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、阿里云、InfoQ等平台的优质作者。通过长期分享和实战指导，我致力于帮助更多学生完成毕业项目和技术提升。技术范围：我熟悉的技术领域涵盖SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nod
NAS(Neural Architecture Search) 神经结构搜索 hxxjxw
Neuralarchitecturesearch(NAS)，神经结构搜索，是强化学习的一个重要应用方向，也是AutoML的一个非常火的研究方向.NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构
诺贝尔物理学奖新视野：机器学习与神经网络的璀璨华章青云交大数据新视界 #AI AI&人工智能机器学习神经网络人工智能诺贝尔物理学奖应用实例未来展望传统物理学
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
未来展望：等保测评在网络安全领域的持续创新与发展亿林数据 web安全安全等保测评网络安全
在数字化浪潮席卷全球的今天，网络安全已成为维护国家安全、社会稳定和经济发展的关键基石。作为网络安全保障体系的核心组成部分，等级保护测评（简称“等保测评”）在应对日益复杂多变的网络威胁中发挥着不可替代的作用。展望未来，等保测评将在技术、管理、生态等多个维度持续创新与发展，为构建更加安全可信的网络环境提供有力支撑。一、技术创新引领等保测评智能化升级随着人工智能（AI）、大数据、云计算等技术的快速发展，
幕墙工程管理新趋势工程项目管理软件的应用益企联工程项目管理软件项目管理软件工程
随着建筑行业的快速发展，幕墙工程作为现代建筑的重要组成部分，其管理方式也正经历着深刻的变革。幕墙工程管理新趋势主要体现在数字化转型、人工智能（AI）和自动化、远程工作的持续增长等方面。而工程项目管理软件的应用则在提高项目管理效率、优化资源配置、增强团队协作等方面发挥着重要作用。以下是对幕墙工程管理新趋势的分析：1.数字化转型：数字化转型已成为幕墙工程管理的重要趋势之一。企业越来越依赖于数字工具来协
PHP 与 AI 的强力组合，PHP 如何积极拥抱 AI 的 Ai 编码 Ai编码工具 idea插件 php教程 php 人工智能开发语言
PHP与AI的结合正在成为开发者探索的一个新领域。虽然PHP传统上并不是人工智能和机器学习应用的首选语言，但通过现代工具和技术的结合，PHP已经能够积极拥抱AI，推动创新和应用开发。点击：phpstorm里的JetBrainsAI有哪些好用的功能以下是几种方法和实践，通过它们PHP可以与AI强力结合。1.集成现有的AI服务和API对于很多开发者来说，最简单的方法是通过集成现有的AI服务和API。
《AI赋能光追：开启图形渲染新时代》人工智能深度学习
光线追踪技术是图形渲染领域的重大突破，能够通过模拟光的传播路径，精准渲染反射、折射、阴影和间接光照等效果，实现高度逼真的场景呈现。而人工智能的加入，更是为光线追踪技术带来了前所未有的变革，主要体现在以下几个方面：降噪传统光线追踪为减少计算量，向场景发射少量光线样本，会产生带噪点的斑点图像，需人工设计降噪器通过多帧累积或空间插值来处理，但存在增加开发成本、降低帧率等问题。AI驱动的降噪技术则引入神经
《鸿蒙Next微内核：解锁人工智能决策树并行计算的加速密码》人工智能深度学习算法
在当今人工智能飞速发展的时代，提升运算速度是推动其进步的关键。鸿蒙Next以其独特的微内核特性，为设计决策树的并行计算框架提供了新的思路和契机。鸿蒙Next微内核特性概述鸿蒙Next的微内核架构将核心功能模块化，仅保留进程管理、内存管理和通信机制等基础功能在内核中，文件系统、网络协议等都作为独立模块在用户空间运行。这种架构使内核精简、稳定且安全，模块间低耦合也让系统可扩展性和维护性更强，能根据不同
人工智能时代的岗位变革人工智能
随着人工智能技术的飞速发展，它正深刻地改变着就业市场的格局，引发了一系列的岗位变革。一方面，人工智能的兴起使得一些重复性、规律性强的工作岗位面临被替代的风险。例如，在数据录入领域，以往需要大量人工手动输入数据的工作，如今借助人工智能的数据识别和自动化录入技术，能够快速、准确地完成。这导致许多数据录入员岗位需求减少。同样，在一些简单的生产装配环节，智能机器人凭借其高精度和高效率的优势，逐渐取代了部分
AI Agent：当年年都是爆发元年时人工智能算法
随着人工智能技术的不断进步，AIAgent的概念已经成为业界的热点。尽管许多公司推出了所谓的“Agent产品”，但这些产品往往只具备基本的自然语言理解能力，远未达到真正的Agent水平。从海外市场来看，科技巨头们无疑是这场角逐中的主力军。OpenAI、Anthropic、微软、谷歌等企业凭借深厚的技术积累与强大的研发实力，争先展示各自在AIAgent领域的阶段性成果，将其视为彰显企业竞争力的关键要
6. NLP自然语言处理（Natural Language Processing）啊波次得饿佛哥 AI人工智能自然语言处理人工智能
自然语言是指人类日常使用的语言，如中文、英语、法语等。自然语言处理是人工智能（AI）领域中的一个重要分支，它结合了计算机科学、语言学和统计学的方法，通过算法对文本和语音进行分析，使计算机能够理解、解释和生成自然语言。随着深度学习技术的发展，NLP在文本分类、机器翻译、情感分析、对话系统等任务中取得了显著进展，推动了人工智能技术在多个领域的广泛应用。自然语言处理的核心任务涉及如何使计算机理解和处理语
人工智能在医疗领域的应用人工智能
人工智能在医疗领域的应用前景广阔。医疗机器人是其中之一，如智能假肢、外骨骼等可修复受损身体，IBM的达・芬奇手术系统等则能承担手术或医疗保健功能.智能药物研发借助深度学习技术，可快速准确挖掘筛选化合物或生物，缩短新药研发周期、降低成本、提高成功率，在心血管药、抗肿瘤药等研发中已取得突破.智能诊疗让计算机学习专家医疗知识，模拟思维和诊断推理，给出可靠诊断与治疗方案.智能影像识别可对医学影像进行图像识
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不