田彼南山

强化学习基础

资料

理论资料：《强化学习》邹伟鬲玲刘昱杓
《强化学习原理与python实现》肖智清
https://blog.csdn.net/qq_33302004/article/details/115027798
代码资料： https://blog.csdn.net/u011559882/article/details/109015671
https://blog.csdn.net/mbdong/article/details/128266795

（一）基础概念

一、马尔科夫决策过程基础概念

1、马尔科夫性

马尔科夫模型的基础是马尔科夫性，马尔科夫性是指当前状态只与上一个状态有关，而与之前状态无关。

2、马尔科夫过程

如果随机过程中的每个状态都是符合马尔可夫性的，那么则称这个随机过程为马尔可夫随机过程。
马尔可夫过程定义为(S,P)；
其中 S是有限状态集， P是状态转移概率（是一个矩阵，描述了S中每一种状态到领一种状态的转移概率）；

3、马尔科夫决策过程

在马尔科夫过程中增加动作和奖励就是马尔科夫决策过程;
马尔科夫决策过程定义为(S,A,P,R,γ);
S为有限状态集； A为有限动作集； P为状态转移概率； R为回报函数； γ为折扣因子（用来计算累积回报）；

二、强化学习基础概念

1、智能体和环境

智能体根据策略作出动作，环境则作出状态和奖励的反馈
马尔科夫决策过程可以用于描述上述强化学习过程

2、马尔科夫决策过程五元组 M=

以下面图中这个的内容为例，在4X4的地图中，随机出现在任意一个位置，如何在扣分最少的情况下移动到终点之一。这里简化了一下问题，无论上下左右移动都扣一分，回报的折扣也是1。
s0->a0->r1->s1->a1->r2->s2->a2->r3->s3

（1）状态S

在上面的例子中，状态就是1到16，共计16种位置的状态

（2）动作A

动作就是上下左右，共计四种移动的动作

（3）转移概率P

在不同的状态下，选择不同动作进而转换成不同状态的概率是不同的，将不同状态之间转换的概率称为转移概率。
下面这个公式是转移概率的一般定义：

（4）策略π

策略π则是在s状态下采用动作a的概率，也是我们学习的目标。
下面这个公式是转移概率最常被使用的情况，其中出现了两种转移概率，分别是采用策略π的转移概率和通过动作a实现状态转移的概率。基于动作的转移概率是由外部环境决定的，比如在“饱”的状态下进行动作“吃”，大概率状态还是“饱”。而所谓的策略就是在“饱”的状态下，大概率进行动作“不吃”而不是“吃”，进而获得好的状态。
策略分为两种，确定性策略和非确定性策略。确定性策略典型的就是贪心算法，非确定性就是ε-贪心算法

（5）奖励R

奖励R是在获得一个新状态时获得的“评价”，是由外部环境决定的，比如上面走迷宫的例子，移动到另一个状态的奖励都是-1。这个具体的奖励数值环境决定的，但实践中往往也是人为设置进而达到目的，比如设置奖励-1就可以尽量减少移动。
这里的奖励是根据状态给出的，而与后面用到的动作状态奖励和策略奖励不同。

（6）折扣γ与回报G

根据一个策略则可以获得一系列S（只考虑确定性策略），根据一系列状态S可以获得一系列奖励R，而综合这些奖励则可以计算回报G。
不同的策略可以获得不同的回报，比较回报即可比较策略的好坏。为了便于比较，增加了一个折扣系数。否则会都趋于无穷。
G针对的是未来的一系列状态

3、状态值函数和动作-状态值函数

G函数的定义有一个缺陷，策略未必是确定性的，如果是非确定性的则要考虑不同的动作，而且在不同状态转移的过程中也未必是百分之百的。综合这两点可知一个状态出发可能会有若干状态轨迹，所以要引入期望函数，进而定义了值函数。
针对状态和状态-动作的不同情况，将值函数分为状态价值函数V和动作状态价值函数Q，这两种值函数都是针对G的期望。

（1）状态值函数V

在上面那个迷宫的例子中，通过状态价值函数可以得到下面这个表，先不考虑如何获得这个表。只要获得这个表，无论随机出现在哪里都可以选择自己周边奖励绝对值最小的路径作为自己的下一个状态，最后就会尽快到达终点。比如出现在左下角，可以选择向上和向左尽快到达终点。

迭代公式
状态价值函数可以通过定义推导出一个迭代公式

（2）动作-状态值函数Q

迷宫的例子可以无论选择上下左右都可以确定到达对应状态，但是吃饭“饱”“饿”的例子就无法保证切换状态。那么我们就要使用动作-状态价值函数，在当前状态下选择价值最高的动作，而不是状态。

迭代公式

4、贝尔曼期望公式（4种形式）

贝尔曼期望公式描述了V和Q之间的关系以及计算式

（1）

（2）

这里涉及到一个新的奖励R，是在S状态时做出动作a动作的价值期望

（3）环境已知情况下，更新V的理论基础（解线性方程和迭代法）

把（2）带入（1）得到（3）

s和s’分别是t和t+1时刻的状态，如果这两个状态的值相同，则V（s）和V（s‘）相同
根据上面贝尔曼期望方程的第三个公式得到下式：
上面这个式子说明在转移概率和回报概率已知（环境已知）的情况，则可以直接计算当前的状态价值函数V
除了解算线性方程，也可以使用迭代法

（4）

把（3）带入（2）得到（4）

5、贝尔曼最优公式和最优策略（策略改进的基础）

上面讲的都是价值函数的定义、性质和关系，但我们的目的还是通过价值函数求出最优策略，下面是价值函数和最优策略的关系和定义。
根据最优策略获得的价值函数就是最优价值函数和最优动作价值函数，可以通过最优策略获得最优价值函数。反之，最优价值函数在贪心算法的指引下，会得到最优策略。最优策略和价值会最终收敛到一起，这一点成为了策略改进的基础。

（二）如何获得最优策略

最优策略是分为两步进行的，策略评估和策略改进。策略评估主要是通过价值函数，策略改进主要通过贪心策略。
至于如何获得价值函数有两种思路，一种是通过解线性方程，这种方法计算量大，条件多（可逆、全知），另一种就是迭代，常见的有动态规划、蒙特卡洛法、时间差分法。
而策略改进的方法就只有一点点改进了，通过在每一个状态选择当前价值最大的动作进行策略改进，改进后会获得新的价值函数，循环往复即可获得最优策略。

一、动态规划算法

1、策略迭代算法

（1）策略评估

计算V和Q使用贝尔曼期望方程（（3）的迭代形式）：

（2）策略改进

更新策略：
基本上在获得最优值函数后，都是使用贪心策略获得策略，之后无变化就不再赘言。

2、值迭代算法

（1）策略评估

如果在根据贪心策略修改状态，那么max（Q）=V
不进行策略修改，而用行为价值函数Q=状态价值函数V单独进行值迭代

在值函数迭代后，即代表获得最优值函数，再通过贪心算法获得最优策略

3、动态规划的最优值函数代码实现

这份代码使用的是值迭代的方法，但是没有用Q的最大值代替V，而是使用策略迭代那里的方法通过状态代价的迭代完成状态价值函数的优化。

# encoding=utf-8
'''
Author: Haitaifantuan
Create Date: 2020-09-07 23:10:17
Author Email: [email protected]
Description: Should you have any question, do not hesitate to contact me via E-mail.
'''
import numpy as np
import copy

#状态是4X4的格子
TOTAL_ROWS = 4       
TOTAL_COLUMN = 4
#动作有4种
TOTAL_ACTIONS_NUM = 4  # 0代表上，1代表右，2代表下，3代表左
ACTION_DICT = {0: '上', 1: '右', 2: '下', 3: '左'}
#初始策略
FOUR_ACTION_PROBABILITY = {'上': 0.25, '右': 0.25, '下': 0.25, '左': 0.25}  # 分别是走上、下、左、右的概率。
#动作->状态
IDX_CHANGE_DICT = {'上': (-1, 0), '右': (0, 1), '下': (1, 0), '左': (0, -1)}  # 左边这个是行的索引的改变，右边这个是列的索引的改变

STOP_CRITERION = 1e-4  #停止标志
GAMMA = 1              #折扣量
REWARD_SETTING = -1    #奖励

def get_current_reward_and_next_state(current_state, action):
    '''
    根据当前的状态，以及行为，计算当前行为的奖励以及下一个状态
    奖励只有0和-1两种
    '''
    # 1、先判断是否到了终点，如果是终点，不管执行什么操作奖励都是0，并且都会回到终点
    row_idx, column_idx = current_state
    if (row_idx == 0 and column_idx == 0):
        return 0, (0, 0)

    if (row_idx == 3 and column_idx == 3):
        return 0, (3, 3)

    # 2、否则的话就计算下下一步的state和reward
    next_row_idx = row_idx + IDX_CHANGE_DICT[action][0]
    next_column_idx = column_idx + IDX_CHANGE_DICT[action][1]

    # 3、再判断是否在边缘，如果是的话，那就回到该位置。
    if next_row_idx < 0 or next_row_idx > TOTAL_ROWS - 1 or next_column_idx < 0 or next_column_idx > TOTAL_COLUMN - 1:
        return REWARD_SETTING, (row_idx, column_idx)      
    else:
        return REWARD_SETTING, (next_row_idx, next_column_idx)


# 初始化状态价值函数V
V = np.zeros((TOTAL_ROWS, TOTAL_COLUMN))

# 开始迭代更新状态价值函数
iteration = 0   #迭代次数
flag = True     #标志
while flag:
    #两个变量都是用来计算是否收敛
    delta = 0
    old_V = copy.deepcopy(V)   #原来的价值函数
    # 遍历每一个状态，对其进行更新
    for row_idx in range(TOTAL_ROWS):
        for column_idx in range(TOTAL_COLUMN):
            new_final_value = 0
            # 根据sutton的《强化学习》第72页公式4.5进行更新
            for each_action in range(TOTAL_ACTIONS_NUM):    #在每个位置都遍历四个动作
                action = ACTION_DICT[each_action]                                                                     #动作
                action_proba = FOUR_ACTION_PROBABILITY[action]                                                        #概率
                current_action_reward, next_state = get_current_reward_and_next_state((row_idx, column_idx), action)  #奖励和状态
                #####关键就是这里，这是状态价值函数的迭代
                new_final_value = new_final_value + action_proba * (1 * (current_action_reward +GAMMA * V[next_state[0]][next_state[1]]))   #对当前动作累积回报
            V[row_idx][column_idx] = new_final_value  #存入回报

    #价值函数是否收敛
    delta = max(delta, abs(old_V - V).max())
    if delta < STOP_CRITERION:  
        flag = False

    iteration += 1

print(V)
print(iteration)

二、蒙特卡洛算法

动态规划中是有模型的强化学习算法，即有下面这个公式：
有模型的算法更偏向于优化，动态规划或者解方程都不需要环境的数据，就像MPC一样，是一种优化算法。而无模型的算法则更像从环境中获得数据并学习。
实际问题中往往没有状态转移和回报函数，这个时候可以考虑使用无模型的强化学习算法，无模型的强化学习往往生成一部分数据再进行学习，即通过采样的方法代替策略评估。说白了就是通过大数定律通过回报的平均值等于回报的期望。

1、基于采样的策略估计

（1）初次访问蒙特卡洛方法和每次蒙特卡洛方法

这里所说的均值有两种方法，初次访问蒙特卡洛方法和每次蒙特卡洛方法。

（2）迭代形式

如果每个都计算，存储数据太多，可以写成迭代形式：
V本身就是G的期望

（3）用状态-动作价值函数Q代替状态价值函数V

因为要通过行为状态价值函数得到策略，所以要估计的应该是行为状态价值函数，使用下面这个公式
因为基于采样的蒙特卡洛没有马尔科夫性，所以无法从V到Q，只能直接估计Q
整个计算过程都与V的无异

2、策略提升

因为数据刚开始往往不全，要采用有探索性的策略
基于采样的Q估计和不确定性策略一起组成蒙特卡洛方法
这里采用的是在线蒙特卡洛算法

3、蒙特卡洛方法分类

在线和离线的区别就在与产生数据的策略和要优化的策略是否是同一个策略

（1）在线蒙特卡洛方法

（2）离线蒙特卡洛方法

4、蒙特卡洛算法的代码实现

这里的代码只实现了值函数的计算，所以无所谓在线与离线，是每次访问类型。因为针对的是迷宫例子，所以动作的奖励都相同

# encoding=utf-8
'''
Author: Haitaifantuan
Create Date: 2020-09-08 23:47:11
Author Email: [email protected]
Description: Should you have any question, do not hesitate to contact me via E-mail.
'''
import numpy as np
import random
import time
import matplotlib.pyplot as plt
from matplotlib.table import Table

# 解决plt显示中文的问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

class Every_Visit_Monte_Carlo_Policy_Evaluation(object):
    def __init__(self):
        self.total_rows = 4             
        self.total_columns = 4
        self.total_action_num = 4    # 0代表上，1代表右，2代表下，3代表左
        self.reward_each_step = -1   #奖励
        self.action_dict = {0: '上', 1: '右', 2: '下', 3: '左'}
        self.reversed_action_dict = {'上': 0, '右':1, '下':2, '左': 3}
        # 分别是走上、下、左、右的概率。随机数命中某个数字如49，那就是向右。随机数只在0-100随机选数字。
        self.four_action_probability = {'上': range(0, 25), '右': range(25, 50), '下': range(50, 75), '左': range(75, 100)}
        self.idx_change_dict = {'上': (-1, 0), '右': (0, 1), '下': (1, 0), '左': (0, -1)}  # 左边这个是行的索引的改变，右边这个是列的索引的改变
        self.episode = 100000  # 共采集TOTAL_ITERATION幕数据

        # 初始化状态价值函数V


    def get_current_reward_and_next_state(self, current_state, action):
        '''
        根据当前的状态，以及行为，计算当前行为的奖励以及下一个状态
        '''
        row_idx, column_idx = current_state

        # 计算下下一步的state和reward
        next_row_idx = row_idx + self.idx_change_dict[action][0]
        next_column_idx = column_idx + self.idx_change_dict[action][1]

        # 先判断是否到了终点，如果是终点，不管执行什么操作
        # 奖励都是0，并且都会回到终点

        if (next_row_idx == 0 and next_column_idx == 0):
            return 0, (0, 0)

        if (next_row_idx == 3 and next_column_idx == 3):
            return 0, (3, 3)

        # 再判断是否在边缘，如果是的话，那就回到该位置。
        if next_row_idx < 0 or next_row_idx > self.total_rows - 1 or next_column_idx < 0 or next_column_idx > self.total_columns - 1:
            return self.reward_each_step, (row_idx, column_idx)
        else:
            return self.reward_each_step, (next_row_idx, next_column_idx)


    def generate_initial_state(self, total_rows, total_columns):
        row_idx = random.randint(0, total_rows - 1)
        column_idx = random.randint(0, total_columns - 1)

        while (row_idx == 0 and column_idx == 0) or (row_idx == 3 and column_idx == 3):
            row_idx = random.randint(0, total_rows - 1)
            column_idx = random.randint(0, total_columns - 1)

        return (row_idx, column_idx)


    def generate_one_episode_data(self, init_state):  #根据状态随机选择动作，输出状态、动作、奖励
        one_episode_data = []
        current_state = init_state
        while not ((current_state[0] == 0 and current_state[1] == 0) or (current_state[0] == 3 and current_state[1] == 3)):
            # 根据概率产生一个动作
            rand_int = random.randint(0, 99)
            for each in self.four_action_probability.items():
                if rand_int in each[1]:
                    action = each[0]
                    break

            # 根据要走的动作得到奖励以及获取下一个状态
            reward, next_state = self.get_current_reward_and_next_state(current_state, action)
            # （当前状态，当前行为，当前行为的奖励）
            one_episode_data.append((current_state, self.reversed_action_dict[action], reward))

            current_state = next_state

        # while循环出来的时候，最后一个terminal状态没加进去。
        one_episode_data.append((current_state, None, None))

        return one_episode_data


    def fire_calculation(self):
        # 计算“状态价值”
        # 创建一个字典保存出现的状态以及奖励
        begin_time = time.time()

        episode_record_dict = {}             #生成的数据的记录
        final_state_reward_dict = {}         #最终的状态的奖励字典
        final_state_count_dict = {}          #最终的状态的次数字典
        for episode in range(self.episode):
            #1、生成数据
            # 随机生成一个起始状态
            init_state = self.generate_initial_state(self.total_rows, self.total_columns)
            # 生成一幕数据
            current_generated_episode = self.generate_one_episode_data(init_state)#当前状态、随机动作、奖励
            episode_record_dict[episode] = current_generated_episode      #数据存储
            #2、使用数据
            #2.1 将数据存入timeStep_state_reward_dict
            # 对这幕数据进行遍历，然后将出现过的状态进行统计
            timeStep_state_reward_dict = {}  # 记录每一个状态当前的总共的reward
            for timeStep, eachTuple in enumerate(current_generated_episode):
                # 先判断是不是到了终点，如果是的话就跳出循环
                if timeStep == len(episode_record_dict[episode])-1:
                    break

                # 将state和timeStep组合成字符串，方便作为dict的key
                timeStep_state_combination = str(timeStep) + str(eachTuple[0][0]) + str(eachTuple[0][1])

                # 对state_action_reward_dict()里的所有的key都累加当前的reward。
                for key in timeStep_state_reward_dict.keys():
                    timeStep_state_reward_dict[key] += eachTuple[2]

                # 检测当前这一幕该状态和动作组合是否出现过
                if timeStep_state_combination not in timeStep_state_reward_dict.keys():
                    # 如果不存在在timeStep_state_reward_dict.keys()里，那就把它加进去。
                    # 其实每一个时间点都会被添加进去，因为这是“每次访问型蒙特卡罗策略估计”。
                    timeStep_state_reward_dict[timeStep_state_combination] = eachTuple[2]

            # 2.2 将该募最后统计到总的变量里。
            for timeStep_state, in timeStep_state_reward_dict.items():
                # 把timeStep剥离开，取出state
                state = timeStep_state[-2:]
                if state not in final_state_reward_dict.keys():  #如果此状态是第一次出现
                    final_state_reward_dict[state] = reward  # 将该状态-动作计数设为reward
                    final_state_count_dict[state] = 1  # 将该状态-动作计数设为1
                else:
                    # 否则说明其他幕中出现过该状态，并且曾经统计到final_state_action_reward_dict和final_state_action_count_dict变量里面
                    # 直接累加就好了。
                    final_state_reward_dict[state] += reward
                    final_state_count_dict[state] += 1

            if episode % 100 == 0:
                print("第{}个episode已完成=====已花费{}分钟".format(episode, (time.time() - begin_time) / 60))

        # 计算下最终的状态价值
        # 由于是按概率采样，因此可能会导致某些动作-状态没有出现过，这个时候就需要一些方法去解决了。
        # 一种方法是增加采样次数，这种方法相当于是暴力解决。
        # 另一种方法可以参考sutton的《强化学习第二版》的98页的5.4内容
        self.averaged_state_value_dict = {}
        for state, reward in final_state_reward_dict.items():
            self.averaged_state_value_dict[state] = reward / final_state_count_dict[state]   #计算V

        print(self.averaged_state_value_dict)


    def draw_value_picture(self):
        fig, ax = plt.subplots()

        ax.set_axis_off()

        tbl = Table(ax, bbox=[0, 0, 1, 1])

        width = 1.0 / (self.total_columns + 1)
        height = 1.0 / (self.total_rows + 1)

        # 给表格的中间赋值，赋值为该状态的价值
        for row_idx in range(self.total_rows):
            for column_idx in range(self.total_columns):
                if (row_idx == 0 and column_idx == 0) or (row_idx == 3 and column_idx == 3):
                    value = 0
                else:
                    value = self.averaged_state_value_dict[str(row_idx)+str(column_idx)]

                tbl.add_cell(row_idx+1, column_idx+1, width, height,
                             text=value,
                             loc='center', facecolor='white')

        # 给表格行加上索引
        for row_idx in range(self.total_rows):
            tbl.add_cell(row_idx+1, 0, width, height, text=row_idx, loc='right', edgecolor='none', facecolor='none')

        # 给表格列加上索引
        for column_idx in range(self.total_columns):
            tbl.add_cell(0, column_idx+1, width, height/4, text=column_idx, loc='center', edgecolor='none', facecolor='none')

        ax.add_table(tbl)
        plt.show()


obj = Every_Visit_Monte_Carlo_Policy_Evaluation()    #每次访问蒙特卡洛策略估计
obj.fire_calculation()        #开始计算 
obj.draw_value_picture()      #开始画图

三、时间差分算法

1、算法原理

用Rt+1+γV(st+1)代替G，
蒙特卡罗需要完整未来轨迹，时间差分则只需要一步

注意这个图中，是向未来期望价值的计算

2、算法分类

3、代码实现

# encoding=utf-8
'''
Author: Haitaifantuan
Create Date: 2020-09-08 23:47:11
Author Email: [email protected]
Description: Should you have any question, do not hesitate to contact me via E-mail.
'''
import numpy as np
import random
import time


class Q_Learning(object):
    def __init__(self):
        # 创建一个q函数，其实就是Q表格
        # 一共6个状态，每个状态都有合法的action
        # 这个列代表当前所处的状态，行代表即将到达的状态
        self.q_function = np.zeros((6, 6))
        # 这个字典记录了在哪个状态（房间），可以到达哪个状态（房间）
        self.available_action = {0:[4], 1:[3, 5], 2:[3], 3:[1, 2, 4], 4:[0, 3], 5:[1]}
        self.destination_reward = 100
        self.episode = 10000  # 共采集TOTAL_ITERATION幕数据
        self.initial_epsilon = 0.5
        self.epsilon_decay_ratio = 0.90
        self.final_epsilon = 0.01
        self.alpha = 0.8
        self.gamma = 0.9
        print("q_function为：{}".format(self.q_function))
        print("============================================================")


    def generate_initial_state(self):
        state = random.randint(0, 5)
        while state == 0 or state == 5:
            state = random.randint(0, 5)
        return state


    def generate_action_and_get_reward_and_next_state(self, current_state):
        # 使用ε-greedy的方法以及贪婪的方法选取一个动作以及做一个动作并获得回报
        if random.random() < self.epsilon:
            # 根据当前的状态，随机选取一个动作
            next_state = random.choice(self.available_action[current_state])
        else:
            # 找到当前可到达的下一个状态
            available_next_state_list = self.available_action[current_state]
            # 根据可到达的下一个状态，使用贪婪的策略找到使得获得最大收益的那个动作对应的下一个状态
            # 拿到可行的下一个状态的回报
            available_next_state_reward_list = self.q_function[current_state][available_next_state_list]
            # 找到最大的那个回报的索引，如果有多个同样大小的值，就随机选取一个
            max_value = np.max(available_next_state_reward_list)
            indices = list(np.where(available_next_state_reward_list == max_value)[0])
            idx = random.choice(indices)
            # 根据这个索引找到最大回报的下一个状态是什么
            next_state = available_next_state_list[idx]

        # 判断下是否到达4号房间或者5号房间
        if next_state == 4 or next_state == 5:
            reward = 100
            finished_flag = True
        else:
            reward = 0
            finished_flag = False


        return next_state, reward, finished_flag


    def fire_calculation(self):
        # 对每一个episode进行循环
        self.epsilon = self.initial_epsilon

        for episode in range(self.episode):
            # 随机生成一个起始状态
            current_state = self.generate_initial_state()
            finished_flag = False

            while not finished_flag:
                # 使用ε-greedy的方法以及贪婪的方法选取一个动作以及做一个动作并获得回报
                next_state, current_state_reward, finished_flag = self.generate_action_and_get_reward_and_next_state(current_state)

                # 根据下一个状态，使用ε-greedy的方法以及贪婪的方法选取一个动作以及做一个动作并获得回报
                # 这里不需要管finished_flag是否为True，因为我们只是根据next_state拿到next_state情况下最大的下下个状态的奖励值
                next_next_state, next_state_reward, next_state_finished_flag = self.generate_action_and_get_reward_and_next_state(next_state)

                # 根据公式更新q函数
                self.q_function[current_state][next_state] = self.q_function[current_state][next_state] + \
                    self.alpha * (current_state_reward + self.gamma * (next_state_reward) - self.q_function[current_state][next_state])

                current_state = next_state

            # 一个episode结束后更新epsilon的值
            if self.epsilon > self.final_epsilon:
                self.epsilon = self.epsilon * self.epsilon_decay_ratio

            if episode % 3000 == 0:
                print("第{}个episode已经结束".format(episode))
                print("当前的q_function是：{}".format(self.q_function))


    def show_policy(self):
        print("当前的q_function是：{}".format(self.q_function))
        self.policy = {}

        print("策略是：")
        shape = np.shape(self.q_function)
        for current_state in range(shape[0]):
            max_reward_state = np.argmax(self.q_function[current_state])
            self.policy[current_state] = max_reward_state
            if current_state == 4 or current_state == 5:
                continue
            print("如果你在{}号房间，那就往{}号房间走".format(current_state, max_reward_state))



obj = Q_Learning()
obj.fire_calculation()
obj.show_policy()

（三）基于DQN的倒立摆

这是一个完整使用gym实现的基于DQN的强化学习应用，使用全连接网络逼近Q函数，使用Q-learning算法

# import required modules
import gym
import random
import numpy as np
import math

import torch
import torch.nn as nn
class Net(nn.Module):
    def __init__(self, n_states, n_actions):
        super().__init__()
        
        self.fc1 = nn.Linear(n_states, 10)
        self.fc2 = nn.Linear(10, n_actions)
        
        self.fc1.weight.data.normal_(0,0.1)
        self.fc2.weight.data.normal_(0,0.1)
        
    def forward(self, inputs):
        x = self.fc1(inputs)
        x = nn.functional.relu(x)
        outputs = self.fc2(x)
        
        return outputs
# define DQN
class DQN:
    def __init__(self, n_states, n_actions):
        # two nets
        self.eval_net = Net(n_states, n_actions)
        self.target_net = Net(n_states, n_actions)
        
        self.loss = nn.MSELoss()
        
        self.optimizer = torch.optim.Adam(self.eval_net.parameters(), lr=0.01)
        
        self.learn_step = 0
        
        self.n_states = 4
        self.n_actions = 2
        
        # define variables for history data storage
        self.history_capacity = 5000
        self.history_data = np.zeros((self.history_capacity, 2*n_states+2)) # state, action, reward, next_state
        self.history_index = 0
        self.history_num = 0
        
    def random_action(self):
        r = random.random()
        if r >= 0.5:
            action = 1
        else:
            action = 0
        
        return action
    
    def choose_action(self, state, epsilon):
        r = random.random()
        if r > epsilon:
            action = self.random_action()
        else:
            state = torch.FloatTensor(state)
            state = torch.unsqueeze(state, 0)
            
            evals = self.eval_net.forward(state)
            action = np.argmax(evals.data.numpy())
            
        return action
    
    # function to calculate reward
    def get_reward(self, state):
        pos, vel, ang, avel = state
        
        pos1 = 1.0
        ang1 = math.pi/9
        
        r1 = 5-10*abs(pos/pos1)
        r2 = 5-10*abs(ang/ang1)
        if r1 < -5.0:
            r1 = -5.0
        if r2 < -5.0:
            r2 = -5.0
            
        return r1+r2
    
    # definition of game end
    def gg(self, state):
        pos, vel, ang, avel = state
        
        bad = abs(pos) > 2.0 or abs(ang) > math.pi/4
        
        return bad

	# function to store history data    
    def store_transition(self, prev_state, action, reward, state):
        transition = np.hstack((prev_state, action, reward, state))
        self.history_data[self.history_index] = transition
        
        self.history_index = (self.history_index + 1)%self.history_capacity
        
        if self.history_num < self.history_index:
            self.history_num = self.history_index

	# learn
    def learn(self):
        # random choose a batch of sample indices
        indices = np.random.choice(self.history_num, 64)
        
        samples = self.history_data[indices, :]
        state = torch.FloatTensor(samples[:, 0:self.n_states])
        action = torch.LongTensor(samples[:, self.n_states:self.n_states+1])
        reward = torch.FloatTensor(samples[:, self.n_states+1:self.n_states+2])
        next_state = torch.FloatTensor(samples[:, self.n_states+2:])

        q_eval = self.eval_net(state).gather(1, action)
        q_next = self.target_net(next_state)
        
        # calculate target q values
        q_target = 0.9*q_next.max(1).values.unsqueeze(1) + reward
        
        loss = self.loss(q_eval, q_target)
        
        # backward training
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        
        self.learn_step += 1
        
        # update target net every 50 learn steps
        if self.learn_step % 50 == 0:
            self.target_net.load_state_dict(self.eval_net.state_dict())
# create cartpole model
env = gym.make('CartPole-v1', render_mode='human')

# reset state of env
state, _ = env.reset()

# crate DQN model
model = DQN(4, 2)

# parameters
max_sim_step = 100000

# simulate
for i in range(max_sim_step):
    env.render()
    #选择动作
    epsilon = 0.7 + i / max_sim_step * (0.95 - 0.7)
    action = model.choose_action(state, epsilon)
    
    prev_state = state
    state, reward, _, _, _ = env.step(action)
    
    reward += model.get_reward(state)

    model.store_transition(prev_state, action, reward, state)

	# perform model learning every 10 simulation steps    每10个模拟步骤进行模型学习
    if i>1000 and i%10 == 0:
        model.learn()   

    if model.gg(state):
        state, _ = env.reset()

env.close()

你可能感兴趣的:(机器学习)

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro