victorieskkkk

AlphaGoZero 原理讲解（附代码）

AlphaGoZero 原理讲解

前言
一、AlphaGoZero 棋盘编码器
二、AlphaGoZero树搜索算法
- 1. 树节点及其动作分支
- 2. 选择要探索的动作分支
- 3. 扩展搜索树
- 4. 选择最终的动作
三、训练神经网络
- 1. 网络结构
- 2. 训练数据
- 3. 训练目标
总结

前言

前面我们了解了AlphaGo的原理，它通过结合监督学习和强化学习，并且基于蒙特卡洛树搜索展现出了非凡的围棋能力，不仅很好的继承了人类的下棋策略，甚至创造出了很多人们不曾使用过的新动作。而2017年发布的AlphaGoZero则更让人意外，它不仅没有使用任何人类的棋局数据进行初始化训练，而且也不需要在进行蒙特卡洛推演。AlphaGoZero从最开始就将树搜索与强化学习集成到了一起，它使用了更少的代码却比原先的AlphaGo更加强大，它是如何做到的呢？本篇文章就和大家一起探索AlphaGoZero背后的原理。（在阅读本篇博客之前，建议读者先阅读之前介绍AlphaGo实现原理的博客：AlphaGo原理讲解）

一、AlphaGoZero 棋盘编码器

和之前介绍AlphaGo一样，我们首先来了解一下AlphaGoZero的棋盘编码器。与AlphaGo不同，AlphaGoZero最新版本的棋盘编码器也做了很大的调整，使用的是一个19×19×17的张量，其中当前黑色棋子的位置用一个平面来表示，前七次黑色棋子的位置用另外七个平面来表示；类似地，用另外八个平面表示白色棋子最近八步的位置信息。最后，还有一个平面用来表示当前执子方，如果该下黑色棋子了，该平面的值全为1；如果该下白子了，该平面的值则全为0。事实上，棋盘编码器的特征内容并不是固定不变的，我们完全可以尝试其他的平面组合，比如可以引进贴目的概念等。

除此之外，在AlphaGo中实现模拟两个AI进行自我对弈的代码时，我们直接把跳过回合的逻辑显示地写了出来；而在AlphaGoZero中，由于自我对弈采用了树搜索的算法，我们可以把跳过回合看作与其他落子动作一样作为一个动作选项，因此网络的输出尺寸就变成了19×19+1=362。相应的，我们要把之前在AlphaGo中实现的向量元素索引和棋盘交叉点坐标相互转换的函数进行略微的调整，如下所示：

 def encode_move(self, move):
        if move.is_play:
            return (self.board_size * (move.point.row - 1) +
                (move.point.col - 1))
        # add the pass as the 361th move
        elif move.is_pass:
            return self.board_size * self.board_size
        raise ValueError('Cannot encode resign move')

 def decode_move_index(self, index):
    	# check whether the move is pass first
        if index == self.board_size * self.board_size:
            return Move.pass_turn()
        row = index // self.board_size
        col = index % self.board_size
        return Move.play(Point(row=row + 1, col=col + 1))

二、AlphaGoZero树搜索算法

从算法层面来讲，AlphaGoZero与AlphaGo最大的不同在于：无论AlphaGo是先用人类的棋谱对策略网络进行预训练，还是让预训练好的策略网络进行自我对弈，并使用生成的对弈棋谱训练策略网络和价值网络，需要注意的是，当将这些网络用于改进MCTS的时候，这些网络已经是训练好的了，在使用过程中是不能够再次训练的。而AlphaGoZero却与之相反，其先将神经网络融入到树搜索之中，指导树搜索，然后用这些对弈生成的棋谱再训练神经网络。从功能方面来讲，AlphaGoZero中神经网络的作用是指导树搜索，而不是直接选择或评估动作。接下来，我们将详细地讲解这一过程。

1. 树节点及其动作分支

虽然不同的树搜索算法都有其各自的不同之处，但是核心思想都是在棋盘游戏中找到一个能产生最佳结果的动作。通常情况下，我们通过对选定动作进行推演来判断动作的好坏。但是由于要探索动作的深度和广度太大，导致时间复杂度过高，因此选择探索那个最合适的分支就成了树搜索算法要解决的核心问题。

和MCTS一样，AlphaGoZero的树搜索算法也会运行固定的轮次，每一轮都会向搜索树添加一个新的节点，这颗搜索树的每个节点都代表一个可能的棋局。与AlphaGo不同的是，每个节点不仅要储存下一个子节点，还要储存以该节点为当前状态，所有合法的下棋动作，无论这些动作是否被访问过，都会以该动作创建一个分支类，该分支类储存有以下信息：

$[1]$ 先验概率：表示对于当前状态，该动作的好坏；
$[2]$ 访问次数：表示在树搜索的过程中访问这个分支的次数，其初始化为0；
$[3]$ 经过这个分支的所有访问的期望值：这个值是所有经过该分支的访问的平均值（每访问一次该分支，就会产生一个期望值）。

除了要储存所有动作的分支外，树节点还要出巡当前状态，上一步动作等信息。动作分支和树节点的代码表示如下（由于代码较为简单，这里将不做讲解）：

class Branch:
    def __init__(self, prior):
        self.prior = prior
        self.visit_num = 0
        self.total_value = 0.0

class TreeNode:
    def __init__(self, board_state, state_value, priors, parent, last_move):
        self.board_state = board_state
        self.state_value = state_value
        self.parent = parent
        self.last_move = last_move
        self.total_visit_count = 1
        self.branches = {}
        for move, prob in priors.items():
            if board_state.is_valid_move(move):
                self.branches[move] = Branch(prob)
        self.children = {}

    def get_moves(self):
        return self.branches.keys()

    def add_child(self, move, child_node):
        self.children[move] = child_node

    def has_child(self, move):
        return move in self.children

    def get_child(self, move):
        return self.children[move]

    def get_move_expected_value(self, move):
        branch = self.branches[move]
        if branch.visit_num == 0:
            return 0.0
        else:
            return branch.total_value / branch.visit_num

    def get_move_prior(self, move):
        return self.branches[move].prior

    def get_move_visit_num(self, move):
        if move in self.branches:
            return self.branches[move].visit_num
        else:
            return 0

    def record_visit(self, move, value):
        self.total_visit_count += 1
        self.branches[move].visit_num += 1
        self.branches[move].total_value += value

2. 选择要探索的动作分支

那么，我们该如何选择要探索的分支呢？在AlphaGoZero树搜索中，首先同样需要平衡深入挖掘(Exploitation)和广泛探索(Exploration)这两个目标。具体来说，我们既可以在几个最好的分支中选择一个进行更加深入的探索，进一步提高其估计的准确性；又可以深入探索那些访问次数少，但有可能对未来棋局具有良好影响的分支，来改善他们的估计水平。在之前介绍AlphaGo的时候我们知道，MCTS算法通过使用搜索树最大置信上界(UCT)来平衡这两个目标，而在AlphaGoZero中，我们使用如下公式对动作分支进行评估：
$a^{\prime }=argmax_{a}\left[ Q\left( a\right) +c\cdot \sqrt{N} \cdot \frac{\pi \left( a\mid s;\theta \right) }{1+n} \right]$
各个变量的具体说明请见以下表格：

变量	解释
$Q\left( a\right)$	经过一个分支所有访问的期望值的平均值，该值初始化为0
$\pi \left( a\mid s;\theta \right)$	当前动作的先验概率
$N$	当前节点的父节点的被访问次数
$n$	当前节点的访问次数
$c$	平衡深入挖掘和广泛搜索的权重因子，需要我们自行调节

这个公式我们该怎么理解呢？该评分公式和AlphaGo中采用的评分公式类似，其功能也相近。和AlphaGo中的评分公式一样，如果一个分支已经被访问很多次了，那么它的期望值将更加可信；如果一个分支的访问次数很少，那么他的期望值可能又很大的偏差，因此我们希望多访问该分支以改善它的估计。此外，这个公式为AlphaGoZero提供了第三个评估指标，即在访问次数少的那些分支里面，我们应当倾向探索具有更高先验概率的动作分支。这些分支对应的动作，通过神经网络的计算从直觉上已经显得很不错了。基于以上思路，选择分支的代码实现如下：

 def select_branch(self, node):
        N = node.total_visit_count

        def score_branch(move):
            """
            Scoring function:

            Branch Value = Q + c * P * sqrt(N) / (1 + n)

            Q: the average of the expected values of the branched through the move;
            P: the prior probability of the move;
            N: the visit number of the parent node of the current move branch;
            n: the visit number of the current move branch;
            c: the weighted parameter

            :param move: the move candidate branch
            :return: the value of the scoring function of a branch
            """

            q = node.get_move_expected_value(move)
            p = node.get_move_prior(move)
            n = node.get_move_visit_num(move)
            return q + self.c * p * np.sqrt(N) / (n + 1)

        return max(node.get_moves(), key=score_branch)

注意，在选择动作分支的时候，很有可能遇到之前已经作为节点的动作，这个时候，我们要向下遍历子节点，直到找到没有子节点的树节点为止，代码实现如下：

 def find_branch(self, node):
        next_move = self.select_branch(node)
        # the move has already been added to the search tree
        while node.has_child(next_move):
            node = node.get_child(next_move)
            next_move = self.select_branch(node)
        
        return next_move

3. 扩展搜索树

在找到要探索的分支之后，接下来我们就要为该动作分支创建节点加入到搜索树之中。前面我们已经给出了搜索树节点的定义，接下来我们将会以此来创建新的树节点。需要注意的是，新创建的节点所对应的动作的先验概率和对游戏状态的估计值由我们的神经网络计算得出，创建节点的代码如下：

    def create_node(self, game_state, move=None, parent=None):
        '''
        implement the last move and get the new game state,
        then input the new game state into the network so that
        the priors value are obtained.

        :param game_state: the new game state
        :param move: the last move
        :param parent: the parent of this node
        :return: the new node
        '''
        encoded_state = self.encoder.encode(game_state)
        input_data = np.array([encoded_state])
        priors, values = self.model.predict(input_data)
        priors = priors[0]
        value = values[0][0]
        move_priors = {
            self.encoder.decode_move_index(index): prior for index, prior in enumerate(priors)
        }
        new_node = TreeNode(game_state, value, move_priors, parent, move)
        if parent is not None:
            parent.add_child(move, new_node)

        return new_node

在创建好新节点并加入搜索树后，还需要沿着这个新节点一路回到树根，并更新沿途各个节点储存的统计信息。值得注意的是，每经过一个节点，视角都会从黑方切换成白方，因此每一步都要切换新加入值的正负号。这很好理解：以期望值为例，如果对于黑方这盘棋的趋势是良好的，那么对于白方来说，这盘棋就是不利于其获胜的。最后选择动作分支并且将该动作加入到搜索树的整体代码如下：

		root = self.create_node(game_state)
        
        for i in range(self.num_rounds):
            # 1. find the next move branch to be added to the tree
            node = root
            next_move = self.find_branch(node)
            
            # 2. create the new tree node
            new_state = node.board_state.after_move(next_move)
            child_node = self.create_node(new_state, parent=node)

            # 3. add the new node to the tree
            node.add_child(next_move, child_node)
            
            # 4. update the stored data
            move = next_move
            value = -1 * child_node.state_value
            while node is not None:
                node.record_visit(move, value)
                move = node.last_move
                node = node.parent
                value = -1 * value

4. 选择最终的动作

与AlphaGo一样，在扩充玩搜索树之后，我们需要真正地为当前棋局选择一个动作，而选择动作的指标依然是该动作节点的访问次数。因为根据前面的动作分支评估公式，我们可以知道当分支的访问次数不断增加时，因子 $\frac{1}{n+1}$ 也会不断地变小，分支便会更多地倾向于只根据 $Q (a)$ 的值来进行选择，因此， $Q (a)$ 的值越大，该分支被访问的可能性就越大。综上，我们为当前棋局选择理想动作的逻辑实现如下：

    def select_move(self, game_state):
        root = self.create_node(game_state)

        for i in range(self.num_rounds):
            # 1. find the next move branch to be added to the tree
            node = root
            next_move = self.find_branch(node)

            # 2. create the new tree node
            new_state = node.board_state.after_move(next_move)
            child_node = self.create_node(new_state, parent=node)

            # 3. add the new node to the tree
            node.add_child(next_move, child_node)

            # 4. update the stored data
            move = next_move
            value = -1 * child_node.state_value
            while node is not None:
                node.record_visit(move, value)
                move = node.last_move
                node = node.parent
                value = -1 * value

        return max(root.get_moves(), key=root.get_move_visit_num)

三、训练神经网络

当现在为止我们已经讲解完了AlphGoZero树搜索的核心算法，大家可能也注意到了在创建新节点的时候我们要为新的棋盘计算其各个动作的先验概率和期望值，这里我们使用神经网络去完成这个任务。

1. 网络结构

与AlphaGo类似，AlphaGoZero也需要策略网络输出各个动作先验概率以及价值网络评判当前游戏状态的好坏；但不同的是，在AlphaGoZero中，这两套神经网络将共享一部分的卷机层，而不是像AlphaGo需要两套独立的神经网络。AlphaGoZero的神经网络结构示意图如下所示：

值得注意的是，DeepMind发布的AlphaGoZero中使用的卷积网络层数达到了80多层，巨大的网络拥有强大的能力但也需要更多的计算，这对于硬件要求是非常严格的。如果没有DeepMind那样的硬件条件，我们最好尝试较小的网络。网络模型的示例代码如下，在示例代码中，我们将共享的卷积层设置为8层：

class Actor_Critic_Go(keras.Model):
    def __init__(self, policy_output_dims):
        super(Actor_Critic_Go, self).__init__()

        self.policy_output_dims = policy_output_dims

        self.conv1 = layers.Conv2D(64, (3,3), padding='same',
                                   data_format='channels_last', activation='relu')
        self.conv2 = layers.Conv2D(64, (3, 3), padding='same',
                                   data_format='channels_last', activation='relu')
        self.conv3 = layers.Conv2D(64, (3, 3), padding='same',
                                   data_format='channels_last', activation='relu')
        self.conv4 = layers.Conv2D(64, (3, 3), padding='same',
                                   data_format='channels_last', activation='relu')
        self.conv5 = layers.Conv2D(64, (3, 3), padding='same',
                                   data_format='channels_last', activation='relu')
        self.conv6 = layers.Conv2D(64, (3, 3), padding='same',
                                   data_format='channels_last', activation='relu')
        self.conv7 = layers.Conv2D(64, (3, 3), padding='same',
                                   data_format='channels_last', activation='relu')
        self.conv8 = layers.Conv2D(64, (3, 3), padding='same',
                                   data_format='channels_last', activation='relu')

        self.policy_conv = layers.Conv2D(2, (1,1), data_format='channels_last', activation='relu')
        self.policy_flat = layers.Flatten()
        self.policy_output = layers.Dense(self.policy_output_dims, activation='softmax')

        self.value_conv = layers.Conv2D(1, (1,1), data_format='channels_last', activation='relu')
        self.value_flat = layers.Flatten()
        self.value_hidden = layers.Dense(256, activation='relu')
        self.value_output = layers.Dense(1, activation='tanh')

    def call(self, board_input):
        x = self.conv1(board_input)
        x = self.conv2(x)
        x = self.conv3(x)
        x = self.conv4(x)
        x = self.conv5(x)
        x = self.conv6(x)
        x = self.conv7(x)
        x = self.conv8(x)
        policy_conv = self.policy_conv(x)
        policy_flat = self.policy_flat(policy_conv)
        moves_priors = self.policy_output(policy_flat)

        value_conv = self.value_conv(x)
        value_flat = self.value_flat(value_conv)
        value_hidden = self.value_hidden(value_flat)
        move_value = self.value_output(value_hidden)

        model = keras.models.Model(inputs=[board_input], outputs=[moves_priors, move_value])

        return model

2. 训练数据

在讲解神经网络的训练目标之前，我们需要知道训练数据从何而来。AlphaGo的训练数据有两大来源，一是人类对弈的棋谱数据，二是策略网络自我对弈产生的棋谱数据。策略网络和价值网络通过这些数据的训练从而逐渐变得强大，并最终应用于树搜索的算法之中。AlphaGoZero则与之不同，它所使用的训练数据是黑白双方通过使用之前我们讲解的AlphaGoZero树搜索算法相互对弈产生的，这就意味着，在初始阶段，神经网络并没有经过什么训练，其对弈能力非常的脆弱，但是经过不断的训练，最终AlphaGoZero的能力却能赶超人类水平，令人惊叹。

AlphaGoZero也需要序列收集器储存对弈时产生的序列，参考代码如下：

class AlphaGoZeroExperienceCollector:
    def __init__(self):
        self.states = []
        self.visit_number = []
        self.rewards = []
        self._current_episode_states = []
        self._current_episode_visit_number = []

    def begin_episode(self):
        self._current_episode_states = []
        self._current_episode_visit_number = []

    def record_decision(self, state, visit_number):
        self._current_episode_states.append(state)
        self._current_episode_visit_number.append(visit_number)

    def complete_episode(self, reward):
        num_states = len(self._current_episode_states)
        self.states += self._current_episode_states
        self.visit_number += self._current_episode_visit_number
        self.rewards += [reward for i in range(num_states)]

        self._current_episode_visit_number = []
        self._current_episode_states = []


class ExperienceBuffer:
    def __init__(self, states, visit_numbers, rewards):
        self.states = states
        self.visit_numbers = visit_numbers
        self.rewards = rewards

    def serialize(self, h5file):
        h5file.create_group('experience')
        h5file['experience'].create_dataset('states', data=self.states)
        h5file['experience'].create_dataset('visit_numbers', data=self.visit_numbers)
        h5file['experience'].create_dataset('rewards', data=self.rewards)


def load_experience(h5file):
    return ExperienceBuffer(
        states=np.array(h5file['experience']['states']),
        visit_numbers=np.array(h5file['experience']['visit_numbers']),
        rewards=np.array(h5file['experience']['rewards'])
    )


def combine_experience(collectors):
    combined_states = np.concatenate([np.array(c.states) for c in collectors])
    combined_visit_number = np.concatenate([np.array(c.visit_number) for c in collectors])
    combined_rewards = np.concatenate([np.array(c.rewards) for c in collectors])

    return ExperienceBuffer(combined_states, combined_visit_number, combined_rewards)

有了储存容器，我们就可以收集经验数据了，那么该在哪里收集这些数据呢？由于我们需要在搜索树新添加节点的时候收集更新后的数据，因此收集经验数据的代码应该放在添加节点并更新完数据之后，因此我们可以在之前’select_move’函数中续写这部分的代码，如下所示：

        if self.collector is not None:
            root_state = self.encoder.encode(game_state)
            moves = [index for index in range(self.encoder.num_moves())]
            visit_number = np.array([root.get_move_visit_num(index) for index in moves])
            self.collector.record_decision(root_state, visit_number)

最后，我们给出黑白双方互相对弈的逻辑代码：

def game_simulation(board_size,
                    black_agent,
                    black_collector,
                    white_agent,
                    white_collector):
    print('**********game start***********')
    game = GameState.new_game(board_size)
    agents = {
        Player.black: black_agent,
        Player.white: white_agent
    }

    black_collector.begin_episode()
    white_collector.begin_episode()
    while not game.is_over():
        next_move = agents[game.next_player].select_move(game)
        game = game.after_move(next_move)

    game_result = scoring.compute_game_result(game)
    if game_result.winner == Player.black:
        black_collector.complete_episode(1)
        white_collector.complete_episode(-1)
    else:
        black_collector.complete_episode(-1)
        white_collector.complete_episode(1)

3. 训练目标

AlphaGoZero在训练策略网络的时候，他的训练目标是匹配树搜索过程中每个动作的访问次数，而不像AlphaGo中，策略网络的训练目标是匹配获胜时所选择的落子动作。为什么要做这个改变呢？我们可以从MCTS风格的搜索算法的工作原理寻找答案。

暂时假定我们已经拥有了一个能够粗略区分出胜局还是败局的价值函数，接着我们完全抛弃先验概率而直接运行搜索算法。在这样的情况下， $Q (a)$ 值越大的动作分支将会更多地被访问，假设搜索时间无限长，最终搜索树便会找到最佳动作。之前说过，先验函数的目标就是为了判断在当前状态下，该动作的好坏程度。由于我们已经使用价值函数检验过执行各个动作的胜负结果，换句话说，也就知道了执行各个动作的好坏；因此在经过足够轮次的树搜索之后，我们就可以把访问计数当作检验指标了。

值得注意的是，由于策略网络的输出值的总和为1，因此我们需要将各个动作的访问次数进行归一化，如下图所示：

价值网络的训练目标和AlphaGo中的类似，读者可以自行查看之前AlphaGo原理的讲解：
AlphaGo 原理讲解
训练部分代码如下：

    def train(self, experience):
        num_examples = experience.states.shape[0]

        input_data = experience.states

        visit_sums = np.sum(experience.visit_number, axis=1).reshape((num_examples, 1))
        action_target = experience.visit_number / visit_sums
        value_target = experience.rewards

        self.model.compile(keras.optimizers.SGD(lr=self.lr), loss=['categorical_crossentropy', 'mse'])
        self.model.fit(input_data, [action_target, value_target], batch_size=self.batch_size)

总结

本文为大家详细地介绍了AlphaGoZero的算法原理以及代码实现。看完本篇文章，相信读者对如何实现自己的AlphaGoZero已经有了思路。虽然AlphaGoZero的代码量比AlphaGo要小很多，但是如果我们想要训练出足够强大的围棋对弈AI，它所需要的算力支持却不容小觑。此外，应用一些神经网络训练时的技巧也能帮助我们改进训练过程，例如为了防止机器人在训练中陷入僵局，我们可以使用dirichlet噪声改进探索；此外，深度卷积网络的构建也很灵活，我们可以尝试使用批量归一化以及残差网络等方法改进网络，或许会有意想不到的效果。

JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
踏入真实：具身智能与物理世界的认知交响
当大型语言模型在文本的海洋中纵横捭阖，生成式AI在数字画布上挥洒创意时，人工智能仍有一个根本性的疆域尚未完全征服——真实的三维物理世界。理解一个苹果，不能仅靠词向量坐标；学会行走，无法通过阅读说明书达成；在拥挤的街道导航，远非处理符号逻辑那般简单。智能的进化，自生命诞生之初，便与具身性（Embodiment）和环境交互（Interaction）密不可分。我们的认知、学习、乃至意识的雏形，都源于身体
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
Python 变量、数据类型、数据类型的转换介绍 cs_mengxi Python python 开发语言
介绍【Python变量、数据类型、数据类型的转换】变量什么是变量python中，变量是存储数据的标识符。通过变量我们可以将数据赋值给名称，再程序中通过引用这个名称去访问对应的数据常见的使用场景变量赋值：使用等号（=）将值赋给变量。x=5name=“John”同时为多个变量赋值a=b=c=1动态类型：Python是一种动态类型语言，变量的类型是根据赋给它的值自动推断的。同一个变量可以在不同的时间赋予
Python运算符简介满目828 python 开发语言初学者运算符
目录一.算术运算符二.赋值运算符三.比较运算符四.逻辑运算符五.其他运算符六.运算符优先级一.算术运算符算术运算符包含:+,-,*,/,**,//,%(注:在运算过程中如含有小数,则结果为float类型(小数))+(加法运算符)a=10b=20#+result=a+bprint(result)print(3+4)-(减法运算符)a=10b=20#-result=a-bprint(result)pr
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
Jenkins集成GitHub实现自动化打标签实战指南 ivwdcwso 运维与云原生 jenkins github 自动化 CI/CD devops
本文将详细介绍如何使用Jenkins与GitHubAPI集成，实现自动化打标签的完整流程。以下是完整的Python脚本和详细解析。完整Python脚本#!/root/miniconda3/bin/pythonimportjsonimportboto3importosimportpytzimportargparsefromdatetimeimportdatetimefromgithubimportG
超详细yolov8/11-segment实例分割全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解
因为yolo的检测/分割/姿态/旋转/分类模型的环境配置、训练、推理预测等命令非常类似，这里不再详细叙述，主要参考**【YOLOv8/11-detect目标检测全流程教程】**，下面有相关链接，这里主要针对数据标注、格式转换、模型部署等不同细节部分；【YOLOv8/11-detect目标检测全流程教程】超详细yolo8/11-detect目标检测全流程概述：配置环境、数据标注、训练、验证/预测、o
使用 C++/OpenCV 和 MFCC 构建双重认证智能门禁系统
使用C++/OpenCV和MFCC构建双重认证智能门禁系统引言随着物联网和人工智能技术的发展，智能门禁系统在安防领域的应用越来越广泛。相比于传统的钥匙、门禁卡或密码，生物识别技术（如人脸识别、指纹识别、虹膜识别等）提供了更高的安全性与便利性。然而，单一的生物识别方式在某些场景下可能存在安全隐患。例如，人脸识别可能被高清照片或视频欺骗（称为“欺骗攻击”），在光照、姿态变化剧烈时识别率也可能下降。为了
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
1.1 python中定义变量与数据类型乏眸 python
一、定义变量1.定义变量语法：变量名=值2.使用变量3.看变量的特点#定义变量：存储数据TOMmy_name='TOM'print(my_name)#定义变量：存储数据SerendipityschoolName='Serendipity'print(schoolName)二、数据类型数值：int（整型），float（浮点型）布尔型：true（真），false（假）str（字符串），list（列表）
Python基础——变量和数据类型全端工程师 python基础 python 开发语言
Python基础——变量和数据类型前言一、什么是变量1.1为什么需要变量1.2变量的基本概念1.3变量的命名规则二、数据类型2.1什么是数据类型2.2使用`type()`函数2.3使用不同的数据类型三、类型转换3.1类型转换的基本概念3.2类型转换函数(显示类型转换)3.3隐式类型转换3.4类型转换的注意事项四、变量的使用五、总结前言今天我们开始学习Python编程的基础——变量和数据类型。这些概
Compython：在线Python代码托管与实时执行平台古斯塔夫歼星炮
本文还有配套的精品资源，点击获取简介：Compython是一个在线平台，允许用户在浏览器中托管、分享并运行Python代码，适合编程初学者、教育者和开发者快速测试。该服务提供了Web交互式编程环境，并支持Markdown和版本控制。同时，为了安全起见，采用了沙箱环境以及对上传代码的审查。此外，用户可以结合HTML和Python创建交互式网页应用，平台提供JupyterNotebook风格的界面。服
python定义向量内积_Python 设计一个向量类，实现数据的输入、输出、向量的加法、减法、点积、夹角等计算... weixin_39927623 python定义向量内积
Python设计一个向量类，实现数据的输入、输出、向量的加法、减法、点积、夹角等计算练习题2018.10.25importmathclassVectors:def__init__(self):self.x1=0self.x2=0self.y1=0self.y2=0self.x=self.x2-self.x1self.y=self.y2-self.y1defadd(self):self.x1=int
python win32con_python win32com.client weixin_39604598 python win32con
#创建#wordw=win32com.client.Dispatch("Word.Application")w=win32com.client.DispatchEx("Word.Application")#使用启动独立的进程#excelxlApp=win32com.client.Dispatch("Excel.Application")#后台运行,不显示,不警告w.Visible=0;w.Disp
纯零基础小白设计的PyCharm + Django 5入门学习大纲001 韩公子的Linux大集市 Python3数据分析 pycharm django 学习
文章目录阶段1：预备知识（1-2天）阶段2：Django初体验（3-5天）阶段3：动手做网页（核心2周）阶段4：实战小项目（1周）阶段5：部署与进阶（可选）避坑指南（小白必看！）学习资源推荐以下是为纯零基础小白设计的PyCharm+Django5入门学习大纲，分阶段渐进式学习，含关键实操点：阶段1：预备知识（1-2天）Python基础速成变量、数据类型、条件语句（if）、循环（for/while）
mysql 内积_Python如何计算两行数据内积
Python计算两行数据内积的方法：首先使用【mat()】方法；然后将每组数据分别放到方法里转换为矩阵；再使两矩阵相乘；最后进行转换即可。>>>a=mat([[1],[2],[3]]);>>>b=mat([[0],[2],[3]]);>>>amatrix([[1],[2],[3]])>>>bmatrix([[0],[2],[3]])>>>a.T*bmatrix([[13]])上面为两个列向量的内积
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
python 求向量间内积和外积
#内积可以描述向量间的投影关系，大小为|a||b|cos⟨a,b⟩：python向量内积求向量长度：importnumpyasnpa=np.asarray([1,1,1])print(np.sqrt(a.dot(a
python内积卷积 AI算法网奇 python基础 python 开发语言
内积就是点乘，卷积先取反。importnumpyasnpbb=[1,2]cc=[2,3]aa=np.dot(bb,cc)print(aa)dd=np.convolve([2,1],cc,'valid')print(dd)dd=np.convolve(bb,cc,'same')print(dd)dd=np.convolve(bb,cc,'full')print(dd)结果：8[8][27][276]
线性代数向量内积_向量的点积| 使用Python的线性代数 cumubi7453 python 线性代数机器学习 numpy 算法
线性代数向量内积Prerequisite:LinearAlgebra|DefiningaVector先决条件：线性代数|定义向量Linearalgebraisthebranchofmathematicsconcerninglinearequationsbyusingvectorspacesandthroughmatrices.Inotherwords,avectorisamatrixinn-dim
Python的变量与数据类型新人码农11111 python 开发语言
文章目录文章目录前言一、python的变量1.python的基本变量2.python的命名规则：二、python的数据类型1.2.整型（int）2.浮点型（float）3.字符串（str）4.布尔值（bool）5.空值（None）6.类型检测（type()）三、python的数据类型转换1.整型转换（int()）2.浮点型转换（float()）3.字符串转换（str()）4.布尔值转换（bool(
python 安装win32com.client库 FreeLikeTheWind. Qt问题 qt 开发语言经验分享 c++python
win32com.client是Python中用于操作WindowsCOM对象的强大模块，特别适合与MicrosoftOffice应用程序(如Word、Excel、Outlook等)进行交互。1.安装win32com.client需要安装pywin32库：pipinstallpywin32如果安装失败或速度慢，可以使用国内镜像源：pipinstallpywin32-ihttps://pypi.tu
A股的未来在哪里？财云量化 python炒股自动化量化交易程序化交易 a股未来发展宏观经济政策引导股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
最新最全的阿里云服务器部署Django项目教程（2021）
阿里云Linux服务器以Nginx+uWSGI部署Django项目教程前言：本教程适用于以Windows和Linux系统环境开发Django项目的初学者，帮助其将第一个Django项目部署上线，同时包含了一部分的DeBug方案，供其参考。-作者本地环境是Django2.0+Python3.8.3+Sqlite，以virtualenv在本地建立的虚拟环境。-作者Web代理服务器使用的是uWSGI，反
股市是否会持续下跌？股票程序化交易接口量化交易股票API接口 Python股票量化交易股市下跌趋势影响因素投资者情绪股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>经济形势对股市的影响宏观经济数据的作用宏观经济数据能反映整体经济的健康状况。像GDP增长率，如果持续走低，企业盈利可能受到影响，从而影响股票价格。例如在经济衰退期，企业营收减少，成本相对增加，利润空间被压缩。这会使投资者对企业前景担忧
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那