ChuckieZhu

Python神经网络学习(六)--机器学习--强化学习

前言：

属实是失踪人口回归了。继续神经网络系列。

强化学习：

强化学习也是一个很重要的方向了，很多人用强化学习玩游戏，可能有人觉得强化学习很难（包括我），但是我今天用网上流传很广的、很经典的一个例子（悬崖徒步, CliffWalking），去带领大家明白强化学习，大概分为两期（本期和下一期）讲明白这个例子。

今天就从最简单的方式：表格型入手，开始入门强化学习。

什么是强化学习？

强化学习是Reinforcement Learning，我也不知道为什么把Reinforcement翻译成强化，按照我的英语水平，inforce（应该是通enforce)是强迫，re-代表又，就是一再强迫，就是强迫一个东西一遍又一遍的学习。这也突出了强化学习的本质：一遍又一遍。

就好像小时候我们玩红白机，super mario的时候，一遍又一遍的玩，我们玩那个游戏的过程就可以成为强化学习的过程。我们玩的时候，每次死亡都能知道下一次应该怎么做，包括，哪一个管道可以蹲下去，得到很多金币，都会被我们探索出来，这些都在强化学习中会有体现。

和mnist手写数字识别那种学习方式的不同？

最明显的一个区别就是，我给出一张mnist数据集的图片，能清楚的知道他的正确答案是什么。而我给出一个RL的场景，很少有人能直接给正确（或者最优）方案。

比如给出一个mario在水管上（这个水管可以蹲下去吃金币）的场景，问这个场景最有解决方案，应该至少会有下面三个版本：

1. 应该蹲下去，因为金币很多，还能省很大一段路。

2. 应该继续走，前面有个加命的蘑菇。

3. 你们俩都太弱了，慢慢的掐距离，可以做到蘑菇吃完回来蹲进水管。

至于更多的方案，我玩的还是太少了，留给大家探索吧。

而mnist数据集这种有监督学习，给出场景，答案就是确定的，这个确定的答案（groundtruth）就是标签（label），被用来计算损失从而让学习有进程。

强化学习的过程，由于没有正确答案，只能一次又一次（reinforcement）的玩，然后被驱动着通关。

强化学习的驱动是什么？

奖励！

如mario游戏，吃金币+命，吃绿蘑菇也+命，两个都吃加更多的命。但是这些都是次要的，主要是通关。所以一般都会把通关的奖励设置的很高，死亡的奖励设置的很低。

当然，有些人喜欢探索环境，说明他们把其他的奖励设置的很高，比如发现密道（如哪个管道能蹲下去）等。

CliffWalking 悬崖徒步

环境说明

环境设定

这个环境是一个4x12的环境，游戏角色（agent）从坐标(3, 0)出生，目的是达到对面(3, 11)，

如图，cliff是悬崖，掉进去就死亡。

当然，这个任务非常简单（对于人类来讲），一般的人类能一眼看到最优路径，但是电脑不会，电脑只能通过一遍又一遍的（reinforcemental）学习从而知道怎么解决这个任务（甚至不一定是最优方案）。

在这里有一些设定：超过边缘视为无动作。如(0, 0)处向左向上走，视为这一步是停止。如此，这就是今天要涉及到的环境了。

奖励驱动设定

不同的奖励驱动达到的目标效果不一样，如果想让他尽早达到终点，可以让他每走一步给出负奖励，他为了让奖励最大化，就能尽早走到终点。如果想让他多走几个格子，可是让他每走到一个和当前路径不相交的位置时给一个正奖励，他应该（因为我没试过）会走遍格子最后到终点。

到达终点给正奖励，掉下悬崖给负奖励这就不说了。

环境代码

# -*- coding: utf-8 -*-

import random
import numpy as np

import gym
from gym import spaces

"""
nrows
     0  1  2  3  4  5  6  7  8  9  10  11  ncols
   ---------------------------------------
0  |  |  |  |  |  |  |  |  |  |  |   |   |
   ---------------------------------------
1  |  |  |  |  |  |  |  |  |  |  |   |   |
   ---------------------------------------
2  |  |  |  |  |  |  |  |  |  |  |   |   |
   ---------------------------------------
3   * |       cliff                  | ^ |

  *: start point
  cliff: cliff
  ^: goal
"""

class CustomCliffWalking(object):
    def __init__(self, stepReward: int=-1, cliffReward: int=-10, goalReward: int=10) -> None:
        self.sr = stepReward
        self.cr = cliffReward
        self.gr = goalReward

        self.action_space = spaces.Discrete(4)  # 上下左右

        self.pos = np.array([3, 0], dtype=np.int8)  # agent 在3，0处出生，掉到悬崖内就会死亡，触发done和cliffReward
    
    def reset(self, random_reset=False):
        """
        初始化agent的位置
        random: 是否随机出生, 如果设置random为True, 则出生点会随机产生
        """
        x, y = 3, 0
        if random_reset:
            y = random.randint(0, 11)
            if y == 0:
                x = random.randint(0, 3)
            else:  # 除了正常坐标之外，还有一个不正常坐标：(3, 0)
                x = random.randint(0, 2)
            # 严格来讲，cliff和goal不算在坐标体系内
        # agent 在3，0处出生，掉到悬崖内就会死亡，触发done和cliffReward
        self.pos = np.array([x, y], dtype=np.int8)
    
    def step(self, action: int) -> list[list, int, bool, bool, dict]:
        """
        执行一个动作
        action:
            0: 上
            1: 下
            2: 左
            3: 右
        """
        move = [
            np.array([-1, 0], dtype=np.int8), # 向上，就是x-1， y不动,
            np.array([ 1, 0], dtype=np.int8), # 向下，就是x+1， y不动,
            np.array([0, -1], dtype=np.int8), # 向左，就是y-1， x不动,
            np.array([0,  1], dtype=np.int8), # 向右，就是y+1， x不动,
        ]
        new_pos = self.pos + move[action]
        # 上左不能小于0
        new_pos[new_pos < 0] = 0  # 超界的处理，比如0, 0 处向上或者向右走，处理完还是0,0
        # 上右不能超界
        if new_pos[0] > 3:
            new_pos[0] = 3  # 超界处理
        if new_pos[1] > 11:
            new_pos[1] = 11

        reward = -1
        die = False
        win = False
        info = {
            "reachGoal": False,
            "fallCliff": False,
        }
        
        die = self.__is_pos_die(new_pos.tolist())
        if die:
            info["fallCliff"] = True
            reward = self.cr

        win = self.__is_pos_win(new_pos.tolist())
        if win:
            info["reachGoal"] = True
            reward = self.gr

        self.pos = new_pos  # 更新坐标
        return new_pos, reward, die, win, info
    
    def __is_pos_die(self, pos: list[int, int]) -> bool:
        """判断自己的这个状态是不是已经结束了"""
        return pos in [
            [3, 1],
            [3, 2],
            [3, 3],
            [3, 4],
            [3, 5],
            [3, 6],
            [3, 7],
            [3, 8],
            [3, 9],
            [3, 10],
            [3, 11],
        ]
    def __is_pos_win(self, pos: list[int, int]) -> bool:
        """判断自己的这个状态是不是已经结束了"""
        return pos in [
            [3, 11],
        ]

学习方式

现在有了环境，有了驱动，怎么学习呢？

时序差分算法

时序差分算法其实很简单：

比如还是mario站在管道上（这个场景记为S_now），区分两种情况（两种动作，a）：1）蹲下去；2）向前走。

1) :mario这时候想，蹲下去有很多金币（假设每个奖励是1，下面差不多有不到30个，按照50个算吧），回报是50，然后还不容易死（99%通关吧，1%死），通关回报又是50，死亡回报-100。

即：当前状态+蹲下去 -> 吃很多金币得到50 -> 可能通关可能死的回报 0.99*50 + 0.01* (-100)=48.5.

但是由于通关太远了，所以现在应该打折扣，比如有一个折扣因子（discount factor）γ=0.9，所以当前状态下蹲下去的期望总回报是：50 + γ * 48.5 = 93.65的回报。

2) mario这时候想，我向前走可以多条命，虽然容易死，但是只要不死就是多条命，何乐而不为呢？一条命是100金币，回报就是100，但是通关的概率是50%，通关是50回报。死亡是 -100 回报（因为少了条命）。

即：当前状态+继续走 -> +1条命是100回报 -> 可能通关可能死的回报 0.5*50+0.5*(-100)=-25。

所以当前向前走的期望总回报是：100 + γ * (-25) = 77.5。

假设mario走第一条路，所以当前状态下他下蹲的期望回报Q(S_now, 下蹲)（Q就是当前状态下他下蹲的期望回报）就是93.65。

然后他下蹲，拿到了管道下的金币奖励50，出了管道，然后他面临两个蘑菇（这个时候记为S_next）。这时候他面临：

当前状态+撞上去（假设他之前算的不对，发现避不开了，自己死亡的概率是100%） -> 立死 -100

当前状态+跳过去（假设他之前算的不对，现在发现存活概率是0%）-> 肯定能通关了+50

这俩的期望回报（也就是V(S_next)）是：-100（虽然有些极端，但是能理解就行）。

到这里，有两个数据：

1. 走了一步之后的立即回报50（记为R） + gamma * 下一个状态下的期望回报（V(S_next)）-100共-40.

2. （贪心的mario）走之前算的那时候的期望回报（V(S_now)）是93.65

V(S_now)：可以看作是，我认为我可以得到这么多奖励。

Q(S_now, a)：我认为我执行a动作可以得到这么多奖励

R +V(S_next)：可以看作是：我实际上可以得到这么多奖励。

这时就可以求出误差：error = R + V(S_next) - V(S_now) = -40 - 93.65 = -133.65，就知道自己计算的差别在哪了。

然后可以设一个学习率因子 lr = 0.5，更新 Q(S_now, a)。

Q(S_now, a) = Q(S_now, a) + lr * error = 93.65 - 0.5 * (-133.65)

这个error，就是时序误差。按照这样的方式，agent就能一遍又一遍地（reinforcementally）纠正自己的估计错误。直到自己估计正确。

SARSA

现在就要引入强化学习很经典的一个算法了：SARSA，是一个on-policy（这个国内翻译版本不是唯一的，所以我就不翻译了）的TD(时序差分，time difference）算法。

SARSA和上面差不多，只不过在S_next处会走一步，计算Q(S_next, a)进行计算误差更新。这也就是为啥他叫SARSA（S_now, action_now, reward, S_next, action_next）方式。

大概是：

Q(S_now, action_now) = Q(S_now, action_now) +

lr * (Reward_now + gamma * Q(S_next, action_next) - Q(S_now, action_now) )

今天就会使用SARSA算法进行这个cliffwalking的更新。

强化学习代码（表格型）

由于这个Cliff Walking任务很简单，可以用一个表格来模拟，这样的话，更直观，容易理解。

这个任务是4*12的表格，每个位置有四个动作，所以形状是4x12x4

Q = np.zeros((4, 12, 4), dtype=np.float32)  # 价值表格，

然后实例化环境：

cw = CustomCliffWalking(stepReward=sr, cliffReward=cr, goalReward=gr)

然后根据上面的更新公式实现代码，完整代码如下：

# -*- coding: utf-8 -*-

import random
import numpy as np

from env.cliffwalking import CustomCliffWalking
import matplotlib.pyplot as plt

nepisodes = 100000  # total 10w episodes
epsilon = 0.05  # epsilon greedy policy
gamma = 0.9  # discount factor
lr = 0.1
random_reset = False

seed = 42

sr = -1
cr = -10
gr = 10

def select_action(Q: np.ndarray, pos: np.ndarray, nact: int, epsilon=0) -> int:
    """选择动作，默认是贪心，"""
    # epsilon贪心算法选择动作，也可以把epsilon设置为0，就是完全贪心选择动作
    if random.random() < epsilon:
        action = random.randint(0, nact-1)
    else:  # 按照表格选取动作，如果多个动作价值一样，则取下标靠前的
        action = np.argmax(Q[pos[0], pos[1], :])
    return action

def main():
    """实现悬崖徒步，表格形式的"""
    np.random.seed(seed=seed)
    random.seed(seed)

    Q = np.zeros((4, 12, 4), dtype=np.float32)  # 价值表格，

    cw = CustomCliffWalking(stepReward=sr, cliffReward=cr, goalReward=gr)  # 实例化环境

    nact = cw.action_space.n

    for i in range(1, nepisodes + 1):
        if i % 1000 == 0:
            print("{}/{}".format(i, nepisodes))
        cw.reset(random_reset=random_reset)  # 不随机产生位置，随机应该更好一点，这里不随机产生了
        steps = 0
        while True:
            steps += 1
            old_pos = cw.pos  # 保留旧的位置，也就是 S_now
            action = select_action(Q=Q, pos=old_pos, nact=nact, epsilon=epsilon)  # 也就是  action_now

            # print(new_pos, reward, die, win, info)
            new_pos, reward, die, win, info = cw.step(action=action)
            # 这里得到了  S_next 和 Reward_now
            action_next = select_action(Q=Q, pos=new_pos, nact=nact, epsilon=epsilon)
            # 这里是 action_next

            # 如果死了或者过关了，那么就没有后续了，就不需要后面的了
            actual_reward = reward + (1-(die or win)) * gamma * Q[new_pos[0], new_pos[1], action_next]
            # 计算走一步的instant + gamma * Q(S_next, a_next)

            target_reward = Q[old_pos[0], old_pos[1], action]  # Q(S_now, a)
            # print("target_reward:", target_reward)
            bellman_error = actual_reward - target_reward  # 计算估计的误差

            Q[old_pos[0], old_pos[1], action] = Q[old_pos[0], old_pos[1], action] + lr * bellman_error
            # Q(S_now, action_now) = Q(S_now, action) + lr * 误差

            if die or win:
                break  # 胜利或失败
    
    # 训练完了，具象化显示学习到的价值
    for i in range(nact):
        plt.subplot(nact, 1, i+1)
        plt.imshow(Q[:, :, i])
        plt.axis('off')
        plt.colorbar()

        if i == 0:
            plt.title("up")
        elif i == 1:
            plt.title("down")
        elif i == 2:
            plt.title("left")
        elif i == 3:
            plt.title("right")

    plt.savefig("./out/table/Q_sarsa_"+str(sr)+"_"+str(gr)+"_"+str(cr)+".png")
    plt.clf()
    plt.close()

    path = np.zeros((4, 12), dtype=np.float64)
    cw.reset()
    x = cw.pos[0]
    y = cw.pos[1]

    while True:  # 走
        # 贪心算法选择动作
        action= np.argmax(Q[x, y, :])
        print(x, y, action)
        new_pos, reward, die, win, info = cw.step(action=action)
        x, y = new_pos[0], new_pos[1]
        if win:
            print("[+] you win!")
            break
        if die:
            print("[+] you lose!")
            break
        x = new_pos[0]
        y = new_pos[1]
        if x >= 0 and x <= 3 and y >= 0 and y <= 11:
            path[x, y] = 1.0
    plt.imshow(path)
    plt.colorbar()
    plt.savefig("./out/table/path_sarsa_"+str(sr)+"_"+str(gr)+"_"+str(cr)+".png")

    # 保存学习到的价值
    np.savetxt("out/table/cliff_walking_table_{}_{}_上.csv".format(gr, cr), Q[:,:,0],
               delimiter="\t", fmt="%.2f")
    np.savetxt("out/table/cliff_walking_table_{}_{}_下.csv".format(gr, cr), Q[:,:,1],
               delimiter="\t", fmt="%.2f")
    np.savetxt("out/table/cliff_walking_table_{}_{}_左.csv".format(gr, cr), Q[:,:,2],
               delimiter="\t", fmt="%.2f")
    np.savetxt("out/table/cliff_walking_table_{}_{}_右.csv".format(gr, cr), Q[:,:,3],
               delimiter="\t", fmt="%.2f")

if __name__ == "__main__":
    main()

结果

我的CPU还是很快就运行完了，，因该也不会太慢。。如果你的太慢，我试了试，一万个回合的结果也收敛了。

（注意：运行时确保环境内无其他程序使用matplotlib，否则会出现闪退情况）

价值计算图

行走路径图

计算的价值结果

这个是每个位置向上的价值。

这个是每个位置向下的价值，可以看到，目标点上面向下都是10，悬崖上面向下都是-10，和我们的预期一样。

这个是每个位置向左的价值。可见，每一行越往左，这个价值越低，和我们预期也一样，因为越向左越远，按理来讲折扣价值就是更低。

这个是每个位置向右的价值，可见越向右价值越高。（除了地图边缘处向右是为了给自己多-1的惩罚）

结束语

本来想着稍微写一下，写完之后发现竟然达到了八千多字，应该分开写的，，下次我会加入神经网络的元素，希望大家看完能有所收获！

OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
深度学习中的 blob 格式：与普通 image 的区别及转换原因白.夜深度学习人工智能
在深度学习模型推理过程中，我们经常会用到cv2.dnn.blobFromImage函数将普通图像转换为blob格式。那么，blob格式到底是什么？它和普通image有什么区别？为什么在模型推理中需要这种转换？本文将用通俗的语言为你解答这些问题。1.什么是blob格式？blob是OpenCV中用于深度学习模型输入的一种特殊数据格式，全称为BinaryLargeObject。它本质上是一个多维数组（通
信息技术基础专有名词和计算机硬件学习笔记 learning-striving 信息技术学习笔记信息技术计算机硬件
信息技术常见专有名词信息技术基础课程中常见的专有名词英文缩写或简称及其详细含义，按领域分类整理：硬件与存储CPU(CentralProcessingUnit)中央处理器，负责执行计算机指令和处理数据。GPU(GraphicsProcessingUnit)图形处理器，专用于处理图形和并行计算。RAM(RandomAccessMemory)随机存取存储器，临时存储运行中的程序和数据。ROM(Read-
DeepSeek多语言智能创作引擎解析智能计算研究中心其他
内容概要在人工智能技术加速演进的背景下，DeepSeek系列产品通过混合专家架构（MoE）与670亿参数的协同设计，构建了多模态智能创作引擎的核心竞争力。该系统依托动态路由机制，将视觉语言理解模块与多语言处理单元进行深度耦合，使模型在解析图文混合信息时展现出超越单一模态的认知能力。尤为突出的是，其分层参数激活策略将推理成本降低至传统密集模型的38%，同时维持了95%以上的任务完成精度。行业分析机构
大模型工程师学习日记（十五）：Hugging Face 模型微调训练（基于 BERT 的中文评价情感分析） MMMMMMMay Love Code 学习 bert 人工智能深度学习自然语言处理全量微调
1.datasets库核心方法1.1.列出数据集使用datasets库，你可以轻松列出所有HuggingFace平台上的数据集：fromdatasetsimportlist_datasets#列出所有数据集all_datasets=list_datasets()print(all_datasets)1.2.加载数据集你可以通过load_dataset方法加载任何数据集：fromdatasetsim
大模型工程师学习日记（十四）：检索增强生成（RAG） MMMMMMMay Love Code 学习 langchain 深度学习人工智能开发语言
如何递归分割文本递归分割(recursively)，这个文本分割器是用于通用文本的推荐工具。它接受一个字符列表作为参数。它会按顺序尝试在这些字符上进行分割，直到块足够小。默认的字符列表是["\n\n","\n","",""]。这样做的效果是尽可能保持所有段落（然后是句子，再然后是单词）在一起，因为这些通常看起来是语义上相关的文本块。文本如何分割：根据字符列表。块大小如何衡量：根据字符数量。下面我们
通义千问：阿里巴巴的AI大模型深度解析俊星学长人工智能
通义千问：阿里巴巴的AI大模型深度解析在人工智能（AI）技术日新月异的今天，大型语言模型作为其中的佼佼者，正逐步改变着我们的生活与工作方式。阿里巴巴推出的通义千问，作为这一领域的佼佼者，以其卓越的性能和广泛的应用场景，引起了业界的广泛关注。本文将从通义千问的简介、模型架构、技术特点与优势、应用场景以及未来发展等多个方面，对其进行全面解析。一、通义千问简介通义千问是由阿里云开发的一款大型语言模型，旨
【模拟面试】计算机考研复试集训（第二天） Albert Edison 计算机考研复试高频考点面试考研职场和发展 c++数据结构算法操作系统
文章目录前言一、专业面试1、OSI参考模型和TCP/IP模型的主要区别是什么？简述各层功能2、什么是瀑布模型？其优缺点是什么？3、什么是递归？使用时需注意什么？4、监督学习与无监督学习的核心区别是什么？请举例说明典型算法5、你在项目中遇到过哪些技术挑战？是如何解决的？二、英文口语1、Canyoutellusaboutatimeyouworkedinateamandfacedchallenges?H
【第8章】亿级电商平台订单系统-技术选型 cherry5230 架构系统架构架构 java
1-1本章导学课程导学学习重点：订单系统技术选型实践200亿年交易规模BToB电商平台案例解析知识体系演进路径1.架构体系演变单体架构→大型云上架构体系互联网应用架构设计基本原则2.主流架构设计模式分层架构模式微服务架构模式基于事件的架构模式整洁架构模式六边形架构模式微内核模式基于空间的架构模式管道过滤器模式代理模式3.技术选型方法论3.1基本原则系统性能指标优先原则技术生态适配性原则团队技术栈延
小程序测试怎么做?第三方软件测试机构如何收费? 第三方软件测评小程序软件测试
小程序的出现极大的提升了我们工作和生活的便利性，是一种轻量级应用程序，无需下载安装即可使用，可以通过扫码或搜索直接打开应用，运行在特定的宿主平台(如微信、支付宝等)中。平时可以通过小程序进行购物、学习、娱乐等，还能通过小程序进行医院等场所的预约挂号、缴费服务。那么如此方便的小程序测试该怎么做呢?小程序的用途各不相同，但小程序测试和其他应用程序要开展的测试工作大体相同，具体包括以下几种：1.功能测试
深入探索iOS底层原理：多线程技术与编程学习 CqppDeveloper ios 学习 cocoa 编程学习
在iOS开发中，多线程技术是至关重要的。它可以帮助我们实现并发执行任务、提高应用程序的响应性能，并充分利用设备的多核处理能力。本文将深入探讨iOS底层原理中与多线程相关的概念和技术，并提供相应的源代码示例。线程与进程的基本概念在开始之前，我们需要了解一些基本概念。线程（Thread）是操作系统调度的最小单位，它是程序执行的单个路径。一个进程（Process）可以包含多个线程，它们共享进程的内存空间
DeepSeek：中国大模型 “破壁者” 引发的四大产业地震赵同学爱学习人工智能 chatgpt DeepSeek 语言模型大模型开源
导语：当全球AI产业还在为GPT-4的1750亿参数惊叹时，中国团队DeepSeek以颠覆性创新撕开了大模型领域的“铁幕”。这款首个引发国际学术界集体关注的中文大模型，正从技术底层重构产业规则，其冲击波已蔓延至硬件、软件、商业模式的每个角落。一、算力霸权瓦解：低成本训推技术改写游戏规则1.1训练成本“悬崖式下降”DeepSeek通过混合专家架构（MoE）动态路由算法，在同等效果下将模型激活参数压缩
Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
谷歌Gemini 3大模型发布，AI领域再掀波澜！广拓科技人工智能
在人工智能的浩瀚宇宙中，每一次重大突破都如同一颗璀璨的新星，照亮我们对未来的想象。而近期，谷歌发布的Gemini3大模型，无疑是其中最为耀眼的存在，它在AI领域激起的波澜，迅速蔓延至全球科技圈，引发了广泛关注与热烈讨论。随着AI技术的迅猛发展，我们已经见证了众多令人惊叹的创新成果。从智能语音助手到图像识别技术，从自动驾驶汽车到医疗诊断辅助系统，AI正以前所未有的速度改变着我们的生活和工作方式。在这
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插一个处女座的程序猿 NLP/LLMs 精选(人工智能)-中级 Colossal-AI LLaMA-2 大语言模型自然语言处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点/Flash-Attention/设置数据类型/是否加载预训练模型/从上一次训练点继续训
1llama源码学习·model.py[3]ROPE旋转位置编码(1)原理小杜不吃糖学习
零：(导学)Transformer位置编码（1）为什么需要位置编码位置编码描述序列中实体的位置信息，为每个位置分配唯一的表示。Transformer使用智能位置编码方案，其中每个位置/索引都映射到一个向量。因此，位置编码层的输出是一个矩阵，其中矩阵的每一行表示序列的编码对象与其位置信息的总和（2）Transformer中的位置编码假设有一个长度为LLL的输入序列，并要求位置kkk为该序列中的对象，
llama源码学习·model.py[1]RMSNorm归一化小杜不吃糖 llama python
一、model.py中的RMSNorm源码classRMSNorm(torch.nn.Module):def__init__(self,dim:int,eps:float=1e-6):super().__init__()self.eps=epsself.weight=nn.Parameter(torch.ones(dim))def_norm(self,x):returnx*torch.rsqrt(
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
使用DeepSeek自动生成PPT：高效办公的终极指南点我头像干啥 Ai 人工智能信息可视化深度学习
引言在现代职场中，PPT（PowerPoint演示文稿）已经成为沟通、展示和分享想法的重要工具。然而，制作一份高质量的PPT往往需要耗费大量时间和精力，尤其是在内容整理、排版设计和样式调整方面。幸运的是，随着人工智能技术的发展，像DeepSeek这样的工具可以帮助我们自动化生成PPT，极大地提升工作效率。本文将详细介绍如何使用DeepSeek自动生成PPT，并分享一些实用技巧，帮助你快速上手。一、
SvelteKit 最新中文文档教程（3）—— 数据加载
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
flutter 专题七十九 Flutter使用JsBridge方式处理Webview与H5通信 leluckys Flutter面试与实战 flutter
目前，移动跨平台开发作为移动开发的重要组成部分，是移动开发者必须掌握的技能，也是自我提升的重要手段。作为Google推出的跨平台技术方案，Flutter具有诸多的优势，已经或正在被广大开发者应用在移动应用开发中。在过去的2019年，我看到越来越多的公司和个人开始使用Flutter来开发跨平台应用，对于移动应用开发来说，Flutter能够满足几乎所有的业务开发需求，所以，学习Flutter正当时。众
OpenCV学习(二十一) ：计算图像连通分量:connectedComponents(),connectedComponentsWithStats() Leon_Chen0 OpenCV
OpenCV学习(二十一)：计算图像连通分量:connectedComponents(),connectedComponentsWithStats()1、connectedComponents()函数ConnectedComponents即连通体算法用id标注图中每个连通体，将连通体中序号最小的顶点的id作为连通体的id。如果在图G中，任意2个顶点之间都存在路径，那么称G为连通图，否则称该图为非连
数据结构与算法——数据结构4 写代码写到手抽筋数据结构与算法数据结构
程序员没有稳定一说，目前学习数据结构，其实不难，最近在学习，系统性的总结下，便于后续复习和使用。主要是把线性表，全名为线性存储结构。使用线性表存储数据的方式可以这样理解，即“把所有数据用一根线儿串起来，再存储到物理空间中”。分为顺序表和单链表。顺序表单链表同时还要知道顺序表和链表的优缺点【待补充】还要知道链表反转，知道迭代法和递归法就可以【】还需要知道单链表相交的思路【】后边了解静态链表的原理静态
（大模型微调大模型学习路线大模型入门）_大模型学习，吹爆！2025最详细的大模型学习路线已整理！手把手带你高效入门，大模型论文全打通！大模型老炮学习人工智能大模型学习 AI 大模型大模型微调大模型教程
一、初聊大模型1、什么是大模型？大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问
lvs、nginx、haproxy区别和使用场景？企鹅侠客 linux 聊聊运维 lvs nginx 运维
0.运维干货分享软考系统架构设计师三科备考经验附学习资料信息安全管理体系（ISMS）制度模板分享免费文档翻译工具(支持word、pdf、ppt、excel)PuTTY中文版安装包MobaXterm中文版安装包pinginfoview网络诊断工具中文版LVS（LinuxVirtualServer）、Nginx和HAProxy都是常见的负载均衡工具，它们在不同的场景中各有优势。以下是它们的区别、特点及
国产 DeepSeek V3 被秒成“前浪“？谷歌开放最强 Gemini 2.0 全家桶：速度快60倍，上下文还长16倍！ Bryan Ding 人工智能深度学习
谷歌向所有人发布了Gemini2.0——迄今为止谷歌“功能最强大”的人工智能模型套件。1谷歌Gemini2.0向所有人开放去年12月，谷歌发布Gemini2.0Flash的实验版本，正式开启了代理型AI的新时代。Gemini2.0Flash是谷歌为开发者群体打造的高效主力模型，具有低延迟、高性能等优势。今年早些时候，谷歌在GoogleAIStudio中更新了2.0FlashThinkingExpe
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
图像拼接-UDIS详细推导和精读Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images cccc来财算法计算机视觉深度学习
无监督粗对齐1.基于消融的策略主要是为了找到重叠区，去除无效区2.拼接域的TransformerLayer无监督图像重建1.低分辨率变形单应性变换仅能表示同一深度的空间变换，在实际的图像拼接任务中，由于输入图像的多样性和复杂性，经过第一阶段的粗对齐后，图像往往无法完全对齐。为了让网络能够感知到这些错位区域，特别是在高分辨率和大视差的情况下，设计了低分辨率变形分支，先在低分辨率下对图像进行处理和学习
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持