就是求关注

基于深度强化学习的DQN模型实现自动玩俄罗斯方块游戏（附详细代码讲解）

一、DQN（Deep Q-Network）方法概述

DQN（Deep Q-Network）是一种强化学习方法，通过结合Q-learning算法和深度神经网络来解决强化学习问题。它是深度强化学习的里程碑之一，由DeepMind在2013年提出，被广泛应用于各种复杂的强化学习任务。DQN方法的概述如下：

1.强化学习问题：在强化学习中，智能体与环境进行交互，通过观察环境的状态并采取动作，来最大化累积奖励。智能体在环境中移动并与之交互，不断学习并优化策略，以在不同的状态下选择最优动作。

2.Q-learning算法：Q-learning是一种经典的强化学习算法，用于学习最优Q函数。Q函数表示在给定状态下采取某个动作的预期累积奖励值。Q-learning使用迭代更新的方式逼近最优Q函数，其核心思想是使用贝尔曼方程来更新Q值。贝尔曼方程表示当前状态下采取动作的Q值可以通过下一个状态的最大Q值和立即奖励来进行递归更新。

3.DQN的创新点：DQN的创新之处在于使用深度神经网络来逼近Q函数。传统的Q-learning方法使用表格存储Q值，但在大型状态空间问题中，表格变得不可行。DQN通过使用神经网络来表示Q函数，将状态作为输入，输出对应于每个动作的Q值，从而可以对大型状态空间进行近似求解。

4.Experience Replay（经验回放）：DQN使用经验回放技术来存储智能体的经验，包括状态、动作、奖励和下一个状态。在训练过程中，DQN从经验回放缓冲区中随机抽样，以打破数据之间的关联性，从而更有效地使用经验数据进行训练。

5.Target Network（目标网络）：为了稳定训练过程，DQN引入了目标网络。在训练过程中，有两个神经网络：一个是用于选择动作的主网络，另一个是用于计算目标Q值的目标网络。目标网络的参数比主网络的参数更新更慢，这有助于减少训练中的目标Q值估计的波动性。

6.Double Q-learning：DQN还采用了Double Q-learning的思想，用于更准确地估计Q值。在目标网络和主网络中分别选择最大动作，并结合它们的Q值来更新目标Q值。

DQN方法的训练过程是迭代的，通过反复与环境交互、更新神经网络权重和优化策略，使得智能体逐渐学习到最优的Q函数，并从中得到最佳决策策略。DQN在很多复杂的强化学习任务中取得了显著的成功，并为后续深度强化学习算法的发展奠定了基础。

二、强化学习代码实现及训练过程

本文将实现一个使用DQN算法和深度神经网络的强化学习代理，通过逼近Q函数来优化决策策略。代理以单一分数来表示每个状态的预期得分，并使用神经网络训练来逼近这些Q值。在训练过程中，代理通过经验回放和目标网络来稳定训练，并通过探索与利用策略优化决策能力。

首先，我们基于DQN实现一个DQNAgent类，该类实现了一个基于深度强化学习的代理，使用DQN（Deep Q-Network）算法来解决强化学习问题。代码逻辑功能概述如下：

1.这个代理使用DQN算法来学习最优的决策策略。
2.代理的目标是找到所有可能状态的最佳最终状态的组合，而不是传统方法中找到特定状态的最佳动作。
3.通过使用深度神经网络来逼近Q函数，代理可以处理大型状态空间的问题。
4.代码中使用经验回放技术和目标网络来优化训练过程，提高稳定性和效率。

实现的代码如下：

class DQNAgent:
    def __init__(self, state_size, mem_size=10000, discount=0.95, epsilon=1, epsilon_min=0, epsilon_stop_episode=500,
                 n_neurons=[32, 32], activations=('relu', 'relu', 'linear'), loss='mse', optimizer='adam',
                 replay_start_size=None):
        # 初始化DQNAgent代理
        assert len(activations) == len(n_neurons) + 1
        self.state_size = state_size
        self.memory = deque(maxlen=mem_size)
        self.discount = discount
        self.epsilon = epsilon
        self.epsilon_min = epsilon_min
        self.epsilon_decay = (self.epsilon - self.epsilon_min) / epsilon_stop_episode
        self.n_neurons = n_neurons
        self.activations = activations
        self.loss = loss
        self.optimizer = optimizer
        if not replay_start_size:
            replay_start_size = mem_size / 2

        self.replay_start_size = replay_start_size
        self.model = self.build_model()
    # 创建一个深度神经网络模型
    def build_model(self) -> Model:
        model = Sequential()
        model.add(Dense(self.n_neurons[0], input_dim=self.state_size, activation=self.activations[0]))
        for i in range(1, len(self.n_neurons)):
            model.add(Dense(self.n_neurons[i], activation=self.activations[i]))
        model.add(Dense(1, activation=self.activations[-1]))
        model.compile(loss=self.loss, optimizer=self.optimizer)
        return model
    # 将动作过程添加到经验回放缓冲区中
    def add_to_memory(self, current_state, next_state, reward, done):
        self.memory.append((current_state, next_state, reward, done))
    # 为某个动作分配一个随机得分
    def random_value(self):
        return random.random()
    # 预测给定状态的得分
    def predict_value(self, state: np.ndarray) -> float:
        return self.model.predict(state)[0]
    # 返回给定状态的预期得分
    def act(self, state):
        state = np.reshape(state, [1, self.state_size])

        if random.random() <= self.epsilon:
            return self.random_value()
        else:
            return self.predict_value(state)
    # 返回给定状态集合中的最佳状态
    def best_state(self, states):
        max_value = None
        best_state = None
        if random.random() <= self.epsilon:
            return random.choice(list(states))
        else:
            for state in states:
                value = self.predict_value(np.reshape(state, [1, self.state_size]))

                if not max_value or value > max_value:
                    max_value = value
                    best_state = state
        return best_state
    # 训练神经网络模型
    def train(self, batch_size=32, epochs=3):
        n = len(self.memory)
        if n >= self.replay_start_size and n >= batch_size:
            batch = random.sample(self.memory, batch_size)
            # 获取下一个状态的预期得分
            next_states = np.array([x[1] for x in batch])
            next_qs = [x[0] for x in self.model.predict(next_states)]
            x = []
            y = []
            # 构建训练数据的输入输出结构
            for i, (state, _, reward, done) in enumerate(batch):
                if not done:
                    new_q = reward + self.discount * next_qs[i]  # 更新预期得分（Q值）
                else:
                    new_q = reward
                x.append(state)
                y.append(new_q)
            # 使用训练数据拟合模型
            self.model.fit(np.array(x), np.array(y), batch_size=batch_size, epochs=epochs, verbose=0)

            # 更新探索变量
            if self.epsilon > self.epsilon_min:
                self.epsilon -= self.epsilon_decay

代码中DQNAgent类：

state_size：输入域（状态空间）的大小。
mem_size：回放缓冲区的大小。
discount：未来奖励相对于即时奖励的重要性（折扣因子）[0,1]。
epsilon：开始时的探索概率（以给定概率执行随机动作）。
epsilon_min：当代理停止减少探索概率时的最小值。
epsilon_stop_episode：代理停止减少探索变量的回合数。
n_neurons：每个隐藏层中神经元的数量的列表。
activations：每个隐藏层和输出层中使用的激活函数的列表。
loss：用于训练神经网络的损失函数。
optimizer：用于训练神经网络的优化器。
build_model()：方法用于创建和编译基于指定结构（神经元数量和激活函数）的Keras神经网络模型。
add_to_memory()：方法用于将一个经验元组（当前状态、下一个状态、奖励、完成标志）添加到回放缓冲器中。
random_value()：方法返回一个随机值（用于在探索时为某个动作分配随机分数）。
predict_value()：方法接收一个状态作为输入，并预测该状态的预期分数，使用训练好的神经网络。
act()：方法根据当前状态选择一个动作（值）。它根据探索概率（epsilon）决定是进行探索（随机动作）还是利用（预测动作）。
best_state()：方法接收一个状态集合，并根据预测的最高分数返回最佳状态。它可以根据一定概率（epsilon）进行探索或利用最佳预测状态。
train()：方法用于训练神经网络，使用从回放缓冲器中抽样的经验。它使用Q-learning的更新规则来调整神经网络权重，以更好地逼近Q函数。

将写好的俄罗斯方块游戏和DQNAgent类的强化学习策略进行结合，通过训练和评估在Tetris游戏中的性能，以寻找最佳策略来玩这个游戏。实现的过程如下：

1.定义了run_model函数，用于训练和评估DQN代理的性能。在每个回合（episode）中，代理在Tetris游戏环境中执行动作，并收集游戏得分。代码实现如下：

def run_model(dir_name, episodes=100, render=False):
    env = Tetris()
    epsilon_stop_episode = 1500
    mem_size = 20000
    discount = 0.95
    replay_start_size = 2000
    n_neurons = [32, 32]
    activations = ['relu', 'relu', 'linear']
    agent = DQNAgent(env.get_state_size(), n_neurons=n_neurons, activations=activations,
                     epsilon_stop_episode=epsilon_stop_episode, mem_size=mem_size, discount=discount,
                     replay_start_size=replay_start_size)

    model_path = '../checkpoints/' + dir_name + '/model.hdf'
    agent.model = load_model(model_path)
    agent.epsilon = 0
    scores = []
    for episode in range(episodes):
        env.reset()
        game_over = False
        while not game_over:
            next_states = env.get_next_states()
            best_state = agent.best_state(next_states.values())

            # find the action, that corresponds to the best state
            best_action = None
            for action, state in next_states.items():
                if state == best_state:
                    best_action = action
                    break
            _, game_over = env.hard_drop([best_action[0], 0], best_action[1], render)
        scores.append(env.score)
        print(f'episode {episode} => {env.score}')
    return scores

2.定义run_model_helper函数，用于运行多个训练过程并评估它们的性能。该函数加载预先训练好的模型，并在每个目录下执行run_model函数，输出训练得分的最大值和对应目录的名称。代码如下：

def run_model_helper(episodes=128, render=False):
    dirs = [name for name in os.listdir('../checkpoints') if os.path.isdir(os.path.join('../checkpoints', name))]
    dirs.sort(reverse=True)
    dirs = [dirs[0]]
    max_scores = []
    for directory in dirs:
        print(f"Evaluating dir '{directory}'")
        scores = run_model(directory, episodes, render)
        max_scores.append((directory, max(scores)))
    max_scores.sort(key=lambda t: t[1], reverse=True)
    for k, v in max_scores:
        print(f"{v}\t{k}")

训练过程如下：

三、实现自动玩俄罗斯方块游戏

首先实现一个简单的俄罗斯方块基本游戏，实现的逻辑过程如下：

定义游戏地图和方块的常量：在游戏中，定义了游戏地图的大小、方块的大小、颜色等常量，并存储在相应的类属性中。
初始化游戏状态：在Tetris类的构造函数中，初始化了游戏的各种状态，包括当前方块位置、旋转角度、游戏得分等，以及游戏地图和下一个方块的预览板状态。
重置游戏状态：通过reset方法，重置游戏状态，重新开始一局游戏。重置后，将清空游戏地图，生成新的随机方块，并更新下一个方块的预览板。
方块的旋转与移动：游戏中的方块可以通过W键进行顺时针旋转，A键向右移动一列，S键向下移动一行，D键向左移动一列。这些操作在游戏中通过调整当前方块的位置和旋转角度来实现。
方块的硬降：在游戏中，通过按下空格键，可以将当前方块快速降落到底部。为了实现这个功能，游戏会不断检测方块是否可以继续向下移动，直到无法移动为止。
方块的落地和消除：当方块无法再继续向下移动时，将方块固定在游戏地图上，并判断是否有可消除的行。如果有，则消除行并增加玩家得分。
下一个方块的预览：游戏界面上会显示下一个方块的预览板，让玩家提前了解下一个方块的形状。
游戏结束判断：游戏判断是否结束的条件是当前方块在初始位置无法继续向下移动。
获取游戏状态特征：游戏通过一系列特征函数来提取当前游戏状态的特征，例如已消除行数、空洞数量、高度差等，用于在强化学习中作为输入来训练智能体。
图形渲染：游戏界面使用cv2库进行图形渲染，将游戏状态以图形化形式显示在屏幕上。

该游戏可以实现自己玩，控制方法为：

        W - 将方块顺时针旋转90度
        A - 将方块向右移动一列
        S - 将方块向下移动一行
        D - 将方块向左移动一列
        空格键 - 快速落下方块
        ESC - 退出游戏

自己玩游戏的过程如下：

AI方法玩游戏的过程如下：（非常快）

全部代码链接：

https://download.csdn.net/download/weixin_40651515/88114773

运行配置环境：tensorflow==1.14.0 tensorboard==1.14.0 keras==2.2.4 opencv==4.7.0.72 numpy==1.21.6 pillow==5.4.1 tqdm==4.31.1等

精时力日志-11 央曰
【第2周实践】这是2018年2月崔律“时间记录app”系列第2周的课后实践。今天是自习打卡第2天。1.我的实践：今天正式返回老家过年。从早上起床，到搭车，到亲戚家吃饭。白天所有的时间都变成“关系类”，吃饭及陪父母玩都没有切换状态，回到家里，我就那样轻易忘记时间记录了。今天的时间记录大块是“睡眠”、“关系”、“交通”。2.实践中的亮点：感觉今天没有亮点。唯一欣慰的是，我还能准时上年前最后一节“一块听
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
清平乐-同网友咏金庸女配角凭栏翠袖
起初是情情听王菲唱《红豆》有感，填了一支清平乐，江南小糊涂和春水愁纷纷步韵，其内容被凭栏翠袖看来想起金庸笔下几名女配，于是继续次韵，大家越玩越嗨......排序按时间先后：翻作《红豆》兼咏包惜弱——情情未携双手，谁挽春时候。此物相思抛尽后，熬作缠绵伤口。我心半是温柔，我心半是哀愁。世事终难谙透，惟看细水长流。咏林朝英——江南小糊涂置之纤手，愿毕生相候。几度风刀霜剑后，一字忍轻出口。箫声漫诉轻柔，相
科普关于v6厂和af厂蓝气球对比哪个好奢侈品总汇1
大家好，我是广城腕表，一个专注腕表知识的爱好者，不定时更新腕表真假对比，拆解评测以及视频解说，学会用专业知识了解腕表的好与坏，让您在玩表之路不入坑，本期给大家讲讲现在v6厂和af厂蓝气球对比哪个好。重要提醒→买大厂手表联系方式看文章底部蓝气球这个手表的总体上来讲，无论是V6厂的蓝气球还是AF厂的蓝气球，这两个都是和正品的尺寸对版，虽然说V6厂比AF厂厚0.5mm左右，但是只不过是不到一张纸的厚度，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
2022-10-29 是笑笑吧
今天因为疫情的原因我们学校决定校内放半天假，当孩子们听到后几乎冲淡了不放假的悲伤，你们沉浸在明天下午可以看电影、玩儿的期盼中。今天我让学生们选是先看电影再出去玩还是先出去再看电影，他们都选择出去玩，我如他们所愿，我们下来后看到韩主任带着她们班的女生玩老鹰捉小鸡，我们班的女生也很眼馋，到最后我还是和她们玩儿了老鹰捉小鸡，和他们打了一节课的羽毛球，说是打，其实我们也在心里暗暗的较量，都想赢，虽然最后没
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
不充钱也能玩的手游怎么下载不烧钱的手游在什么平台才有会飞滴鱼儿
对于手游不氪金，不充钱这类定义，可能很多玩家都是不太相信的，因为现在很多游戏都是以这样的宣传来进行，大多数游戏内都会有充值，几千甚至上万，几十万的玩家，以前我都是不太理解，为什么玩一款游戏会有充值这么高的人，不知道他们是什么心理！直到某天我在一个游戏论坛内，发现一个我至今不能遗忘的事情，当时，很多人都在议论一件事情，就是曝出一些游戏内的内部账号，有仙侠，传奇。策略SLG，回合等游戏，基本上很多排行
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
看图写话十，快乐的校园生活王梓涵04
下课了，同学们你追我赶的往操场上跑，他们有的在玩跷跷板，有的在玩踢毽子，有的在玩跳绳，还有的在踢足球……他们玩的很开心，突然上课铃声响了，同学们你追我我追你，都往教室里跑。虽然同学们都很想下课，但是，也不能不上课呀！开始上课了同学们还在笑呢！这真是快乐的一天。
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
儿子婚礼上，准儿媳将我打残装进麻袋送给儿子后(夫人顾景琛)免费完整版小说_完结版小说全文免费阅读儿子婚礼上，准儿媳将我打残装进麻袋送给儿子后(夫人顾景琛) 小文文斋
《儿子婚礼上，准儿媳将我打残装进麻袋送给儿子后》主角：夫人顾景琛简介：儿子年幼贪玩，在家玩闹时不小心引发了火灾。我用被单绑着儿子将他从阳台吊到了楼下。而我则在大火吞噬前，选择了从三楼跳下。人没死，但摔断了一条腿。儿子含泪跪在我病床前，发誓以后不会再让我受到半分伤害。老公喝多了喊了我一句死瘸子。就被儿子一酒瓶砸破了头。“我不允许任何人侮辱我妈，即便你是我爸。”老公吓得丢下离婚协议，连夜离家出走。儿子
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
好妈妈PD实战教育 S1E9 ccyz_铮荣岁月
主题：共情金句：共情让我们与孩子心连心今天周末，惯例是带姐弟俩去游泳洗澡，完成后在游玩区玩半小时。在游玩区，姐弟俩东摸摸西摸摸，玩得很开心。过了一会儿，一位可爱的小姐姐来了，看样子4岁左右，她一进来就想拿起手边的玩具钢琴玩，可是弟弟也看上了，就去抢。小姐姐试着拽住，但是弟弟比较坚定，用蛮力抢走了。小姐姐立马崩溃大哭，非常无助地望向玩手机的妈妈。妈妈迎声走过来，站在一边，有些不耐烦地说：“不要哭，哭
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
6+，基于免疫原性细胞死亡的非肿瘤分型文章，投稿到接收仅一个多月，肿瘤的热点已经传导至非肿瘤生信文章中！生信小课堂
影响因子：6.147本文从投稿到接收仅一个多月关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习，分子分型等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流！研究概述：脑卒中是世界上死亡和残疾的主要原因之一，缺血性中风占80
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
2019-03-09 1c63abd2a32c
1、壮壮与亮亮的打算在山东省临清市的一个小村子里，住着几十户人家，小牛壮壮与小羊亮亮就出生在这里。现在，它们已经是一对如兄弟一样的好朋友，几乎没有闹过矛盾。壮壮住在村子的西北角，亮亮则住在村子的东南角，从壮壮家走到亮亮家，至少要走上5分钟，可见它两家的距离有多大。早上，壮壮与亮亮在村口汇合，来到村边的草地上吃起草来。中午，它们在草地上打滚、睡觉。下午，它们在草地上玩的不亦乐乎。傍晚，只听村里传来的
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
狼人杀菲儿1225
昨天我们上英语课的时候，老师又带我们玩狼人杀了。老师开始理牌，然后发牌了。我终于抽到了我最想得到的角色——狼人。老师说:“天黑请闭眼，狼人请睁眼。”我立马把眼睛睁开了，确认好自己的同伴，我用手指了指陈祎，说明我要杀她。老师知道后就说:“狼人请闭眼，女巫请睁眼。”后来我就不知道了。但是老师后来说昨晚是平安夜，这不对劲，说明昨晚女巫肯定救了人。结果这一局刚玩完，老师说投票，许多人投都投了我，我就这样出
真诚宸翰272727
真诚是一张为人处事的明信片，无论是同事、朋友、亲人还是匆匆而过的身边人。只有真诚以待，才会获得对自己的肯定。图片发自App人类是群居而生活，相处久了总会出现矛盾，但是只要是以真心相待，总会获得别人的认可。只有真诚，才能心安，只有真诚，才能快乐，只有真诚，才能取得别人的信任。现在社会没有了诚信，就失去了所有的一切。出门不能坐高铁，不能坐飞机，以后还会给你带来意想不到的麻烦。两个小伙伴一起玩围棋，一个
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
AI产品经理成长记《零号列车》第一集邂逅0XAI列车黑客思维者 AI产品经理养成人工智能 AI产品经理大模型智能体
《零号列车》绝非传统意义上的AI产品经理教程——它是我沉淀二十多年跨行业数字化转型与工业4.0实战经验后，首创的100集大型小说体培养指南。那些曾在千行百业验证过的知识与经验，不再是枯燥的文字堆砌，而是化作一场沉浸式的学习旅程。这里没有生硬的理论灌输，而是用跌宕起伏的故事情节，串联起AI技术的底层逻辑。你会跟着角色的脚步推进剧情，在不知不觉中吃透机器学习、大模型应用等专业概念；更有深入浅出的技术拆
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

基于深度强化学习的DQN模型实现自动玩俄罗斯方块游戏（附详细代码讲解）

一、DQN（Deep Q-Network）方法概述

二、强化学习代码实现及训练过程

三、实现自动玩俄罗斯方块游戏

你可能感兴趣的:(深度学习,强化学习,机器学习,人工智能,俄罗斯方块,强化学习玩俄罗斯方块,DQN玩俄罗斯方块)