Vec_Kun

电子科技大学人工智能期末复习笔记（二）：MDP与强化学习

目录

前言

期望最大搜索（Expectimax Search）

⭐马尔科夫决策（MDP）——offline（超重点）

先来看一个例子

基本概念

政策（Policy）

折扣（Discounting）

如何停止循环？

价值迭代（Value Iteration）

例题

固定策略（Fixed Policies）

策略提取（Policy Extraction）

策略迭代（Policy Iteration）

策略迭代和价值迭代的比较

强化学习（Reinforcement Learning, RL）——online

简介

基于模型的强化学习（Model-Based RL，MBRL）

无模型强化学习（Model-Free RL，MFRL）

直接评估(Direct Evaluation)

时间差分学习(Temporal Difference Learning)

主动强化学习（Active Reinforcement Learning）

Q-Learning

探索与利用

前言

本复习笔记基于李晶晶老师的课堂PPT与复习大纲，供自己期末复习与学弟学妹参考用。

在上一节中，我们提到了Minimax是一种悲观算法，即考虑最坏的情况（Worst Case）从而使损失最小化。然而在实际操作过程中，对手并不是始终能做到最优决策，会有一定概率的失误，因此我们应当计算平均能得到的分数。

当不确定的结果会偶然出现时，也就是在不确定性搜索（Non-Deterministic Search）下，我们的算法就需要做出调整。

期望最大搜索（Expectimax Search）

在前言的条件下，对手不一定足够smart去得到最优解，因此，我们将对手节点视作chance nodes，它具有一定的概率去实行一定的策略，此时的策略是使得expected utility最大。值现在应该反映平均情况（预期）结果，而不是最坏情况（最小）结果。上一节提到的minimax实际上是expected max的一种概率为1或0的特例。

▪期望搜索：计算平均分数下最优玩法

▪最大节点和Minimax一致

▪机会节点类似Minimax的最小节点但结果不确定

▪计算他们的预期效用

▪即加权平均（期望）子节点

注意：在expectimax中最好不要进行剪枝操作，因为min层的计算需要依据下一层的每一个值（如果概率不是非0即1那种）

选择minimax策略的agent总是过于悲观，因此分数不会太高，但胜率会很高；而选择expectimax策略的agent过于乐观（比如万一有一种情况分数很高但概率相对不高，在计算的结果中，导致此算出来的期望值很高，agent会选择这种策略，但事实上，opponent很有可能选择其他路并且令agent分数减少）

⭐马尔科夫决策（MDP）——offline（超重点）

MDP是一个五元组——状态空间、行为、状态转移概率、奖励、折扣因子

先来看一个例子

只有一个主体，存在障碍，惩罚出口和奖励出口，主体可以任意移动但是有概率出现偏差移动，如果移动碰到墙体则呆在原地，每行动一步会有小的存活奖励（正/负/0都可）.。

我们的目标是使主体得到的分数最大化。

如下图，以前的决策是左边的情况，而现在要解决的是随机问题

基本概念

这就要用到马尔科夫决策过程（MDP）：

▪MDP定义为：

▪一组状态集S

▪一组动作集A

▪一个过渡函数T（s,a,s'）

        ▪从状态s到状态s'的概率，例如，P（s'|s, a）

        ▪也称为模型或动态

▪奖励函数R（s,a,s'）

        ▪有时只是R (s)或R (s')

▪一个起始状态

▪也许存在结束状态

▪马尔科夫决策过程，“马尔科夫”意味着行动结果只取决于当前状态

▪这就类似搜索，后继函数只能取决于当前状态（而非历史状态）

▪MDPs是非确定性搜索问题

▪解决它们的一种方法是期望最大搜索

政策（Policy）

在确定性单代理搜索问题，我们想要一个从起始节点到目标节点的最优计划，或序列的行动。

在MDP中，我们需要一个最优政策 $\pi ^{*}:S\rightarrow A$ ，它在每一个状态下都给出一个动作，并且尝试在最后得到最大的效益，显式的策略定义了主体的反应倾向，如下图：

能观察到，在不同的生存奖励下，主体的行动倾向都有所不同。

折扣（Discounting）

如上图，当生存奖励的负分偏小时，在更为危险的地块中agent会宁愿选择一直对墙试错从而让自己滑行到两侧而非冒险按正确的朝向走，这可能会与我们的实际预期不符，因为它走做了太多无用的动作。这时我们就要给奖励添加折扣，让agent尽可能快的拿到最大的奖励：

▪最大化奖励的总和是合理的

▪更喜欢马上获得的奖励而非以后的奖励也是合理的

▪一个解决方案：奖励的值呈指数衰减

例如，折扣为0.5时，U([1,2,3]) < U([3,2,1])。

U([1,2,3]) = 1*1 + 0.5*2 + 0.25*3 ；U([3,2,1]) = 1*3 + 0.5*2 + 0.25*1

例如：

在状态d时，γ为多少时往左或右的收益一致？

解： $10\cdot \gamma ^{3}= 1\cdot \gamma$ ，解得γ＝ $\frac{1}{\sqrt{10}}$ 。

如何停止循环？

如果一个游戏可以一直进行，怎么让它停下来并呈现出我们的分数？

1. 可以设置在进行n步之后必须结束游戏（life/生命周期）

2. 可以设置动态变化的政策，例如随着可用步数的减少，政策随之变化

3. 可以设置折扣，到最后奖励值会趋于收敛，当分数变化小于某个临界时可以结束游戏

4. 可以设置一个“吸收节点”，当进入这个节点时必须退出游戏，这个节点在前面的阶段不会进入，但到后面终将有可能进入这个状态。

价值迭代（Value Iteration）

起始价值和为0，因为还没有开始迭代

给定某一向量的价值，开始向后迭代

重复迭代直至收敛

值迭代缺点：

速度慢——每次迭代时间复杂度 O(S²A)

每个状态的“最大值”很少改变

policy通常早在values之前收敛

举例：汽车运行问题

例题

固定策略（Fixed Policies）

固定每一步的action由函数π(s)得到，那么V值计算如下，其实和价值迭代没太大区别

策略提取（Policy Extraction）

在知道每一步的最优价值V*(s)时，还需要进行一个arg max()操作来求得执行哪个action会得到此最优价值

策略迭代（Policy Iteration）

包括两部分：

策略评估：对于固定策略π ，通过策略评估得到V值，迭代直至v值收敛

策略提升：对于固定策略的V值，使用策略提取获得更好的策略：

局限：在不知道T和R时无法更新V

idea：对结果 s'（通过做动作！）和平均值进行采样

策略迭代和价值迭代的比较

两者本质上都是计算最优value，都是用于解决MDP的动态程序

价值迭代：

每次迭代都更新value和policy
不跟踪policy，但在选择最大Q值时会隐式的重新计算他

策略迭代：

使用固定策略进行了几次更新实用程序的传递（每次传递都很快，因为我们只考虑一个动作，而不是所有动作）
After the policy is evaluated, a new policy is chosen（慢如值迭代传递）
新policy会更优

强化学习（Reinforcement Learning, RL）——online

简介

强化学习与MDP的区别就在于：我们不明确转化函数和奖励函数的具体内容，必须切实地去尝试以后才能得出结论！

所以说，强化学习是一种在线学习方式，只能靠自己试错来得出正确的决策。

基于模型的强化学习（Model-Based RL，MBRL）

step1.通过training过程，计算状态转移矩阵T（）和动作reward R（），通过学习得到经验MDP模型

step2. 使用价值迭代或策略迭代求解最优values

过程：

1. 选出所有状态

2. 用模型模拟转移函数

3. 模拟奖励函数并且得出价值

4. 用MDP完成剩余的价值迭代等工作

例题:

无模型强化学习（Model-Free RL，MFRL）

直接评估(Direct Evaluation)

计算当前政策下所有动作的价值, 将观察到的样本值作平均

根据政策做出动作

每次遇到一种情形, 都把(折扣)奖励加起来

平均这些样本, 得到直接评估结果

例题:

计算过程：

A = [-10] / 1 =10

B = [(-1-1+10)+(-1-1+10)]/2 = +8

C = [(-1+10)+(-1+10)+(-1+10)+(-1-10)]/4 = +4

D = [10+10+10]/3 = +10

E = [(-1-1+10)+(-1-1-10)]/2 = -2

优点：简单易理解；不需要计算T、R；最终你那个计算出正确的平均value

缺点：浪费了状态连接的信息，每个状态必须单独学习，会花费较长时间学习

时间差分学习(Temporal Difference Learning)

从每段经验中学习

每次经过一个转移函数(动作)就更新V(s)

以至于新的状态将会为更新策略作出更多贡献

政策固定, 始终作评估

将当前值提供给任何一个后继者并作平均

例题:

计算过程：

主动强化学习（Active Reinforcement Learning）

Q-Learning

我们可以计算出下一个状态的价值并取最大值,但我们也可以计算Q-state(Q状态)的值, 在我理解, 它属于一个未决策的中间态（更关注当前状态和动作）, 计算出它的值可以帮助我们决策, 并且更加有用。

如果知道转化函数和奖励函数：

如果不知道：

取一个实例，作为转化函数与奖励函数的值来迭代。

Q-Learning的属性

即使没有按最优方式迭代，Q-Learning也始终能够最终迭代为最优结果（非政策学习）

前提条件：

你必须探索足够的次数

你必须最终使学习率足够小

但不要太快减少它

不管你如何选择行动，要求基本上在限制下内

探索与利用

我们通常利用各种函数来帮助我们得出价值等数值帮助决策行为，但这样也不一定是最优解，需要偶尔去进行探索，但在什么条件下进行探索呢？

有几种方案可以强迫探索

最简单：随机行动（ε-贪婪）

每次行动，随机一次（使ε为0到1之间的任意数，每次随机出一个0到1的数与它比较）

比ε小，行动随机

比ε大，行动按当前策略

随机行动的问题？

我们最终会探索其他可能性，但必须在学习完成后继续研究

解决方案：随着时间的推移降低ε

总结

我们已经看到了人工智能方法如何解决以下问题：

▪搜索

▪约束满足问题

▪博弈

▪马尔可夫决策问题

▪强化学习

下一节：一阶逻辑

你可能感兴趣的:(复习笔记,算法,人工智能,MDP,强化学习)

【LeetCode 3136. 有效单词】解析
目录LeetCode中国站原文原始题目题目描述示例1：示例2：示例3：提示：讲解化繁为简：如何优雅地“盘”逻辑判断题第一部分：算法思想——“清单核对”与“一票否决”第二部分：代码实现——清晰的逻辑翻译实现一：常规判断逻辑实现二：使用正则表达式（一行代码的“炫技”）第三部分：总结LeetCode中国站原文https://leetcode.cn/problems/valid-word/原始题目题目描述
2023-09-15 五角大楼探索生成式人工智能解决方案泰格
佳文砺道智库2023-09-1409:58发表于北京据“防务头条”网9月12日报道，美国研究机构“特殊竞争力研究项目”（SCSP）的一份报称告，如果美国想在制定生成式人工智能的开发和使用规范方面引领全球，就必须增加联邦研发支出，建立新的政府机构，或者改变现有的政府机构。生成式人工智能可以加速新药和网络安全解决方案的发现，从根本上实现更好的计算机网络，并提高公众的理解。但在对手手中，它可能会导致更多
CVE-2005-4900：TLS SHA-1 安全漏洞修复详解 Nova_CaoFc 运维日常技术博文分享安全 linux 服务器运维
前言在信息安全日益重要的当下，任何微小的加密弱点都可能被攻击者利用，从而导致数据泄露、流量劫持或更严重的业务中断。本文将结合实际环境中常见的Nginx配置示例，深入剖析CVE-2005-4900（TLS中使用SHA-1哈希算法）的危害，并提供完整、可操作的修复流程。一、什么是CVE-2005-4900漏洞CVE-2005-4900定位于TLS协议中使用SHA-1作为消息认证和签名哈希算法的安全漏洞
内存受限编程：从原理到实践的全面指南景彡先生 C++进阶 c++缓存
在嵌入式系统、物联网设备、移动应用等场景中，内存资源往往极为有限。如何在内存受限的环境中设计高效、稳定的程序，是每个开发者都可能面临的挑战。本文将从硬件原理、操作系统机制、算法优化到代码实现技巧，全面解析内存受限编程的核心技术。一、内存受限环境概述1.1典型内存受限场景场景可用内存范围典型应用8位单片机几KB-64KB传感器节点、简单控制器32位嵌入式系统64KB-512MB智能家居设备、工业控制
深入探索C++ STL：从基础到进阶
目录引言一、什么是STL二、STL的版本三、STL的六大组件容器（Container）算法（Algorithm）迭代器（Iterator）仿函数（Functor）空间配置器（Allocator）配接器（Adapter）四、STL的重要性五、如何学习STL六、STL的缺陷总结引言在C++的世界里，标准模板库（STL）是一项极为强大的工具。它不仅为开发者提供了可复用的组件库，更是一个融合了数据结构与算
【加解密与C】Rot系列(二)Rot13
Rot13简介Rot13（Rotateby13places）是一种简单的字母替换加密算法，属于凯撒密码（Caesarcipher）的特例。它将字母表中的每个字母替换为字母表中距离它13个位置的字母。例如，字母A替换为N，B替换为O，以此类推。由于英文字母有26个字符，Rot13的特点是加密和解密使用相同的算法。Rot13算法规则对字母表中的每个字母，进行如下替换：大写字母A-Z：A→N，B→O，…
探索OpenCV 3.2源码：计算机视觉的架构与实现轩辕姐姐
本文还有配套的精品资源，点击获取简介：OpenCV是一个全面的计算机视觉库，提供广泛的功能如图像处理、对象检测和深度学习支持。OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。源码的模块化设计、C++接口、算法实现、多平台支持和性能优化等方面的深入理解，都将有助于开发者的
LeetCode-268-丢失的数字醉舞经阁半卷书
丢失的数字题目描述：给定一个包含[0,n]中n个数的数组nums，找出[0,n]这个范围内没有出现在数组中的那个数。进阶：你能否实现线性时间复杂度、仅使用额外常数空间的算法解决此问题?示例说明请见LeetCode官网。来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/missing-number/著作权归领扣网络所有。商业转载请联系官方授权，非商
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
云原生环境中Consul的动态服务发现实践 AI云原生与云计算技术学院 AI云原生与云计算云原生 consul 服务发现 ai
云原生环境中Consul的动态服务发现实践关键词：云原生,服务发现,Consul,微服务,动态注册,健康检查,Raft算法摘要：本文深入探讨云原生环境下Consul在动态服务发现中的核心原理与实践方法。通过剖析Consul的架构设计、核心算法和关键机制，结合具体代码案例演示服务注册、发现和健康检查的全流程。详细阐述在Kubernetes、Docker等云原生技术栈中的集成方案，分析实际应用场景中的
云原生环境里Nginx的故障排查思路 AI云原生与云计算技术学院 AI云原生与云计算云原生 nginx 运维 ai
云原生环境里Nginx的故障排查思路关键词：云原生、Nginx、故障排查、容器化、Kubernetes摘要：本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用，Nginx作为常用的高性能Web服务器和反向代理服务器，在容器化和编排的环境中面临着新的故障场景和挑战。文章首先介绍云原生环境及Nginx的相关背景知识，接着阐述核心概念和联系，详细讲解故障排查的核心算法原理与操作步骤
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用 AI云原生与云计算技术学院 AI云原生与云计算 perl 服务器网络 ai
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用关键词：谷歌云、GCP、云应用搭建、入门指南、云计算摘要：本文旨在为初学者提供一份全面的谷歌云（GCP）入门指南，详细介绍如何从零开始搭建第一个云应用。通过逐步分析推理，我们将涵盖背景知识、核心概念、算法原理、数学模型、项目实战、实际应用场景、工具资源推荐等多个方面，帮助读者深入理解GCP的使用方法和搭建云应用的流程，为后续的云计算实践打下坚实
人工智能服务器处理器的全新定义两大头部品牌旗舰款的王者之争！云储存cpu_云服务器处理器_企业服务器处理器
一、旗舰处理器架构解析IntelXeon6900系列代表着英特尔在服务器处理器领域的最新成果，采用增强版Intel7制程工艺打造。该系列最高配置56个物理核心，通过超线程技术支持112个逻辑线程，在处理多线程任务时展现出卓越的性能表现。内存子系统方面，支持8通道DDR5-4800内存配置，最高可扩展至4TB容量，为内存密集型应用提供了充足带宽。特别值得一提的是其集成的AMX高级矩阵扩展指令集，这项
院级医疗AI管理流程—基于数据共享、算法开发与工具链治理的系统化框架 Allen_Lyb 医疗高效编程研发人工智能算法时序数据库经验分享健康医疗
医疗AI：从“单打独斗”到“协同共进”在科技飞速发展的今天，医疗人工智能（AI）正以前所未有的速度改变着传统医疗模式。从最初在影像诊断、临床决策支持、药物发现等单一领域的“单点突破”，医疗AI如今已迈向“系统级协同”的新阶段。曾经，医疗AI的应用多集中在某一特定环节，比如利用深度学习算法分析医学影像，辅助医生进行疾病诊断。这种单点突破式的应用虽然在一定程度上提高了医疗效率，但随着医疗行业对AI技术
【数据结构与算法】力扣 88. 合并两个有序数组秀秀_heo 数据结构与算法 leetcode 算法职场和发展
题目描述88.合并两个有序数组给你两个按非递减顺序排列的整数数组nums1**和nums2，另有两个整数m和n，分别表示nums1和nums2中的元素数目。请你合并nums2**到nums1中，使合并后的数组同样按非递减顺序排列。注意：最终，合并后数组不应由函数返回，而是存储在数组nums1中。为了应对这种情况，nums1的初始长度为m+n，其中前m个元素表示应合并的元素，后n个元素为0，应忽略。
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
面试高频题力扣 130. 被围绕的区域洪水灌溉(FloodFill) 深度优先遍历(dfs) 暴力搜索 C++解题思路每日一题 Q741_147 C/C++每日一题：从语法到算法面试 leetcode 深度优先 c++洪水灌溉
目录零、题目描述一、为什么这道题值得你花时间掌握？二、题目拆解：提取核心关键点三、解题思路：从边界入手，反向标记四、算法实现：深度优先遍历（DFS）+两次遍历五、C++代码实现：一步步拆解代码拆解时间复杂度空间复杂度七、坑点总结八、举一反三九、总结零、题目描述题目链接：被围绕的区域题目描述：示例1：输入：board=[[“X”,“X”,“X”,“X”],[“X”,“O”,“O”,“X”],[“X”
2007. 从双倍数组中还原原数组
【算法题解析】还原双倍数组—从打乱的数组恢复原数组题目描述给定一个整数数组changed，该数组是通过对一个原始数组original的每个元素乘以2并打乱顺序后得到的。你的任务是判断给定的changed是否为某个original数组的双倍数组，并返回该原数组。具体来说，存在一个数组original，使得对original中的每个元素x，changed中都包含x和2*x两个元素（顺序可能被打乱）。如
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
聚众识别漏检难题？陌讯多尺度检测实测提升 92%
一、开篇痛点：复杂场景下的聚众识别困境在安防监控、大型赛事等场景中，实时聚众识别是保障公共安全的核心技术。但传统视觉算法常面临三大难题：一是密集人群重叠导致小目标漏检率超30%，二是光照变化（如夜间逆光）引发误报率飙升，三是复杂背景干扰下实时性不足（FPS＜15）。某景区监控项目曾反馈，开源模型在节假日人流高峰时，因漏检导致预警延迟达20秒，存在严重安全隐患。这些问题的根源在于传统算法的局限性：单
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
人人皆有神功：AI如何改变程序员的江湖地位？ nbsaas-boot 人工智能大数据
在人类的历史中，每一次技术革命都重新洗牌了社会的力量结构：工业革命带来机器力量的爆发，信息时代成就了程序员的黄金时代。而如今，随着通用人工智能（AGI）和大模型技术的突飞猛进，我们正在步入一个**“人人皆有神功”的AI江湖时代**。当AI成为每个人的智能助手，编程是否还重要？程序员将何去何从？本文将以“武林江湖”的隐喻，探索AI时代的技术平权与社会重构。一、技术平权真的来了吗？过去，程序员之所以被
Python 算法基础篇之线性搜索算法：顺序搜索、二分搜索挣扎的蓝藻 Python算法初阶：入门篇 python 算法开发语言
Python算法基础篇之线性搜索算法：顺序搜索、二分搜索引用1.顺序搜索算法2.二分搜索算法3.顺序搜索和二分搜索的对比a)适用性b)时间复杂度c)前提条件4.实例演示实例1：顺序搜索实例2：二分搜索总结引用在算法和数据结构中，搜索是一种常见的操作，用于查找特定元素在数据集合中的位置。线性搜索算法是最简单的搜索算法之一，在一组数据中逐一比较查找目标元素。本篇博客将介绍线性搜索算法的两种实现方式：顺
【算法】哈希映射（C/C++）摆烂小白敲代码哈希算法算法 c语言 c++数据结构
目录算法引入：算法介绍：优点：缺点：哈希映射实现：mapunordered_map题目链接：“蓝桥杯”练习系统解析：代码实现：哈希映射算法是一种通过哈希函数将键映射到数组索引以快速访问数据的数据结构。它的核心思想是利用哈希函数的快速计算能力，将键（Key）转换为数组索引，从而实现对数据的快速访问和存储。哈希映射在现代软件开发中非常重要，它提供了高效的数据查找、插入和删除操作。算法引入：小白算法学校
计算机视觉算法实战——关键点检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言关键点检测（KeypointDetection）是计算机视觉领域中的一个重要研究方向，旨在从图像或视频中检测出具有特定语义信息的关键点。这些关键点通常代表了物体的特定部位或特征，例如人体的关节、面部特征点、车辆的轮子等。关键点检测在姿态估计、动作识别、目标跟踪、三维重建等任务中
博弈算法
有一种很有意思的游戏，就是有物体若干堆，可以是火柴棍或是围棋子等等均可。两个人轮流从堆中取物体若干，规定最后取光物体者取胜。这是我国民间很古老的一个游戏，别看这游戏极其简单，却蕴含着深刻的数学原理。下面我们来分析一下要如何才能够取胜。（一）巴什博奕（BashGame）：只有一堆n个物品，两个人轮流从这堆物品中取物，规定每次至少取一个，最多取m个。最后取光者得胜。显然，如果n=m+1，那么由于一次最
STL 简介（标准模板库）
前言通过对C++的特性，类和对象的学习和C++的内存管理对C++基本上有了全面的认识，但是C++的核心在于STL一、STL简介什么是STLC++STL（StandardTemplateLibrary，标准模板库）是C++编程语言中一个功能强大的模板库，它提供了一系列通用的数据结构和算法。STL的设计基于泛型编程，这意味着它使用模板来编写独立于任何特定数据类型的代码。STL的核心组件包括容器（如向量
C++博弈论善良的小乔博弈 c++算法开发语言
C++中的博弈算法主要用于解决两人对弈或多方博弈中的策略问题，常用于解决在棋类、卡牌、游戏等情景下的最优策略。这类算法通常基于数学博弈论，重点在于模拟玩家的策略选择并寻找最优解。下面将逐步介绍博弈算法的基本思想、常用算法以及具体实现思路。一、博弈算法的基本思想博弈算法的核心在于状态空间搜索，通过模拟玩家的所有可能动作，推导出局面评价和策略选择，常见特性包括：零和博弈：一个玩家的得分增加意味着另一个
工服误检率高达40%？陌讯改进YOLOv7实战降噪50% 2501_92487859 YOLO 算法视觉检测目标检测计算机视觉
开篇痛点：工业场景的视觉检测困境在工地、化工厂等高危场景，传统视觉算法面临三重挑战：环境干扰：强光/阴影导致工服颜色失真目标微小：安全帽反光标识仅占图像0.1%像素遮挡密集：工人簇拥时漏检率超35%（数据来源：CVPR2023工业检测白皮书）行业真相：某安监部门实测显示，开源YOLOv5在雾天场景误报率高达41%技术解析：陌讯算法的三大创新设计1.多模态特征融合架构#伪代码示例：可见光+红外特征融
渣土车识别漏检率高？陌讯算法实测降 90% 2501_92487936 目标跟踪人工智能计算机视觉目标检测算法智慧城市
在城市建筑垃圾运输管理中，渣土车的合规性监测一直是行业痛点。传统视觉算法在复杂工况下常常出现误判——阴雨天车牌识别模糊、夜间车灯眩光导致车型误分类、不同品牌渣土车混检时准确率骤降。某市政管理局的统计显示，采用传统方案时，日均漏检率高达23%，由此引发的违规倾倒投诉占比超60%。技术解析：从单模态到多特征融合的突破传统渣土车识别多依赖单一目标检测模型（如FasterR-CNN），其核心缺陷在于：特征
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他