小了白了兔_白了又了白

强化学习第二版-Sutton-学习笔记

章节目录

- 1. 导论
I 表格型求解方法
- 2. 多臂赌博机
- - K臂赌博机
  - 增量式实现
  - 跟踪一个非平稳问题
  - 乐观初始值
  - 基于置信度上界（UCB）的动作选择
  - 梯度赌博机算法
- 3. 有限马尔科夫决策过程（有限MDP）
- - 目标和收益
  - 回报和分幕
  - 策略和价值函数
  - 最优策略与最优价值函数

1. 导论

参考书籍：https://item.jd.com/12696004.html

在交互中学习是几乎所有学习和智能理论的基本思想，强化学习相比于其他机器学习方法，更加侧重于以交互目标为导向进行学习。

强化学习四要素：策略、收益、价值函数、环境模型。

策略：策略就是环境到动作的映射，是强化学习的核心。
收益：就是每一步动作的回报，强化学习的目标是最大化长期总收益。
价值函数：智能体从当前时刻到未来的总收益的期望，价值评估是几乎所有强化学习方法中最重要的部分。
环境模型：给定一个状态和动作，环境模型可以预测下一个状态和收益。强化学习由有模型的方法和无模型的方法。

I 表格型求解方法

简单问题是指其状态和动作空间小到可以用数组或表格的形式表示价值函数。后续分别介绍：多臂赌博机、有限马尔科夫过程、动态规划、蒙特卡洛、时序差分、多步自举与基于表格型方法的规划和学习。

2. 多臂赌博机

K臂赌博机

重复的在K个动作中进行选择，每一次选择后都会得到一定数值的收益，目标是在一段时间内最大化总收益的期望（隐含背景：每个动作的平均收益不同）。

K个动作中每一个被选择时有一个期望收益或平均收益，称为该动作的“价值”。

如果知道每个动作的价值，每次选择直接选价值最高的动作；
如果不知道每个动作的价值，就对每个动作的价值进行估计；

每次选择估计价值最高的动作，称为贪心的动作。

每次选择贪心的的动作，称为开发；
如果有一定概率选择非贪心动作，称为试探（ $\epsilon-贪心$ ）；

一种对动作价值进行估计的方法是：计算实际收益的平均值。

增量式实现

假设 $Q_n$ 为被选择 $n - 1$ 次后，某个动作的价值的估计，则有：
$Q_{n+1}=Q_n+\frac{1}{n}[R_n-Q_n]$
一般形式为：
$新估计值 = 旧估计值 + 步长 * [目标 - 旧估计值]$

跟踪一个非平稳问题

取平均值方法对于动作价值平稳的情况适用，但对于收益的概率分布随时间变化的问题不再适用。解决办法是相比于过去很久的收益，给近期收益更高的权重，比如固定步长。
$Q_{n+1}=Q_n+\alpha [R_n-Q_n]\\ =(1-\alpha)^nQ_1+\sum_{i=1}^n\alpha(1-\alpha)^{n-i}R_i$
其中， $\alpha\in(0,1]$ 。

乐观初始值

初始动作价值提供了一种简单的试探方式，比如将初始动作价值设置较高，实际动作价值较低，就会对每一个动作进行尝试，进行大量试探。但是该方法只对平稳问题有效，不太适合非平稳问题。

基于置信度上界（UCB）的动作选择

$A_t=\argmax_a[Q_t(a)+c\sqrt{\frac{\ln t}{N_t(a)}}]$
其中， $\ln t$ 表示 $t$ 的自然对数， $N_t(a)$ 表示时刻 $t$ 之前动作 $a$ 被选择的次数， $c$ 是大于0的数。
随着时间的流逝，具有较低价值估计的动作或者已经被选择了更多次的动作被选择的频率较低。

处理非平稳问题，需要更复杂的方法；
另一个难题是处理大的状态空间，尤其是函数近似问题；

梯度赌博机算法

针对每个动作学习一个偏好函数 $H_t(a)$ ，偏好函数越大，动作就越频繁地被选择。
$H_{t+1}(a_T)=H_t(A_t)+\alpha(R_t-\bar R_t)(1-\pi_t(A_t)),\\ H_{t+1}(a)=H_t(a)-\alpha(R_t-\bar R_t)\pi_t(a), 所有 a\ne A_t$
$\bar R_t$ 作为比较收益的基准项，如果收益高于它，那么未来选择动作 $A_t$ 的概率就会增加，反之概率就会降低，未选择的动作被选择的概率上升。

3. 有限马尔科夫决策过程（有限MDP）

在有限MDP中，状态、动作和收益的集合（ $S$ 、 $A$ 和 $R$ ）都只有有限个元素。
$p(s',r|s,a)=Pr\{S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a\}$
$S_t$ 和 $R_t$ 的每个可能值出现的概率只取决于前一状态 $S_{t-1}$ 和前一动作 $A_{t-1}$ ，并且与更早之前的状态和动作完全无关。

目标和收益

智能体的目标是最大化其收到的总收益；
提供收益的方式必须要使智能体在最大化收益的同时也实现目标；
收益信号并不是传授智能体如何实现目标的先验知识；
收益信号只能用来传达什么是你想要实现的目标，而不是如何实现这个目标；

回报和分幕

回报是收益的总和：
$G_t=R_{t+1}+R_{t+2}+R_{t+3}+。。。+R_{T}$
$T$ 是最终时刻，智能体与环境的交互被分成一个个子序列，我们称每一个子序列为幕（episodes）。

折扣后回报：
$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+。。。=\sum_{k=0}^\infty \gamma^kR_{t+k+1}$
其中， $0\leq\gamma\leq 1$ 是一个参数，称为折扣率。

增量式计算回报：
$G_t=R_{t+1}+\gamma G_{t+1}$

策略和价值函数

策略是从状态到每个动作的选择概率之间的映射，例如： $\pi(a|s)$ 。

把策略 $\pi$ 下状态 $s$ 的价值函数记为 $v_{\pi}(s)$ ，其定义为：
$v_{\pi}(s)=E_{\pi}[G_t|S_t=s]=E_{\pi}[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}|S_t=s]$
把函数 $v_{\pi}$ 称为策略 $\pi$ 的状态价值函数。

把策略把策略 $\pi$ 下状态 $s$ 时采取动作 $a$ 的价值记为 $q_{\pi}(s,a)$ ，其定义为：
$q_{\pi}(s,a)=E_{\pi}[G_t|S_t=s,A_t=a]=E_{\pi}[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}|S_t=s,A_t=a]$
把函数 $q_{\pi}$ 称为策略 $\pi$ 的动作价值函数。

贝尔曼方程：
$v_{\pi}=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')], 对于所有的s\in S$

最优策略与最优价值函数

$v_{*}(s)=\max_{\pi}v_{\pi}(s)\\ q_{*}(s,a)=\max_{\pi}q_{\pi}(s,a)$
贝尔曼最优方程：
$v_{*}(s)=\max_{a}E[R_{t+1}+\gamma v_{*}(S_{t+1})|S_t=s,A_t=a]\\ =\max_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{*}(s')]$
贝尔曼最优方程可以直接求解，但是需要满足以下条件：

知道环境的动态变化特性；
足够的计算资源；
马尔科夫性质；

实际系统中，上述条件很难满足。

你可能感兴趣的:(强化学习)

强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
LLM-Agent方法评估与效果分析 agent人工智能ai开发
1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。从基础的单智能体强化学习算法（如PPO）到多智能体协作、语料重组以及在线自学习等新技术不断涌现，研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。本文主要聚焦于当前LLM-Agent方法的检索与评估，旨在全面探讨各类方法的技术实现、实
强化学习 Reward 百态老人算法
在强化学习中，奖励（Reward）是智能体（Agent）与环境（Environment）交互过程中获得的重要反馈信号。奖励机制在强化学习中扮演着至关重要的角色，因为它不仅指导智能体如何在环境中行动，还影响其策略的优化和最终的学习效果。奖励是智能体在执行某个动作后从环境中获得的即时反馈，用于评估该动作的好坏。这种反馈帮助智能体调整其行为策略，以期在未来获得更多的奖励。奖励可以是正数、负数或零，其或负
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
DeepSeek在智慧物流管控中的全场景落地方案猴的哥儿笔记大数据交通物流 python 数据仓库微服务
一、智慧物流核心痛点与DeepSeek解决方案矩阵物流环节行业痛点DeepSeek技术方案价值增益仓储管理库存预测误差率>30%多模态时空预测模型库存周转率↑40%运输调度车辆空驶率35%强化学习动态调度引擎运输成本↓25%路径规划突发路况响应延迟>30分钟实时路况语义理解+自适应规划准时交付率↑18%异常检测50%异常依赖人工发现多传感器融合的异常模式识别异常发现时效↑6倍客户服务50%咨询需人
探索DeepSeek：前端开发者不可错过的新一代AI技术实践指南 formerlyai 人工智能前端
引言：为什么DeepSeek成为技术圈焦点？最近，国产AI模型DeepSeek凭借其低成本训练、高性能输出和开源策略，迅速成为开发者社区的热门话题。作为覆盖语言、代码、视觉的多模态技术矩阵，DeepSeek不仅实现了与ChatGPT相媲美的能力，还通过强化学习驱动的架构创新，解决了大模型落地中的成本与效率瓶颈。对于前端开发者而言，DeepSeek的API接入能力和私有化部署方案，为智能应用开发提供
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
基于DeepSeek R1构建下一代Manus通用型AI智能体的技术实践 zhangjiaofa DeepSeek R1&AI人工智能大模型 DeepSeek Manus 智能体 AI
目录一、技术背景与目标定位1.1大模型推理能力演进趋势1.2DeepSeekR1核心特性解析-混合专家架构(MoE)优化-组相对策略优化(GRPO)原理-多阶段强化学习训练范式1.3Manus智能体框架设计理念-多智能体协作机制-安全执行沙箱设计二、系统架构设计2.1整体架构拓扑图-分层模块交互机制-数据流与控制流设计2.2核心组件实现-规划模块(GRPO算法集成)-记忆系统分级存储架构-工具调用
强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六) wxchyy 强化学习算法
目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言前两期我们介绍了动态规划算法，还有蒙特卡洛算法，不过它们对于状态价值函数的估值都有其缺陷性，像动态规划，需要从最下面向上进行递推，而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值，有没有更直接的方法，智能体能边做动作，边估值一次，不断学习策略？答案是有的。这就是本期需要介绍的算法，时间差分法（TimeDi
大型语言模型与强化学习的融合：迈向通用人工智能的新范式——基于基础复现的实验平台构建（initial）大模型科普人工智能强化学习
1.引言大型语言模型（LLM）在自然语言处理领域的突破，展现了强大的知识存储、推理和生成能力，为人工智能带来了新的可能性。强化学习（RL）作为一种通过与环境交互学习最优策略的方法，在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合，分析LLM如何赋能RL，并阐述这种融合对于迈向通用人工智能（AGI）的意义。为了更好地理解这一融合的潜力，我们基于“LargeLanguageModela
强化学习-Chapter2-贝尔曼方程 Rsbs 算法机器学习概率论
强化学习-Chapter2-贝尔曼方程贝尔曼方程推导继续展开贝尔曼方程的矩阵形式状态值的求解动作价值函数与状态价值函数的关系贝尔曼方程推导Vπ(s)=E[Gt∣St=s]=E[rt+1+(γrt+2+…)∣St=s]=E[rt+1+γGt+1∣St=s]=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(Rs→s′a+γE[Gt+1∣St+1=s′])=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(R
【开源代码解读】AI检索系统R1-Searcher通过强化学习RL激励大模型LLM的搜索能力 accurater 人工智能深度学习 R1-Searcher
关于R1-Searcher的报告：第一章：引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中，信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计，2023年全球数据总量已突破120ZB，其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战：语义歧义消除：如何准确理解"A
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
推理大模型：技术解析与未来趋势全景时光旅人01号深度学习人工智能 python pytorch 神经网络
1.推理大模型的定义推理大模型（ReasoningLLMs）是专门针对复杂多步推理任务优化的大型语言模型，具备以下核心特性：输出形式创新展示完整逻辑链条（如公式推导、多阶段分析）任务类型聚焦擅长数学证明、编程挑战、多模态谜题等深度逻辑任务训练方法升级融合强化学习、思维链（CoT）、测试时计算扩展等技术2.主流推理大模型图谱2.1国际前沿模型OpenAIo1系列内部生成"思维链"机制数学/代码能力标
一文读懂强化学习：从基础到应用 LHTZ 算法时序数据库大数据数据库架构动态规划
强化学习是什么强化学习是人工智能领域的一种学习方法，简单来说，就是让一个智能体（比如机器人、电脑程序）在一个环境里不断尝试各种行为。每次行为后，环境会给智能体一个奖励或者惩罚信号，智能体根据这个信号来调整自己的行为，目的是让自己在未来能获得更多奖励。就像训练小狗，小狗做对了动作（比如坐下），就给它零食（奖励），做错了就没有零食（惩罚），慢慢地小狗就知道怎么做能得到更多零食，也就是学会了最优行为。强
QwQ-32B企业级本地部署：结合XInference与Open-WebUI使用大势下的牛马搭建本地gpt RAG 知识库人工智能 QwQ-32B
QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型，拥有320亿参数，基于Transformer架构，采用大规模强化学习方法训练而成。它在数学推理、编程等复杂问题解决任务上表现出色，性能可媲美拥有6710亿参数的DeepSeek-R1。QwQ-32B在多个基准测试中表现出色，例如在AIME24基准上，其数学问题解决能力得分达到79.5，超过OpenAI的o1-mini。它在LiveBench、
LLM Weekly（2025.03.03-03.09） UnknownBody LLM Daily LLM Weekly 语言模型人工智能
网络新闻QwQ-32B：拥抱强化学习的力量。研究人员推出了QwQ-32B，这是一个拥有320亿参数的模型，它利用强化学习来提升推理能力。尽管参数较少，但通过整合类似智能体的推理和反馈机制，QwQ-32B的表现可与更大规模的模型相媲美。该模型可在HuggingFace平台上获取。**人工智能领域的先驱安德鲁·巴托（AndrewBarto）和理查德·萨顿（RichardSutton）因对强化学习的开创
Chebykan wx 文章阅读やっはろ深度学习
文献筛选[1]神经网络：全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]强化学习：一项调查[10]使用PySR和SymbolicRegression.jl的科学可解释机器学习[11]Z.Liu,Y.Wang,S.Vaidya,F
用物理信息神经网络（PINN）解决实际优化问题：全面解析与实践青橘MATLAB学习深度学习网络设计人工智能深度学习物理信息神经网络强化学习
摘要本文系统介绍了物理信息神经网络（PINN）在解决实际优化问题中的创新应用。通过将物理定律与神经网络深度融合，PINN在摆的倒立控制、最短时间路径规划及航天器借力飞行轨道设计等复杂任务中展现出显著优势。实验表明，PINN相比传统数值方法及强化学习（RL）/遗传算法（GA），在收敛速度、解的稳定性及物理保真度上均实现突破性提升。关键词：物理信息神经网络；优化任务；深度学习；强化学习；航天器轨道一、
django allauth 自定义登录界面 waterHBO django python django 数据库 sqlite python 笔记经验分享
起因，目的:为什么前几天还在写强化学习，今天又写django,问就是：客户需求>个人兴趣。问题来源：allauth默认的登录界面不好看，这里记录几个问题。1.注册页面SignUp这里增加，手机号，邮编等等。2.使用谷歌来登录这个步骤其实也简单。xxxxxxxx一定要修改关键的信息，不能随便暴露给别人。xxxxxxxx#HowtouseGoogleLogin.1.createsuperuser.(m
人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他