strawberry47

EasyRL 强化学习笔记 3、4章节（表格型方法，策略梯度）

本文转载于EasyRL。我是在阅读过程中从中摘录了一些重点，强烈建议大家阅读原文哦！写的超级细，而且在下面留言很快就会有回复。

文章目录

第三章表格型方法
- MDP
- - model-based
  - model-free
- Q-table
- Model-free Prediction
- - Monte-Carlo
  - Temporal Difference
  - Bootstrapping and Sampling for DP, MC and TD
- Model-free Control
- - Sarsa: On-policy TD Control
  - - n-step Sarsa:
  - Q-learning: Off-policy TD Control
- On-policy vs. Off-policy
- value-based vs. policy-based
- DP vs. MC vs. TD
- 总结
使用Q-learning解决悬崖寻路问题
MC代码
TD 代码
第四章策略梯度
- tips
- - Add a baseline：
  - assign suitable credit：
  - Advantage function：
- REINFORCE: Monte Carlo Policy Gradient
自己的思考：

第三章表格型方法

MDP

MDP四元组 $< S, A, P, R >$ （有时候也会加上 $\gamma$ 变成五元组）。
RL是一个序列决策过程

model-based

model-based(有模型) RL agent，它通过学习这个状态的转移
我们跟环境交互，只能走完整的一条通路。这里面产生了一系列的一个决策的过程，就是我们跟环境交互产生了一个经验。我们会使用 概率函数(probability function)和 奖励函数(reward function)来去描述环境。概率函数就是状态转移的概率，概率函数实际上反映的是环境的一个随机性。
如果知道这些状态转移概率和奖励函数的话，我们就说这个环境是已知的，因为我们是用这两个函数去描述环境的

model-free

model-free(免模型) RL agent，我们是处在一个未知的环境里的，也就是这一系列的决策的概率函数和奖励函数是未知的，这就是 model-based 跟 model-free 的一个最大的区别。
agent 跟环境进行交互，采集到很多的轨迹数据，agent 从轨迹中获取信息来改进策略，从而获得更多的奖励。
可以用价值函数$V(s)$来代表这个状态的好坏。
用Q函数判断做何种action能拿到最大奖励。

Q-table

Q表格存储的是，在状态s时采取动作a，后续得到的价值（未来总收益）。行数为所有的状态数量，列数代表action数量。
Q值并不是reward！我们一般会从当前状态开始，把后续有可能会收到所有收益加起来计算当前动作的 Q 的价值，让 Q 的价值可以真正地代表当前这个状态下，动作的真正的价值。
对于持续型任务，我们一般引入衰减因子 $\gamma$ ，使得越往后的收益对当前Q值的影响越小。
$\gamma=0$ 代表只考虑单步收益（Q值=reward）， $\gamma=1$ 代表把后续所有收益都加起来
最开始这张 Q 表格会全部初始化为零，然后 agent 会不断地去和环境交互得到不同的轨迹，当交互的次数足够多的时候，我们就可以估算出每一个状态下，每个行动的平均总收益去更新这个 Q 表格。
强化（更新表格）就是我们可以用下一个状态的价值来更新当前状态的价值，其实就是强化学习里面 bootstrapping(自举) 的概念。在强化学习里面，你可以每走一步更新一下 Q 表格，然后用下一个状态的 Q 值来更新这个状态的 Q 值，这种单步更新的方法叫做时序差分。（还有蒙特卡洛方法）

百度了一下boostrapping：利用有限的样本资料经由多次重复抽样，重新建立起足以代表母体样本分布的新样本。有点“有放回抽样”的味道。
但是这个地方的boostrapping指的是：基于之前估计的量来估计一个量。

Model-free Prediction

Monte-Carlo

蒙特卡罗(Monte-Carlo，MC)方法是基于采样的方法：让agent跟环境进行交互，可以得到很多轨迹以及对应的return（累计回报），将这些return取平均，就是当前state对应的价值。

大数定律：在实验次数足够多的情况下，频率就会非常接近概率。

MC 是用 经验平均回报(empirical mean return)的方法来估计。
MC 方法不需要 MDP 的转移函数和奖励函数，并且不需要像动态规划那样用 bootstrapping 的方法。因为MC是一种model-free的方法！
MC 的局限性：只能用在有终止的 MDP 。

DP与MC的差异：

动态规划也是常用的估计价值函数的方法。在动态规划里面，我们使用了 bootstrapping 的思想。
DP 就是用 Bellman expectation backup (1)，就是通过上一时刻的值 $v_{i-1}(s')$ 来更新当前时刻 $v_i(s)$ 这个值，不停迭代，最后可以收敛。Bellman expectation backup 就有两层加和，内部加和和外部加和，算了两次 expectation，得到了一个更新。
$\mathrm{v}_{\mathrm{t}+1}(\mathrm{~s})=\sum_{\mathrm{a} \in \mathcal{A}} \pi(\mathrm{a} \mid \mathrm{s})\left(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathcal{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}_{\mathrm{t}}\left(\mathrm{s}^{\prime}\right)\right)$ (1)

贝尔曼方程（Bellman Equation）也被称作动态规划方程（Dynamic Programming Equation），由理查·贝尔曼（Richard Bellman）发现。（由下一个时刻的值更新上一个时刻的值）

MC 可以在不知道环境的情况下 work，而 DP 是 model-based。
MC 只需要更新一条轨迹的状态，而 DP 则是需要更新所有的状态。状态数量很多的时候（比如一百万个，两百万个），DP 这样去迭代的话，速度是非常慢的。这也是 sample-based 的方法 MC 相对于 DP 的优势。

Temporal Difference

斯坦福大学做的一个动画

小栗子：每次摇铃后就给狗狗喂食物，久而久之，一摇铃狗狗就会流口水。巴普洛夫效应揭示的是中性刺激(铃声)跟无条件刺激(食物)紧紧挨着反复出现的时候，中性刺激也可以引起无条件刺激引起的唾液分泌，然后形成条件刺激。
这种中性刺激跟无条件刺激在时间上面的结合，我们就称之为强化。 （不断重复实验后，下一个状态的价值，会不断强化上一个状态的价值）

TD是介于MC与DP之间的方法。
属于model-free，即不需要MDP的转移矩阵和奖励函数。
可以从不完整的episode中学习，结合了bootstrapping的思想
目的：对于某个给定的策略，在线(online)地算出它的价值函数，即一步一步地(step-by-step)算。用估计回报去更新上一时刻的值。
TD target（估计回报）由两部分组成：① 走了某一步后得到的实际奖励 ② $\gamma$ $V(s_{t+1})$
具体公式：
$\begin{aligned} \mathrm{v}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right]+\gamma \mathbb{E}\left[\mathrm{R}_{\mathrm{t}+2}+\gamma \mathrm{R}_{\mathrm{t}+3}+\gamma^{2} \mathrm{R}_{\mathrm{t}+4}+\ldots \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathrm{R}(\mathrm{s})+\gamma \mathbb{E}\left[\mathrm{G}_{\mathrm{t}+1} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathrm{R}(\mathrm{s})+\gamma \mathbb{E}\left[\mathrm{v}\left(\mathrm{s}_{\mathrm{t}+1}\right) \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}$

MC vs TD：

MC中的 $G_t$ 是实际得到的值（target），因为它把一条轨迹走完了（必须等到游戏结束才行）。TD可以在线学习，不用等到等轨迹结束就更新价值函数。
TD可以从不完整的序列中学习，MC不行。
TD可以在连续环境下学习，TD只能在有终止的情况下学习、
TD利用了马尔科夫性质，MC没有用到。

TD 是指在不清楚马尔可夫状态转移概率的情况下，以采样的方式得到不完整的状态序列，估计某状态在该状态序列完整后可能得到的收益，并通过不断地采样持续更新价值。相对来说更灵活、快速。

MC 则需要经历完整的状态序列后，再来更新状态的真实价值。

前面的例子是TD(0)，即只走一步。我们可以调整step进行扩展。
调整步数相当于是MC和TD之间的trade-off，n为正无穷时，变成了MC

Bootstrapping and Sampling for DP, MC and TD

Bootstrapping：更新时用到了估计

MC 没用 bootstrapping，因为它是根据实际的 return 来更新。
DP 用了 bootstrapping。
TD 用了 bootstrapping。

Sampling：更新时通过采样得到一个期望

MC 是纯 sampling 的方法。
DP 没有用 sampling，它是直接用 Bellman expectation equation 来更新状态价值的。
TD 用了 sampling。TD target 由两部分组成，一部分是 sampling，一部分是 bootstrapping。

DP 是直接算 expectation，把它所有相关的状态都进行加和。

MC 在当前状态下，采一个支路，在一个path 上进行更新，更新这个 path 上的所有状态。

TD 是从当前状态开始，往前走了一步，关注的是非常局部的步骤。

Model-free Control

Q: 当我们不知道 MDP 模型情况下，如何优化价值函数，得到最佳的策略？

A: 我们可以把 policy iteration 进行一个广义的推广，使它能够兼容 MC 和 TD 的方法，即 ·Generalized Policy Iteration(GPI) with MC and TD。

Policy iteration 由两个步骤组成：

根据给定的当前的 policy π 来估计价值函数；
得到估计的价值函数后，通过 greedy 的方法来改进它的算法。

这两个步骤是一个互相迭代的过程。

算法核心：如何用 MC 方法来填 Q-table。

带 $\varepsilon$ greedy 探索的 MC 算法的伪代码。

与 MC 相比，TD 有如下几个优势：

低方差。
能够在线学习。
能够从不完整的序列学习。

偏差(bias)：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如上图第二行所示。
方差(variance)：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如上图右列所示。

Sarsa: On-policy TD Control

将原本使用TD更新V的过程变成更新Q，图上讲的很明白了~

该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action)，即 $S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})$ 这几个值，由此得名 Sarsa 算法。它走了一步之后，拿到了 $S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})$ 之后，就可以做一次更新。

n-step Sarsa:

刚刚那个是单步更新，还可以采用n步更新或者回合更新，即在执行 n 步之后再来更新价值和策略，这样就得到了n 步 Sarsa(n-step Sarsa)。
给 $q_t^{(n)}$ 加上衰减因子 $\lambda$ 就变成了Sarsa( $\lambda$ )。
$\mathrm{Q}\left(\mathrm{S}_{\mathrm{t}}, \mathrm{A}_{\mathrm{t}}\right) \leftarrow \mathrm{Q}\left(\mathrm{S}_{\mathrm{t}}, \mathrm{A}_{\mathrm{t}}\right)+\alpha\left(\mathrm{q}_{\mathrm{t}}^{\lambda}-\mathrm{Q}\left(\mathrm{S}_{\mathrm{t}}, \mathrm{A}_{\mathrm{t}}\right)\right)$

Q-learning: Off-policy TD Control

Sarsa 是一种 on-policy 策略。Sarsa 优化的是它实际执行的策略，它直接拿下一步会执行的 action 来去优化 Q 表格，所以 on-policy 在学习的过程中，只存在一种策略，它用一种策略去做 action 的选取，也用一种策略去做优化。

而 off-policy 在学习的过程中，有两种不同的策略:

第一个策略是我们需要去学习的策略，即target policy(目标策略)，一般用 $\pi$ 来表示，Target policy 就像是在后方指挥战术的一个军师，它可以根据自己的经验来学习最优的策略，不需要去和环境交互。
另外一个策略是探索环境的策略，即behavior policy(行为策略)，一般用 $u$ 来表示。 $μ$ 可以大胆地去探索到所有可能的轨迹，采集轨迹，采集数据，然后把采集到的数据喂给 target policy 去学习。而且喂给目标策略的数据中并不需要 $A_{t+1}$ ，而 Sarsa 是要有 $A_{t+1}$ 的。Behavior policy 像是一个战士，可以在环境里面探索所有的动作、轨迹和经验，然后把这些经验交给目标策略去学习。比如目标策略优化的时候，Q-learning 不会管你下一步去往哪里探索，它就只选收益最大的策略。

Off-policy 优点：

我们可以利用 exploratory policy 来学到一个最佳的策略，学习效率高；
可以让我们学习其他 agent 的行为，模仿学习，学习人或者其他 agent 产生的轨迹；
重用老的策略产生的轨迹。探索过程需要很多计算资源，这样的话，可以节省资源。

目标网络取能达到最大Q值的action，行为网络一般用 $\varepsilon$ -greedy。

Q-learning 是 off-policy 的时序差分学习方法，Sarsa 是 on-policy 的时序差分学习方法。
二者的更新公式都是一样的，只是target计算部分不太一样。Sarsa是Q-learning的改进。
在训练一个 episode 这个流程图当中，Q-learning 在 learn 之前它也不需要去拿到 next action $A^{'}$ ，它只需要前面四个 $(S, A, R, S^{'})$ ，这跟 Sarsa （需要知道下一个action，Q-learning根据s’找到max Q对应的action）很不一样。

On-policy vs. Off-policy

根本区别：生成样本的policy和参数更新时的policy是否相同。

on-policy：只使用了一个policy $\pi$ ，既要学习又要与环境交互。会比较胆小。
off-policy：有两种策略 target policy 和 behavior policy。
Q-learning是典型的off-policy算法，非常激进；Sarsa是典型的on-policy算法，会更保守。

value-based vs. policy-based

生成policy上的差异：前者确定，后者随机。action-value会收敛到对应的true value，通常会获得一个确定的策略；而policy-based不会收敛到一个确定的值，倾向于生成optimal stochastic policy。
动作空间是否连续，前者离散，后者连续。
value-based，例如Q-learning，是通过求解最优值函数间接的求解最优策略；policy-based，例如REINFORCE，Monte-Carlo Policy Gradient，等方法直接将策略参数化，通过策略搜索，策略梯度或者进化方法来更新策略的参数以最大化回报。基于值函数的方法不易扩展到连续动作空间，并且当同时采用非线性近似、自举（bootstrapping）和离策略时会有收敛性问题。策略梯度具有良好的收敛性证明。

DP vs. MC vs. TD

相同点：都用于进行值函数的描述与更新，并且所有方法都是基于对未来事件的展望来计算一个回溯值。
不同点：

蒙特卡洛和TD算法隶属于model-free，而动态规划属于model-based；TD算法和蒙特卡洛的方法，因为都是基于model-free的方法，因而对于后续状态的获知也都是基于试验的方法；TD算法和动态规划的策略评估，都能基于当前状态的下一步预测情况来得到对于当前状态的值函数的更新。
TD算法不需要等到实验结束后才能进行当前状态的值函数的计算与更新，而蒙特卡洛的方法需要试验交互，产生一整条的马尔科夫链并直到最终状态才能进行更新。TD算法和动态规划的策略评估不同之处为model-free和model-based ，动态规划可以凭借已知转移概率就能推断出来后续的状态情况，而TD只能借助试验才能知道。
蒙特卡洛方法和TD方法的不同在于，蒙特卡洛方法进行完整的采样来获取了长期的回报值，因而在价值估计上会有着更小的偏差，但是也正因为收集了完整的信息，所以价值的方差会更大，原因在于毕竟基于试验的采样得到，和真实的分布还是有差距，不充足的交互导致的较大方差。而TD算法与其相反，因为只考虑了前一步的回报值其他都是基于之前的估计值，因而估计具有偏差大但方差较小。
三者的联系：对于TD( $\lambda$ )方法，如果 $\lambda = 0$ ，那么此时等价于TD，即只考虑下一个状态；如果 $\lambda = 1$ ，等价于MC，即考虑 T−1 个后续状态即到整个episode序列结束。

总结

在这里在这里

使用Q-learning解决悬崖寻路问题

代码链接在这里

np.random.uniform(a,b) 其中a是下界，b是上界; 表示从一个均匀分布[a,b)中随机采样。
np.random.choice(a)介于给出的数组a，随机选择一个值。
self.Q_table = defaultdict(lambda: np.zeros(action_dim)) 初始化Q表，这里有点看不明白。更新self.Q_table[str(state)][action] += self.lr * (Q_target - Q_predict)
next(iterable[, default])返回迭代器的下一个项目。

MC代码

维护一个Q_table，玩完一整个游戏后，利用one_ep_transition更新Q表格（计算average return）。

self.Q_table[state][action] = self.returns_sum[sa_pair] / self.returns_count[sa_pair]

choose_action时，e-greed策略，随机选 or np.argmax(self.Q_table[state])

TD 代码

有actor actor_target和critic critic_target（怎么和DDPG一样了？？）
训练时，刚开始是随机采样action，等采样到一定数量后再使用choose_action（self.actor(state)），所有训练数据都存在buffer中哦。
是单步更新哦！也就是，玩一次就更新一次！计算next_action（actor_target算的）时加入了noise，利用两个critic计算Q
critic_loss = F.mse_loss(current_Q1, target_Q) + F.mse_loss(current_Q2, target_Q)

第四章策略梯度

RL中的环境和奖励我们无法控制，只能调整actor的策略，使其获得最大的奖励。
策略policy就是一个网络，输入当前状态输出要采取的行为分布（每个行为的概率）。
$\begin{aligned} \mathrm{p}_{\theta}(\tau) &=\mathrm{p}\left(\mathrm{s}_{1}\right) \mathrm{p}_{\theta}\left(\mathrm{a}_{1} \mid \mathrm{s}_{1}\right) \mathrm{p}\left(\mathrm{s}_{2} \mid \mathrm{s}_{1}, \mathrm{a}_{1}\right) \mathrm{p}_{\theta}\left(\mathrm{a}_{2} \mid \mathrm{s}_{2}\right) \mathrm{p}\left(\mathrm{s}_{3} \mid \mathrm{s}_{2}, \mathrm{a}_{2}\right) \cdots \\ &=\mathrm{p}\left(\mathrm{s}_{1}\right) \prod_{\mathrm{t}=1}^{\mathrm{T}} \mathrm{p}_{\theta}\left(\mathrm{a}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}\right) \mathrm{p}\left(\mathrm{s}_{\mathrm{t}+1} \mid \mathrm{s}_{\mathrm{t}}, \mathrm{a}_{\mathrm{t}}\right) \end{aligned}$
轨迹出现的概率，取决于环境的行为 $p(s_{t+1}|s_t,a_t)$ （不可控的）和agent的行为 $p_{\theta}(a_t|s_t)$ （可控的）。
奖励函数(reward function)：根据s和a，给出r。 $R(\tau)$ 代表一个轨迹 $\tau$ 的奖励
一场游戏称作episode或trial，这场游戏的所有奖励total reward 我们称为return，我们的目标是通过调整参数，最大化R。
环境输出的s和演员输出的行为a串起来，称为trajectory（轨迹）。
目的：最大化期望奖励；使用梯度上升；（就是根据reward function的公式，一步一步推出来的）

① 某一个轨迹 $\tau$ 出现的概率 * 这个 $\tau$ 的总奖励
② 最大化期望奖励->梯度上升，需要对R取梯度，根据公式噼里啪啦就得到了最终更新公式。
③ 含义：增加正奖励对应的 action的概率。
④ 流程：每一轮游戏，都需要记录下 $s$ , $a$ , $R(\tau)$ (由 $r$ 算出来的)，然后进行更新。更新之后，需要重新收集数据…

tips

Add a baseline：

如果奖励多数都是正的，没有负的，那么模型会提升所有动作的概率

仅仅通过正则化不能解决这个问题，因为总有一些action是没有采样到的，可是其他action的概率都上升了，它就落后了哦，但它有可能是好的action呀。因此，不要让reward一直是正的就好了呢！
baseline取值：可以取平均 $E[R(\tau)]$

assign suitable credit：

给每一个动作合适的分数(credit)。

假设整场游戏的结果是好的，并不代表这个游戏里面每一个行为都是对的。若是整场游戏结果不好，但不代表游戏里面的所有行为都是错的。
给不同action前乘上不同权重。每一个动作的不同权重，它反映了每一个动作到底是好还是不好。
做法：计算这个对的奖励的时候，不把整场游戏得到的奖励全部加起来，只计算从这一个动作执行以后所得到的奖励，并且加上Discounted Return。（ $\gamma=0$ ：只关心即时奖励； $\gamma=1$ ：未来奖励和即时奖励一样）

Advantage function：

相当于综合上述tips

$R - b$ 可以称作优势函数(advantage function)，含义是：在 $s_t$ 执行 $a_t$ ，相对于其他动作，有多好，相对优势(relative advantage)。
可以通过network estimate算出来，这个network称为critic。

REINFORCE: Monte Carlo Policy Gradient

MC ：算法完成一个回合之后，再拿这个回合的数据来去 learn 一下，做一次更新。
一整个episode下来，能够计算每个步骤的未来总收益 $G_t$ 。
区：时序差分TD 每个步骤都更新一下，使用Q-function近似表示未来总收益。

REINFORCE:（基于策略梯度的强化学习的经典算法）

采用回合更新。
先拿到每个步骤的奖励，然后计算每个步骤的未来总收益 $G_t$ ，代入公式，优化每个动作的输出。

自己的思考：

model-free 和 model-based：二者区别在于是否知道“状态转移概率”，model-free不知道，只能在真实环境中等待。model-based可以通过建立environment。
MDP和强化学习的关系，强化学习都要建模为MDP吗？MDP代表的是一类过程，RL是一个算法；是的，都要这样建模哦。
IRS有没有不用强化学习的方法解决的呢？目前都是哦
关于马尔科夫性质的理解？

马尔科夫性：某一个过程未来的转移跟过去是无关，只由现在的状态决定。意思就是说 $S_{t+1}$ 仅与 $S_{t}$ 有关，与 $S_{t-1}$ …都无关。可是， $S_{t}$ 和 $S_{t-1}$ 是有关的呀， $S_{t-1}$ 又和 $S_{t-2}$ 有关。那这样的话， $KaTeX parse error: Expected '}', got 'EOF' at end of input: S_{t+1$ 就与历史状态都有关了啊？
A：马尔科夫性指的是“转移概率”： $P(s_t|s_{t-1})$ 。当前的状态是与历史状态有关的，不过要得到当前状态 $s_t$ ，只需要知道 $s_{t-1}$ 就够了。（状态转移概率具有马尔科夫性：系统下一时刻的状态仅由当前时刻的状态决定，不依赖于以往任何状态）

MDP与RL的关系？
A： MDP描述的是一个过程（process）RL是一个算法。目前来说，RL问题都会建模为MDP。
model-free与model-based：model-based 相当于对环境转移概率的建模（比如常见的environment simulator）；例子：① model-free 比如我用Q-learning的思想，我只能估计你在状态S的预估值 $V (S)$ 是多少，但我不知道我给了一个动作 $a$ 后，环境会怎么变动。我们给一个动作 $a$ 后，我们要等，要等！环境给出一个真实的 $S^{'}$ 后，我们才能估计下一步 $V (S^{'})$ ② model-based，我们建模了环境，特指：我们想象，在环境 $S$ 下，当我们做出动作 $a$ 后，它会（以多大概率）转移到状态 $S_1$ , $S_2$ , $S_3$ ，我们在S1,2,3处都有 $V(S_1)$ , $V(S_2)$ , $V(S_3)$ ,。于是这可以帮助我们更好的决策要不要做动作 $a$ 。（模拟出用户、生成用户的，都能叫model-based）

你可能感兴趣的:(强化学习,学习笔记,强化学习)

【C++基础学习笔记】C++的输入输出流及缺省参数大家好我叫张同学深入浅出学习C++c++
我要做一个好奇宝宝，带着疑问来阅读，哼~C++如何进行输入输出？和C语言何有区别？C++的缺省参数是什么？如何理解和掌握？文章目录C++的输入&输出缺省参数缺省参数的概念缺省参数的分类1.全缺省参数2.半缺省参数：C++的输入&输出婴儿降生到这个世界上时，会以自己独特的方式向这个崭新的世界打招呼。跟新生婴儿类似，C++语言刚出来后，也算是一个新事物，作为一门新的编程语言也会有自己问候这个美好世界的
快速从C过度C++（一）：namespace，C++的输入和输出，缺省参数，函数重载愚润泽 C++学习笔记 c++开发语言 c语言
前言：本文章适合有一定C语言编程基础的读者浏览，主要介绍从C语言到C++过度，我们首先要掌握的一些基础知识，以便于我们快速进入C++的学习，为后面的学习打下基础。这篇文章的主要内容有：1，命名空间namespace2，C++的输入和输出3，缺省参数4，函数重载个人简介：努力学习ing个人专栏：C++学习笔记CSDN主页愚润求学其他专栏：C语言入门基础，python入门基础，python刷题专栏快速
LLM Weekly（2025.02.17-02.23） UnknownBody LLM Daily LLM Weekly 人工智能自然语言处理
本文是LLM系列文章，主要是针对2025.02.17-02.23这一周的LLM相关新闻与文章、GitHub资源分享。网络新闻Grok3Beta——推理代理的时代。Grok发布了Grok3Beta，通过强化学习、扩展计算和多模态理解提供卓越的推理能力。Grok3和Grok3mini在学术基准上取得了高分，其中Grok3在AIME’25上获得了93.3%的分数。Grok3的推理可通过“思考”按钮访问，
学习笔记11——并发编程之并发关键字码代码的小仙女高级开发必备技能开发语言 java
并发关键字synchronized关键字在应用Sychronized关键字时需要把握如下注意点：1.一把锁只能同时被一个线程获取，没有获得锁的线程只能等待；2.每个实例都对应有自己的一把锁(this),不同实例之间互不影响；例外：锁对象是*.class以及synchronized修饰的是static方法的时候，所有对象公用同一把锁3.synchronized修饰的方法，无论方法正常执行完毕还是抛出
2024年HarmonyOS鸿蒙最全HarmonyOS Next 自定义路由栈管理_navpathstack，2024年最新销售应届毕业生的面试题 2401_84870988 程序员鸿蒙面试学习
深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上鸿蒙开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化的资料的朋
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
大话机器学习三大门派：监督、无监督与强化学习安意诚Matrix 机器学习笔记机器学习人工智能
以武侠江湖为隐喻，系统阐述了机器学习的三大范式：监督学习（少林派）凭借标注数据精准建模，擅长图像分类等预测任务；无监督学习（逍遥派）通过数据自组织发现隐藏规律，在生成对抗网络（GAN）等场景大放异彩；强化学习（明教）依托动态环境交互优化策略，驱动AlphaGo、自动驾驶等突破性应用。文章融合技术深度与江湖趣味，既解析了CNN、PCA、Q-learning等核心算法的"武功心法"（数学公式与代码实现
ts学习笔记江小年 go 笔记
TypeScript本文引用枫枫知道不做商用，仅用于学习枫枫知道可以购买枫枫知道的课程安装node建议下载长期维护版安装之后把node加入环境变量命令行输入node-vnpm-vnpm就是node里面安装第三方包的工具，相当于pip安装tsc它的作用就是将ts文件编译为js文件//.ts=>.jsnpmitypescript-gtsc-vtsc--init//生成一个json文件tsc//会编译项
Gin学习笔记江小年 go gin 学习笔记
RESTfulAPI以前写网站get/userpost/create_userpost/update_userpost/delete_userRESTfulAPIget/user获取post/user新建put/user更新patch/user更新部分delete/user删除REST与技术无关，代表的是一种软件架构风格，只要API程序遵循了REST风格，那就可以称其为RESTfulAPIREST
Unity入门学习笔记（Day01） Alika-snowr unity学习 unity 学习笔记
一.认识unity工作面板1.1.projectwindow（项目面板）显示当前项目中的所有文件和目录，包含了项目里面所有的资源文件1.2.consolewindow（输出面板）显示当前游戏开发中生成的警告错误1.3.hierarchywindow（层次面板）也称为场景面板，显示当前的场景中所有游戏游戏对象，并显示父子级关系；我们说开发的游戏是由一个一个的场景组成的（类型与拍戏的场次场景）游戏物体
Etcd学习笔记江小年 etcd 学习笔记
etcd的介绍与安装主要用于微服务的配置中心和服务发现，数据可靠性比redis更强在对外api的应用中，如何知道order服务的rpc地址？如果服务的ip地址变化了怎么办？在传统的配置文件模式，修改配置文件，应用程序是需要重启才能解决的，所以引入etcdwindows安装etcd-v3.5.16-windows-amd64.zipdocker安装dockerrun--nameetcd-d-p237
Pyhton网络编程_UDP_TCP(IP地址--端口--socket编程) Felix-微信(Felixzfb) 网络编程 TCP UDP
Python高级语法——网络编程——进阶学习笔记项目中案例参考：https://github.com/FangbaiZhang/Python_advanced_learning/tree/master/03_Python_network_programming1网络通信使用网络能够把多方链接在一起，然后可以进行数据传递所谓的网络编程就是，让在不同的电脑上的软件能够进行数据传递，即进程之间的通信1.
Stm32学习笔记2-中断系统-对射式红外传感器计次 Anon_Tokoyo stm32 学习笔记
一.中断系统：1.中断条件：当主程序运行时，出现了特点的中断条件，此时程序暂停运行当前直到处理完中断程序后再继续执行操作。2.中断优先级：当有多个中断时，cpu会根据中断轻重优先选择加急的中断程序。3.参考nvic基本结构：可以看出stm32中的许多外设像EXTI、TIM等都有中断通道。通过NVIC统一管理。经过NVIC裁决后可向中断CPU当前程序转而执行这些外设的中断程序。二.EXTI外设：1.
JavaScript学习笔记一跨界科技汇前端 javascript 学习笔记
web三大标准：HTML(结构)+CSS（样式）+JavaScript(行为)JavaScript的作用：动态效果+数据交互编程语言编程让计算机为解决某个问题而使用某种程序设计语言编写程序代码，最终得到结果是什么？世界上最流行的语言之一，是一种运行在客户端的脚本语言脚本语言不需要编译，运行过程中由**js解析器(js引擎)**逐行来进行解释并执行现在也可以基于Node.js技术来进行服务器端编程作
【5】单调队列学习笔记 W9095 学习笔记 c++算法
前言鸽了很久，2023/1/52023/1/52023/1/5开始，2023/1/212023/1/212023/1/21才完工。中途去集训了，没时间来补漏洞。单调队列单调队列是一种非常实用的数据结构，可以用于查询一个定长区间在以一定速度向后滑动，并查询区间内最值的问题（具体见例题111）。时间复杂度非常低，总体是O(n)O(n)O(n)，均摊到每个元素是O(1)O(1)O(1)，所以常用来优化其
侯捷 C++ 课程学习笔记：C++面向对象开发『六哥』 C++学习笔记
学习C++面向对象开发需要具备一些基础。学习过某种proceduurallanguage（C语言最佳）了解变量（variables）、类型（types）、作用域（scope）、循环（loops）、流程控制。知道一个程序需要编译才能被执行。以良好的方式编写C++class是一种基于对象（ObjectBased）classwithoutpointermembers——Complex带指针classwi
使用DeepSeek来构建LangGraph Agent 乔巴先生24 人工智能 python 人机交互
随着DeepseekR1的发布，我们不得不把目光聚焦在这个能赶超多个顶流大模型的模型身上，它主要是其在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAIo1正式版。为了更好的了解它的性能，我们这篇文章来尝试用它来构建Agent。安装!pipinstall-qopenailangchainlanggraph
当深度学习遇见禅宗：用东方智慧重新诠释DQN算法带上一无所知的我智能体的自我修炼：强化学习指南深度学习算法人工智能 DQN
当深度学习遇见禅宗：用东方智慧重新诠释DQN算法“好的代码如同山水画，既要工笔细描，又要留白写意”——一个在终端前顿悟的开发者DQN是Q-Learning算法与深度神经网络的结合体，通过神经网络近似Q值函数，解决传统Q-Learning在高维状态空间下的"维度灾难"问题。引言：代码与禅的碰撞♂️在某个调试代码到凌晨三点的夜晚，我突然意识到：强化学习的过程，竟与佛家修行惊人地相似。智能体在环境中探索
Linux学习笔记--shell脚本（二）运维派C shell脚本学习 Linux shell脚本
20.1什么是shell脚本shell脚本并不能作为正式的编程语言，因为它是在linux的shell中运行的，所以称为shell脚本。事实上，shell脚本就是一些命令的集合。假如完成某个需求需要一口气输入10条命令，对于简单的命令，我们可以直接在shell窗口中输入，但如果是比较长且复杂的命令，一次一次敲就会显得很麻烦。我们可以把这10条命令都记录到一个文档中，然后去调用文档中的命令，这样就能一
sqlite3 学习笔记某风吾起 work sqlite 学习笔记
文章目录前言SQL的概念与表格相关的操作i.创建表格（增）ii删除表格（删）iii更改表格（改）iv查询表格（查）与记录相关的操作i插入记录ii删除记录iii查询记录iv修改记录Linux中使用sqlite3前言SQLite，是一款轻型的数据库，是遵守ACID的关系型数据库管理系统。SQLite非常适合用于嵌入式系统、物联网设备、移动应用程序和客户端应用程序，它不需要服务器，简单易用。SQL的概念
Datawhale AI夏令营第四期 AIGC方向 task02学习笔记流火_授衣 AI 人工智能 AIGC 学习
探探前沿：了解一下AI生图技术的能力&局限今天我们的任务是对baseline的代码有一个更加细致的理解，然后我们会学习如何借助AI来提升我们的自学习能力，从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔，你可以从中学大模型的提问技巧来实现快速学习，学会如何制作一个话剧连环画。‘自其不变者而观之，则物与我皆无尽也’，拥抱AI、学习AI、运用AI解决各种变化的问题，一起加油！！
UDP学习笔记（一）为什么UDP需要先将数据转换为字节数组居然是阿宋 udp android kotlin
UDP发送数据时需要先将数据转换为字节数组再发送，主要是因为计算机网络传输的最基本单位是“字节”（Byte）。让我们从以下几个方面来深入理解这个设计选择：1.计算机网络只能传输“字节”在网络通信中，无论是TCP还是UDP，最终传输的都是二进制数据。计算机不能直接传输字符串、整数或对象，而是需要转换为字节数组。示例：发送字符串"Hello"valdata="Hello".toByteArray()/
FPGA学习笔记（二）Verilog语法初步学习(语法篇1) 贾saisai FPGA学习 fpga开发学习 1024程序员节
FPGA系列文章目录一、FPGA学习笔记（一）入门背景、软件及时钟约束二、FPGA学习笔记（二）Verilog语法初步学习(语法篇1)三、FPGA学习笔记（三）流水灯入门FPGA设计流程四、FPGA学习笔记（四）通过数码管学习顶层模块和例化的编写五、FPGA学习笔记（五）Testbench（测试平台）文件编写进行Modelsim仿真六、FPGA学习笔记（六）Modelsim单独仿真和Quartus
【CMakeLists】学习笔记何故清风不知意学习笔记
编写CMakeLists.txt最常用的功能就是调用其他的头文件（*.h*.hpp）、动态链接库（*.so）、静态链接库（*.a），将源文件*.cpp*.c*.cc编译成目标可执行或目标可链接库文件。CMake是makefile的上层工具，用于跨平台构建环境，生成可移植的makefile，并简化自己动手写makefile时的巨大工作量。cmake安装--linuxsudoaptinstallcma
golang游戏开发学习笔记-开发一个简单的2D游戏(基础篇） 2401_86638887 golang 学习笔记
go-glexamplego-gl的示例代码二.基础概念这里涉及到的概念在之前的文章里基本上都有过介绍，不再赘述。不过大家有兴趣可以去看一看碰撞检测的一些算法实现三.依赖没有新增任何依赖四.资源准备我们创建的游戏世界里有两个地方需要用到纹理资源（贴图），一是组成世界的方块、二是游戏主角。由于方块是静态的，不需要动画效果，所以只需要一张贴图就可以了。而游戏主角则需要多张纹理图像来组成运动时的动画。要
element ui 中 Cascader 级联选择器实现动态加载动态禁用入门_cascader动态加载(2) 2401_84619606 程序员前端面试学习
专业技能一般来说，面试官会根据你的简历内容去提问，但是技术基础还有需要自己去准备分类，形成自己的知识体系的。简单列一下我自己遇到的一些题HTML+CSSJavaScript前端框架前端性能优化前端监控模块化+项目构建代码管理信息安全网络协议浏览器算法与数据结构团队管理开源分享：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】最近得空把之前遇到的面试题做了一个整理，包括我本人自己
数学建模：评价性模型学习——层次分析法（AHP模型）美肚鲨ccc matlab 矩阵数据分析算法
目录前言一、流程介绍二、模型实现1.构建层次结构2.构建判断矩阵1.对指标进行赋权2.建立判断矩阵3.层次单排序及一致性检验1、准则层2、方案层4、计算得分三、方法分析总结前言之前在课程作业上简单用过层次分析法，这次再系统性学习一遍，写一篇学习笔记！一、流程介绍构建层次结构构建判断矩阵计算权重、一致性检验计算得分得出结论二、模型实现1.构建层次结构探究以下五个城市的城市旅游竞争力排名：成都、杭州、
ElasticSearch学习笔记 --- 调研笔记知识点杨鑫newlfe 大数据挖掘与大数据应用案例搜索引擎
笔记总结知识点：1.安装ElasticSearch。2.ELasticSearch是使用Java开发并使用Lucene作为核心来实现所有索引和搜索的功能3.使用是通过简单的restfulAPI来使用。4.安装Marvel(ES的管理和监控)5.特点：分布式的实时文件存储，每个字段都被索引并可被搜索分布式的实时分析搜引擎可以扩展到上百台服务器，处理PB级机构化或非结构化数据6.集群是一组具有相同cl
TypeScript 学习笔记（十五）：TypeScript 与数据库的深度结合 Evaporator Core typescript 学习笔记
TypeScript学习笔记（十五）：TypeScript与数据库的深度结合1.引言在前几篇学习笔记中，我们探讨了TypeScript的基础知识、前后端框架的结合应用、测试与调试技巧、性能优化、前端架构设计以及TypeScript的工具和生态系统。本篇将重点介绍TypeScript与数据库的深度结合，包括如何使用TypeScript操作关系型数据库和非关系型数据库。2.TypeScript与关系型
大事件开发 - 前端学习笔记我只是什么都不会而已前端学习笔记
1.环境准备1.1创建Vue项目使用vite创建Vue3工程。目录结构调整，确保清晰的项目结构。1.2安装依赖npminstallaxioselement-plussassElement-Plus：UI组件库Axios：HTTP请求库Sass：CSS预处理器2.前后端连接（以注册功能为例）2.1搭建注册页面使用Element-Plus组件搭建注册表单。（就是前端一些样式和组件的代码可以从Eleme
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author cngolon@126.com * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本