WangMH_CHN

[整理] 理解各种 “熵”

通俗理解各种 "熵"

1. 自信息量
2. 联合信息熵与条件信息熵
- 2.1 联合信息熵
- 2.2 条件信息熵
- 2.3 熵的强可加性*
3. 互信息
- 3.1 互信息基本概念
- 3.2 互信息、信息熵和条件熵*
4. 交叉熵与相对熵
- 4.1 交叉熵
- 4.2 相对熵
- 4.3 JS散度

信息论最基本的概念是信息熵, 并在此基础上出现了多种 “熵”, 容易搞的晕乎乎的. 本文尝试整理各种熵的信息, 通俗讲解 “熵” 的概念.

在开始介绍 “熵” 这一概念前, 需要对信息量和信息熵进行一定的辨析. 香农运用概率提出了信息的度量, 信息是事物运动状态或者存在方式的不确定性的描述, 当一个事情的不确定性越大时, 所蕴含的信息量越大. 比如 “太阳从东边升起” 是一个确定性事件, 这件事本身是没什么信息量的. 但 “太阳从西边升起” 是一个不可能事件, 事情一旦发生, 其蕴含的信息量边无比巨大, 可能会颠覆人类先阶段大量的科学理论和技术成果. 对于一个系统, 可能会发生多个事件, 比如抽盲盒, 会抽到不同的盲盒款. 那么整个抽盲盒事件的信息量要怎么衡量呢? 最简单的方法就是把所有盲盒款的信息量加起来. 但是每个盲盒款出现的概率又不相同, 因此需要用加权的方式相加. “加权求和” 的过程就是求解 “期望” 的过程, 得到的结果便称为 “信息熵”. 信息熵是对系统信息量的度量, 它是一个信息量的期望. 通常, “信息熵” 的提及是在系统层面, 对事件的描述使用 “信息量”.

在展开说明各种 “熵” 之前, 需要了解最基本的熵的形式. 熵的构造并非香农拍脑袋决定的, 而是根据信息的基本假设, 一步步推导而得, 这是大名鼎鼎的 “信息熵唯一性定理”. 在这一定理中, 香农给出了满足基本假设的信息熵公式模型:
$H_{n}(p_1,...,p_n) = -\lambda \sum_{i=1}^{n}{p_i \log p_i}. \tag{1}$ 由于 $\lambda$ 是一个常数, 只影响所取的单位, 因此通常令 $\lambda = 1$ . 于是, 信息熵的公式可以得到:
$H_{n}(p_1,...,p_n) = - \sum_{i=1}^{n}{p_i \log p_i}. \tag{2}$ 所有的故事都从这一简单的公式产生. 公式 $(2)$ 中的 $p_i$ 是系统中第 $i$ 个事件 $x_i$ 发生的概率, 这可以看成是每个事件发生的固有属性. 这里需要强调的是, 事件发生的固有属性是在整个系统视角上确定的, 即事件发生的概率是在系统中发生的概率. 当把所有事件写成集合形式 $X = \{x_1, x_2, ..., x_n\}$ , $p (x)$ 指事件 $x$ 发生的概率时, 公式 $(2)$ 也表达成
$\sum_{i=1}^{n}{p(x_i) \log p(x_i)} = - \sum_{i=1}^{n}{p_i \log p_i}$

为了说明方便, 本文只介绍离散情景下的熵, 连续情景则是将求和号换成积分号. 部分带有*号的小节可以跳过, 不影响本文的阅读.

1. 自信息量

根据公式 $(2)$ , 信息熵可以写成
$H_{n}(p_1,...,p_n) = \sum_{i=1}^{n}{p_i \cdot \left(-\log p_i\right)}. \tag{3}$ 因此, 信息熵可以看成每个事件 $x_i$ 的某种属性的均值. 系统的总的信息量当然来自系统各组成的信息量. 所以这种属性就是系统中每个事件 $x_i$ 的信息量, 称为 “自信息量”. 记为
$I(x_i) = -\log p(x_i) = -\log p_i. \tag{4}$ 其中, $p (x)$ 指事件 $x$ 发生的概率.

此外, 也会出现考虑多个事件同时发生的场景, 这就有了联合概率. 联合概率 $p (x, y)$ 是指, 同时发生事件 $x$ 和 $y$ 的概率. 进一步推广到信息论中, 就有了联合自信息量. 同时发生事件 $x$ 和 $y$ 的信息量可以表示为:
$-\log p(x,y) . \tag{5}$

有时会考虑事件发生的前提, 因此有了条件概率. 条件概率 $p (x ∣ y)$ 是指在发生事件 $y$ 的前提下, 发生事件 $x$ 的概率. 从概率论上推广到信息论中, 就有了条件自信息量. 在发生事件 $y$ 的前提下, 发生事件 $x$ 的信息量为:
$-\log p(x|y) . \tag{6}$

可以看到, 系统中任何一个事件的自信息量都以公式 $(4)$ 获得.

2. 联合信息熵与条件信息熵

系统信息量通过信息熵度量, 它是一个信息量的期望结果. 系统信息熵可以通过公式 $(3)$ 获得, 这里不进行赘述. 本章要进一步阐释联合事件和条件事件下的信息熵.

2.1 联合信息熵

在第 1 节中知道, 联合自信息量可以通过公式 $(5)$ 获得. 在一个系统中, 如果有两个事件 $X 、 Y$ , 它们分别可以取值为:
$\begin{aligned} & X = \{x_1, x_2, ..., x_n\}, \\ & Y = \{y_1, y_2, ..., y_l\}. \\ \end{aligned}$ 于是同时发生事件 $X 、 Y$ 的信息熵可以表示为:
$\begin{aligned} H(X,Y) & = \sum_{x_i,y_j}{p(x_i,y_j) \log p(x_i,y_j)} \\ & = \sum^{n}_{i=1} \sum^{l}_{j=1} {p(x_i,y_j) \log p(x_i,y_j)}. \end{aligned} \tag{7}$ 于是, 称 $H (X, Y)$ 为发生事件 $X 、 Y$ 的联合信息熵.

2.2 条件信息熵

在第 1 节中可知, 条件自信息量通过公式 $(6)$ 获得, 条件信息熵就是每个条件事件发生的概率乘以其对应的自信息量的和. 事件 $x ∣ y$ 发生在整个系统视角上看, 是事件 $x$ 和 $y$ 同时发生, 因此其对应的发生概率为 $p (x, y)$ . 因此, 在系统中, 如果有两个事件 $X 、 Y$ , 它们分别可以取值为:
$\begin{aligned} & X = \{x_1, x_2, ..., x_n\}, \\ & Y = \{y_1, y_2, ..., y_l\}. \\ \end{aligned}$ 于是同时发生事件 $X ∣ Y$ 的信息熵就表示为:
$\begin{aligned} H(X|Y) & = \sum_{x_i,y_j}{p(x_i,y_j) \log p(x_i|y_j)} \\ & = \sum^{n}_{i=1} \sum^{l}_{j=1} {p(x_i,y_j) \log p(x_i|y_j)}. \end{aligned} \tag{8}$ 于是, 称 $H (X ∣ Y)$ 为发生事件 $X ∣ Y$ 的条件信息熵.

条件信息熵的形式, 与在已知其联合分布 $p(x_i,y_j)$ , 条件概率的 $p(x_i|y_j)$ 的对数似然函数一致. 有
$L_p=\log \left( \prod_{x_i,y_j}{p\left( x_i|y_j \right) ^{p\left( x_i,y_j \right)}} \right) = \sum_{x_i,y_j} {p(x_i,y_j) \log p(x_i|y_j)}.$ 其中, $p\left( x_i|y_j \right) ^{p\left( x_i,y_j \right)}$ 是其似然函数.

2.3 熵的强可加性*

熵的强可加性是用以描述信息熵、联合信息熵、条件信息熵三者之间的关系, 其形式如下: 对于两个事件 $X 、 Y$ , 三种熵之间的关系为
$\tag{9}$ 熵的强可加性说明了, 两个事件发生的信息量, 可以将其中一件事作为基线, 加上以该事件为前提另一件事的信息量. 强可加性是数学推导的结果, 本文不进行证明, 有兴趣可以翻阅相关资料.

进一步地, 两个事件发生的信息量, 未必等于两个事件信息量之和. 当两个事件之间有相关关系时, 两个事件信息量之间就存在重复的信息量, 因此需要把它去掉, 这个内容将在第 3 节中阐述.

3. 互信息

3.1 互信息基本概念

对于系统中的两个事件 $X 、 Y$ , 两者同时发生的信息量为 $H (X, Y)$ . 当两个事件之间有相互关系时, 每个事件信息量之间就存在重复信息量, 因此可以很直观地理解两个事件信息量之和会大于两者同时发生的信息量, 即
$H (X) + H (Y) > H (X, Y) .$ 那么这多出来的信息量, 就是被重复计算的信息量, 换言之是两个事件相互关系的信息量. 这个信息量称为互信息. 互信息记为 $I (X; Y)$ , 可以如下推导
$\begin{aligned} I(X;Y) &= H(X) + H(Y) - H(X;Y) \\ & = \left( -\sum_{x_i} p(x_i) \log p(x_i) \right) + \left( -\sum_{y_j} p(y_j) \log p(y_j) \right) - \left( - \sum_{x_i,y_j} p(x_i, y_j) \log p(x_i,y_j) \right) \\ & = \left( -\sum_{x_i,y_j} p(x_i,y_j) \log p(x_i) \right) + \left( -\sum_{x_i,y_j} p(x_i,y_j) \log p(y_j) \right) - \left( - \sum_{x_i,y_j} p(x_i, y_j) \log p(x_i,y_j) \right) \\ & = \sum_{x_i,y_j} p(x_i,y_j)\left[ \log p(x_i, y_j) - \log p(x_i) -\log p(y_j) \right] \\ & = \sum_{x_i,y_j} p(x_i,y_j) \log \frac{p(x_i,y_j)}{p(x_i)p(y_j)}. \\ \end{aligned}$

于是, 两个事件 $X 、 Y$ 的互信息表示为:
$\sum_{x_i,y_j} p(x_i,y_j) \log \frac{p(x_i,y_j)}{p(x_i)p(y_j)}. \tag{10}$

3.2 互信息、信息熵和条件熵*

在通信中, 互信息的计算通常利用信息熵和条件熵获得, 其形式为:
$\tag{11}$ 本节用两种方式得到公式 $(11)$ .

方式一: 基于概念理解

假设真实事件为 $X$ , 于是该事件的实际信息熵为 $H (X)$ . 此时, 我们观测到的事件为 $Y$ , 因为 $Y$ 不一定那么准, 所以我们获得了事件 $X$ 部分确定的信息和部分不确定的信息. 这一确定部分的信息显然是 $X$ 与 $Y$ 交互的信息 $I (X; Y)$ . 不确定的信息是从在事件 $Y$ 的基础上得到的, 不确定性可利用信息熵来度量, 对应的信息熵为 $H (X ∣ Y)$ . 从而得到:
$I (X; Y) = H (X) - H (X ∣ Y) .$ 根据对称性, 即得到公式 $(11)$ .

方式二: 基于熵的强可加性

根据公式 $(9)$ , 可以得到
$\tag{12}$ 将公式 $(12)$ 代入公式
$I (X; Y) = H (X) + H (Y) - H (X; Y)$ 即得
$\begin{aligned} I(X;Y) &= H(X) + H(Y) - H(X;Y) \\ & = H(X,Y) - H(Y|X) + H(Y) - H(X;Y) \\ & = H(Y) - H(Y|X). \end{aligned} \tag{13}$ 根据对称性, 即得到公式 $(11)$ .

4. 交叉熵与相对熵

4.1 交叉熵

假设一个系统中事件 $X=\{x_1, x_2, ...,x_n\}$ 发生的真实概率分布 $P (X)$ 为: $p(x_i)=p_i, i=1,2,...,n$ . 但此时我们观测到的 (或者理解的) 系统中各事件发生的概率分布 $Q (X)$ 为: $q(x_i) = q_i, i=1,2,...,n$ . 于是我们获得的信息熵为 $-\sum^{n}_{i=1} {p_i \log q_i}$ . 它是利用两个分布的信息交叉构造的信息熵, 这一信息熵称为交叉熵, 记
$H_{CE}(P,Q) = -\sum^{n}_{i=1} {p_i \log q_i} \tag{14}$ 可以看到, 交叉熵关注的是一个事件的两个分布.

交叉熵表示, 在真实的系统分布下, 使用非真实的分布所获的信息量. 由于信息熵可以用来衡量人为消除系统不确定性所付出的代价, 因此交叉熵也被用以衡量用非真实分布的策略消除系统不确定性的代价. 显然, 使用不准确的系统分布会带来更多的消耗, 这个消耗将使用相对熵来衡量.

4.2 相对熵

假设一个系统中事件 $X=\{x_1, x_2, ...,x_n\}$ 发生的真实概率分布 $P (X)$ 为: $p(x_i)=p_i, i=1,2,...,n$ . 于是该系统真实的信息熵为:
$-\sum^{n}_{i=1} {p_i \log p_i}.$ 但此时我们观测到的 (或者理解的) 系统中各事件发生的概率分布 $Q (X)$ 为: $q(x_i) = q_i, i=1,2,...,n$ . 从 4.1 节中可知, 我们获得的信息熵通过交叉熵来衡量,
$H_{CE}(P,Q) = -\sum^{n}_{i=1} {p_i \log q_i}.$ 由于交叉熵蕴含的代价更大, 这种差异可以如下表示:
$\begin{aligned} H_{CE}(P,Q) - H(X) & = \left( -\sum^{n}_{i=1} {p_i \log q_i} \right) - \left( -\sum^{n}_{i=1} {p_i \log p_i} \right) \\ & = -\sum^{n}_{i=1}p_i \left( \log q_i - \log p_i \right) \\ & = -\sum^{n}_{i=1}p_i \log \frac{ q_i}{ p_i}. \end{aligned}\tag{15}$ 这个差异称为相对熵, 或者称为K-L散度 (Kullback-Leible散度). 下面进行规范描述.

我们把事件集合 $X$ 的分布 ${ p_1,p_2, ... ,p_n \}$ 记为 $P (X)$ , 分布 ${ q_1,q_2, ... ,q_n \}$ 记为 $Q (X)$ . 可以看到, 两个分布都是 $X$ 的分布, $P (X)$ 对 $Q (X)$ 的相对熵记为:
$D_{KL}(P||Q) = -\sum^{n}_{i=1}p_i \log \frac{ q_i}{ p_i}. \tag{16}$ 根据公式 $(15)$ 的推导, 可以看到, 公式 $(16)$ 是以分布 $P (X)$ 作为真实分布, $Q (X)$ 作为一种拟合、近似或者理论分布.

从构造过程中看, 两个分布越相似, 两个信息熵差距越小, 相对熵也越小. 从相对熵的形式上看, 其无对称性, 即
$D_{KL}(P||Q) \neq D_{KL}(Q||P).$ 相对熵的计算依赖于以何种分布作为基准, 度量另一个分布与其的相似程度. 这也是 “相对” 的含义.

4.3 JS散度

相对熵可以用来衡量两个分布的差异, 但其形式熵不具有对称性, 在机器学习训练中可能会出现问题. 因此一个直接的想法将相对熵进行推广, 构造一个具有对称性的分布差异度量. 最简单的构造方式便是将两个对称的相对熵求均值, 如此就能保证对称性, 所构造出来的度量称为JS散度, 形式如下
$D_{JS}(P,Q)=\frac{1}{2} \left[ D_{KL}(P||Q) + D_{KL}(Q||P) \right]. \tag{17}$

矩阵-矩阵置零 Vacant Seat 矩阵二维数组 java
矩阵置零给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。在计算机科学中，一个原地算法（in-placealgorithm）是一种使用小的，固定数量的额外之空间来转换资料的算法。当算法执行时，输入的资料通常会被要输出的部分覆盖掉。不是原地算法有时候称为非原地（not-in-place）或不得其所（out-of-place）。输入：二维数组输出：二维数组思路
贪心算法 -- 121. 买卖股票的最佳时机沿着路走到底 leetcode 动态规划股票交易最大利润算法编程
力扣给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。示例1：输入：[7,1,5,3,6,4]输出：5解释：在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，
第一个问题：AI会威胁人类吗？释迦呼呼 AI一千问人工智能
第一个问题：AI会威胁人类吗？对于这个问题，我的回答是：AI本身并不会威胁人类，但其是否构成威胁取决于人类如何设计、使用和监管它。下面我将从几个角度详细分析。AI的本质：人类的工具AI（人工智能）是由人类创造的工具，它的行为和决策完全基于人类设计的算法和输入的数据。换句话说，AI没有自己的意识、意图或独立的目标，因此它本身并不具备威胁人类的动机或能力。它的作用是由开发者、使用者和管理者决定的。AI
深入剖析 C++ 中的迪杰斯特拉算法小白布莱克 c++算法开发语言
在图论算法的领域中，迪杰斯特拉（Dijkstra）算法是一颗璀璨的明星，它在解决单源最短路径问题上发挥着关键作用。对于学习C++编程的开发者来说，掌握迪杰斯特拉算法不仅能加深对算法思维的理解，还能在实际项目中有效解决诸多路径规划相关问题。迪杰斯特拉算法原理迪杰斯特拉算法是一种贪心算法，用于计算一个节点到图中其他所有节点的最短路径。它的核心思想是：从源节点出发，每次从未确定最短路径的节点中选择距离源
贪心算法-力扣-122. 买卖股票的最佳时机 II dailinqing1984 Python 算法 leetcode 贪心算法算法
题目链接给你一个整数数组prices，其中prices[i]表示某支股票第i天的价格。在每一天，你可以决定是否购买和/或出售股票。你在任何时候最多只能持有一股股票。你也可以先购买，然后在同一天出售。返回你能获得的最大利润。示例1：输入：prices=[7,1,5,3,6,4]输出：7解释：在第2天（股票价格=1）的时候买入，在第3天（股票价格=5）的时候卖出,这笔交易所能获得利润=5-1=4。随后
【C++】二分算法介绍＋图片（ programming expert 算法 c++数据结构
二分答案（BinarySearchforAnswer）是一种在单调性基础上通过二分搜索来逼近问题解的算法。它常用于解决一些最优化问题，特别是那些可以通过“判定问题”来验证答案是否可行的问题。以下是对二分答案算法的详细介绍以及一个C++代码示例。二分答案算法的基本原理‌确定单调性‌：首先，必须确保问题的解在某个范围内是单调的，即随着某个参数的变化，问题的解呈现单调递增或递减的性质。‌设计判定函数‌：
Java数据结构与算法(买卖股票的最佳时机二贪心算法) 盘门 java数据结构与算法实战 java 开发语言
前言买卖股票最佳时机二，此时不限次数的买卖的要求获得的利益最大化。暴力算法依旧可行，可以参考之前的练习。.-力扣（LeetCode）贪心算法原理参考:Java数据结构与算法(盛水的容器贪心算法)-CSDN博客实现原理1.定义最大利润res和下标前值pre。2.下标移动比较当前股票值prices[i]与前值大小，前值小于当前值则加入利润res。3.随着下标移动前值更新。具体代码实现classSolu
基于CNN-LSTM-Attention的回归预测算法（附Tensorflow框架下的代码） Jason_Orton 算法 cnn lstm 机器学习数据挖掘回归 tensorflow
本代码基于Tensorflow框架，即插即用！！！基于CNN-LSTM-Attention的回归预测算法结合了卷积神经网络（CNN）、长短期记忆网络（LSTM）和注意力机制（Attention）三种强大的技术，通常用于时序数据的回归预测问题。这种结合模型能够有效地处理和预测复杂的时序数据，尤其是包含空间和时间信息的任务，如气象预测、股市分析、电力负荷预测等。1.模型概述该模型的核心思想是通过不同网
贪心算法-买卖股票问题 Yuan_Source 算法训练贪心算法贪心算法算法
贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取在当前状态下最好或最优（即最有利）的选择，从而希望导致结果是全局最好或最优的算法。贪心算法并不保证总是能得到全局最优解，但它通常能得到不错的解，而且其实现简单，效率高。贪心算法的基本思路是：建立数学模型：首先，将问题抽象化，建立数学模型。选择贪心策略：分析问题的特点，确定贪心选择策略。贪心策略是每一步都选择当前状态下的最优解。解决
在低功耗MCU上实现人工智能和机器学习电子科技圈 Silicon Labs 人工智能机器学习嵌入式硬件经验分享科技物联网 mcu
作者：SiliconLabs人工智能（AI）和机器学习（ML）技术不仅正在快速发展，还逐渐被创新性地应用于低功耗的微控制器（MCU）中，从而实现边缘AI/ML解决方案。这些MCU是许多嵌入式系统不可或缺的一部分，凭借其成本效益、高能效以及可靠的性能，现在能够支持AI/ML应用。这种集成化在可穿戴电子产品、智能家居设备和工业自动化等应用领域中，从AI/ML功能中获得的效益尤为显著。具备AI优化功能的
数据结构：动态数组vector 干炒牛河笔试笔记数据结构算法
vector是C++标准库的动态数组。在C语言中一般初学者会使用malloc，int[n]等方式来创建静态数组，但是这种方式繁琐且容易出错。我们做算法题一般使用动态数组vector，并且在刷题网站的题目给的输入一般也是vector类型。示例：vector的初始化如下：#includeintn=7,m=8;//初始化一个int型的空数组numsvectornums;//初始化一个大小为n的数组num
算法随笔_57 : 游戏中弱角色的数量程序趣谈算法 python 数据结构
上一篇:算法随笔_56:好子数组的最大分数-CSDN博客=====题目描述如下:你正在参加一个多角色游戏，每个角色都有两个主要属性：攻击和防御。给你一个二维整数数组properties，其中properties[i]=[attacki,defensei]表示游戏中第i个角色的属性。如果存在一个其他角色的攻击和防御等级都严格高于该角色的攻击和防御等级，则认为该角色为弱角色。更正式地，如果认为角色i弱
大一计算机的自学总结：一维差分与等差数列差分 WBluuue c++算法 leetcode
前言差分和前缀和一样，也是很重要的基础算法。一、一维差分1.内容当给出一个数组，每次操作让数组某个区间上的值全增加，最后要求返回整个数组的结果。若是一次一次去遍历，时间复杂度肯定很难看。差分可以做到在时间复杂度良好的情况下解决这一类问题。注意，差分只能做到所有操作结束后返回结果，不能做到边操作边查询。2.模板——航班预订统计classSolution{public:vectorcorpFlight
麦萌《至尊红颜归来》技术架构拆解：从复仇算法到分布式攻防的终极博弈短剧萌架构重构
系统设计核心逻辑剧情主线可抽象为高鲁棒性安全系统的构建与攻防对抗：加密协议与身份隐匿：叶念君隐藏身份映射为零知识证明（ZKP）协议，通过环签名（RingSignature）技术实现“青木令主”权限的匿名验证。分布式任务调度：勇闯修罗九塔对应多层防御链（Defense-in-Depth）架构，每层塔可视为独立微服务，通过Kafka实现异步攻击流量编排。对抗性训练框架：修罗门诱捕圈套可建模为GAN（生
【深度学习】Adam优化器九筠机器学习深度学习人工智能
目录1什么是Adam1.1基本概念1.2Adam的数学理解1.2.1计算一阶矩估计（mean）1.2.2计算二阶矩估计（uncenteredvariance）1.2.3矫正一阶矩估计（mean）和二阶矩估计（uncenteredvariance）的偏差1.2.4更新模型参数1.3Adam的简单理解2Adam优化算法怎么用2.1导入所需的库和模块2.2定义模型和损失函数2.3定义优化器2.4在训练循
C语言实现一个简单的哈希算法 Long韵韵算法训练营 C语言与C++c语言哈希算法开发语言
C语言实现一个简单的哈希算法#include#include#include//函数creat_w用于将输入字符串转换为一个80元素的无符号长整型数组w//先将输入字符串的前16个元素以每4个字节为一组，转换为无符号长整型存储在w的前16个位置//然后使用特定规则生成w的16到79的元素voidcreat_w(charinput[64],unsignedlongw[80]){inti,j;unsi
word2vec之skip-gram算法原理 cuixuange 推荐算法 word2vec skipgram
skip-gram算法原理1.input,output,targetinput的某个单词的one-hot编码（11000词汇量的总数目）output其他所有单词的概率（softmax输出也是11000）target是相近单词的one-hot形式2.Losstarget和output的矩阵的交叉熵最小or平方差最小3.NNet3.1隐层300个神经元,需要训练的权重矩阵大小是1000300本层的输出
朴素贝叶斯原理及sklearn中代码实战 Lewis@ sklearn 概率论机器学习
朴素贝叶斯（NaiveBayes）是一类基于贝叶斯定理的简单而有效的分类算法。它假设特征之间是相互独立的，即在给定目标变量的情况下，每个特征都不依赖于其他特征。尽管这个假设在实际中很难成立，朴素贝叶斯在许多场景下仍表现得非常好，特别是对于文本分类等高维数据的应用。1.贝叶斯定理贝叶斯定理表明给定一个事件发生的条件下另一个事件发生的概率：P(A∣B)=P(B∣A)⋅P(A)P(B){P(A|B)=\
【Rust】——所有权：Stack（栈内存）vs Heap（堆内存）（重点） Y小夜 Rust（官方文档重点总结）rust 开发语言后端
个人专栏：算法设计与分析：算法设计与分析_IT闫的博客-CSDN博客Java基础：Java基础_IT闫的博客-CSDN博客c语言：c语言_IT闫的博客-CSDN博客MySQL：数据结构_IT闫的博客-CSDN博客数据结构：数据结构_IT闫的博客-CSDN博客C++：C++_IT闫的博客-CSDN博客C51单片机：C51单片机（STC89C516）_IT闫的博客-CSDN博客基于HTML5的网页设计
【Rust】——使用Drop Trait 运行清理代码和Rc＜T＞引用计数智能指针 Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录使用DropTrait运行清理代码通过std::mem::drop提早丢弃值
8.字符串转换整数（atoi）早退的程序员 leetcode 算法 leetcode
请你来实现一个myAtoi(strings)函数，使其能将字符串转换成一个32位有符号整数。函数myAtoi(strings)的算法如下：1.空格：读入字符串并丢弃无用的前导空格（""）2.符号：检查下一个字符（假设还未到字符末尾）为‘-’还是‘+’。如果两者都不存在，则假定结果为正。3.转换：通过跳过前置零来读取该整数，直到遇到非数字字符或到达字符串的结尾。如果没有读取数字，则结果为0。4.舍入
CRC校验码（C#实现）山歌寥哉 C#
CRC校验（循环冗余校验）小知识CRC即循环冗余校验码（CyclicRedundancyCheck）：是数据通信领域中最常用的一种查错校验码，其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查（CRC）是一种数据传输检错功能，对数据进行多项式计算，并将得到的结果附在帧的后面，接收设备也执行类似的算法，以保证数据传输的正确性和完整性。适用规则：CRC-CCITT是一个17位生成多项式G＝[1
Python机器学习库之scikit-llm使用详解 Rocky006 python 开发语言
概要Pythonscikit-llm库是一个用于机器学习的强大工具，它基于scikit-learn库并扩展了一些机器学习算法和功能，可以帮助开发者更轻松地进行机器学习模型的训练和评估。安装可以使用pip工具来安装Pythonscikit-llm库：pip install scikit-llm安装完成后，就可以开始使用scikit-llm库进行机器学习任务了。特性支持多种机器学习算法，如线性回归、逻
图论之最小生成树 JNU freshman 蓝桥杯算法图论算法蓝桥杯
文章目录题目1584.连接所有点的最小费用最小生成树MST，有两种算法进行求解，分别是Kruskal算法和Prim算法Kruskal算法从边出发，适合用于稀疏图Prim算法从顶点出发，适合用于稠密图：基本思想是从一个起始顶点开始，逐步扩展生成树，每次选择一条连接已选顶点和未选顶点的最小权重边，直到所有顶点都被包含在生成树中。Prim算法的基本步骤：初始化：选择一个起始顶点，将其加入生成树中。选择最
算法复杂度速查表：助你轻松应对编程面试真智AI 算法面试职场和发展神经网络人工智能深度学习
为什么要掌握BigO复杂度？如果你正在准备科技公司的编程面试，或者从事软件工程、数据科学相关工作，那么理解BigO记号不只是有帮助，而是必备技能。在技术面试中，你经常会被问到：“这个算法的时间复杂度是多少？”但BigO复杂度不仅仅是面试知识，它还是你在选择数据结构和设计算法时必须掌握的基础概念。例如：✅优化数据库查询，让系统能支持百万级用户✅选择适合的算法，提高应用程序的运行效率理解算法复杂度，能
关于二分查找时的边界分类问题 Rinai_R 算法杂谈算法数据结构 golang 二分查找学习总结笔记
关于二分查找时的边界分类问题前言众所周知，我们在优化有关查找的算法时，都会用到二分，但是不同的题用到的二分查找，其左右边界/中点的处理大多都不相同，所以在这里写一下关于一些常见二分边界的种类。正文注意，二分查找基于数组有序查找左右边界左边界查找左边界，也就是某个数字的起始位置，由于我们采取向下取整的方式，所以在更新变量l的时候，需要+1来避免陷入无限循环(比如l=1,r=2此时进入到else分支的
基于深度学习的入侵检测系统设计与实现 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于深度学习的入侵检测系统设计与实现关键词：深度学习、入侵检测、网络安全、机器学习、神经网络、特征提取、实时分析文章目录基于深度学习的入侵检测系统设计与实现1.背景介绍1.1网络安全的重要性1.2传统入侵检测系统的局限性1.3深度学习在安全领域的应用前景2.核心概念与联系2.1入侵检测系统（IDS）概述2.2深度学习基础2.3深度学习在入侵检测中的应用3.核心算法原理&具体操作步骤3.1算法原理概
【机器学习基础】第六课：线性回归 x-jeff 机器学习基础机器学习线性回归人工智能
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。1.线性模型基本形式给定由ddd个属性描述的示例x=(x1;x2;...;xd)\mathbfx=(x_1;x_2;...;x_d)x=(x1;x2;...;xd)，那么线性模型的基本形式可写为：f(x)=w1x1+w2x2+w3x3+...+wdxd+bf(\mathbfx)=w_1x_1+w_2x_2+w_3x_3
机器学习库 Welosthesightof 笔记
机器学习一個很棒的機器學習框架、庫和軟件的精選列表（按語言）。靈感來自於awesome-php。计算机视觉Scikit-Image-Python中图像处理算法的集合。Scikit-Opt-Python中的群智能（Python中的遗传算法、粒子群优化、模拟退火、蚁群算法、免疫算法、人工鱼群算法）SimpleCV-一个开源计算机视觉框架，可以访问多个高性能计算机视觉库，例如OpenCV。用Python
CST六面体和四面体网格异同及应用场景 EMC仿真秀儿硬件工程
通常电磁仿真方式中，计算域会被划分为很多细小单元，每个细小单元上进行麦克斯韦方程组求解，而后得出仿真计算结果。网格影响仿真精度及速度，因此学习网格划分是十分重要的。CST算法FIT（有限积分法）、TLM（传输线矩阵法）、FEM（有限元法）、MOM（矩量法）及CFD（计算流体动力学）等使用不同的网格。FIT和TLM：六面体网格。FEM：四面体网格和平面网格。MOM：表面网格。CFD：八叉树网格。六面
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户