Mr_LeeCZ

Bishop 模式识别与机器学习读书笔记_ch1.3 决策论与信息论基础

ch1.3 决策论与信息论

文章目录

ch1.3 决策论与信息论

@[toc]

1. 模型选择

1.1 交叉验证

1.2 交叉验证的弊端

2. 维数灾难

2.1 基于直角坐标系的网格分析法

2.2 存在的问题

3. 决策论

3.1 最小化误分率

3.2 最小化期望损失

3.3 拒绝选项

3.4 推断与决策

3.5 回归问题的损失函数

3.6 信息论

1. 模型选择

最小二乘法拟合多项式曲线的例子中，可以获得多项式的最佳阶数并给出了最佳的推广。

多项式的阶数控制模型中自由参数的个数，从而控制模型的复杂度。
利用正则化最小二乘法，正则化系数 $\lambda$ 也控制模型的有效复杂度，而对于更复杂的模型，如混合分布或神经网络，则可能有多个参数控制复杂度。

在实际应用中，我们需要确定这些参数的值，这样做的主要目标通常是在新数据上获得最佳的预测性能。此外，除了为给定模型中的复杂度参数找到适当的值外，我们可能还希望考虑一系列不同类型的模型，以便为我们的特定应用找到最佳的模型。

1.1 交叉验证

**问题：**在极大似然方法中，由于过拟合的问题，训练集上的性能并不能很好地反映未观测数据的预测性能。

解决方案：
- 如果数据丰富，那么一种方法就是使用一些可用的数据来训练一系列模型，或者给定模型的复杂度参数值范围，然后在独立数据（有时称为验证集）上比较它们，并选择具有最佳预测性能的模型。
- 如果使用有限大小的数据集多次迭代模型设计，则可能会出现与验证数据的某些过度拟合，因此可能需要保留第三个测试集，以便最终评估选定模型的性能。
以上都是在数据集丰富的情况下考虑的，然而，在许多应用中，培训和测试数据的供应会受到限制，为了建立良好的模型，我们希望尽可能多地使用现有数据进行培训。有一种方法是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型，即交叉验证。主要来解决以下两个问题：
- 交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合。
- 还可以从有限的数据中获取尽可能多的有效信息。
主要策略是将数据即分成 $S$ 等份，其中，选择（S-1）份做训练，剩余的做测试，共有 $S$ 中方法。当数据特别稀少时，可以考虑情况S＝N，其中 N 是数据点的总数，称为留一法(Leave One Out, LOO).

1.2 交叉验证的弊端

交叉验证的一个主要缺点是，必须执行的训练运行次数增加了一个S的因子，这对于训练本身计算成本很高的模型来说是有问题的。
对于单个模型，我们可能有多个复杂度参数（例如，可能有多个正则化参数）。在最坏的情况下，探索这些参数的设置组合可能需要大量的训练运行，这些运行的参数数量是指数级的。

我们需要更好的方法。理想情况下，这应该只依赖于训练数据，并且应该允许在一次训练运行中比较多个超参数和模型类型。因此，我们需要找到一种只依赖于训练数据的绩效衡量方法，这种方法不会因为过度拟合而产生偏差。

历史上，人们提出了各种各样的“信息标准”，试图通过增加一个惩罚项来弥补更复杂模型的过度拟合，从而纠正最大似然的偏差。例如，Akaike信息准则或AIC（Akaike，1974），选择一个模型使下面的式子值最大。
$KaTeX parse error: Undefined control sequence: \notag at position 49: …hbf{w}_{ML})-M \̲n̲o̲t̲a̲g̲ ̲$
这里 $p(D\vert w_{ML})$ 是最佳拟合对数似然， $M$ 是模型中可调参数的个数。这个量的一个变体，称为贝叶斯信息准则，或称BIC。然而，这些标准没有考虑到模型参数的不确定性，而且在实践中，它们倾向于过于简单的模型。因此，我们最终会转向完全贝叶斯方法，在这里我们将看到复杂性惩罚是如何以自然和有原则的方式产生的。

2. 维数灾难

在多项式曲线拟合的例子中，我们只有一个输入变量 $x$ 。然而，对于模式识别的实际应用，我们必须处理高维空间多个变量的问题。

2.1 基于直角坐标系的网格分析法

为了说明这个问题，我们考虑一个综合生成的数据集，表示从含有油、水和天然气混合物的管道中进行的测量（Bishop和James，1993）。这三种材料可以存在于三种不同的几何结构中的一种，称为“均质”、“环形”和“层流”，并且三种材料的分数也可以不同。每个数据点包含一个12维输入向量，图中显示了该数据集的100个点，图中显示了两个测量值 $x_6$ 和 $x_7$ （在本图中忽略了其余10个输入值）。每个数据点都根据其所属的三个几何类中的哪一个进行标记，我们的目标是将这些数据用作训练集，以便能够对新观测 $x_6,x_7)$ 进行分类，用十字表示的观测。我们观察到十字架周围有许多红色的点，所以我们可以假设它属于红色类。然而，附近也有很多绿色的点，所以我们可能认为它应该属于绿色类。它似乎不太可能属于蓝色阶层。这里的直觉是，十字架的身份应该更强烈地由训练集中的附近点决定，而不是更强烈地由更远的点决定。事实上，这种直觉是合理的，将在后面的章节中进行更充分的讨论。

我们如何将这种直觉转化为一种学习算法？一个非常简单的方法是将输入空间划分为规则的单元格，如图所示。当我们得到一个测试点并且我们希望预测它的类别时，我们首先决定它属于哪个单元，然后我们找到所有的训练数据点落在同一个单元里。测试点的标识被预测为与在与测试点相同的单元中具有最大数量训练点的类相同（随机断开连接）。

2.2 存在的问题

这种朴素的方法有很多问题，但是当我们考虑到它扩展到具有更多输入变量的问题时，其中一个最严重的问题就变得明显了，对应于具有更高维度的输入空间。这个问题的起源如下图所示，它表明，如果我们将一个空间的一个区域划分为规则的单元，那么这些单元的数量将随着空间的维数呈指数增长。数量成倍增加的单元的问题是，我们需要成倍增加的训练数据，以确保单元不为空。很明显，我们不希望在多个变量的空间中应用这种技术，因此我们需要找到一种更复杂的方法。

我们通过重新面对多项式曲线拟合的例子可以进一步了解高维空间，考虑如何推广这种方法处理多个变量的输入。如果我们有D个输入变量，那么系数高达3阶的一般多项式将采用
$KaTeX parse error: Undefined control sequence: \notag at position 143: …{ijk}x_ix_jx_k \̲n̲o̲t̲a̲g̲ ̲$
随着 $D$ 的增加，独立系数的数量（并非所有的系数都是独立的，因为 $x$ 变量之间的交换对称性）与 $D^3$ 成比例地增长。实际上，要捕获数据中的复杂依赖项，可能需要使用高阶多项式。对于 $M$ 阶多项式，系数的增长类似于DM。虽然这现在是幂律增长，而不是指数增长，但它仍然指出，该方法变得迅速笨拙，实用性有限。

当我们考虑更高维度的空间时，我们在三维空间中度过的一生所形成的几何直觉可能会严重失败。作为一个简单的例子，考虑一个半径为 $r = 1$ 的球体，在一个D维空间中，问位于半径 $r=1-\epsilon$ 与 $r = 1$ 之间的球体的体积占球体积的分数是多少。我们可以通过注意一个半径为 $r$ 的球体在 $D$ 维的体积的标度为 $r^D$ 来计算这个份数，球体体积表示为
$KaTeX parse error: Undefined control sequence: \notag at position 16: V_D(r)=K_Dr^D \̲n̲o̲t̲a̲g̲ ̲$
其中常数 $K_d$ 仅依赖于维数 $D$ ，因此所占份数为
$KaTeX parse error: Undefined control sequence: \notag at position 57: …(1-\epsilon)^D \̲n̲o̲t̲a̲g̲ ̲$
$D$ 取不同的值时，可以通过画图展示这个份数曲线。对于大 $D$ ，这个份数趋向于 1，即使对于较小的值 $\epsilon$ . 因此，在高维空间中，球体的大部分体积集中在靠近表面的薄壳中！也就是说由距离定义的相似度在高维空间中是失效的。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(0,1,0.01)

D = [1, 2, 5, 10]

for dim in D:
    y = 1 - (1-x)**dim
    plt.plot(x, y, label='$D = %d$' % dim)

plt.legend()
plt.show()

高维空间产生的这种困难被称为维度灾难（curse of dimensionality）（Bellman,1961）。本书中，我们会频繁使用⼀维或者⼆维空间中的例子来说明问题，因为这使得方法可以很容易地通过图形展示出来。但是读者需要注意，不是所有在低维空间的直觉都可以推广到高维空间。

虽然维度灾难在模式识别应用中是⼀个重要的问题，但是它并不能阻止我们寻找应用于高维空间的有效技术。原因有两方面。

第⼀，真实的数据经常被限制在有着较低的有效维度的空间区域中，特别地，在目标值会发生重要变化的方向上也会有这种限制。
第⼆，真实数据通常比较光滑（至少局部上比较光滑），因此大多数情况下，对于输入变量的微小改变，目标值的改变也很小，因此对于新的输⼊变量，我们可以通过局部的类似于插值的技术来进行预测。

成功的模式识别技术利用上述的两个性质中的⼀个，或者都用。

3. 决策论

概率论是如何提供给我们⼀个自始至终的数学框架来量化和计算不确定性。本节将讨论决策论与概率论结合的时候，能够在涉及到不确定性的情况下做出最优的决策。

假设我们有⼀个输⼊向量 $\mathbf{x}$ 和对应的目标值向量 $t$ ，我们的目标是对于⼀个新的 $\mathbf{x}$ 值，预测 $t$ . 对于回归问题， $t$ 由连续变量组成，而对于分类问题， $t$ 表示类别标签。联合概率分布 $p(\mathbf{x},t)$ 完整地总结了与这些变量相关的不确定性。从训练数据集中确定 $p(\mathbf{x},t)$ 是推断（inference）问题的⼀个例子，并且通常是⼀个非常难的问题。

考虑⼀个医疗诊断问题。在这个问题中，我们给⼀个病⼈拍了 X 光片，我们想判断病人是否得了癌症。在这种情形下，输入向量 $\mathbf{x}$ 是X光片的像素的灰度值集合，输出变量 $t$ 表示病⼈患有癌症（记作类 $\mathcal{C}_1$ ）或者不患癌症（记作类 $\mathcal{C}_2$ ）。例如，我们可以选择 $t = 0$ 表示类 $\mathcal{C}_1$ ，选择 $t = 1$ 表示类 $\mathcal{C}_2$ . ⼀般的推断问题就变成了确定联合分布 $p(\mathbf{x},\mathcal{C}_k)$ ，或者等价地 $p(\mathbf{x},t)$ 。我们必须确定是否对病人进行治疗，并且我们希望这种选择在某些情况下是最优的（DudaandHart,1973）。这是决策步骤，是决策论的主题，告诉我们在给定合适的概率的前提下，如何进行最优的决策。

在给出⼀个更详细的分析之前，先非形式化地考虑⼀下概率论如何在做决策时起作⽤。当我们得到⼀个新病人的X光片 $\mathbf{x}$ 时，我们的目标是判断这个X光片属于两类中的哪⼀类。我们感兴趣的是在给定这个图像的前提下，两个类的概率，即 $p(\mathcal{C}_k|\mathbf{x})$ 。使⽤贝叶斯定理，这些概率可以用下面的形式表示
$KaTeX parse error: Undefined control sequence: \notag at position 106: …p(\mathbf{x})} \̲n̲o̲t̲a̲g̲ ̲$
注意，出现在贝叶斯定理中的任意⼀个量都可以从联合分布 $p(\mathbf{x},\mathcal{C}_k)$ 中得到，要么通过积分的方式，要么通过关于某个合适的变量求条件概率。我们现在把 $p(\mathcal{C}_k)$ 称为类 $\mathcal{C}_k$ 的先验概率，把 $p(\mathcal{C}_k|\mathbf{x})$ 称为对应的后验概率。因此 $p(\mathcal{C}_1)$ 表示在我们拍X光之前，⼀个⼈患癌症的概率。类似地， $p(\mathcal{C}_1|\mathbf{x})$ 表示使用X光中包含的信息通过贝叶斯定理修改之后的对应的后验概率。如果我们的目标是最小化把 $\mathbf{x}$ 分到错误类别中的可能性，那么根据直觉，我们要选择有最大后验概率的类别。我们现在要证明，这种直觉是正确的，并且我们还会讨论进行决策的更加通用的标准。

3.1 最小化误分率

假定我们的目标很简单，即尽可能少地作出错误分类。我们需要⼀个规则来把每个 $\mathbf{x}$ 的值分到⼀个合适的类别。这种规则将会把输入空间切分成不同的区域 $\mathcal{R}_k$ ，这种区域被称为决策区域（decisionregion）。每个类别都有⼀个决策区域，区域 $\mathcal{R}_k$ 中的所有点都被分到 $\mathcal{C}_k$ 类。决策区域间的边界被叫做决策边界（decisionboundary）或者决策面（decisionsurface）。注意，每⼀个决策区域未必是连续的，可以由若干个分离的区域组成。

为了找到最优的决策规则，首先考虑两类的情形，就像癌症问题的例子中那样。如果我们把属于 $\mathcal{C}_1$ 类的输入向量分到了 $\mathcal{C}_2$ 类（或者相反），那么我们就犯了⼀个错误。这种事情发生的概率为
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ p(\text{miskat…$
我们可以随意选择把点 $\mathbf{x}$ 分到两类中的某⼀类的决策规则。为了最小化 $p(\text{mistake})$ ，我们对于 $x$ 的分类结果应该让公式（1）的被积函数尽量小。因此，如果对于给定的 $x$ 值，如果 $p(x,\mathcal{C}_1)>p(x,\mathcal{C}_2)$ ，那么我们就把 $x$ 分到类别 $\mathcal{C}_1$ 中。根据概率的乘积规则，我们有 $p(x,\mathcal{C}_k)=p({C}_k\vert x)p(x)$ 。由于因子 $p (x)$ 对于两项都相同，因此我们可以这样表述：如果我们把每个 $x$ 分配到后验概率 $p(\mathcal{C}_k\vert x)$ 最大的类别中，那么我们分类错误的概率就会最小。对于⼀元输入变量x的二分类问题，结果如图1.24所⽰。

对于更⼀般的 $K$ 类的情形，最大化正确率会稍微简单⼀些，即最大化下式
$KaTeX parse error: Undefined control sequence: \notag at position 131: …_k)d\mathbf{x} \̲n̲o̲t̲a̲g̲ ̲$
当区域 $\mathcal{R}_k$ 的选择使得每个 $x$ 都被分到使 $p(x,\mathcal{C}_k)$ 最大的类别中时，上式取得最大值。再⼀次使用乘积规则 $p(x,\mathcal{C}_k)=p(\mathcal{C}_k\vert x)p(x)$ ，并且注意到因子 $p (x)$ 对于所有项都相同，我们可以看到每个 $x$ 都应该被分到有着最大后验概率 $p(\mathcal{C}_k\vert x)$ 的类别中。

3.2 最小化期望损失

对于许多应用，我们的目标要比单纯地最小化错误分类的数量更加复杂。让我们再次考虑医疗诊断的问题。我们注意到，如果给没有患癌症的病人错误地诊断为患病，结果可能给病人带来⼀些压力，并且病⼈可能需要进⼀步确诊。相反，如果患癌症的病人被诊断为健康，结果可能会因为缺少治疗而使病⼈过早死亡。因此，两种诊断的错误造成的损失显然是不同的。

我们可以通过损失函数（Loss Function）描述这个问题。损失函数也被称为代价函数（Cost Function），是对于所有可能的决策或者动作可能产生的损失的⼀种整体度量。我们的目标是最小化整体的损失。假设对于新的 $\mathbf{x}$ 的值，真实的类别为 $\mathcal{C}_k$ ，我们把 $\mathbf{x}$ 分类为 $\mathcal{C}_j$ . 这样做的结果是，我们会造成某种程度的损失，记作 $L_{kj}$ ，它可以看成损失矩阵（Loss Matrix）的第 $k, j$ 个元素。例如，在癌症的例⼦中，如下表所示的损失矩阵。这个特别的损失矩阵表明，如果我们做出了正确的决策，那么不会造成损失。如果健康⼈被诊断为患有癌症，那么损失为1。但是如果⼀个患有癌症的病⼈被诊断为健康，那么损失为1000。

表：癌症诊断问题的损失矩阵的例子，矩阵的元素为 $L_{kj}$ 。行对应于真实的类别，而列对应于我们的决策准则做出的分类。

	cancer	normal
cancer	0	1000
normal	1	0

最优解是使损失函数最小的解。但是，损失函数依赖于真实的类别，这是未知的。对于⼀个给定的输⼊向量 $\mathbf{x}$ ，我们对于真实类别的不确定性通过联合概率分布表 $p(\mathbf{x},\mathcal{C}_k)$ 表示。因此，可以最小化平均损失，平均损失根据这个联合概率分布计算，定义为
$\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(\mathbf{x},\mathcal{C}_k)d\mathbf{x} \tag {2}$
每⼀个 $\mathbf{x}$ 可以被独立地分到决策区域 $\mathcal{R}_j$ 中。我们的目标是选择区域 $\mathcal{R}_j$ 来最小化期望损失（2）。这表明，对于每个 $\mathbf{x}$ ，我们要最小化 $\sum_k L_{kj}p(\mathbf{x},\mathcal{C}_k)$ 。和之前⼀样，我们可以使用乘积规则 $p(\mathbf{x},\mathcal{C}_k)=p(\mathcal{C}_k\vert\mathbf{x})p( \mathbf{x})$ 来消除共同因子 $p(\mathbf{x})$ 。因此，最小化期望损失的决策规则是对于每个新的 $\mathbf{x}$ ，把它分到能使下式取得最小值的第 $j$ 类：
$KaTeX parse error: Undefined control sequence: \notag at position 46: …ert \mathbf{x})\̲n̲o̲t̲a̲g̲ ̲$
⼀旦我们知道了类的后验概率 $p(\mathcal{C}_k\vert\mathbf{x})$ 之后，这件事就很容易做了。

3.3 拒绝选项

在发生分类错误的输入空间中，后验概率 $p(\mathcal{C}_k\vert\mathbf{x})$ 通常远小于1。这些区域中，类别的归属相对不确定。在某些应用中，对于这种困难的情况，避免做出决策是更合适的选择。这样会使得模型的分类错误率降低。这被称为拒绝选项（reject option）。例如，在我们假想的医疗例⼦中，⼀种合适的做法是，使用自动化的系统来对那些⼏乎没有疑问的X光片进行分类，然后把不容易分类的X光片留给人类的专家。我们可以用这种方式来达到这个目的：引入⼀个阈值 $\theta$ ，拒绝后验概率 $p(\mathcal{C}_k\vert\mathbf{x})$ 的最大值小于等于 $\theta$ 的输入 $\mathbf{x}$ 。图1.26说明了⼀元输入变量 $x$ 的⼆分类问题的情形。

3.4 推断与决策

我们已经把分类问题划分成了两个阶段：推断（inference）阶段和决策（decision）阶段。在推断阶段，我们使用训练数据学习 $p(\mathcal{C}_k\vert \mathbf{x})$ 的模型。在接下来的决策阶段，我们使用后验概率进行最优的分类。这两个阶段分别对应 sklearn 库函数中 fit 和 predict 函数功能。还有一种方法是是把两个过程合二为一，即简单地学习⼀个函数，将输⼊ $\mathbf{x}$ 直接映射为决策，这样的函数被称为 判别函数（discriminantfunction）。

根据推断和决策阶段建模的不同，可将建模类型分为三类：

先对每一个类别确定类条件密度 $p(\mathbf{x}\vert\mathcal{C}_k)$ ，即似然，这是⼀个推断问题。然后推断先验类概率 $p(\mathcal{C}_k)$ 。使用贝叶斯定理

$KaTeX parse error: Undefined control sequence: \notag at position 106: …p(\mathbf{x})} \̲n̲o̲t̲a̲g̲ ̲$
求出后验类概率 $p(\mathcal{C}_k\vert \mathbf{x})$ 。根据后验概率进行决策新数据的类归属，这种模型称为生成式模型 （Generative Model）。

直接对后验类密度 $p(\mathcal{C}_k\vert \mathbf{x})$ 进行建模，根据后验概率进行决策新数据的类归属。这种直接对后验概率建模的方法被称为判别式模型（Discriminative Models）。
找到⼀个函数 $f(\mathbf{x})$ ，被称为判别函数。这个函数把每个输⼊ $\mathbf{x}$ 直接映射为类别标签。例如，KNN 分类模型，概率不起作用。

这三种模型的相对优势：

生成式模型需要求解的东西最多，因为它涉及到寻找在 $\mathbf{x}$ 和 $\mathcal{C}_k$ 上的联合概率分布。对于许多应⽤，x的维度很⾼，这会导致我们需要⼤量的训练数据才能在合理的精度下确定类条件概率密度。
实际上我们只是想求出后验概率 $p(\mathcal{C}_k\vert \mathbf{x})$ ，但是为了求出它，这种方法需要⼤量的数据来寻找联合概率 $p(\mathbf{x}，\mathcal{C}_k)$ .

3.5 回归问题的损失函数

现在考虑回归问题，例如之前讨论过的曲线拟合问题。决策阶段包括对于每个输⼊ $\mathbf{x}$ ，选择⼀个对于 $t$ 值的具体的估计 $y(\mathbf{x})$ 。假设这样做之后，我们造成了⼀个损失 $L(t,y(\mathbf{x}))$ 。平均损失（或者说期望损失）就是
$KaTeX parse error: Undefined control sequence: \notag at position 77: …)d\mathbf{x}dt \̲n̲o̲t̲a̲g̲ ̲$
回归问题中，损失函数的⼀个通常的选择是平方损失，定义为 $L(t,y(\mathbf{x}))=\Big\{y(\mathbf{x})−t\Big\}^2$ 。这种情况下，期望损失函数可以写成
$KaTeX parse error: Undefined control sequence: \notag at position 80: …)d\mathbf{x}dt \̲n̲o̲t̲a̲g̲ ̲$
我们的目标是选择 $y(\mathbf{x})$ 来最最化 $\mathbb{E}[L]$ 。如果我们假设⼀个完全任意的函数 $y(\mathbf{x})$ ，我们能够形式化地使用变分法求解：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \frac{\delta\m…$
求解 $y(\mathbf{x})$ ，使用概率的加和规则和乘积规则，我们得到
$y(\mathbf{x})=\frac{\int t\cdot p(\mathbf{x},t)dt}{p(\mathbf{x})}=\int t\cdot p(t\vert \mathbf{x})dt=\mathbb{E}[t\vert \mathbf{x}]$
这是在 $x$ 的条件下 $t$ 的条件均值，被称为回归函数（regression function）。结果如图所示。这个结果可以扩展到多个目标变量（用向量 $\mathbf{t}$ ）的情形。这种情况下，最优解是条件均值 $y(\mathbf{x}) = \mathbb{E}_t[\mathbf{t}\vert \mathbf{x}]$ .

另外一种方式也可以推导出该结果，其透露出回归问题的本质。

已经知道了最优解是条件期望，我们可以把平方项展开：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \Big\{y(\mathb…$
其中，为了不让符号过于复杂，我们使用 $\mathbb{E}[t|\mathbf{x}]$ 来表示 $\mathbb{E}_t[t|\mathbf{x}]$ . 代入损失函数中，对 $t$ 进⾏积分，我们看到交叉项消失，因而得到如下形式的损失函数
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \mathbb{E}[L]&…$
即
$KaTeX parse error: Undefined control sequence: \notag at position 205: …bf{x}}_{noise} \̲n̲o̲t̲a̲g̲ ̲$
我们寻找的函数 $y(\mathbf{x})$ 只出现在第⼀项。当 $y(\mathbf{x})$ 等于 $\mathbb{E}[t|\mathbf{x}]$ 时第⼀项取得最小值，这时第⼀项会被消去。这正是我们之前推导的结果，表明最优的最小平方预测由条件均值给出。第二项是 $t$ 的分布的方差，在 $\mathbf{x}$ 上进行了平均。它表示目标数据内在的变化性，可以被看成噪声。由于它与 $y(\mathbf{x})$ 无关，因此它表示损失函数的不可减小的最小值。

平方损失函数不是回归问题中损失函数的唯⼀选择。实际上，有些情况下，平方损失函数会导致非常差的结果，这时我们就需要更复杂的方法。这种情况的⼀个重要的例子就是条件分布 $p(t|\mathbf{x})$ 有多个峰值，这在解决反演问题时经常出现。这里我们简要介绍⼀下平方损失函数的⼀种推广，叫做闵可夫斯基损失函数（Minkowskiloss），它的期望为
$KaTeX parse error: Undefined control sequence: \notag at position 81: …)d\mathbf{x}dt \̲n̲o̲t̲a̲g̲ ̲$
当 $q = 2$ 时，这个函数就变成了平方损失函数的期望。下述代码和图给出了不同 $q$ 值下，函数 $\vert y−t\vert ^q$ 关于 $y - t$ 的图像。当 $q = 2$ 时， $\mathbb{E}[L_q]$ 的最小值是条件均值。当 $q = 1$ 时， $\mathbb{E}[L_q]$ 的最小值是条件中位数。当 $q\to 0$ 时， $\mathbb{E}[L_q]$ 的最小值是条件众数。

import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
import seaborn as sns
sns.set(style="darkgrid")


qs = [0.3, 1, 2, 10]
step = 0
x = np.linspace(-2, 2, 100) # 随机变量 x
f, ax = plt.subplots(2, 2, dpi=260)
for i in range(2):
    for j in range(2):
        q = qs[step]
        y = np.abs(x)**q
        ax[i,j].plot(x, y)
        ax[i,j].plot(0, 0,
        label="$q$ = {:3.2f}".format(q))
        ax[i, j].set_xlabel('$y-t$', fontsize=8)
        ax[i, j].set_ylabel('$|y-t|^q$', fontsize=8)
        ax[i, j].legend(fontsize=3)
        plt.xlim(-2, 2)
        plt.ylim(-0.1, 2.1)
        step = step + 1

plt.tight_layout()
plt.show()

3.6 信息论

问题：考虑⼀个离散的随机变量 $x$ ，当这个变量是⼀个具体值的时候，我们接收到了多少信息呢？

策略：信息量可以被看成在学习 $x$ 的值的时候的“惊讶程度”。

例子：如果有人告诉我们⼀个相当不可能的事件发生了，我们收到的信息量要多于被告知某个很可能发生的事件发生时收到的信息。如果我们知道某件事情⼀定会发生，那么我们就不会接收到信息。

对信息的度量可借助于概率分布 $p (x)$ ，即寻找⼀个函数 $h (x)$ ，它是概率 $p (x)$ 的单调递增函数，表达了信息的内容。

$h(\cdot)$ 的形式可以这样寻找：如果有两个不相关的事件 $x$ 和 $y$ ，那么观察到两个事件同时发生时获得的信息应该等于观察到事件各自发生时获得的信息之和，即 $h (x, y) = h (x) + h (y)$ 。两个不相关事件是统计独立的，因此 $p (x, y) = p (x) p (y)$ 。根据这两个关系，很容易看出 $h (x)$ ⼀定与 $p (x)$ 的对数有关。因此，我们有信息量的度量
$h(x)=-\log_2p(x) \tag {2}$
其中，负号确保了信息⼀定是正数或者是零。

低概率事件 $x$ 对应于高的信息量，如下图所示。对数的底的选择是任意的。遵循信息论的普遍传统，使用 2 作为对数的底，单位是比特（bit, binary digit）。

import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
sns.set(style="darkgrid")

x = np.linspace(0, 1, 100) # 随机变量 x

plt.figure(dpi=200)
y = -np.log2(x)

plt.plot(x, y)
plt.xlabel('$p(x)$')
plt.ylabel('$h(x)$')
plt.show()

假设⼀个发送者想传输⼀个随机变量的值给接收者。这个过程中，他们传输的平均信息
量通可以通过求公式（2）关于概率分布 $p (x)$ 的期望得到。这个期望值为
$H[x]=-\sum_xp(x)h(x)=-\sum_xp(x)\log_2p(x) \tag {3}$
这个重要的量被叫做随机变量 $x$ 的熵（entropy）。

注意：由于 $\lim_{p\to 0}p\log_2p=0$ ，因此，对于任意 $x$ 若满足 $p (x) = 0$ ，则 $p(x)\log_2p(x)=0$ .

对于随机变量 $x$ 取单个值的时候，其概率有两个 $p (x)$ 和 $1 - p (x)$ ，其熵值 $H[x]=-p(x)\log_2p(x)-\Big(1-p(x)\log_2(1-p(x)\Big)$ 可画图如下

import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
sns.set(style="darkgrid")

eps = 1e-5
p = np.linspace(eps, 1-eps, 100)
print(p)
H = -(1-p)*np.log(1-p)-p*np.log(p)
print(H)
plt.plot(p, H, 'b-', lw=3)
plt.xlabel('$p(x)$')
plt.ylabel('$H[x]$')
plt.show()

对于公式（2）的信息的定义以及公式（3）的熵的定义，我们已经有了⼀种启发式的动机。

例子：考虑⼀个随机变量 $x$ , 这个随机变量有 8 种可能的状态，每个状态都是等可能的。为了把 $x$ 的值传给接收者，我们需要传输⼀个 3 比特的消息。注意，这个变量的熵由下式给出
$KaTeX parse error: Undefined control sequence: \notag at position 59: …3\;\text{bits} \̲n̲o̲t̲a̲g̲ ̲$
现在考虑⼀个具有8种可能状态 ${a,b,c,d,e,f,g,h\}$ 的随机变量，每个状态各自的概率为 $(\frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{64},\frac{1}{64},\frac{1}{64},\frac{1}{64})$ . 这种情形下的熵为

$KaTeX parse error: Undefined control sequence: \notag at position 172: …2\;\text{bits} \̲n̲o̲t̲a̲g̲ ̲$
注释：

非均匀分布比均匀分布的熵要小，因为不确定的事物信息量大。
熵的定义中的对数变成自然对数，因为这样做会使得熵的概念与本书后续章节中的思想结合起来比较方便。这种情况下，熵的度量的单位是 nat，而不是bit。两者的差别是多了⼀个 $\ln2$ 的因⼦。

熵的概念最早起源于物理学，是在热力学平衡的背景中介绍的。后来，熵成为描述统计力学中的无序程度的度量。

相对熵可以描述两种分布的相似程度
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ KL(p\vert\vert…$
得熵的概念与本书后续章节中的思想结合起来比较方便。这种情况下，熵的度量的单位是 nat，而不是bit。两者的差别是多了⼀个 $\ln2$ 的因⼦。

熵的概念最早起源于物理学，是在热力学平衡的背景中介绍的。后来，熵成为描述统计力学中的无序程度的度量。

你可能感兴趣的:(机器学习,人工智能,深度学习)

探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不