肥猫64

辨别式与生成式分类器的区别：逻辑回归和朴素贝叶斯的比较

译者按：吴恩达和迈克尔乔丹的经典合作之一，是当年吴恩达在乔丹门下读博时发表的，分类问题是机器学习最典型的问题，而朴素贝叶斯和逻辑回归又是最基础最常用的分类算法，两位大神对此进行了深入精到的分析，对机器学习和AI的爱好者来说不可错过

作者：

Andrew Y. Ng（吴恩达）， Michael I. Jordan（迈克尔一乔丹）

计算机科学和统计系

加州大学伯克利分校

摘要

我们比较判别式和生成式学习，以logistic回归和朴素贝叶斯为代表。我们表明，与广泛持有的观点（判别式分类器几乎总是被优先考虑的）相反，通常会有两种不同的性能体系，即训练集大小增加，其中每个算法效果更好。这源于观察，在反复实验中证实，尽管判别式学习具有较低的渐近误差，但生成式分类器也可以更快地接近其（较高）渐近性误差。

一、简介

生成分类器学习输入x和标签y的联合概率p（x，y）的模型，并通过使用贝叶斯规则来计算p（ylx），然后选择最可能的标签y来进行预测。判别分类器直接对后验p（ylx）建模，或者从输入x学习一个直接映射到类标签。使用判别式而不是生成性分类器有几个令人信服的原因，其中一个由Vapnik简洁地阐述[6]，即“应该直接解决[分类]问题，并且不会解决更普遍的问题作为中间步骤 [例如作为建模p（xly）]。“ 事实上，抛开计算问题和处理缺失数据等问题，目前的共识似乎是，判别式分类几乎总是被优先于生成性分类。

另一个流行的民间智慧是需要的例子数量，拟合一个模型通常在模型的自由参数数量上大致是线性的。这对于VC的“众多”模型的观察具有理论基础，维数大致是线性的或者至多是参数数量中的一些低阶多项式（参见例如[1,3]），并且已知在VC维中判别性设置中的样本复杂度是线性的[6]。

在本文中，我们从经验和理论上研究这些信念的真实程度。概率模型p（x，y）的一个参数族可以适合于优化输入和标签的联合似然，或者适合于优化条件似然p（ylx），或者甚至适合于最小化0-1训练通过对p（ylx）进行阈值处理得到的误差进行预测。给定根据第一准则的分类器hGen拟合，并且根据第二或第三准则（使用相同的参数族模型）拟合模型hDis，我们称hGen和hD为生成 - 区分对。例如，如果p（xly）是高斯的且p（y）是多项式的，则相应的生成判别对是正态判别分析和逻辑回归。类似地，对于离散输入的情况，众所周知，朴素贝叶斯分类器和逻辑回归形成了一个生成 - 区分对[4,5]。

为了比较生成性和判别式学习，似乎很自然地关注这样的对。在本文中，我们考虑朴素贝叶斯模型（用于离散和连续输入）及其区分模拟，逻辑回归/线性分类，并且显示：（a）生成模型的确具有更高的渐近误差训练样例变得很大），但是（b）生成模型也可能比判别模型更快地逼近其渐近误差 - 可能有许多训练样例，它们的数量只是对数而不是线性的参数。这表明，并且我们的实证结果强烈支持 - 随着训练样本数量的增加，可能会有两种截然不同的表现方式，第一种方式是生成模型已经接近其渐近误差，因此表现更好，第二种情况是判别模型接近其较低的渐近误差并做得更好。

二、预演

我们考虑一个二元分类任务，并从离散数据的情况开始。假设X = {O，l} n是n维输入空间，我们假设二进制

简单的输入（泛化没有困难）。让输出标签为Y = {T，F}，并且在X X Y上存在一个联合分布V. 绘制了训练集S = {x（i），y（i）}〜1。生成贝叶斯分类器使用S来计算概率的估计值p（xiIY）和p（y）p（xi IY）和p（y），如下所示：

（对于p（y = b），也是类似的），其中#s { - }计算出现的次数事件在训练集S中。这里，设定l =°对应于采用经验估计概率，并且l更传统地被设置为正值，例如1，这对应于使用概率的拉普拉斯平滑。为了对测试示例x进行分类，当且仅当以下数量为正数时，朴素贝叶斯分类器hGen：X r- + Y预测hGen（x）= T：

在连续输入的情况下，除了我们现在假设X = [O，l] n并且设p（xilY = b）被参数化为具有参数{ti ly = b的单变量高斯分布和如果注意到j1，而不是if，则取决于y）。参数通过最大可能性进行拟合，例如{ti ly = b是训练集中标签y = b的所有示例的第i个坐标的经验平均值。请注意，此方法也等同于假定对角线协方差矩阵的正态判别分析。在下面的续集中，我们还让J.tree = b = E [XiIY = b]和a; = Ey [Var（xi ly）]是“真”的均值和方差（不管数据是否为高斯分布）。

在离散和连续的情况下，众所周知，朴素贝叶斯的判别式是逻辑回归。该模型具有参数[，8，OJ，并且假定p（y = Tlx;，8，O）= 1 /（1 + exp（ - ，8Tx-0））。给定一个测试例x，当且仅当线性判别函数

是积极的。作为一个判别模型，参数[（3，（）]可以适合于最大化训练集上的条件或全部条件，或者最小化其中1 { - }是指示器函数（I {True} = 1，I {False} = 0）0-1训练误差L〜= ll {hois（x（i））1-y（i）}。在错误度量为0-1分类错误的情况下，我们认为后者可以更真实地用于判别式学习的“精神”，尽管前者也经常被用作后者的计算效率近似值。我们将在很大程度上忽略这两种版本的歧视性学习之间的差异，并且在滥用术语的情况下，我们会松散地使用术语“逻辑回归”来指代，尽管我们的正式分析将集中在后一种方法上。

最后，让1i是所有线性分类器的族（从X到Y的映射）; 并给出一个分类器h：X I -t y，将其泛化误差定义为c（h）= Pr（x，y）〜v [h（x）1-y]。

三、分析和算法

当D使得两类远离线性分离时，逻辑回归和朴素贝叶斯都不可能做得好，因为两者都是线性分类器。因此，为了获得非平凡的结果，将这些算法的性能与它们的渐近误差进行比较是最有趣的（参见不可知论学习设置）。更确切地说，让hGen，oo是朴素贝叶斯分类器的人口版本; 即hGen，oo是具有参数p（xly）= p（xly），p（y）= p（y）的朴素贝叶斯分类器。同样，让hOis是逻辑回归的人口版本。接下来的两个命题是完全简单的。

命题1让hGen和hDis是任何生成歧视的分类器，binoo和hdis是它们的渐近/种群版本。然后lc（hDis，oo）：Sc（hGen，oo）。

命题2让hDis为n维逻辑回归。然后高概率c（hois）：S c（hois，oo）+ 0（J〜log〜）

因此，对于c（hOis）：S c（hOis，oo）+ EO以高概率保持（这里EO> 0是某个固定常量），只需选择m = O（n）即可。

命题1表明，渐近地判别式逻辑回归的误差小于生成朴素贝叶斯的误差。这很容易表明，由于c（hDis）收敛于infhE1-lc（h）（其中1i是所有线性分类器的类别），因此它必须渐近地不比朴素贝叶斯挑选的线性分类器差。这个命题也为广泛认为判别式分类器比生成式分类器更好的观点提供了基础。

命题2是另一个标准结果，并且是一个直接的应用Vapnik一致收敛于逻辑回归，并使用1i具有VC维n的事实。命题的第二部分指出，判别式学习的样本复杂性 - 即需要接近渐近误差的例子的数量 - 至多是n的数量级。请注意，最坏情况下的样本复杂度也受n阶[6]的限制。

因此，判别式学习的图片相当清楚：错误收敛于最佳线性分类器的收敛，并且收敛在n个例子的顺序之后。

生成式学习如何？特别是朴素贝叶斯分类器的情况？我们从以下引理开始。

引理3

任何101,8>°和任何l 2：°都是固定的。假设对于一些固定的Po> 0，我们有Po：s：p（y = T）：s：1 - Po。让m = 0（（1 / Ei）log（n / 8））。然后概率至少为1 - 8：

1.在离散输入的情况下，IjJ（XiIY = b）-p（xilY = b）1：s：101和IjJ（y =b） - p（y = b）I：s：101，对于所有i = 1，...，n和bEY。

2.在连续输入的情况下，IPi ly = b -f-li ly = b I：s：101，laT-O“TI：s：101，并且IjJ（y = b）-p（y = b）：s：101，所有i = 1，...，n和bEY。

证明（草图）。考虑离散情况，现在让l =°。设101：s：po / 2。通过Chernoff界限，概率至少为1 - 81 = 1 - 2exp（-2Eim），正例的比例将在p（y = T）的101范围内，这意味着IjJ（y = b） - p（y = b）1：s：101，我们至少有1m正数和1m负数示例，其中I = Po-101 = 0（1）。所以再次通过Chernoff界限，对于具体的i，b，IjJ（XiIY = b）-p（xilY = b）1> 101的机会最多为82 = 2exp（-2Ehm）。由于存在2n个这样的概率，联盟限制的错误总发生概率最多为81 + 2n82。用81和8 / s定义代替，我们看到为了保证81 + 2n82：s：8，只要m如前所述即可。最后，平滑（l> 0）对这些概率至多添加一个小的O（l / m）扰动，并使用与上述相同的参数（比如说101/2）而不是101，并且认为这个O / m）扰动至多为101/2（这是因为m至少为1 / Ei），再次给出结果。对于连续情况的结果用基于切尔诺夫边界的论证（以及假设Xi E [0,1]）被类似地证明。

因此，在n个样本中，只有对数而不是线性的样本，生成分类器hGen的参数均匀接近它们的渐近线

hGen中的值，oo。因此，很容易得出结论，c（hGen），即错误生成的朴素贝叶斯分类器也趋于其渐近值c（hGen，oo）

在这个例子之后，暗示只需要0（log n）个例子来适应a朴素贝叶斯模型。我们将很快建立一些简单的条件

这种直觉确实是正确的。请注意，这意味着即使朴素贝叶斯收敛于c（hGen，oo）与logistic回归相比更高的渐近误差

c：（hDis，oo），它也可能比O（log n）快得多O（n），

训练例子。显示c（hGen）方法c（hGen，oo）的一种方式是通过显示参数'收敛意味着hGen很可能会做出同样的预测

hGen，oo。回想一下，hGen通过对判别函数进行阈值处理来进行预测lGen在（2）中定义。设lGen，oo为相应的判别函数

由hGen使用，oo。在每个例子上，lGen和lGen都落在同一个地方零的边，hGen和hGen，oo会做出同样的预测。而且，只要

lGen，oo（x）的概率相当高，远离零，那么lGen（x）是一个很小的lGen的扰动oo（x）通常也会与lGen oo（x）在同一边。

定理4定义G（T）= Pr（x，y）〜v [（lGen，oo（x）E [O，Tn] A y = T）V（lG en，oo（X）E [-Tn，O ] AY = F）]。假设对于一些固定的Po> 0，我们有Po：s：p（y = T）：s：1 - Po，并且Po：s：P（Xi = 11Y = b）：s：1 - Po对于所有的i，b离散输入）或O“T 2：Po（在连续的情况下）然后以高概率，

证明（草图）。 c（hGen） - c（hGen，oo）受上述机会的上界限hGen，oo正确地对随机选择的示例进行分类，但hGen将其错误分类。

引理3确保hGen的所有参数在hGen的所有参数O（j（log n）/ m）内的概率很高。这又意味着，lGen中的总和中的n + 1项（如等式2）中的每个项都在lGen，oo中对应项的O（j（1ogn）/ m）之内，因此IlGen（x） -lGen，oo（x）1：SO（nj（1ogn）/ m）。假设T = O（j（logn）/ m），我们就可以看出，只有当y = T且lGen时，hGen，oo才有可能是正确的，而hGen可能是错误的（x，y） X）E [0，Tn]（因此有可能是lGen，oo（X）::::: 0，lGen（x）：S 0），或者如果y = F和lGen，oo（X）E [-Tn，0]。这个概率恰好是G（T），因此上界c（hGen） - c（hGen，oo）。 d

定理中的关键量是G（T），当T很小时它必须很小，以使边界不平凡。注G（T）以上界为界Prx [lGen，oo（x）E [-Tn，Tn]] - lGen，oo（X）（一个随机变量，其分布由x“”V引起）接近零的概率。要获得关于这些随机变量的缩放的直觉，请考虑以下几点：

命题5假设，对于至少一个0（1）分数的特征我（我=1，...，n），对于一些IP（Xi = 11Y = T）-P（Xi = 11Y = F）I :::::'Y 固定'Y> 0（或者在连续输入的情况下，IJLi ly = T -JLi ly = FI :::::'Y）。然后E [lGen，oo（x）ly = T] = O（n）和-E [lGen，oo（x）ly = F] = O（n）。

因此，只要类标签给出有关0（1）分数的信息特征（或者不太正式，只要大多数特征与类标签“相关”），IlGen的期望值oo（X）I将是O（n）。这个命题很容易通过证明条件（例如）事件y = T，以lGen，oo（x）（如等式（2）中的总和中的每个项，但用fi代替fi）非负的期望（由KL散度的非负性），此外0（1）部分的期望值远离零。

命题5保证IlGen，oo（x）1有很大的期望，但我们要想绑定G实际上是稍微强一点，那就是随机的变量IlGen，oo（x）1进一步大/远离零，具有高概率。那里有几种方法可以获得足够的条件来确保G很小。一获得松散界限的方法是通过切比雪夫不等式。对于其余的这个讨论，让我们为了简单而隐含地说明一个测试事件示例x具有标签T.切比雪夫不等式意味着Pr [lGen，oo（x）：SE [lGen，oo（X）] - t]：S Var（lGen，oo（x））/ t2。现在，lGen，oo（X）是n个随机数之和变量（忽略涉及先验p（y）的术语）。如果（仍然以y为条件），这n个随机变量是独立的（即如果“朴素贝叶斯假设”假设xi在条件上独立于给定的y，保持），那么它的方差是O（n）;即使n个随机变量不完全独立，方差可能也是如此仍然不会大于0（n）（甚至可能更小，取决于相关性的迹象），并且至多是O（n2）。所以，如果E [lGen，oo（x）ly = T] = an（as将通过命题5来保证）对于一些> 0，通过设置t =（a-T）n，Chebyshev不等式给出了Pr [lGen，oo（x）：S Tn]：S 0（1 /（a-T）2n1 /）一致地界定，那么我们也是

有G（T）= O（T）。无论如何，我们对定理4也有如下推论。

推论6假设定理4的条件成立，并假设G（T）：S Eo / 2 + 对于满足F（T） - + 0的函数F（T）（与n无关）的F（T）为T - + 0，

和一些固定的EO> O.那么对于€（hGen）：S c（hGen，oo）+ EO保持高

图1：来自VCI Machine Learning的数据集的15个实验的结果库。绘图的泛化误差与m（平均超过1000个随机数

火车/测试分割）。虚线是逻辑回归; 实线是朴素贝叶斯。

请注意，前面的讨论暗示了推论的先决条件确实存在于朴素贝叶斯（和命题5）的假设情况下对于任何常数fa，只要n足够大以至于fa ::::: exp（-O（o：2n））（对于有界限的Var（lGen，oo（x））情况也是如此，并且限制性更强的fa ::::: O（I /（o：2n17）））。这也意味着这些（后者也要求T）> 0）是渐近样本复杂度为0（log n）的充分条件。

四、实验

逻辑回归算法具有较低的渐近误差，生成的朴素贝叶斯分类器也可以更快地收敛到其（较高）渐近误差。因此，随着训练样本数量m的增加，人们会期望生成朴素贝叶斯最初做的更好，但对于区分逻辑回归最终赶上并很可能超过朴素贝叶斯的性能。为了测试这些预测，我们对15个数据集进行了实验，其中8个连续输入，7个离散输入，来自VCI机器学习库2.这些实验的结果如图1所示。我们发现理论预测出人意料地好。有一些logistic回归的表现没有赶上朴素贝叶斯的情况，但这主要是在特别小的数据集中观察到的，在这些数据集中，m估计不能大到足以让我们观察到大规模逻辑回归的预期优势m限制。

五、讨论

Efron [2]也分析了逻辑回归和正态判别分析（for连续的投入），并得出结论，前者只是渐近的略微（1/3 - 1/2倍）统计效率较低。这与我们的形成鲜明对比结果，一个关键的区别是，而不是假设P（xly）是高斯的一个对角协方差矩阵（就像我们所做的那样），Efron考虑了P（xly）的情况建模为具有完全信任矩阵的高斯。在这种情况下，估计协方差矩阵是奇异的，如果我们在n个训练样本中的线性少于，那么正态判别分析不能比学习快得多逻辑回归在这里。第二个重要的区别是Efron的考虑只有P（xly）确实是高斯的特例。这样的渐近在一般情况下比较不是很有用，因为唯一可能的结论，如果€（hDis，oo）<€（hGen，oo）是逻辑回归是优越的算法。

相反，正如我们以前所看到的那样，这是非渐近的情况观察到有趣的“双机制”行为。实用的分类算法通常涉及某种形式的正则化特定的逻辑回归通常可以在实践中通过技术改进如通过L1约束收缩参数，强加一个裕度约束在可分离的情况下，或各种形式的平均。这种正则化技术可以被看作是改变模特家庭，但是，他们在很大程度上是这样正交于本文的分析，这是基于特别考察的清晰的生成歧视模型配对案例。通过开发更清晰了解纯生殖和歧视的条件方法最成功，我们应该能够更好地设计混合分类器享受最广泛的条件范围内的最佳性能。最后，虽然我们的讨论集中在朴素贝叶斯和逻辑回归，但是直接将分析扩展到其他几种模型，包括生成歧视通过使用固定结构，有界贝叶斯生成P（xly）网络模型（其中朴素贝叶斯是一个特例）。

致谢

我们感谢Andrew McCallum提供有用的对话。吴恩达得到了微软研究院奖学金支持。这项工作也得到了英特尔的资助

References

[1] M. Anthony and P. Bartlett. Neural Network Learning: Theoretical Foundations. Cambridge

University Press, 1999.

[2] B. Efron. The efficiency of logistic regression compared to Normal Discriminant Analysis.

Journ. of the Amer. Statist. Assoc., 70:892- 898, 1975.

[3] P. Goldberg and M. Jerrum. Bounding the VC dimension of concept classes parameterized

by real numbers. Machine Learning, 18:131-148, 1995.

[4] G.J. McLachlan. Discriminant Analysis and Statistical Pattern Recognition. Wiley,

New York, 1992.

[5] Y. D. Rubinstein and T. Hastie. Discriminative vs. informative learning. In Proceedings

of the Third International Conference on Knowledge Discovery and Data Mining, pages

49- 53. AAAI Press, 1997.

[6] V. N. Vapnik. Statistical Learning Theory. John Wiley & Sons, 1998.

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
C语言代码练习（第十九天）小小框架 C语言 C语言重点练习 c语言
今日练习：52、有一个已经排好序的数组，要求输入一个数后，按原来排序的规律将它插入数组中53、输出"魔方阵"。所谓魔方阵是指它的每一行，每一列和对角线之和均相等。54、找出一个二维数组中的鞍点，即该位置上的元素在该行上最大、在该列上最小。也可能没有鞍点。有一个已经排好序的数组，要求输入一个数后，按原来排序的规律将它插入数组中运行代码intmain(){intarr[11]={1,3,9,12,15
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

辨别式与生成式分类器的区别：逻辑回归和朴素贝叶斯的比较

你可能感兴趣的:(AI论文中文翻译)