生成式和判别式分类器：朴素贝叶斯与逻辑回归

Tom M.Mitchell (译pku_goldenlock at qq.com)

Abstract

对GENERATIVE AND DISCRIMINATIVE CLASSIFIERS:NAIVE BAYES AND LOGISTIC REGRESSION文章简单翻译(不完整to be finished or not:)请参考原文(很经典)，错误难免仅供自己记录。

1 基于贝叶斯规则的分类学习

这里我们会考虑有监督学习(supervised learning),方程拟合(function approximation),以及贝叶斯推理的关系。

考虑一个有监督学习问题，我们想逼近一个方程f:X− > Y或者说P(Y|X)(外：最小二乘法和概率意义上的使得训练数据出现的概率最大化))。为了简单我们假设Y是一个布尔取值的随机变量，而X是一个有着n个布尔属性的向量，如 < 0,1,1,0 > ,可以表示成X= < X₁,X₂...,X_n > ,其中X_i表示X的第i个布尔取值的随机变量。

利用贝叶斯法则，我们可以看出P(Y=y_i|X)可以表示成为

P(Y=y_i|X=x_k)=

P(X=x_k|Y=y_i)P(Y=y_i)

∑ j	P(X=x_k\|Y=y_j)P(Y=y_j)

这里y_m表示y的第m个可能取值，x_k表示X的第k个可能的向量值。注意k的取值范围[1,2ⁿ]。

（外：贝叶斯公式其实涉及两个概率中最重要的法则，乘法法则P(AB)=P(B|A)P(A)和加法法则(公式右侧分母=P(X=x_k)。)

一个学习P(Y|X)的方法是用训练数据来估计P(X|Y)以及P(Y)。利用上面的贝叶斯公式可以得到对于任何新实例X_k所对应的P(Y|X_k)。

1.1 无偏差的贝叶斯分类器是不现实的

如果我们通过估计P(X|Y)以及P(Y)来训练贝叶斯分类器，那么有理由问需要多少的训练数据支持才能得到对于相应概率分布的可靠估计呢?我们假设训练数据是这样产生的，通过绘制随机的实例其内在的分布是P(X),允许一个老师来标记其对应的Y值。

当Y取布尔值的时候，100个随机的互不相关的训练数据一般来说足够获得一个最大似然估计(maximum likelihood)P(Y),估算值相对准确值会有可接受范围的一定误差。然而精确估算P(X|Y)需要多的多的训练数据!我们需要估算下面的参数:

θ_ij ≡ P(X=x_i|Y=y_j)

这里注意i可以取2ⁿ的值，而j可以取2个值，我们大约需要估计2ⁿ⁺¹个参数，精确的话，因为对于固定的某个j对应的x的各种取值概率之和为1,

因此我们需要估算2(2ⁿ−1)个θ_i,j参数，不幸的是这对应的是X域的每个实例都有2个不同的参数，更糟的是为了能得到可靠的估算我们需要对于所有不同的实例观察多次!例如X是一个30维的变量，那么需要估算30亿的参数!

2 朴素贝叶斯算法

我们如何来简化这个复杂性呢，朴素贝叶斯作了条件无关性(conditional independence)假设从而大大简化了复杂性。

2.1 条件无关性

定义:给定随机变量X,Y,Z,我们说给定Z的前提下,X与Y条件无关(conditional independent),当且仅当如果给定Z,X的概率分布独立与Y的取值无关。

(∀i,j,k)P(X=x_i|Y=y_j,Z=z_k)=P(X=x_i|Z=z_k)

一个例子，下雨，雷，闪电，我们可以说给定闪电的情况，下雨和打雷是无关的，因为闪电必然带来了打雷，当然一般情况下打雷和下雨是相关的，但是给定闪电的情况下，它们是无关的。

2.2 朴素贝叶斯(naive bayes)算法的推导

朴素贝叶斯算法是一个基于贝叶斯法则的分类算法，它假设X的各个属性X₁,X₂...,X_n 在给定Y的前提下是条件无关的,这将问题的的复杂性参数估计数目从2(2ⁿ−1)降低到了2n,从指数到线性。我们考虑n=2的情形，X= < X₁,X₂ >

P(X|Y)=P(X₁,X₂|Y)=P(X₁|X₂,Y)P(X₂|Y)=P(X₁|Y)P(X₂|Y)

好了当我们P(X₁|Y)P(X₂|Y),后我们就得到了P(X|Y),这意味者给定Y后,我们只需要估算2个参数(外:如果n=3就是3)就可以估算出P(X|Y),而如果不做条件相关假设，我们需要估算4个参数(外:如果n=3就是2³=8)。推广到一般情况有:

P(X₁...X_n|Y)=

n
∏
i=1

P(X_i|Y)

(1)

我们现在来推导朴素贝叶斯算法，我们假设Y是可以取任意离散的数值,X可以取任意离散或者连续数值。我们的目的是对于任意一个新的实例X,训练一个分类器输出对于Y的所有可能取值的一个概率分布。可以表示Y取它的第k个可能值的概率如下:

P(Y=y_k|X₁...X_n)=

P(Y=y_k)P(X₁...X_n|Y=y_k)

∑ j	P(Y=y_j)P(X₁...X_n\|Y=y_j)

P(Y=y_k|X₁...X_n)=

P(Y=y_k)

∏
i

P(X_i|Y=y_k)

∑
j

P(Y=y_j)

∏
i

P(X_i|Y=y_j)

(2)

上面第二个公式就是朴素贝叶斯分类器的重要公式。因此当有一个新的X的实例，X^new= < X₁,X₂...,X_n > 我们可以利用从训练数据中通过估算得到P(Y),P(X_i|Y),从而得到Y取其可能的各个离散值的概率，更进一步我们可能对于对应概率最大的那个值感兴趣(外:分类结果)，于是我们有下面的朴素贝叶斯分类法则:

Y←argmax_yk

P(Y=y_k)

∏
i

P(X_i|Y=y_k)

∑
j

P(Y=y_j)

∏
i

P(X_i|Y=y_j)

可以进一步简化如下，因为分母与y_k取值无关

Y←argmax_ykP(Y=y_k)

∏
i

P(X_i|Y=y_k)

(3)

2.3 对应离散输入的朴素贝叶斯

作为总结，这里精确的定义朴素贝叶斯学习算法需要估算的参数以及我们如何估算它们。

当n个输入属性X_i可以取J个可能的离散的数值，Y可能取K个可能的离散值，我们的任务是估算两类的参数，第一类:

θ_ijk ≡ P(X_i=x_ij|Y=y_k)

(4)

对于所有的属性X_i,对应每一个可能的取值x_ij,以及对应的所有可能的Y的取值y_k。所以有nJK个参数，注意其中不相关的参数只有n(J−1)K个（外：如果没有条件不相关假设呢，个人认为参数个数是(Jⁿ−1)K）,因为1=∑_jθ_ijk对于所有的i,k组合值。

除此之外我们需要估计定义了对应Y的先验概率(prior probability):

π_k ≡ P(Y=y_k)

(5)

这对应K个参数，其中最大独立参数个数为K−1。

对应给定的训练集合D,参数θ_ijk的最大似然估计值为:

ijk

(X_i=x_ij|Y=y_k)=

#D{X_i=x_ijΛ Y=y_k}

#D{Y=y_k}

(6)

#D{x}表示返回集合D中符合条件x的所有元素个数。

最大似然估计的一个危险在于有很多时候可能会把θ的值估计为0,因为可能测试数据且好不包含任何符合条件的元素，所以上式子分子为0。为了避免这种情况，一种常用做法是使用“光滑”(smoothed)的估计,加入一些额外的“虚拟”的数据，原则是对于X_i的所有取值这些虚拟的数据均匀分布。

ijk

(X_i=x_ij|Y=y_k)=

#D{X_i=x_ijΛ Y=y_k}+l

#D{Y=y_k}+lJ

(7)

J是X_i的可能取值数目，l参数决定光滑的程度大小。这个表达式对应θ_ijk的MAP(max a posterior最大后验)估计如果我们假定一个其符合先验的狄利克雷分布（?外:TODO understand Dirichlet 分布),有着equal-valued参数。如果l设置为1，就是拉普拉斯光顺.

对应π_k的最大似然估计如下:

(Y=y_k)=

#D(Y=y_k)

|D|

(8)

类似的可以对其光滑得到:

(Y=y_k)=

#D(Y=y_k)+l

|D|+lK

(9)

2.4 对应连续输入的朴素贝叶斯

对于输入X_i是连续取值的情况,我们也可以应用公式(2),(3)作为基础来设计朴素贝叶斯分类器。但是当X_i是连续取值的时候我们需要考虑其它的方式来描述P(X_i|Y)的分布，一个常用的策略是我们假定对于任意的Y的值y_k，所有的连续的X_i是符合高斯分布的,其均值和方差由特定对应的X_i,y_k决定。由此为了训练这样的朴素贝叶斯分类器，我们的任务就变成了估计这些高斯分布的均值和方差：

μ_ik=E[X_i|Y=y_k]

(10)

σ_ik²=E[(X_i−μ_ik)|Y=y_k]

(11)

注意我们需要估计所有2nK个对应这样的参数。

当然我们也需要估算Y上的先验参数:

π_k ≡ P(Y=y_k)

(12)

上面给出了高斯朴素贝叶斯分类器的一个总结，这里X是由一系列类别相关(class-conditional)的（取决于Y)的高斯分布生成，更进一步朴素贝叶斯指出X_i之间相对给定的Y条件无关。对于特定的场景，我们也许能做进一步的限制，比如如果我们有理由认为被观测的X_i的值的噪声来源相同，我们可以进一步的认为所有的σ_ik²的值是相同的与i以及类别k的值无关。

同样的我们可以利用最大似然概率(MLE P(Y|X)估算使得Y出现可能最大P(Y)最大的对应参数X)或者最大后验概率(MAP P(X|Y) ∝ P(Y|X)P(X) 从给定的测试数据Y估算参数X,依据最大似然和X的先验假设)来估计这些参数。对μ_ik的估算如下:

∑ j	δ(Y^j=y_k)

∑
j

X_i^jδ(Y^j=y_k)

(13)

这里δ取0,1表示如果内部满足条件是1否则为0，Y^j表示对应第j个训练数据。

类似的对应σ_ik²的估算:

2
ik

∑ j	δ(Y^j=y_k)

∑
j

(X_i^j−

)²δ(Y^j=y_k)

(14)

由于该估计是有偏差的(biased,因E(∧σ_ik²)!=E(σ_ik²))所以最小无偏差估计通常用于取代它:

2
ik

∑ j	δ(Y^j=y_k)−1

∑
j

(X_i^j−

)²δ(Y^j=y_k)

(15)

3 逻辑回归(logistic regression)

逻辑回归是一个学习f:X− > Y 方程或者P(Y|X)的方法，这里Y是离散取值的，X= < X₁,X₂...,X_n > 是任意一个向量其中每个变量离散或者连续取值。我们首先主要考虑Y取布尔值的情况，最后一小节会推广到Y取有限个离散值的情形。

逻辑回归对于分布P(Y|X)假定一个参数形式，然后从训练数据中直接估计这些参数值。当Y取布尔值的时候这个参数模型如下:

(16)

(17)

其中第2个方程可以由第一个直接按照概率和为1推导出来。

通过P(Y|X)我们可以有一个关于分类的线性表达形式。对于任意的一个X确定其类别的方法一般就是给其一个分类值y_k使得P(Y=y_k|X)最大化。因此如果我们给其标明类别是Y=0那么意味着:

1 <

P(Y=0|X)

P(Y=1|X)

通过上面的方程求解得到:

1 < exp(ω₀+

n
∑
i=1

ω_i)

0 < ω₀+

n
∑
i=1

ω_i

(18)

也就是如果X满足上式条件那么标记类别Y=0,否则标记Y=1。

有意思的是这里逻辑回归P(Y|X)所用到的参数形式恰好是可以由前面提到的高斯平凡贝叶斯分类器推导出来。

3.1 高斯朴素贝叶斯分类器的P(Y|X)形式

考虑符合如下条件的高斯平凡贝叶斯:

Y取布尔值，符合泊努利分布，参数π = P(Y=1)
X= < X₁,X₂...,X_n > 其中每个属性X_i取连续的值。
对于每一个X_i,P(X_i|Y=y_k)符合N(μ_ik,σ_i)的高斯分布。
各个不同的X_i对于给定的Y条件无关。

根据以上的假设我们来点推导P(Y|X):

P(Y=1|X)=

P(Y=1)P(X|Y=1)

P(Y=1)P(X|Y=1)+P(Y=0)P(X|Y=0)

P(Y=1|X)=

1+	P(Y=0)P(X\|Y=0) P(Y=1)P(X\|Y=1)

P(Y=1|X)=

1+exp(ln(

P(Y=0)P(X|Y=0)

P(Y=1)P(X|Y=1)

))

P(Y

1|X)=

1+exp(ln(

P(Y=0)

P(Y=1)

)+ln(

P(X|Y=0)

P(X|Y=1)

))

1+exp(ln

1−π

∑
i

P(X_i|Y=0)

P(X_i|Y=1)

)

∑
i

P(X_i|Y=0)

P(X_i|Y=1)

∑
i

P(X_i|Y=0)

P(X_i|Y=1)

∑
i

√

2π

σ_i

exp(−

(X_i−μ_i0)²

2σ_i²

)

√

2π

σ_i

exp(−

(X_i−μ_i1)²

2σ_i²

)

∑
i

ln(exp(

(X_i−μ_i1)²−(X_i−μ_i0)²

2σ_i²

))=

∑
i

2(μ_i0−μ_i1)X_i+(μ_i1²−μ_i0²)

2σ_i²

∑
i

μ_i0−μ_i1

σ_i²

X_i+

μ_i1²−μ_i0²

2σ_i²

由此我们得到:

w₀=ln

1−π

∑
i

μ_i1²−μ_i0²

2σ_i²

w_i=

μ_i0−μ_i1

σ_i²

3.2 逻辑回归的参数估计

上面的推导表示假设朴素贝叶斯的情况下可以推导出逻辑回归的参数形式并且得到相应的参数值，但是这里我们希望能有一个更加一般化的方法得出参数的估计，有些时候也许我们并不能认为完全符合朴素贝叶斯情况，这时候我们希望能从训练数据中直接得出估计的参数而不依赖朴素贝叶斯的条件限制假定。

一个可行的方案是选择使得条件概率最大化的参数,这里的条件概率即是在训练集合中观测到的Y的值,条件依赖于X的值。我们选择参数W满足:

分别是对应第个观测到训练数据的相应结果。

演算过程见原文，通过对分别求偏导数即可，利用standard gradient ascent 来进行优化。。TODO 利用conjugate gradient ascent能收敛速度更快。

3.3 逻辑回归的正规化

过渡拟合问题(overfitting),即存在其它的情况虽然对于训练集误差大但是对于整个数据域误差小，这种问题在逻辑回归中容易产生，尤其是当数据是高维度的而训练数据是稀疏的情况下。一个解决方法是正规化(regularization),我们对优化的目标方程加入 "penalized log likelyhood function"来避免较大值的W。

3.4 对应有多个离散值的方程的逻辑回归

4 朴素贝叶斯和逻辑回归的联系

作为总结，逻辑回归直接估计P(Y|X)的参数,而朴素贝叶斯则通过估计参数P(Y)和P(X|Y)。我们经常把前者称为判别式(discriminative)后者称为生成式(generative)分类器。

如果GNB的前提满足，那么理论上（随着训练数据数目增大到无限）逻辑回归和朴素贝叶斯其实是相同的分类器。两种算法的不同之处是:

如果GNB前提不满足。那么理论上他们是不同的分类学习functions,逻辑回归要比假定GNB的朴素贝叶斯更精确。尽管逻辑回归与朴素贝叶斯一样假定输入的特征满足相对的条件无关性，但是当数据不满足的时候，CLM（conditional likelihood maximization)算法会调整参数来适应数据，即使结果参数与朴素贝叶斯假设不一致。
两种算法收敛速度不一样。假设的维度是n，那么GNB收敛复杂度是个examples,而逻辑回归需要个examples。在训练数据较多的时候逻辑回归取得更好的效果，而当训练数据较少时朴素贝叶斯可能效果更好。

5 你所应该知道的

我们可以运用贝叶斯法则来设计学习算法。或者等价的。我们利用训练数据来学习（考虑下朴素贝叶斯文本分类器的应用，<<信息检索导论>>)。对于新的,它的分类可以利用概率分布+贝叶斯法则得到。
学习贝叶斯分类器一般需要太多的不可能得到的unrealistic训练数据，因为我们有太多的参数需要估计。于是我们需要做条件无关性假设来减少需要估计的参数，即我们需要朴素贝叶斯。
当是离散取值的向量时，朴素贝叶斯学习可以看做是线性分类器。同样的结论对于GNB分类器也成立，如果每个特征的方差是与类别无关的(ie,if )(注意我的关于PRML第一章总结，PRML中其实是设定都是相同的方差)。
逻辑回归从训练数据中直接估计。
逻辑回归是上面的线性分类器。如果GNB条件满足逻辑回归等价于朴素贝叶斯。如果不满足，那么逻辑回归更精确一些，可以认为相比逻辑回归，朴素贝叶斯方法有更大的bias,更小的variance。如果该bias是我们可以接受的可以选择朴素贝叶斯，否则逻辑回归更好。
我们可以从概率的角度(conditional distributions)来看待方程逼近问题。

6 PRML 1.5.4的相关解释

We have broken the classification problem down into two separate stages, the inference stage in which we use training data to learn a model for p(Ck|x), and the subsequent decision stage in which we use these posterior probabilities to make optimal class assignments. An alternative possibility would be to solve both problems together and simply learn a function that maps inputs x directly into decisions. Such a function is called a discriminant function.

按照复杂程度降序有以下3种决策方法:

First solve the inference problem of determining the class-conditional densities p(x|Ck) for each class Ck individually. Also separately infer the prior class probabilities p(Ck). Then use Bayes’ theorem in the form
p(Ck|x) = p(x|Ck)p(Ck)/P(X) to find the posterior class probabilities p(Ck|x). As usual, the denominator in Bayes’ theorem can be found in terms of the quantities appearing in the numerator, because P(x)= sum(P(x|Ck)P(Ck) ).
Equivalently, we can model the joint distribution p(x, Ck) directly and then normalize to obtain the posterior probabilities(p(x,Ck)/P(x)考虑贝叶斯文本分类正向估算P(x,Ck)不容易). Having found the posterior
probabilities, we use decision theory to determine class membership for each new input x. Approaches that explicitly or implicitly model the distribution of inputs as well as outputs are known as generative models, because by sampling from them it is possible to generate synthetic data points in the input space.
First solve the inference problem of determining the posterior class probabilities p(Ck|x), and then subsequently use decision theory to assign each new x to one of the classes. Approaches that model the posterior probabilities directly are called discriminative models.
Find a function f(x), called a discriminant function, which maps each input x directly onto a class label. For instance, in the case of two-class problems, f(·) might be binary valued and such that f = 0 represents class C1 and f = 1represents class C2. In this case, probabilities play no role. (逻辑回归？）

你可能感兴趣的:(生成)

Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
2.git和github操作：diff链接 MY Daisy 工具 git github
目录1.获取差异链接的核心方法方法1：通过分支/提交比较生成链接（适用于GitHub/GitLab/Bitbucket）方法2：使用单次提交的差异链接（查看某次提交的改动）方法3：通过PullRequest（PR）/MergeRequest（MR）2.快速生成diff链接的步骤Step1.获取提交哈希（或分支名称）Step2.拼接平台URLStep3.直接访问链接3.各平台差异链接格式对照表4.自
Autoformer 架构详细解释及举例说明 six.学长 autoformer 人工智能
Autoformer架构详细解释上述图片展示了Autoformer架构的工作流程，包含编码器和解码器的结构。我们来详细解析图中的各个组件及其功能：编码器部分（AutoformerEncoder）输入数据（EncoderInput）：输入的是需要预测的时间序列数据。自动相关机制（Auto-Correlation）：这个模块通过检测时间序列中的周期性依赖关系，生成相关矩阵（K,Q,V表示键、查询和值）
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
MySQL主从同步面试核心20问：从原理到实战深度拆解 dblens 数据库管理和开发工具 mysql mysql 面试 android
一、核心原理篇1.主从同步基础流程（必考）答：主库：事务提交后生成binlog，由Dump线程发送给从库从库：I/O线程：接收binlog写入relaylog，受slave_net_timeout控制网络超时（默认3600秒）SQL线程：解析relaylog执行SQL，单线程设计是经典瓶颈核心文件：master.info（连接信息）、relay-log.info（执行进度）2.异步复制vs半同步复
AUTOSAR与arxml的文档解析 dont__cry c语言 autosar
如下是文档脑图一、文档概述该文档是AUTOSAR经典平台的应用接口用户指南，主要解释**AlTable（应用接口表）**的结构、方法论及相关技术细节，帮助开发者理解如何通过标准化接口实现软件组件的互操作性。关键内容目的：定义并发布稳定、广泛接受的汽车电子系统应用接口，支持跨厂商软件组件的通信。结构：包含元模型表示、兼容性管理、生命周期状态、视图概念及XML生成规则等。二、核心概念与示例1.AUTO
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
深入解析Java跨平台原理 KBkongbaiKB java 开发语言
一、操作系统屏障的本质挑战源代码编译方式直接编译为机器码Windows的可执行文件.exeLinux的可执行文件.elfmacOS的可执行文件.machJava独特的中间格式字节码文件.classJVM虚拟机1.1传统语言的平台困局语言类型编译方式执行依赖跨平台能力C/C++直接生成机器码特定操作系统❌不可直接移植Python解释型执行Python解释器✅但性能较低Java字节码中间件JVM虚拟机
Git 的基本概念和使用方式成风693 git
Git是一种分布式版本控制系统，广泛用于协作开发和追踪代码变更历史。以下是Git的基本概念和使用方式：仓库（Repository）：Git仓库是存储代码和版本历史的地方。它可以是本地仓库（LocalRepository）或远程仓库（RemoteRepository）。提交（Commit）：提交是将代码变更保存到版本历史中的操作。每次提交都会生成一个唯一的标识符（SHA-1哈希值）。分支（Branc
华为OD2023(A卷)基础题21【日志采集系统】大司码算法华为od
日志采集系统题目日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由采集系统分批上报。如果上报太频繁，会对服务端造成压力；如果上报太晚，会降低用户的体验；如果一次上报的条数太多，会导致超时失败。为此，项目组设计了如下的上报策略：每成功上报一条日志，奖励1分每条日志每延迟上报1秒，扣1分积累日志达到100条，必须立即上报给出日志序列，根据该规则，计算首次上报能获得的最多积分数。输入按时序
用户行为路径分析（Google Analytics数据挖掘）闲人编程 Python数据分析实战精要数据挖掘人工智能用户行为路径分析 Analytics 数据分析用户习惯
目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU加速5.用户行为路径分析方法5.1用户行为路径构建5.2行为路径挖掘与模式分析5.3常用指标计算6.数据可视化与指标展示7.PyQtGUI设计与实现8.GPU加速与性能优化9.系统
大型语言模型：让Python更聪明的秘密武器 qq_39605374 语言模型 python 数据库 Python
Python是一种广泛使用的编程语言，而大型语言模型则为Python开发者提供了一个强大的工具。大型语言模型可以理解人类语言，并生成具有逻辑和连贯性的文本。它能够回答用户的问题、提供解决方案，并帮助开发者提高他们的编程技能。让我们来探索一下如何使用大型语言模型作为Python编程的秘密武器。大型语言模型可以通过使用Python编写的API进行访问。下面是一个简单的示例，演示了如何使用Python与
一、【脚本命令】build_chain.sh 区块链节点生成(ubuntu18.04/FISCO BCOS)-JAVA kknacl FISCO BCOS 金联盟区块链区块链 java ubuntu
目录环境依赖1、下载【build_chain.sh】2、脚本命令参数3、生成区块链配置文件ip_list:4、调用build_chain.sh脚本构建区块链节点：5、启动节点6、查看节点进程总结：环境依赖名称版本FISCOBCOS2.0openssl>=1.0.2curl未知1、下载【build_chain.sh】执行命令，安装openssl、curl（如果系统上已经安装好了，可以不用安装）apt
华为OD机试真题----日志采集(java) 努力努力再努力呐算法华为od 算法数据结构 java
华为OD机试真题中的“日志采集”是一个重要的题目，它主要考察的是如何在满足特定条件下，优化日志上报策略以获取最大积分。以下是对该题目的详细解析：一、题目背景日志采集是运维系统的核心组件，日志是按行生成，每行记做一条，由采集系统分批上报。上报策略的设计需要平衡多个因素：上报频率、服务端压力、用户体验以及避免超时失败。二、上报策略根据题目描述，项目组设计了以下上报策略：奖励机制：每成功上报一条日志，奖
华为OD机试 - 日志采集系统（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由
自动生成二维码（根据文本内容）——CAD c#二次开发山水CAD筑梦人 CAD C#二次开发 c#数据库服务器
用户输入文本内容，运行插件生成二维码（jpg图片格式），扫码即可显示文本内容。※※※也可根据excel文件内容批量一键生成上万个二维码。※※※效果如下：首先需要引用库usingZXing;部分代码如下：publicclass二维码{internalstaticListtempFiles=newList();privatestaticPoint3dcurrentInsertPoint=newPoin
Java基础知识三（运算符）浪迹天涯的贺 Java基础系列上 java 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言更新第三篇文章，这篇文章讲一下Java的运算符相关的知识，对于Java中所有的运算符的种类和内容做一个总结在Java编程中，运算符（Operators）是执行特定操作的符号，它们用于操作变量和数据。本文将详细介绍Java中的运算符种类、用法以及其作用。1.算术运算符（ArithmeticOperators）算术运算符用于执行基本的
MySQL 安全传输向阳1218 大数据 doris
Doris开启SSL功能需要配置CA密钥证书和Server端密钥证书，如需开启双向认证，还需生成Client端密钥证书：默认的CA密钥证书文件位于Doris/fe/mysql_ssl_default_certificate/ca_certificate.p12，默认密码为doris，您可以通过修改FE配置文件conf/fe.conf，添加mysql_ssl_default_ca_certifica
【Image captioning-RS】论文12 Prior Knowledge-Guided Transformer for Remote Sensing Image Captioning CV视界 Image captioning学习 transformer 深度学习人工智能
1.摘要遥感图像(RSI)字幕生成旨在为遥感图像生成有意义且语法正确的句子描述。然而,相比于自然图像字幕,RSI字幕生成面临着由于RSI特性而产生的额外挑战。第一个挑战源于这些图像中存在大量物体。随着物体数量的增加,确定描述的主要焦点变得越来越困难。此外,RSI中的物体通常外观相似,进一步复杂化了准确描述的生成。为克服这些挑战,我们提出了一种基于先验知识的transformer(PKG-Trans
Trae智能协作AI编程工具IDE：如何在MacBook Pro下载、安装和配置使用Trae？
Trae智能协作AI编程工具IDE：如何在MacBookPro下载、安装和配置使用Trae？一、为什么选择Trae智能协作IDE？在AI编程新时代，Trae通过以下突破性功能重新定义开发体验：双向智能增强：AI不仅提供代码补全，更能理解上下文主动建议架构优化方案自然语言编程：支持"用Python写一个带JWT验证的FastAPI用户系统"式开发实时协作画布：可视化呈现AI生成的代码逻辑，支持多模态
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
DeepSeek高能低耗AI创作突破智能计算研究中心其他
内容概要随着人工智能技术向垂直领域加速渗透，生成式模型的应用边界正经历革命性拓展。DeepSeek系列产品通过670亿参数混合专家架构，构建起覆盖学术研究、内容创作与编程开发的多模态解决方案。该架构融合视觉语言理解与多语言处理能力，在保持高响应速度的同时，显著降低算力消耗，其单位计算成本仅为同类产品的三分之一。值得关注的是，系统搭载的DeepSeekProver学术引擎可自动生成文献综述框架，而D
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
AI生成视频是什么，效果如何，影响哪些行业？程序员小麦人工智能 AI作画
有个读者深夜问了我一个问题，让我思考了一个深夜。一年前，我写过一篇文章叫《我可能要给鼓吹AI的那些人，浇盆凉水了》。当时ChatGPT很火，整个网络都把AI吹上了天。我则唱反调，因为我就处在这个行业的底层，可谓知冷知热。不过，我当时并没有否定AI，只是表达AI并没有传说的那般无敌，谈不上让各行各业纷纷失业。首先，AI的门槛很高，基本是头部企业的专属，距离普通大众还是很远。另外，通用模型想要落地，必
如何用AI轻松制作PPT，提升工作效率和演讲质量 HUIPPT剑盾ai 人工智能科技软件 powerpoint 学习
如何用AI轻松制作PPT，提升工作效率和演讲质量！在这个信息爆炸的时代，时间就是金钱。无论是学生、职场人士，还是企业领导，大家都面临着一个共同的挑战——制作PPT。现在有了AI的助力，做PPT不再是件繁琐的事。AI生成PPT的技术，正在迅速改变我们对传统幻灯片制作的认知。小编今天就带大家一起来探讨一下，如何利用AI做PPT，轻松打造出既专业又吸引眼球的演示文稿。AI制作PPT并不是一个新鲜的概念，
AI制作PPT：从繁琐到轻松，一键生成PPT的秘密武器 HUIPPT剑盾ai 人工智能 powerpoint 软件科技 aigc
AI制作PPT：从繁琐到轻松，一键生成PPT的秘密武器！在忙碌的工作日程中，谁不希望省点时间，把繁琐的任务交给智能工具呢？尤其是PPT制作，多少人曾经在设计一份完美的演示文稿时感到焦头烂额。从页面布局到内容排版，再到插图配合，传统的PPT制作可以说是让人捧心捧脑。然而，现在，这一切都可以通过AI来解决。AI制作PPT，帮助你轻松应对各种场合的展示需求。如果你还没尝试过AI生成PPT，那你真的是错过
如何利用AI制作PPT，轻松实现高效演示 HUIPPT剑盾ai 人工智能 powerpoint 学习软件科技
如何利用AI制作PPT，轻松实现高效演示！在这个信息爆炸的时代，PPT已经成为了日常工作和学习中不可或缺的工具。每当我们需要汇报、展示或总结时，PPT几乎成了“必杀技”。然而制作一份精彩的PPT往往需要花费大量的时间和精力。随着人工智能技术的发展，AI做PPT变得越来越简单，不仅节省了我们的时间，还能提升演示的质量。AI生成PPT的最大优势之一就是高效性。过去我们需要一张一张地调整幻灯片，插入图片
RNN及其变体 EmbodiedTech 人工智能大模型自然语言处理
第三章RNN及其变体1认识RNN模型【根据RNN内部结构，可以分为哪几类】定义循环神经网络：一般接受的一序列进行输入，输出也是一个序列作用和应用场景RNN擅长处理连续语言文本，机器翻译、文本生成、文本分类、摘要生成RNN模型的分类根据输入与输出结构NVsN:输入和输出等长，应用场景：对联生成；词性标注；NERNVs1:输入N，输出为单值，应用场景：文本分类1VsN:输入是一个，输出为N，应用场景：
mysql数据库转移到oracle 阳光女孩666 oracle mysql mysql oracle
在研发过程中，可能会用到将表数据库中的表结构及数据迁移到另外一种数据库中，比如说从mysql中迁移到oracle中，常用的方法有好些，如下：1、使用powerdesigner，先连接mysql然后生成mysql的pdm，再把mysql的pdm生成cdm(注：如果设计阶段有cdm那更好，可以直接使用，因为cdm是和具体数据库类型无关的，所以需要转为这个中间模型)，最后把cdm生成oracle类型的p
Java创造型模式之原型模式详解菜就多练少说设计模式 java 开发语言
设计模式是面向对象设计中的一种标准方法，用于解决常见的设计问题。原型设计模式（PrototypePattern）是23种经典设计模式之一，属于创建型模式，它允许通过复制现有对象来创建新对象，而不是通过构造函数或工厂方法来创建。这样，开发者可以在运行时通过复制原型对象来快速生成新的对象，极大地提高了程序的灵活性和性能。本文将深入讲解Java中的原型设计模式，解释其概念、使用场景、以及如何在Java中
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。