PD我是你的真爱粉

Bertopic主题模型原理详解

Bertopic主题模型原理详解 – 潘登同学的NLP笔记

文章目录

- Bertopic主题模型原理详解 -- 潘登同学的NLP笔记
Bertopic主题建模
Nearest-Neighbor-Descent (构建K近邻图)
- 算法详解
- - 理论推导
  - 算法步骤
UMAP降维算法原理
- 学习高维空间中的流形结构
- - 寻找最近的邻居
- UMAP的高维表示
- UMAP的低维表示
- 构造Loss使得高维表示与低维表示相近
- 总结UMAP算法
TF-IDF算法
- TF是词频
- IDF是逆向文件频率
- TF-IDF实际上是：TF * IDF
Sklearn实现TF-IDF算法
- CountVectorizer
- TF-IDF算法的不足
c-TF-ICF创建文本表示
MMR 算法
- - 引用参考

Bertopic主题建模

BERTopic 是一种主题建模技术，它利用 Transformer 和 c-TF-IDF 来创建密集的集群，允许轻松解释主题，同时在主题描述中保留重要词。

该算法包含3个阶段

Embed documents：使用 BERT 或任何其他嵌入技术提取文档嵌入向量
Cluster Documents：
1. 使用UMAP对向量降维(同时保留位置信息)
2. 使用HDBSCAN算法去聚类
Create topic representation(得到主题表示)
1. 使用 c-TF-IDF 提取主题词和减少主题数量
2. 使用最大边际相关性提高单词的连贯性和多样性

相关的算法都在下面列举了详细步骤，最重要的是把这些东西串起来

先将整篇文档输入bert中，得到一篇文档的词向量
对这些词向量运用UMAP进行降维，得到低维词向量
对低维词向量进行聚类，得到聚好类的文档
对聚好类的文档采用 $c - T F - I D F$ 得到各个主题的主题词
对这些主题词进行采用最大边际相关性算法进行筛选

Nearest-Neighbor-Descent (构建K近邻图)

暴力构建K近邻图的时间复杂度为 $O(n^2)$ (分别计算点的两两之间的距离)，为了能更高效的构建K近邻图，现存的工作扩展性都不太好，而且一般都特定于具体的相似性度量;

有效的K近邻图构建仍然是一个开放的问题，解决该问题的已知方案中没有一个是通用、有效和可扩展的,因此提出了NN-Descent方法，该方法具有以下优点：

通用。适用于任意的相似性度量准则。
可扩展。随着数据集尺寸的增加，Recall仅有很小的下降。由于对每一个数据点的局部信息进行操作，因此适用于分布式计算环境
节省空间。整个构建过程仅涉及到一种数据结构——近邻图。
快速、精确。百分之几的相似性比较便可实现90%以上的召回率。

算法详解

理论推导

先声明一些概念：

$V$ 表示数据集，数据集的尺寸为 $N = ∣ V ∣$ ,相似性度量 $\sigma: V \times V \to R$ ;
$\forall v \in V, B_K(v)$ 表示 $v$ 的 $K$ 个最近邻， $R_K(v)=\{u\in V|v \in B_K(u)\}$ 表示 $v$ 的反向 $K$ 个最近邻。
$B [v]$ 和 $R [v]$ 分别表示 $B_K(v)$ 和 $R_K(v)$ 的近似， $\bar{B}[v] = B[v] \cup R[v]$ 表示 $v$ 的一般邻居；

当 $V$ 在度量方式为距离度量时，即 $\times V \to [0, +\infty]$ , $\forall r \in [0, +\infty]$ ,以 $v$ 为球心的r-球定义为： $B_r(v) = \{u \in V|d(u,v)\leq r\}$ ; 如果存在常量 $c$ ，使得
$|B_{2r}(v)| \leq c|B_{r}(v)|$
则称度量空间 $V$ 增长受限， $c$ 是增长常量

基本思想：邻居的邻居更可能是邻居。

理论推导

我们可以从 $V$ 中每一个点的现有的近似K近邻出发，通过探索该点邻居的邻居（在当前近似K近邻中）而不断完善该点的K近邻。换句话说，可从粗略的K近邻图出发通过改进而不断完善它。对这一观点的量化表达如下：

令 $K = C^3$ (后面公式推导要用到， $K$ 这样取值是为了方便)，假定已有的近似K近邻图为 $B$ (可以是随机给每个点选邻居构建的)
$\forall v \in V, B'[v] = \cup_{v'\in B[v]}B[v']$ 表示 $v$ 所有邻居的邻居集合，它也是在完善 $v$ 的K近邻的时候的选点集。
当 $B$ 的精度比较高时(迭代完善了一定次数或通过更好的方法初始化 $B$ )，高到什么程度呢？就是给定一个固定的半径r，对 $\forall v \in V$ , $B [v]$ 包含的K的邻居均匀的分布在 $B_r(v)$ 中。这样的话，当各事件相互独立且 $K << |{B_{r/2}(v)}|$ 时， $B^{'} [v]$ 很可能包含在 $B_{r/2}(v)$ 中的K个邻居中。换句话说，对 $\forall v \in V$ ,通过搜索 $B^{'} [v]$ 来使 $v$ 到它的近似K近邻的距离减半。

对 $B_{r/2}(v)$ 中的一点 $u$ ,要从 $B^{'} [v]$ 中找到，则至少存在一点 $v^{'}$ ,使得 $v'\in B[v]$ ,且 $u\in B[v']$ 。接下来我们只需要找到满足上述条件的 $v^{'}$ 即可。而若 $v'\in B_{r/2}(v)$ ,则有以下几个不等式成立：

$v'\in B_{r/2}(v)$ ,因此有， $P\{v'\in B[v]\}\geq \frac{K}{|B_r(v)|}$ (解释：因为 $v'\in B_{r/2}(v)$ ,则 $\in B_r(v)$ 必然成立。若 $v$ 的 $K$ 个邻居都在 $B_r(v)$ 中取的话，则一共有 $C_{B_r(v)}^K$ 种情况，而 $B_r(v)$ 中的一点不是 $v$ 的邻居的情况有 $C_{|B_r(v)|-1}^K$ 种; 因此 $B_r(v)$ 中的一点是 $v$ 的邻居的概率为 $1-\frac{C_{B_r(v)}^K}{C_{|B_r(v)|-1}^K}$ ,即为 $\frac{K}{|B_r(v)|}$ 。 $B_{r/2}(v)$ 中的一点更可能是 $v$ 的邻居，故 $v^{'}$ 是 $v$ 的邻居的概率大于等于 $\frac{K}{|B_r(v)|}$ )
$\leq d(u,v) + d(v,v') \leq r$ ,因此， $P\{u\in B[v']\}\geq \frac{K}{|B_r(v')|}$ (解释：由第一条推论可知， $B_r(v‘)$ 中的一点是 $v ’$ 的邻居的概率为 $\frac{K}{|B_r(v‘)|}$ ，而 $u 与 v^{'}$ 的距离小于 $r$ ,故 $u$ 是 $v^{'}$ 的邻居的概率大于等于 $\frac{K}{|B_r(v‘)|}$ )
$|B_{r}(v)| \leq c|B_{r/2}(v)|$ ,且 $|B_{r}(v')| \leq c|B_{r/2}(v')| \leq c|B_{r}(v)| \leq c^2|B_{r/2}(v)|$ (解释：重点是 $|B_{r/2}(v')| \leq |B_{r}(v)|$ ,这个不等式可以根据下图来理解，由于 $v^{'}$ 在 $v$ 的 $r / 2$ -球中， $v^{'}$ 的 $r / 2$ -球一定包含于 $v$ 的 $r$ -球中)

由以上3个不等式

$P\{v'\in B[v]\}\geq \frac{K}{|B_r(v)|}$
$P\{u \in B[v']\}\geq \frac{K}{|B_r(v')|}$
$|B_{r}(v)| \leq c|B_{r/2}(v)|$ $|B_{r}(v')| \leq c^2|B_{r/2}(v)|$

假定的各个事件独立性可得：
$P\{v'\in B[v] \land u \in B[v'] \} \geq \frac{K^2}{|B_r(v)||B_r(v')|} \geq \frac{K^2}{|B_r(v)||B_r(v')|} \geq \frac{K^2}{c|B_{r/2}(v)|c^2|B_{r/2}(v)|} = \frac{K}{|B_{r/2}(v)|^2}$
(因为前面假设了 $K=c^3$ )

上式的意义就是，对于 $B_{r/2}[v]$ 中确定的点 $v^{'}$ ,它既是 $v$ 的邻居又是 $u$ 的反向邻居的概率大于等于 $\frac{K}{|B_{r/2}(v)|^2}$ 。

因此，当 $v$ 的邻居从 $B_{r/2}(v)$ 中取时，在 $B_{r/2}(v)$ 中的一点 $u$ 属于 $v$ 的邻居的邻居的概率为
$P\{u \in B[v'] \} \geq 1 - (1-\frac{K}{|B_{r/2}(v)|^2})^{|B_{r/2}(v)|} \approx \frac{K}{|B_{r/2}(v)|} \qquad (*)$
解释： 先考虑 $u$ 不是 $v$ 的邻居的概率，此时，从 $B_{r/2}(v)$ 中取出一点设为 $x$ , $x$ 不是 $v$ 的邻居或者 $u$ 不是 $x$ 的邻居，发生这种情况的概率(根据上上式)为 $1-\frac{K}{|B_{r/2}(v)|^2}$ ,而 $B_{r/2}(v)$ 中一共有 $B_{r/2}(v)|$ 个点，它们都不满足上述情况的概率为 $(1-\frac{K}{|B_{r/2}(v)|^2})^{|B_{r/2}(v)|}$ ，这就是 $u$ 不是 $v$ 的邻居的邻居的概率，从而 $u$ 是 $v$ 的邻居的邻居的概率为 $1-(1-\frac{K}{|B_{r/2}(v)|^2})^{|B_{r/2}(v)|}$ ;

接着，因为 $K<<|B_{r/2}(v)|$ ,因此 $\frac{K}{|B_{r/2}(v)|^2}$ 是无穷小，根据
$\lim_{x\to\infty}(1-\frac{1}{x})^x = \frac{1}{e} \\ \lim_{x\to 0}e^x -1 \sim x$
因为这东西不是严格的求极限，所以写的不是那么严谨，但要是好奇的话，带两组数据进去验证一下也可以
$\begin{aligned} & \lim_{\frac{K}{|B_{r/2}(v)|^2}\to 0} 1 - (1-\frac{K}{|B_{r/2}(v)|^2})^{|B_{r/2}(v)|} \\ =& \lim_{\frac{K}{|B_{r/2}(v)|^2}\to 0} 1 - (1-\frac{K}{|B_{r/2}(v)|^2})^{\frac{|B_{r/2}(v)|^2}{K} \cdot \frac{K}{|B_{r/2}(v)|}} \\ =& \lim_{\frac{K}{|B_{r/2}(v)|^2}\to 0} 1 - (\frac{1}{e})^{\frac{K}{|B_{r/2}(v)|}} \\ =& \lim_{\frac{K}{|B_{r/2}(v)|^2}\to 0} 1 - e^{-\frac{K}{|B_{r/2}(v)|}} \\ =& \lim_{\frac{K}{|B_{r/2}(v)|^2}\to 0} - (e^{-\frac{K}{|B_{r/2}(v)|}} -1 )\\ =& \lim_{\frac{K}{|B_{r/2}(v)|^2}\to 0} \frac{K}{|B_{r/2}(v)|}\\ \end{aligned}$

算法步骤

将整个数据集的直径设为 $\triangle$ , $(*)$ 表明，只要我们取一个足够大的K(取决于增长因子 $c$ )即使我们从一个随机的K近邻图开始，通过探索每一个对象邻居的邻居，便可找到该对象的处于半径为 $\frac{\triangle}{2}$ 的范围的 $K$ 个近邻。不断迭代这一过程，每个对象的邻居距离该对象的距离会不断收缩，最终，构建一个高质量近似K紧邻图

其中，(1)处为更新统计，如果某一个对象的K近邻列表更新了， $c$ 就会加1。算法1的终止条件为自然终止，即没有更新时（ $c = 0$ ）终止。

该算法还有改进的版本，有四个改进（局部连接；增量搜索；采样；提前终止），比较复杂，我这里不打算继续推导了，万一以后有需要，去看王同学的解读或者原论文

UMAP降维算法原理

降维不仅仅是为了数据可视化。它还可以识别高维空间中的关键结构并将它们保存在低维嵌入中来克服“维度诅咒”

UMAP描述为: 一种降维技术，假设可用数据样本均匀（Uniform）分布在拓扑空间（Manifold）中，可以从这些有限数据样本中近似（Approximation）并映射（Projection）到低维空间。

各个名词解释

Projection: 通过投影点在平面、曲面或线上再现空间对象的过程或技术。也可以将其视为对象从高维空间到低维空间的映射。
Approximation: 算法假设我们只有一组有限的数据样本（点），而不是构成流形的整个集合。因此，我们需要根据可用数据来近似流形。
Manifold: 流形是一个拓扑空间，在每个点附近局部类似于欧几里得空间。一维流形包括线和圆，但不包括类似数字8的形状。二维流形（又名曲面）包括平面、球体、环面等。
Uniform: 均匀性假设告诉我们我们的数据样本均匀（均匀）分布在流形上。但是，在现实世界中，这种情况很少发生。因此这个假设引出了在流形上距离是变化的概念。即，空间本身是扭曲的：空间根据数据显得更稀疏或更密集的位置进行拉伸或收缩。

我们可以将UMAP分为两个主要步骤:

学习高维空间中的流形结构
找到该流形的低维表示

学习高维空间中的流形结构

在我们将数据映射到低维之前，肯定首先需要弄清楚它在高维空间中的样子。

寻找最近的邻居

UMAP 首先使用 Nearest-Neighbor-Descent 算法(构建K近邻图)找到最近的邻居。我们可以通过调整 UMAP 的 n_neighbors 超参数来指定我们想要使用多少个近邻点。

试验 n_neighbors 的数量很重要，因为它控制 UMAP 如何平衡数据中的局部和全局结构。它通过在尝试学习流形结构时限制局部邻域的大小来实现。

本质上，一个小的n_neighbors 值意味着我们需要一个非常局部的解释，准确地捕捉结构的细节。而较大的 n_neighbors 值意味着我们的估计将基于更大的区域，因此在整个流形中更广泛地准确。

UMAP的高维表示

UNAP采用概率(联合概率)的形式构建高维样本的两两关系，对于某一个点 $i$ 的K个近邻点 $j$
$p_{i|j} = e ^{-\frac{d(x_i,x_j)-\rho_i}{\sigma_i}}$
此处的 $\rho_i$ 是一个重要参数，代表第 $i$ 个数据点到其地一个最近邻居的距离。这样可以确保图的连通性(如果有一个点距离他的K个近邻点都很远，上面的概率就会趋于0,那么图就不连通了)，而对于 $\sigma_i$ 则采用二分法对其进行搜索，满足的等式为
$2^{\sum_j p_{i,j}}$

高维概率表示必须要保证对称性，所以有：
$p_{ij} = p_{i|j} + p_{j|i} - p_{i|j}p_{j|i}$
为什么要这样做呢，因为前面的K近邻算法，只是选取一个点最近的K个邻居，A的K近邻包含了B，但是B的K近邻可能不一定包含A，于是就有了这样的图

UMAP的低维表示

UMAP使用曲线族 $\frac{1}{1+a\cdot y^(2b)}$ 来建模低维距离概率，在低维中
$q_{i,j} = (1 + a(y_i - y_j)^{2b})^{-1}$
之所以选择这样的函数，是为了拟合一个分段函数
$\begin{cases} 1 & \text{if }y_i-y_j \leq \text{ min dist } \\ e^{-(y_i-y_j)-min dist} & \text{if }y_i-y_j > \text{ min dist } \\ \end{cases}$
注意，这里引入了min-dist,是因为我们不希望在低维空间表示中改变距离。相反，我们希望流形上的距离是相对于全局坐标系的标准欧几里得距离。

从可变距离到标准距离的转换的转换也会影响与最近邻居的距离。因此，我们必须传递另一个名为 min_dist（默认值=0.1）的超参数来定义嵌入点之间的最小距离。

构造Loss使得高维表示与低维表示相近

UMAP使用交叉熵作为loss函数
$\sum_i\sum_j[p_{ij}(X)\log(\frac{p_{i,j}(X)}{q_{ij}(Y)}) + (1-p_{ij}(X))\log(\frac{1-p_{ij}(X)}{1-q_{ij}(Y)})]$
其中， $X$ 表示高维表示，是已知的(相当于ground truth)，而 $Y$ 则是低维表示，是我们想让算法学到的；

可以将这个loss函数与t-sne的loss函数做一个比较，t-sne也是一个降维算法，其loss函数为
$\sum_i\sum_j p_{ij} \log{\frac{p_{ij}}{q_{ij}}}$
将其画出则是：

只需要关注当X比较大，Y比较小的时候(左下角处)，我们想让Y变大,但是此时的Loss函数的梯度很小，不便于调整(但是在X比较小，Y比较大的时候梯度还是不错的)

而UMAP的Loss函数则是：

无论是在X比较大，Y比较小；还是X比较小，Y比较大的时候，梯度都很大，有利于收敛…

总结UMAP算法

对高维数据做NN-Desent算法构造K近邻图
1. 求每个点的参数 $\rho_i$ ：距离点 $i$ 最近的点的距离
2. $\sigma_i$ : 利用 $2^{\sum_j p_{ij}}$ 通过二值搜索得到
3. 计算条件概率 $p_{i|j} = e ^{-\frac{d(x_i,x_j)-\rho_i}{\sigma_i}}$ ,并得到联合概率 $p_{ij} = p_{i|j} + p_{j|i} - p_{i|j}p_{j|i}$
给定min-dist,利用曲线拟合的方法求超参数 $a, b$
初始化低维表示图(或者矩阵)
最小化loss，得到高维数据的低维表示

TF-IDF算法

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降

TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF是词频

词频（TF）表示词条（关键字）在文本中出现的频率，这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
$tf_{ij} = \frac{n_{i,j}}{\sum_k n_{l,j}}$
其中，i表示某个词，j表示某篇文章，k表示该篇文章的总词数；所以上式就是用某一文档中词 $w$ 出现的次数除以总词数，说白了就是该词出现的概率…

IDF是逆向文件频率

逆向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。
$IDF_i = \log(\frac{|D|}{|\{j:t_i\in d_j\}|})$
其中，下标i代表某个词， $∣ D ∣$ 是语料库中的文件总数， $|\{j:t_i\in d_j\}|$ 表示包含词语 $t_i$ 的文件数目；如果该词不在语料库中，就可能会导致分母为0,所以一般会加一个1；
$IDF_w = \log(\frac{总文档数}{包含词w的文档数+1})$

TF-IDF实际上是：TF * IDF

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

$T F - I D F = T F * I D F$

注意 TF-IDF算法非常容易理解，并且很容易实现，但是其简单结构并没有考虑词语的语义信息，无法处理一词多义与一义多词的情况。

Sklearn实现TF-IDF算法

数据集来源于machine translation的中文数据集，数据集下载地址 http://www.statmt.org/wmt17/translation-task.html#download 选择 New Commentary v12进行下载即可

CountVectorizer

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。

CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。

CountVectorizer类的参数很多，分为三个处理步骤：preprocessing、tokenizing、n-grams generation.

也可以直接当作词典来用

属性or方法	作用
vocabulary_	词汇表；字典型,key是词，value是频率
get_feature_names()	所有文本的词汇；列表型
stop_words_	返回停用词表(可以在初始化类的时候传一个停用词列表进去，不传的话sklearn好像自己有默认的停用词表)
fit_transform(x)	训练并返回文本矩阵

用数据输入形式为列表，列表元素为代表文章的字符串，一个字符串代表一篇文章，字符串是已经分割好的。CountVectorizer同样适用于中文;

运行结果：

TF-IDF算法的不足

TF-IDF 采用文本逆频率 IDF 对 TF 值加权取权值大的作为关键词，但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以 TF-IDF 算法的精度并不是很高，尤其是当文本集已经分类的情况下。

在本质上 IDF 是一种试图抑制噪音的加权，并且单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用。这对于大部分文本信息，并不是完全正确的。IDF 的简单结构并不能使提取的关键词，十分有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能。尤其是在同类语料库中，这一方法有很大弊端，往往一些同类文本的关键词被盖。

概括起来，有以下不足

没有考虑特征词的位置因素对文本的区分度，词条出现在文档的不同位置时，对区分度的贡献大小是不一样的。
按照传统TF-IDF，往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词常会被误认为是文档关键词。
传统TF-IDF中的IDF部分只考虑了特征词与它出现的文本数之间的关系，而忽略了特征项在一个类别中不同的类别间的分布情况。
对于文档中出现次数较少的重要人名、地名信息提取效果不佳。

c-TF-ICF创建文本表示

为了对每个分类作出表示，Bertopic修改了TF-IDF模型，使得c-TF-ICF基于的是分类好的文本，而不是整个语料得到关键词

其中x表示某个词， $tf_{x,c}$ 表示词x在类别c中出现的频率， $f_x$ 表示词x在所有类别中出现的频率， $A$ 表示每个类别的平均词数， $W_{x,c}$ 就是词x在c类别中的重要得分； $f_x$ 之所以放到分母上，我的理解是: 如果 $f_x$ 越大，越倾向于说明他是一个常用词而不是能指代某一个类别的词

MMR 算法

最大边界相关法(Maximal Marginal Relevance Coherence)是一种重新确定文档序值的方法;

设计之初是用来计算Query语句与被搜索文档之间的相似度，从而对文档进行rank排序的算法。

具体公式如下：
$\argmax^k_{d_i \in C}[\lambda sim(Q,d_i) - (1-\lambda)\max_{d_j \in R}(sim(d_i,d_j))]$

Q：查询语句
C：所有文档的集合
R：已得到的一个以相关度为基础的初始集合
$argmax^k[*]$ : 给出集合 $K$ 个最大元素的索引
$s i m (Q, d i)$ : 代表的是 $d_i与Q$ 的相关性
$sim(d_i,d_j)$ : 则表示的是 $d_i$ 的冗余性

而MMR的核心，即在权衡这两种性质，即redundancy=cost,relevance=benefit

具体算法如下：

用其他常用的信息检索方法（IR），如普通法，分段法，追溯法等，这样得到起始的K个文档，即总的文档集；
再从中选择Query最接近的一篇文章标记为第一个文档，然后从其他 $K$ 个文档中去掉，作为有序集合，即 $R$
反复这一步骤，重新得到文档的顺序

而对于Bertopic来说，C可能就是C-TF-IDF得到的主题词，然后Q是这个主题的文章，然后执行MMR算法，设定一个阈值，最终筛出主题词；

最后，因为模型太大，下载模型要好多流量，月末了流量不够用，下个月再跑模型吧…

引用参考

UMAP降维算法原理详解和应用示例 https://zhuanlan.zhihu.com/p/432805218

[译]理解 UMAP(1)：UMAP是如何工作的 & UMAP 与 tSNE的原理对比 https://zhuanlan.zhihu.com/p/150788883

最大边界相关法（Maximal Marginal Relevance）的总结 https://blog.csdn.net/eliza1130/article/details/24033161
sklearn中使用CountVectorizer和TfidfTransformer计算TF-IDF https://blog.csdn.net/qq_36134437/article/details/103057909

TF-IDF算法介绍及实现 https://blog.csdn.net/asialee_bird/article/details/81486700

官方算法说明 https://maartengr.github.io/BERTopic/algorithm/algorithm.html

官方模型 https://maartengr.github.io/BERTopic/index.html

GenAI 平台，3 分钟即可构建基于 Claude、DeepSeek 的 AI Agent DO_Community 人工智能
DigitalOcean云服务在前不久发布了GenAI平台——一个让任何团队都能在几分钟内构建和部署AI代理的平台。DigitalOcean的GenAI平台持续扩展，让人工智能驱动的开发变得更加易用、灵活且强大。近日，Digitalocean宣布将Anthropic的Claude模型和DeepSeekR1引入Digitalocean的生态系统，为你提供更多构建和部署AI应用的选择。通过Anthro
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！ V__17671155793 人工智能
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！在科技飞速发展的当下，人工智能正以前所未有的态势重塑着各个行业的格局。直播领域，作为信息传播与商业交互的前沿阵地，也在AI技术的赋能下迎来了颠覆性的变革。其中，马斯克旗下的智享AI直播三代系统宛如一颗璀璨的新星，横空出世，以其卓越的性能和创新的理念，迅速在竞争激烈的直播市场中崭露头角，甚至被业界誉为可媲美DeepSeek的
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
DeepSeek与ChatGPT：会取代搜索引擎和人工客服的人工智能革命云边有个稻草人热门文章 chatgpt 搜索引擎人工智能 DeepSeek
云边有个稻草人-CSDN博客在众多创新技术中，DeepSeek和ChatGPT无疑是最为引人注目的。它们通过强大的搜索和对话生成能力，能够改变我们与计算机交互的方式，帮助我们高效地获取信息，增强智能服务。本文将深入探讨这两项技术如何结合使用，为用户提供更精准、更流畅的对话和搜索体验。目录一、介绍1.1什么是DeepSeek？1.2什么是ChatGPT？1.3DeepSeek与ChatGPT的结合：
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
知识图谱的作用及其更新方式甜瓜瓜哥面试人工智能知识图谱人工智能
知识图谱的作用及其更新方式简介作用1.语义理解和推理2.信息检索3.推荐系统4.自然语言处理5.智能对话系统更新知识图谱的过程1.数据收集2.数据清洗和处理3.知识抽取4.知识融合5.验证和评估6.部署和应用总结简介知识图谱是一种以图形结构表示知识的方法，它包含了实体（如人物、地点、事物）以及它们之间的关系。知识图谱可以用于帮助计算机理解和处理自然语言，进行信息检索，进行推荐系统等多种应用。作用1
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
Python中LLM的知识图谱构建：动态更新与推理二进制独立开发 GenAI与Python 非纯粹GenAI python 知识图谱开发语言自然语言处理人工智能分布式机器学习
文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新6.2实时更新7.结论引言随着人工智能技术的飞速发展，知识图谱（KnowledgeGraph,KG）作为一种结构化的知识表示方法
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
无需配置！深脑云一键启用DeepSeek全系AI模型小深ai硬件分享人工智能深度学习服务器
解锁无限算力潜能，开启DeepSeek镜像云算力新征程！在人工智能风起云涌的时代，算力就是驱动创新的引擎，而优质的模型镜像则是引领变革的密钥。我们向您介绍一下我们的深脑云算力平台，这里汇聚了DeepSeek的各大版本镜像，为您的科研、开发与创新之路注入强大动力！强大的DeepSeek模型家族DeepSeek，作为AI领域的璀璨明星，以其卓越的性能和先进的技术架构闻名遐迩。我们的平台精心整合了Dee
AI服务器散热黑科技：让芯片“冷静”提速小深ai硬件分享人工智能深度学习服务器
AI服务器为何需要散热黑科技在人工智能飞速发展的当下，AI服务器作为核心支撑，作用重大。从互联网智能推荐，到医疗疾病诊断辅助，从金融风险预测，到教育个性化学习，AI服务器广泛应用，为各类复杂人工智能应用提供强大算力。然而，AI服务器在运行时面临着严峻的散热挑战。随着人工智能技术的不断发展，对AI服务器的计算能力要求越来越高，这使得服务器的功率密度急剧增加。以GPT-4的训练为例，它需要大量的GPU
如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？是纯一呀 WSL Docker AI spark 分布式 mllib
如果MLlib中没有你所需要的模型，并且不打算结合更强大的框架（如TensorFlowOnSpark或Horovod），仍然可以使用Spark进行分布式训练，但需要手动处理训练任务的分配、数据准备、模型训练、结果合并和模型更新等过程。模型训练阶段将模型的训练任务分配到Spark集群的各个节点。数据并行：每个节点会处理数据的不同部分，并计算该部分的梯度或模型参数。自定义算法：如果使用的是自定义算法（
深度应用场景：DeepSeek —— 探索AI赋能的智慧未来人工智能专属驿站人工智能
深度应用场景：DeepSeek——探索AI赋能的智慧未来随着人工智能的迅猛发展，数据的价值已不再局限于简单的存储与处理，它们正变得更加智能与高效。DeepSeek，这一创新的AI技术平台，正以其独特的深度学习能力，开启了各行各业的智能化变革。让我们走进一个由DeepSeek打造的深度应用场景，探索它如何推动未来的发展。1.智能医疗：精准诊断，拯救生命想象一下，医生们不再是唯一的诊断专家，而是与AI
在 DeepSeek 驱动的编程变革中抓住机遇并脱颖而出智想天开 AI技术人工智能 deep learning
公众号地址:在DeepSeek驱动的编程变革中抓住机遇并脱颖而出更多内容请关注公众号：智想天开前言在DeepSeek引领的新一轮AI技术革新中，程序员们正面临着前所未有的挑战。随着DeepSeek等人工智能工具的迅猛发展，编程领域正在发生深刻变革。这些先进的工具不仅能够自动化完成繁重的代码生成和调试任务，还能够根据大量数据提供优化建议，改变了传统编程的工作流程。虽然这些技术为提高工作效率和解放开发
项目管理新趋势！2024年，Jira与Codes你更倾向谁？ Codes_AndyLiu jira teambition redmine 项目管理软件项目管理工具项目管理 jira 国产平替
一、项目管理软件新趋势概述2024年，项目管理软件呈现出诸多新趋势，这些趋势对于项目管理的重要性日益凸显。在数字化转型方面，项目管理软件成为企业实现数字化转型的关键工具。让老板感知数据，让中层管理者感受先进，让基层员工感到舒心.人工智能与自动化在项目管理软件中的应用也越来越广泛。项目管理软件正朝着智能化、自动化的方向迈进，利用AI技术提供个性化和场景化解决方案。例如，工作周报AI化，自动化测试，代
【人工智能】提升编程效率的6种GPT实用应用技巧！保姆级讲解！ ChatGPT-千鑫人工智能 AI领域人工智能 gpt AI编程
文章目录实用教程：六大AI编程技巧解锁效率提升技巧1：快速实现需求demo操作步骤技巧2：代码审查——AI帮你提升代码质量操作步骤技巧3：错误排查——AI助你快速定位问题操作步骤技巧4：代码注释——AI帮你理解复杂逻辑操作步骤技巧5：数据整理——AI帮你高效准备测试数据操作步骤技巧6：学习未知代码库——AI助你快速掌握新工具操作步骤使用教程：全面掌握CodeMoss的高效编程工具（1）VSCode
利用人工智能增强可读性：自动为文本添加标点符号姚家湾 AI 标点符号
在数字通信时代，文本的清晰度和可读性至关重要。无论是转录口语、处理原始文本数据还是改进用户生成的内容，标点符号在传达预期信息方面都起着至关重要的作用。但是，手动编辑文本以添加标点符号可能非常耗时且容易出错。这就是人工智能(AI)发挥作用的地方，它提供了一种强大的解决方案，可以自动将标点符号插入句子中。目前，利用大模型的能力，完全可以胜任添加标点符号的工作，不需要其它特别的处理程序。参考代码from
用 TensorFlow 搭建简单的手写数字识别模型 lozhyf 工作面试学习 tensorflow 人工智能 python
一、引言手写数字识别是机器学习领域中一个经典且基础的问题，它在很多实际场景中都有广泛的应用，比如邮政系统中的邮件分拣、银行支票金额识别等。TensorFlow是一个强大的开源机器学习框架，由Google开发并维护，它提供了丰富的工具和接口，能帮助我们快速搭建和训练深度学习模型。在这篇博客中，我们将使用TensorFlow构建一个简单的神经网络模型，用于识别手写数字。二、环境准备在开始之前，你需要安
【机器学习】基于3D CNN通过CT图像分类预测肺炎 MUKAMO AI Python应用机器学习深度学习人工智能神经网络 3D CNN
1.引言1.1.研究背景在医学诊断中，医生通过分析CT影像来预测疾病时，面临一些挑战和局限性：图像信息的广度与复杂性：CT扫描生成的大量图像对医生来说既是信息的宝库也是处理上的负担。每组CT数据可能包含数百张切片，医生必须迅速审阅这些图像，以便捕捉到病变的微小细节。这种庞大的信息量要求医生在有限的时间内做出精准诊断，但同时也增加了漏诊或误诊的风险。部分容积效应也可能模糊小病变的边界，使得准确诊断变
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
TensorFlow LiteRT 概览姚家湾 tensorflow 人工智能 python
LiteRT（简称LiteRuntime，以前称为TensorFlowLite）是Google面向设备端AI的高性能运行时。您可以找到适用于各种机器学习/AI任务的LiteRT就绪模型，也可以使用AIEdge转换和优化工具将TensorFlow、PyTorch和JAX模型转换为TFLite格式并运行。主要特性针对设备端机器学习进行了优化：LiteRT解决了五项关键的ODML约束条件：延迟时间（无需
机器学习（1）安装Pytorch CoderIsArt 机器学习与深度学习机器学习 pytorch 人工智能
1.安装命令pip3installtorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu1182.安装过程Log：Lookinginindexes:https://download.pytorch.org/whl/cu118CollectingtorchDownloadinghttps://download.
《从编程小白到人工智能大神：大学新生Python入门攻略》千帆过尽. python 人工智能
前言在如今这个技术飞速发展的时代，编程已经成为许多大学生不可或缺的技能，尤其是对于人工智能方向的学生来说，编程更是必不可少的一部分。作为一名大三学生，并且专注于Python和人工智能方向，我深知刚开始学习编程时的挑战与迷茫。希望本文能帮助作为大学新生的你们在编程入门的过程中少走弯路，提供一条清晰有效的学习路径。一、编程语言选择作为编程新手，选择一门适合自己的编程语言至关重要。对于希望进入人工智能领
【拥抱AI】如何实现AI外呼通话，并与客户达成确认奔跑草- 人工智能人工智能
实现AI外呼通话并与客户达成确认涉及多个技术组件和步骤。以下是一个基本的流程和技术方案，仅供参考。1.技术选型与准备主要技术组件语音识别（ASR）：将客户的语音转换为文本。自然语言处理（NLP）：理解和生成自然语言对话。语音合成（TTS）：将文本转换为客户可以听到的语音。呼叫平台/API：用于发起和管理电话呼叫。数据库：存储客户信息、通话记录等数据。业务逻辑层：处理对话管理和决策逻辑。2.系统架构
探索Vearch：高效的深度学习向量相似度搜索系统 scaFHIO 深度学习人工智能 python
Vearch是一个可扩展的分布式系统，用于高效搜索深度学习向量的相似度。在本文中，我们将介绍Vearch的技术背景及其核心原理，演示如何使用VearchPythonSDK进行安装和设置，并分析一些实际应用场景，最后提供一些实战建议。技术背景介绍随着深度学习技术的发展，向量相似度搜索在各类应用中变得越来越重要。从图像识别、推荐系统到自然语言处理，向量搜索可以极大地提升系统的性能。然而，随着数据量的增
27岁大龄转码秋招惨败，朋友劝我转Java来得及吗？还是继续走前端或机器学习？程序员yt java 机器学习开发语言
今天给大家分享的是一位粉丝的提问，27岁大龄转码秋招惨败，朋友劝我转Java来得及吗？还是继续走前端或机器学习？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：211建筑本科，22年毕业后gap一年转码去了英国读的QS100的it的水硕（24年12月份毕业），转码后对就业形势认知不足，时间全花在课业上，八股文和算法准备的不充足，秋招算是惨败。读研
华为的云端训练算力与迭代效率 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
华为云、云端训练、算力、迭代效率、人工智能、深度学习、模型训练、分布式训练、优化算法1.背景介绍人工智能（AI）技术近年来发展迅速，深度学习作为其核心驱动力，在图像识别、自然语言处理、语音识别等领域取得了突破性进展。然而，深度学习模型的训练需要海量数据和强大的计算资源，这成为AI技术发展面临的瓶颈之一。云计算作为一种新型的计算模式，为深度学习提供了强大的算力支持。华为云作为国内领先的云计算平台，在
AI外呼机器人：营销新利器还是骚扰电话的升级版？ yoloGina 客户管理外呼系统电话外呼人工智能机器人
"您好，这里是XX房产，最近有购房需求吗？""您好，您最近有种牙需求吗？"相信很多人都接到过类似的营销电话，而电话那头，很可能已经不是真人，而是AI外呼机器人。近年来，AI外呼系统凭借其高效率、低成本的优势，迅速在电销行业普及，成为企业营销的"新宠"。据统计，2022年中国AI外呼市场规模已达50亿元，预计2025年将突破100亿元。AI外呼系统的核心技术是语音识别和自然语言处理。通过深度学习海量
使用Cohere进行文本生成: 从安装到实战 shuoac python 开发语言
Cohere是一家加拿大初创公司，提供自然语言处理模型，帮助企业提升人机交互体验。本文将详细介绍如何使用Cohere进行文本生成，包括环境配置、核心原理、代码演示和实际应用场景分析。1.技术背景介绍随着自然语言处理技术的快速发展，基于大模型的文本生成应用在各行各业中展现出了巨大的潜力。Cohere提供了高效、易用的API，使得开发者能够快速集成高质量的文本生成能力。本文将带你一步步实现这些功能。2
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户