城阙

深度学习-Embedding技术总结

深度学习Embedding技术总结

介绍下Word2vec
Word2vec如何进行负采样
Word2vec对顺序敏感吗
介绍下PageRank
介绍下Item2vec
介绍下Deepwalk
介绍下Node2vec
用户Embedding方法有哪些
Embedding冷启动怎么做

介绍下Word2vec

1. Word2vec是什么

Word2vec 是 “word to vector” 的简称，顾名思义，Word2vec 是一个生成对“词”的向量表达的模型。 Word2vec，其实是词嵌入（ word embedding) 的一种实现方法。

为了训练 Word2vec 模型，需要准备由一组句子组成的语料库。假设其中一个长度为 $T$ 的句子为 $w_1,w_2,...,w_T$ ，假定每个词都跟其相邻的词的关系最紧密，即每个词都是由相邻词决定的（CBOW模型的主要原理），或者每个词都决定了相邻的词（Skip-gram模型的主要原理）。CBOW模型的输入是 $w_t$ 周边的词，预测的输出是 $w_t$ ，而 Skip-gram 则相反。经验上讲，Skip-gram 的效果较好。

小结：
1）如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做『Skip-gram 模型』；
2）而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是『CBOW 模型』

2. Skip-gram和CBOW模型的简单结构

假设语料库中词的数量为 $V$ ，Word2vec的网络结构可表示为如下形式：

那么，这个图究竟是怎么来的？ 因为 Word2vec 本身也是基于语言模型，根据条件概率 $p(w_{t_j}|w_t)$ 的定义，把两个向量的乘积在套上一个 softmax 的形式，就转换成了该图所表示的神经网络结构。左侧输入为某个词 $x$ 的 one-hot encoder，右侧输出为这个词的预测结果 $y$ （向量维度和 $x$ 相同），也就是在 $V$ 个词上预测的概率，目标是希望神经网络预测的 $y$ 和真实的 $y$ 的 one-hot encoder 能够一模一样。

需要说明一点：隐层的激活函数其实是线性的，相当于没做任何处理（这也是 Word2vec 简化之前语言模型的独到之处），我们可以通过反向传播算法训练这个神经网络。用神经网络表示 Word2vec 的模型架构后，在训练过程中就可以通过梯度下降法来求解模型参数。

当模型训练完后，最后得到的其实是神经网络的权重，比如现在输入一个 $x$ 的 one-hot encoder: [1,0,0,…,0]，它能表示『吴彦祖』这个单词，则在输入层到隐含层的权重里，只有对应 1 这个位置的权重被激活，这些权重的个数，跟隐含层节点数是一致的，从而这些权重组成一个向量 $\pmb{v}_x$ 来表示 $x$ ，而因为每个词语的 one-hot encoder 里面 1 的位置是不同的，所以，这个向量 $\pmb{v}_x$ 就可以用来唯一表示 $x$ 。

在获得输入向量矩阵 $\pmb{W}_{V \times N}$ 后，其中每一行对应的权重向量就是通常意义上的“词向量”，也就是上面所说的 $\pmb{v}_x$ 。于是，这个权重矩阵自然转换成了 Word2vec 的查找表（lookup table）。例如，输入向量是 10000 个词组成的 one-hot 向量，隐层维度是 300 维，那么输入层到隐层的权重矩阵为 10000 $\times$ 300 维。在转换为词向量查找表后，每行的权重即成了对应词的 Embedding 向量。

以上，即为 Word2vec 的精髓！

此外，输出 $y$ 也是用 $V$ 个节点表示的，对应V个词语，所以其实，我们把输出节点置成 [1,0,0,…,0]，它也能表示『吴彦祖』这个单词，但是激活的是隐含层到输出层的权重，这些权重的个数，跟隐含层一样，也可以组成一个向量 $\pmb{v}_y$ ，跟上面提到的 $\pmb{v}_x$ 维度一样，并且可以看做是词语『吴彦祖』的另一种词向量。而这两种词向量 $\pmb{v}_x$ 和 $\pmb{v}_y$ ，正是 Mikolov 在论文里所提到的，『输入向量』和『输出向量』，一般我们用『输入向量』。

需要提到一点的是，这个词向量的维度（与隐含层节点数一致）一般情况下要远远小于词语总数 $V$ 的大小，所以 Word2vec 本质上是一种降维操作——把词语从 one-hot encoder 形式的表示降维到 Word2vec 形式的表示。

3. word2vec两种训练方法损失函数推导

Skip-gram模型

可以看成是单个x->单个y 模型的并联，cost function 是单个 cost function 的累加（取log之后）。

为了产生模型的正样本，我们选一个长度为2c+1（目标词前后各选c个词）的滑动窗口，从句子左边滑到右边，每滑一次，窗口中的词就形成了我们的一个正样本。

有了训练样本之后我们就可以着手定义优化目标了，既然每个词 $w_t$ 都决定了相邻词 $w_{t_j}$ ，基于极大似然，我们希望所有样本的条件概率 $p(w_{t+j}|w_t)$ 之积最大，这里我们使用log probability。我们的目标函数有了：

接下来的问题是怎么定义 $p(w_{t+j}|w_t)$ ，作为一个多分类问题，最简单最直接的方法当然是直接用softmax函数，我们又希望用向量 $w_t$ 表示每个词w，用词之间的内积距离 $v_i^Tv_j$ 表示语义的接近程度，那么我们的条件概率的定义就可以很直观的写出。

其中， $w_O$ 代表 $w_{t+j}$ ，被称为输出词； $w_I$ 代表 $w_t$ ，被称为输入词。

CBOW模型

和 Skip-gram 的模型并联不同，这里是输入变成了多个单词，所以要对输入处理下（一般是求和然后平均），输出的 cost function 不变。

目标函数为：

其中， $w$ 表示语料库 $C$ 中任意一个词。

参考文章

[NLP] 秒懂词向量Word2vec的本质
万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec
世上最通俗的理解word2vec
浅谈word2vec
图解word2vec
word2vec是如何得到词向量的？
Bert比之Word2Vec,有哪些进步呢？
word2vec（二）：面试！考点！都在这里
nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert
理解 Word2Vec 之 Skip-Gram 模型
word2vec的通俗理解
词语向量化-word2vec简介和使用
Word2Vec的参数解释
一文说懂Cbow和Skipgram
word2vec中的CBOW模型
超详细总结之Word2Vec（一）原理推导
Word2Vec概述与基于Hierarchical Softmax的CBOW和Skip-gram模型公式推导
skip-gram和cbow优缺点？

Word2vec如何进行负采样

标准Word2vec存在的问题

以 Skip-gram 模型为例，其核心在于使⽤softmax运算得到给定中心词 $w_c$ 来⽣成背景词 $w_o$ 的条件概率：

该条件概率相应的对数损失：

由于softmax运算考虑了背景词可能是词典 $V$ 中的任⼀词，以上损失包含了词典大小数目项的累加。其实，不论是跳字模型还是连续词袋模型，由于条件概率使用了softmax运算，每⼀步的梯度计算都包含词典大小数目项的累加。对于含几十万或上百万词的较大词典，每次的梯度计算开销可能过大。为了降低该计算复杂度，提出了两种近似训练⽅法，即负采样（negative sampling）和层序softmax（hierarchical softmax）。

负采样

负采样修改了原来的目标函数。给定中心词 $w_c$ 的⼀个背景窗口，我们把背景词 $w_o$ 出现在该背景窗口看作⼀个事件，并将该事件的概率计算为：

其中的 $\sigma$ 函数与sigmoid激活函数的定义相同：

我们先考虑最大化文本序列中所有该事件的联合概率来训练词向量。具体来说，给定⼀个长度为 $T$ 的文本序列，设时间步 $t$ 的词为 $w^{(t)}$ 且背景窗口大小为 $m$ ，考虑最大化联合概率：

然而，以上模型中包含的事件仅考虑了正类样本。这导致当所有词向量相等且值为无穷大时，以上的联合概率才被最大化为1。很明显，这样的词向量毫无意义。负采样通过采样并添加负类样本使目标函数更有意义。设背景词 $w_o$ 出现在中心词 $w_c$ 的⼀个背景窗口为事件 $P$ ，我们根据分布 $p (w)$ 采样 $K$ 个未出现在该背景窗口中的词，即噪声词。设噪声词 $w_k(k=1,2,...,K)$ 不出现在中心词 $w_c$ 的该背景窗口为事件 $N_k$ 。假设同时含有正类样本和负类样本的事件 $P$ ， $N_1,...,N_k$ 相互独立，负采样将以上需要最大化的仅考虑正类样本的联合概率改写为：

其中条件概率被近似表示为：

设文本序列中时间步 $t$ 的词 $w^{(t)}$ 在词典中的索引为 $i_t$ ，噪声词 $w_k$ 在词典中的索引为 $h_k$ 。有关以上条件概率的对数损失为：

现在，训练中每⼀步的梯度计算开销不再与词典大小相关，而与 $K$ 线性相关。当 $K$ 取较小的常数时，负采样在每⼀步的梯度计算开销较小。

小结

将负采样近似训练方法和标准word2vec进行对比，可以发现负采样在标准word2vec的基础上做了两点改进：

1）针对softmax运算导致的每次梯度计算开销过大，将softmax函数调整为sigmoid函数，当然对应的含义也由给定中心词，每个词作为背景词的概率，变成了给定中心词，每个词出现在背景窗口中的概率；
2）进行负采样，引入负样本，负采样的名字就是取了第二个改进点。

参考文章

自然语言处理-word2vec-负采样/Negative Sampling
word2vec（二）：面试！考点！都在这里
word2vec中的负采样与分层softmax
Word2Vec介绍: 为什么使用负采样（negtive sample）？

Word2vec对顺序敏感吗

对顺序敏感的原因，窗口大小选用多少

窗口大小影响词和前后多少个词的关系，和语料中语句长度有关，建议可以统计一下语料中，句子长度的分布，再来设置window大小。一般设置成8。

参考文章

关于word2vec，我有话要说
word2vec的经验总结

介绍下PageRank

1. 回顾下TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。这也就是TF-IDF的含义。TF-IDF分为 TF 和 IDF，下面分别介绍这个两个概念。

1.1 TF

TF(Term Frequency, 词频)表示词条在文本中出现的频率，这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否）。TF用公式表示如下

其中， $n_{i,j}$ 表示词条 $t_i$ 在文档 $d_j$ 中出现的次数， $TF_{i,j}$ 就是表示词条 $t_i$ 在文档 $d_j$ 中出现的频率。

但是，需要注意，一些通用的词语对于主题并没有太大的作用，反倒是一些出现频率较少的词才能够表达文章的主题，所以单纯使用是TF不合适的。权重的设计必须满足：一个词预测主题的能力越强，权重越大，反之，权重越小。所有统计的文章中，一些词只是在其中很少几篇文章中出现，那么这样的词对文章的主题的作用很大，这些词的权重应该设计的较大。IDF就是在完成这样的工作。

1.2 IDF

IDF（Inverse Document Frequency，逆文件频率）表示关键词的普遍程度。如果包含词条 $i$ 的文档越少， IDF越大，则说明该词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

其中， $∣ D ∣$ 表示所有文档的数量， $j:t_i \in d_j$ 表示包含词条 $t_i$ 的文档数量，为什么这里要加 1 呢？主要是防止包含词条 $t_i$ 的数量为 0 从而导致运算出错的现象发生。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语，表达为：

2. PageRank的作用

PageRank算法可以用来计算网络中每个节点的重要性，即PR值。

思考：
PageRank相比TF-IDF的优势？

参考文章

TF-IDF 原理与实现
TF-IDF与余弦相似性的应用（一）：自动提取关键词
什么是 tf-idf ？
PageRank全家桶：PR、PPR、HK-PR、GPR和TPR
机器学习十大经典算法-PageRank（附实践代码）
从PageRank到反欺诈与TextRank
PageRank算法详解
[算法系列03] 浅谈PageRank算法
PageRank算法原理与实现
TF-IDF算法和TextRank算法的分析比较

介绍下Item2vec

在word2vec诞生之后，embedding的思想迅速从NLP领域扩散到几乎所有机器学习的领域，我们既然可以对一个序列中的词进行embedding，那自然可以对用户购买序列中的一个商品，用户观看序列中的一个电影进行embedding。而广告、推荐、搜索等领域用户数据的稀疏性几乎必然要求在构建DNN之前对user和item进行embedding后才能进行有效的训练。

具体来讲，如果item存在于一个序列中，item2vec的方法与word2vec没有任何区别。而如果我们摒弃序列中item的空间关系，在原来的目标函数基础上，自然是不存在时间窗口的概念了，取而代之的是item set中两两之间的条件概率。

item2vec的目标函数如下：

其表示大小为K的item set中两两item的log probability之和

小结：

相比于Word2vec利用“词序列”生成词Embedding。Item2vec利用“物品序列”构造物品Embedding。其中物品序列是由指定用户的浏览购买等行为产生的历史行为序列。

其中 $V$ 代表总item个数， $N$ 代表item向量的维度，即隐层神经元个数。Item2vec和Word2vec的唯一不同在于，Item2vec没有使用时间窗口的概念，认为一个序列中任意两个物品都相关。item2vec是为了得到item embedding 和 user embedding，然后利用用户向量和物品向量的相似性，在召回层快速得到候选集合。

item embedding: 收集用户行为序列，采用word2vec思想，生成每个item的Embedding
user embedding: 由历史item embedding AVG pooling、 SUM pooling 或聚类得到。

参考文章

万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec
DNN论文分享 - Item2vec
论文｜Item2vec中值得细细品味的8个经典tricks和thinks
推荐系统中如何做 User Embedding？
【推荐系统】item2vec
item2vec详解
从用户行为去理解内容-item2vec及其应用

介绍下Deepwalk

1. 直观理解Graph Embedding

Graph Embedding研究的就是用向量来表示图上的节点，且保留了这样一个重要的性质：在图上距离较近的节点，在向量空间中的距离也较近。下图这个例子可以帮助我们理解这个过程：

Deepwalk其实属于Graph Embedding中的一种实现方法。

更多内容可阅读图上的机器学习系列-聊聊DeepWalk这篇文章。

2. Deepwalk的思想

在NLP任务中，word2vec是一种常用的word embedding方法，word2vec通过语料库中的句子序列来描述词与词的共现关系，进而学习到词语的向量表示。

DeepWalk的思想类似word2vec，使用图中节点与节点的共现关系来学习节点的向量表示。那么关键的问题就是如何来描述节点与节点的共现关系，DeepWalk给出的方法是使用随机游走(RandomWalk)的方式在图中进行节点采样。

RandomWalk是一种可重复访问已访问节点的深度优先遍历算法。给定当前访问起始节点，从其邻居中随机采样节点作为下一个访问节点，重复此过程，直到访问序列长度满足预设条件。

获取足够数量的节点访问序列后，使用skip-gram model 进行向量学习。

3. 算法

整个DeepWalk算法包含两部分，一部分是随机游走的生成，另一部分是参数的更新。

算法的流程如下：

其中第2步是构建Hierarchical Softmax，第3步对每个节点做γ次随机游走，第4步打乱网络中的节点，第5步以每个节点为根节点生成长度为t的随机游走，第7步根据生成的随机游走使用skip-gram模型利用梯度的方法对参数进行更新。

参数更新的细节如下：

文中还使用了Hierarchical Softmax的方法，这也是词向量中用到的一个重要方法。

总结：

总的来说这篇论文算是network embedding的开山之作，它将NLP中词向量的思想借鉴过来做网络的节点表示，提供了一种新的思路，后面会有好几篇论文使用的也是这种思路，都是利用随机游走的特征构建概率模型，用词向量中Negative Sampling的思想解决相应问题。

思考：
DeepWalk相比序列embedding优缺点，对哪一部分item影响最大？

参考文章

【Graph Embedding】DeepWalk：算法原理，实现和应用
【论文笔记】DeepWalk
生动详解deepwalk算法（graph embedding）
网络表示学习(一)–DeepWalk、LINE、Node2Vec、HARP、GraphGAN
从入门DeepWalk到实践Node2vec
图上的机器学习系列-聊聊DeepWalk

介绍下Node2vec

1. Node2vec核心思想（优化目标）

Node2Vec是一份基于DeepWalk的延伸工作，它改进了DeepWalk随机游走的策略。

Node2Vec认为，现有的方法无法很好的保留网络的结构信息，例如下图所示，有一些点之间的连接非常紧密(比如u, s1, s2, s3, s4)，他们之间就组成了一个社区(community)。网络中可能存在着各种各样的社区，而有的结点在社区中可能又扮演着相似的角色(比如u与s6)。

Node2Vec的优化目标为以下两个：

让同一个社区内的结点表示能够相互接近（同质性DFS，如u, s1, s2, s3, s4）
或在不同社区内扮演相似角色的结点表示也要相互接近。（结构性BFS，如u和s6）

为此，Node2Vec就要在DeepWalk现有的基础上，对随机游走的策略进行优化。Node2Vec提出了两种游走策略：广度优先策略和深度优先策略。

关于同质性和结构性

Node2vec是在DeepWalk的基础上更进一步，通过调整随机游走权重的方法使graph embedding的结果在网络的同质性（homophily）和结构对等性（structural equivalence，下面简称结构性）中进行权衡。

其中，网络的“同质性”指的是距离相近节点的embedding应该尽量近似，如上图中，节点u与其相连的节点s1、s2、s3、s4的embedding表达应该是接近的，这就是“同质性“的体现。

“结构性”指的是结构上相似的节点的embedding应该尽量接近，上图中节点u和节点s6都是各自局域网络的中心节点，结构上相似，其embedding的表达也应该近似，这是“结构性”的体现。

DFS擅长学习网络的同质性，BFS擅长学习网络的结构性。

2. 游走策略

就如上图的标注所示，深度优先游走策略将会限制游走序列中出现重复的结点，防止游走掉头，促进游走向更远的地方进行。而广度优先游走策略相反将会促进游走不断的回头，去访问上一步结点的其他邻居结点。

这样一来，当使用广度优先策略时，游走将会在一个社区内长时间停留，使得一个社区内的结点互相成为context，这也就达到了第一条优化目标。相反，当使用深度优先的策略的时候，游走很难在同一个社区内停留，也就达到了第二条优化目标。

那么如何达到这样的两种随机游走策略呢，这里需要用到两个超参数p和q用来控制深度优先策略和广度优先策略的比重，如下图所示。

假设现在游走序列从t走到v，这时候需要算出三个系数，分别作为控制下一步走向方向的偏置α

其中d(t, x)代表t结点到下一步结点x的最短路，最多为2。

当d(t, x)=0时，表示下一步游走是回到上一步的结点；
当d(t, x)=1时，表示下一步游走跳向t的另外一个邻居结点；
当d(t, x)=2时，表示下一步游走向更远的结点移动。

而Node2Vec同时还考虑了边权w的影响，所以最终的偏置系数以及游走策略为

这样一来，就可以看出，超参数p控制的是重新访问原来结点的概率，也就是保守探索系数，而超参数q控制的是游走向更远方向的概率，也就是激进探索系数。如果q较大，那么游走策略则更偏向于广度优先策略，若q较小，则偏向于深度优先策略。

参考文章

网络表示学习(一)–DeepWalk、LINE、Node2Vec、HARP、GraphGAN
node2vec随机游走实现思路
【Graph Embedding】node2vec：算法原理，实现和应用
graph embedding之node2vec
关于Node2vec算法中Graph Embedding同质性和结构性的进一步探讨
node2vec和deep walk到底在捕捉网络的什么特性
探索node2vec同质性和结构性之谜
node2vec原理介绍及实践

用户Embedding方法有哪些

一般来说是利用用户的行为序列去表示。

最原始的还是基于矩阵分解，或者矩阵分解的各种变形。工业场景下并不是个好的选择，存在着计算复杂度高，训练时间长，难以优化等各种各样的问题。

最简单的方法就是将用户有过行为的item序列取平均，作为用户的向量表示。具体做法可以借鉴一下word2vec中的CBOW。

稍微复杂一些，可以参考youtube DNN（双塔模型），添加上用户的属性特征，比如性别，年龄等，再加几层网络，输出隐层作为用户向量表示。

取平均显得有些粗糙，因为用户的兴趣在不断变化，通常越新的行为item，表示用户最近的兴趣，起得作用更大，可以采用GRU，CNN，Transformer等模块来处理item序列，用输出隐层作为用户的向量表示。Transformer尤其好用，会自动地对不同的item选择权重。这些方法一般称为基于session或者基于sequence的推荐算法。具体做法可以搜索GRU4Rec，GRU4Rec＋，Caser，SAS4Rec，BERT4Rec。

更多内容强烈推荐阅读知乎高赞解答~

参考文章

推荐系统中如何做 User Embedding？

Embedding冷启动怎么做

1. Embedding冷启动问题出现的根源

在着手解决它之前，必须要搞清楚这个问题出现的根源在哪，为什么Embedding冷启动问题那么不好解决。我们以最简单的Word2vec为例（其他所有Embedding方法，不管多复杂，都遵循同样的原则），训练它的最终目的是要得到与onehot输入对应的向量，用这个Embedding向量来表示一个用户，或者一个物品，或者一个特定的特征。

Word2vec的模型结构图：

为了生成这样一个Embedding向量，我们就必须完成整个神经网络的训练，拿上面的Word2vec的结构图来说，你必须在Embedding matrix W训练完毕、收敛之后，才能够提取对应的Embedding。

这个时候冷启动的问题就来了，如果在模型训练完毕之后，又来了一个新的user或者item。怎么办？

要想得到新的Embedding，就必须把这个新的user/item加到网络中去，这就意味着你要更改输入向量的维度，这进一步意味着你要重新训练整个神经网络，但是，由于Embedding层的训练往往是整个网络中参数最大，速度最慢的，整个训练过程持续几个小时是非常常见的。这个期间，肯定又有新的item产生，难道整个过程就成一个死局了吗？这个所谓的“死局”就是棘手的Embedding的冷启动问题。

2. 入手解决问题

清楚了问题的根源，我们开始入手分析和解决问题。从整个深度学习推荐系统的框架角度解决这个问题，我觉得可以从四个角度考虑：

信息和模型
补充机制
工程框架
跳出固有思维

详情可参考王喆大佬写的如何解决深度推荐系统中的Embedding冷启动问题？这篇文章。

参考文章

如何解决深度推荐系统中的Embedding冷启动问题？
有哪些解决推荐系统中冷启动的思路和方法？
推荐系统如何解决对于使用频率较低的产品的用户特征冷启动的问题？
《推荐系统》系列之三：一文读懂冷启动推荐
用户增长：新用户冷启动
推荐系统 embedding 技术实践总结
「今日摘选」推荐中常见的Embedding方法

你可能感兴趣的:(深度学习,自然语言处理)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag