牛云杰

基于CBOW网络手动实现面向中文语料的word2vec

最近在工作之余学习NLP相关的知识，对word2vec的原理进行了研究。在本篇文章中，尝试使用TensorFlow自行构建、训练出一个word2vec模型，以强化学习效果，加深理解。

一.背景知识：

在深度学习实践中，传统的词汇表达方式是使用one-hot向量，其中，向量的维度等于词汇量的大小。这会导致在语料较为丰富，词汇量较大的时候，向量的维度过长，进而产生一个相当大的稀疏矩阵，占用不少内存开销，降低机器运行速度。而word2vec则为这个问题提供了一种解决方案。

word2vec是一个用来产生词向量的相关模型，使用固定长度(长度较短)的词向量来代替one-hot向量，从而降低深度学习网络中的运算复杂度。其基本思想是使用skip-gram网络/cbow网络来对语料进行训练，留下其中间过程所生成的权重矩阵作为词向量表。这个词向量表是一个[词汇量大小*词向量维度]的矩阵，在使用时，可以使用one-hot向量和词向量表做矩阵乘法，提取出对应词汇的词向量以供后续使用。

除了降低词向量的维度之外，word2vec可以使两个含义相近的词语用于更为接近的词向量(即两个词向量之间的欧式距离更接近)。因此在搭建语言模型时拥有更强大的逻辑相关性。

现在已经有一个较为方便的word2vec模块(由Google开发)供大家使用，可以通过 pip install word2vec 指令来对其进行安装使用。为加深理解，强化学习效果，这里我们不使用该模块，尝试自己搭建预训练网络来生成word2vec词向量表。

二.建模思路：

这次的建模、训练流程如下图所示，大致分为语料预处理，网络搭建，训练存储三个阶段。

由于这次是对中文语料进行处理，因此预处理过程中较为复杂，相比处理英文语料多一个分词的步骤。此外，也没有查找到资料详细的解释word2vec是否需要对所有词汇进行训练，因此这里在预处理步骤中加入了词频统计，仅提取出10000个出现频率最高的词语作为常用词汇进行建模训练。

三.语料预处理：

这里我们使用的是搜狐新闻语料库(1.5GB)来作为我们的数据源。下载地址为：http://www.sogou.com/labs/resource/cs.php

首先我们要进行语料的预处理工作。搜狐新闻语料库是一个结构化的语料数据文件，其中，新闻标题位于标签中，新闻内容位于标签中。第一步就是要将新闻内容从标签中提取出来。

3.1 乱码问题

在提取新闻内容时，遇到了一个比较棘手的编码问题。在这个数据文件中，大部分的新闻内容是使用GBK方式进行编码的，而其中又夹杂着某些字符使用了其他编码格式，包括Unicode，ISO-8859-1等等。为解决这个问题，这里引入datadec模块来判断字符的编码格式。最初的想法是使用datadec来判断每一个字符，使用判断出的格式来对其进行解码。但实际问题是各种编码格式所占字节数长度并不一致，如GBK是双字节编码，而UTF-8则是可变长字符编码，从1-6字节不等，如果每次读取一个固定长度来datadec其编码类型，往往会判断出错。因此，在语料预处理中，读取文件的每一行，使用datadec.detect()函数来判断该行文件的编码格式，之后用对应的格式进行解码。其中遇到串码问题无法正确解析的，在decode()函数中使用errors=’ignore’参数来对该问题进行忽略，保证程序的正常运行。但最终生成的文件还是会有部分乱码，后期会使用词频统计的方式尽量将其过滤。

解决乱码问题的关键代码如下(注意读文件时要使用二进制方式读取，即’rb’)：

 1 pure_file = open(path[:-4]+"_pure.txt",'w',encoding='utf-8')
 2 with codecs.open(path,'rb') as f_corp:
 3    # TODO 去除杂质编码
 4     count = 0    # 记录总共处理了多少行新闻文件
 5     count1 = 0   # 记录通过非GBK编码处理了多少行新闻文件
 6     lines = f_corp.readlines()
 7     for word in lines:
 8         try:
 9             count += 1
10             # 此处不设置 errors='ignore' 参数，尝试使用GBK解码，遇到解析问题时跳入except处理流程。
11             word_out = word.decode('gbk')
12             pure_file.write(word_out)
13         except:
14             count1 += 1
15             code_name = chardet.detect(word)
16             if code_name['confidence']>0.90:
17                 word_out = word.decode(code_name['encoding'],errors='ignore')
18                 pure_file.write(word_out)
19             else:
20                 continue
21 pure_file.close()

在解决完乱码问题之后，我们通过匹配标签来提取所需要的新闻内容，使用逻辑判断的方式。

1 content_file = open(path[:-4]+"_content.txt",'w',encoding='utf-8')
2 with open(path,'r',encoding='utf-8') as f_corp:
3     content_lines = f_corp.readlines()
4     for item in content_lines:
5         if item[:9]=='' and len(item)>20:     # 需判断长度，防止有 的情形出现
6             content_file.write(item[9:-11]+'\n')
7 content_file.close()

最终获得纯净的新闻内容供后续使用，类似下图所示(可以看出仍有部分乱码，后期会通过词频统计进行处理)。

3.2 分词与词频统计

拿到纯净的新闻内容后，就可以进行分词与词频统计工作。这里使用jieba分词器来完成我们的分词工作。jieba分词器是一个轻量级的中文分词模块，可以使用pip install jieba指令来进行安装。注意，由于jieba是第三方python模块，因此不能够使用conda来进行安装。

考虑到后面制作训练样本时，各类词语容易与标点形成训练样本，影响训练效果。在分词之前，首先借助unicodedata模块中的category函数来去除新闻中的标点符号。

1 for ss in c_lines:
2     sentences = ''.join(ch for ch in ss if category(ch)[0]!='P')

对每一行新闻通过上述语句进行扫描，排除掉其中的标点符号。

之后使用jieba分词器来对语句进行切分，并存入语料文件。

1 words = jieba.cut(sentences,cut_all=False)
2 words = ' '.join(words)  # 使用 空格 将每一个词汇隔开 此时是str类型变量。
3 array_c.append(words[:-1])   # 去除句末的 '\n'

切分后语料如下：

可以看出，在文本中仍然存在有些许乱码，这多少为后续的准确训练埋下隐患，但由各种乱码常常是孤立字符，可以通过统计常用词的方式将其进行排除。

为完成词频统计工作，我们建立两个list，array_di(记录已统计的词汇)以及array_dn(记录array_di中各对应位置词汇的出现次数)。代码逻辑大致如下：挨个扫描新闻中词汇，若该词语已在存在于array_di中，则array_dn的对应位置+1；若该词汇从未出现过，则将其添加在array_di的末尾，同时array_dn的末尾添加一个1，表示这个词汇出现了一次。

在分词与词频统计的过程中，会出现程序运行缓慢，CPU使用率较低的情况，可以使用多进程的方法分派工作，待所有子进程完工之后，再进行拼接。具体方法在我的上一篇学习笔记中有描述。(学习笔记-使用多进程、多线程加速文本内容预处理)

截取常用词的工作可以使用numpy模块的argsort()函数来对array_dn进行逆序排序，截取数值最大的10000个值所在的索引，提取出对应索引在array_di中的词汇做成字典，保存在json文件内。

1 dict_list_index_last = np.array(array_dn)
2 word_frequent_list = np.argsort(-dict_list_index_last)    # 降序排序，并获取其排序的索引顺序
3 d_out = dict()            # TODO 最终常用词词典列表
4 count = 0
5 for index in word_frequent_list[:10000]:    # 提取10000个常用词汇
6     d_out[array_di[index]] = count
7     count += 1
8 with open(pured_file[:-4]+'_dict.json','w',encoding='utf-8') as f_dict:
9     json.dump(d_out, f_dict)

最终生成的.json文件如下：

其中，key为词汇的utf-8编码，value值为其对应的位置，取值从0~9999。为后续构建初始one-hot vector作好了准备。

四.网络搭建：

4.1 模型结构设计

数据预处理工作完成以后，可以开展网络结构的设计。有两种网络模型可以用来进行word2vec的训练，分别是CBOW(Continuous Bag-of-Words Model)和skip-Gram(Continuous Skip-gram Model)。这两个网络的区别主要在于训练样本的构造。

CBOW构造一个训练样本时，样本的输入为当前词汇的前n个词和后n个词，其中n表示窗口长度。例如对于句子[寒冷的冬天我爱在学校里跑步]，当窗口长度为2的时候，这个句子可以分解为4个训练样本，即[[寒冷的,冬天,爱,在],[我]]，[[冬天,我,在,学校],[爱]]，[[我,爱,学校,里],[在]]，[[爱,在,里,跑步],[学校]]。其中每一个样本的前半部分为输入，后半部分为其对应的输出。

而使用skip-Gram来构造训练样本时，同样取向前n个词和向后n个词作为窗口。但输入与输出的维度是相等的，即训练样本以词对的形式来展现。同样对于[寒冷的冬天我爱在学校里跑步]这个句子，窗口长度n=2。

输出词汇为[寒冷的]时，有[[寒冷的],[冬天]]，[[寒冷的],[我]]两个样本，

输入词汇为[冬天]时，有[[冬天],[寒冷的]]，[[冬天],[我]]，[[冬天],[爱]]三个样本，

输入词汇为[我]时，有[[我], [寒冷的]]，[[我], [冬天]]，[[我],[爱]]，[[我],[在]]这四个样本。

以此类推，这句话一共可以生成2+3+4+4+4+4+3+2=26个样本。相对于CBOW网络来说训练内容要丰富一些。

考虑到训练量过大会比较考验机器性能，这里选择使用CBOW网络来完成word2vec的训练。

现在开始考虑网络的维度结构，因为选择的是CBOW网络，所以说初始的输入是2*n个词汇(n表示窗口长度)，即2*n个one-hot vector，叠加成的矩阵，由于预处理中截取的词汇量为10000，所以输入矩阵的维度为[2n*10000]；同样的，由于输出仅仅只有一个词汇，所以样本的输出是一个维度为[1*10000]的one-hot vector。这里假设目标词向量的维度为300，因此词向量表的维度为[10000*300]。输入矩阵和词向量表经过矩阵乘法相乘，可以得到一个维度为[2n*300]的矩阵，即2n个词汇经过降维所得到的较短的词向量。为了使其可以正确的和样本输出计算进行对应，需将其正确的映射到[1*10000]的维度。这里使用[1*2n]×[2n*300]×[300*10000]的方法，将其转换为[1*10000]的向量，经过softmax激活函数计算，可以同样本输出计算出loss值，并根据loss使用随机梯度下降法来对网络进行训练。

网络的模型维度设计示意图如下：

如图所示，搭建此次网络模型需要初始化tar_weight，front_weight，back_weight三个权重矩阵。

根据上面设计的网络维度结果，开始构建CBOW网络类：

 1 import numpy as np
 2 import tensorflow as tf
 3 
 4 class CBOW_Cell(object):
 5     def __init__(self, window_length=5, word_dim=300):
 6         with tf.variable_scope("matrix_scope") as matrix_scope:
 7             self.tar_weight = tf.get_variable(name='tar_weight',shape=[10000,word_dim],\
 8                 initializer=tf.truncated_normal_initializer(stddev=0.1),dtype=tf.float32)
 9             self.front_weight = tf.get_variable(name='front_weight',shape=[1,2*window_length],\
10                 initializer=tf.truncated_normal_initializer(stddev=0.1),dtype=tf.float32)
11             self.back_weight = tf.get_variable(name='back_weight',shape=[word_dim,10000],\
12                 initializer=tf.truncated_normal_initializer(stddev=0.1),dtype=tf.float32)
13             matrix_scope.reuse_variables()
14         # 上方为tar_weight,front_weight,back_weight 三个权重矩阵的维度设置及初始化。
15         # 下方为偏移量权重的设置 及 变量保存。
16         self.bias = tf.Variable(tf.zeros([1,10000])) # 偏移量，用于加到softmax前的输出上
17         self.word_dim = word_dim   # 词向量维度
18         self.window_length = window_length    
19         # 下方为占位符，规定好输入、输出的shape
20         self.sample_in = tf.placeholder(tf.float32, [2*window_length, 10000],name='sample_in')
21         self.sample_out = tf.placeholder(tf.float32, [1, 10000],name='sample_out')

除了上面提到的3个权重矩阵需要使用tf.get_variable()进行初始化，还额外的需要两个占位符sample_in，sample_out来表示训练样本输入及训练样本输出。

下一步来设计前向传播函数以及损失函数：

 1     def forward_prop(self,s_input):
 2         step_one = tf.matmul(s_input,self.tar_weight)
 3         out_vector = tf.matmul(tf.matmul(self.front_weight,step_one),self.back_weight)+self.bias
 4         return out_vector
 5     
 6     def loss_func(self,lr=0.001):
 7         out_vector = self.forward_prop(self.sample_in)
 8         y_pre = tf.nn.softmax(out_vector,name='y_pre')
 9         cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.sample_out,logits=y_pre)
10         train_op = tf.train.GradientDescentOptimizer(lr).minimize(cross_entropy)
11         return y_pre,cross_entropy,train_op

前向传播函数forward_prop()使用占位符sample_in来计算出维度为[1,10000]的输出向量。而损失函数loss_func()通过softmax来计算出前向预测结果y_pre，并通过交叉熵函数计算出损失值，train_op是定义了随机梯度下降的权重优化计算图。在后续的程序中，我们可以通过train_op来对权重进行优化。

4.2 制作训练样本

在前面分词工作结束之后，我们获得了类似[寒冷的冬天我爱在学校里跑步]的语料样本。这里要根据这个语料样本，以及窗口大小n，来制作输入维度为[2n*10000]，输出维度为[1*10000]的训练样本。

制作训练样本分为如下几步：①对于一条新闻来说，首先就是要确定句子的长度，如果句子包含的词语数≤2*n时，该语句无法拼接成样本，直接将其进行弃置。②对于长度充足的句子，我们取一个长度为2n+1的滑动窗口，前n个词和后n个词做成维度为[1*10000]的one-hot vector，叠加成为[2n*10000]的输入矩阵，中间词汇做成[1*10000]的one-hot vector作为样本输出。将输入和输出组成对进行输出。③为了使样本更多一些，对于一个句子开头和结束的几个词语，在目标词汇前方/后方的词语数目小于窗口长度时，顺着后方/前方窗口额外取数个词语使输入词语数目达到2n，再组成[2n*10000]的输入矩阵，将目标词汇做成one-hot vector向量作为样本输出。（第③步的样本制作方法的目标是增加训练样本数目，但该方法是否科学合理仍有待论证）

为此，编写样本制作函数如下：

 1 def make_samples(crop_lines_all,index_to_word,word_to_index,window_len,i):   #参数中的i指第几轮语料
 2     # 一次处理5行语料防止内存溢出
 3     crop_lines = crop_lines_all[i*5:(i+1)*5]
 4     sample_in_list = []     # 输入样本list
 5     sample_out_list = []    # 输出样本list
 6     for line in crop_lines:
 7         line_list = line.split(' ')
 8         line_list = [word for word in line_list if word in index_to_word]
 9         if len(line_list)# 如果语句词汇过少，则抛弃这条语句
10             continue
11         else:
12             # 词语大于双倍窗口的情况下，可以开始拼接样本
13             for i2 in range(len(line_list)):
14                 # 句子开头几个词语，前侧的词语数量不够window_len，则后侧多取一些词语攒齐2*window_len的长度
15                 if i2:   
16                     temp_line_list = line_list[:i2]+line_list[i2+1:2*window_len+1]
17                     sample_in_list.append(input_matrix_calc(word_to_index,temp_line_list))
18                     temp_out_sample = np.zeros(10000)
19                     temp_out_sample[word_to_index[line_list[i2]]] = 1.0
20                     sample_out_list.append(temp_out_sample)
21                 # 句子末尾几个词语，后侧的词语数量不够window_len，则前侧多取一些词语攒齐2*window_len的长度
22                 elif i2>=len(line_list)-window_len: 
23                     temp_line_list = line_list[len(line_list)-2*window_len-1:i2]+line_list[i2+1:]
24                     sample_in_list.append(input_matrix_calc(word_to_index,temp_line_list))
25                     temp_out_sample = np.zeros(10000)
26                     temp_out_sample[word_to_index[line_list[i2]]] = 1.0
27                     sample_out_list.append(temp_out_sample)
28                 # 处于中间阶段，前窗口和后窗口都不越界
29                 else:
30                     temp_line_list = line_list[i2-window_len:i2]+line_list[i2+1:i2+1+window_len]
31                     sample_in_list.append(input_matrix_calc(word_to_index,temp_line_list))
32                     temp_out_sample = np.zeros(10000)
33                     temp_out_sample[word_to_index[line_list[i2]]] = 1.0
34                     sample_out_list.append(temp_out_sample)
35     return np.array(sample_in_list),np.array(sample_out_list)

参数列中的i是用于分批制作样本的参数，每次处理5行语料，来防止内存溢出，因为一个样本对应了一个巨大的稀疏矩阵，因此每次少处理一些语料比较保险。

五.训练存储：

由于需要TensorFlow的Session中完成训练的步骤，因此训练及存储的工作需要在CBOW网络类中实现。编辑功能函数train_model如下：

 1 def train_model(self, savepath,crop_lines_all,index_to_word,word_to_index,epochs=1000,lr=0.001):
 2         y_pre,cross_entropy,train_op = self.loss_func(lr)  # TODO TODO TODO  这句话千万不能放到循环里面，会重复绘制计算图！！！运行很慢！！
 3         with tf.Session() as sess:
 4             sess.run(tf.global_variables_initializer())
 5             for data_num in range(int(len(crop_lines_all)/5)):
 6                 pass # 生成 in_list out_list 
 7                 in_list,out_list = make_samples(crop_lines_all,index_to_word,\
 8                     word_to_index,self.window_length,data_num)   #一次20个行的处理语料样本
 9                 out_list = out_list.reshape(len(in_list),1,10000)
10                 if (data_num)%50==0:
11                     print('样本已处理',data_num*5,'/',len(crop_lines_all),'行。 ',datetime.datetime.now().strftime('%H:%M:%S.%f'))
12                 for i in range(epochs):
13                     for j in range(len(in_list)):
14                         sess.run(train_op, feed_dict={self.sample_in:in_list[j], \
15                             self.sample_out:out_list[j]})
16         #下面为存储模型的代码
17             tar_weight=self.tar_weight.eval()   # 这个就是词向量表[10000*词向量维度]，是word2vec的最终目标
18             front_weight=self.front_weight.eval()
19             back_weight=self.back_weight.eval()
20             bias=self.bias.eval()
21             word_dim=self.word_dim
22             window_length=self.window_length
23             np.savez(savepath,tar_weight=tar_weight,front_weight=front_weight,\
24                 back_weight=back_weight,bias=bias,word_dim=word_dim,window_length=window_length)
25             print('model saved in:',savepath)

在该函数中，首先获取损失函数所返回的三个计算图：y_pre，cross_entropy，train_op。之后建立Session，初始化权重矩阵，通过制作训练样本的函数获取训练样本列表，对于每个样本分别使用train_op进行训练，优化权重矩阵。经过了数轮训练，将权重矩阵及CBOW网络类的参数存入.npz文件，这个文件以字典形式保存权重矩阵，其中tar_weight是我们最终目标的词向量表。

六.实践与结果验证：

6.1 词向量表调用：

使用np.load()函数便可以加载.npz文件，并获取词向量表tar_weight。

param_dict = np.load(filepath)
tar_weight = param_dict['tar_weight']

我们也可以通过np.linalg.norm()函数来计算两个词向量之间的欧氏距离，通过下面数个词汇来观察词向量距离变化。

dist = np.linalg.norm(w2v[word_to_index['车辆']] - w2v[word_to_index['车子']]) 
print('\"车辆\" 与 \"车子\" 之间的欧式距离为：',dist,'!!')
dist = np.linalg.norm(w2v[word_to_index['机械']] - w2v[word_to_index['工业化']]) 
print('\"机械\" 与 \"工业化\" 之间的欧式距离为：',dist,'!!')
dist = np.linalg.norm(w2v[word_to_index['车辆']] - w2v[word_to_index['茶叶']]) 
print('\"车辆\" 与 \"茶叶\" 之间的欧式距离为：',dist,'!!')
dist = np.linalg.norm(w2v[word_to_index['粮食']] - w2v[word_to_index['手表']]) 
print('\"粮食\" 与 \"手表\" 之间的欧式距离为：',dist,'!!')

6.2 效果呈现：

最初，经过4000条新闻的训练，词汇之间的关系还比较散乱，词语之间的关系随机性较为明显（下图左）。后经过10万条新闻的训练(花了大约24小时….)，随着网络内部参数的调整，[车辆，车子]，[机械，工业化]这些意义接近的词组之间的欧式距离变小，而[车辆，茶叶][粮食，手表]这些意义较远的词汇欧氏距离变大（下图右）。

但是训练的速度还是较慢，与谷歌提供的word2vec模块依然有较大差距。

七.后记：

这次自己手动实现word2vec，主要是为了巩固前期的学习成果，在实践的过程中仍然发现了不少待探究的细节。

第一个处理不到位的地方就是对不常用的词的处理方法。本次实践中，我们将其做了删除操作，将非常用词排除在样本制作之外。这样做有可能会丢失部分信息。一种处理了思路是使用unknown标签来将不常用的词进行概括，作为词汇表的一部分。

还有一个疑问就是对于标点符号的处理是否妥当。本次实践中，我们将语料中的标点进行了删除，之后再进行分词操作，主要目的是提高处理效率，但标点符号对语句结构的影响会被忽略。

当然，这次我所构架的仅仅是一个简单的结构，还有部分优化策略没有使用，导致训练速度特别的慢。一方面原因是负采样策略的缺失。如果使用采样数为5的负采样策略的话，每一次随机梯度下降过程将会只调整6个(5个负样本和一个正样本)权重值，计算量仅相当于现有情况的万分之六，训练速度也会飞速提升。（直至网络搭建完成之后，经查阅手册才发现有个tf.nn. nce-loss()函数可以实现负采样功能，后期需要继续对其进行深入学习研究。）

另一个待优化的区域是训练样本制作方面，本次实践所采用的训练样本制作方法仍较为笨拙。（该网络搭建完成后，查阅有关资料，发现tf.nn.embedding_lookup()函数可以进行查表操作，因此省去第一步one-hot向量的制作。）我在本机使用Google开发的word2vec模块，可以在几分钟之内将30多万行经过分词的语料训练完毕，而我这个手撸的CBOW网络模型训练10万行语句就消耗了24小时，其中大部分时间都消耗在了样本制作上。后续可参考word2vec的源码继续深入学习研究。

参考资料：

https://mp.weixin.qq.com/s/u2IumPRlzr4uHStrWXM87A

http://www.dataguru.cn/article-13488-1.html

代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
【存储中间件】Redis核心技术与实战（六）：Redis的设计与实现（缓存淘汰算法、过期策略与惰性删除）道友老李 #Redis核心技术与实战架构师进阶-存储中间件缓存中间件 redis
文章目录Redis的设计与实现缓存淘汰算法maxmemoryNoevictionvolatile-lruvolatile-ttlvolatile-randomallkeys-lruallkeys-randomLRU算法近似LRU算法LFU算法为什么Redis要缓存系统时间戳过期策略和惰性删除过期惰性删除lazyfree个人主页：道友老李欢迎加入社区：道友老李的学习社区Redis的设计与实现缓存淘汰
MyBatis 中的缓存机制 JiaHao汤 Mybatis mybatis
文章目录一级缓存二级缓存MyBatis中的缓存是用于提高数据访问性能的一个重要机制。它可以将查询结果缓存在内存中，避免重复查询数据库，从而加快数据访问速度。MyBatis中存在一级缓存和二级缓存，一级缓存和二级缓存是相互独立的，它们并不共享缓存数据。一级缓存默认开启；而二级缓存默认关闭，如果需要开启二级缓存，则需要手动配置进行开启。在使用MyBatis中的缓存时，需要关注缓存的有效性和管理。由于缓
风控算法（一）——数据测试月亮月亮要去太阳机器学习人工智能
下面的内容都是针对数据源测试的一些可能得问题：1、请描述你在开发和执行数据测试流程时的具体步骤。确定样本（对齐样本与时间，去除假样本）——确定特征（确认目前特征）——数据信息（返回的数据字典、收费方式、底层数据：特征、分数）——数据清洗（缺失值替换）——数据训练形成报告。2、如何确定数据产品在风险模型中的潜在价值和适用性的？AUC、IV、相关性、性价比、数据产品背景和领域3、请详细描述你负责的10
[C/C++][VsCode]使用VsCode在Linux上开发和Vscode在线调试 ★Orange★ Linux C++嵌入式 c语言 c++vscode
目录0.前言1.win10上搭建环境Linux环境2.编写makefile3.怎么在线调试结语0.前言在开发中，可以一边开发一边调试，这样可以大大的减少bug；但是正常来说一个大点的项目，是不太可能单步调试的，因为一般都是用make或者CMake，甚至安卓中的Android.bp来编译；因此检查调试程序，仅能通过编译后，烧录到目标板子上或者搭建好的环境上，根据Log信息来调试，这样确实有点麻烦，但
LeetCode第98题_验证二叉搜索树 @蓝莓果粒茶算法 leetcode linux 算法链表 c++数据结构 python
LeetCode第98题：验证二叉搜索树题目描述给你一个二叉树的根节点root，判断其是否是一个有效的二叉搜索树。有效二叉搜索树定义如下：节点的左子树只包含小于当前节点的数。节点的右子树只包含大于当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。难度中等问题链接https://leetcode.cn/problems/validate-binary-search-tree/示例示例1：输入：
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
【pygame】小球运动碰撞动画生成并保存为GIF 一只小白跳起来 pygame pygame python
pygame本身并不直接支持将动画保存为GIF，但可以用Pillow将截图的图像合成一个GIF。importpygameimportsysfromPILimportImage,ImageSequenceimportos#初始化pygamepygame.init()#设置窗口大小WIDTH,HEIGHT=800,600screen=pygame.display.set_mode((WIDTH,HEI
12.1-12.7学习周报谢m鑫天天揍我学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录摘要Abstract一、k-近邻法二、持续学习总结摘要本周主要学习了k邻近算法的原理和应用场景，了解了持续学习的有关概念和原理。AbstractThisweek,wemainlylearnedtheprinciplesandapplicationscenariosofk-proximityalgorithm,andlearne
eclipse中修改svn账号密码漫漫求索者开发笔记 eclips svn账号密码 JaveHL
背景：鉴于单位的邮箱密码定时更换，svn账号又跟邮箱账号绑定，所以每次都需要改svn账号密码，最近由于一直在用androidstudio开放，偶然接触到之前的eclipse项目，想打开一下，却发现svn密码不能用了，想着改下密码，却忘了怎么修改了，教训，还是记录一下吧。步骤如下：1、首先看一下自己eclipse用的是那个版本的SVN，在windows>preference>Team>SVN在右边的
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
基于BCLinux制作Apache HTTPD 2.4.63 的RPM安装包 IT布道 apache
在这之前，我写过一篇《基于CentOS7制作ApacheHTTPD2.4.58的RPM安装包》的文章。本文大部分内容和之前差不多，但因为操作系统由CentOS7变成了BC-Linux，所以，有些内容就可以删减了。编译环境：操作系统：BC-Linuxhttpd版本：2.4.63制作工具：rpmbuild（这个之前的文章有介绍，看这里）下载httpd源码：官网目前的最新版本是2.4.63(2025.1
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
如何评估大语言模型生成文本的质量？ gs80140 AI 语言模型人工智能自然语言处理
目录如何评估大语言模型生成文本的质量？1.评估指标概览自动评估指标（AutomaticMetrics）人工评估方法（HumanEvaluation）2.自动评估方法示例（1）计算BLEU分数（2）计算ROUGE分数（3）计算BERTScore（4）使用GPT-4进行评分3.人工评估方法（1）流畅性（Fluency）检查（2）连贯性（Coherence）检查（3）事实准确性（FactualAccur
Pollinations AI文生图html源码酷爱码 html HTML
源码介绍用deepseek辅助制作了一个电脑端文生图小程序，html语言的，接口使用的是Pollinations，上传服务器访问首页即可一次生成4张，提示词最好用英文，点击小图可以预览大图，也可以点击下载按钮直接下载截图预览源码免费获取PollinationsAI文生图html源码
2024年CSP-J认证 CCF信息学奥赛C++ 中小学初级组第一轮真题-完善程序题解析小兔子编程 NOI CSP-J信息学奥赛 c++判断平方数 c++汉诺塔 2024CSP-J真题 2024CSP初级真题 2024CSP-J真题解析中小学信奥真题 c++真题解析
2024CCF认证第一轮（CSP-J）真题三、完善程序题第一题判断平方数问题：给定一个正整数n，判断这个数是不是完全平方数，即存在一个正整数x使得x的平方等于n试补全程序#include#includeusingnamespacestd;boolisSquare(intnum){inti=(1);intbound=(2);for(;i>n;if(isSquare(n)){cout<
无矩阵乘法LLM：效率与性能双突破 XianxinMao 人工智能矩阵人工智能线性代数
标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。这种模型在内存使用和延迟方面表现优异，尤其在大规模模型上效率显著提升。例如，13B参数的模型仅需4.19GBGPU内存，延迟低至695.48ms，远优于传统模型。此外，基于FPGA的硬件优化进一步提升了性能，1.3B参数模型功耗仅为13W，达到人类阅
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
AI图像技术：真实与虚假的博弈 XianxinMao 人工智能人工智能计算机视觉深度学习
标题：AI图像技术：真实与虚假的博弈文章信息摘要：随着AI生成图像技术的快速发展，虚假信息的传播风险急剧增加，引发了社会对信息真实性的广泛担忧。AI生成的图像几乎与真实照片无法区分，可能被用于制造虚假新闻、恶意攻击和商业欺诈，导致社会信任危机。为应对这一挑战，Meta开发了StableSignature技术，通过在AI生成图像中嵌入不可见且防篡改的水印，有效识别和追踪图像来源。这项技术具有鲁棒性、
SVN学习无妄无望工具使用 svn 学习
1、SVN是什么SVN（Subversion）是一个开源的版本控制系统，用于跟踪文件和目录的更改。它允许团队协作开发项目，管理代码的版本历史，并支持多人同时对代码进行修改和提交。SVN是集中式版本控制系统（CVCS）的代表之一，与Git（分布式版本控制系统）不同，SVN的代码库通常存储在一个中央服务器上。SVN的主要特点版本控制：记录文件和目录的每一次更改，支持版本回溯和历史查看。多人协作：允许多
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
c-通讯录【动态通讯录，文件版本通讯录】 pupu周子晗 c语言 c语言开发语言
一、通讯录的结构首先如何实现一个通讯录呢？a.根据日常生活我们知道一个通讯录包括：1.可以保存多少个联系人的信息2.增加联系人3.删除指定联系人4.查找指定联系人的信息5.修改指定联系人的信息6.显示所有联系人的信息b.而每一个联系人，我们也需要填写相关信息：1.名字2.年龄3.性别4.电话5.住址根据以上需求，我们可以有目的的开始编写代码。c.为了增加代码的可读性我们将代码分为三个部分：1.te
统计领域英语专业词汇补充月亮月亮要去太阳算法其他
应统考研复试：多元统计、回归分析、时间序列三大领域专业词汇翻译以下是多元统计、回归分析和时间序列三大统计领域的常见专业词汇的英汉互译，按类别整理：多元统计（MultivariateStatistics）英文术语中文术语MultivariateAnalysis多元分析PrincipalComponentAnalysis(PCA)主成分分析FactorAnalysis因子分析ClusterAnalys
【详细解决】pycharm 终端出现报错：“Failed : 无法将“Failed”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。一只小白跳起来笔记 pycharm python ide
昨天在终端一顿操作后突然打开pycharm时就开始报错：无法将“Failed”项识别为cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。所在位置行:1字符:1+Failedtoactivatecondaenvironment.+~~~~~~+CategoryInfo:ObjectNotFound:(Failed:String)[],Com
【服务器数据恢复】数据中心存储服务器VMware vSAN分布式存储架构数据恢复解析海境超备服务器分布式架构网络安全系统安全运维
随着企业数据中心的数据量的不断增加，数据存储和恢复成为了企业必须面对的重要问题。vSAN（VirtualStorageAreaNetwork）分布式存储架构是一种新型的存储技术，它可以有效地解决企业数据存储和管理方面的问题。本文将详细介绍vSAN分布式存储架构的原理和特点，并解析其数据恢复的原理和方法。分布式文件系统（DistributedFileSystem，DFS）是一种能够在多台计算机之间共
GOT-OCR2.0：突破性端到端架构与高精度文本识别的技术创新 XianxinMao 人工智能深度学习
GOT-OCR2.0在技术上的突破与优势GOT-OCR2.0在技术上实现了对传统OCR系统的显著超越，主要体现在其采用了统一的端到端（End-to-End）架构。这一架构的创新性设计带来了多方面的提升，具体包括以下几个关键方面：1.统一的端到端架构传统OCR系统的局限：传统的OCR流程通常由多个独立的模块组成，如图像预处理、字符分割、特征提取、分类识别等。这种多步处理方式不仅增加了系统的复杂性，还
SpringBoot、Spring、SpringMVC原理梳理猛猛开发笔记 java spring
SpringBoot、Spring、SpringMVC原理梳理文章目录SpringBoot、Spring、SpringMVC原理梳理Spring、SpringMVC、SpringBoot三者的关系：Spring和SpringMVC：SpringBoot、Spring：SpringMVC的DispatchServlet解析DispatchServlet初始化：initServletBeaninitW
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

基于CBOW网络手动实现面向中文语料的word2vec

你可能感兴趣的:(基于CBOW网络手动实现面向中文语料的word2vec)