weixin_40004960

word2vec python实现_word2vec的几种实现

写在前面

态度决定高度！让优秀成为一种习惯！

世界上没有什么事儿是加一次班解决不了的，如果有，就加两次！(- - -茂强)

word2vec

大名鼎鼎的word2vec在这里就不再解释什么了，多说无益，不太明白的就去百度google吧，下面就说一下各种实现吧

准备预料

预料

python-gensim

一个简单到爆的方式，甚至可以一行代码解决问题。

from gensim.models import word2vec

sentences = word2vec.Text8Corpus("C:/traindataw2v.txt") # 加载语料

model = word2vec.Word2Vec(sentences, size=200) # 训练skip-gram模型; 默认window=5

#获取“学习”的词向量

print("学习：" + model["学习"])

# 计算两个词的相似度/相关程度

y1 = model.similarity("不错", "好")

# 计算某个词的相关词列表

y2 = model.most_similar("书", topn=20) # 20个最相关的

# 寻找对应关系

print("书-不错，质量-")

y3 = model.most_similar(['质量', '不错'], ['书'], topn=3)

# 寻找不合群的词

y4 = model.doesnt_match("书书籍教材很".split())

# 保存模型，以便重用

model.save("db.model")

# 对应的加载方式

model = word2vec.Word2Vec.load("db.model")

好了，gensim的方式说完了

下边就让我们看一下参数吧

默认参数如下：

sentences=None

size=100

alpha=0.025

window=5

min_count=5

max_vocab_size=None

sample=1e-3

seed=1

workers=3

min_alpha=0.0001

sg=0

hs=0

negative=5

cbow_mean=1

hashfxn=hash

iter=5

null_word=0

trim_rule=None

sorted_vocab=1

batch_words=MAX_WORDS_IN_BATCH

是不是感觉很意外，为啥有这么多参数，平时都不怎么用，但是，一个训练好的模型的好与坏与其参数密不可分，之所以代码把这些参数开放出来，是有一定的意义的，下面就让我们来一一的看一下各个参数的意义在哪里吧。

sentences：就是每一行每一行的句子，但是句子长度不要过大，简单的说就是上图的样子

sg：这个是训练时用的算法，当为0时采用的是CBOW算法，当为1时会采用skip-gram

size：这个是定义训练的向量的长度

window：是在一个句子中，当前词和预测词的最大距离

alpha：是学习率，是控制梯度下降算法的下降速度的

seed：用于随机数发生器。与初始化词向量有关

min_count：字典截断.，词频少于min_count次数的单词会被丢弃掉

max_vocab_size：词向量构建期间的RAM限制。如果所有不重复单词个数超过这个值，则就消除掉其中最不频繁的一个,None表示没有限制

sample：高频词汇的随机负采样的配置阈值，默认为1e-3，范围是(0,1e-5)

workers：设置多线程训练模型，机器的核数越多，训练越快

hs：如果为1则会采用hierarchica·softmax策略，Hierarchical Softmax是一种对输出层进行优化的策略，输出层从原始模型的利用softmax计算概率值改为了利用Huffman树计算概率值。如果设置为0(默认值)，则负采样策略会被使用

negative：如果大于0，那就会采用负采样，此时该值的大小就表示有多少个“noise words”会被使用，通常设置在(5-20)，默认是5，如果该值设置成0，那就表示不采用负采样

cbow_mean：在采用cbow模型时，此值如果是0，就会使用上下文词向量的和，如果是1(默认值)，就会采用均值

hashfxn：hash函数来初始化权重。默认使用python的hash函数

iter：迭代次数，默认为5

trim_rule：用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。可以设置为None(min_count会被使用)或者一个接受(word, count, min_count)并返回utils.RULE_DISCARD，utils.RULE_KEEP或者utils.RULE_DEFAULT，这个设置只会用在构建词典的时候，不会成为模型的一部分

sorted_vocab：如果为1(defau·t)，则在分配word index 的时候会先对单词基于频率降序排序。

batch_words：每一批传递给每个线程单词的数量，默认为10000，如果超过该值，则会被截断

python-tensorflow

官方网站实现的是n-gram方式

cbow和skip-gram

Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文，来预测input word

首先数据还是上边的数据

读取数据

words = []

with open("c:/traindatav.txt", "r", encoding="utf-8") as f:

for line in f.readlines():

text = line.split(" => ")

if len(text) == 2:

lable = text[0].strip()

listsentence = [w for w in text[1].split(" ") if re.match("[\u4e00-\u9fa5]+", w) and len(w) >= 2]

words.extend(listsentence)

words存放单词，这里单词都是按照顺序进入words里边的

构建词典

vocabulary_size = 10000

def build_dataset(words):

count = [['UNK', -1]] count.extend(collections.Counter(words).most_common(vocabulary_size - 1))

dictionary = dict()

for word, _ in count:

dictionary[word] = len(dictionary)

data = list()

unk_count = 0

for word in words:

if word in dictionary:

index = dictionary[word]

else:

index = 0 # dictionary['UNK']

unk_count += 1

data.append(index)

count[0][1] = unk_count

reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))

return data, count, dictionary, reverse_dictionary

data, count, dictionary, reverse_dictionary = build_dataset(words)

vocabulary_size声明了词典里边用多少单词填充，其余的都用UNK填充，

这里筛选单词的条件是词频，当然这里如果有好的想法也可以自行改进，比如去头除尾，词频太高的也不要，词频太低的也不要，我这里选择了10000歌词去训练

其中dictionary中存放的数据如下图

dictionary

这里边的数据表示为每个词标注一个索引

其中data里边存放的数据如下图

data

这里边的数数字标识了words里边词的对应的索引，数据都是从上边的dictionary中取出来的

其中count表示的是词频统计，如下图

count

reverse_dictionary表示的是dictionary的反转

reverse_dictionary

参数声明

batch_size = 128

embedding_size = 128 # Dimension of the embedding vector.

skip_window = 1 # How many words to consider left and right.

num_skips = 2 # How many times to reuse an input to generate a label.

# We pick a random validation set to sample nearest neighbors. Here we limit the

# validation samples to the words that have a low numeric ID, which by

# construction are also the most frequent.

valid_size = 16 # Random set of words to evaluate similarity on.

valid_window = 100 # Only pick dev samples in the head of the distribution.

valid_examples = np.random.choice(valid_window, valid_size, replace=False)

num_sampled = 64 # Number of negative examples to sample.

构建skip-gram模型的迭代函数

data_index = 0

def generate_batch(batch_size, num_skips, skip_window):

global data_index

assert batch_size % num_skips == 0

assert num_skips <= 2 * skip_window

batch = np.ndarray(shape=(batch_size), dtype=np.int32)

labels = np.ndarray(shape=(batch_size, 1), dtype=np.int32)

span = 2 * skip_window + 1 # [ skip_window target skip_window ]

buffer = collections.deque(maxlen=span)

for _ in range(span):

buffer.append(data[data_index])

data_index = (data_index + 1) % len(data)

for i in range(batch_size // num_skips):

target = skip_window # target label at the center of the buffer

targets_to_avoid = [skip_window]

for j in range(num_skips):

while target in targets_to_avoid:

target = random.randint(0, span - 1)

targets_to_avoid.append(target)

batch[i * num_skips + j] = buffer[skip_window]

labels[i * num_skips + j, 0] = buffer[target]

buffer.append(data[data_index])

data_index = (data_index + 1) % len(data)

return batch, labels

其中batch = np.ndarray(shape=(batch_size), dtype=np.int32)是产生一个128维的向量， labels = np.ndarray(shape=(batch_size, 1), dtype=np.int32)时产生128*1的一个矩阵，buffer里边存放的是选出来的一个窗口上下文词的索引，数据来源于data，data_index全局标识words的索引，也就是data的每一个值，其作用是为了在每一次迭代的过程中平滑的去产生上下文窗口。

buffer上下文

一个叫做skip_window的参数，它代表着我们从当前input word的一侧(左边或右边)选取词的数量。num_skips，它代表着我们从整个窗口中选取多少个不同的词作为我们的output word

构建计算图

graph = tf.Graph()

with graph.as_default():

# Input data.

train_inputs = tf.placeholder(tf.int32, shape=[batch_size])

train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])

valid_dataset = tf.constant(valid_examples, dtype=tf.int32)

# Ops and variables pinned to the CPU because of missing GPU implementation

with tf.device('/cpu:0'):

# Look up embeddings for inputs.

embeddings = tf.Variable(

tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))

embed = tf.nn.embedding_lookup(embeddings, train_inputs)

# Construct the variables for the NCE loss

nce_weights = tf.Variable(

tf.truncated_normal([vocabulary_size, embedding_size],stddev=1.0 / math.sqrt(embedding_size)))

nce_biases = tf.Variable(tf.zeros([vocabulary_size]))

# Compute the average NCE loss for the batch.

# tf.nce_loss automatically draws a new sample of the negative labels each

# time we evaluate the loss.

loss = tf.reduce_mean(

tf.nn.nce_loss(weights=nce_weights, biases=nce_biases, inputs=embed, labels=train_labels, num_sampled = num_sampled, num_classes=vocabulary_size))

# Construct the SGD optimizer using a learning rate of 1.0.

optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss)

# Compute the cosine similarity between minibatch examples and all embeddings.

norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))

normalized_embeddings = embeddings / norm

valid_embeddings = tf.nn.embedding_lookup(

normalized_embeddings, valid_dataset)

similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True)

# Add variable initializer.

init = tf.global_variables_initializer()

首先声明数据placeholder，train_inputs【128】，train_labels【128x1】，然后声明valid_dataset，这个是存放词频相对比较高一些有效词，主要是为了训练结束后计算这些词的相似词

embeddings【10000x128】的词向量矩阵，embed要训练批次对应的词向量矩阵，nce_weights表示nce损失下的权重矩阵，tf.truncated_normal()产生的是一个截尾的正态分布，nce_biases表示偏置项，loss就是损失函数，也就是目标函数，optimizer表示的是迭代优化随机梯度下降法，用以优化loss函数，步长为1.0，similarity是为了根据embeddings计算valid_dataset中存放的词的相似度

大概的神经网络图如图，知道原理即可，图也是借来的

神经网络图

开始迭代计算

num_steps = 100001

with tf.Session(graph=graph) as session:

# We must initialize all variables before we use them.

init.run()

print("Initialized")

average_loss = 0

for step in range(num_steps):

batch_inputs, batch_labels = generate_batch(batch_size, num_skips, skip_window)

feed_dict = {train_inputs: batch_inputs, train_labels: batch_labels}

# We perform one update step by evaluating the optimizer op (including it

# in the list of returned values for session.run()

_, loss_val = session.run([optimizer, loss], feed_dict=feed_dict)

average_loss += loss_val

if step % 2000 == 0:

if step > 0:

average_loss /= 2000

# The average loss is an estimate of the loss over the last 2000 batches.

print("Average loss at step ", step, ": ", average_loss)

average_loss = 0

# Note that this is expensive (~20% slowdown if computed every 500 steps)

if step % 10000 == 0:

sim = similarity.eval()

for i in range(valid_size):

valid_word = reverse_dictionary[valid_examples[i]]

top_k = 8 # number of nearest neighbors

nearest = (-sim[i, :]).argsort()[1:top_k + 1]

log_str = "Nearest to %s:" % valid_word

for k in range(top_k):

close_word = reverse_dictionary[nearest[k]]

log_str = "%s %s," % (log_str, close_word)

print(log_str)

final_embeddings = normalized_embeddings.eval()

其实上边的训练很简单，每次迭代都会根据generate_batch产生batch_inputs, batch_labels，这就是要喂给graph的数据，然后就是执行迭代了，迭代过程中，每个2000次都会输出平均的误差，每个10000次都会计算一下valid_dataset中的词的前topK=8的相似词，最后final_embeddings存储的就是标准化的词向量。

-最后就是可视化

def plot_with_labels(low_dim_embs, labels, filename='tsne.png'):

assert low_dim_embs.shape[0] >= len(labels), "More labels than embeddings"

plt.figure(figsize=(18, 18)) # in inches

for i, label in enumerate(labels):

x, y = low_dim_embs[i, :]

plt.scatter(x, y)

plt.annotate(label,

xy=(x, y),

xytext=(5, 2),

textcoords='offset points',

ha='right',

va='bottom')

plt.savefig(filename)

try:

from sklearn.manifold import TSNE

import matplotlib.pyplot as plt

tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=5000)

plot_only = 500

low_dim_embs = tsne.fit_transform(final_embeddings[:plot_only, :])

labels = [reverse_dictionary[i] for i in range(plot_only)]

plot_with_labels(low_dim_embs, labels)

except ImportError:

print("Please install sklearn, matplotlib, and scipy to visualize embeddings.")

可视化采用的是TSNE，这里就不多说了，如果项具体了解，请参考：数据降维，其他的就不多说了。

word2vec的spark实现

至于spark的实现就直接上代码了，这个很简单，而且官网上也有很详细的教程，个人感觉spark做的api简直就是再也不能人性化了，未来spark的方向也是深度学习和实时流，这个我个人感觉也算是走上spark的主流道路了。坐等人性化深度学习api的来临。

废话不多说，直接上代码。

object WordToVec {

def main(args :Array[String]): Unit ={

val conf = new SparkConf().setAppName("WordToVec")

.setMaster("local")

val sc = new SparkContext(conf)

val stopwords = Array("的","是","你","我","他","她","它","和","了","而","有","人","被","做","对","与") //无效词

val input = sc.textFile("c:/traindataw2v.txt")

.map(line => line.split(" "))

.map(_.filter(_.matches("[\u4E00-\u9FA5]+")).toSeq) //过滤中文

.map(_.filter(!stopwords.contains(_)))

.map(_.filter(_.length >= 2)) //长度必须大于2

val word2vec = new Word2Vec()

.setMinCount(2) //词频大于2的词才能入选词典

.setWindowSize(5) //上下文窗口长度为5

.setVectorSize(50) //词的向量维度为50

.setNumIterations(25) //迭代次数为25

.setNumPartitions(3) // 数据分区3

.setSeed(12345) //随机数产生seed

val model = word2vec.fit(input)

// model.save(sc, "D:/word2vecTmal")

// val model = Word2VecModel.load(sc,"D:/word2vecTmal")

val word = model.getVectors.keySet

val writer = new PrintWriter(new File("c:/resultw2v.txt" ))

model.getVectors.foreach(kv => {

writer.write(kv._1 + " => " + kv._2.mkString(" ") + "\n")

})

writer.close()

val synonyms = model.findSynonyms("很好", 5) //计算很好一次的5个最相似的词并输出

for((synonym, cosineSimilarity)

println(s"$synonym $cosineSimilarity")

}

sc.stop()

}

总结

个人建议，训练word2vec的时，如果想在单机情况下去训练的话最好用第一种方案，如果想在集群，或者数据量比较大的情况下可以采用分布式的spark训练，这两个的结果可靠性都要比tensorflow官方实现的要好。这跟tensorflow的实现方法是有直接关系的。

好了不多说了，大家可以自己去实践一下，毕竟我说的不算，实践是最好的老师。后续会持续书写相关的算法，敬请期待，都是干货，不掺水。

你可能感兴趣的:(word2vec,python实现)

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
利用python实现图片格式之间的相互转换难得北窗高卧 python 开发语言
一、概要图片一般有多种格式，常见的图片格式包括：JPEG（.jpg或.jpeg）：一种广泛使用的有损压缩格式，适用于摄影图像和网页上的图片。PNG（.png）：一种无损压缩格式，支持透明度和更好的图像质量，常用于图标、图形和需要透明背景的图片。该图片是4通道的，外加一个透明通道。如截屏GIF（.gif）：一种支持动画和透明度的格式，常用于简单的动画和图标。BMP（.bmp）：一种无损格式，存储图像
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
Python开发游戏？也太好用了吧七步编程工具 Github python python 游戏开发语言
程序员宝藏库：https://gitee.com/sharetech_lee/CS-Books-Store当然可以啦！现在日常能够用到和想到的场景，绝大多数都可以用Python实现。效果怎么样暂且不提，但是得益于丰富的第三方工具包，的确让Python能够很容易处理各种各样的场景。对于游戏开发也是这样，如果真的要想商业化，Python在游戏开发方面肯定没办法和C++相提并论，但是如果用于日常学习和自
Python实现mysql命令行 xu-jssy python mysql adb
一、源码importosimportpymysqldefsql_shell():password=input("EnterPassword:")#访问密码ifpassword.strip()!="yyds":print("Bye")return#清空控制台输出os.system("cls"ifos.name=="nt"else"clear")try:#连接到MySQL数据库conn=pymysql
Python实现梯度下降法闲人编程 python python 开发语言梯度下降算法优化
博客：Python实现梯度下降法目录引言什么是梯度下降法？梯度下降法的应用场景梯度下降法的基本思想梯度下降法的原理梯度的定义学习率的选择损失函数与优化问题梯度下降法的收敛条件Python实现梯度下降法面向对象的设计思路代码实现示例与解释梯度下降法应用实例：线性回归场景描述算法实现结果分析与可视化梯度下降法的改进版本随机梯度下降（SGD）小批量梯度下降（Mini-batchGradientDesce
基于Python实现一个庆祝国庆节的小程序 LQS2020 python 小程序 pygame
功能：添加互动功能：允许用户选择不同的祝福语或者查询不同的国庆节信息。动态背景音乐：播放国庆节相关的背景音乐。增加节日小测验：提供一些关于国庆节的趣味小测验，让用户参与。增强图形用户界面(GUI)：使用更多的tkinter控件，比如按钮、复选框等，使界面更加丰富和互动。下面是一个更全面的示例代码，包括以上的改进：完整代码示例importtkinterastkfromtkinterimportPho
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
python实现leetcode之40. 组合总和 II 深圳都这么冷
解题思路先将candidates排序，数组很短，排序很快然后看最小的元素candidates[0]如果最小的元素大于等于target，就可以停止递归了否则，组合包含两种情况1.有第一项first，然后才是rest的组合2.没有第一项，都是rest的组合40.组合总和II代码cache={}classSolution:defcombinationSum2(self,candidates:List[i
python求两个数的最大公约数穷举法_最大公约数GCD算法 weixin_39789101
采用Python实现四种最大公约数(greatestcommondivisor)算法，并比较评估性能。算法原理：1、辗转相除法：已知a,b,c为正整数，若a除以b余c，则GCD(a,b)=GCD(b,c)。2、更相减损术：任意给定两个正整数，若是偶数，则用2约简。以较大的数减较小的数，接着把所得的差与较小的数比较，并以大数减小数。继续这个操作，直到所得的减数和差相等为止。3、除穷举法：将小数依次除
运筹学——图论与最短距离（Python实现）(2)，2024年最新Python高级面试framework m0_60575487 2024年程序员学习图论 python 面试
适用于wij≥0，给出了从vs到任意一个点vj的最短路。Dijkstra算法是在1959年提出来的。目前公认，在所有的权wij≥0时，这个算法是寻求最短路问题最好的算法。并且，这个算法实际上也给出了寻求从一个始定点vs到任意一个点vj的最短路。2案例1——贪心算法实现==============2.1旅行商问题（TSP）**旅行商问题(TravelingSalesmanProblem，TSP)**
python实现模糊逻辑_基于Python的大数据集模糊逻辑 takeiiii python实现模糊逻辑
我的团队一直致力于在两个大数据集上运行模糊逻辑算法。第一个(子集)大约是180K行，包含我们需要在第二个(超集)中匹配的人的姓名、地址和电子邮件。超集包含250万条记录。两者都具有相同的结构，并且数据已经被清理，即地址解析、名称规范化等ContactIDint,FullNamevarchar(150),Addressvarchar(100),Emailvarchar(100)目标是将一行子集中的值
Python实现Excel拆分与合并详解 Rocky006 python 开发语言
概要在数据处理和分析过程中，经常遇到需要对Excel文件进行拆分和合并操作。Python凭借其强大的数据处理能力，可以轻松实现这些任务。本文将详细介绍如何使用Python实现Excel文件的拆分与合并，并包含对应的示例代码，帮助全面掌握这一技巧。准备工作在开始之前，需要安装几个必要的Python库：pandas：用于数据处理和分析openpyxl：用于读写Excel文件可以通过以下命令安装这些库：
使用Python实现多个PDF文件的合并飘逸高铁侠工作随笔 python pdf 开发语言
使用Python可以很方便地实现多个PDF文件的合并。我们可以使用PyPDF2库来完成这个任务。以下是一个实现PDF合并的Python脚本：importosfromPyPDF2importPdfMergerdefmerge_pdfs(input_dir,output_filename):#创建一个PdfMerger对象merger=PdfMerger()#获取输入目录中的所有PDF文件pdf_fi
python实现快速幂 Ronaldinho Gaúch python 算法
若需要计算a^b，如果使用循环来计算显然效率是很低的以下有三种方法实现快速幂方法一，python自带函数pow(a,b,mod)，其中a为底数，b为指数，mod是对该数取模，mod参数有时候可以不传a=pow(5,9)方法二，利用递归实现快速幂，该方法需要注意分类讨论，考虑到指数为0，指数为1以及指数是奇数的情况deffast_power(a,b,mod):ifb==0:return1%modif
用python实现todolist_开发“todolist“”项目及其自己的感悟 weixin_39678426
一，项目题目:实现“todolist项目”该项目主要可以练习js操控dom事件，事件触发之间的逻辑关系，以及如何写入缓存，获取缓存、固定。二，todolist简介ToDoList是一款非常优秀的任务管理软件，用户可以用它方便地组织和安排计划。该软件短小精悍，仅有一个数百KB的可执行文件就能完成所有功能，并且界面设计优秀，初级用户也能够快速上手。todolist具体功能ToDoList帮你把要做的事
【ML】支持向量机SVM及Python实现（详细） 2401_84009698 程序员支持向量机 python 算法
fromsklearn.preprocessingimportStandardScalerfrommatplotlib.colorsimportListedColormapfromsklearn.svmimportSVC###2.1加载数据样本加载样本数据及其分类标签iris=datasets.load_iris()X=iris.data[:,[2,3]]#按花瓣划分#X=iris.data[:,
如何用图表控件LightningChart Python实现检测应用？界面开发小八哥 python 开发语言图表控件数据可视化
LightningChartPython是知名图表控件公司LightningChartLtd正在研发的Python图表，目前还未正式推出，感兴趣的朋友可以戳下方链接申请试用！立即申请LightningChartPython试用什么是结构健康监测(SHM)？结构健康监测(SHM)是指实施结构损伤检测策略的过程，SHM涉及使用传感器和数据采集系统来收集有关结构随时间变化的状况的信息，然后分析这些数据以
python实现解方程叨科学 python
先来看一元一次算理：一次函数于x轴横坐标交点为-b/kdefyici(k=1,b=0):try:k=float(k)b=float(b)x=-b/kexcept:x=falseifx==0:x=float(0)returnx接下来看一元二次方程算理：一元二次方程求根公式deferci(a=1,b=0,c=0):try:a=float(a)b=float(b)c=float©x=(-b+(b**2-
计算机毕业论文基于Python实现的仓库库存管理系统进销存储系统 IT实战营官方 Python毕设项目含论文大数据 python django
文末获取联系目录一、项目介绍二、开题报告三、截图四、源码获取一、项目介绍计算机毕业设计python毕设项目之python仓库库存管理系统-IT实战课堂_哔哩哔哩_bilibili计算机毕业设计python毕设项目之python仓库库存管理系统-IT实战课堂共计2条视频，包括：I22422-python仓库库存管理系统、项目资源获取等，UP主更多精彩视频，请关注UP账号。https://www.bi
基于Pytorch框架的CIFAR-10图像分类任务（附带完整代码）难得北窗高卧 pytorch 人工智能 python 深度学习
本文主要实现在pytorch框架下，训练CIFAR数据集，通过观察训练和验证的误差、准确率图像来进一步改善。保存最好的模型。测试集打印整体准确率和每一类别的准确率，并生成混淆矩阵，将其中每一个错误的图片并保存下来。语言：python实现方式：pytorch框架,CPU关键词:CIFAR-10数据集、Dataset和Dataloader、SummaryWriter画图、网络模型搭建、混淆矩阵、统计所
Python打包工具开源技术 Python python 开发语言后端
目前几个主要的活跃PyInstaller，成熟，用户最多；其原理就是复制文件。支持打包成onefile的可执行文件、目录两个方式。PyArmor有对其官方适配。cx_Freezer，原理与PyInstaller类似，但用户少、功能少。Nuitka，since2019。核心功能是其使用Python实现的与CPython兼容的编译器，直接将Python代码编译为二进制。虽然编译后的代码执行更快，但不能
centos7安装pyenv与pip来管理不同python环境心软且酷丶 python linux python virtualenv
概述：pyenv是一个Python版本管理工具，它能够进行全局的Python版本切换，也可以为单个项目提供对应的Python版本。使用pyenv后，可以在服务器上安装多个不同的Python版本，也可以安装不同的Python实现，不同Python版本之间的切换也非常简单。pyenv安装:1、安装git工具[root@devops~]#yuminstallgit2、安装pyenv首先把项目从githu
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟