python初步实现word2vec操作

一、前言

一开始看到word2vec环境的安装还挺复杂的，安了半天Cygwin也没太搞懂。后来突然发现，我为什么要去安c语言版本的呢，我应该去用python版本的，然后就发现了gensim，安装个gensim的包就可以用word2vec了，不过gensim只实现了word2vec里面的skip-gram模型。若要用到其他模型，就需要去研究其他语言的word2vec了。

二、语料准备

有了gensim包之后，看了网上很多教程都是直接传入一个txt文件，但是这个txt文件长啥样，是什么样的数据格式呢，很多博客都没有说明，也没有提供可以下载的txt文件作为例子。进一步理解之后发现这个txt是一个包含巨多文本的分好词的文件。如下图所示，是我自己训练的一个语料，我选取了自己之前用爬虫抓取的7000条新闻当做语料并进行分词。注意，词与词之间一定要用空格：

这里分词使用的是结巴分词。

这部分代码如下：

import jieba
f1 =open("fenci.txt")
f2 =open("fenci_result.txt", 'a')
lines =f1.readlines() # 读取全部内容
for line in lines:
  line.replace('\t', '').replace('\n', '').replace(' ','')
  seg_list = jieba.cut(line, cut_all=False)
  f2.write(" ".join(seg_list))
 
f1.close()
f2.close()

还要注意的一点就是语料中的文本一定要多，看网上随便一个语料都是好几个G，而且一开始我就使用了一条新闻当成语料库，结果很不好，输出都是0。然后我就用了7000条新闻作为语料库，分词完之后得到的fenci_result.txt是20M，虽然也不大，但是已经可以得到初步结果了。

三、使用gensim的word2vec训练模型

相关代码如下：

from gensim.modelsimport word2vec
import logging
 
# 主程序
logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO)
sentences =word2vec.Text8Corpus(u"fenci_result.txt") # 加载语料
model =word2vec.Word2Vec(sentences, size=200) #训练skip-gram模型，默认window=5
 
print model
# 计算两个词的相似度/相关程度
try:
  y1 = model.similarity(u"国家", u"国务院")
except KeyError:
  y1 = 0
print u"【国家】和【国务院】的相似度为：", y1
print"-----\n"
#
# 计算某个词的相关词列表
y2 = model.most_similar(u"控烟", topn=20) # 20个最相关的
print u"和【控烟】最相关的词有：\n"
for item in y2:
  print item[0], item[1]
print"-----\n"
 
# 寻找对应关系
print u"书-不错，质量-"
y3 =model.most_similar([u'质量', u'不错'], [u'书'], topn=3)
for item in y3:
  print item[0], item[1]
print"----\n"
 
# 寻找不合群的词
y4 =model.doesnt_match(u"书 书籍 教材 很".split())
print u"不合群的词：", y4
print"-----\n"
 
# 保存模型，以便重用
model.save(u"书评.model")
# 对应的加载方式
# model_2 =word2vec.Word2Vec.load("text8.model")
 
# 以一种c语言可以解析的形式存储词向量
#model.save_word2vec_format(u"书评.model.bin", binary=True)
# 对应的加载方式
# model_3 =word2vec.Word2Vec.load_word2vec_format("text8.model.bin",binary=True)

输出如下：

"D:\program files\python2.7.0\python.exe" "D:/pycharm workspace/毕设/cluster_test/word2vec.py"
D:\program files\python2.7.0\lib\site-packages\gensim\utils.py:840: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
 warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
D:\program files\python2.7.0\lib\site-packages\gensim\utils.py:1015: UserWarning: Pattern library is not installed, lemmatization won't be available.
 warnings.warn("Pattern library is not installed, lemmatization won't be available.")
2016-12-12 15:37:43,331: INFO: collecting all words and their counts
2016-12-12 15:37:43,332: INFO: PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2016-12-12 15:37:45,236: INFO: collected 99865 word types from a corpus of 3561156 raw words and 357 sentences
2016-12-12 15:37:45,236: INFO: Loading a fresh vocabulary
2016-12-12 15:37:45,413: INFO: min_count=5 retains 29982 unique words (30% of original 99865, drops 69883)
2016-12-12 15:37:45,413: INFO: min_count=5 leaves 3444018 word corpus (96% of original 3561156, drops 117138)
2016-12-12 15:37:45,602: INFO: deleting the raw counts dictionary of 99865 items
2016-12-12 15:37:45,615: INFO: sample=0.001 downsamples 29 most-common words
2016-12-12 15:37:45,615: INFO: downsampling leaves estimated 2804247 word corpus (81.4% of prior 3444018)
2016-12-12 15:37:45,615: INFO: estimated required memory for 29982 words and 200 dimensions: 62962200 bytes
2016-12-12 15:37:45,746: INFO: resetting layer weights
2016-12-12 15:37:46,782: INFO: training model with 3 workers on 29982 vocabulary and 200 features, using sg=0 hs=0 sample=0.001 negative=5 window=5
2016-12-12 15:37:46,782: INFO: expecting 357 sentences, matching count from corpus used for vocabulary survey
2016-12-12 15:37:47,818: INFO: PROGRESS: at 1.96% examples, 267531 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:37:48,844: INFO: PROGRESS: at 3.70% examples, 254229 words/s, in_qsize 3, out_qsize 1
2016-12-12 15:37:49,871: INFO: PROGRESS: at 5.99% examples, 273509 words/s, in_qsize 3, out_qsize 1
2016-12-12 15:37:50,867: INFO: PROGRESS: at 8.18% examples, 281557 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:37:51,872: INFO: PROGRESS: at 10.20% examples, 280918 words/s, in_qsize 5, out_qsize 0
2016-12-12 15:37:52,898: INFO: PROGRESS: at 12.44% examples, 284750 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:37:53,911: INFO: PROGRESS: at 14.17% examples, 278948 words/s, in_qsize 0, out_qsize 0
2016-12-12 15:37:54,956: INFO: PROGRESS: at 16.47% examples, 284101 words/s, in_qsize 2, out_qsize 1
2016-12-12 15:37:55,934: INFO: PROGRESS: at 18.60% examples, 285781 words/s, in_qsize 6, out_qsize 1
2016-12-12 15:37:56,933: INFO: PROGRESS: at 20.84% examples, 288045 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:37:57,973: INFO: PROGRESS: at 23.03% examples, 289083 words/s, in_qsize 6, out_qsize 2
2016-12-12 15:37:58,993: INFO: PROGRESS: at 24.87% examples, 285990 words/s, in_qsize 6, out_qsize 1
2016-12-12 15:38:00,006: INFO: PROGRESS: at 27.17% examples, 288266 words/s, in_qsize 4, out_qsize 1
2016-12-12 15:38:01,081: INFO: PROGRESS: at 29.52% examples, 290197 words/s, in_qsize 1, out_qsize 2
2016-12-12 15:38:02,065: INFO: PROGRESS: at 31.88% examples, 292344 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:03,188: INFO: PROGRESS: at 34.01% examples, 291356 words/s, in_qsize 2, out_qsize 2
2016-12-12 15:38:04,161: INFO: PROGRESS: at 36.02% examples, 290805 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:05,174: INFO: PROGRESS: at 38.26% examples, 292174 words/s, in_qsize 3, out_qsize 0
2016-12-12 15:38:06,214: INFO: PROGRESS: at 40.56% examples, 293297 words/s, in_qsize 4, out_qsize 1
2016-12-12 15:38:07,201: INFO: PROGRESS: at 42.69% examples, 293428 words/s, in_qsize 4, out_qsize 1
2016-12-12 15:38:08,266: INFO: PROGRESS: at 44.65% examples, 292108 words/s, in_qsize 1, out_qsize 1
2016-12-12 15:38:09,295: INFO: PROGRESS: at 46.83% examples, 292097 words/s, in_qsize 4, out_qsize 1
2016-12-12 15:38:10,315: INFO: PROGRESS: at 49.13% examples, 292968 words/s, in_qsize 2, out_qsize 2
2016-12-12 15:38:11,326: INFO: PROGRESS: at 51.37% examples, 293621 words/s, in_qsize 5, out_qsize 0
2016-12-12 15:38:12,367: INFO: PROGRESS: at 53.39% examples, 292777 words/s, in_qsize 2, out_qsize 2
2016-12-12 15:38:13,348: INFO: PROGRESS: at 55.35% examples, 292187 words/s, in_qsize 5, out_qsize 0
2016-12-12 15:38:14,349: INFO: PROGRESS: at 57.31% examples, 291656 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:15,374: INFO: PROGRESS: at 59.50% examples, 292019 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:16,403: INFO: PROGRESS: at 61.68% examples, 292318 words/s, in_qsize 4, out_qsize 2
2016-12-12 15:38:17,401: INFO: PROGRESS: at 63.81% examples, 292275 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:18,410: INFO: PROGRESS: at 65.71% examples, 291495 words/s, in_qsize 4, out_qsize 1
2016-12-12 15:38:19,433: INFO: PROGRESS: at 67.62% examples, 290443 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:20,473: INFO: PROGRESS: at 69.58% examples, 289655 words/s, in_qsize 6, out_qsize 2
2016-12-12 15:38:21,589: INFO: PROGRESS: at 71.71% examples, 289388 words/s, in_qsize 2, out_qsize 2
2016-12-12 15:38:22,533: INFO: PROGRESS: at 73.78% examples, 289366 words/s, in_qsize 0, out_qsize 1
2016-12-12 15:38:23,611: INFO: PROGRESS: at 75.46% examples, 287542 words/s, in_qsize 5, out_qsize 1
2016-12-12 15:38:24,614: INFO: PROGRESS: at 77.25% examples, 286609 words/s, in_qsize 3, out_qsize 0
2016-12-12 15:38:25,609: INFO: PROGRESS: at 79.33% examples, 286732 words/s, in_qsize 5, out_qsize 1
2016-12-12 15:38:26,621: INFO: PROGRESS: at 81.40% examples, 286595 words/s, in_qsize 2, out_qsize 0
2016-12-12 15:38:27,625: INFO: PROGRESS: at 83.53% examples, 286807 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:28,683: INFO: PROGRESS: at 85.32% examples, 285651 words/s, in_qsize 5, out_qsize 3
2016-12-12 15:38:29,729: INFO: PROGRESS: at 87.56% examples, 286175 words/s, in_qsize 6, out_qsize 1
2016-12-12 15:38:30,706: INFO: PROGRESS: at 89.86% examples, 286920 words/s, in_qsize 5, out_qsize 0
2016-12-12 15:38:31,714: INFO: PROGRESS: at 92.10% examples, 287368 words/s, in_qsize 6, out_qsize 0
2016-12-12 15:38:32,756: INFO: PROGRESS: at 94.40% examples, 288070 words/s, in_qsize 4, out_qsize 2
2016-12-12 15:38:33,755: INFO: PROGRESS: at 96.30% examples, 287543 words/s, in_qsize 1, out_qsize 0
2016-12-12 15:38:34,802: INFO: PROGRESS: at 98.71% examples, 288375 words/s, in_qsize 4, out_qsize 0
2016-12-12 15:38:35,286: INFO: worker thread finished; awaiting finish of 2 more threads
2016-12-12 15:38:35,286: INFO: worker thread finished; awaiting finish of 1 more threads
Word2Vec(vocab=29982, size=200, alpha=0.025)
【国家】和【国务院】的相似度为： 0.387535493256
-----
2016-12-12 15:38:35,293: INFO: worker thread finished; awaiting finish of 0 more threads
2016-12-12 15:38:35,293: INFO: training on 17805780 raw words (14021191 effective words) took 48.5s, 289037 effective words/s
2016-12-12 15:38:35,293: INFO: precomputing L2-norms of word weight vectors
和【控烟】最相关的词有：
禁烟 0.6038454175
防烟 0.585186183453
执行 0.530897378922
烟控 0.516572892666
广而告之 0.508533298969
履约 0.507428050041
执法 0.494115233421
禁烟令 0.471616715193
修法 0.465247869492
该项 0.457907706499
落实 0.457776963711
控制 0.455987215042
这方面 0.450040221214
立法 0.44820779562
控烟办 0.436062157154
执行力 0.432559013367
控烟会 0.430508673191
进展 0.430286765099
监管 0.429748386145
惩罚 0.429243773222
-----
书-不错，质量-
生存 0.613928854465
稳定 0.595371186733
整体 0.592055797577
----
不合群的词： 很
-----
2016-12-12 15:38:35,515: INFO: saving Word2Vec object under 书评.model, separately None
2016-12-12 15:38:35,515: INFO: not storing attribute syn0norm
2016-12-12 15:38:35,515: INFO: not storing attribute cum_table
2016-12-12 15:38:36,490: INFO: saved 书评.model
Process finished with exit code 0

以上这篇python初步实现word2vec操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

什么是PID控制？PID控制的原理深圳市青牛科技实业有限公司顶源科技单片机嵌入式硬件开发语言机器人
PID控制是一种经典的控制算法，用于调节系统的输出以使系统的反馈信号与设定值（或参考信号）尽可能接近。PID代表比例（Proportional）、积分（Integral）和微分（Derivative），它结合了这三种控制方式来实现对系统的控制。比例（Proportional）控制：比例控制根据系统当前偏差的大小来调节输出。假设设定值为SP，实际值为PV，那么比例控制器的输出可以表示为：[P=K_p
mysql大表的解决方案，及Hive分页查询字节全栈_ZKt mysql hive 数据库
1.mysql表查询数据量较大（最大的一张表已经达到33亿条数据，整个mysql已经达到2.9T的数据存储），2.mysql表每日新增数据量较大（增量最大的表，每日新增数据量在4千万条左右的数据）3.需要支持事务操作，部分表需要支持更新操作。4.支持复杂操作，包括模糊，排序，分组统计和分页等操作。5.低延迟，用户选择的任务条件查询，响应时间应该控制在3-5s。6.实时数据的写入和查询操作,目前实时
STMicroelectronics 系列：STM32L4 系列_（3）.STM32L4系列的低功耗技术 kkchenkx 单片机开发 stm32 嵌入式硬件单片机架构数据库
STM32L4系列的低功耗技术1.低功耗概述STM32L4系列单片机是STMicroelectronics公司推出的高性能低功耗微控制器，广泛应用于各种需要长时间运行且功耗要求严格的嵌入式系统。低功耗技术是STM32L4系列的核心优势之一，通过多种机制和优化措施，实现了在不同工作模式下的最低功耗。2.低功耗工作模式STM32L4系列支持多种低功耗工作模式，包括低功耗运行模式（Low-PowerRu
推荐文章：探索未来车联世界的钥匙 —— 车载SOA软件架构技术规范洪开峥
推荐文章：探索未来车联世界的钥匙——车载SOA软件架构技术规范【下载地址】车载SOA软件架构技术规范本仓库提供了一份名为“车载SOA软件架构技术规范”的资源文件下载。该文件详细描述了车载系统中面向服务的架构（SOA）的技术规范，旨在为开发者和工程师提供一个标准化的参考框架，以确保车载软件系统的可靠性、可扩展性和互操作性项目地址:https://gitcode.com/open-source-too
python字典是无序的吗_Python 有序字典 OrderedDict 和无序字典 Dict weixin_39667509 python字典是无序的吗
Python默认的字典是无序的，如果我们需要让他变成有序，很简单，使用有序字典即可，会按照添加顺序自动排序，先添加的在前面，后添加的在后面。Python中有一个OrderedDict，刚好就是实现这个功能的，下面进行介绍Python有序字典OrderedDict。一、Python普通字典Dictmy_dict=dict()my_dict["name"]="lowman"my_dict["age"]
Perf-linux服务器性能测试进阶的小猫压测和性能测试 linux 运维 python
1.压测基础数据准备：压测的环境：2.压测时关注服务端性能内存：50%以下CPU：一般小于75%，平均每核CPU的load小于1网络带宽：磁盘：IO：数据库：JVM：小于80%fullGC频率：小于半小时一次响应时间：小于期望值20,30,50,100ms错误率：低于0.5‰如何做服务器压测-入门级-简书https://www.jianshu.com/p/0b1f2f3b4bbd实现一个简单的压测
使用Colpali架构掌握多模态RAG技术大模型之路 RAG RAG 多模态多模态RAG 检索增强生成 LLM
传统的LLM面临着“幻觉”问题，即它们可能生成听起来合理但实际上错误或未经证实的信息。为了解决这个问题，检索增强生成（RAG）模型应运而生。RAG（语义缓存：提升RAG性能的关键策略）通过将LLM的生成能力与外部知识检索系统相结合，实现了更准确、更可靠的输出。然而，传统的RAG主要局限于文本数据，无法充分利用多模态信息。为了应对这一挑战，多模态RAG应运而生，其中Colpali架构成为这一领域的佼
数控领域 - NC（Numerical Control，数控）极简理解我命由我12345 行业 -简化概念数控自动化行业职场和发展职场发展求职招聘需求分析
NC概述NC全称是NumericalControl，即数控NC是一种通过数字化信号控制机床或其他制造设备的技术NC利用计算机或专用控制器执行预编程指令，实现自动化加工NC的特点硬件控制：NC系统依赖于硬件控制器，通常不具备编程和存储能力介质存储：加工程序存储在穿孔纸带或磁带上，修改程序需要重新制作介质功能有限：NC系统的功能较为简单，通常只能执行基本的加工任务精度较低：由于硬件限制，NC系统的加工
tf.Keras (tf-1.15)使用记录4-model.fit方法及其callbacks参数普通攻击往后拉 NN技巧 tf.keras keras 人工智能深度学习
model.fit()方法是TensorFlowKeras中用于训练模型的核心方法。其中里面的callbacks参数是实现模型保存、监控、以及和tensorboard联动的重要API1model.fit()方法的参数及使用必需参数x:训练数据的输入。可以是NumPy数组、TensorFlowtf.data.Dataset、Python生成器或keras.utils.Sequence实例。y:训练数
macbook自带python保存文件夹_在mac下查找python包存放路径site-packages的实现方法在Mac系统下python如何安装第三方函数库?... Charnychi
mac怎么查看python的site-package位置世界上最伤心的事，不是你爱的人不爱你，而是他爱你过后，最后却不爱你。可以通过find命令查看，参考demo如下：sudofind/-name"site-package"小编们总是对最亲近的家人视而不见，甚至还有许多抱怨，却对外人”的一点小惠感激不已。mac自带的python安装在/usr/bin/python目录下进入终端直接键入python
Python 框架之 Anaconda 下 Django 环境的快速搭建与验证的相关说明仙魁XAN python python anaconda django
Python框架之Anaconda下Django环境的快速搭建与验证的相关说明目录Python框架之Anaconda下Django环境的快速搭建与验证的相关说明一、简单介绍二、实现原理三、环境四、涉及命令五、搭建具体步骤1、打开AnacondaNavigator2、Create构建一个环境，选择自己需要的python版本即可3、AnacondaPrompt打开命令行操作4、condainfo--e
探索前端可观察性：如何使用Telemetry提高用户体验桂月二二前端 ux
随着前端应用变得日益复杂，可观察性（Observability）在前端开发中的重要性正逐步显现。通过实现Telemetry（遥测）功能，开发者能够收集、分析应用的运行数据，从而更好地了解用户行为、定位问题，并持续优化用户体验。什么是Telemetry？**Telemetry（遥测）**是指通过自动化手段远程采集系统或应用运行时的状态数据和行为信息。这些数据通常包括性能指标、错误日志、用户交互事件等
修改当前Git仓库的地址、用户名、密码 Along丶WG 中间件 Linux git
1.修改仓库地址gitremoteset-urlorigin新的仓库地址2.修改用户名和密码2.1修改用户名和密码1分两步操作：修改用户名：gitconfig--globaluser.name"YourNewName"修改密码：如果是HTTPS访问方式，并且需要修改密码，可以通过Git凭据存储区（credentialstorage）来更新密码。gitconfig--globalcredential
解决：npm : 无法加载文件 D:\Node\node_global\npm.ps1，因为在此系统上禁止运行脚本小李搬砖 npm 前端 node.js
1.原因有一次下载了pnpm并配置环境后，不知道是不是配置环境的时候操作错了还是其他什么原因。再次打开一个项目使用npm或pnpm命令的时候就报错了。首先理解一下报错信息的意思，无法加载npm下载时文件存放的路径（D:\Node\node_global）下的npm.ps1这个文件，打开一看是关于执行在powershell上，node环境下执行npm相关命令的脚本，当我们使用npm命令的时候，操作系
Hadoop的基础操作_hadoop常用操作字节全栈_kYu hadoop eclipse 大数据
####下载文件语法：hadoopfs-gethadoopfs-copyToLocal示例：将user/text.txt文件下载到本地/usr/local/下-copyToLocal：复制到本地[root@master~]#hadoopfs-copyToLocal/user/text.txt/usr/local/[root@master~]#cd/usr/local/[root@masterloc
python 安装包 site-packages cliffordl 综合 python python 开发语言
1.site-packages文件夹的位置当我们通过pip或其他方式安装一个Python包时，这些包的文件就会被复制到site-packages文件夹下。site-packages文件夹通常位于Python的安装目录下的Lib文件夹内。具体的路径会根据你使用的操作系统和Python版本的不同而有所不同。下面是一些常见操作系统下site-packages文件夹的默认位置：1.1.在Windows系统
小南每日 AI 资讯 |美国与日本企业联合投资“星际之门”项目| 罗永浩老师最新初创项目上线！ | 25/01/24 小南AI学院人工智能 microsoft
近期人工智能（AI）领域的重要动态随着人工智能技术的迅猛发展，多个领域涌现出令人瞩目的创新。以下是近期AI领域的几项重大进展，涵盖技术创新、行业合作以及AI在各个领域的应用：1.AI技术创新与产品发布DeepSeek发布开源模型R1，挑战传统开发模式中国初创公司深度求索（DeepSeek）于1月27日发布开源AI模型R1。该模型以低成本实现接近OpenAIGPT-3的性能，打破了“越大越好”的传统
分布式系统架构设计原理与实战：分布式缓存的设计与实现 AI天才研究院计算计算大数据人工智能语言模型 AI 大模型 LLM Java Python 架构设计 Agent RPA
1.背景介绍分布式系统架构设计原理与实战：分布式缓存的设计与实现作者：禅与计算机程序设计艺术背景介绍1.1分布式系统的基本概念分布式系统是指由多个autonomouscomputer组成，这些computer通过网络相互协作来完成共同的task。它允许multiplecomputers在同一个时间访问sharedresources，同时保证systemconsistency。1.2什么是分布式缓存
Rust编程基础教程：嵌入式开发入门 AI天才研究院 AI大模型企业级应用开发实战编程实践一天一门编程语言大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍Rust是一款开源、安全的系统编程语言，它支持运行在Linux、Windows和macOS操作系统上。近年来，Rust受到了越来越多的人的关注和追捧，它可以用来编写可靠和高效的代码，同时还能保证程序的内存安全。而且，它也拥有强大的生态系统，其中包括大量成熟的crate（库）。因此，Rust在嵌入式系统领域得到了广泛应用。本文将教授Rust编程知识，让读者对R
2sxc中的强类型与自定义属性的魔力 t0_54coder 编程问题解决手册 java 前端 javascript 个人开发
引言在现代Web开发中，强类型系统不仅提高了代码的可读性和可维护性，也为开发者提供了更好的代码补全和错误提示功能。2sxc作为一个强大的内容管理框架，已经引入了强类型功能，使得开发者可以更轻松地处理数据。今天，我将与大家分享如何通过自定义属性来扩展2sxc的内容类型，从而实现更为便捷和直观的数据操作。2sxc的强类型特性2sxc的强类型特性允许开发者直接在代码中使用内容类型字段名作为属性名，享受I
基于python的Kimi AI 聊天应用 hunter206206 python python 自然语言处理
因为这几天deepseek有点状况，导致apikey一直生成不了，用kimi练练手。这是一个基于MoonshotAI的Kimi接口开发的聊天应用程序，使用PythonTkinter构建图形界面。项目结构项目由三个主要Python文件组成：1.main_kimi.py主程序入口文件，继承了ChatWindow类并实现了问答逻辑：创建主应用程序窗口初始化聊天逻辑实现提交问题的处理函数2.gui.py图
Windows11上的虚拟化软件推荐 kcarly 杂谈系统运维认识系列服务器运维虚拟化 Windows11
在Windows11上运行虚拟化软件时，有多种选择可供用户根据需求进行选择。以下是几款推荐的虚拟化软件及其特点：1.VMwareWorkstation优点：VMwareWorkstation是一款功能强大且广泛使用的虚拟化软件，支持多种操作系统（包括Windows、Linux、macOS等），并提供丰富的功能，如快照、克隆、虚拟网络和3D图形加速等。它适用于需要高性能虚拟机的用户，尤其适合开发者和
详解python的单例模式 hunter206206 python python
单例模式是一种设计模式，它确保一个类只有一个实例，并提供一个全局访问点来获取这个实例。在Python中实现单例模式有多种方法，下面我将详细介绍几种常见的实现方式。1.使用模块Python的模块天然就是单例的，因为模块在第一次导入时会被加载到内存中，之后的导入都是直接使用内存中的模块对象。因此，你可以通过模块来实现单例模式。#singleton.pyclassSingletonClass:def__
Python数据的筛选、排序与聚合大数据张老师 Python程序设计 python 开发语言 Python数据处理
Python数据的筛选、排序与聚合在数据分析过程中，我们常常需要对数据进行筛选、排序和聚合操作，以便从数据集中提取有价值的信息。这些操作是数据预处理和分析的基础，尤其在处理大型数据集时，能够帮助我们快速定位关键数据，进行进一步的分析。Pandas提供了强大的工具来支持这些操作，主要通过对Series和DataFrame的相关方法进行操作来实现。本节将详细讲解如何使用Pandas的Series和Da
java xml dom 解析_解析 XML DOM 十二月极光 java xml dom 解析
解析XMLDOM大多数浏览器都内建了供读取和操作XML的XML解析器。解析器把XML转换为JavaScript可存取的对象。实例W3School提供的实例独立于浏览器和平台。这些实例可在所有现代浏览器中运行。解析XML所有现代浏览器都内建了用于读取和操作XML的XML解析器。解析器把XML读入内存，并把它转换为可被JavaScript访问的XMLDOM对象。微软的XML解析器与其他浏览器中的解析器
C语言实现图像二值化变换项目源码爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：本项目提供了一个C语言编程案例，专门用于解决图像处理中的“百马百担”问题，即图像二值化。项目展示如何使用C语言进行图像的读取、处理和保存，特别是二值化转换的实现，通过设定阈值将图像简化为黑白色调，以突出其特征。源码中包括了图像读取、阈值设置、像素遍历和图像写入等关键步骤，适合C语言学习者和图像处理领域开发者学习实践。1.C语言图像处理简介简介C语言作为一种高效
弄懂这56个Python使用技巧，秒变Python大神！追梦IT男 Python Python基础数据挖掘爬虫编程语言
1.枚举-enumerate可以有参数哦之前我们这样操作：i=0foriteminiterable:printi,itemi+=1现在我们这样操作：fori,iteminenumerate(iterable):printi,itemenumerate函数还可以接收第二个参数。就像下面这样：>>>list(enumerate('abc'))[(0,'a'),(1,'b'),(2,'c')]>>>li
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
lua-文件操作代码大全 James吖 lua java java
1.创建新文件--使用File类import"java.io.File"--导入File类File(文件路径).createNewFile()--使用io库io.open("/sdcard/aaaa",'w')2.创建新文件夹--使用File类import"java.io.File"--导入File类File(文件夹路径).mkdir()--创建多级文件夹File(文件夹路径).mkdirs()-
2025最新版Java面试八股文大全 m0_74823452 java 面试开发语言
一、Java并发面试题1、ThreadLocal1.1谈谈你对ThreadLocal的理解？ThreadLocal的作用主要是做数据隔离，填充的数据只属于当前线程，变量的数据对别的线程而言是相对隔离的。它不是针对程序的全局变量，只是针对当前线程的全局变量。1.2ThreadLocal底层实现原理？Threadlocal内部有一个非常关键的内部类ThreadlocalMap，里面定义了一个由key-
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

python初步实现word2vec操作

你可能感兴趣的:(python初步实现word2vec操作)