lym-ucas

NLP入门之——Word2Vec词向量Skip-Gram模型代码实现（Pytorch版）

代码地址：https://github.com/liangyming/NLP-Word2Vec.git

1. 什么是Word2Vec

Word2vec是Google开源的将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对词的处理简化为K维向量空间中的向量运算。简单来说，Word2Vec其实就是通过学习文本语料来用词向量的方式表示词的语义信息，即通过一个高维向量空间使得语义上相似的单词在该空间内距离很近。比如下图中的dog和cat同属于一类、tree和flower同属于一类，因此在语义上有关联的词在向量空间上也比较接近。

2. Skip-Gram模型

Word2Vec包括两种类型，分别是通过上下文去预测中间词的CBOW和通过中间词预测上下文的Skip-Gram。如下图分别为他们的模型原理图。Skip-Gram模型也是一种简单的神经网络结构，但此模型训练好后并不会直接用于具体任务，我们需要的是获取模型的隐藏层参数，这些参数即为词向量。

接下来举个例子看看算法运作流程：

假设有句子I like nlp very much
假设中心词为nlp，则模型的输入为nlp，设参数窗口大小windows=2，那么窗口内的上下文词，即背景词为[‘I’,‘like’,‘very’,‘much’]
模型要做的就是通过中心词，计算窗口内的背景词的条件概率，即为： $P ($ “I”,“like”,“very”,“much” $∣$ “nlp” $)$
假设给定中心词时，背景词之间相互独立，则可以进一步得到：
$P ($ “I” $∣$ “nlp” $)\cdot P($ “like” $∣$ “nlp” $)\cdot P($ “very” $∣$ “nlp” $)\cdot P($ “much” $∣$ “nlp” $)$

2.1 One-hot编码

因为计算机没法直接处理文本数据，因此我们需要将文本数据通过One-hot编码转换成数值型数据，还是以句子I like nlp very much为例，句子中每个词可以用5维（词表大小）的One-hot向量表示，比如nlp是词表中的第3个词，则表示为[0,0,1,0,0]，编码后的矩阵为 $n\times n$ 维度， $n$ 为词表大小。

2.2 lookup查找表

为了将One-hot编码映射到词向量空间，我们需要通过lookup表建立这个映射过程，这个过程叫Word embedding，如下图的例子就是将词表中第4个词映射到对应词向量空间，此例子中词向量为3维，通过矩阵运算可以很容易建立对应映射关系，其中第二个矩阵就是我们的词向量矩阵，而映射过程其实就是词向量矩阵中的第几行就是词表中第几个词的词向量表示

2.3 负采样

负采样（negative sampling）是为了解决训练计算速度的问题，提出的策略。选为做负样本的词，一般叫做噪声词。噪声词的采样是根据词的概率来决定的，出现概率高的单词容易被选为负样本。为了增加一些出现频率少的词被选中的概率，减小常见词被选中的概率，通常按照以下公式采样。
$P(w_i)=\frac{f(w_i)^{3/4}}{\sum_{j=0}^n(f(w_j)^{3/4})}$
负采样的个数一般远远大于正样本的个数。

import torch
import torch.nn as nn
import torch.nn.functional as F


class SkipGram(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(SkipGram, self).__init__()
        self.vocab_size = vocab_size
        self.embedding_dim = embedding_dim
        self.in_embedding = nn.Embedding(vocab_size, embedding_dim)
        self.out_embedding = nn.Embedding(vocab_size, embedding_dim)

    def forward(self, center, pos_words, neg_words):
        input_embedding = self.in_embedding(center) # [batch_size, embedding_dim]
        pos_embedding = self.out_embedding(pos_words) # [batch_size, windows*2, embedding_dim]
        neg_embedding = self.out_embedding(neg_words) # [batch_size, windows*2*neg_num, embedding_dim]
        input_embedding = input_embedding.unsqueeze(2) # [batch_size, embedding_dim, 1]
        # unsqueeze()增加维度，suqueeze()降低维度
        pos_loss = torch.bmm(pos_embedding, input_embedding).squeeze() # [batch_size, window*2, 1]
        neg_loss = torch.bmm(neg_embedding, -input_embedding).squeeze() # [batch_size, window*2*num, 1]
        pos_loss = F.logsigmoid(pos_loss).sum(1)
        neg_loss = F.logsigmoid(neg_loss).sum(1)
        loss = pos_loss + neg_loss
        return -loss

    def get_weight(self):
        return self.in_embedding.weight.data.cpu().numpy()

3. 全局配置参数

新建config.py文件，定义常量超参数

import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
embedding_dim = 100
epochs = 150
batch_size = 64
windows = 3
neg_sam = 5
root_dir = './data'
result_dir = './result'
en_corpus = 'en.txt'
zh_corpus = 'zh.txt'
stopwords = 'stopwords.txt'
lr = 0.01

4. 数据处理模块

在数据处理部分，我们新建mydata.py文件，用于编写数据处理相关代码。首先导入相关包

import torch
from torch.utils import data
import os
import numpy as np
import config

定义Mydata类，继承torch工具包下的Dataset类，在此处读取语料数据并将其转换为需要的数据类型。首先，在构造方法中定义语料路径，初始化参数窗口大小、负采样数量以及根据2.3中的公式计算负采样频率。在__getitem__方法中根据索引取出对应中心词、背景词以及根据负采样频率获取负采样词语，将一组中心词、正样本的背景词、负采样词作为训练实例返回。

class Mydata(data.Dataset):
    def __init__(self, root, corpus_name, stop_file, windows=2, neg_sam=5):
        super(Mydata, self).__init__()
        # 语料库文件
        self.data_path = os.path.join(root, corpus_name)
        # Skip窗口大小
        self.windows = windows
        # 每个词的负采样数量
        self.neg_sams = neg_sam * 2 * windows
        # 中文停用词文件
        self.stop_file = os.path.join(root, stop_file)
        # -, -, 编码后的序列, 词频表
        self.word2id, self.id2word, self.sequence, self.word2count = self.get_data()
        # 负采样频率
        word_freq = np.array([count for count in self.word2count.values()], dtype=np.float32)
        word_freq = word_freq**0.75 / np.sum(word_freq**0.75)
        self.word_freq = torch.tensor(word_freq)

    def __getitem__(self, index):
        center = self.sequence[index]
        # 周围词
        pos_index = list(range(index-self.windows, index)) + list(range(index+1, index+1+self.windows))
        pos_index = [i%len(self.sequence) for i in pos_index]
        pos_words = self.sequence[pos_index]
        # 返回负采样词
        neg_words = torch.multinomial(self.word_freq, self.neg_sams, False)
        # 数据放入device
        center = center.to(config.device)
        pos_words = pos_words.to(config.device)
        neg_words = neg_words.to(config.device)
        return center, pos_words, neg_words

    def __len__(self):
        return len(self.sequence)

在Mydata类中自定义一个get_data()方法应用于将文本数据编号并转化为tensor格式，定义字典word2id用于保存词到编号的映射、id2word用于保存编号到词语的映射、word2count用于保存每个词出现的次数。对原始语料数据首先经过停用词表的清洗，去除掉停用词以及标点符号后，得到训练语料，将训练语料加入词表并统计词频，同时将训练语料转换成词表中对应编号的tensor形式表示。

class Mydata(data.Dataset):
    '''省略'''
    def get_data(self):
        # 词表字典
        word2id = {}
        id2word = {}
        # 词频率
        word2count = {}
        # 词表编码后的语料
        sequence = []
        with open(self.stop_file, 'r', encoding='utf-8') as file:
            stopwords = file.read().split()
        with open(self.data_path, 'r', encoding='utf-8') as file:
            words = file.read().split()
        print("original corpus size: ", len(words))
        vocal = [word for word in words if word not in stopwords]
        print("new corpus size: ", len(vocal))

        for word in vocal:
            if word not in word2id:
                index = len(word2id)
                word2id[word] = index
                id2word[index] = word
            word2count[word] = word2count.get(word, 0) + 1
            sequence.append(word2id[word])
        # print("size: ", len(word2id), len(id2word), len(word2count))
        sequence = torch.tensor(sequence)
        return word2id, id2word, sequence, word2count

编写get_dataloader()函数，传入相应超参数，返回dataloader对象和dataset对象

def get_dataloader(root, corpus_name, stop_file, batch_size, shuffle=True, windows=2, neg_sam=5):
    dataset = Mydata(root=root,
                     corpus_name=corpus_name,
                     stop_file=stop_file,
                     windows=windows,
                     neg_sam=neg_sam)
    dataloader = data.DataLoader(dataset=dataset, batch_size=batch_size, shuffle=shuffle)
    return dataloader, dataset

5. 训练模块

新建main.py文件，首先导入相应包

import torch
import config
import numpy as np
from mydata import get_dataloader
from model import SkipGram
import os
import json
import tqdm

编写train()函数，传入模型、dataloader等参数训练模型，结束后保存模型，并返回loss值

def train(model, dataloader, learning_rate, epochs, save_name):
    model.train()
    optimizer = torch.optim.SGD(params=model.parameters(), lr=learning_rate)
    loss_list = []
    for epoch in tqdm.tqdm(range(epochs)):
        total_loss = 0
        for i, (center, pos_words, neg_words) in enumerate(dataloader):
            optimizer.zero_grad()
            loss = model(center, pos_words, neg_words).mean()
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        loss_list.append(total_loss)

    torch.save(model.state_dict(), os.path.join(config.result_dir, save_name + '_model.pth'))
    return loss_list

开始训练。在训练结束后获取模型的隐藏层权重参数，即我们需要的词向量，将词向量保存为json文件便于读取

### 选择语料类型: 'zh' | 'en' ###
corpus = 'en'
################################
corpus_name = config.zh_corpus if corpus == 'zh' else config.en_corpus
dataloader, dataset = get_dataloader(root=config.root_dir,
                                     corpus_name=corpus_name,
                                     stop_file=config.stopwords,
                                     batch_size=config.batch_size,
                                     shuffle=True,
                                     windows=config.windows,
                                     neg_sam=config.neg_sam)
vocab_size = len(dataset.word2id)
model = SkipGram(vocab_size, config.embedding_dim).to(config.device)
loss_list = train(model=model, dataloader=dataloader, learning_rate=config.lr, epochs=config.epochs, save_name=corpus)
np.savetxt(corpus + "_loss.csv", np.array(loss_list), delimiter=',')

# 保存词向量
embedding_weights = model.get_weight()
dic = {word: embedding_weights[idx].tolist() for word, idx in dataset.word2id.items()}

with open(os.path.join(config.result_dir, corpus + '_embed.json'), 'w', encoding='utf-8') as file:
    file.write(json.dumps(dic, ensure_ascii=False, indent=4))

6. 词向量工具模块

新建utils.py文件，在这个文件下，主要编写与可视化工具相关的代码，首先导入需要的包

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from scipy import spatial
import json
import seaborn as sns
import adjustText

编写plot_loss()函数，传入记录的loss列表数据，将loss数据可视化

def plot_loss(loss, name):
    length = len(loss)
    x = np.arange(1, length + 1)
    plt.plot(x, loss)
    plt.title(name)
    plt.xlabel('epochs')
    plt.ylabel('loss')
    plt.show()

创建Tool()工具类，处理词向量，在构造方法中设置pyplot能正常显示汉字，同时读取训练时保存的词向量文件，载入词向量数据

class Tool():
    def __init__(self, embedding_path):
        # 使得pyplot可输出汉字
        plt.rcParams['font.sans-serif'] = ['SimHei']
        plt.rcParams['axes.unicode_minus'] = False
        file = open(embedding_path, 'r', encoding='utf-8')
        self.wordVec = json.load(file)

编写find_near_word()方法，根据指定词语，计算其与其他所有词的余弦相似度，选择相似度最大的前num个词作为结果返回

class Tool():
    def __init__(self, embedding_path):
        '''省略'''

    def find_near_word(self, word, num):
        '''
        :param word: 选定的词
        :param num: 需要查找的近义词数量
        :return: num个近义词列表
        '''
        embedding = self.wordVec[word]
        cos_sim_list = []
        for key, value in self.wordVec.items():
            cos_sim = 1 - spatial.distance.cosine(value, embedding)
            cos_sim_list.append((cos_sim, key))
        cos_sim_list.sort(reverse=True)
        return cos_sim_list[0:num]

编写draw_heatmap()方法，通过热力图可视化一系列词向量

class Tool():
    def __init__(self, embedding_path):
        '''省略'''

    def find_near_word(self, word, num):
        '''省略'''

    def draw_heatmap(self, words):
        '''
        :param words: 一列的词
        '''
        vectors = [self.wordVec[word] for word in words]
        f, ax = plt.subplots(figsize=(15, 9))
        sns.heatmap(vectors, ax=ax)
        ax.set_yticklabels(words)
        plt.show()

编写draw_scatter()方法，通过散点图可视化各个词在空间中的位置，由于词向量维度太高，因此我们需要使用主成分分析法将词向量降维到2维，才能正常显示在坐标轴上

class Tool():
    def __init__(self, embedding_path):
        '''省略'''

    def find_near_word(self, word, num):
        '''省略'''

    def draw_heatmap(self, words):
        '''省略'''

    def draw_scatter(self, words):
        '''
        :param words: 一列词
        '''
        pca = PCA(n_components=2)
        vectors = [self.wordVec[word] for word in words]
        coordinates = pca.fit_transform(vectors)
        plt.figure(figsize=(13, 9))
        plt.scatter(coordinates[:, 0], coordinates[:, 1])
        text = [plt.text(coordinates[i, 0], coordinates[i, 1], words[i], fontsize=15) for i in range(len(words))]
        adjustText.adjust_text(text)
        plt.show()

7. 实验效果

损失值变化

查找与“中国”接近的5个词，结果为[(1, ‘中国’), (0.9770937577320784, ‘说’), (0.9704815043334012, ‘中’), (0.9691968812096485, ‘美国’), (0.966375220591473, ‘政府’)]

显示词义接近的20个词的热力图

可视化词的坐标

linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
提升首屏加载的秘密武器：一文讲透 CDN 加速核心逻辑网罗开发实战源码前端 json javascript
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
python3常用模块 ZZH1120KQ python 开发语言
1数学运算模块math“math”模块提供了许多常用的数学函数，例如三角函数、四舍五入、指数、对数、平方根、总和等importmath1.1常数math.pi返回圆周率的数学常数。math.e返回指数的数学常数示例：print(math.pi)print(math.e)1.2fabs(x)取绝对值示例：print(math.fabs(5))print(math.fabs(-5))1.3ceil(x
Django REST framework - 设置 djangopython
settings.py命名空间是个绝妙的主意，让我们多用用吧！——《Python之禅》DjangoREST框架的配置都放在一个命名空间内，即Django的一个设置，名为REST_FRAMEWORK。例如，项目的settings.py文件可能包含类似以下内容：REST_FRAMEWORK={'DEFAULT_RENDERER_CLASSES':['rest_framework.renderers.J
生信分析用python还是r_生信分析利器：JupyterLab weixin_39612726 生信分析用python还是r
生信分析对计算机的开发环境有诸多要求，随之而来的自然就是很多麻烦。不说别的，要兼顾Python和R的问题就有够头疼。一边想着用Python搭流程处理文本和分析结果，另一边还想着用R来做统计分析和画图，而且大多数时候生信分析还得在服务器上完成。Python你用Pycharm，R用Rstudio，一会这儿一会那儿的切来切去，还得设置服务器连接(Pycharm如果不是付费版本，要连服务器还挺麻烦)。完了
Python 爬虫实战：抓取哔哩哔哩收藏夹视频（API 逆向 + 视频分类整理）西攻城狮北 python 爬虫音视频
引言哔哩哔哩（B站）作为国内知名的视频分享平台，拥有丰富多样的视频资源和活跃的用户社区。对于视频创作者、数据分析人员或爬虫学习者来说，抓取B站收藏夹中的视频数据，不仅能帮助我们更好地了解用户喜好和视频内容，还能为创作和研究提供有力支持。本文将深入浅出地讲解如何通过Python爬虫实现抓取哔哩哔哩收藏夹视频，并对其进行分类整理，涵盖从环境搭建、API逆向分析到数据处理与存储等关键步骤，旨在为读者提供
【Python学习】可视化图表-使用matplotlib绘制不同种类散点图西攻城狮北 Python实用案例 python 学习 matplotlib 可视化图形
一、引言在数据可视化领域，散点图是一种极其强大的工具，它能够直观地展示变量之间的关系、数据分布的模式以及潜在的聚类情况等。通过散点图，我们可以轻松地发现数据中的异常值、相关性以及其他隐藏的特征。Python的matplotlib库提供了丰富而灵活的功能，可以帮助我们绘制出各种类型的散点图，以满足不同的数据分析和展示需求。本文将深入探讨如何使用matplotlib绘制多种类型的散点图，并提供详细的代
18个Python高效编程技巧！程序员笑武 python 开发语言数据分析信息可视化运维
初识Python语言，觉得python满足了我上学时候对编程语言的所有要求。python语言的高效编程技巧让我们这些大学曾经苦逼学了四年c或者c++的人，兴奋的不行不行的，终于解脱了。高级语言，如果做不到这样，还扯啥高级呢？01交换变量>>>a=3>>>b=6这个情况如果要交换变量在c++中，肯定需要一个空变量。但是python不需要，只需一行，大家看清楚了>>>a,b=b,a>>>print(a
python连接db2的官方库ibm_db的api 数据-脚本-资源-管道 ibm-db python 数据库 python
IBM_DBAPI详细文档ibm_db.active描述检查指定的数据库连接是否处于活动状态传入参数connection:有效的数据库连接资源返回值True:资源处于活动状态False:资源未处于活动状态例子importibm_dbconn=ibm_db.connect("DATABASE=testdb;HOSTNAME=localhost;PORT=50000;PROTOCOL=TCPIP;UI
Python 爬虫实战：动态数据+定时任务+价格预测全链路解析西攻城狮北 python 爬虫开发语言
一、动态数据捕获技术栈1.1目标网站分析（以某OTA平台为例）实现原理：本节演示如何使用Selenium自动化浏览器访问机票查询页面。选择Selenium而非直接请求API的原因在于：目标网站采用JavaScript动态渲染价格数据需要模拟用户操作（如选择日期、舱位）触发数据加载需处理反爬机制（如Cookie验证、行为检测）fromseleniumimportwebdriverfromseleni
Python并发编程基础：进程与线程本质区别详解 Yant224 python #并发编程 python 进程与线程并发编程多线程原理多进程原理并发模型线程安全
一、进程与线程的本质概念1.核心定义操作系统进程1进程2线程1线程2线程3线程1线程2进程(Process)：操作系统进行资源分配的基本单位线程(Thread)：操作系统进行任务调度的基本单位每个进程至少包含一个主线程，线程是进程的执行分支二、核心区别深度解析1.资源分配对比维度进程线程内存空间独立地址空间共享进程内存空间文件句柄独立文件描述符表共享进程文件描述符网络连接独立socket连接共享进
Python 自动批量生成发卡平台卡密信息并导入数据库拉灯的小手支付相关及一些实用小脚本 Python脚本 Python 自动脚本自动发卡平台发卡网
本文仅供学习交流使用，如侵立删！demo下载见文末Python自动批量生成发卡平台卡密信息并导入数据库环境win10Python：3.6.7os、csv、uuid、datetime1、生成脚本生成卡密文件：txt、csv各一份txt：导入发卡平台csv：导入数据库#-*-coding:utf-8-*-#作者：Administrator#文件：提取码txt转csv脚本.py
python中classmethod中讲解 AI专题精讲 python python
classmethod中的cls和self区别在Python中，@classmethod是一个装饰器，用于定义类方法。类方法与实例方法不同，它操作的是类本身，而不是类的实例。cls和self的区别：cls:cls是类方法的第一个参数，代表类本身。类方法通过@classmethod装饰器定义，调用时不需要创建类的实例。cls通常用于访问或修改类级别的属性，或者创建类的实例。self:self是实例方
Python类中cls和self的区别（staticmethod和classmethod的区别） Mr 姚 Python
1、cls和self的区别：self：类的方法的第一个参数，表示一个具体的实例本身。如果类的方法用了修饰符“staticmethod”，则可以无视这个self，这个方法就当成一个普通的函数使用。cls：若类方法用修饰符“classmethod”修饰，则cls作为类方法的第一个参数，表示这个类本身。2、staticmethod和classmethod的区别：一般来说，需要将类实例化后，才能调用类的方
Python中cls和self的区别单单一个越 python python 开发语言
self和cls都是对类或实例的引用，但它们在Python中的用法和含义是不同的。self是实例方法的第一个参数，它代表类的实例。self只能在实例方法中使用，用于访问实例的属性和方法。每个实例都有自己的self，它们互不影响。cls是类方法的第一个参数，它代表类本身。cls只能在类方法中使用，用于访问类的属性和方法。所有实例共享同一个cls。以下是一个简单的示例classMyClass:coun
Python 中的集合（Set）详解：从基础操作到实际应用面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言：集合在Python中的重要性在Python编程中，集合（Set）是一种极为重要的内置数据结构，它以无序性和元素唯一性为主要特点。集合中的每个元素都是独一无二的，这使得它在处理数据去重、成员检测以及数学运算（如并集、交集）时表现出色。无论是进行大规模数据分析，还是优化算法效率，集合都能提供高效的解决方案。例如，在处理用户ID列表时，集合可以快速去除重复项，确保数据准确性。此外，集合与字
python cls的使用最后冰吻free python cls
importthreadingclassTest:#new方法用于创建类的实例def__new__(cls,*args,**kwargs):print("__new__:",cls.__class__.__name__)returnobject.__new__(cls)#返回实例给initself参数#init用于初始化类的实例，实例由new方法传递过来的，即这里selfdef__init__(s
初识 Flask 框架 2301_80329775 pyton编程基础 flask python 后端
前言Flask是一个轻量级的Web框架，基于Python语言开发，设计理念注重简洁、灵活和易用。作为一个"微框架"，它本身非常简洁，提供了构建web应用所需的核心工具，但并不强制开发者遵循复杂的项目结构，因此被广泛应用于web开发领域。Flask非常适合初学者学习Web开发，因为它让开发者能够专注于应用逻辑，而无需过多担心框架本身的复杂性。无论是快速原型开发，还是较小规模的Web应用，Flask都
抓取HTTP请求与响应头，分析网站请求逻辑：Python爬虫实战指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫网络 selenium 开发语言信息可视化
引言在爬虫开发过程中，分析和理解网站的请求和响应逻辑是非常重要的。通过抓取HTTP请求与响应头，我们不仅可以获取网站内容，还可以帮助我们更好地绕过反爬虫机制、模拟真实用户的行为。HTTP请求和响应头提供了关于请求的数据、服务器的状态以及网页加载过程中的详细信息，掌握这些信息可以让我们在抓取数据时更加高效、灵活。本文将详细介绍如何抓取和分析HTTP请求与响应头，揭示网站请求的底层逻辑，并提供相应的P
SQLAlchemy xnuscd git 学习 elasticsearch
1.简介SQLAlchemy是一个功能强大的PythonSQL工具包和对象关系映射（ORM）框架，旨在提供高效、灵活且便于扩展的数据库交互解决方案。它支持多种数据库，并通过其核心（Core）和ORM两个层次为开发者提供不同的抽象级别。为什么选择SQLAlchemy？灵活性：允许你选择使用核心的SQL构建器，或完全依赖ORM来处理数据库操作。性能：优化的查询生成和连接池管理，适用于高并发和大规模应用
新手了解和使用python环境下的运算符（使用notepad++） 2303_77470379 python
目录一、引言二、Python运算符的分类与使用三、在Notepad++中使用Python运算符四、案例五、总结一、引言在Python编程的世界里，运算符扮演着举足轻重的角色，它们是对数据进行操作的关键工具。从简单的数学运算，到复杂的逻辑判断，运算符贯穿于Python程序的各个角落。而Notepad++作为一款强大的文本编辑器，为我们编写和运行Python代码提供了便利的环境。接下来，让我们深入了解
python的变量和数据类型筱920 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录一、python的变量变量的命名规则二、python的数据类型五种基本数据类型：整型，浮点型，字符串型，布尔型，空型。（其中type方法是检测变量是什么类型）1，整型毋庸置疑就是整数，python中变量值为0b开头可以定义一个二进制，bin方法可以将十进制数转换成二进制。2，浮点型就是小数，即定义变量的值为小数，主要利用科学计数法
python compile error_Python errors.CompileError方法代码示例 weixin_39705850 python compile error
本文整理汇总了Python中distutils.errors.CompileError方法的典型用法代码示例。如果您正苦于以下问题：Pythonerrors.CompileError方法的具体用法？Pythonerrors.CompileError怎么用？Pythonerrors.CompileError使用的例子？那么恭喜您,这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所
Python和MATLAB数字信号波形和模型模拟
要点Python和MATLAB实现以下波形和模型模拟以给定采样率模拟正弦信号，生成给定参数的方波信号，生成给定参数隔离矩形脉冲，生成并绘制线性调频信号。快速傅里叶变换结果释义：复数离散傅里叶变换、频率仓和快速傅里叶变换移位，逆快速傅里叶变换移位，数值NumPy对比观察FFT移位和逆FFT移位。离散时域表示：余弦信号生成取样，使用FFT频域信号表示，使用FFT计算离散傅里叶变换DFT，获得幅度谱并提
Godot Python 项目常见问题解决方案
GodotPython项目常见问题解决方案godot-pythonPythonsupportforGodot项目地址:https://gitcode.com/gh_mirrors/go/godot-python1.项目基础介绍和主要编程语言GodotPython是一个开源项目，旨在为Godot游戏引擎提供Python语言支持。这个项目允许开发者使用Python语言来编写Godot游戏脚本，从而充分
error: F:\car\dataset\cocoapi-master\pycocotools\_mask.pyx canpian7 python模块安装 cocos
问题描述error:F:\car\dataset\cocoapi-master\pycocotools_mask.pyx安装cocoapi时出现报错代码路径cocoapi当执行pythonPythonAPI\setup.pybuild_extinstall报错runningbuild_extcythoningpycocotools/_mask.pyxtopycocotools_mask.cerro
Python时域信号特征提取技术要点路怜涯
本文还有配套的精品资源，点击获取简介：在机器学习领域，时域信号特征提取是数据预处理的关键环节，特别是对于时间序列数据。时域信号特征包括信号的基本特性量，如平均值、中值、峰值、谷值、峰谷差、方差、标准差、极值点、峭度与峰度、自相关函数、滑动窗口统计、傅立叶变换和小波分析等。使用Python中的NumPy、Pandas和SciPy库可以帮助我们计算这些特征，并为机器学习模型训练准备数据。本文将介绍如何
准确--如何在 Windows 上安装并管理多个 Python 环境 ascarl2010 Python windows python 开发语言
使用虚拟环境隔离项目概述核心：手动安装多个Python版本（2.7.18和3.10.11）。使用py启动器（Windows自带的Python版本管理工具）选择特定版本运行Python。使用virtualenv工具为每个项目创建独立的虚拟环境，隔离不同Python版本和依赖包。这种方法简单直接，适合需要在不同项目中使用不同Python版本的场景，且无需复杂的工具如pyenv-win。虚拟环境确保每个
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
python中的下划线牧野渔樵 python 开发语言
本文介绍了Python中单下划线和双下划线的5种表现形式，以及一些使用方法。其中有一些含义仅仅是依照约定，被视作是对程序员的提示，而有一些含义是由Python解释器严格执行的。单前导下划线：_var单末尾下划线：var_双前导下划线：__var双前导和末尾下划线：__var__单下划线：_1.单前导下划线_var下划线前缀的含义是告知其他程序员：以单个下划线开头的变量或方法仅供内部使用。该约定在P
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include