GTFQAQ

Pytorch学习笔记之训练词向量（三）

Pytorch学习笔记之Pytorch训练词向量（三）

学习目标

学习词向量的概念
用Skip-thought模型训练词向量
学习使用PyTorch dataset和dataloader
学习定义PyTorch模型
学习torch.nn中常见的Module
- Embedding
学习常见的PyTorch operations
- bmm
- logsigmoid
保存和读取PyTorch模型

使用的训练数据可以从以下链接下载到。

链接:https://pan.baidu.com/s/1tFeK3mXuVXEy3EMarfeWvg 密码:v2z5

在这一份notebook中，我们会（尽可能）尝试复现论文Distributed Representations of Words and Phrases and their Compositionality中训练词向量的方法. 我们会实现Skip-gram模型，并且使用论文中noice contrastive sampling的目标函数。

这篇论文有很多模型实现的细节，这些细节对于词向量的好坏至关重要。我们虽然无法完全复现论文中的实验结果，主要是由于计算资源等各种细节原因，但是我们还是可以大致展示如何训练词向量。

以下是一些我们没有实现的细节

subsampling：参考论文section 2.3

1. 引入pytorch相关包

import torch
import torch.nn as nn # neural Network
import torch.nn.functional as F # functional
import torch.utils.data as tud # 
from torch.nn.parameter import Parameter

from collections import Counter
import numpy as np
import random
import math

import pandas as pd
import scipy
import sklearn
from sklearn.metrics.pairwise import cosine_similarity
# 配置参数
# 是否有GPU
USE_CUDA = torch.cuda.is_available()
# 固定随机数种子，保证程序复现
seed_numder = 1 
random.seed(seed_numder)
np.random.seed(seed_numder)
torch.manual_seed(seed_numder)
if USE_CUDA:
    torch.cuda.manual_seed(seed_numder)

# 设置超参数
K = 100 # 负样本随机采样与正样本的比例
C = 3 # 上下文窗口数目
NUM_EPOCHS = 10 # 迭代轮数
MAX_VOCAB_SIZE = 30000 # 词汇表大小
BATCH_SIZE = 128 #每次迭代的batch数目
LEARNING_RATE = 0.2 # 学习率
EMBEDDING_SIZE = 100 # 词向量维度

LOG_FILE = 'word_embedding.log'

2. 预处理

从文本文件中读取所有的文字，通过这些文本创建一个vocabulary
由于单词数量可能太大，我们只选取最常见的MAX_VOCAB_SIZE个单词
我们添加一个UNK单词表示所有不常见的单词
我们需要记录单词到index的mapping，以及index到单词的mapping，单词的count，单词的(normalized) frequency，以及单词总数。

def word_tokenize(text):
    return text.split()
# 读取训练文本
with open("./text8/text8/text8.train.txt", "r") as fin: #读入文件
    text = fin.read()
# 分词后转换为列表
text = [w for w in word_tokenize(text.lower())]
# 获取出现频率最高的前 (MAX_VOCAB_SIZE - 1)个词
# 返回是一个字典类型 {word_1: frequency_1}
vocab = dict(Counter(text).most_common(MAX_VOCAB_SIZE - 1))
# 统计剩余的其他词出现的频率
vocab[""] = len(text) - np.sum(list(vocab.values()))
# 
idx_to_word = [w for w in vocab.keys()]
# 
word_to_idx = {word:i for i, word in enumerate(idx_to_word)}
# 记录单词出现的频数
word_counts = np.array([v for v in vocab.values()], dtype=np.float32)
# 正则化
word_freqs = word_counts / np.sum(word_counts)
# 3/4次之后，会将高概率的单词的概率值，分一部分给低概率的单词。
word_freqs = word_freqs ** (3./4.)
# 
word_freqs = word_freqs / np.sum(word_freqs)
# 词汇表数目
VOCAB_SIZE = len(idx_to_word)

确认一下词表大小

VOCAB_SIZE
> 30000

3. 实现Dataloader

一个dataloader需要以下内容：

把所有text编码成数字，然后用subsampling预处理这些文字。
保存vocabulary，单词count，normalized word frequency
每个iteration sample一个中心词
根据当前的中心词返回context单词
根据中心词sample一些negative单词
返回单词的counts

这里有一个好的tutorial介绍如何使用PyTorch dataloader.
为了使用dataloader，我们需要定义以下两个function:

__len__function需要返回整个数据集中有多少个item
__getitem__根据给定的index返回一个item

有了dataloader之后，我们可以轻松随机打乱整个数据集，拿到一个batch的数据等等。

class WordEmbeddingDataset(tud.Dataset):
    def __init__(self, text, word_to_idx, idx_to_word, word_freqs):
        ''' text: a list of words, all text from the training dataset
            word_to_idx: the dictionary from word to idx
            idx_to_word: idx to word mapping
            word_freq: the frequency of each word
            word_counts: the word counts
        '''
        super().__init__() #初始化模型
        # 将文本编码成数目
        self.text_encoded = [word_to_idx.get(t, word_to_idx[""]) for t in text]
        self.text_encoded = torch.LongTensor(self.text_encoded)
        # 
        self.word_to_idx = word_to_idx
        self.idx_to_word = idx_to_word
        self.word_freqs = torch.Tensor(word_freqs)
    def __len__(self):
        ''' 返回整个数据集（所有单词）的长度
        '''
        return len(self.text_encoded)
    def __getitem__(self, idx):
        ''' 这个function返回以下数据用于训练
            - 中心词
            - 这个单词附近的(positive)单词
            - 随机采样的K个单词作为negative sample
        '''
        # 获取中心词
        center_word = self.text_encoded[idx]
        # 获取中心词上下文的词
        pos_indices = list(range(idx-C, idx)) + list(range(idx+1, idx+C+1))
        # 超出长度的部分，取余（一个圆环）
        pos_indices = [p%self.__len__() for p in pos_indices]
        pos_words = self.text_encoded[pos_indices]
        # 获取负样本, 精细时应该考虑去掉抽取出中心词或者上下文词的情况
        neg_words = torch.multinomial(self.word_freqs, K * pos_words.shape[0], True)
        
        return center_word, pos_words, neg_words

4. 创建一个dataset对象及使用DataLoader加载数据

dataset = WordEmbeddingDataset(text, word_to_idx, idx_to_word, word_freqs)
# windows系统设置 num_workers=0（因为windows系统下pytorch的多线程执行有bug），其他系统可以增加线程数
dataloader = tud.DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=0)

看一下dataloader返回的数据

# dataloader 每次返回的训练数据 batch_size 
showNextData = next(iter(dataloader))
print(showNextData[0].size())
print(showNextData[1].size())
print(showNextData[2].size())

运行结果

torch.Size([128])
torch.Size([128, 6])
torch.Size([128, 600])

5. 定义Pytorch模型

loss函数如下

class EmbeddingModel(nn.Module):
    def __init__(self, vocab_size, embed_size):
        ''' 初始化输出和输出embedding
        '''
        super().__init__()
        self.vocab_size = vocab_size # 30000
        self.embed_size = embed_size # 100
        
        initrange = 0.5 / self.embed_size
        # [30000, 100] matrix
        self.in_embed = nn.Embedding(self.vocab_size, self.embed_size, sparse=False)
        # 初始化权重分布设为均匀分布[-5e-3, 5e-3]
        self.in_embed.weight.data.uniform_(-initrange, initrange)
        self.out_embed = nn.Embedding(self.vocab_size, self.embed_size, sparse=False)
        self.out_embed.weight.data.uniform_(-initrange, initrange)
    
    def forward(self, input_labels, pos_labels, neg_labels):
        '''
        input_labels: 中心词, [batch_size]
        pos_labels: 中心词周围 context window 出现过的单词 [batch_size * (window_size * 2)]
        neg_labelss: 中心词周围没有出现过的单词，从 negative sampling 得到 [batch_size, (window_size * 2 * K)]
        
        return: loss, [batch_size]
        '''
        input_embedding = self.in_embed(input_labels) # [b, embed_size] [128, 100]
        pos_embedding = self.out_embed(pos_labels) # [b, 2*C, embed_size] [128, 6, 100]
        neg_embedding = self.out_embed(neg_labels) # [b, 2*C*K, embed_size] [128, 600, 100]
        # unsqueeze(dim) 在指定维度插入一维，squeeze（dim）在指定维度去掉一维。dim属于[-x.dim-1 ,x.dim+1) 左闭右开
        # squeeze() 压缩所有维度为1的维度 （3, 1, 2, 1, 5) -> (3, 2, 5)
        # torch.bmm()为batch矩阵乘法（b, n, m)*(b, m, p)=(b, n, p)
        # [b, 2*C] [128, 6]
        log_pos = torch.bmm(pos_embedding, input_embedding.unsqueeze(2)).squeeze() 
        # [b, 2*C*K] [128, 600]
        log_neg = torch.bmm(neg_embedding, input_embedding.unsqueeze(2)).squeeze()
        # b
        log_pos = F.logsigmoid(log_pos).sum(1)
        log_neg = F.logsigmoid(log_neg).sum(1)
        loss = log_pos + log_neg
        
        return -loss
    
    def input_embeddings(self):
        # 取出权重，计算相似度
        weight = self.in_embed.weight.data.cpu().numpy()
        # 通常也可以取 两个Embedding的平均值
        weight1 = ((self.in_embed.weight.data + self.out_embed.weight.data) / 2.).cpu().numpy()
        # 两个都返回，看看哪种情况好
        return weight, weight1

6. 创建模型对象

model = EmbeddingModel(VOCAB_SIZE, EMBEDDING_SIZE)
if USE_CUDA:
    model = model.to('cuda:0')

查看一下模型结构

model
# 一下为输出结果
EmbeddingModel(
  (in_embed): Embedding(30000, 100)
  (out_embed): Embedding(30000, 100)
)

7. 评估词向量的代码

evaluate(filename, embedding_weight_1, embedding_weight_2) 函数利用训练好的词向量计算单词序列之间的相似度，与人类主观上单词相似度进行对比。一致率越高，数值接近1，反之，为-1。
find_nearest(word, embedding_weight_1, embedding_weight_2) 利用相似度，找出与指定单词意思最近的十个单词。
embedding_weight_1 指从in_embed权重矩阵中取
embedding_weight_2 指将in_embed权重矩阵和 out_embed权重矩阵相加，再取平均后的结果。
科学研究就是要做实验，试一下两者那个效果好

def evaluate(filename, embedding_weight_1, embedding_weight_2):
    if filename.endswith(".csv"):
        data = pd.read_csv(filename, sep=',')
    else:
        data = pd.read_csv(filename, sep='\t')
    human_similarity = []
    # in_embed权重相似度
    model_similarity_1 = []
    # in_embed 和 out_embed 两个Embedding的平均值
    model_similarity_2 = []
    for i in data.iloc[:, 0:2].index:
        word1, word2 = data.iloc[i, 0], data.iloc[i, 1]
        if word1 not in word_to_idx or word2 not in word_to_idx:
            continue
        else:
            # 取出索引值
            word1_idx, word2_idx = word_to_idx.get(word1), word_to_idx.get(word2)
            # 取出训练好的 词向量值
            word1_embed_1, word2_embed_1 = embedding_weight_1[[word1_idx]], embedding_weight_1[[word2_idx]]
            word1_embed_2, word2_embed_2 = embedding_weight_2[[word1_idx]], embedding_weight_2[[word2_idx]]
            # 计算相似度度  两个单词相似度越高，夹角应该越小,sklearn.metrics.pairwise.cosine_similarity （相似度）增大
            model_similarity_1.append(float(cosine_similarity(word1_embed_1, word2_embed_1)))
            model_similarity_2.append(float(cosine_similarity(word1_embed_2, word2_embed_2)))
            human_similarity.append(float(data.iloc[i, 2]))
    # 统计预测值与真实值序列之间的相关系数
    # spearman秩相关系数是度量两个变量之间的统计相关性的指标，用来评估当用单调函数来描述两个变量之间的关系有多好。
    # 在没有重复数据的情况下，如果一个变量是另外一个变量的严格单调函数，那么二者之间的spearman秩相关系数就是1或+1，称为完全spearman相关
    return scipy.stats.spearmanr(human_similarity, model_similarity_1), scipy.stats.spearmanr(human_similarity, model_similarity_2)

def find_nearest(word, embedding_weight_1, embedding_weight_2):
    index = word_to_idx.get(word)
    embed_1 = embedding_weight_1[index]
    embed_2 = embedding_weight_2[index]
    # 1 - cosine_sklearn = cosine_scipy  scipy库和是sklearn库关于余弦线相似度的计算是不一样的
    # 两个单词相似度越高，夹角应该越小,cosine_sklearn （相似度）增大，cosine_scipy （夹角）减小
    cos_dis_1 = np.array([scipy.spatial.distance.cosine(e, embed_1) for e in embedding_weight_1])
    cos_dis_2 = np.array([scipy.spatial.distance.cosine(e, embed_2) for e in embedding_weight_2])
    # argsort()函数是将x中的元素从小到大排列，返回其对应的index(索引号)
    lst_1 = [idx_to_word[i] for i in cos_dis_1.argsort()[:10]]
    lst_2 = [idx_to_word[i] for i in cos_dis_2.argsort()[:10]]
    return lst_1, lst_2

8. 训练模型：

模型一般需要训练若干个epoch
每个epoch我们都把所有的数据分成若干个batch
把每个batch的输入和输出都包装成cuda tensor
forward pass，通过输入的句子预测每个单词的下一个单词
用模型的预测和正确的下一个单词计算cross entropy loss
清空模型当前gradient
backward pass
更新模型参数
每隔一定的iteration输出模型在当前iteration的loss，以及在验证数据集上做模型的评估

# 优化器采用SGD
optimizer = torch.optim.SGD(model.parameters(), lr=LEARNING_RATE)
# 
for e in range(NUM_EPOCHS):
    for i, (input_labels, pos_labels, neg_labels) in enumerate(dataloader):
        #
        input_labels = input_labels.long()
        pos_labels = pos_labels.long()
        neg_labels = neg_labels.long()
        if USE_CUDA:
            input_labels = input_labels.cuda()
            pos_labels = pos_labels.cuda()
            neg_labels = neg_labels.cuda()
        # 梯度归零
        optimizer.zero_grad()
        # loss返回 [128] 求平均
        loss = model(input_labels, pos_labels, neg_labels).mean()
        loss.backward() # 反向传播
        optimizer.step() # 更新梯度
        
        # 每100次打印结果。
        if i % 100 == 0:
            with open(LOG_FILE, "a") as fout:
                fout.write("epoch: {}, iter: {}, loss: {}\n".format(e, i, loss.item()))
                print("epoch: {}, iter: {}, loss: {}".format(e, i, loss.item()))
        # 每2000次计算一次相似度
        if i % 2000 == 0:
            embedding_weights_1, embedding_weights_2  = model.input_embeddings()
            sim_simlex_1, sim_simlex_2 = evaluate("simlex-999.txt", embedding_weights_1, embedding_weights_2)
            sim_men_1, sim_men_2 = evaluate("men.txt", embedding_weights_1, embedding_weights_2)
            sim_353_1, sim_353_2 = evaluate("wordsim353.csv", embedding_weights_1, embedding_weights_2)
            with open(LOG_FILE, "a") as fout:
                print(f"epoch: {e}, iteration: {i}, \n simlex-999_1: {sim_simlex_1}, \n simlex-999_2: {sim_simlex_2}, \n men_1: {sim_men_1}, \n men_2: {sim_men_2},  \n sim353_1: {sim_353_1}, \n sim353_2: {sim_353_2}, \n nearest to monster: {find_nearest('monster', embedding_weights_1, embedding_weights_2)}\n")
                fout.write(f"epoch: {e}, iteration: {i}, simlex-999_1: {sim_simlex_1},simlex-999_2: {sim_simlex_2}, men_1: {sim_men_1}, men_2: {sim_men_2}, sim353_1: {sim_353_1}, sim353_2: {sim_353_2}, nearest to monster: {find_nearest('monster', embedding_weights_1, embedding_weights_2)}\n")

运行结果示例如下（训练轮次自己设定）

epoch: 0, iter: 0, loss: 142.8716583251953
epoch: 0, iteration: 0, 
 simlex-999_1: SpearmanrResult(correlation=-0.035259516920833865, pvalue=0.27660953700886737), 
 simlex-999_2: SpearmanrResult(correlation=-0.047682561919958094, pvalue=0.14110938770590917), 
 men_1: SpearmanrResult(correlation=0.04988050229600173, pvalue=0.011246409260567655), 
 men_2: SpearmanrResult(correlation=0.04000382686226847, pvalue=0.0420970874212936),  
 sim353_1: SpearmanrResult(correlation=0.026812442387097967, pvalue=0.633297026852052), 
 sim353_2: SpearmanrResult(correlation=-0.0034262533468499058, pvalue=0.9513952103438084), 
 nearest to monster: (['monster', 'maltese', 'watershed', 'correspond', 'flops', 'yellowstone', 'gamal', 'tolstoy', 'aquitaine', 'denoting'], ['monster', 'etc', 'services', 'abraham', 'slightly', 'sexual', 'andrew', 'legal', 'nobel', 'broken'])

epoch: 0, iter: 100, loss: 102.23202514648438
epoch: 0, iter: 200, loss: 93.51679229736328
epoch: 0, iter: 300, loss: 91.04571533203125
epoch: 0, iter: 400, loss: 85.10859680175781
epoch: 0, iter: 500, loss: 73.21339416503906
epoch: 0, iter: 600, loss: 82.36524200439453
epoch: 0, iter: 700, loss: 71.56480407714844
epoch: 0, iter: 800, loss: 47.44879913330078
epoch: 0, iter: 900, loss: 49.65077209472656
epoch: 0, iter: 1000, loss: 53.81517028808594
epoch: 0, iter: 1100, loss: 37.037811279296875
epoch: 0, iter: 1200, loss: 49.845680236816406
epoch: 0, iter: 1300, loss: 44.053367614746094
epoch: 0, iter: 1400, loss: 29.414356231689453
epoch: 0, iter: 1500, loss: 41.82801818847656
epoch: 0, iter: 1600, loss: 35.28537368774414
epoch: 0, iter: 1700, loss: 26.633563995361328
epoch: 0, iter: 1800, loss: 31.498106002807617
epoch: 0, iter: 1900, loss: 29.859540939331055
epoch: 0, iter: 2000, loss: 31.989009857177734
epoch: 0, iteration: 2000, 
 simlex-999_1: SpearmanrResult(correlation=-0.030601859820272474, pvalue=0.3450785890869934), 
 simlex-999_2: SpearmanrResult(correlation=-0.0463389472461431, pvalue=0.15267173464395575), 
 men_1: SpearmanrResult(correlation=0.031088156058363608, pvalue=0.11426469625155944), 
 men_2: SpearmanrResult(correlation=0.02383281291831326, pvalue=0.226044371368817),  
 sim353_1: SpearmanrResult(correlation=-0.04833420023275394, pvalue=0.38957379699663996), 
 sim353_2: SpearmanrResult(correlation=-0.03349780564943204, pvalue=0.55110266180645), 
 nearest to monster: (['monster', 'a', 'but', 'he', 'home', 'empire', 'that', '', 'one', 'time'], ['monster', 'has', 'are', 'etc', 'part', 'were', 'been', 'state', 'that', 'his'])

epoch: 0, iter: 2100, loss: 29.90845489501953
epoch: 0, iter: 2200, loss: 30.369483947753906
epoch: 0, iter: 2300, loss: 24.405258178710938

使用Chaindesk与大语言模型集成的实战指南 srudfktuffk 语言模型人工智能自然语言处理 python
技术背景介绍在现代AI应用中，快速有效地从大量数据中获取相关信息是至关重要的。Chaindesk是一款开源的文档检索平台，旨在将您的个人数据与大型语言模型（LLM）连接起来，实现高效的信息检索和应用集成。核心原理解析Chaindesk通过创建"数据存储"（datastore）来管理和索引数据，利用检索器（Retriever）进行高效查询。这使得用户能够在私有数据的基础上构建智能应用，而无需担心数据
[读书日志]8051软核处理器设计实战（基于FPGA）第六篇：8051软核处理器指令支持添加（verilog） JoneMaster JM读书日志系列 fpga开发
5.4为主体程序添加指令接下来我们来为主体程序添加指令。在开始之前，我们有必要先把目前的代码展示出来：//`defineTYPE8052moduler8051(inputwireclk,inputwirerst,inputwirecpu_en,inputwirecpu_restart,outputregrom_en,outputreg[15:0]rom_addr,inputwire[7:0]rom
face-kkk 山山而川_R face 深度学习
目录一、配置环境1、新建虚拟环境2、配置环境安装包3、下载安装使用环境二、注册新人1、采集照片2、注册新人3、测试视频或摄像头三、配置文件config1、项目配置文件configs/configs.py，用于设置人脸检测模型，特征提取模型二、下面是自己测试用（个人的一个记录，不具备参考意义）MTCNN人脸检测参考项目：GitHub-Sierkinhane/mtcnn-pytorch:Afacede
FunASR语言识别的环境安装、推理山山而川_R FunASR r语言 xcode 开发语言
目录一、环境配置1、创建虚拟环境2、安装环境及pytorch官网：pytorch下载地址3、安装funasr之前，确保已经安装了下面依赖环境:python代码调用（推荐）4、模型下载5、启动funasr服务二、客户端连接2.1html连接三、推理识别模型1、实时语音识别2、非实时语音识别一、环境配置源码地址：FunASRFunASR/README_zh.mdatmain·alibaba-damo-
安装线程自由（无GIL锁）Python及Pytorch方法为什么每天的风都这么大 python pytorch 开发语言
参考资料：https://py-free-threading.github.io/installing_cpython/https://github.com/pytorch/pytorch/issues/130249https://download.pytorch.org/whl/torch/截至当前（2025.1.22），最新的线程自由Python版本为13.1，因此下面的方法适用于该版本安装P
【Python实战】元组！编程小白的必修课！努力学习的耶耶 python
想对大家说的话：大家好呀，耶耶最近打算开一起新的专栏，带着大家敲代码，让大家在了解python理论的基础上学会实操，真正做到大彻大悟！在这里，我会将Python代码像拆解精密玩具一样，一步步剖析，确保每一步的来龙去脉都清晰可见。我会详细解释为什么选择特定的关键字和结构，通过对比不同类型的代码片段，让你不仅知其然，更知其所以然！！！拜托大家给我点一个关注！让我们一起进步吧！！！上期本期学习了如何处理
微信小程序开发项目-基于微信小程序的毕业设计180套(源码+演示录像+LW) 职场程序猿微信小程序毕业设计微信小程序课程设计小程序 java 毕设毕业设计
大家好！我是职场程序猿，感谢您阅读本文，欢迎一键三连哦。今天给大家分享180+的微信小程序毕业设计，后台用Java开发，这些项目都经过精心挑选，涵盖了不同的实战主题和用例，可做毕业设计和课程设计参考。✍️除了源码，对于大部分项目实现的功能都有相应的介绍，并且配有演示视频，方便大家根据自己的需要择优下载学习。另外如有定制需求或者想要相对应的论文参考，文末可以十我VX联系。后续还会持续更新，欢迎关注！
JDK 17 模块化系统：构建可维护大型项目的基石潘多编程 java 数据库开发语言
在当今软件开发的浪潮中，项目复杂度随着业务需求的膨胀而飙升。如何在这汹涌波涛中稳住代码的“船帆”，让大型项目既具备强大功能，又易于驾驭？JDK17的模块化系统宛如一座明亮的灯塔，为开发者指引方向。今天，咱们就深入探究它如何成为构建可维护大型项目的基石，并且融入实战示例，让理论落地生花。一、模块化系统初相识：核心概念解密JDK17的模块化构建于模块之上，模块就像是代码世界里的一个个独立“城邦”，每个
使用OpenAI Chat模型进行自然语言处理的实战指南 GEAWfaacc 自然语言处理 easyui 人工智能 python
在本文中，我们将详细介绍如何利用OpenAI的Chat模型进行自然语言处理任务。我们将涵盖从API配置到实际应用的一整套流程，并提供可运行的代码示例来帮助大家上手。如果你对AI对话模型的实际应用感兴趣，那么这篇文章将非常适合你。一、技术背景介绍OpenAI的Chat模型是一类专门用于对话任务的预训练语言模型。它们可以处理多种输入类型，支持丰富的功能调用，适用于各种自然语言处理场景。从翻译到对话生成
Kafka 入门与应用实战：吞吐量优化与与 RabbitMQ、RocketMQ 的对比小白的一叶扁舟 Java开发 kafka rabbitmq rocketmq spring boot java
前言在现代微服务架构和分布式系统中，消息队列作为解耦组件，承担着重要的职责。它不仅提供了异步处理的能力，还能确保系统的高可用性、容错性和扩展性。常见的消息队列包括Kafka、RabbitMQ和RocketMQ，其中Kafka因其高吞吐量、分布式特性和可靠性成为大规模数据流处理的首选。本篇文章将深入介绍Kafka的基本概念、执行流程、吞吐量优化策略、生命周期，重点对比Kafka与RabbitMQ和R
【面试系列】DevOps工程师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试 devops 职场和发展
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：公众号：野老杂谈⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什
LLM大模型部署实战指南：部署简化流程汀、人工智能 AI Agent LLM工业级落地实践人工智能
LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发1.Ollama部署的本地模型()Ollama是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。，这是Ollama的官网地址：https://ollama.com/以下是其主要特点和功能概述：简化部署：Ollama目标在于简化在Docker容器中部署大型语言
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
2025届-2026届计算机专业毕业设计选题指南推荐—解答选题困惑以及三大选题方向 IT跃迁谷毕设展 Python实战项目专栏 Java实战项目专栏大数据实战项目专栏计算机毕业设计课程设计毕设毕业设计 java python 大数据
作者：IT跃迁谷毕设展个人简介：曾长期从事计算机专业培训教学，本人也热爱上课教学，语言擅长Java、微信小程序、Python、Golang、安卓Android等。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法，也喜欢交流技术，大家有技术代码这一块的问题可以问我！想说的话：感谢大家的关注与支持！Java实战项目集微信小
2025年前端发展趋势贵州数擎科技有限公司前端 javascript
开发领域：前端开发|AI应用|Web3D|元宇宙技术栈：JavaScript、React、ThreeJs、WebGL、Go经验经验：6年+前端开发经验，专注于图形渲染和AI技术开源项目：github晓智元宇宙、数字孪生引擎、前端面试题大家好！我是[晓智]，一位热爱探索新技术的前端开发者，在这里分享前端和Web3D、AI技术的干货与实战经验。如果你对技术有热情，欢迎关注我的文章，我们一起成长、进步！
ElasticSearch 实战： ES 文档 API 用心去追梦 elasticsearch jenkins 大数据
Elasticsearch提供了一系列文档（Document）API，用于对索引中的个体数据单元进行增删改查操作。以下是对主要文档API的实战介绍：1.索引文档(IndexAPI)目的：插入或更新文档。请求方式：PUT或POSTURL：PUT//_doc/或POST//_doc/请求体：包含待索引的文档数据，以JSON格式表示。示例：PUT/my_index/_doc/1{"title":"Exa
es 3期第22节-Bucket特殊分桶聚合实战 DavidSoCool elasticsearch elasticsearch 大数据搜索引擎
####1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。####2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性，任何企图直接替代严格事务性场景的应用项目都会失败!!!####3.Elasticsearch原则上适合一切非事务性应用场景或能够容许一定的延迟的事务性场景;能
保姆级讲解 python之enumerate()方法，包教包会查理零世 python 开发语言
目录引入find()基本用法进入正题enumerate()基本用法使用enumerate()遍历列表并打印索引和值可以使用自定义起始索引实战演练总结引入在Python中，find()方法主要用于字符串操作，用于查找子字符串在字符串中的位置。它返回的是子字符串第一次出现的索引位置，如果找不到则返回-1。需要注意的是，find()是字符串的方法，而不是列表或数组的方法。那数组怎么办？当然是今天要介绍的
详细分析 CentOS 磁盘扩容的配置：理论与实战（图文超全）码农研究僧配置 centos linux 运维扩充磁盘 lsblk
目录前言1.扫描SCSI总线识别新磁盘2.检查操作磁盘分区3.配置LVM（逻辑卷管理器）4.扩展文件系统前言找工作，来万码优才：#小程序://万码优才/r6rqmzDaXpYkJZF随着业务的增长，CentOS系统根目录（/）的磁盘空间可能不足，需要对磁盘进行扩容扩容流程包括物理层（磁盘）、逻辑卷管理（LVM）层和文件系统层，每一层的调整都至关重要整体扩充的流程：新增磁盘或扩展磁盘容量↓扫描SCS
《Kubernetes部署篇：基于麒麟V10+ARM64架构部署harbor v2.4.0镜像仓库》东城绝神《Linux运维实战总结》arm64 harbor
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：企业级K8s集群运维实战一、环境信息K8S版本操作系统CPU架构服务版本1.26.15KylinLinuxAdvancedServerV10ARM64harborv2.4.0二、部署操作2.1、资源包下载说明：如果你从别处找来的镜像，redis提示报错ignore-warningsARM64-COW-BUG，可以重新编译redi
SVM模型实战1 浊酒南街 #支持向量机机器学习 python
目录前言实战前言这里有一份手写体字母识别的数据，我们采用网格搜索法，分别测试LinearSVC和SVC模型，最终选择SVC模型，并计算预测结果的准确性。实战#导入第三方模块fromsklearnimportsvmimportpandasaspdfromsklearnimportmodel_selectionfromsklearnimportmetrics#读取外部数据letters=pd.read
4. 马科维茨资产组合模型+Fama-French五因子优化方案（理论+Python实战）金融OG 金融资产组合模型进化论 python java 前端金融数据库机器学习大数据
目录0.承前1.Fama-French五因子优化的现代投资组合理论1.1WhatisFama-French五因子优化的现代投资组合理论1.2WhyisFama-French五因子优化的现代投资组合理论1.3HowtoFama-French五因子优化的现代投资组合理论2.数据要素&计算流程2.1参数集设置2.2数据获取&预处理2.3收益率计算2.4因子构建与预期收益率计算2.5协方差矩阵计算2.6投
2. 马科维茨资产组合模型+CAMP优化方案（理论+Python实战）金融OG 金融资产组合模型进化论人工智能大数据金融 python 数据库机器学习
目录0.承前1.资本资产定价模型(CAPM)优化的现代投资组合理论1.1WhatisCAPM优化的现代投资组合理论1.2WhyisCAPM优化的现代投资组合理论1.3HowtoCAPM优化的现代投资组合理论2.数据要素&计算流程2.1参数集设置2.2数据获取&预处理2.3收益率计算2.4CAPM预期收益率计算2.5协方差矩阵计算2.6投资组合表现计算2.7夏普比率优化2.8持仓筛选3.汇总代码4.
【AI量金术师：简易代码领悟高深金融术语】02.马科维茨资产组合模型Python实战金融OG 高深金融术语私厨人工智能金融 python
目录1.马科维茨资产组合模型简介1.1模型的起源与发展1.2核心概念2.模型的基本假设2.1投资者行为假设2.2市场环境假设3.模型的应用与局限性3.1实际应用3.2局限性探讨4.Python代码案例：实现马科维茨资产组合模型4.1环境准备与数据获取4.2数据收集4.3计算收益率与协方差矩阵4.4随机生成投资组合4.5绘制有效前沿4.6优化求解最优投资组合5.结论与展望1.马科维茨资产组合模型简介
全网最详细Gradio教程系列2——Gradio的安装与运行龙焰智能 Gradio全解教程 Gradio 安装运行热重载
全网最详细Gradio教程系列2——Gradio的安装与运行前言实战导论：2.Gradio的安装与运行2.1安装2.1.1Windows安装Gradio2.1.2MacOS/Linux安装Gradio2.2运行2.2.1普通方式运行2.2.2热重载运行2.2.2.1命令行式热重载2.2.2.2Notebook热重载2.2.2.3控制热重载参考文献前言本系列文章主要介绍WEB界面工具Gradio。G
【大模型】ChatGPT 提示词优化进阶操作实战详解小码农叔叔 AI大模型实战与应用 ChatGPT提示词优化进阶 ChatGPT提示词优化 ChatGPT提示词优化技巧 ChatGPT提示词优化原则 ChatGPT提示词常用技巧
目录一、前言二、ChatGPT提示词几个基本的优化原则2.1明确的提示词2.1.1提示词具体而清晰2.1.1.1操作案例演示2.2确定焦点2.2.1操作案例演示2.3保持提示词的相关性2.3.1什么是相关性2.3.2提示词相关性操作案例一2.3.2提示词相关性操作案例二三、ChatGPT提示词进阶及常用优化策略3.1提示词常用优化策略总结3.2ChatGPT提示词优化操作实战3.2.1身份设定3.
如何在 PyTorch 分布式训练中使用 TORCH_DISTRIBUTED_DEBUG=INFO 进行调试 weixin_48705841 pytorch 分布式人工智能
如何在PyTorch分布式训练中使用TORCH_DISTRIBUTED_DEBUG=INFO进行调试在使用PyTorch进行分布式训练时，调试分布式训练过程中的问题可能非常棘手。尤其是在多卡、多节点的训练环境中，常常会遇到通信延迟、同步错误等问题。为了帮助调试这些问题，PyTorch提供了一个非常有用的环境变量TORCH_DISTRIBUTED_DEBUG，通过设置它，你可以在控制台输出更多的调试
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。