Gaolw1102

词嵌入数据集的预处理--Word2Vec实现(一)

文章目录

- 用于预训练词嵌入的数据集
- - 正在读取数据集
  - 下采样
  - 中心词和上下文词的提取
  - 负采样
  - 小批量
  - 整合代码
  - 小结

用于预训练词嵌入的数据集

在本节中，我们从用于预训练词嵌入模型的数据集开始：

数据的原始格式将被转换为可以在训练期间迭代的小批量。

将准备用于训练word2vec模型。

import math
import os
import random
import torch
import numpy as np
from d2l import torch as d2l

正在读取数据集

此时读取的数据集为 Penn Tree Bank（PTB）。该语料库取自“华尔街日报”的文章，分为训练集、验证集和测试集。在原始格式中，文本文件的每一行表示由空格分隔的一句话。在这里，我们将每个单词视为一个词元。

# 将 Penn Tree Bank 保存到数据集字典中
d2l.DATA_HUB['ptb'] = (d2l.DATA_URL + 'ptb.zip',
                      '319d85e578af0cdc590547f26231e4e31cdf1e42')

def read_ptb():
    """将 PTB 数据集加载到文本行的列表中"""
    data_dir = d2l.download_extract('ptb')
    
    #读取数据集
    with open(os.path.join(data_dir, 'ptb.train.txt')) as f:
        raw_text = f.read()
    
    # 将所有的句子文本信息转化为tokens数组
    return [line.split() for line in raw_text.split('\n')]

sentences = read_ptb()

print(f'# sentences数: {len(sentences)}')

# sentences数: 42069

在读取训练集之后，我们为语料库构建了一个词表，其中出现次数少于10次的任何单词都将由“”词元替换。请注意，原始数据集还包含表示稀有（未知）单词的“”词元。

# 根据tokens数组构建词典
vocab = d2l.Vocab(sentences, min_freq=10)
print(f'vocab size: {len(vocab)}')

vocab size: 6719

下采样

文本数据通常有“the”、“a”和“in”等高频词：它们在非常大的语料库中甚至可能出现数十亿次。然而，这些词经常在上下文窗口中与许多不同的词共同出现，提供的有用信息很少。例如，考虑上下文窗口中的词“chip”：直观地说，它与低频单词“intel”的共现比与高频单词“a”的共现在训练中更有用。此外，大量（高频）单词的训练速度很慢。因此，当训练词嵌入模型时，可以对高频单词进行下采样 [Mikolov et al., 2013b]。具体地说，数据集中的每个词将有 $w_{i}$ 概率地被丢弃

$P(w_{i}) = max(1 - \sqrt{\frac{t}{f(w_{i})}}, 0)$

其中， $f(w_{i})$ 是 $w_{i}$ 的词数与数据集中的总词数的比率，常量 $t$ 是超参数(实验中为 $10^{-4}$ )，由上式我们可知，只有当 $f(w_{i}) > t$ 时，高频词 $w_{i}$ 才能被丢弃，且该词的相对比率越高，被丢弃的概率就越大。

def subsample(sentences, vocab):
    """下采样高频词"""
    # 排除未知词元 ''
    sentences = [[token for token in line if vocab[token] != vocab.unk]
                 for line in sentences]
    
    # 统计这些tokens出现的频率，并以降序进行排序
    counter = d2l.count_corpus(sentences)
    # 所有出现tokens的总数
    num_tokens = sum(counter.values())
    
    # 如果在下采样期间保留词元，则返回True
    def keep(token):
        
        # 其中random.uniform(0, 1)是随机设定的数，
        # math.sqrt(1e-4 / counter[token] * num_tokens)越大，即越不容易让舍弃
        # 所以此处符合条件时，会返回True，代表保留该词元
        return (random.uniform(0, 1) < math.sqrt(1e-4 / counter[token] * num_tokens))
        
    return ([[token for token in line if keep(token)] for line in sentences], counter)

# 返回下采样后的tokens和tokens频率counter
subsampled, counter = subsample(sentences, vocab)

下面的代码片段绘制了下采样前后每句话的词元数量的直方图。正如预期的那样，下采样通过删除高频词来显著缩短句子，这将使训练加速。

d2l.show_list_len_pair_hist(['origin', 'subsampled'], '# tokens per sentence', 'count',
                           sentences, subsampled)

对于单个词元，高频词“the”的采样率不到1/20。

def compare_counts(token):
    return (f'"{token}"的数量:'
           f'之前={sum([l.count(token) for l in sentences])},'
           f'之后={sum([l.count(token) for l in subsampled])}')

compare_counts('the')

'"the"的数量:之前=50770,之后=1946'

相比之下，低频词“join”则被完全保留。

compare_counts('join')

'"join"的数量:之前=45,之后=45'

在下采样之后，我们将词元映射到它们在语料库中的索引。

corpus = [vocab[line] for line in subsampled]
corpus[:3]

[[], [392, 2115], [22, 5277, 3054, 1580, 95]]

中心词和上下文词的提取

下面的 get_centers_and_contexts 函数从corpus中提取所有中心词及其上下文词。它随机采样1到max_window_size之间的整数作为上下文窗口。对于任一中心词，与其距离不超过采样上下文窗口大小的词为其上下文词。

def get_centers_and_contexts(corpus, max_window_size):
    """返回跳元模型中的中心词和上下文词"""
    centers, contexts = [], []
    
    for line in corpus:
        # 要形成”中心词-上下文词“对，每个句子至少需要有两个词
        if len(line) < 2:
            continue
            
        centers += line                   # line中的每一个词均要作为中心词
        
        # 上下文窗口中间 i
        for i in range(len(line)):
            
            # 随机取得窗口大小
            window_size = random.randint(1, max_window_size)
            
            # 获取单个词的下标信息，并作边界判断，防止列表下溢或者上溢
            indices = list(range(max(0, i - window_size), 
                                 min(len(line), i + 1 + window_size)))
            
            # 从上下文词中排除中心词
            indices.remove(i)
            
            # 将上下文词加入到contexts列表之中
            contexts.append([line[idx] for idx in indices])
    
    # 返回中心词和上下文词列表
    return centers, contexts

接下来，我们创建一个人工数据集，分别包含7个和3个单词的两个句子。设置最大上下文窗口大小为2，并打印所有中心词及其上下文词。

tiny_dataset = [list(range(7)), list(range(7, 10))]
print('数据集', tiny_dataset)

for center, context in zip(*get_centers_and_contexts(tiny_dataset, 2)):
    print('中心词', center, '的上下文词时是', context)

print(get_centers_and_contexts(tiny_dataset, 2))

数据集 [[0, 1, 2, 3, 4, 5, 6], [7, 8, 9]]
中心词 0 的上下文词时是 [1, 2]
中心词 1 的上下文词时是 [0, 2, 3]
中心词 2 的上下文词时是 [1, 3]
中心词 3 的上下文词时是 [2, 4]
中心词 4 的上下文词时是 [2, 3, 5, 6]
中心词 5 的上下文词时是 [4, 6]
中心词 6 的上下文词时是 [4, 5]
中心词 7 的上下文词时是 [8]
中心词 8 的上下文词时是 [7, 9]
中心词 9 的上下文词时是 [8]
([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], [[1], [0, 2, 3], [0, 1, 3, 4], [1, 2, 4, 5], [3, 5], [4, 6], [4, 5], [8, 9], [7, 9], [8]])

在 PTB 数据集上进行训练时，我们将最大上下文窗口大小设置为 5。下面提取数据集的所有中心词及其上下文词。

all_centers, all_contexts = get_centers_and_contexts(corpus, 5)
print(f'# "中心词-上下文对"的数量: {len(all_centers)}')

# "中心词-上下文对"的数量: 342766

负采样

我们使用负采样进行近似训练。为了根据预定义的分布对噪声词进行采样，我们定义以下的 RandomGenerator 类，其中(可能未规范化的)采样分布通过变量 sampling_weights 传递。

class RandomGenerator:
    """根据 n 个采样权重在{1, ..., n}中随机抽取"""
    def __init__(self, sampling_weights):
        # Exclude
        self.population = list(range(1, len(sampling_weights) + 1))   # 返回一个 [1, 2, ..., n]的列表
        self.sampling_weights = sampling_weights                      # 采样的权重列表
        self.candidates = []                                          # 用以缓存k个抽取结果
        self.i = 0                                                    # 表示candidata中缓存的个数
        

    def draw(self):
        if self.i == len(self.candidates):
            # 缓存k个随机采样结果
            # random.choices(population,weights=None,*,cum_weights=None,k=1)函数
            # population：集群
            # weights：相对权重
            # k：选取次数
            self.candidates = random.choices(
                self.population, self.sampling_weights, k=10000)
            self.i = 0
        self.i += 1
        return self.candidates[self.i - 1]

例如，我们可以在索引1、2和3中绘制10个随机变量 $X$ ，采样概率为 $P (X = 1) = 2/9, P (X = 2) = 3/9$ 和 $P (X = 3) = 4/9$ ，如下所示。

generator = RandomGenerator([2, 3, 4])

[generator.draw() for _ in range(10)]

[3, 3, 2, 2, 3, 3, 1, 3, 1, 1]

def get_negatives(all_contexts, vocab, counter, k):
    """返回负采样中的噪声词"""
    # 索引为 1, 2, ... (索引 0 是词表中排除的未知标记)
    sampling_weights = [counter[vocab.to_tokens(i)]**0.75 for i in range(1, len(vocab))]
    all_negatives, generator = [], RandomGenerator(sampling_weights)
    
    for contexts in all_contexts:
        negatives = []
        
        while len(negatives) < len(contexts) * k:              # 生成 k * len(contexts)个噪声词
            neg = generator.draw()
            # 噪声词不能是上下文词
            if neg not in contexts:                            # 且噪声词不能是上下文词
                negatives.append(neg)
                
        all_negatives.append(negatives)                         # 追加上下文噪声词至所有噪声词的列表
    
    # 返回总的噪声词列表
    return all_negatives

生成所有上下文词的噪声词。

all_negatives = get_negatives(all_contexts, vocab, counter, 5)

小批量

def batchify(data):
    """返回带有负采样的跳元模型的小批量样本"""
    max_len = max(len(c) + len(n) for _, c, n in data)                # 找出最大的context和negative组合
    # 中心词、上下文和负采样、掩蔽、标签
    # 掩蔽mask用以将填充的词置为 0 
    # 标签label用以将context上下文词置1， 其余置 0
    centers, contexts_negatives, masks, labels = [], [], [], []
    
    for center, context, negative in data:
        cur_len = len(context) + len(negative)                        # cur_len表示context和negative有效长度
        centers += [center]                                           # centers存放所有中心词
        
        # contexts_negatives存放上下文词和负采样样本的连接
        contexts_negatives += [context + negative + [0] * (max_len - cur_len)]
        
        masks += [[1] * cur_len + [0] * (max_len - cur_len)]          # masks用以区分填充词元
        
        # label用以区分 上下文词元的位置
        labels += [[1] * len(context) + [0] * (max_len - len(context))]
        
    # 返回批量数据
    return (torch.tensor(centers).reshape((-1, 1)), torch.tensor(contexts_negatives),
            torch.tensor(masks), torch.tensor(labels))

让我们使用一个小批量的两个样本来测试此函数。

x_1 = (1, [2, 2], [3, 3, 3, 3])
x_2 = (1, [2, 2, 2], [3, 3])
batch = batchify((x_1, x_2))

names = ['centers', 'contexts_negatives', 'masks', 'labels']
for name, data in zip(names, batch):
    print(name, '=', data)

centers = tensor([[1],
        [1]])
contexts_negatives = tensor([[2, 2, 3, 3, 3, 3],
        [2, 2, 2, 3, 3, 0]])
masks = tensor([[1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 0]])
labels = tensor([[1, 1, 0, 0, 0, 0],
        [1, 1, 1, 0, 0, 0]])

整合代码

#@save
def load_data_ptb(batch_size, max_window_size, num_noise_words):
    """下载PTB数据集，然后将其加载到内存中"""
#     num_workers = d2l.get_dataloader_workers()
    
    # 读取数据集，返回tokens列表
    sentences = read_ptb()
    
    # 根据tokens列表和最小频率数构建词典
    vocab = d2l.Vocab(sentences, min_freq=10)
    
    # 进行下采样，并统计词频
    subsampled, counter = subsample(sentences, vocab)
    
    # 根据下采样的结果生成词元索引的列表
    corpus = [vocab[line] for line in subsampled]
    
    # 根据词元索引的列表生成中心词列表和上下文列表
    all_centers, all_contexts = get_centers_and_contexts(
        corpus, max_window_size)
    
    # 进行负采样，生成噪声词
    all_negatives = get_negatives(
        all_contexts, vocab, counter, num_noise_words)

    class PTBDataset(torch.utils.data.Dataset):
        def __init__(self, centers, contexts, negatives):
            assert len(centers) == len(contexts) == len(negatives)
            self.centers = centers
            self.contexts = contexts
            self.negatives = negatives

        def __getitem__(self, index):
            return (self.centers[index], self.contexts[index],
                    self.negatives[index])

        def __len__(self):
            return len(self.centers)

    dataset = PTBDataset(all_centers, all_contexts, all_negatives)
    
    # 生成数据迭代器
    data_iter = torch.utils.data.DataLoader(
        dataset, batch_size, shuffle=True,
        collate_fn=batchify)
    
    # 返回数据迭代器和词表
    return data_iter, vocab

让我们打印数据迭代器的第一个小批量。

data_iter, vocab = load_data_ptb(512, 5, 5)

for batch in data_iter:
    for name, data in zip(names, batch):
        print(name, 'shape:', data.shape)
    break

centers shape: torch.Size([512, 1])
contexts_negatives shape: torch.Size([512, 60])
masks shape: torch.Size([512, 60])
labels shape: torch.Size([512, 60])

小结

1、高频词在训练中可能不是那么有用。我们可以对他们进行下采样，以便在训练中加快速度。

2、为了提高计算效率，我们以小批量方式加载样本。我们可以定义其他变量来区分填充标记和非填充标记，以及正例和负例。

SQL必知必会40-SQLite：为什么微信用SQLite存储聊天记录？程序员zhi路 MYSQL专栏 sql sqlite jvm
我在上一篇文章中讲了WebSQL，当我们在Chrome、Safari和Firefox等浏览器客户端中使用WebSQL时，会直接操作SQLite。实际上SQLite本身是一个嵌入式的开源数据库引擎，大小只有3M左右，可以将整个SQLite嵌入到应用中，而不用采用传统的客户端／服务器（Client/Server）的架构。这样做的好处就是非常轻便，在许多智能设备和应用中都可以使用SQLite，比如微信就
C语言零基础入门：嵌入式系统开发之旅岱宗夫up C语言开发语言 c语言学习
C语言零基础入门：嵌入式系统开发之旅一、引言嵌入式系统开发是当今科技领域中一个极具魅力和挑战性的方向。从智能家居设备到汽车电子系统，从智能穿戴设备到工业自动化控制，嵌入式系统无处不在。而C语言，作为嵌入式开发中最常用的语言之一，以其高效、灵活和接近硬件的特点，成为了嵌入式开发者的首选工具。如果你对嵌入式系统开发充满兴趣，但又对C语言一窍不通，那么这篇文章将是你开启这段奇妙旅程的完美起点。二、C语言
泛目录程序：站群策略在SEO优化中的优势与应用奥顺互联_老张站群 php 数据库缓存搜索引擎
泛目录程序案例：站群策略在SEO优化中的优势与应用引言在当今竞争激烈的互联网环境中，搜索引擎优化（SEO）已成为企业提升在线可见性和流量的关键策略。泛目录和站群作为SEO优化中的两种重要策略，近年来备受关注。本文将通过具体案例，深入探讨这两种策略在SEO优化中的优势与应用。一、泛目录的定义与优势1.1泛目录的定义泛目录是指通过创建大量内容相关、结构相似的目录页面，覆盖广泛的搜索关键词，从而提升网站
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
C语言学习笔记-进阶（17）预处理详解 John.Lewis c语言学习笔记
1.预定义符号C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。__FILE__//进⾏编译的源⽂件__LINE__//⽂件当前的⾏号__DATE__//⽂件被编译的⽇期__TIME__//⽂件被编译的时间__STDC__//如果编译器遵循ANSIC，其值为1，否则未定义举个例子：printf("file:%sline:%d\n",__FILE__,__LINE__);2
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
LLM推理和优化（1）：基本概念介绍 AndrewHZ AI算法工程师面试指北算法 LLM 语言模型推理优化 KVCache DeepSeek 注意力机制
一、LLM推理的核心过程：自回归生成LLM（如DeepSeek、ChatGPT、LLaMA系列等）的推理本质是自回归生成：从初始输入（如[CLS]或用户prompt）开始，逐token预测下一个词，直到生成结束符（如[EOS]）。其核心分为两个阶段：1.Initialization阶段（初始化）目标：准备第一个token的生成条件。关键步骤：输入编码：将初始prompt转换为token序列（如[C
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
2024年最新【Rust指南】快速入门开发环境 hello world_rust开发是啥(3) 2301_79772893 程序员 rust 开发语言后端
2、与其他编程语言相比较C/C++性能很好，但是系统类型和内存都不太安全。Java/C#，拥有GC机制，能保证内存安全，特性也优秀，但是性能不行Rust：安全无需GC代码安全高效，易于维护、调试3、Rust特别擅长的领域高性能WebServiceWebAssembly命令行工具网络编程嵌入式设备系统编程4、Rust的用户和案例Google：新操作系统Fuschia，其中Rust代码量约占30%Am
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
AI 大模型应用数据中心的数据分析架构 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《AI大模型应用数据中心的数据分析架构》关键词：数据中心、AI大模型、数据分析、架构设计、应用实践摘要：本文深入探讨了AI大模型在数据中心数据分析架构中的应用，从数据中心背景、AI大模型架构与技术、数据处理与分析技术、AI大模型应用与实践等多个方面，全面解析了AI大模型如何助力数据中心实现高效数据分析和智能处理，为读者提供了系统的理论指导和实际案例分析。第一部分:数据中心背景与AI大模型概述第1章
简单了解WIndow和Linux的路径含义 alive903 Linux linux windows
目录1>路径概念2>绝对路径2.1>window绝对路径2.2>Linux绝对路径3>相对路径3.1>window相对路径3.2>Linux相对路径很高兴你能看到这篇文章，同时我的语雀文档也更新了许多嵌入式系列的学习笔记希望能帮到你：https://www.yuque.com/alive-m4b9n1>路径概念路径是用来描述一个文件或目录在文件系统中的位置的方式。路径可以是文件系统中的唯一标识符，
嵌入式面试真题——Linux内核空间与用户空间 70000cc 嵌入式面试真题 linux c语言嵌入式硬件面试单片机
本文以32位系统为例介绍内核空间(kernelspace)和用户空间(userspace)。对32位操作系统而言，它的寻址空间（虚拟地址空间，或叫线性地址空间）为4G（2的32次方）。也就是说一个进程的最大地址空间为4G。操作系统的核心是内核(kernel)，它独立于普通的应用程序，可以访问受保护的内存空间，也有访问底层硬件设备的所有权限。为了保证内核的安全，现在的操作系统一般都强制用户进程不能直
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
Linux下C方式操作GPIO 大牛攻城狮 c语言 Linux 操作GPIO /sys/class/gpio MCU操作IO方式
1摘要嵌入式编程中对GPIO的读写操作是最常见的应用的了，这里介绍一种C语言方式操作GPIO，涉及代码，以源代码的形式提供，方便快速嵌入实际项目开发；这种操作GPIO的方法类似MCU，实现一行代码拉高、拉低GPIO，直接一行代码实现IO的读写，其实质是封装了/sys/class/gpio的读写。代码实现了GPIO初始化、读、写等操作，针对Linux下操作GPIO提供了一套标准流程，同时可以应用于多
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
使用DeepSeek完成一个简单嵌入式开发大牛攻城狮 AI能替换码农 DeepSeek AI 嵌入式 AI替代码农 STM32 流水灯
开启DeepSeek对话请帮我使用AltiumDesigner设计原理图、PCB，使用keil完成代码编写；要求：使用stm32F103RCT6为主控芯片，控制3个流水灯的原理图这里需要注意，每次DeepSeek的回答都不太一样。DeepSeek回答以下是使用STM32F103RCT6控制3个流水灯的完整设计流程，分为硬件设计和软件开发两部分：一、硬件设计（AltiumDesigner）1.原理图
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
Ploly：如何在Excel中嵌入完全交互的Ploly图形？潮易 excel
要在Excel中嵌入一个交互式的Poly图形，可以利用`ChartTools>Design>InsertChartfromData>PivotTable`功能来创建一个包含多个系列的数据透视表，并将其转换为柱状图或折线图等交互式图表。具体步骤如下：1.首先，打开你的Excel工作簿，并准备你想要嵌入Poly图的数据。2.将你的数据整理成表格的形式（假设数据列包括'Category'、'Value1
功能驱动层单片机编程代码编织匠人单片机嵌入式硬件
功能驱动层单片机编程在嵌入式系统开发中，功能驱动层是非常重要的组成部分，它是位于硬件抽象层和应用程序之间的一层。其主要作用是将硬件抽象层提供的功能接口封装为高层次的、易于使用的接口。在单片机编程中，功能驱动层也是不可或缺的一部分。下面，我们就来介绍一些常用单片机功能驱动层相关的功能及其实现方法。GPIO（通用输入输出）驱动GPIO是单片机最基本的模块之一，其作用在于连接单片机和外部设备，使单片机能
WPF学习笔记04-控件Control_Part1 一只只对技术感兴趣的程序员 WPF学习 wpf 学习 ui
之前我们已经学习过WPF布局了，这节我们开始简单介绍下控件。熟悉Winform的应该对控件并不陌生。WPF和Winform的渲染也是不一样的一个是基于DirectX一个是基于GDI+。在WPF中，打交道最多的控件无非就那么几种。1）布局控件。之前介绍过的，可以容纳多个控件或嵌套其他布局控件，用于在UI上组织和排列控件。比如StackPanel、Grid等控件都属于此类控件，他们都拥有共同父类---
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name