风度78

【NLP】GloVe的Python实现

作者 | Peng Yan
编译 | VK
来源 | Towards Data Science

作为NLP数据科学家，我经常阅读词向量、RNN和Transformer的论文。

阅读论文很有趣，给我一种错觉，我已经掌握了各种各样的技巧。但是，在复现它们时，困难就出现了。

据我所知，许多NLP学习者都遇到了和我一样的情况。因此，我决定开始一系列的文章，重点是实现经典的NLP方法。我还为此创建了一个GitHub存储库：https://github.com/pengyan510/nlp-paper-implementation

本帖是本系列的第一篇，它以GloVe原稿论文为基础，再现GloVe模型。如前所述，重点纯粹是实现。有关基础理论的更多信息，请参阅原始论文。

根据论文的研究，GloVe模型是用一台机器训练的。发布的代码是用C编写的，这对NLP学习者来说可能有些陌生。

因此，我对模型进行了一个全面的Python实现，它与仅使用一台机器训练大量词汇表的目标一致。以下各节逐步了解实现细节。完整的代码在这里。

第0步：准备

训练数据集

对于这个项目，我使用Text8数据集作为训练数据。为了得到它，我们可以使用gensim下载程序：

import gensim.downloader as api

dataset = api.load("text8")

数据集是一个列表列表，其中每个子列表都是表示句子的单词列表。我们只需要所有单词的列表，所以用itertools将其扁平化：

import itertools

corpus = list(itertools.chain.from_iterable(dataset))

好吧，现在我们有训练语料库了。

存储参数

在机器学习模型上工作时，通常需要配置的参数范围很广，如数据文件路径、批处理大小、字嵌入大小等，如果管理不好，这些参数会产生大量开销。

根据我的经验，我发现最好的方法是将所有的文件存储在一个名称为yaml的文件中配置yaml。在代码中，还添加加载函数以从yaml文件加载配置，如下所示：

def load_config():
    config_filepath = "config.yaml's file path"
    with config_filepath.open() as f:
        config_dict = yaml.load(f, Loader=yaml.FullLoader)
    config = argparse.Namespace()
    for key, value in config_dict.items():
        setattr(config, key, value)
    return config

我们可以在配置文件配置batch大小, 学习率，而不是硬编码的值，这也使得代码变得更好。

这就是所有的准备工作。让我们继续进行GloVe模型的实现！

第1步：计算共现对(Cooccurring Pairs)

创建词汇

为了计算共现的token，我们首先需要确定词汇。以下是词汇的一些要求：

它是一组出现在语料库中的token。
每个token都映射到一个整数。
如果token不属于主体，则应将其表示为未知token，或“unk”。
对于计算共现，只需要一个子集token，例如最频繁的前k个token。

为了以结构化的方式满足这些需求，创建了词汇类。该类有四个字段：

token2index：将token映射到索引的dict。索引从0开始，每次添加以前未看到的token时，索引都会增加1。
index2token：将索引映射到token的dict。
token_counts：一个列表，其中第i个值是索引i的token计数。
_unk_token：用作未知token索引的整数。默认值为-1。

它还定义了以下方法：

add(token)：在词汇表中添加新的token。如果以前未看到，则会生成新索引。token的计数也会更新。
get_uindex(token)：返回token的索引。
get_utoken(index)：返回与索引相对应的token。
get_topk_subset(k)：创建一个新词汇表，其中是出现最频繁的前k个token。
shuffle()：随机所有token，以便token和索引之间的映射是随机的。当我们实际计算共现对时，需要这个方法的原因将在后面被揭示。

我们现在可以查看代码：

@dataclass
class Vocabulary:
    token2index: dict = field(default_factory=dict)
    index2token: dict = field(default_factory=dict)
    token_counts: list = field(default_factory=list)
    _unk_token: int = field(init=False, default=-1)

    def add(self, token):
        if token not in self.token2index:
            index = len(self)
            self.token2index[token] = index
            self.index2token[index] = token
            self.token_counts.append(0)
        self.token_counts[self.token2index[token]] += 1

    def get_topk_subset(self, k):
        tokens = sorted(
            list(self.token2index.keys()),
            key=lambda token: self.token_counts[self[token]],
            reverse=True
        )
        return type(self)(
            token2index={token: index for index, token in enumerate(tokens[:k])},
            index2token={index: token for index, token in enumerate(tokens[:k])},
            token_counts=[
                self.token_counts[self.token2index[token]] for token in tokens[:k]
            ]
        )

    def shuffle(self):
        new_index = [_ for _ in range(len(self))]
        random.shuffle(new_index)
        new_token_counts = [None] * len(self)
        for token, index in zip(list(self.token2index.keys()), new_index):
            new_token_counts[index] = self.token_counts[self[token]]
            self.token2index[token] = index
            self.index2token[index] = token
        self.token_counts = new_token_counts

    def get_index(self, token):
        return self[token]

    def get_token(self, index):
        if not index in self.index2token:
            raise Exception("Invalid index.")
        return self.index2token[index]

    @property
    def unk_token(self):
        return self._unk_token

    def __getitem__(self, token):
        if token not in self.token2index:
            return self._unk_token
        return self.token2index[token]

    def __len__(self):
        return len(self.token2index)

对于类实现，我使用Python的dataclass特性。

有了这个特性，我只需要用类型注释定义字段，__init__()方法就会自动为我生成。我还可以在定义字段时为它们设置默认值。

例如，通过设置default_factory=dict, token2index默认为空dict。有关dataclass的更多信息，请参阅官方文档:https://docs.python.org/3/library/dataclasses.html

现在我们有了词汇类，剩下的问题是：我们如何使用它？基本上有两个用例：

从语料库中创建一个词汇表，它由前k个最常见的token组成。
在计算共现对时，使用创建的词汇表将语料库(token列表)转换为整数索引。

我创建了另一个类Vectorizer来协调这两个用例。它只有一个字段vocab，它指的是从语料库中创建的词汇。它有两种方法：

from_corpus(corpus, vocab_size)：这是一个类方法。首先，通过添加语料库中的所有token来创建词汇表。然后选择词汇量最大最频繁的token来创建新的词汇表。这个词汇表被随机并用于实例化Vectorizer。随机的原因将在后面解释。
vectorize(corpus)：将给定的语料库(一个token列表)转换为一个索引列表。

完整代码如下：

@dataclass
class Vectorizer:
    vocab: Vocabulary

    @classmethod
    def from_corpus(cls, corpus, vocab_size):
        vocab = Vocabulary()
        for token in corpus:
            vocab.add(token)
        vocab_subset = vocab.get_topk_subset(vocab_size)
        vocab_subset.shuffle()
        return cls(vocab_subset)

    def vectorize(self, corpus):
        return [self.vocab[token] for token in corpus]

扫描上下文窗口

现在我们有了将所有单词转换成索引的vectorizer，剩下的任务是扫描所有上下文窗口并计算所有可能的共现对。

由于共现矩阵是稀疏的，所以使用Counter模块来计算。键是(单词i的索引，单词j的索引)，其中单词j出现在单词i的上下文中。值是表示个数。但是，如果使用此策略，可能会出现两个问题。

问题1：如果我们在一次扫描中计算所有共现对，我们很可能会耗尽内存，因为distinct (word i’s index, word j's index)的值可能是巨大的。

解决方案：我们可以在多个扫描中计算共现对。在每次扫描中，我们将单词i的索引限制在一个很小的范围内，这样就大大减少了不同对的数量。

假设词汇表有100000个不同的token。如果我们在一次扫描中对所有对进行计数，则不同对的数量可能高达10¹⁰。

相反，我们可以在10次扫描中计算所有对。在第一次扫描中，我们将单词i的索引限制在0到9999之间；在第二次扫描中，我们将其限制在10000到19999之间；在第三次扫描中，我们将其限制在20000到29999之间，依此类推。

每次扫描完成后，我们把计数保存到磁盘上。现在在每一次扫描中，不同对的数目可以达到10⁹，这是原始数目的十分之一。

这种方法背后的思想是，我们不是在一次扫描中计算整个共现矩阵，而是将矩阵分成10个较小的矩形，然后依次计算它们。下面的图片将这个想法形象化。

左：一次扫描计数右：多次扫描计数

这种方法是可伸缩的，因为随着词汇表大小的增加，我们总是可以增加扫描次数以减少内存使用。

主要缺点是如果使用一台机器，运行时间也会增加。然而，由于扫描之间没有依赖关系，它们可以很容易地与Spark并行。但这超出了我们的范围。

同时，在这一点上，词汇混乱的原因可以被发现。当我们用最频繁的token创建词汇表时，这些token的索引是有序的。

索引0对应最频繁的token，索引1对应第二频繁的token，依此类推。如果我们继续以100000个token为例，在第一次扫描中，我们将计算10000个最频繁的token对，不同的token对的数量将是巨大的。

而在剩下的扫描中，不同对的数量会少得多。这会导致扫描之间的内存使用不平衡。通过对词汇表进行随机，不同的词汇对在扫描中均匀分布，内存使用平衡。

问题2：从解决方案继续到问题1，如何将每次扫描的计数保存到磁盘？最明显的方法是在扫描之间将(单词i的索引，单词j的索引，count)三元组写入共享文本文件。但是在以后的训练中使用这个文件会带来太多的开销。

解决方案：有一个python库h5py，它为HDF5二进制格式提供Pythonic接口。它使你能够存储大量的数字数据，并且可以像处理真正的NumPy数组一样轻松地对它们进行操作。

有关该库的更多详细信息，请查看其文档：https://docs.h5py.org/en/stable/

和前面一样，我创建了一个CooccurrenceEntries类，它进行计数并将结果保存到磁盘。该类有两个字段：

vectorizer：从语料库创建的向量器实例。
vectorized_corpus：一个单词索引列表。这是使用vectorizer对原始语料库(单词列表)进行向量化的结果。

主要有两种方法：

setup(corpus，vectorizer)：这是一个用于创建CooccurrenceEntries实例的类方法。通过调用vectorizer的vectorize方法生成向量化的语料库。
build(window_size, num_partitions, chunk_size, output_directory=“.” )：此方法统计num_partitions扫描中的共现对，并将结果写入输出目录。chunk_size参数用于使用HDF5格式将数据保存为块。分块保存的原因将在模型训练部分讨论。简而言之，它用于更快地生成训练批。

具体实施如下：

@dataclass
class CooccurrenceEntries:
    vectorized_corpus: list
    vectorizer: Vectorizer

    @classmethod
    def setup(cls, corpus, vectorizer):
        return cls(
            vectorized_corpus=vectorizer.vectorize(corpus),
            vectorizer=vectorizer
        )

    def validate_index(self, index, lower, upper):
        is_unk = index == self.vectorizer.vocab.unk_token
        if lower < 0:
            return not is_unk
        return not is_unk and index >= lower and index <= upper

    def build(
        self,
        window_size,
        num_partitions,
        chunk_size,
        output_directory="."
    ):
        partition_step = len(self.vectorizer.vocab) // num_partitions
        split_points = [0]
        while split_points[-1] + partition_step <= len(self.vectorizer.vocab):
            split_points.append(split_points[-1] + partition_step)
        split_points[-1] = len(self.vectorizer.vocab)

        for partition_id in tqdm(range(len(split_points) - 1)):
            index_lower = split_points[partition_id]
            index_upper = split_points[partition_id + 1] - 1
            cooccurr_counts = Counter()
            for i in tqdm(range(len(self.vectorized_corpus))):
                if not self.validate_index(
                    self.vectorized_corpus[i],
                    index_lower,
                    index_upper
                ):
                    continue

                context_lower = max(i - window_size, 0)
                context_upper = min(i + window_size + 1, len(self.vectorized_corpus))
                for j in range(context_lower, context_upper):
                    if i == j or not self.validate_index(
                        self.vectorized_corpus[j],
                        -1,
                        -1
                    ):
                        continue
                    cooccurr_counts[(self.vectorized_corpus[i], self.vectorized_corpus[j])] += 1 / abs(i - j)

            cooccurr_dataset = np.zeros((len(cooccurr_counts), 3))
            for index, ((i, j), cooccurr_count) in enumerate(cooccurr_counts.items()):
                cooccurr_dataset[index] = (i, j, cooccurr_count)
            if partition_id == 0:
                file = h5py.File(
                    os.path.join(
                        output_directory,
                        "cooccurrence.hdf5"
                    ),
                    "w"
                )
                dataset = file.create_dataset(
                    "cooccurrence",
                    (len(cooccurr_counts), 3),
                    maxshape=(None, 3),
                    chunks=(chunk_size, 3)
                )
                prev_len = 0
            else:
                prev_len = dataset.len()
                dataset.resize(dataset.len() + len(cooccurr_counts), axis=0)
            dataset[prev_len: dataset.len()] = cooccurr_dataset

        file.close()
        with open(os.path.join(output_directory, "vocab.pkl"), "wb") as file:
            pickle.dump(self.vectorizer.vocab, file)

通过Vocabulary, Vectorizer, CooccurrenceEntri的抽象，计算共现对并保存到磁盘的代码很简单：

vectorizer = Vectorizer.from_corpus(
    corpus=corpus,
    vocab_size=config.vocab_size
)
cooccurrence = CooccurrenceEntries.setup(
    corpus=corpus,
    vectorizer=vectorizer
)
cooccurrence.build(
    window_size=config.window_size,
    num_partitions=config.num_partitions,
    chunk_size=config.chunk_size,
    output_directory=config.cooccurrence_dir
)

第2步：训练GloVe模型

从HDF5数据集加载批处理

我们首先需要从HDF5数据集中批量加载数据。由于可以像存储在NumPy矩阵中一样检索数据，因此最简单的方法是使用PyTorch数据加载器。

但是，加载每个batch需要以dataset[i]的形式调用许多次，其中dataset是h5py.Dataset实例。这涉及到许多IO调用，并且可能非常慢。

解决方法是加载h5py.Dataset一块一块地调入内存。每个加载的块在内存中都是一个纯粹的NumPy数组，因此我们可以使用PyTorch的Dataloader在其上迭代批处理。现在所需的IO调用数等于块的数量，块的数量要小得多。

这种方法的一个缺点是不可能完全随机，因为永远不会生成包含来自不同块的数据的批。为了获得更多的随机性，我们可以按随机顺序加载块，并将DataLoader的shuffle参数设置为True。

为加载批处理创建HDF5DataLoader类。它有五个字段：

filepath:HDF5文件的路径。
dataset_name：h5py.Dataset名称。
batch_size：训练批大小。
device：训练设备，可以是cpu或gpu。
dataset：h5py.Dataset文件中的实例。

它有两种方法：

open()：此方法打开HDF5文件并定位数据集。不会发生读取。
iter_batches()：此方法以随机顺序加载块，并创建PyTorch数据加载程序来迭代其中的批。

代码如下所示。需要注意的一点是，CooccurrenceDataset只是PyTorch数据集的一个子类，用于索引数据。

@dataclass
class HDF5DataLoader:
    filepath: str
    dataset_name: str
    batch_size: int
    device: str
    dataset: h5py.Dataset = field(init=False)

    def iter_batches(self):
        chunks = list(self.dataset.iter_chunks())
        random.shuffle(chunks)
        for chunk in chunks:
            chunked_dataset = self.dataset[chunk]
            dataloader = torch.utils.data.DataLoader(
                dataset=CooccurrenceDataset(
                    token_ids=torch.from_numpy(chunked_dataset[:,:2]).long(),
                    cooccurr_counts=torch.from_numpy(chunked_dataset[:,
                        2]).float()
                ),
                batch_size=self.batch_size,
                shuffle=True,
                pin_memory=True
            )
            for batch in dataloader:
                batch = [_.to(self.device) for _ in batch]
                yield batch

    @contextlib.contextmanager
    def open(self):
        with h5py.File(self.filepath, "r") as file:
            self.dataset = file[self.dataset_name]
            yield

编码GloVe模型

用PyTorch实现GloVe模型非常简单。我们定义了两个权矩阵和两个偏置向量。请注意，我们在创建嵌入时设置sparse=True，因为梯度更新本质上是稀疏的。在forward()中，返回平均batch损失。

class GloVe(nn.Module):

    def __init__(self, vocab_size, embedding_size, x_max, alpha):
        super().__init__()
        self.weight = nn.Embedding(
            num_embeddings=vocab_size,
            embedding_dim=embedding_size,
            sparse=True
        )
        self.weight_tilde = nn.Embedding(
            num_embeddings=vocab_size,
            embedding_dim=embedding_size,
            sparse=True
        )
        self.bias = nn.Parameter(
            torch.randn(
                vocab_size,
                dtype=torch.float,
            )
        )
        self.bias_tilde = nn.Parameter(
            torch.randn(
                vocab_size,
                dtype=torch.float,
            )
        )
        self.weighting_func = lambda x: (x / x_max).float_power(alpha).clamp(0, 1)

    def forward(self, i, j, x):
        loss = torch.mul(self.weight(i), self.weight_tilde(j)).sum(dim=1)
        loss = (loss + self.bias[i] + self.bias_tilde[j] - x.log()).square()
        loss = torch.mul(self.weighting_func(x), loss).mean()
        return loss

训练GloVe模型

模型训练遵循标准的PyTorch训练程序。唯一的区别是，我们使用定制的HDF5Loader来生成批处理，而不是PyTorch的DataLoader。以下是训练代码：

dataloader = HDF5DataLoader(
    filepath=os.path.join(config.cooccurrence_dir, "cooccurrence.hdf5"),
    dataset_name="cooccurrence",
    batch_size=config.batch_size,
    device=config.device
)
model = GloVe(
    vocab_size=config.vocab_size,
    embedding_size=config.embedding_size,
    x_max=config.x_max,
    alpha=config.alpha
)
model.to(config.device)
optimizer = torch.optim.Adagrad(
    model.parameters(),
    lr=config.learning_rate
)
with dataloader.open():
    model.train()
    losses = []
    for epoch in tqdm(range(config.num_epochs)):
        epoch_loss = 0
        for batch in tqdm(dataloader.iter_batches()):
            loss = model(
                batch[0][:, 0],
                batch[0][:, 1],
                batch[1]
            )
            epoch_loss += loss.detach().item()
            loss.backward()
            optimizer.step()
            optimizer.zero_grad()

        losses.append(epoch_loss)
        print(f"Epoch {epoch}: loss = {epoch_loss}")
        torch.save(model.state_dict(), config.output_filepath)

实施完毕！

接下来，让我们训练模型，看看结果！

第3步：结果

对于Text8数据集，训练一个epoch大约需要80分钟。我训练了20个epoch的模型，需要一天多的时间才能完成。学习曲线看起来很有希望，如果继续训练，损失似乎会进一步减少。

学习曲线图

我们也可以做一些单词相似性的任务来看看词向量的行为。

这里我使用了gensim中的KeyedVectors类，它允许你在不编写最近邻或余弦相似性代码的情况下执行此操作:https://github.com/pengyan510/nlp-paper-implementation/blob/master/glove/src/evaluate.py

相似性评估代码在这里。有关KeyedVectors的详细信息，请参阅文档:https://radimrehurek.com/gensim/models/keyedvectors.html#what-can-i-do-with-word-vectors

运行一些简单的相似性任务将显示以下结果：

正如我们所看到的，其中有些是有意义的，比如“computer”和“game”，“united”和“states”；有些则不是。在一个更大的数据集上进行更多epoch的训练应该会改善结果。

结尾

GloVe论文写得很好，容易看懂。然而，在实现过程中，有很多陷阱和困难，特别是当你考虑到内存问题时。

经过相当多的努力，我们最终得到了一个令人满意的解决方案，可以在一台机器上进行训练。

正如我在开始时所说，我将继续实现更多的NLP论文，并与大家分享

感谢阅读！


往期精彩回顾



适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808，加入微信群请扫码：

Seaborn 教程 froginwe11 开发语言
Seaborn教程引言Seaborn是一个强大的Python数据可视化库，它建立在Matplotlib的基础上，专门用于统计图形的绘制。Seaborn提供了一系列的绘图功能，使得统计数据的可视化变得更加简单和直观。本文将为您提供一个全面的Seaborn教程，帮助您快速掌握其基本用法和高级技巧。安装与导入在开始之前，请确保您的Python环境中已经安装了Seaborn和Matplotlib。您可以使
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
python中的logger包的详细使用教程 SunkingYang #python入门之日志使用 python 日志 logger 使用方法说明
文章目录功能说明一、Logger的创建与基础配置二、Handler的配置与使用三、Formatter自定义日志格式四、记录不同级别的日志五、高级配置与最佳实践六、常见问题与调试使用方法一、基础配置与快速使用二、自定义Logger对象三、高级用法四、最佳实践与注意事项五、实际应用场景示例Python的logging模块是标准库中用于记录日志的核心工具，通过灵活配置可实现多级别、多目标、多格式的日志管
Kotlin 安装使用教程小奇JAVA面试安装使用教程 kotlin 开发语言 android
一、Kotlin简介Kotlin是JetBrains开发的一种现代、静态类型的编程语言，完全兼容Java，主要应用于Android开发、后端服务开发、前端Web开发（Kotlin/JS）和多平台开发（KotlinMultiplatform）。二、Kotlin安装方式2.1使用IntelliJIDEA（推荐）下载IntelliJIDEA（社区版即可）：https://www.jetbrains.co
AndroidStudio用华为手机调试出现联网即闪退问题的解决办法鹿小黑 Android android
第一步：调试一开始出现的错误：java.lang.NoClassDefFoundError:Failedresolutionof:Lorg/apache/http/impl/client/DefaultHttpClient解决方法：在manifest.xml文件中的application节点下添加第二步：执行上述步骤后调试出现的错误：java.io.IOException:Cleartexttra
10分钟掌握Python缓存
项目背景代码检查项目，需要存储每一步检查的中间结果，最终把结果汇总并写入文件中在中间结果的存储中可以使用context进行上下文的传递，但是整体对代码改动比较大，违背了开闭原则也可以利用缓存存储，处理完成之后再统一读缓存并写入文件在权衡了不同方案后，我决定采用缓存来存储中间结果。接下来，我将探讨Python中可用缓存组件。python缓存分类决定选择缓存，那么python中都有哪些类型的缓存呢?1
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
聊聊JVM如何优化
首先应该明确的是JVM调优不是常规手段，JVM的存在本身就是为了减轻开发对于内存管理的负担，当出现性能问题的时候第一时间考虑的是代码逻辑与设计方案，以及是否达到依赖中间件的瓶颈，最后才是针对JVM进行优化。1.JVM内存模型针对JAVA8的模型进行讨论，JVM的内存模型主要分为几个关键区域：堆、方法区、程序计数器、虚拟机栈和本地方法栈。堆内存进一步细分为年轻代、老年代，年轻代按其特性又分为E区，S
手把手教你安装使用文心快码(Baidu Comate)
前言在编程的世界里，一款高效的集成开发环境（IDE）是每位开发者的得力助手。IntelliJIDEA作为一款功能强大的IDE，广泛应用于Java、Kotlin等编程语言的项目开发中。而百度智能云文心快码（Comate），则是一款能够显著提升编码效率的智能工具，它利用先进的AI技术，为开发者提供代码补全、语法检查等强大功能。接下来，本文将结合百度智能云文心快码（Comate），详细介绍Intel
ECMAScript 2025（ES15）核心新特性全面解析 neon1204 新技术 ecmascript 前端开发语言
ECMAScript2025（ES15）核心新特性全面解析本文深入探讨ECMAScript2025（ES15）的最新语言特性一、ES2025核心特性概览ECMAScript2025（通常简称为ES15）作为JavaScript的最新年度标准更新，引入了一些新特性，优化了一些问题。这些改进主要体现在以下方向：模块系统增强：原生JSON模块与延迟加载优化数据结构扩展：不可变数据类型与集合操作增强流程控
网络资源模板--基于Android Studio 实现的天气预报App 编程乐学 Android 网络项目模板安卓课设安卓大作业 androidstudio android 天气预报
目录一、环境说明二、项目简介三、项目演示四、部设计详情（部分)注册页面首页五、项目源码一、环境说明二、项目简介该项目是一个基于Android平台的天气预报应用，使用AndroidStudio开发工具和Java编程语言完成。项目采用了SQLite数据库存储用户数据和地区信息，通过OkHttp实现网络请求获取天气数据，并结合Gson解析JSON格式的天气信息。界面方面使用MaterialDesign设
Go与Python爬虫对比及模板实现
go语言和Python语言都可选作用来爬虫项目，因为python经过十几年的累积，各种库是应有尽有，学习也相对比较简单，相比GO起步较晚还是有很大优势的，么有对比就没有伤害，所以我利用一个下午，写个Go爬虫，虽说运行起来没啥问题，但是之间出错的概率太高了，没有完备的模版套用得走很多弯路，这就是为啥go没有python受欢迎的原因。为何Go爬虫远没有Python爬虫流行？1、历史生态差距Python
pip设置国内源：阿里云、腾讯云、清华大学源 [email protected] Python pip python
更换Python的pip源（尤其是默认源访问速度较慢时）是一个常见需求，可以显著提升安装Python包的速度。以下是如何为pip设置国内源的步骤，以阿里云、腾讯云、清华大学源为例：1.备份原有源配置（可选但推荐）在进行任何更改之前，备份现有的pip配置文件是一个好习惯。这样，如果遇到问题，你可以轻松恢复到初始状态。Bash1mkdir~/.pip_backup2cp~/.pip/pip.conf~
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
前端如何借助 Postman 进行接口性能调优前端视界前端艺匠馆前端 postman lua ai
前端如何借助Postman进行接口性能调优关键词：前端开发、Postman、接口性能调优、API测试、性能分析摘要：本文围绕前端开发中借助Postman进行接口性能调优展开。首先介绍了相关背景知识，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念，如接口性能的相关概念及其联系，并给出了对应的文本示意图和Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，结合Python代码示例进行
数据分析全流程：从收集到可视化的高效实战晨曦543210 python
1.数据收集来源：数据库、API、传感器、日志文件、社交媒体、问卷调查等。工具：Python（requests、Scrapy）、SQL、Excel、Kafka（实时流数据）。2.数据清洗处理缺失、重复、错误或不一致的数据：缺失值：删除、填充（均值/中位数/众数）、插值或预测。异常值：使用箱线图、Z-score或IQR方法检测并处理。格式标准化：统一日期、单位、文本格式（如大小写、去除空格）。去重：
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
＜数据结构＞链表实战之单链表与双链表的增删改查叶落秋白数据结构与课程设计 c语言开发语言链表 visualstudio
✅作者简介：一名即将大三的计科专业学生，为C++，Java奋斗中✨个人主页：叶落秋白的主页系列专栏：数据结构干货分享推荐一款模拟面试、刷题神器进入刷题的世界前言上篇博客分享了创建链表传入二级指针的细节，那么今天就分享几个c语言课程实践设计吧。这些程序设计搞懂了的话相当于链表的基础知识牢牢掌握了，那么再应对复杂的链表类的题也就能慢慢钻研了。学习是一个积累的过程，想要游刃有余就得勤学苦练！目录单链表的
阿里P7面试实录：靠这份“收割机指南”，他当场拿下60k+ offer！
“上周面了个前阿里P7，Java八股文和分布式架构原理背得炉火纯青，秒杀系统设计讲得比我们架构组还细！”一位蚂蚁金服面试官在技术群感慨道。细问才知，这位求职者刚用一份阿里内部流出的《后端offer收割机养成指南》突击了2周，直接通过6轮面试斩下60k+offer。2025年Java后端面试的3大新趋势（附高频考点）据近期阿里、字节、美团等大厂面试反馈，技术考察正发生显著变化：八股文升级场景化基础题
Fiber是什么? 醉方休 react.js
对React的Fiber架构的理解需要从React的核心目标与面临的挑战说起。它本质上是React16引入的全新协调（Reconciliation）引擎，旨在解决React15及之前版本在处理大型应用和复杂更新时遇到的根本性性能瓶颈和用户体验问题。核心理解：Fiber是什么？虚拟的底层数据结构：Fiber是对React组件、DOM节点或其他UI元素的轻量级、链式表示的JavaScript对象。每个
邻近巷道爆破振动模拟与可视化：计算力学的工程应用碳酸的唐动态规划数学建模
引言隧道爆破施工是现代工程建设中常用的方法，但爆破产生的振动会对周围结构和地质环境产生影响。本文介绍一个基于Python的邻近巷道爆破振动模拟系统，该系统通过数值计算模拟爆破引起的应力波传播过程，并提供多种可视化方式展示振动效应。本研究对于理解爆破振动机理、评估爆破安全距离以及优化爆破参数具有重要意义。理论基础爆破应力波传播模型爆破引起的应力波在岩体中的传播可通过弹性波动理论描述。在均匀介质中，应
手把手教你编写Python抢购脚本_抢单脚本的制作教程网络安全小宇哥 python 开发语言测试工具学习 web安全网络安全安全架构
想买苹果手机，但总是抢不到，所以想试着能不能写个脚本代码。第一步：把想要抢购的商品加进购物车，注意：脚本是对购物车内全部商品进行下单操作，所以不够买的商品最好先从购物车内删除。第二步：写好Python脚本，在抢购之前运行，并设置好抢购时间。Python脚本实现安装Python。我安装的是anaconda安装webdriver扩展。它是Selenium模块的一部分。Selenium是一个用于Web应
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
javascript基础从小白到高手系列四千八百七十一：读取响应状态信息完美句号 javascript 开发语言 ecmascript
Response对象包含一组只读属性，描述了请求完成后的状态，如下表所示。属性值headers响应包含的Headers对象ok布尔值，表示HTTP状态码的含义。200~299的状态码返回true，其他状态码返回falseredirected布尔值，表示响应是否至少经过一次重定向status整数，表示响应的HTTP状态码statusText字符串，包含对HTTP状态码的正式描述。这个值派生自可选的H
javascript基础从小白到高手系列四千八百七十二：数值范围
除了"email"和"url"，HTML5还定义了其他几种新的输入元素类型，它们都是期待某种数值输入的，包括：“number”、“range”、“datetime”、“datetime-local”、“date”、“month”、“week”和"time"。并非所有主流浏览器都支持这些类型，因此使用时要当心。浏览器厂商目前正致力于解决兼容性问题和提供更逻辑化的功能。本节内容更多地是介绍未来趋势，而
JavaEE 网络编程套接字详解与实战示例我爱Jack 网络 java 后端开发语言
、套接字（Socket）是什么？套接字是网络通信的“端点”，就像打电话需要手机一样，网络通信需要套接字建立连接。两种类型：TCP套接字：可靠传输（类似打电话，需先拨通）UDP套接字：快速传输（类似发短信，无需确认对方收到）二、TCP套接字编程1.服务端开发步骤importjava.io.*;importjava.net.ServerSocket;importjava.net.Socket;publ
牛客_编辑距离(二) d3y1 java
编辑距离(二)https://www.nowcoder.com/practice/05fed41805ae4394ab6607d0d745c8e4importjava.util.*;/***NC35编辑距离(二)*@authord3y1*/publicclassSolution{/***代码中的类名、方法名、参数名已经指定，请勿修改，直接返回方法规定的值即可**mineditcost*@param
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源