深入理解PyTorch中的nn.Embedding的使用

一、前置知识

1.1 语料库（Corpus）

太长不看版： NLP任务所依赖的语言数据称为语料库。

详细介绍版：语料库（Corpus，复数是Corpora）是组织成数据集的真实文本或音频的集合。此处的真实是指由该语言的母语者制作的文本或音频。语料库可以由从报纸、小说、食谱、广播到电视节目、电影和推文的所有内容组成。在自然语言处理中，语料库包含可用于训练 AI 的文本和语音数据。

1.2 词元（Token）

为简便起见，假设我们的语料库只有三个英文句子并且均已经过处理（全部小写+去掉标点符号）：

corpus = ["he is an old worker", "english is a useful tool", "the cinema is far away"]

我们往往需要将其词元化（tokenize）以成为一个序列，这里只需要简单的 split 即可：

def tokenize(corpus):
    return [sentence.split() for sentence in corpus]


tokens = tokenize(corpus)
print(tokens)
# [['he', 'is', 'an', 'old', 'worker'], ['english', 'is', 'a', 'useful', 'tool'], ['the', 'cinema', 'is', 'far', 'away']]

这里我们是以单词级别进行词元化，还可以以字符级别进行词元化。

1.3 词表（Vocabulary）

词表不重复地包含了语料库中的所有词元，其实现方式十分容易：

vocab = set(sum(tokens, []))
print(vocab)
# {'is', 'useful', 'an', 'old', 'far', 'the', 'away', 'a', 'he', 'tool', 'cinema', 'english', 'worker'}

词表在NLP任务中往往并不是最重要的，我们需要为词表中的每一个单词分配唯一的索引并构建单词到索引的映射：word2idx。这里我们按照单词出现的频率来构建 word2idx。

from collections import Counter

word2idx = {
    word: idx
    for idx, (word, freq) in enumerate(
        sorted(Counter(sum(tokens, [])).items(), key=lambda x: x[1], reverse=True))
}
print(word2idx)
# {'is': 0, 'he': 1, 'an': 2, 'old': 3, 'worker': 4, 'english': 5, 'a': 6, 'useful': 7, 'tool': 8, 'the': 9, 'cinema': 10, 'far': 11, 'away': 12}

反过来，我们还可以构建 idx2word：

idx2word = {idx: word for word, idx in word2idx.items()}
print(idx2word)
# {0: 'is', 1: 'he', 2: 'an', 3: 'old', 4: 'worker', 5: 'english', 6: 'a', 7: 'useful', 8: 'tool', 9: 'the', 10: 'cinema', 11: 'far', 12: 'away'}

对于 1.2 节中的 tokens，也可以转化为索引的表示：

encoded_tokens = [[word2idx[token] for token in line] for line in tokens]
print(encoded_tokens)
# [[1, 0, 2, 3, 4], [5, 0, 6, 7, 8], [9, 10, 0, 11, 12]]

这种表示方式将在后续讲解 nn.Embedding 时提到。

二、nn.Embedding 基础

2.1 为什么要 embedding？

RNN无法直接处理单词，因此需要通过某种方法把单词变成数字形式的向量才能作为RNN的输入。这种把单词映射到向量空间中的一个向量的做法称为词嵌入（word embedding），对应的向量称为词向量（word vector）。

2.2 基础参数

我们首先讲解 nn.Embedding 中的基础参数，了解它的基本用法后，再讲解它的全部参数。

基础参数如下：

nn.Embedding(num_embeddings, embedding_dim)

其中 num_embeddings 是词表的大小，即 len(vocab)；embedding_dim 是词向量的维度。

我们使用第一章节的例子，此时词表大小为 12 12 12，不妨设嵌入后词向量的维度是 3 3 3（即将单词嵌入到三维向量空间中），则 embedding 层应该这样创建：

torch.manual_seed(0)  # 为了复现性
emb = nn.Embedding(12, 3)

embedding 层中只有一个参数 weight，在创建时它会从标准正态分布中进行初始化：

print(emb.weight)
# Parameter containing:
# tensor([[-1.1258, -1.1524, -0.2506],
#         [-0.4339,  0.8487,  0.6920],
#         [-0.3160, -2.1152,  0.3223],
#         [-1.2633,  0.3500,  0.3081],
#         [ 0.1198,  1.2377,  1.1168],
#         [-0.2473, -1.3527, -1.6959],
#         [ 0.5667,  0.7935,  0.4397],
#         [ 0.1124,  0.6408,  0.4412],
#         [-0.2159, -0.7425,  0.5627],
#         [ 0.2596,  0.5229,  2.3022],
#         [-1.4689, -1.5867,  1.2032],
#         [ 0.0845, -1.2001, -0.0048]], requires_grad=True)

这里我们可以把 weight 当作 embedding 层的一个权重。

接下来再来看一下 nn.Embedding 的输入。直观来看，给定一个已经词元化的句子，将其中的单词输入到 embedding 层应该得到相应的词向量。事实上，nn.Embedding 接受的输入并不是词元化后的句子，而是它的索引形式，即第一章节中提到的 encoded_tokens。

nn.Embedding 可以接受任何形状的张量作为输入，但因为传入的是索引，所以张量中的每个数字都不应超过 len(vocab) - 1，否则就会报错。接下来，nn.Embedding 的作用就像一个查找表（Lookup Table）一样，通过这些索引在 weight 中查找并返回相应的词向量。

print(emb.weight)
# tensor([[-1.1258, -1.1524, -0.2506],
#         [-0.4339,  0.8487,  0.6920],
#         [-0.3160, -2.1152,  0.3223],
#         [-1.2633,  0.3500,  0.3081],
#         [ 0.1198,  1.2377,  1.1168],
#         [-0.2473, -1.3527, -1.6959],
#         [ 0.5667,  0.7935,  0.4397],
#         [ 0.1124,  0.6408,  0.4412],
#         [-0.2159, -0.7425,  0.5627],
#         [ 0.2596,  0.5229,  2.3022],
#         [-1.4689, -1.5867,  1.2032],
#         [ 0.0845, -1.2001, -0.0048]], requires_grad=True)
sentence = torch.tensor(encoded_tokens[0])  # 一共有三个句子，这里只使用第一个句子
print(sentence)
# tensor([1, 0, 2, 3, 4])
print(emb(sentence))
# tensor([[-0.4339,  0.8487,  0.6920],
#         [-1.1258, -1.1524, -0.2506],
#         [-0.3160, -2.1152,  0.3223],
#         [-1.2633,  0.3500,  0.3081],
#         [ 0.1198,  1.2377,  1.1168]], grad_fn=)
print(emb.weight[sentence] == emb(sentence))
# tensor([[True, True, True],
#         [True, True, True],
#         [True, True, True],
#         [True, True, True],
#         [True, True, True]])

2.3 nn.Embedding 与 nn.Linear 的区别

细心的读者可能已经看出 nn.Embedding 和 nn.Linear 似乎很像，那它们到底有什么区别呢？

回顾 nn.Linear，若不开启 bias，设输入向量为 x，nn.Linear.weight 对应的矩阵为 A（形状为 hidden_size × input_size），则计算方式为：

y=xA^T

其中 x , y 均为行向量。

假如 x 是one-hot向量，第 i 个位置是 1 1 1，那么 y 就是 A ^T 的第 i i 行。

现给定一个单词 w ，假设它在 word2idx 中的索引就是 i ，在 nn.Embedding 中，我们根据这个索引 i 去查找 emb.weight 的第 i 行。而在 nn.Linear 中，我们则是将这个索引 i 编码成一个one-hot向量，再去乘上对应的权重矩阵得到矩阵的第 i 行。

请看下例：

torch.manual_seed(0)

vocab_size = 4  # 词表大小为4
embedding_dim = 3  # 词向量维度为3
weight = torch.randn(4, 3)  # 随机初始化权重矩阵

# 保持线性层和嵌入层具有相同的权重
linear_layer = nn.Linear(4, 3, bias=False)
linear_layer.weight.data = weight.T  # 注意转置
emb_layer = nn.Embedding(4, 3)
emb_layer.weight.data = weight

idx = torch.tensor(2)  # 假设某个单词在word2idx中的索引为2
word = torch.tensor([0, 0, 1, 0]).to(torch.float)  # 上述单词的one-hot表示
print(emb_layer(idx))
# tensor([ 0.4033,  0.8380, -0.7193], grad_fn=)
print(linear_layer(word))
# tensor([ 0.4033,  0.8380, -0.7193], grad_fn=)

从中我们可以总结出：

nn.Linear 接受向量作为输入，而 nn.Embedding 则是接受离散的索引作为输入；
nn.Embedding 实际上就是输入为one-hot向量，且不带bias的 nn.Linear。

此外，nn.Linear 在运算过程中做了矩阵乘法，而 nn.Embedding 是直接根据索引查表，因此在该情景下 nn.Embedding 的效率显然更高。

进一步阅读： [Stack Overflow] What is the difference between an Embedding Layer with a bias immediately afterwards and a Linear Layer in PyTorch?

2.4 nn.Embedding 的更新问题

在查阅了PyTorch官方论坛和Stack Overflow的一些帖子后，发现有不少人对 nn.Embedding 中的权重 weight 是怎么更新的感到非常困惑。

nn.Embedding 的权重实际上就是词嵌入本身

事实上，nn.Embedding.weight 在更新的过程中既没有采用 Skip-gram 也没有采用 CBOW。回顾最简单的多层感知机，其中的 nn.Linear.weight 会随着反向传播自动更新。当我们把 nn.Embedding 视为一个特殊的 nn.Linear 后，其更新机制就不难理解了，无非就是按照梯度进行更新罢了。

训练结束后，得到的词嵌入是最适合当前任务的词嵌入，而非像word2vec，GloVe这种更为通用的词嵌入。

当然我们也可以在训练开始之前使用预训练的词嵌入，例如上述提到的word2vec，但此时应该考虑针对当前任务重新训练或进行微调。

假如我们已经使用了预训练的词嵌入并且不想让它在训练过程中自我更新，那么可以尝试冻结梯度，即：

emb.weight.requires_grad = False

进一步阅读：

[PyTorch Forums] How nn.Embedding trained?
[PyTorch Forums] How does nn.Embedding work?
[Stack Overflow] Embedding in pytorch
[Stack Overflow] What “exactly” happens inside embedding layer in pytorch?

三、nn.Embedding 进阶

在这一章节中，我们会讲解 nn.Embedding 的所有参数并介绍如何使用预训练的词嵌入。

3.1 全部参数

官方文档：

padding_idx

我们知道，nn.Embedding 虽然可以接受任意形状的张量作为输入，但绝大多数情况下，其输入的形状为 batch_size × sequence_length，这要求同一个 batch 中的所有序列的长度相同。

回顾1.2节中的例子，语料库中的三个句子的长度相同（拥有相同的单词个数），但事实上这是博主特意选取的三个句子。现实任务中，很难保证同一个 batch 中的所有句子长度都相同，因此我们需要对那些长度较短的句子进行填充。因为输入到 nn.Embedding 中的都是索引，所以我们也需要用索引进行填充，那使用哪个索引最好呢？

假设语料库为：

corpus = ["he is an old worker", "time tries truth", "better late than never"]
print(word2idx)
# {'he': 0, 'is': 1, 'an': 2, 'old': 3, 'worker': 4, 'time': 5, 'tries': 6, 'truth': 7, 'better': 8, 'late': 9, 'than': 10, 'never': 11}
print(encoded_tokens)
# [[0, 1, 2, 3, 4], [5, 6, 7], [8, 9, 10, 11]]

我们可以在 word2idx 中新增一个词元（代表填充词元），并为其分配新的索引：

word2idx[''] = 12

对 encoded_tokens 进行填充：

max_length = max([len(seq) for seq in encoded_tokens])
for i in range(len(encoded_tokens)):
    encoded_tokens[i] += [word2idx['']] * (max_length - len(encoded_tokens[i]))
print(encoded_tokens)
# [[0, 1, 2, 3, 4], [5, 6, 7, 12, 12], [8, 9, 10, 11, 12]]

创建 embedding 层并指定 padding_idx：

emb = nn.Embedding(len(word2idx), 3, padding_idx=12)  # 假设词向量维度是3
print(emb.weight)
# tensor([[ 1.5017, -1.1737,  0.1742],
#         [-0.9511, -0.4172,  1.5996],
#         [ 0.6306,  1.4186,  1.3872],
#         [-0.1833,  1.4485, -0.3515],
#         [ 0.2474, -0.8514, -0.2448],
#         [ 0.4386,  1.3905,  0.0328],
#         [-0.1215,  0.5504,  0.1499],
#         [ 0.5954, -1.0845,  1.9494],
#         [ 0.0668,  1.1366, -0.3414],
#         [-0.0260, -0.1091,  0.4937],
#         [ 0.4947,  1.1701, -0.5660],
#         [ 1.1717, -0.3970, -1.4958],
#         [ 0.0000,  0.0000,  0.0000]], requires_grad=True)

可以看出填充词元对应的词向量是零向量，并且在训练过程中填充词元对应的词向量不会进行更新（始终是零向量）。

padding_idx 默认为 None，即不进行填充。

max_norm

如果词向量的范数超过了 max_norm，则将其按范数归一化至 max_norm：

max_norm 默认为 None，即不进行归一化。

norm_type

当指定了 max_norm 时，norm_type 决定采用何种范数去计算。默认是2-范数。

scale_grad_by_freq

若将该参数设置为 True，则对词向量 w w w 进行更新时，会根据它在一个 batch 中出现的频率对相应的梯度进行缩放：

默认为 False。

sparse

若设置为 True，则与 Embedding.weight 相关的梯度将变为稀疏张量，此时优化器只能选择：SGD、SparseAdam 和 Adagrad。默认为 False。

3.2 使用预训练的词嵌入

有些情况下我们需要使用预训练的词嵌入，这时候可以使用 from_pretrained 方法，如下：

torch.manual_seed(0)
pretrained_embeddings = torch.randn(4, 3)
print(pretrained_embeddings)
# tensor([[ 1.5410, -0.2934, -2.1788],
#         [ 0.5684, -1.0845, -1.3986],
#         [ 0.4033,  0.8380, -0.7193],
#         [-0.4033, -0.5966,  0.1820]])
emb = nn.Embedding(4, 3).from_pretrained(pretrained_embeddings)
print(emb.weight)
# tensor([[ 1.5410, -0.2934, -2.1788],
#         [ 0.5684, -1.0845, -1.3986],
#         [ 0.4033,  0.8380, -0.7193],
#         [-0.4033, -0.5966,  0.1820]])

如果要避免预训练的词嵌入在后续的训练过程中更新，可将 freeze 参数设置为 True：

emb = nn.Embedding(4, 3).from_pretrained(pretrained_embeddings, freeze=True)

四、最后

到此这篇关于深入理解PyTorch中的nn.Embedding的使用的文章就介绍到这了,更多相关PyTorch nn.Embedding内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

PyTorch深度学习工具箱整理总结前网易架构师-高司机深度学习+AI pytorch
一、pytorch简介Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对GPU加速的深度神经网络（DNN）编程。Torch是一个经典的对多维矩阵数据进行操作的张量（tensor）库，在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同，pytorch的计算图是动态的，可以根据计算需要实时改变计算图。但由于Torch语言采用Lu
PyTorch常用小工具-Tensorboard、Summary、Profiler R-G-B 深度学习论文格式必会的技能传统/深度三维重建MVS系列 pytorch 深度学习计算机视觉
1PyTorch可视化工具-Tensorboard2summary计算每层参数个数2.1安装与使用2.2实战3profiler分析每个操作在GPU和CPU的时间花销3.1教程3.2实战统计前向运行时间4eval.py和eval_2.py对比5工程文件、数据集、源码下载1PyTorch可视化工具-TensorboardPyTorch可视化工具-Tensorboard教程2summary计算每层参数个
反派居然该死的甜美阿肆鸭
第一章：下凡历劫仙气缭绕之中的宫殿若隐若现，金黄色的琉璃瓦在阳光下闪着耀眼的光辉，不知何处传来的乐声悠扬而动听……一片歌舞升平的祥和模样。五百年一次的蟠桃盛会，本该是众仙放松欢乐的时间，然而此情此景在沈温瑜看来却是没有什么心情去欣赏的，因为他是唯一一个在蟠桃盛会上被殿前神将押送着下凡历劫的神仙。“上神，您是自己下去呢？还是需要我们送您一程？”二位神将客客气气的，倒不失做为神仙的风度。沈温瑜冲着两位
【锂电池剩余寿命预测】TCN时间卷积神经网络锂电池剩余寿命预测（Pytorch完整源码和数据）机器学习之心电池建模 pytorch 人工智能 TCN 时间卷积神经网络锂电池剩余寿命预测
目录效果一览程序获取程序内容代码分享效果一览程序获取获取方式一：文章顶部资源处直接下载：【【锂电池剩余寿命预测】TCN时间卷积神经网络锂电池剩余寿命预测（Pytorch完整源码和数据）获取方式二：订阅电池建模专栏获取电池系列更多文件。程序内容1.【锂电池剩余寿命预测】TCN时间卷积神经网络锂电池剩余寿命预测（Pytorch完整源码和数据）2.数据集：NASA数据集，已经处理好；3.环境准备：pyt
C 语言运算符深度解析：从逻辑控制到内存操作的全面指南给老吕螺丝 #C语言 c语言开发语言经验分享笔记
运算符——程序的“数字魔法咒语”在C语言的世界里，运算符是驱动程序运行的核心引擎。它们就像魔法师手中的咒语，将数据进行变形、比较、组合和控制。如果说数据类型是构建程序的“积木”，那么运算符就是连接这些积木的“粘合剂”。从简单的算术加减到复杂的位级操作，运算符的精确使用直接决定了程序的逻辑正确性和运行效率。本章将系统解析C语言核心运算符，帮助读者掌握这些“魔法咒语”的本质与使用规则。一、算术运算符：
IPC(进程间通信)信号含义给老吕螺丝 #Linux系统编程 linux 运维服务器
IPC（InterprocessCommunication，进程间通信）标准信号是指在Unix/Linux系统中用于进程间通信和控制的信号。这些信号通常由操作系统、内核或其他进程发送，用于通知目标进程发生了某些事件（如中断、终止、错误等）。以下是IPC标准信号（通常指Linux系统中的62个信号）的详细解释：1-31：传统UNIX信号（标准信号）这些是最常见的信号，编号从1到31，通常有明确的含义
高仿江诗丹顿纵横四海手表价格多少钱？高仿手表售价一览表星耀腕表
江诗丹顿是瑞士钟表制造商中的佼佼者，在钟表界享有盛名。江诗丹顿的腕表不仅以其卓越工艺和精湛技术而闻名于世，还因其独特的设计和精美的细节成为收藏家和钟表爱好者们心中的宠儿。而江诗丹顿纵横四海系列更是江诗丹顿品牌中的经典之作。这款腕表以其简约、大气的外观风格和功能强大的机械装置而备受瞩目。详细加微信咨询：85857133高仿江诗丹顿纵横四海价格多少钱？高仿江诗丹顿纵横四海的价格主要取决于其造型、材质、
《庖丁解牛Linuxn内核分析》部分摘录和笔记 weixin_30293135 驱动开发操作系统数据结构与算法
第2章计算机的3个法宝：存储程序计算机、函数调用堆栈机制、中断堆栈的具体作用有：记录程序调用框架传递函数参数保存返回值地址提供函数内部局部变量的存储空间操作系统有2把宝剑：中断上下文、进程上下文第3章start_kernel中的最后一句为rest_init，内核启动完成后，有一个call_cpu_idle，当系统没有进程需要执行时就调用idle进程。start_kernel()相当于C语言中的ma
斟酌文章执笔成书
文/执笔成书从开始学习写作的时候，老师就告诉过我们，一篇好的作品大部分都是经过反复斟酌，多次修改的，斟酌文章的立意结构，删改不合适的或者不精彩简练的词句，这都是基本的素养。之前在高中的时候，因为一般是写议论文，也是应试教育的结果，老师提倡我们写议论文，于是一直都在练习写议论文，一般来说，先会写一个大纲，然后写出自己的论点，甚至连论文要引用的例子也会列出来，然后再开始写文章，但是这种写法在我手里经常
七里香不较劲的智慧
有些诗，曾以为读懂了，多年后才知当年终究是错了。还记得当年读余光中先生的《乡愁》时，总觉得虽然文字够美，但“乡愁是一方矮矮的坟墓，我在外头，母亲在里头”却未免太伤感了。直到自己也经历过了，才明白乡愁正是这般的苦楚。和余光中先生的《乡愁》一样，《七里香》同样是思乡诗的代表作，它的作者是席慕蓉。在很多人眼里，席慕蓉是一个爱情诗的高手，她的情诗《一棵开花的树》、《莲的心事》等都是现代诗中的精品。但事实上
外交无小事，不是外国人无小事城市中迷途小书童
外交无小事，不是外国人无小事最近几天老是出现这种外国人在中国胡作非为的新闻报道，真是太让人生气了:1).北京3月31日，一名坦桑尼亚男子被举报抵京后拒绝集中隔离，不戴口罩、不听劝阻、随意外出取快递。2).青岛4月1日，青岛崂山某社区服务中心，几个外国人强行插队。遭到谴责后，一名外国人竟然将市民手中的单据扔在地上，并且叫嚣说：中国人出去。3).广州4月1日，广州某医院ICU病房护士，被确诊新冠肺炎的
LabVIEW 虚实通信实验平台 LabVIEW开发 LabVIEW开发案例 labview LabVIEW开发案例
为解决通信原理课程理论与实践脱节问题，设计了基于LabVIEW与通用硬件的虚实结合实验平台。该平台融合虚拟仿真与硬件实操，支持在线实验、数据传输及远程交互，可高效支撑通信原理教学中的仿真验证与实际信号收发实验。应用场景主要用于电子类专业通信原理课程实验教学：虚拟仿真：学生可通过平台完成基础信号生成、幅度调制、解调等仿真实验，直观观察信号波形变化；硬件实操：结合硬件设备开展FM信号收发、信道干扰测试
dify应用傻瓜教程二：dify升级
最近发现dify变化速度惊人，这对于dify的粉丝来说肯定是个好消息，说明dify正不断改善和优化自己，让自己变得越来越好用，但同时粉丝们也遇到个问题，就是如果确保自己在dify上已做过的产品或知识库不受影响的情况下升级到最新版本呢？下面我就以windows11系统中的dify1.4.0升级到1.6.0为例(前提是以源码部署方式），介绍大家如何升级：第一步：先右键点击桌面左下角类似分屏一样的图标，
290天何颖颖h
坚持读书第290天《建构解决之道》第三章：焦点解决短期治疗于危机干预与情绪困扰的应用293—294页有感：先求维持，再求突破。没有什么不同，代表事情并没有朝负想变化，当事人所维持的水平还是与上次是一样的。没有更早，对处于危机中的当事人来说是非常有意义的，当危机中的当事人有所进展时，为了要协助当事人懂得如何维持、稳定与强化这些小小的改变，可以运用“振奋性引导”、“可以有何不同”、“重要他人的见证”及
RedisJSON 的 JSON.STRAPPEND字符串追加的正确姿势
1·写在前面在数据模型中，“追加”是个高频需求：日志拼接、状态堆栈、消息跟踪……如果把这些信息存在RedisJSON文档里，与其整段读出再写回，不如直接用JSON.STRAPPEND就地完成。本文将带你从语法、返回值到性能陷阱，全方位掌握JSON.STRAPPEND的使用，并配套一段Go-Redis代码示例，随取随用。2·指令总览指令功能复杂度JSON.STRAPPENDkey[path]valu
element-ui 轮播图的使用 b49779e26200
element-ui轮播图的使用```exportdefault{name:"Banner",data(){return{//图片地址数组img_list:["./banner1","./banner1","./banner1","./banner1"],//图片父容器高度bannerHeight:1000,//浏览器宽度screenWidth:0};},methods:{setSize:func
找寻记忆中的你一扬尘风
图片发自App我独自一人来到了我们儿时的小河边。那里已不是我们的河了呀！你看，那里杂草丛生，那里水深混浊，那里……那里只是一个大大水坑了。我们的河啊！夏天多惬意！我们卷着裤腿，提着鞋子，从上游趟到下游，从下游再回到上游。那里有蜻蜓飞去飞来，在河草上停歇；那里有小鱼游来游去，在石缝间嬉戏；那里有螃蟹爬进爬出，在石洞里窥视。那里还有很多很多，很多很多关于我们的故事，想听，把耳朵伸过来哟，我悄悄的告诉你
HTTPie：开发者友好的http客户端工具 fire-flyer http 网络协议 restful 开发工具
一、HTTPie简介HTTPie是一个以开发者体验为核心的命令行HTTP客户端工具，目标是替代curl等传统工具，简洁优雅地发送HTTP请求并读取响应，尤其适用于调试、测试和日常开发中的RESTfulAPI操作。项目主页：HTTPie–APItestingclientthatflowswithyouGitHub：https://github.com/httpie/httpie二、核心特性功能类别H
【云笔记搭建】Visual Code + Github仓库 + Git GPNU_Log github git vscode 云端
0.前言文章目录0.前言1.需要的工具2.工具准备2.1VisualCode2.2Github仓库1.自行注册账号2.点击右上方新建仓库3.填写仓库信息4.获取仓库token2.3git的安装与使用3.笔记的使用及VisualCode插件的推荐3.1新建笔记文件夹3.2插件的推荐3.2.1.PicGo3.2.2markdownlint3.2.3MarkdownAllinone4.一些小技巧4.1改
AI深度噪音抑制技术
这两年人工智能快速发展，AI已经渗透到了各行各业。在噪音抑制技术领域，AI也同样发挥了巨大的作用。AI深度噪音抑制技术是一种利用人工智能和深度学习算法来动态处理和减少音频信号中的噪声，从而提升音频的清晰度和质量。与传统的噪音抑制技术相比，AI深度噪音抑制能够更智能、更精准地分辨出背景噪音与有用的语音或音乐信号，尤其在复杂、多样的环境下表现尤为出色。1.工作原理AI深度噪音抑制技术基于深度神经网络（
Python 大数据分析（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/5058e6970bd2a8d818ecc1f7f8fef74a译者：飞龙协议：CCBY-NC-SA4.0第六章：第五章处理缺失值和相关性分析学习目标到本章结束时，你将能够：使用PySpark检测和处理数据中的缺失值描述变量之间的相关性计算PySpark中两个或多个变量之间的相关性使用PySpark创建相关矩阵在本章中，我们将使用Iris数据集处理
上官芷凝——《故事课：说故事的人最有影响力》读书笔记09 上官芷凝
故事强力胶：相似物转场当你描述一个故事时，七个步骤可以随意组合，但是将两个不相关的情节联系在一起需要借助媒介，用电影中的专有名词就是“转场”。这个词汇我们并不陌生，因为在短视频火爆的时代，每个人都会使用手机去创作和编辑小视频，这时就会用到“转场”，这个功能会让视频与视频衔接得更完美！故事也是如此，情节的连贯和完整，少不了上好的润滑剂。作者在这一章节给出了几个详细的案例：1.《海的女儿》——美人鱼在
点一盏心灯董晓利腊梅
今天是陪学生们晨读经典第一百一十九天，清代《聊斋志异》的作者蒲松龄的落第之后，并没有因为一次的失败而志气消沉，“有心人，天不负，百二秦关终属楚；有志者，事竟成，三千越甲可吞吴”之后成为了他自勉的对联，告诉自己只要自己坚持下去，总会高中的。我也想把这副对联送给自己和孩子们，希望我们合作共赢，过一个轻松快乐的新年！今天早到即学的同学有：5：21孟家乐，5：25袁怡琳、刘吉祥、张怡菲、宋昌衡，5：28王
element-ui 多级树形表格加多选的效果一个很哇塞的爷们 vue
实现多级表格加多选的效果父级表格点击具有全选、全不选的功能，点击部分子级表格，父级表格实现半选中的状态template页面展示部分：//表头单元格的style的回调方法，也可以使用一个固定的Object为所有表头单元格设置一样的Style。data数据部分：data(){return{renderDynamic:[{id:1,parentId:0,date:"2016-05-02",name:"王
时序数据库 Apache-IoTDB 源码解析之系统架构（二） zhoumouren88 技术
上一章聊到时序数据是什么样，物联网行业中的时序数据的特点：存量数据大、新增数据多（采集频率高、设备量多）。详情请见：时序数据库Apache-IoTDB源码解析之前言（一）打一波广告，欢迎大家访问IoTDB仓库，求一波Star。这一章主要想聊一聊：物联网行业的基本系统架构，及使用数据库遇到的需求与挑战IoTDB的功能特点及系统架构车联网因为本人是在做车联网行业，所以对这个行业的信息了解更深入一些，能
通信方式与交换方式详解两圆相切网络规划设计师网络
通信方式与交换方式是通信网络中的核心概念，分别定义了数据传输的基本模式（通信方向与同步机制）和网络节点间的转发策略（路径选择与资源分配）。理解两者的分类与特性，对网络设计、协议选型及性能优化至关重要。一、通信方式（CommunicationModes）通信方式描述数据在传输过程中方向性和同步性的特征，决定了终端设备间的交互模式。1.1按传输方向分类类型定义核心特性典型场景单工通信数据仅能沿单一固定
2019-02-25 笑傲江湖201710
图片发自App图片发自App图片发自App我了解死亡的过程并不是想去死亡，而是了解下死亡是什么样子的，怎么死去的。二氧化碳中毒属于化学死亡，也是科学死亡的一种，上吊缢死则属于物理死亡了，因为尸体和物体有所接触。所有的死亡都是有原因的，真相只有一个。也就是说所有的事情都是因果关系，并不存在什么特殊的外力，如果有也不会被现如今的人们所接纳。现实生活中中的我们的课本和书本都是无神论的观点，我们所接收到的
Vue的ubus emit/on使用搞个项目前端 vue.js 前端 javascript
这段代码是Vue.js组件中的mounted生命周期钩子函数，主要作用是监听一个名为“macSelectData”的全局事件。具体行为如下：分步解释：mounted()生命周期钩子当组件被挂载到DOM后，Vue会自动调用mounted()方法。这里常用于初始化操作，比如数据请求、事件监听等。this.$bus.on("macSelectData",this.open)this.$bus：通常指通过
深入理解 UniApp：跨平台开发的终极解决方案
深入理解UniApp：跨平台开发的终极解决方案一、UniApp概述：重新定义跨平台开发（一）UniApp的诞生背景在移动互联网高速发展的今天，多端适配成为开发者面临的主要挑战。传统开发模式下，针对iOS、Android、微信小程序、H5等不同平台需要编写多套代码，开发成本高且维护困难。DCloud公司于2019年推出的UniApp，正是为了解决这一行业痛点而生。它基于Vue.js语法规范，实现了"
读懂“浦江经验”中的“解‘题’密码” 小KU2023
8月20日，人民日报全文刊发题为《扑下身子“迎考”沉到一线“解题”——解码“浦江经验”》的报道，深情回顾时任浙江省委书记的习近平同志亲自倡导并带头到基层接访群众形成的“浦江经验”。学思想、见行动。面对新征程新使命、新形势新挑战，广大党员干部要深入学习、深刻领会“浦江经验”，练就“想为”之境界、“敢为”之担当、“善为”之能力，及时把群众的操心事、烦心事、揪心事办成放心事、舒心事、幸福事。学习“浦江经
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他