qq_39974560

Task5 基于深度学习的文本分类2

在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。

基于深度学习的文本分类

本章将继续学习基于深度学习的文本分类。

学习目标

学习Word2Vec的使用和基础原理
学习使用TextCNN、TextRNN进行文本表示
学习使用HAN网络结构完成文本分类

文本表示方法 Part3

词向量

本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（online learning）。

word2vec的主要思路：通过单词和上下文彼此预测，对应的两个算法分别为：

Skip-grams (SG)：预测上下文
Continuous Bag of Words (CBOW)：预测目标单词

另外提出两种更加高效的训练方法：

Hierarchical softmax
Negative sampling

1. Skip-grams原理和网络结构

Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文，来预测input word。

Word2Vec模型实际上分为了两个部分，第一部分为建立模型，第二部分是通过模型获取嵌入词向量。

Word2Vec的整个建模过程实际上与自编码器（auto-encoder）的思想很相似，即先基于训练数据构建一个神经网络，当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。

Skip-grams过程

假如我们有一个句子“The dog barked at the mailman”。

首先我们选句子中间的一个词作为我们的输入词，例如我们选取“dog”作为input word；
有了input word以后，我们再定义一个叫做skip_window的参数，它代表着我们从当前input word的一侧（左边或右边）选取词的数量。如果我们设置skip_window=2，那么我们最终获得窗口中的词（包括input word在内）就是[‘The’, ‘dog’，‘barked’, ‘at’]。skip_window=2代表着选取左input word左侧2个词和右侧2个词进入我们的窗口，所以整个窗口大小span=2x2=4。另一个参数叫num_skips，它代表着我们从整个窗口中选取多少个不同的词作为我们的output word，当skip_window=2，num_skips=2时，我们将会得到两组 (input word, output word) 形式的训练数据，即 (‘dog’, ‘barked’)，(‘dog’, ‘the’)。
神经网络基于这些训练数据将会输出一个概率分布，这个概率代表着我们的词典中的每个词作为input word的output word的可能性。这句话有点绕，我们来看个例子。第二步中我们在设置skip_window和num_skips=2的情况下获得了两组训练数据。假如我们先拿一组数据 (‘dog’, ‘barked’) 来训练神经网络，那么模型通过学习这个训练样本，会告诉我们词汇表中每个单词当’dog’作为input word时，其作为output word的可能性。

也就是说模型的输出概率代表着到我们词典中每个词有多大可能性跟input word同时出现。例如：如果我们向神经网络模型中输入一个单词“Soviet“，那么最终模型的输出概率中，像“Union”， ”Russia“这种相关词的概率将远高于像”watermelon“，”kangaroo“非相关词的概率。因为”Union“，”Russia“在文本中更大可能在”Soviet“的窗口中出现。

我们将通过给神经网络输入文本中成对的单词来训练它完成上面所说的概率计算。下面的图中给出了一些我们训练样本的例子。我们选定句子“The quick brown fox jumps over lazy dog”，设定我们的窗口大小为2（window_size=2），也就是说我们仅选输入词前后各两个词和输入词进行组合。下图中，蓝色代表input word，方框内代表位于窗口内的单词。

我们的模型将会从每对单词出现的次数中习得统计结果。例如，我们的神经网络可能会得到更多类似（“Soviet“，”Union“）这样的训练样本对，而对于（”Soviet“，”Sasquatch“）这样的组合却看到的很少。因此，当我们的模型完成训练后，给定一个单词”Soviet“作为输入，输出的结果中”Union“或者”Russia“要比”Sasquatch“被赋予更高的概率。

PS：input word和output word都会被我们进行one-hot编码。仔细想一下，我们的输入被one-hot编码以后大多数维度上都是0（实际上仅有一个位置为1），所以这个向量相当稀疏，那么会造成什么结果呢。如果我们将一个1 x 10000的向量和10000 x 300的矩阵相乘，它会消耗相当大的计算资源，为了高效计算，它仅仅会选择矩阵中对应的向量中维度值为1的索引行：

2. Skip-grams训练

由上部分可知，Word2Vec模型是一个超级大的神经网络（权重矩阵规模非常大）。例如：我们拥有10000个单词的词汇表，我们如果想嵌入300维的词向量，那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都会有 10000 x 300 = 300万个权重，在如此庞大的神经网络中进行梯度下降是相当慢的。更糟糕的是，你需要大量的训练数据来调整这些权重并且避免过拟合。百万数量级的权重矩阵和亿万数量级的训练样本意味着训练这个模型将会是个灾难

解决方案：

将常见的单词组合（word pairs）或者词组作为单个“words”来处理
对高频次单词进行抽样来减少训练样本的个数
对优化目标采用“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担

2.1 Word pairs and “phases”

一些单词组合（或者词组）的含义和拆开以后具有完全不同的意义。比如“Boston Globe”是一种报刊的名字，而单独的“Boston”和“Globe”这样单个的单词却表达不出这样的含义。因此，在文章中只要出现“Boston Globe”，我们就应该把它作为一个单独的词来生成其词向量，而不是将其拆开。同样的例子还有“New York”，“United Stated”等。

在Google发布的模型中，它本身的训练样本中有来自Google News数据集中的1000亿的单词，但是除了单个单词以外，单词组合（或词组）又有3百万之多。

2.2 对高频词抽样

在上一部分中，对于原始文本为“The quick brown fox jumps over the laze dog”，如果使用大小为2的窗口，那么我们可以得到图中展示的那些训练样本。

但是对于“the”这种常用高频单词，这样的处理方式会存在下面两个问题：

当我们得到成对的单词训练样本时，(“fox”, “the”) 这样的训练样本并不会给我们提供关于“fox”更多的语义信息，因为“the”在每个单词的上下文中几乎都会出现
由于在文本中“the”这样的常用词出现概率很大，因此我们将会有大量的（”the“，…）这样的训练样本，而这些样本数量远远超过了我们学习“the”这个词向量所需的训练样本数

Word2Vec通过“抽样”模式来解决这种高频词问题。它的基本思想如下：对于我们在训练原始文本中遇到的每一个单词，它们都有一定概率被我们从文本中删掉，而这个被删除的概率与单词的频率有关。

ωi 是一个单词，Z(ωi) 是 ωi 这个单词在所有语料中出现的频次，例如：如果单词“peanut”在10亿规模大小的语料中出现了1000次，那么 Z(peanut) = 1000/1000000000 = 1e - 6。

P(ωi) 代表着保留某个单词的概率：

2.3 Negative sampling

训练一个神经网络意味着要输入训练样本并且不断调整神经元的权重，从而不断提高对目标的准确预测。每当神经网络经过一个训练样本的训练，它的权重就会进行一次调整。

所以，词典的大小决定了我们的Skip-Gram神经网络将会拥有大规模的权重矩阵，所有的这些权重需要通过数以亿计的训练样本来进行调整，这是非常消耗计算资源的，并且实际中训练起来会非常慢。

负采样（negative sampling）解决了这个问题，它是用来提高训练速度并且改善所得到词向量的质量的一种方法。不同于原本每个训练样本更新所有的权重，负采样每次让一个训练样本仅仅更新一小部分的权重，这样就会降低梯度下降过程中的计算量。

当我们用训练样本 ( input word: “fox”，output word: “quick”) 来训练我们的神经网络时，“ fox”和“quick”都是经过one-hot编码的。如果我们的词典大小为10000时，在输出层，我们期望对应“quick”单词的那个神经元结点输出1，其余9999个都应该输出0。在这里，这9999个我们期望输出为0的神经元结点所对应的单词我们称为“negative” word。

当使用负采样时，我们将随机选择一小部分的negative words（比如选5个negative words）来更新对应的权重。我们也会对我们的“positive” word进行权重更新（在我们上面的例子中，这个单词指的是”quick“）。

PS: 在论文中，作者指出指出对于小规模数据集，选择5-20个negative words会比较好，对于大规模数据集可以仅选择2-5个negative words。

我们使用“一元模型分布（unigram distribution）”来选择“negative words”。个单词被选作negative sample的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words。

每个单词被选为“negative words”的概率计算公式：

其中 f(ωi)代表着单词出现的频次，而公式中开3/4的根号完全是基于经验的。

在代码负采样的代码实现中，unigram table有一个包含了一亿个元素的数组，这个数组是由词汇表中每个单词的索引号填充的，并且这个数组中有重复，也就是说有些单词会出现多次。那么每个单词的索引在这个数组中出现的次数该如何决定呢，有公式，也就是说计算出的负采样概率*1亿=单词在表中出现的次数。

有了这张表以后，每次去我们进行负采样时，只需要在0-1亿范围内生成一个随机数，然后选择表中索引号为这个随机数的那个单词作为我们的negative word即可。一个单词的负采样概率越大，那么它在这个表中出现的次数就越多，它被选中的概率就越大。

3. Hierarchical Softmax

3.1 霍夫曼树

输入：权值为(w1,w2,…wn)的n个节点

输出：对应的霍夫曼树

将(w1,w2,…wn)看做是有n棵树的森林，每个树仅有一个节点
在森林中选择根节点权值最小的两棵树进行合并，得到一个新的树，这两颗树分布作为新树的左右子树。新树的根节点权重为左右子树的根节点权重之和
将之前的根节点权值最小的两棵树从森林删除，并把新树加入森林
重复步骤 2 和 3 直到森林里只有一棵树为止

下面我们用一个具体的例子来说明霍夫曼树建立的过程，我们有(a，b，c，d，e，f)共6个节点，节点的权值分布是(16，4，8，6，20，3)。

首先是最小的b和f合并，得到的新树根节点权重是7.此时森林里5棵树，根节点权重分别是16，8，6，20，7。此时根节点权重最小的6，7合并，得到新子树，依次类推，最终得到下面的霍夫曼树。

那么霍夫曼树有什么好处呢？一般得到霍夫曼树后我们会对叶子节点进行霍夫曼编码，由于权重高的叶子节点越靠近根节点，而权重低的叶子节点会远离根节点，这样我们的高权重节点编码值较短，而低权重值编码值较长。这保证的树的带权路径最短，也符合我们的信息论，即我们希望越常用的词拥有更短的编码。如何编码呢？一般对于一个霍夫曼树的节点（根节点除外），可以约定左子树编码为0，右子树编码为1。如上图，则可以得到c的编码是00。

在word2vec中，约定编码方式和上面的例子相反，即约定左子树编码为1，右子树编码为0，同时约定左子树的权重不小于右子树的权重。

更多原理可参考：霍夫曼树原理

3.2Hierarchical Softmax过程

为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。

霍夫曼树的建立：

根据标签（label）和频率建立霍夫曼树（label出现的频率越高，Huffman树的路径越短）
Huffman树中每一叶子结点代表一个label

如上图所示：

注意：此时的theta是一个待定系数，它是由推导最大似然之后求解得到迭代式子。

使用gensim训练word2vec

from gensim.models.word2vec import Word2Vec
model = Word2Vec(sentences, workers=num_workers, size=num_features)

参考：

CS224n笔记2 词的向量表示：word2vec
斯坦福大学深度学习与自然语言处理第二讲：词向量
(Stanford CS224d) Deep Learning and NLP课程笔记（三）：GloVe与模型的评估
http://www.cnblogs.com/pinard/p/7249903.html
https://blog.csdn.net/yinkun6514/article/details/79218736
https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html

TextCNN

TextCNN利用CNN（卷积神经网络）进行文本特征抽取，不同大小的卷积核分别抽取n-gram特征，卷积计算出的特征图经过MaxPooling保留最大的特征值，然后将拼接成一个向量作为文本的表示。

这里我们基于TextCNN原始论文的设定，分别采用了100个大小为2,3,4的卷积核，最后得到的文本向量大小为100*3=300维。

TextRNN

TextRNN利用RNN（循环神经网络）进行文本特征抽取，由于文本本身是一种序列，而LSTM天然适合建模序列数据。TextRNN将句子中每个词的词向量依次输入到双向双层LSTM，分别将两个方向最后一个有效位置的隐藏层拼接成一个向量作为文本的表示。

基于TextCNN、TextRNN的文本表示

TextCNN

模型搭建

self.filter_sizes = [2, 3, 4]  # n-gram window
self.out_channel = 100
self.convs = nn.ModuleList([nn.Conv2d(1, self.out_channel, (filter_size, input_size), bias=True) for filter_size in self.filter_sizes])

前向传播

pooled_outputs = []
for i in range(len(self.filter_sizes)):
    filter_height = sent_len - self.filter_sizes[i] + 1
    conv = self.convs[i](batch_embed)
    hidden = F.relu(conv)  # sen_num x out_channel x filter_height x 1

    mp = nn.MaxPool2d((filter_height, 1))  # (filter_height, filter_width)
    # sen_num x out_channel x 1 x 1 -> sen_num x out_channel
    pooled = mp(hidden).reshape(sen_num, self.out_channel)
    
    pooled_outputs.append(pooled)

TextRNN

模型搭建

input_size = config.word_dims

self.word_lstm = LSTM(
    input_size=input_size,
    hidden_size=config.word_hidden_size,
    num_layers=config.word_num_layers,
    batch_first=True,
    bidirectional=True,
    dropout_in=config.dropout_input,
    dropout_out=config.dropout_hidden,
)

前向传播

hiddens, _ = self.word_lstm(batch_embed, batch_masks)  # sent_len x sen_num x hidden*2
hiddens.transpose_(1, 0)  # sen_num x sent_len x hidden*2

if self.training:
    hiddens = drop_sequence_sharedmask(hiddens, self.dropout_mlp)

使用HAN用于文本分类

Hierarchical Attention Network for Document Classification(HAN)基于层级注意力，在单词和句子级别分别编码并基于注意力获得文档的表示，然后经过Softmax进行分类。其中word encoder的作用是获得句子的表示，可以替换为上节提到的TextCNN和TextRNN，也可以替换为下节中的BERT。

本章小结

本章介绍了Word2Vec的使用，以及TextCNN、TextRNN的原理和训练，最后介绍了用于长文档分类的HAN。

本章作业

尝试通过Word2Vec训练词向量
尝试使用TextCNN、TextRNN完成文本表示
尝试使用HAN进行文本分类

参考：

https://mp.weixin.qq.com/s/I-yeHQopTFdNk67Ir_iWiA
https://github.com/hecongqing/2018-daguan-competition

Anaconda 虚拟环境和 Python 虚拟环境主要的区别张biubiu python 开发语言
在PyCharm中配置Anaconda虚拟环境和Python虚拟环境主要的区别在于环境的管理方式和用途。下面我会分别解释这两种虚拟环境的特点，并说明它们的差异。1.Anaconda虚拟环境Anaconda是一个针对数据科学、机器学习等应用领域优化的Python发行版，它提供了Python、R和大量的科学计算和数据处理包（如NumPy、Pandas、SciPy、Matplotlib等）的集成，且方便
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
【Java】通俗易懂方法引用麻辣香蝈蝈 Java java python 开发语言 spring boot 学习方法 mybatis
Java系列文章目录补充内容Windows通过SSH连接Linux第一章Linux基本命令的学习与Linux历史文章目录Java系列文章目录一、前言二、学习内容：三、问题描述四、解决方案：4.1解释4.2使用场景4.3为何使用Lambda表达式五、总结：5.1方法引用主要有四种类型：5.2方法引用的好处一、前言方法引用学习与见方法引用理解一下wrapper.set(request.getName(
# Nacos学习 Jeff-Jiang java 阿里云后端
1、Nacos是什么？Nacos是一个应用，阿里巴巴开发并开源的一个项目，主要用于微服务架构中的服务发现、配置管理和服务治理。2、Nacos能够做什么，有什么功能？Nacos是一个用于构建云原生应用的动态服务发现、配置和服务管理平台。以下是Nacos的主要功能:服务发现与管理：服务注册：服务提供者可以在Nacos上注册自己的服务，包括服务的名称、地址、端口等信息。服务发现：服务消费者可以通过Nac
在 Python 中如何删除文本文件中的特定行信息科技云课堂 python
目录：方法1：按照行号删除行方法2：通过匹配内容删除行方法3：删除包含特定字符串的行方法4：删除文件中最短的行在本文中，将介绍使用Python从文本文件中删除行的几种方法。由于Python没有提供删除文件中特定行的直接方法，因此有必要找到我们自己的方法。文中示例使用的文本文件“1.txt”内容如下：穿针引线无忧无虑无地自容学习三位一体原来如此落叶归根相见恨晚惊天动地滔滔不绝相濡以沫方法1：按照行号
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合辞落山 scikit-learn 线性回归 python
1.引言简要介绍线性回归模型及其在机器学习中的应用。2.创建自定义数据集通过生成一个简单的自定义数据集来模拟问题。可以使用numpy生成数据。importnumpyasnpimportmatplotlib.pyplotasplt#生成自定义数据np.random.seed(42)X=2*np.random.rand(100,1)y=4+3*X+np.random.randn(100,1)3.使用s
TensorFlow 简介九月十九 tensorflow 人工智能 python
TensorFlow是一个开源的机器学习框架，由Google开发。它提供了一个强大的工具集，用于构建和训练各种机器学习模型。TensorFlow的基本概念和使用场景包括：1.张量（Tensor）：TensorFlow中的核心数据结构是张量，它是一个多维数组，可以表示标量、向量、矩阵等。2.计算图（Graph）：TensorFlow使用计算图来表示机器学习模型的计算过程。计算图由一系列的操作节点和数
protobuf学习和使用(Python) 呀儿呦丶 Python 学习 python 开发语言
Protobuf学习文章目录Protobuf学习简介安装example数据类型映射关系proto2和proto3的区别案例example1_定义基本的消息类型example2_使用repeated字段example3_定义枚举类型example4_使用oneofexample5_字段编号与保留简介ProtocolBuffers(Protobuf)是一种由Google开发的高效、跨平台的序列化协议。
指针(C语言)从0到1掌握指针，为后续学习c++打下基础 Hou' c语言开发语言
目录一，指针二，内存地址和指针1，什么是内存地址2，指针在不同系统下所占内存三，指针的声明和初始化以及类型1,指针的声明2,指针的初始化1，初始化方式优点及适用场景4,指针的声明初始化类型四，野指针（永远都要避免）1，野指针的定义2，野指针产生的原因1，指针没有初始化2，释放内存后未置空3.局部变量超出作用域3，野指针的危害4，如何避免野指针五，取地址符和解引用1，取地址符&2，解引用*六，指针的
谈谈信息安全治理模型 SOA开发者安全 web安全网络
当我们学习ISO/SAE21434标准的时候，会看到网络安全治理（Cybersecuritygovernment）和网络安全管理（Cybersecuritymanagement）两个概念。然而该标准中并没有给出安全治理和安全管理的十分清晰的定义和描述。即使在安全社区内，似乎也是讲安全管理的多，讲安全治理的少。那到底两个概念是什么？两者的区别和联系又是什么呢？笔者通过调研发现安全治理、安全管理和安全
分类算法：梯度提升树(GBT)算法原理 kkchenjj 数据挖掘机器学习算法分类数据挖掘
分类算法：梯度提升树(GBT)算法原理1.简介1.1梯度提升树的起源与发展梯度提升树(GradientBoostingTree,GBT)是一种强大的机器学习算法，它基于提升方法的原理，通过迭代地构建一系列弱分类器并组合它们来形成一个强分类器。GBT的起源可以追溯到Freund和Schapire在1996年提出的AdaBoost算法，但真正将梯度提升应用于树模型的是JeromeH.Friedman在
ue4 vr连接_基于UE4的VR项目基础环境配置和Motion Controller控制配置深度智能 ue4 vr连接
原标题：基于UE4的VR项目基础环境配置和MotionController控制配置本文使用的VR硬件是HTCVIVE,本文分成两个部分，第一部分介绍了使用蓝图在UE4中进行基础环境配置时需要注意的渲染优化、后期处理、环境比例、HMD帧率优化设置等。第二部分是如何使用UE4蓝图对HTCVIVE的手柄进行配置的流程。适合刚学习VR的同学进行参考。一、VR基础环境配置UE4项目设置新建VR项目时，推荐使
我把DeepSeek-R1推理能力知识蒸馏到Qwen2，效果真的炸裂！！！ AI生成曾小健自然语言处理人工智能
我把DeepSeek-R1推理能力知识蒸馏到Qwen2，效果真的炸裂！！！关于NLP那些你不知道的事2025年01月29日13:08我把DeepSeek-R1推理能力知识蒸馏到Qwen2，效果真的炸裂！！！一、什么是知识蒸馏？知识蒸馏是一种模型压缩技术，用于将大型复杂模型（教师模型）的知识迁移到小型模型（学生模型）。其核心原理是教师模型通过预测结果（如概率分布或推理过程）向学生模型传授知识，学生模
校招154W！DeepSeek待遇和核心成员曝光！ AI生成曾小健人工智能
校招154W！DeepSeek待遇和核心成员曝光！DeepSeek的薪酬模式极为慷慨，提供员工一年14薪的福利。其高薪职位如深度学习研究员，年薪最高可达税前154万元。同时，该公司也注重给予其他职位合理薪酬，如客户端研发工程师年薪30万，实习生日薪500元，并提供转正机会及房补。更有平台显示，DeepAGI大模型实习生日薪高达500-1000元。尽管这些待遇与硅谷相比仍有差距，但已相当优厚。Dee
Python新手：学习 itertools.takewhile 迭代右过滤很酷的站长 Python python 学习开发语言
在Python中，itertools.takewhile是另一个有用的工具，常用于从可迭代对象中获取基本示例假设我们有一个数字列表[1,2,3,6,7,8,2,3]，希望获取前面所有小于5的元素，一旦遇到不小于5的元素，停止获取并返回结果。示例代码importitertools#定义一个简单的条件函数：获取所有小于5的元素defis_less_than_5(x):returnx<5#输入序列num
探索Python列表生成式：魔法般的快捷方式！很酷的站长 Python python 开发语言
欢迎来到Python世界的一个魅力角落，今天我们要聊聊Python列表生成式—一个强大的工具，用来创建列表的魔法般的快捷方式。让我们踏上一段有趣的学习之旅，一起探索这项Python中的神奇魔法。起步：什么是列表生成式？列表生成式，顾名思义，是生成列表的一个简单又直接的方法。它使用了一种紧凑的语法来构造列表，能够以一种更清晰、更简洁的方式来表达循环和过滤逻辑。基础示例让我们看看这个魔法是如何工作的，
day1-ES6学习基础语法 clock的时钟 es6 学习前端
title:day1-ES6学习基础语法date:2025-01-1512:00:00tags:-前端categories:-前端ES6#一认识：什么是ES6?ES6，全称ECMAScript2015，是JavaScript语言的一个重要版本，对语言进行了许多重大改进和新增功能。ES6的引入极大地提升了JavaScript的可用性、可读性和开发效率*ECMAScript是由ECMA国际标准化组织制
从众中取优：开源Agent市场深度调研，近20款主流开源Agent框架的技术亮点与适用场景深度剖析[Multi-Agent 框架详解] 汀、人工智能 AI Agent 人工智能 Agent 大模型 AI Agent Multi Agent single Agent 智能体
从众中取优：开源Agent市场深度调研，近20款主流开源Agent框架的技术亮点与适用场景深度剖析1.背景代理（Agent）指能自主感知环境并采取行动实现目标的智能体，即AI作为一个人或一个组织的代表，进行某种特定行为和交易，降低一个人或组织的工作复杂程度，减少工作量和沟通成本。目前，我们在探索Agent的应用方向，借此机会调研学习了一下现在主流的Agent框架，这篇文章也是我们调研过程的记录。1
第十一届蓝桥杯——字串排序（DP） Dripping. 蓝桥杯练习题/试题算法
评论上有博友说这道题我的答案在蓝桥杯上只能通过7个数据点，我自己去测试了一下确实是这样的，根据一些博友在评论里提供的正确答案，我发现确实是我答案有问题，只能计算出最短长度，但字典序最小好像有些地方没有考虑完全，但是最近又很忙实在是抽不出时间来重新思考这道题，等过段时间我会重新来整理的。当然，如果你有正确的思路也希望你能够在评论里留下你的思路，万分感谢！问题描述小蓝最近学习了一些排序算法，其中冒泡排
自制一个入门STM32 四足机器人具体开发顺序弥途足式机器人 stm32 机器人单片机
0前期准备1.知识储备学习STM32微控制器的基础知识，包括GPIO、定时器、串口通信等外设的使用，可通过官方文档、教程和视频课程进行学习。了解舵机控制原理，因为四足机器人通常使用舵机来实现关节运动。掌握基本的机械结构设计知识，以便设计机器人的腿部和身体结构。2.材料和工具准备硬件材料：STM32开发板（如STM32F103系列）、舵机（根据机器人腿部关节数量选择合适的舵机，一般每个腿部至少需要2
Day29（补）-【AI思考】-精准突围策略——从“时间贫困“到“效率自由“的逆袭方案一个一定要撑住的学习者 #AI深度思考学习方法人工智能 unity 游戏引擎
文章目录精准突围策略——从"时间贫困"到"效率自由"的逆袭方案**第一步：目标熵减工程（建立四维坐标）**与其他学习方法的结合**第二步：清华方法本土化移植**与其他工具对比**~~第三步：游戏化改造方案~~****第四步：环境重塑工程****第五步：技术杠杆矩阵****第六步：风险对冲策略**可行性验证模型甘特图OKR看板精准突围策略——从"时间贫困"到"效率自由"的逆袭方案让思想碎片重焕生机的
泷羽sec:蓝队基础之企业网络架构菜鸟小白：长岛icetea 泷羽sec红队全栈课程网络架构
声明：学习视频来自B站up主泷羽sec有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负!!!!有兴趣的小伙伴可以点击下面连接进入b站主页B站泷羽sec泷羽sec的个人空间-泷羽sec个人主页-哔哩哔哩视频————————————————企业网络架构：全面解析
深度学习过程是什么小松要进步李哥深度学习深度学习
问：深度学习是：一组原始数据，经过线性变换、非线性变换、偏差加和等操作后得到一组预测数据，再根据损失函数计算预测数据和原始数据的差值，用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程。以下是详细的解释：1.原始数据处理：一组原始数据首先通
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
大sql如果不能加索引，还能怎么优化 —— hint学习 ckh_user 数据库 sql 数据库 oracle
大sql如果不能加索引，还能怎么优化当前问题：要执行简单查询sql【select字段1，字段2，……，字段40from表where条件groupby字段1，字段2，……，字段40】，但对应表里数据量大，且查询字段和groupby字段是由动态配置的，于是这里不方便加索引，普通查询耗时2个小时以上。解决方案：这里便用hint的并行解决，新的sql【select/*+parallel(8)*/字段1，字
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
《攻克语言密码：教AI理解隐喻与象征》程序猿阿伟人工智能
在自然语言处理（NLP）领域，让计算机理解人类语言中的隐喻和象征，是迈向更高语言理解水平的关键一步。从“时间就是金钱”这样的概念隐喻，到文学作品里象征着坚韧的“寒梅”，这些非字面意义的表达方式承载着丰富的情感与文化内涵。然而，对于基于规则和数据驱动的NLP模型来说，理解隐喻和象征一直是块难啃的硬骨头。理解隐喻与象征：人类语言的独特魅力隐喻和象征作为常见的修辞手法，为语言表达增添了生动性与深度。隐喻
Go Gin 框架学习笔记「已注销」 Go Web restful golang json
GoGin框架学习笔记Gin描述轻量级httpweb框架，允许速度非常快最擅长的是Api接口的高并发入门创建默认的路由引擎r=gin.Default()启动http服务，默认在8080端口r.Run(":8000")返回字符串c.String(200,"我是新闻页面")c.String(200,"值：%v","你好gin")gin支持RestFulr.PUT()r.GET()r.POST()r.D
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

Task5 基于深度学习的文本分类2

Task5 基于深度学习的文本分类2

基于深度学习的文本分类

学习目标

文本表示方法 Part3

词向量

TextCNN

TextRNN

基于TextCNN、TextRNN的文本表示

TextCNN

TextRNN

使用HAN用于文本分类

本章小结

本章作业

你可能感兴趣的:(Datawhale,nlp学习)