韩明宇

CS224N刷题——Assignment3.1_A window into NER

Assignment #3

A primer on named entity recognition

这一节作业我们会建立几种不同的模型来实现命名实体识别（NER）。NER是信息抽取的一个子任务，旨在将文本中的命名实体定位并分类为预先定义的类别，如人名、组织、地点、时间表达式、数量、货币值、百分比等。对于上下文中给定的一个单词，预测它是否代表下列四个类别中的一个：

人名（PER）：例如“Martha Stewart”，“Obama”，“Tim Wagner”等等，代词“he”或者“she”不考虑为命名实体。
组织（ORG）：例如“American Airlines”，“Goldman Sachs”，“Department of Defense”。
地点（LOC）：例如“Germany”，“Panama Strait”，“Brussels”，不包括未命名地点，比如“the bar”或者“the farm”。
其他（MISC）：例如“Japanese”，“USD”，“1000”，“Englishmen”。

我们将此定义为一个五分类问题，使用上面的四个类和一个空类（O）来表示不代表命名实体的单词（大多数单词都属于此类别）。对于跨越多个单词的实体（“Department of Defense”），每个单词都被单独标记，并且每个连续的非空标记序列都被视为一个实体。

下面是一个示例句子（ $x^{(t)}$ ），其中每个单词上面都被标记了命名实体（ $y^{(t)}$ ）以及系统生成的假设预测（ $\widehat{y}^{(t)}$ ）：

在上述例子中，系统错误地预测“American”为MISC类，并且忽视了“Airlines”和“Corp”。总的来说，它预测了三个实体，“American”，“AMR”，“Tim Wagner”。为了评测NER系统输出的质量，我们关注准确率，召回率和F1值。特别地，我们会在token级别和命名实体级别都报告准确率，召回率和F1值。在之前的例子中：

准确率计算为预测的正确非空标签与预测的非空标签总数之比（上述例子中，p=3/4）。
召回率计算为预测的正确非空标签与正确的非空标签总数之比（上述例子中，r=3/6）。
F1是准确率和召回率的调和平均值（上述例子中，F1=6/10）。

对于实体级别的F1：

准确率是预测实体名称跨度的分数，与黄金标准评估数据中的跨度完全一致。在我们的示例中，“AMR”将被错误地标记，因为它不包括整个实体，即“AMR Corp.”，而“American”也一样，我们将得到1/3的准确率得分。
召回率同样是黄金标准中出现在预测中完全相同位置的名称数量。在这里，我们会得到1/3分的召回率得分。
最后，F1值仍然是两者的调和平均值，例子中为1/3。

我们的模型还输出一个单词级别的混淆矩阵。混淆矩阵是一种特定的表格布局，允许可视化分类性能。矩阵的每一列表示预测类别中的实例，而每一行表示实际类别中的实例。这个名字源于这样一个事实，即它可以很容易地看出系统是否混淆了两个类（即通常错误地将一个类标记为另一个类）。

1.A window into NER

让我们来看一个简单的基线模型，它使用来自周围窗口的特征分别预测每个单词的标签。

图1显示了一个输入序列的例子和这个序列的第一个窗口。令 $x=x^{(1)},x^{(2)},...,x^{(T)}$ 为长度为T的输入序列， $y=y^{(1)},y^{(2)},...,y^{(T)}$ 为长度为T的输出序列。每个元素 $x^{(t)}$ 和 $y^{(t)}$ 都是代表序列中索引为t的单词的one-hot向量。在基于窗口的分类器中，每个输入序列被分割成T个新的数据点，每个点代表一个窗口及其标签。通过将 $x^{(t)}$ 的左右两侧的w个单词连在一起，从 $x^{(t)}$ 周围的窗口构造一个新的输入： $\widetilde{x}^{(t)}=[x^{(t-w)},...,x^{(t)},...,x^{(t+w)}]$ ，我们继续使用 $y^{(t)}$ 作为它的标签。对于在句首以标记为中心的窗口，我们在窗口的开头添加特殊的开始标记（），对于在句尾以标记为中心的窗口，我们在窗口的末尾添加特殊的结束标记（）。例如，考虑在上面的句子中围绕“Jim”构建一个窗口，如果窗口大小为1，我们会在窗口中加一个start词（产生一个窗口为[, Jim, bought]）。如果窗口大小为2，我们会在窗口中加两个start词（产生一个窗口为[, , Jim, bought, 300]）。

有了这些，每个输入和输出都有一个统一的长度（分别为w和1），我们可以使用一个简单的前馈神经网络从 $\widetilde{x}^{(t)}$ 预测 $y^{(t)}$ ：

作为一个从每个窗口预测标签的简单但有效的模型，我们会使用一个带ReLU激活的单隐层，与softmax输出层相结合，以及交叉熵损失：

其中 $L\in \mathbb{R}^{V\times D}$ 是词向量， $h^{(t)}$ 是H维的， $\widehat{y}^{(t)}$ 是C维的，其中V是词表的大小，D是词向量的大小，H是隐藏层的大小，C是预测类别的数量（这里是5）。

(a)

i.提供两个包含具有模棱两可类型的命名实体的句子示例（例如，实体可以是个人或组织，也可以是组织或非实体）。

1)"Spokesperson for Levis, Bill Murray, said..."，其中Levis可能是人名也可能是组织。

2)"Heartbreak is a new virus,"，其中Heartbreak可能是其他命名实体（实际上是virus的名字），也可能只是简单的名词。

ii.为什么使用单词本身以外的特征来预测命名实体标签很重要？

通常命名实体会是稀有词，例如人名或者"heartbreak"，使用大小写这样的特征使得系统具有泛化性。

iii.描述至少两个有助于预测单词是否属于命名实体的特征（单词除外）。

单词大小写和词性。

(b)

i.如果窗口大小为w，则 $e^{(t)},W,U$ 的维度为多少？

$e^{(t)}:(1,(2w+1)D)$

ii.预测序列长度为T的标签的计算复杂度是多少？

(c)实现基于窗口的分类器模型：

i.在make_windowed_data函数中将一个输入序列的batch转换为一个窗口化的输入-输出对的batch。

def make_windowed_data(data, start, end, window_size = 1):
    """Uses the input sequences in @data to construct new windowed data points.

    TODO: In the code below, construct a window from each word in the
    input sentence by concatenating the words @window_size to the left
    and @window_size to the right to the word. Finally, add this new
    window data point and its label. to windowed_data.

    Args:
        data: is a list of (sentence, labels) tuples. @sentence is a list
            containing the words in the sentence and @label is a list of
            output labels. Each word is itself a list of
            @n_features features. For example, the sentence "Chris
            Manning is amazing" and labels "PER PER O O" would become
            ([[1,9], [2,9], [3,8], [4,8]], [1, 1, 4, 4]). Here "Chris"
            the word has been featurized as "[1, 9]", and "[1, 1, 4, 4]"
            is the list of labels.
        start: the featurized `start' token to be used for windows at the very
            beginning of the sentence.
        end: the featurized `end' token to be used for windows at the very
            end of the sentence.
        window_size: the length of the window to construct.
    Returns:
        a new list of data points, corresponding to each window in the
        sentence. Each data point consists of a list of
        @n_window_features features (corresponding to words from the
        window) to be used in the sentence and its NER label.
        If start=[5,8] and end=[6,8], the above example should return
        the list
        [([5, 8, 1, 9, 2, 9], 1),
         ([1, 9, 2, 9, 3, 8], 1),
         ...
         ]
    """

    windowed_data = []
    for sentence, labels in data:
        # YOUR CODE HERE (5-20 lines)
        T = len(labels)  # 序列长度T
        for t in range(T):  # 遍历单个序列的每个单词
            sen2fea = []
            for l in range(window_size, 0, -1):  # 左窗口的w个单词
                if t-l < 0:
                    sen2fea.extend(start)
                else:
                    sen2fea.extend(sentence[t-l])
            sen2fea.extend(sentence[t])
            for r in range(1, window_size+1):  # 右窗口的w个单词
                if t+r >= T:
                    sen2fea.extend(end)
                else:
                    sen2fea.extend(sentence[t+r])
            windowed_data.append((sen2fea, labels[t]))
        # END YOUR CODE
    return windowed_data

ii.在WindowModel类中实现前面描述的前馈模型。

class WindowModel(NERModel):
    """
    Implements a feedforward neural network with an embedding layer and
    single hidden layer.
    This network will predict what label (e.g. PER) should be given to a
    given token (e.g. Manning) by  using a featurized window around the token.
    """

    def add_placeholders(self):
        """Generates placeholder variables to represent the input tensors

        These placeholders are used as inputs by the rest of the model building and will be fed
        data during training.  Note that when "None" is in a placeholder's shape, it's flexible
        (so we can use different batch sizes without rebuilding the model).

        Adds following nodes to the computational graph

        input_placeholder: Input placeholder tensor of  shape (None, n_window_features), type tf.int32
        labels_placeholder: Labels placeholder tensor of shape (None,), type tf.int32
        dropout_placeholder: Dropout value placeholder (scalar), type tf.float32

        Add these placeholders to self as the instance variables
            self.input_placeholder
            self.labels_placeholder
            self.dropout_placeholder

        (Don't change the variable names)
        """
        # YOUR CODE HERE (~3-5 lines)
        self.input_placeholder = tf.placeholder(shape=[None, Config.n_window_features], dtype=tf.int32)
        self.labels_placeholder = tf.placeholder(shape=[None, ], dtype=tf.int32)
        self.dropout_placeholder = tf.placeholder(dtype=tf.float32)
        # END YOUR CODE

    def create_feed_dict(self, inputs_batch, labels_batch=None, dropout=1):
        """Creates the feed_dict for the model.
        A feed_dict takes the form of:
        feed_dict = {
                : ,
                ....
        }

        Hint: The keys for the feed_dict should be a subset of the placeholder
                    tensors created in add_placeholders.
        Hint: When an argument is None, don't add it to the feed_dict.

        Args:
            inputs_batch: A batch of input data.
            labels_batch: A batch of label data.
            dropout: The dropout rate.
        Returns:
            feed_dict: The feed dictionary mapping from placeholders to values.
        """
        # YOUR CODE HERE (~5-10 lines)
        if labels_batch is None:
            feed_dict = {self.input_placeholder: inputs_batch,
                         self.dropout_placeholder: dropout}
        else:
            feed_dict = {self.input_placeholder: inputs_batch,
                         self.labels_placeholder: labels_batch,
                         self.dropout_placeholder: dropout}
        # END YOUR CODE
        return feed_dict

    def add_embedding(self):
        """Adds an embedding layer that maps from input tokens (integers) to vectors and then
        concatenates those vectors:
            - Creates an embedding tensor and initializes it with self.pretrained_embeddings.
            - Uses the input_placeholder to index into the embeddings tensor, resulting in a
              tensor of shape (None, n_window_features, embedding_size).
            - Concatenates the embeddings by reshaping the embeddings tensor to shape
              (None, n_window_features * embedding_size).

        Hint: You might find tf.nn.embedding_lookup useful.
        Hint: You can use tf.reshape to concatenate the vectors. See following link to understand
            what -1 in a shape means.
            https://www.tensorflow.org/api_docs/python/array_ops/shapes_and_shaping#reshape.
        Returns:
            embeddings: tf.Tensor of shape (None, n_window_features*embed_size)
        """
        # YOUR CODE HERE (!3-5 lines)
        embedding = tf.Variable(self.pretrained_embeddings, name='embedding')
        embeddings_3d = tf.nn.embedding_lookup(embedding, self.input_placeholder)
        embeddings = tf.reshape(embeddings_3d, shape=[-1, Config.n_window_features*Config.embed_size])
        # END YOUR CODE
        return embeddings

    def add_prediction_op(self):
        """Adds the 1-hidden-layer NN:
            h = Relu(xW + b1)
            h_drop = Dropout(h, dropout_rate)
            pred = h_dropU + b2

        Recall that we are not applying a softmax to pred. The softmax will instead be done in
        the add_loss_op function, which improves efficiency because we can use
        tf.nn.softmax_cross_entropy_with_logits

        When creating a new variable, use the tf.get_variable function
        because it lets us specify an initializer.

        Use tf.contrib.layers.xavier_initializer to initialize matrices.
        This is TensorFlow's implementation of the Xavier initialization
        trick we used in last assignment.

        Note: tf.nn.dropout takes the keep probability (1 - p_drop) as an argument.
            The keep probability should be set to the value of dropout_rate.

        Returns:
            pred: tf.Tensor of shape (batch_size, n_classes)
        """

        x = self.add_embedding()
        dropout_rate = self.dropout_placeholder
        # YOUR CODE HERE (~10-20 lines)
        W = tf.get_variable(initializer=tf.contrib.layers.xavier_initializer(),
                            shape=[Config.n_window_features*Config.embed_size, Config.hidden_size],
                            name='W')
        b1 = tf.get_variable(initializer=tf.zeros(Config.hidden_size), name='b1')
        h = tf.nn.relu(tf.matmul(x, W) + b1)
        h_drop = tf.nn.dropout(h, keep_prob=dropout_rate)
        U = tf.get_variable(initializer=tf.contrib.layers.xavier_initializer(),
                            shape=[Config.hidden_size, Config.n_classes],
                            name='U')
        b2 = tf.get_variable(initializer=tf.zeros(Config.n_classes), name='b2')
        pred = tf.matmul(h_drop, U) + b2
        # END YOUR CODE
        return pred

    def add_loss_op(self, pred):
        """Adds Ops for the loss function to the computational graph.
        In this case we are using cross entropy loss.
        The loss should be averaged over all examples in the current minibatch.

        Remember that you can use tf.nn.sparse_softmax_cross_entropy_with_logits to simplify your
        implementation. You might find tf.reduce_mean useful.
        Args:
            pred: A tensor of shape (batch_size, n_classes) containing the output of the neural
                  network before the softmax layer.
        Returns:
            loss: A 0-d tensor (scalar)
        """
        # YOUR CODE HERE (~2-5 lines)
        loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=pred,
                                                                             labels=self.labels_placeholder))
        # END YOUR CODE
        return loss

    def add_training_op(self, loss):
        """Sets up the training Ops.

        Creates an optimizer and applies the gradients to all trainable variables.
        The Op returned by this function is what must be passed to the
        `sess.run()` call to cause the model to train. See

        https://www.tensorflow.org/versions/r0.7/api_docs/python/train.html#Optimizer

        for more information.

        Use tf.train.AdamOptimizer for this model.
        Calling optimizer.minimize() will return a train_op object.

        Args:
            loss: Loss tensor, from cross_entropy_loss.
        Returns:
            train_op: The Op for training.
        """
        # YOUR CODE HERE (~1-2 lines)
        train_op = tf.train.AdamOptimizer(learning_rate=Config.lr).minimize(loss)
        # END YOUR CODE
        return train_op

    def preprocess_sequence_data(self, examples):
        return make_windowed_data(examples, start=self.helper.START, end=self.helper.END, window_size=self.config.window_size)

    def consolidate_predictions(self, examples_raw, examples, preds):
        """Batch the predictions into groups of sentence length.
        """
        ret = []
        #pdb.set_trace()
        i = 0
        for sentence, labels in examples_raw:
            labels_ = preds[i:i+len(sentence)]
            i += len(sentence)
            ret.append([sentence, labels, labels_])
        return ret

    def predict_on_batch(self, sess, inputs_batch):
        """Make predictions for the provided batch of data

        Args:
            sess: tf.Session()
            input_batch: np.ndarray of shape (n_samples, n_features)
        Returns:
            predictions: np.ndarray of shape (n_samples, n_classes)
        """
        feed = self.create_feed_dict(inputs_batch)
        predictions = sess.run(tf.argmax(self.pred, axis=1), feed_dict=feed)
        return predictions

    def train_on_batch(self, sess, inputs_batch, labels_batch):
        feed = self.create_feed_dict(inputs_batch, labels_batch=labels_batch,
                                     dropout=self.config.dropout)
        _, loss = sess.run([self.train_op, self.loss], feed_dict=feed)
        return loss

    def __init__(self, helper, config, pretrained_embeddings, report=None):
        super(WindowModel, self).__init__(helper, config, report)
        self.pretrained_embeddings = pretrained_embeddings

        # Defining placeholders.
        self.input_placeholder = None
        self.labels_placeholder = None
        self.dropout_placeholder = None

        self.build()

iii.训练模型，模型和输出会被存在results/window//中，results.txt包含了模型在验证集上的预测的格式化输出，log文件包含了打印出来的输出，即训练中计算得到的混淆矩阵和F1值。

(d)使用上面生成的文件分析模型的预测。

i.简要描述混淆矩阵显示的关于模型预测错误的信息。

混淆矩阵显示模型的最大混淆源来自组织标签，其中许多组织被误认为人名或直接被忽略，另一方面，人名似乎被识别的很好。

ii.描述基于窗口的模型的至少2个建模限制。

基于窗口的模型不能使用来自相邻预测的信息来消除标签决策的歧义，从而导致不连续的实体预测。

关于tf.Variable和tf.get_variable的区别：

https://blog.csdn.net/MrR1ght/article/details/81228087

关于tf.nn.embedding_lookup：

https://blog.csdn.net/yinruiyang94/article/details/77600453

https://tensorflow.google.cn/api_docs/python/tf/nn/embedding_lookup

关于tf.contrib.layers.xavier_initializer：

https://blog.csdn.net/yinruiyang94/article/details/78354257

https://tensorflow.google.cn/api_docs/python/tf/contrib/layers/xavier_initializer

多头潜在注意力（MLA）是怎么来的，什么原理，能用简单的示例解释么百态老人学习
多头潜在注意力（Multi-HeadLatentAttention，简称MLA）是一种改进的注意力机制，旨在提高自然语言处理（NLP）模型的推理效率和性能。其核心思想是通过低秩联合压缩键（Key）和值（Value），减少推理过程中所需的内存和计算资源，从而实现更高效的处理。MLA的原理在传统的多头注意力机制（MHA）中，每个输入token的键和值需要被缓存，这导致了巨大的内存开销。具体来说，对于每
从0到1打造企业AI知识库-课程目录 MaxCode-1 人工智能 AIGC 知识图谱 Langchain Xinference
课程名称：「从0到1打造企业AI知识库：实用指南与生产落地」课程目录第一章：AI企业知识库的前景与价值1.企业知识库的概念与意义1.1什么是企业知识库？-企业知识库的核心组成-企业知识库的类型1.2企业知识库如何赋能内部协作与创新。2.AI在知识库中的作用AI赋能的核心技术：NLP、知识图谱、大模型。AI知识库的未来趋势与行业案例。第二章：搭建企业知识库的整体规划3.从需求分析到方案设计识别业务场
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
Transformer模型全面解析：工作原理、应用与未来展望* 泰山AI AI大模型应用开发 transformer
概述：深入探讨Transformer模型的工作原理，分析其在NLP领域的应用场景，并展望其未来发展趋势。本文为您提供关于Transformer模型的全面指南。正文Transformer模型全面解析：工作原理、应用与未来展望在人工智能的浪潮中，Transformer模型以其强大的性能和广泛的应用场景，成为了自然语言处理（NLP）领域的一颗璀璨明星。本文将对Transformer模型进行深入剖析，从工
一切皆是映射：Transformer架构全面解析 AI天才研究院计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
背景介绍自2017年，Transformer（自注意力机制）架构的问世以来，它已经成为自然语言处理（NLP）领域的主流技术之一。Transformer架构的出现，使得自然语言处理的任务变得更加简单、高效，同时也为许多其他领域提供了灵感。通过深入剖析Transformer，我们可以更好地理解其核心概念、原理和实际应用场景。这篇文章将全面解析Transformer架构，从核心概念到实际应用，帮助读者深
2.6 聚焦：Word Embedding 少林码僧 AI大模型应用实战专栏 word embedding
聚焦：WordEmbeddingWordEmbedding（词嵌入）是一种将词语转化为低维向量表示的技术，使得词语在数学空间中具有语义上的相似性。它是自然语言处理（NLP）中不可或缺的一部分，为文本数据提供了强大的表示能力。与传统的基于词频的词袋模型（Bag-of-Words）相比，WordEmbedding能够捕捉到词语之间更深层的语义和上下文信息。1.词嵌入的定义与作用WordEmbeddin
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
ChatGPT 绘图的工作原理
ChatGPT的绘图功能结合了自然语言处理（NLP）和图像生成的技术，这种综合能力依赖于预训练模型（如GPT-4）和图像生成模型（如DALL-E）之间的紧密协作。ChatGPT本质上是一个大规模的语言模型，但通过与图像生成模型集成，它得以执行基于描述生成图像的任务。接下来，我们将从模型架构、训练方法、推理机制和一些技术挑战等方面，详细讨论ChatGPT进行绘图的工作原理。
2024 年技术盘点与展望：从 AI 辅助到个人成长的多元探索 109702008 杂谈人工智能
一、引言2024年，技术领域的发展日新月异，我在这片汹涌的浪潮中不断探索与成长。这一年，我不仅见证了人工智能技术的飞速发展，还通过AI辅助创作、AI赋能编程以及参与各类竞赛与课程，实现了个人技术的显著提升与视野的拓展。本文将从总结盘点的角度，回顾我在技术领域的成长历程，并对未来进行展望。二、AI辅助创作：提升写作效率与质量在自然语言处理技术（NLP）的推动下，AI写作工具成为了我的得力助手。这些工
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
NLP 中文拼写检测纠正论文 Automatic-Corpus-Generation 代码后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
【大模型】从零样本到少样本学习：一文读懂 Zero-shot、One-shot 和 Few-shot 的核心原理与应用！橙子小哥的代码世界 NLP自然语言理解大模型自然语言处理 sklearn 深度学习神经网络 tensorflow
《从零样本到少样本学习：一文读懂Zero-shot、One-shot和Few-shot的核心原理与应用！》正文：在自然语言处理（NLP）领域，Zero-shot、One-shot和Few-shot学习已经成为衡量大语言模型泛化能力的重要指标。尤其是在大规模预训练模型（如GPT系列）的推动下，这些技术得到了广泛应用和关注。本篇文章将带你全面了解这三种学习方法的核心概念、原理和实际应用场景。1.什么是
NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-04-Learning from the Dictionary 后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述，数据准备，绩效指标和评估结果后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
利用Langchain与Minimax进行自然语言处理的精彩指南 afTFODguAKBF langchain 自然语言处理 easyui python
#引言在人工智能的浪潮中，自然语言处理（NLP）成为了企业和个人用户的重要工具。Minimax作为一家中国初创企业，专注于提供优秀的语言模型服务。本篇文章将介绍如何使用Langchain库与Minimax进行交互，帮助开发者充分利用这一强大的AI工具。#主要内容##1.Minimax简介Minimax专注于自然语言处理，为企业和个人用户提供高效的语言模型服务。其API能处理多种自然语言任务，例如文
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
ChatGPT原理及其应用场景编程小郭 chatgpt 人工智能 ai
ChatGPT的原理及应用场景一、ChatGPT的原理ChatGPT，全名ChatGenerativePre-trainedTransformer，是OpenAI研发的一款聊天机器人程序，其背后依托的是人工智能技术和自然语言处理（NLP）的深厚功底。其工作原理可以从以下几个方面进行解析：GPT系列模型基础ChatGPT基于GPT（GenerativePre-trainedTransformer）技
SnowNLP 情感分析 Taichi呀 python 开发语言
#-*-coding:utf-8-*-importsysfromsnownlpimportSnowNLPfromjiebaimportanalysefromjiebaimportpossegtxt=u'''在文学的海洋中，有一部名为《薄雾》的小说，它犹如一颗闪耀的明珠，让人过目难忘。这部作品讲述了一段发生在上世纪初的跨越阶级的爱情故事。在这篇文学短评中，我们将探讨这部小说所展现的情感与人性，以及它
nlp培训重点-3 heine162 自然语言处理人工智能
1.文本匹配分类：loader:#-*-coding:utf-8-*-importjsonimportreimportosimporttorchimportrandomimportloggingfromtorch.utils.dataimportDataset,DataLoaderfromcollectionsimportdefaultdictfromtransformersimportBertT
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
BERT详解 comli_cn 大模型笔记 bert 人工智能深度学习
1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是前几年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用了双向Transformer作为算法的主要框架，之前的模型是从左向右输入一个文本序列，或者将l
1.4走向不同：GPT 与 BERT 的选择——两大NLP模型的深度解析少林码僧 AI大模型应用实战专栏自然语言处理 gpt bert
走向不同：GPT与BERT的选择——两大NLP模型的深度解析在自然语言处理（NLP）领域，GPT（GenerativePretrainedTransformer）和BERT（BidirectionalEncoderRepresentationsfromTransformers）无疑是最具代表性和影响力的两个模型。它们都基于Transformer架构，但在设计理念、任务应用和训练方式等方面存在显著差
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
NLP-语义解析(Text2SQL)：技术路线【Seq2Seq、模板槽位填充、中间表达、强化学习、图网络】 u013250861 #自然语言处理人工智能
目前关于NL2SQL技术路线的发展主要包含以下几种:Seq2Seq方法：在深度学习的研究背景下,很多研究人员将Text-to-SQL看作一个类似神经机器翻译的任务,主要采取Seq2Seq的模型框架。基线模型Seq2Seq在加入Attention、Copying等机制后,能够在ATIS、GeoQuery数据集上达到84%的精确匹配,但是在WikiSQL数据集上只能达到23.3%的精确匹配,37.0%
开源人工智能模型框架：探索与实践 CodeJourney. 人工智能能源
摘要本文深入探讨了开源人工智能模型框架，旨在为研究人员、开发者及相关从业者提供全面的理解与参考。通过对多个主流开源框架，如TensorFlow、PyTorch、Keras、Detectron2、OpenCV、HuggingFaceTransformers、AllenNLP、MindSpore和Fastai的详细分析，阐述其特点、应用场景、优势与不足，并结合具体示例说明其使用方法，同时配以相关架构图
大规模语言模型从理论到实践大语言模型预训练数据 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践：大语言模型预训练数据关键词：大规模语言模型、预训练数据、数据集选择、数据清洗、数据增强、数据集评估、数据集扩展1.背景介绍1.1问题的由来随着深度学习和大规模神经网络的发展，大型语言模型（LargeLanguageModels,LLMs）成为了自然语言处理（NLP）领域的一项突破性技术。LLMs能够生成流畅且具有上下文关联性的文本，这得益于它们在海量文本数据上的预训练。
微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
不能否认，微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的，一如ChatGPT在NLP领域的随心所欲，予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术，其影响力由此可见一斑，仅有的白璧微瑕之处就是价格略高，虽然国内也可以使用科大讯飞语音合成进行平替，但我们只想要最好的那一个，本次我们使用免费的开源库edge-tts来实现文本转语
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

CS224N刷题——Assignment3.1_A window into NER

Assignment #3

A primer on named entity recognition

1.A window into NER

你可能感兴趣的:(NLP,CS224N)