Miracle8070

【NLP CS224N笔记】Assignment 1 - Exploring Word Vectors

作业来源：https://github.com/xixiaoyao/CS224n-winter-together

1. 写在前面

这篇文章是CS224N课程的第一个大作业，主要是对词向量做了一个探索，并直观的感受了一下词嵌入或者词向量的效果。这个作业不难，感兴趣的可以玩一下。这里简单的记录一下我探索的一个过程。这篇文章基于第一节课的笔记理论【NLP CS224N笔记】Lecture 1 - Introduction and Word Vectors

这个大作业分为两部分，第一部分是基于计数的单词词向量，这个的灵感就是在相似的上下文中我们一般会使用意思相似的单词(同义词），因此，意思相近的单词会通过上下文的方式在一起出现。通过检查这些上下文，我们可以尝试把单词用词向量的方式表示出来，一种简单的方式就是依赖于单词在一起出现的次数，所以就得到了一种叫做共现矩阵的策略，这是一个基于单词频数的词向量矩阵，所以第一部分主要看看这个共现矩阵应该怎么算。而第二部分，是基于词向量的预测，是利用了已经训练好的一个词向量矩阵去介绍一下怎么进行预测，比如可视化这些词向量啊，找同义词或者反义词啊，实现单词的类比关系啊等等。下面就来一一简单的看看吧。

大纲如下：

实验前的准备工作(导入包和语料库)
Part1: Count-Based Word Vectors
Part2: Prediction-Based Word Vectors

Ok, let’s go!

2. 实验前的准备工作

做实验之前，我们要导入用到的包：

import sys
assert sys.version_info[0]==3
assert sys.version_info[1] >= 5

from gensim.models import KeyedVectors  # KeyedVectors:实现实体（单词、文档、图片都可以）和向量之间的映射。每个实体由其字符串id标识。
from gensim.test.utils import datapath
import pprint     #  输出的更加规范易读
import matplotlib.pyplot as plt  
plt.rcParams['figure.figsize'] = [10, 5]  #  plt.rcParams主要作用是设置画的图的分辨率，大小等信息
import nltk
nltk.download('reuters')    # 这个可以从GitHub下载， 网址：https://github.com/nltk/nltk_data/tree/gh-pages/packages/corpora
from nltk.corpus import reuters
import numpy as np
import random
import scipy as sp
from sklearn.decomposition import TruncatedSVD
from sklearn.decomposition import PCA

START_TOKEN = ''
END_TOKEN = ''

np.random.seed(0)
random.seed(0)

这里面的Reuters是路透社(商业和金融新闻)语料库，是一个词库，语料库包含10788个新闻文档，共计130万词。这些文档跨越90个类别，分为train和test，我们这次需要用其中的一个类别(crude)里面的句子。

这里说一下这个词库导入过程中我这边出现的问题，如果是直接运行这两行代码：

import nltk
nltk.download('reuters')    # 这个可以从GitHub下载， 网址：https://github.com/nltk/nltk_data/tree/gh-pages/packages/corpora

我这边会报错：

所以这个语料库我是先从GitHub上进行的下载，然后再导入进去。如果也遇到了这个问题，可以尝试单独下载这个语料库nltk_data, 进入之后，找到retuters.zip，点击下载。当然如果点击下载后再报一个错误：

这个错误就是即使展开详情这块也发现没法访问，这个的解决方式就是在chrome浏览器地址栏输入chrome://net-internals/#hsts，找到 delete domain security policies 项，输入域名：github.com (注意这个地方输入的是无法访问的那个网址，这里是拿github.com做个演示，这次实际上是raw.githubbusercontent.com)，再点击delete。就可以正常访问了。但是我这边竟然还是没法连接raw.githubusercontent.com。所以就通过

这样，就可以下载预料库了，下载下来之后，再简单说一下保存：保存的话这几个位置选一个：

还要切记一点的是得先建一个"corpora"文件夹，放这里面

这样就OK了。然后就是采用下面的函数，导入这个语料库：

def read_corpus(category="crude"):
    """ Read files from the specified Reuter's category.
        Params:
            category (string): category name
        Return:
            list of lists, with words from each of the processed files
    """
    files = reuters.fileids(category)    # 类别为crude文档
    # 每个文档都转化为小写， 并在开头结尾加标识符
    return [[START_TOKEN] + [w.lower() for w in list(reuters.words(f))] + [END_TOKEN] for f in files]

这个是导入语料库的函数，简单的进行了一下预处理，就是在每句话的前面和后面各加了一个标识符，表示句子的开始和结束，然后把每个单词分开。下面导入并看一下效果：

# pprint模块格式化打印
# pprint.pprint(object, stream=None, indent=1, width=80, depth=None, *, compact=False)
# width：控制打印显示的宽度。默认为80个字符。注意：当单个对象的长度超过width时，并不会分多行显示，而是会突破规定的宽度。
# compact：默认为False。如果值为False，超过width规定长度的序列会被分散打印到多行。如果为True，会尽量使序列填满width规定的宽度。
reuters_corpus = read_corpus()
pprint.pprint(reuters_corpus[:1], compact=True, width=100)  # compact 设置为False是一行一个单词

每个句子处理后长这样：

有了这个准备工作之后，就可以看看两个部分了。

3. PART 1： Count-Based Word Vectors

这部分的灵感上面已经说过，共现矩阵是实现这种词向量的一种方式，我们看看共现矩阵是什么意思？共现矩阵计算的是单词在某些环境下一块出现的频率，对于共现矩阵，原文描述是这样的：

上面的话其实就是这样的一个意思，要想建立共现矩阵，我们需要先为单词构建一个词典，然后共现矩阵的行列都是这个词典里的单词，看下面这个例子：

上面基于这两段文档构建出的共现矩阵长这样，这个是怎么构建的？首先就是根据两个文档的单词构建一个词典，这里面的数就是两两单词在上下文中共现的频率，比如第一行， START和all一起出现了两次，这就是因为两个文档里面START的窗口中都有all。同理第二行all的那个，我们也固定一个窗口，发现第一个文档里面all左边是START，右边是that，第二个文档all左边是START，右边是is, 那么=2, =1, =1。下面的都是同理了。

我们就是要构建这样的一个矩阵来作为每个单词的词向量，当然这个还不是最终形式，因为可能词典很大的话维度会特别高，所以就相当了降维技术，降维之后的结果就是每个单词的词向量。这个里面使用的降维是SVD, 原理这里不说，这里使用了Truncated SVD，具体的实现是调用了sklearn中的包。

所以我们就有了下面的这样一个思路框架：

对于语录料库中的文档单词，得先构建一个词典（唯一单词且排好序）
然后我们就是基于词典和语料库，为每个单词构建词向量，也就是共现矩阵
对共现矩阵降维，就得到了最终的词向量
可视化

好了，基于上面的思路开始实现：

3.1 为语料库中的单词构建词典

我们知道词典就是记录所有的单词，但是单词唯一且有序。那么实现这个词典的思路就是我遍历每一篇文档，先获得所有的单词，然后去掉重复的，然后再排序就搞定，当然还得记录字典里的单词总数。基于这个思路，就有了下面的代码实现：

# 计算出语料库中出现的不同单词，并排序。
def distinct_words(corpus):
    """ Determine a list of distinct words for the corpus.
        Params:
            corpus (list of list of strings): corpus of documents
        Return:
            corpus_words (list of strings): list of distinct words across the corpus, sorted (using python 'sorted' function)
            num_corpus_words (integer): number of distinct words across the corpus
    """
    corpus_words = []
    num_corpus_words = -1
    
    # ------------------
    # Write your implementation here.
    # 首先得把所有单词放到一个列表里面, 然后用set去重， 然后排序
    for everylist in corpus:
        corpus_words.extend(everylist)
    corpus_words = sorted(set(corpus_words))
    num_corpus_words = len(corpus_words)
    # ------------------

    return corpus_words, num_corpus_words

这里只是用了一种获得单词列表的方式，还可以用列表推导式的方式：

flattened_list = [word for every_list in corpus for word in every_list]  # 展平成一维
corpus_words = sorted(set(flattened_list))  # set去重，sorted排序
num_corpus_words = len(corpus_words)  # 字典总数

词典建成，下面就是构建共现矩阵了。

3.2 构建共现矩阵

这个依然是简单说一下思路，上面已经说了共现矩阵的原理了，就是记录一块出现的频数嘛，那么具体实现是咋样的呢？

首先我们得定义一个M矩阵，也就是共现矩阵，大小就是行列都是词典的单词个数（上面图片一目了然），然后还得定义一个字典单词到索引的映射，因为我们统计的时候是遍历真实文档，而填矩阵的时候是基于字典，这两个是基于同一个单词进行联系起来的，所以我们需要获得真实文档中单词在字典里面的索引才能去填矩阵。所以有了下面这几行代码：

def compute_co_occurrence_matrix(corpus, window_size=4):
    """ Compute co-occurrence matrix for the given corpus and window_size (default of 4).
    
        Note: Each word in a document should be at the center of a window. Words near edges will have a smaller
              number of co-occurring words.
              
              For example, if we take the document "START All that glitters is not gold END" with window size of 4,
              "All" will co-occur with "START", "that", "glitters", "is", and "not".
    
        Params:
            corpus (list of list of strings): corpus of documents
            window_size (int): size of context window
        Return:
            M (numpy matrix of shape (number of corpus words, number of corpus words)): 
                Co-occurence matrix of word counts. 
                The ordering of the words in the rows/columns should be the same as the ordering of the words given by the distinct_words function.
            word2Ind (dict): dictionary that maps word to index (i.e. row/column number) for matrix M.
    """
    words, num_words = distinct_words(corpus)   # 单词已经去重或者排好序  
    M = None
    word2Ind = {}
    
    # ------------------
    # Write your implementation here.
    word2Ind = {k: v for (k, v) in zip(words, range(num_words))}
    M = np.zeros((num_words, num_words))

接下来就是填充共现矩阵了，思路是这样子，我们遍历每一篇文档，对于每一篇文档，我们遍历每个单词，对于每个单词，我们先获得在字典中的索引，然后去找以这个单词为中心词的窗口范围，这样就找到了这个单词的上下文，然后对于每个上下文单词，在共现矩阵里面计数就可以了。所以这里每个单词会有两个索引，一个是字典里面的索引，一个是文档里面的索引，前者是为了把一起共现的单词次数填充到共现矩阵里面，后者是为了找到上下文。下面的代码接上面（注释感觉写的挺明白了）：

	# 接下来是遍历语料库 对于每一篇文档， 我们得遍历每个单词
    # 对于每个单词， 我们得找到窗口的范围， 然后再去遍历它窗口内的每个单词
    # 对于这每个单词， 我们就可以在我们的M词典中进行计数， 但是要注意每个单词其实有两个索引
    # 一个是词典里面的索引， 一个是文档中的索引， 我们统计的共现频率是基于字典里面的索引， 
    # 所以这里涉及到一个索引的转换
    
    # 首先遍历语料库
    for every_doc in corpus:
        for cword_doc_ind, cword in enumerate(every_doc):  # 遍历当前文档的每个单词和在文档中的索引
            # 对于当前的单词， 我们先找到它在词典中的位置
            cword_dic_ind = word2Ind[cword]
            
            # 找窗口的起始和终止位置  开始位置就是当前单词的索引减去window_size, 终止位置
            # 是当前索引加上windo_size+1， 
            window_start = cword_doc_ind - window_size
            window_end = cword_doc_ind + window_size + 1
            
            # 有了窗口， 我们就要遍历窗口里面的每个单词， 然后往M里面记录就行了
            # 但是还要注意一点， 就是边界问题， 因为开始单词左边肯定不够窗口大小， 结束单词
            # 右边肯定不够窗口大小， 所以遍历之后得判断一下是不是左边后者右边有单词
            for j in range(window_start, window_end):
                # 前面两个条件控制不越界， 最后一个条件控制不是它本身
                if j >=0 and j < len(every_doc) and j != cword_doc_ind:
                    # 想办法加入到M， 那么得获取这个单词在词典中的位置
                    oword = every_doc[j]   # 获取到上下文单词
                    oword_dic_ind = word2Ind[oword]
                    # 加入M
                    M[cword_dic_ind, oword_dic_ind] += 1
    # ------------------

    return M, word2Ind

通过上面的代码，就实现了共现矩阵的构建。下面就简单了，实现降维

3.3 降到k维

降维直接调用的包sklearn.decomposition.TruncatedSVD.

def reduce_to_k_dim(M, k=2):
    """ Reduce a co-occurence count matrix of dimensionality (num_corpus_words, num_corpus_words)
        to a matrix of dimensionality (num_corpus_words, k) using the following SVD function from Scikit-Learn:
            - http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html
    
        Params:
            M (numpy matrix of shape (number of corpus words, number of corpus words)): co-occurence matrix of word counts
            k (int): embedding size of each word after dimension reduction
        Return:
            M_reduced (numpy matrix of shape (number of corpus words, k)): matrix of k-dimensioal word embeddings.
                    In terms of the SVD from math class, this actually returns U * S
    """    
    n_iters = 10     # Use this parameter in your call to `TruncatedSVD`
    M_reduced = None
    print("Running Truncated SVD over %i words..." % (M.shape[0]))
    
        # ------------------
        # Write your implementation here.
    svd = TruncatedSVD(n_components=k, n_iter=n_iters, random_state=2020)
    M_reduced = svd.fit_transform(M)
        # ------------------

    print("Done.")
    return M_reduced

这个就不用解释了，通过降维就可以得到每个单词的词嵌入向量，我们可以通过下面的代码可视化一下，这里介绍matplotlib的画图文档https://matplotlib.org/gallery/index.html：

def plot_embeddings(M_reduced, word2Ind, words):
    """ Plot in a scatterplot the embeddings of the words specified in the list "words".
        NOTE: do not plot all the words listed in M_reduced / word2Ind.
        Include a label next to each point.
        
        Params:
            M_reduced (numpy matrix of shape (number of unique words in the corpus , k)): matrix of k-dimensioal word embeddings
            word2Ind (dict): dictionary that maps word to indices for matrix M
            words (list of strings): words whose embeddings we want to visualize
    """

    # ------------------
    # Write your implementation here.
    # 遍历句子， 获得每个单词的x，y坐标
    for word in words:
        word_dic_index = word2Ind[word]
        x = M_reduced[word_dic_index][0]
        y = M_reduced[word_dic_index][1]
        plt.scatter(x, y, marker='x', color='red')
        # plt.text()给图形添加文本注释
        plt.text(x+0.0002, y+0.0002, word, fontsize=9)  # # x、y上方0.002处标注文字说明，word标注的文字，fontsize：文字大小
    plt.show()
    # ------------------

3.4 把上面的过程综合起来：

简单的回忆下上面过程，首先是读入数据，然后计算共现矩阵，然后是降维，最后是可视化：

reuters_corpus = read_corpus()
M_co_occurrence, word2Ind_co_occurrence = compute_co_occurrence_matrix(reuters_corpus)
M_reduced_co_occurrence = reduce_to_k_dim(M_co_occurrence, k=2)

# Rescale (normalize) the rows to make them each of unit-length
M_lengths = np.linalg.norm(M_reduced_co_occurrence, axis=1)
M_normalized = M_reduced_co_occurrence / M_lengths[:, np.newaxis] # broadcasting

words = ['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'venezuela']
plot_embeddings(M_normalized, word2Ind_co_occurrence, words)

结果如下：

还是可以看出点相近来哈，比如oil和energy， peteroleum与industry等。这就是第一部分的内容啦。

4. PART 2: Prediction-Based Word Vectors

4.1 可视化Word2Vec训练的词嵌入

这一部分其实是利用了一个用Word2Vec技术训练好的词向量矩阵去测试一些有趣的效果，看看词向量到底是干啥用的。所以用gensim包下载了一个词向量矩阵：

def load_word2vec():
    """ Load Word2Vec Vectors
        Return:
            wv_from_bin: All 3 million embeddings, each lengh 300
    """
    import gensim.downloader as api
    wv_from_bin = api.load("word2vec-google-news-300")
    vocab = list(wv_from_bin.vocab.keys())
    print("Loaded vocab size %i" % len(vocab))
    return wv_from_bin

当然这行代码运行时间很长。有了这个代码，我们就能得到一个基于Word2Vec训练好的词向量矩阵（和上面我们的M矩阵是类似的，只不过得到的方式不同），接下来就是进行降维并可视化词嵌入：

def get_matrix_of_vectors(wv_from_bin, required_words=['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'venezuela']):
    """ Put the word2vec vectors into a matrix M.
        Param:
            wv_from_bin: KeyedVectors object; the 3 million word2vec vectors loaded from file
        Return:
            M: numpy matrix shape (num words, 300) containing the vectors
            word2Ind: dictionary mapping each word to its row number in M
    """
    import random
    words = list(wv_from_bin.vocab.keys())
    print("Shuffling words ...")
    random.shuffle(words)
    words = words[:10000]       # 选10000个加入
    print("Putting %i words into word2Ind and matrix M..." % len(words))
    word2Ind = {}
    M = []
    curInd = 0
    for w in words:
        try:
            M.append(wv_from_bin.word_vec(w))
            word2Ind[w] = curInd
            curInd += 1
        except KeyError:
            continue
    for w in required_words:
        try:
            M.append(wv_from_bin.word_vec(w))
            word2Ind[w] = curInd
            curInd += 1
        except KeyError:
            continue
    M = np.stack(M)
    print("Done.")
    return M, word2Ind

# -----------------------------------------------------------------
# Run Cell to Reduce 300-Dimensinal Word Embeddings to k Dimensions
# Note: This may take several minutes
# -----------------------------------------------------------------
M, word2Ind = get_matrix_of_vectors(wv_from_bin)
M_reduced = reduce_to_k_dim(M, k=2)         # 减到了2维

words = ['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'venezuela']
plot_embeddings(M_reduced, word2Ind, words)

结果如下：

4.2 余弦相似性

我们已经得到了每个单词的词向量表示，那么怎么看两个单词的相似性程度呢？余弦相似性是一种方式，公式如下：
$\frac{p \cdot q}{||p|| ||q||}, \textrm{ where } s \in [-1, 1]$
这个详细的的可以参考： Cosine Similarity

基于这个方式，我们就可以找到单词的多义词，同义词，反义词还能实现单词的类比推理等好玩的事情。所以下面主要是介绍一下实现这些好玩事情的方法，毕竟这里是直接调用的gensim的函数。

比如，我们找和某个单词最相近的10个单词：
可以使用gensim里面的most_similar函数， GenSim documentation

# 找和energy最相近的10个单词
wv_from_bin.most_similar("energy")

##结果
[('renewable_energy', 0.6721636056900024),
 ('enery', 0.6289607286453247),
 ('electricity', 0.6030439138412476),
 ('enegy', 0.6001754403114319),
 ('Energy', 0.595537006855011),
 ('fossil_fuel', 0.5802257061004639),
 ('natural_gas', 0.5767925381660461),
 ('renewables', 0.5708995461463928),
 ('fossil_fuels', 0.5689164996147156),
 ('renewable', 0.5663810968399048)]

再比如，为我们可以找同义词和反义词：

w1 = "man"
w2 = "king"
w3 = "woman"
w1_w2_dist = wv_from_bin.distance(w1, w2)
w1_w3_dist = wv_from_bin.distance(w1, w3)

print("Synonyms {}, {} have cosine distance: {}".format(w1, w2, w1_w2_dist))
print("Antonyms {}, {} have cosine distance: {}".format(w1, w3, w1_w3_dist))

## 结果：
Synonyms man, king have cosine distance: 0.7705732733011246
Antonyms man, woman have cosine distance: 0.2335987687110901

还可以实现类比关系：
比如： China : Beijing = Japan : ?，那么我们可以用下面的代码求这样的类别关系，注意下面的positive和negative里面的单词顺序，我们求得？其实和Japan和Beijing相似，和China远。

# Run this cell to answer the analogy -- man : king :: woman : x
pprint.pprint(wv_from_bin.most_similar(positive=['Bejing', 'Japan'], negative=['China']))

## 结果：
[('Tokyo', 0.6124968528747559),
 ('Osaka', 0.5791803598403931),
 ('Maebashi', 0.5635818243026733),
 ('Fukuoka_Japan', 0.5362966060638428),
 ('Nagoya', 0.5359445214271545),
 ('Fukuoka', 0.5319067239761353),
 ('Osaka_Japan', 0.5298740267753601),
 ('Nagano', 0.5293833017349243),
 ('Taisuke', 0.5258569717407227),
 ('Chukyo', 0.5195443034172058)]

5. 总结

在这里简单的小总一下，第一次大作业相对来说可能是热身阶段，所以难度上不是那么的大，不过还是挺有意思的，并且还学习到了一个共现矩阵求解词向量的方式，当然，第二节课中还会讲到这个思想，所以第一部分就是讲了一个求解词向量的方式，这个是基于统计的方式，而第二部分是Word2Vec训练好的词向量，演示了一下可以做什么事情。

今天的内容就是这些了，这次实验里面下载语料库这块如果遇到了问题，可以尝试单独下下来，然后再做。去第二节课了，继续Rush！

pytorch NLP自然语言处理入门一：文本表示 whyte王 pytorch NLP基础 pytorch 自然语言处理人工智能
开始编辑：2024/2/16；最后编辑2024/2/16教程出自：https://learn.microsoft.com/en-sg/training/modules/intro-natural-language-processing-pytorch/第二部分：https://blog.csdn.net/qq_33345365/article/details/136142152本博客旨在探讨处理自
【AI视野·今日NLP 自然语言处理论文速览第八十二期】Tue, 5 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP 预训练模型文本摘要情绪识别推理训练
AI视野·今日CS.NLP自然语言处理论文速览Tue,5Mar2024(showingfirst100of175entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersKey-Point-DrivenDataSynthesiswithitsEnhancementonMathematicalReasoningAut
【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024 hitrjj NLP LLM Papers NLP LLM 大语言模型文本处理生成模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,17Jan2024(showingfirst100of163entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeductiveClosureTrainingofLanguageModelsforCoherence,Accuracy,andUpdatab
【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型对话系统 NLP
AI视野·今日CS.NLP自然语言处理论文速览Thu,18Jan2024Totally35papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDecipheringTextualAuthenticity:AGeneralizedStrategythroughtheLensofLargeLanguageSemanticsforDetectingH
2018-03-05 baitu
使用sar和kSar来发现Linux性能瓶颈剖析内存中的程序之秘JavaEE未来路在何方？用户帐户，授权和密码管理的12个最佳实践NLP自然语言处理框架ClearTKApacheUIMAClearTKLoggingWiththeElasticStack
【NLP 自然语言处理(一)---词向量】 y_dd 深度学习自然语言处理人工智能
文章目录什么是NLP自然语言处理发展历程自然语言处理模型模型能识别单词的方法词向量分词一个向量vector表示一个词词向量的表示-one-hot多维词嵌入wordembeding词向量的训练方法CBOWSkip-gram词嵌入的理论依据一个vector（向量）表示短语或者文章vectorspaceModelbag-of-wordvectorspaceModel+bag-of-word实现信息搜索改
NLP自然语言处理实战(三):词频背后的语义--5.距离和相似度&反馈及改进 Nobitaxi NLP自然语言处理实战学习自然语言处理机器学习人工智能
目录1.距离和相似度2.反馈及改进线性判别分析1.距离和相似度我们可以使用相似度评分（或距离），根据两篇文档的表达向量间的相似度（或距离）来判断文档间有多相似。LSA能够保持较大的距离，但它并不能总保持较小的距离（文档之间关系的精细结构）。LSA底层的SVD算法的重点是使新主题向量空间中所有文档之间的方差最大化。特征向量（词向量、主题向量、文档上下文向量等）之间的距离驱动着NLP流水线或任何机器学
NLP自然语言处理-第一章NLP基础 Viterbi
第一章NLP基础在本章你将学到NLP（自然语言处理）相关的基础知识。本章要点包括：NLP基础概念NLP的发展与应用NLP常用术语以及扩展介绍1.1什么是NLP1.1.1NLP的概念NLP（NaturalLanguageProcessing，自然语言处理）是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计算机之间进行有效通讯
NLP自然语言处理 AI论道自然语言处理人工智能
随着人工智能的飞速发展，自然语言处理（NaturalLanguageProcessing，简称NLP）已经成为了AI领域的一颗璀璨明珠。NLP旨在赋予机器理解和处理人类语言的能力，这不仅仅是一项技术革新，更是一种推动人与机器交流方式根本性变革的力量。本文将对NLP进行简析，带领读者一探究竟。1、什么是自然语言处理？自然语言处理是计算机科学、人工智能和语言学交叉的一个分支学科，它涉及到让计算机能够理
NLP自然语言处理的基本语言任务介绍人生万事须自为，跬步江山即寥廓。机器学习人工智能自然语言处理人工智能机器学习
自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学、人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言。NLP的基本任务包括以下几个方面：1.分词（Tokenization）：将文本分割成单词、短语或其他有意义的元素（称为tokens）。分词是许多NLP任务的第一步。2.词性标注（Part-of-SpeechTagging）：为文本中的
【AI视野·今日NLP 自然语言处理论文速览第七十七期】Mon, 15 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 LLM 大语言模型大模型自动翻译文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,15Jan2024Totally57papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMachineTranslationModelsareZero-ShotDetectorsofTranslationDirectionAuthorsMichelleWastl,JannisVamvas,R
【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024 hitrjj LLM NLP Papers 自然语言处理大语言模型 LLM NLP
AI视野·今日CS.NLP自然语言处理论文速览Fri,12Jan2024Totally60papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAxisTour:WordTourDeterminestheOrderofAxesinICA-transformedEmbeddingsAuthorsHiroakiYamagiwa,YusukeTakas
深入浅出自然语义处理原理并构建自然语义处理(NLP)模型GPT2 「已注销」笔记深度学习人工智能 pytorch 自然语言处理神经网络
NLP自然语言处理，GPT2模型1、词向量在图像的处理中，我们无需对图像进行特殊的处理，因为图像本身就是由矩阵来表示的。而处理自然语言的时候，语言是由每一个字、词组成的。而字、词是通过编码存储在计算机当中的。所以我们可以通过将字、词编码成为向量的形式，如此就可以输入进深度学习网络模型中。但是我们应该如何去编码呢？像做图像分类那样，使用one—hot的形式编码？但是这样会存在一个问题，在自然语言中，
NLP自然语言处理介绍 love6a6 nlp
自然语言处理（NaturalLanguageProcessing，NLP）是一种通过计算机技术与人类语言交互的研究领域。它致力于使计算机能够理解、解析、处理和生成人类语言，以实现人机之间的自然语言交流。NLP涉及多个技术和方法，包括语音识别、文本分析、语义理解、机器翻译、情感分析等。通过这些技术，NLP可以处理和分析大量的文本数据，识别文本中的关键信息和结构，并从中提取出有用的知识和洞察。NLP在
分享一个“产业级，开箱即用”的NLP自然语言处理工具李楷杰自然语言处理人工智能
NLP的全称是NatuarlLanguageProcessing，中文意思是自然语言处理，是人工智能领域的一个重要方向自然语言处理（NLP）的一个最伟大的方面是跨越多个领域的计算研究，从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机如何准确并快速地处理大量的自然语言语料库。什么是自然语言语料库？它是用现实世界语言表达的语言学习，是从文本和语言与另一种
【AI视野·今日NLP 自然语言处理论文速览第七十五期】Thu, 11 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Thu,11Jan2024Totally36papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLeveragingPrintDebuggingtoImproveCodeGenerationinLargeLanguageModelsAuthorsXueyuHu,KunKuang,JiankaiSun
NLP自然语言处理原理应用讲解打工人何苦为难打工人 nlp
自然语言处理（NLP）是人工智能领域中研究如何让计算机理解和处理人类自然语言的一门学科。它的应用广泛，例如在搜索引擎、聊天机器人、机器翻译等领域中都发挥了重要的作用。NLP的基本原理是通过对大量的语料库进行训练，让计算机学习到语言的语法、语义、上下文等信息，从而能够理解人类的语言。在处理自然语言时，NLP需要先将文本转换成一系列的符号，然后对这些符号进行分析和处理，最后将这些处理结果转换成机器可以
rnn相关爱学习的羽 workHappy pytorch rnn 人工智能深度学习
构成比之前多了一个圈这个圈包含t时刻之前的数据特征，主要用在NLP自然语言处理中。只用最后一个结果ht，前面的当做中间结果特点会把之前看到的都记下来，但第n句话和第一句话之间联系不太大，没必要LSTM自然语言处理考虑词的前后顺序和相关性构建词向量，不断向后滑动学习cbow和skip-gram方法cbow输入上下文，输出预测最中间的位置的词skip-gram输入中间的词，输出预测的上下文改进方法加入
NLP自然语言处理实战 AI论道自然语言处理人工智能
一、自然语言处理的概念1.1自然语言处理的起源语言是人类社会发展过程的产物，是最能体现人类智慧和文明的证明，也是人类与动物最大的区别。它是一种人与人交流的载体，像计算机网络一样，我们使用语言相互传递知识。在人类历史的几千年，语言不断地繁衍发展。在计算机兴趣的近几十年，科学界正在试图不断努力，把人类的语言演变成分析数据特征的依据。在1970年，有两位美国人RichardBandler和JohnGri
NLP自然语言处理介绍 Dxy1239310216 nlp
自然语言处理（NLP，NaturalLanguageProcessing）是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言，从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支，也是当今社会应用广泛的领域之一。在NLP中，一个基础但关键的任务是分词。由于自然语言中的词语是由连续的字符序列组成，计算机需要将这些连续的字符切分成单独的词语或词素
NLP自然语言处理应用场景相信光的力量-哇哈里自然语言处理人工智能
NLP自然语言处理应用场景：智能客服：NLP可以用于开发智能客服系统，帮助用户解决问题，提供快速响应和个性化服务。舆情分析：NLP可以对社交媒体、新闻、评论等大量文本数据进行分析，帮助企业了解公众对其品牌、产品或服务的看法和态度。机器翻译：NLP可以用于开发机器翻译系统，实现跨语言沟通和文化交流。文本分类：NLP可以对大量文本进行分类，例如将新闻文章分类为政治、娱乐、体育等不同领域。智能搜索：NL
【AI视野·今日NLP 自然语言处理论文速览第七十二期】Mon, 8 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型数据集文本生成对比学习文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,8Jan2024Totally17papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeepSeekLLM:ScalingOpen-SourceLanguageModelswithLongtermismAuthorsDeepSeekAIXiaoBi,DeliChen,GuantingChe
【AI视野·今日NLP 自然语言处理论文速览第七十三期】Tue, 9 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM 大语言模型文本生成文本摘要代理模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,9Jan2024Totally80papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersFFSplit:SplitFeed-ForwardNetworkForOptimizingAccuracy-EfficiencyTrade-offinLanguageModelInferenceAuthor
【AI视野·今日NLP 自然语言处理论文速览第七十四期】Wed, 10 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,10Jan2024Totally38papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersModelEditingCanHurtGeneralAbilitiesofLargeLanguageModelsAuthorsJiaChenGu,HaoXiangXu,JunYuMa,PanLu,Zhen
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等代码讲故事机器人智慧之心自然语言处理人工智能 NLP Transformers 情感分析垃圾邮件语法纠错
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等。垃圾邮件是广告、欺诈或其他不相关信息的电子邮件，给我们的日常工作和生活带来了困扰。为了有效过滤和阻止垃圾邮件的到达，我们需要使用各种判断方法和技术。首先，基于匹配规则的方法是最常见的垃圾邮件判断方法之一。通过设置一系列的规则和模式，对邮件的主题、发件人、内容等进行
【AI视野·今日NLP 自然语言处理论文速览第七十期】Thu, 4 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型文本摘要价值对齐智能助手训练方法
AI视野·今日CS.NLP自然语言处理论文速览Thu,4Jan2024Totally29papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMultilingualInstructionTuningWithJustaPinchofMultilingualityAuthorsUriShaham,JonathanHerzig,RoeeAharoni
【AI视野·今日NLP 自然语言处理论文速览第六十九期】Wed, 3 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 NLP 大模型 LLM 大语言模型文本摘要文本生成
AI视野·今日CS.NLP自然语言处理论文速览Wed,3Jan2024Totally24papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAnAutoregressiveText-to-GraphFrameworkforJointEntityandRelationExtractionAuthorsZaratianaUrchade,NadiTo
【AI视野·今日NLP 自然语言处理论文速览第七十一期】Fri, 5 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM NLP 大语言模型智能诊断智能对话文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Fri,5Jan2024Totally28papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLLaMAPro:ProgressiveLLaMAwithBlockExpansionAuthorsChengyueWu,YukangGan,YixiaoGe,ZeyuLu,JiahaoWang,YeFen
【AI视野·今日NLP 自然语言处理论文速览第六十六期】Tue, 31 Oct 2023 hitrjj NLP LLM Papers 人工智能自然语言处理 NLP NLPer LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,31Oct2023(showingfirst100of141entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersTheEval4NLP2023SharedTaskonPromptingLargeLanguageModelsasExplainableMetr
【AI视野·今日NLP 自然语言处理论文速览第六十七期】Mon, 1 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM 大语言模型文本摘要智能问答生成模型
AI视野·今日CS.NLP自然语言处理论文速览Mon,1Jan2024Totally42papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersPrincipledGradient-basedMarkovChainMonteCarloforTextGenerationAuthorsLiDu,AfraAmini,LucasTorrobaHennige
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方