通过共现矩阵和余弦相似度实现机器对单词的认知、python实现

通过共现矩阵和余弦相似度实现机器对单词的认知、python实现

    • 本文介绍的定义:
    • 一、语料库预处理
    • 二、单词的分布式表示
    • 三、单词的相似度
    • 四、相似单词排序

本文介绍的定义:

语料库、计数方法的目的、语料库预处理、单词的分布式表示、分布式假设、上下文、窗口大小、基于计数的方法表示单词、用向量表示单词、共现矩阵、单词的相似度、余弦相似度、相似单词排序。

一、语料库预处理

语料库:大量的文本数据。

计数方法的目的:从语料库中提取语言的本质。

语料库预处理:将文本分割为单词,并将分割后的单词列表转化为单词ID列表。实现代码如下,其中corpus 是单词ID列表,word_to_id 是单词到单词ID的字典,id_to_word是单词ID到单词的字典。

def preprocess(text):
    text = te

你可能感兴趣的:(学习笔记,机器学习,nlp)