分词,词性标注,和命名实体识别,有什么区别?

※※先简述一下个人的理解:

分词就是把我们们的句子进行分词可以是中文也可以是英文,为了确定词与词之间的边界。

另外,词性标注命名实体识别结果都是为了标注,除了标注方式不同,个人感觉还有针对的内容不一样

词性标注词就是将词分为名词、形容词、动词等等

命名实体识别一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。

命名实体识别对于分析语句结构、信息抽取和语义理 解等有重要作用,词性标注感觉没有命名实体识别对标注语句结构、信息抽取和语义理的重要程度大。

一、分词:

分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

文本都是一些「非结构化数据」,我们需要先将这些数据转化为「结构化数据」

分词的方法大致分为 3 类:

  1. 基于词典匹配
  2. 基于统计
  3. 基于深度学习

中文和英文的分词方式不一样,大家想要了解可以去细细搜索。

二、词性标注

词性标注 (part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。

为什么要标注? 词性标注 是很多 NLP 任务的预处理步骤,如句法分析... 词性标注 :将句子中兼类词的词性根据上下文唯一地确定下来。 词性(part-of-speech)是词汇基本的语法属性,通常也称为词类。

词性标注大致分为4类:

一、基于规则的词性标注方法:

最早期的标注方式,基本思想是按兼类词搭配关系和上下文语境建造词类消歧规则。


二、基于统计模型的词性标注方法:

统计方法将词性标注看作是一个序列标注问题。其基本思想是:给定带有各自标注的词的序列,我们可以确定下一个词最可能的词性。

现在隐马尔可夫模型(HMM)、条件随机域(CRF)等统计模型了,这些模型可以使用有标记数据的大型语料库进行训练,而有标记的数据则是指其中每一个词分配正确的词性标注的文本。


三、基于统计方法规则方法结合的词性标注方法:

这类方法的主要特点在于对统计标注结果筛选只对那些被认为可疑的标注结果才采用规则方法进行歧义消解,而不是所有情况都既使用统计方法又使用规则方法。


四、基于深度学习的词性标注方法:

可以作序列标注的任务来做目前深度学习解决序列标注任务常用方法包括LSTM+CRF、BiLSTM+CRF等。


词性标注工具推荐:

Jieba,

NLTK、

SnowNLP,

THULAC,

StanfordCoreNLP、

HanLP、

SpaCy。

三、命名实体识别

实体识别(Named Entity Recognition,简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。 一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

可以看下我上篇文章的序列标注是那种方式:↓

https://blog.csdn.net/weixin_62231629/article/details/127021351?spm=1001.2014.3001.5502
 

你可能感兴趣的:(分词,词性标注,和命名实体识别,有什么区别?)