自然语言处理系列二十二》词性标注》词性标注原理》词性介绍

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

  • 自然语言处理系列二十二
    • 词性标注
      • 词性介绍
  • 总结

自然语言处理系列二十二

词性标注

词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。
词性标注可以由人工或特定算法完成,使用机器学习(machine learning)方法实现词性标注是自然语言处理(Natural Language Processing, NLP)的研究内容。常见的词性标注算法包括隐马尔可夫模型(Hidden Markov Model, HMM)、条件随机场(Conditional random fields, CRFs)等。词性标注主要被应用于文本挖掘(text mining)和NLP领域,是各类基于文本的机器学习任务,例如语义分析(semantic analysis)和指代消解(coreference resolution)的预处理步骤。下面我们分别从原理和实战工具给大家详细讲解。

词性介绍

词性指以词的特点作为划分词类的根据。词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果,现代汉语的词可以分为13种词类。从组合和聚合关系来说,一个词类是指:在一个语言中,众多具有相同句法功能、能在同样的组合位置中出现的词,聚合在一起形成的范畴。词类是最普遍的语法的聚合。词类划分具有层次性。如汉语中,词可以分成实词和虚词,实词中又包括体词、谓词等,体词中又可以分出名词和代词等。
1.词类区分
词类根据表示实际意义以及语法结构可以分为实词和虚词,按照是否吸收其它词性的词分为开放词类和闭合词类(例如汉语的动词可以直接作为“某种动作的名字”当成名词使用,所以汉语的名词是一个开放词类)。以上大类以下还可以按照词的具体用法和功能分为小类。
2.实词
实词是表示具体概念的词,实词以下分为:
1)名词
名词表示实体和概念名称的词。在大多数屈折语中,名词有以下性质:
性:对于大多数印欧语言都分——或部分地分——阴,阳,中;一些小语种用“动物性”或“非动物性”区分词性,如格鲁吉亚语。某些语言还有更多分类方式,或交叉地采用上述的分类方式
数:表示物体是单个,特定的几个或多个,即单数或复数。有些语种包括双数等特定数的词法
格:表示名词在句子中的成分,即主格(第一格),与格(第二格),属格(第三格),宾格(第四格)等。部分语言如希腊语,俄语等还分更多的词格。
在屈折语中,需要注意主谓一致,即谓语的形式需要根据主语的性和数屈折变化。
2)代词
代词是在句子结构中代替其它词的词,包括人称代词(代替某一人称人或事物的词,如“你”,“我”,“他”),疑问代词(包括“5W1H”),指示代词(“这”,“那”等)。代表名词的代词通常也具有名词的性,数,格规律。
3)动词
动词表示动作的词。根据是否带宾语可以分为“及物”与“不及物”,“及物动词”以下还包括“双宾语动词(他给了我一块糖中的“给”需要“我”和“糖”两个宾语)”和“双及物动词(需要宾语和补语的动词,例如“他觉得我很好”需要“我”这个宾语和“很好”这个描述性的补语)”,有些语言存在不需要主语的动词(尤其是表天气的词如“下雪了”这一说法中,英语必须有it这个主语,汉语和西班牙语则不需要),有些涉及到“交易”的动词需要三个宾语:Pat1sold Chris2a lawnmower3for $204。
表示“某种动作的名称”的词称作“动名词”,在某些语言中有特定的词法。
在屈折语中,动词根据时态(过去时,现在时,将来时,一般动作,进行时,完成时,及其交叉)和语态(主动,被动)变化。
4)形容词
形容词用来修饰名词,表示人或事物的性质、状态、特征或属性的词。在屈折语中形容词根据所修饰的词语性质屈折变化。
5)数词
数词表示数量(基数词)和序数(序数词)的词。
6)量词
量词(measure word/numeral classifier/counter word)是表示数量单位的词。汉语和日语在大多数描述数量的语境下都使用“数词+量词”构成的数量短语。
量词下面还分为“数量词”(表示可数名词数量单位的词,如“个”,“条”等),“体量词”(表示一个整体的不可数名词的数量单位的词,如“堆”),“动量词”(表示动作次数的词,如“下”,“次”等)。
英语对不特定数目的物使用“集合名词”,如“一叠纸”(a stack of paper)中的“叠”属于集合名词。
7)区别词
区别词是一类不能单独充当谓语的“形容词”,即不能不加助词地组成“S是V”句子的形容词。每个区别词通常有一个反义词,表示互相对立的两种属性之一。区别词通常可以后加“的”组成“的字短语”作为谓语。
3.虚词
虚词泛指没有完整意义的词汇,但有语法意义或功能的词。具有必须依附于实词或语句,表示语法意义、不能单独成句,不能单独作语法成分、不能重叠的特点。虚词有以下几种:
1)副词
副词修饰动词,表示动作的特征,状态等的词。有些副词是形容词变化而来的,实际地表示动作的特征状态等(如大多数“形容词+地”格式的副词短语和英文以“形容词+ly”构成的副词),有些副词特别地构成句法成分。
2)介词
介词用在句子的名词成分之前,说明该成分与句子其它成分关系的词。
3)连词
连词连接两句话,表示其中逻辑关系的词。
4)助词
助词表示语气,句子结构和时态等语法和逻辑性的“小词”。在有词语屈折的语言中助词一般不屈折。
5)叹词
叹词表示感叹的小词,通常独立成句。不少粗话都以叹词的形式独立存在。
6)拟声词
拟声词是模拟声音的小词,如“砰”“啪”等。英语中某些拟声词同时也是“表示这种声音的名词”,如“roar”既是摹仿动物的吼声的拟声词,又是名词“吼叫”。

对词性了解后,我们下一步就需要从一个完整的句子中怎么把词性标注和识别出来,这就会用到算法,接下面我们介绍三种算法:HMM感知机CRF

总结

此文章有对应的配套视频,其它更多精彩文章请大家下载充电了么app,可获取千万免费好课和文章,配套新书教材请看陈敬雷新书:《分布式机器学习实战》(人工智能科学与技术丛书)

【新书介绍】
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目

【新书介绍视频】
分布式机器学习实战(人工智能科学与技术丛书)新书【陈敬雷】
视频特色:重点对新书进行介绍,最新前沿技术热点剖析,技术职业规划建议!听完此课你对人工智能领域将有一个崭新的技术视野!职业发展也将有更加清晰的认识!

【精品课程】
《分布式机器学习实战》大数据人工智能AI专家级精品课程

【免费体验视频】:
人工智能百万年薪成长路线/从Python到最新热点技术

从Python编程零基础小白入门到人工智能高级实战系列课

视频特色: 本系列专家级精品课有对应的配套书籍《分布式机器学习实战》,精品课和书籍可以互补式学习,彼此相互补充,大大提高了学习效率。本系列课和书籍是以分布式机器学习为主线,并对其依赖的大数据技术做了详细介绍,之后对目前主流的分布式机器学习框架和算法进行重点讲解,本系列课和书籍侧重实战,最后讲几个工业级的系统实战项目给大家。 课程核心内容有互联网公司大数据和人工智能那些事、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)、就业/面试技巧/职业生涯规划/职业晋升指导等内容。

【充电了么公司介绍】

充电了么App是专注上班族职业培训充电学习的在线教育平台。

专注工作职业技能提升和学习,提高工作效率,带来经济效益!今天你充电了么?

充电了么官网
http://www.chongdianleme.com/

充电了么App官网下载地址
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下:

【全行业职位】 - 专注职场上班族职业技能提升

覆盖所有行业和职位,不管你是上班族,高管,还是创业都有你要学习的视频和文章。其中大数据智能AI、区块链、深度学习是互联网一线工业级的实战经验。

除了专业技能学习,还有通用职场技能,比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等,全方位提高你的专业水平和整体素质。

【牛人课堂】 - 学习牛人的工作经验

1.智能个性化引擎:

海量视频课程,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习课程。

2.听课全网搜索

输入关键词搜索海量视频课程,应有尽有,总有适合你的课程。

3.听课播放详情

视频播放详情,除了播放当前视频,更有相关视频课程和文章阅读,对某个技能知识点强化,让你轻松成为某个领域的资深专家。

【精品阅读】 - 技能文章兴趣阅读

1.个性化阅读引擎:

千万级文章阅读,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习文章。

2.阅读全网搜索

输入关键词搜索海量文章阅读,应有尽有,总有你感兴趣的技能学习文章。

【机器人老师】 - 个人提升趣味学习

基于搜索引擎和智能深度学习训练,为您打造更懂你的机器人老师,用自然语言和机器人老师聊天学习,寓教于乐,高效学习,快乐人生。

【精短课程】 - 高效学习知识

海量精短牛人课程,满足你的时间碎片化学习,快速提高某个技能知识点。

上一篇:自然语言处理系列二十一》词性标注》词性标注原理
下一篇:自然语言处理系列二十三》词性标注》词性标注原理》HMM词性标注

你可能感兴趣的:(大数据,算法,人工智能,算法,分布式,大数据,编程语言,机器学习)