coursera NLP学习笔记之week1课程介绍&基础的文本处理

NLP简介

NLP的任务:1、问题回答(question answering)2、信息提取(information extraction)3、信息提取和情感分析(information extraction & sentiment analysis)4、机器翻译(machine translation) 

NLP研究状况:一、{1、垃圾右键识别(spam detection)2、词性标注(part of speechtagging)3、命名实体识别(NER named entity recognition)}已经解决(mostly solved)

    二、{1、情感分析 2、指代消解 (coreference resolution) 3 词义消歧(word sense disambiguation(WSD))4、句子解析(parsing) 5、机器翻译(machine translation) 6 、信息提取(information extraction)}已取得很大进展。

    三、{1、问答系统 (question answering)2、意译(paraphrase)3、总结(summarization)4、对话系统(dialog)}比较困难

基本的文本处理

一、正则表达式

1、匹配邮件地址     [a-zA-Z0-9][^ \t\n\f\r\"<>|()\u00A0]*@([^ \t\n\f\r\"<>|().\u00A0]+\.)+[a-zA-Z]{2,4} (主要是理解正则表达式的原理)

  [email protected]
[email protected]
[email protected]
[email protected]

2、匹配电话号码 (\([0-9]{3}\)[ \u00A0]?|[0-9]{3}[\- \u00A0.])[0-9]{3}[\- \u00A0.][0-9]{4}(\u00A0表示无间断空白)

+1-650-723-0293
(650) 723-0293
650-723-0293

3、单词正则化和词干化(word normalization and stemming)

1、Normalization

需要正则化的项目有:信息提取(Information Retrieval)indexed text & query terms must have same form

         我们隐含的定义等价类的术语   We implicitly define equivalence classes of terms(这个有些不懂不知道什么意思)

一个替代方案:非对称扩张 Alternative: asymmetric expansion    例子:当我们搜索window的时候搜索的不仅是window还有windows,甚至还有door。

正则化可能更为强大,但是效率较低。

2、大写字母转换为小写(case folding )

在IR中经常会把大写字母变为小写以便于处理,但是对于情感分析和机器翻译来说字母的大小写是很有用的一个特征。

3、词形还原(lemmatization)

am,are is --> be   car,cars,car's,cars' ---> car    the boy's cars are different  colors --> the boy car be different color

 如果进行词形还原的话,必须找到对的原形。

4、形态学(Morphology)

语素:组成单词的最小的有意义的单元

词干:核心含义单元

词缀:词干的附属或者说叫点缀(Affixes: Bits and pieces that adhere to stems)期待更好翻译

5、stemming

词干化是指粗略的把单词的后缀给去除掉。

示例:coursera NLP学习笔记之week1课程介绍&基础的文本处理_第1张图片

波特词干化算法:

coursera NLP学习笔记之week1课程介绍&基础的文本处理_第2张图片


这个代码google一下很多的。

做了课程安排的作业感觉学到了不少东西,最主要的是让自己耐心下来了。第一篇,继续努力加油吧!


你可能感兴趣的:(NLP,NLP,Tokenize,正则表达式)