IR、NLP科普

IR、NLP科普


自然语言处理(Natural Language Processing, NLP)技术是信息检索的基础,它大致可以分为以下四个步骤: 1)文本预处理
如网页正文信息提取、去噪等。 2)句法分析
如中文分词、词性标注等。 3)语法分析
分析句子的句法结构,如一个句子中的主谓结构、动宾结构等语法成分,常用依存文法分析器就是一个语法分析工具。 4)语义分析
这步在语法分析的基础上,理解句子所蕴含的意思。
一般信息检索系统中只涉及前两个步骤,即预处理及句法分析。总的来说,上述四个步骤层层推进,对语言的理解也越来越深,且前一步骤是进行后续处理的基础,如语法分析一般在句法分析的基础上进行,句法分析的输入(分词以后的词序列)是语法分析的输入。
在信息检索过程中涉及到以下NLP技术: 1)去噪
检索任务通常面对的是网页文档,而一般网页中都会包含大量的标签(Tag)、导航信息等无用内容。我们关注的仅仅是网页的正文信息,即表达网页主题的那部分内容,其他都视为噪音。当然,对于不同的应用来说,对“噪音”的定义可能不尽相同。去噪的目的就是提取过滤掉网页那些无用的噪音信息,而仅留下正文信息供进一步处理。 2)去除停用词(Stop Words)    所谓“停用词”,一般指出现频率很高且没有实际意义的虚词,如汉中的“的”、“啊”等词,英语的“a”、“of”等词,这些词在文档中出现的频率很高,但没有实际语法语义,对检索没有多大的用处,因为一般可以过滤掉。 3)形态分析(词干化、形态还原等)
这一步主要是针对英文来说的。英文中的词根通常会衍生出很多词,如词根“stop”经变化可以衍生出“stopped”、“stopping”等不同的形式。在信息检索中,一般需要将不同变化的还原成其原始的形式(如上例中将“stopped”还原成“stop”),这一过程称之为词干化。 4)特征选择
检索系统面对往往是海量文本,其中包含的词可能成千上万,如果将所有词都建立索引,不仅会占用很大的存储空间,而且会降低检索的速度。此外,文本中有很多词对于表达文档的正文没有多大帮助,因此我们可以从中提取一些有代表性的词建立索引,而将其余的词忽略掉,这个过程其实就是特征选择的过程。特征选择的目的降低词空间的维度(文档集合中出现的每个Unique Term占据一维),也即降维过程。 5)中文分词
这个过程只针对中文信息处理。对于汉语句子“他从马上下来”来说,

 
很明显其想表达的语义是“他 从 马 上 下来”,但机器如何能准确切分出来呢?这便是中文分词需要解决的问题。 6)词性标注
词性标注是在分词的基础上,自动识别出每个词的词性(如代词、名词、数词等),如上例中,“他”是代词,,“从”是副词,“下来”是动词。 7)短语识别
语言中有很多固定搭配的词,它们通常表达某一个确定的意思,如“Information Retrieval”,如何识别出句子中这种具有固定搭配的短语也是NLP中的难点。
当然NLP中还包括很多其他的内容,如组块分析(Chunking)、分类(Classification)、聚类(Clustering),但上面的7个步骤是最基本、最常用,几乎所有的NLP应用中都会涉及到其中的某些步骤,因而掌握这些基本知识是进行深入的NLP处理的前提。
NOTE: 掌握上述7个步骤至关重要。
国内比较好的相关期刊: 1、三大学报
a) 软件学报(A类,EI) b) 计算机学报(A类,EI)
c) 计算机研究与发展(A类,EI) 2、中文信息学报(核心,B类)
3、模型识别与人工智能(核心,B类,EI) 4、情报学报(核心)
国内相关会议:
a) 全国搜索引擎与网上信息挖掘学术研讨会(SEWM) b) 全国信息检索学术会议(CCIR) c) 中国计算语言学学术会议(CNCCL)
英文期刊:
1、ACM Transaction
a) ACM Transactions on Information Systems (TOIS)
b) ACM Transactions on Asian Language Information Processing (TALIP): c) ACM Transactions on Knowledge Discovery from Data (TKDD) 2、IEEE Transaction
a) IEEE Transactions on Knowledge and Data Engineering  3、其他
a) Computational Linguistics and Chinese Language Processing b) Journal of Machine Learning Research c) Journal of Artificial Intelligence Research
英文会议:

 

 
1、IR、NLP相关顶级会议
a) ACM Special Interest Group on Information Retrieval(SIGIR)
b) ACM Conference on Information and Knowledge Management(CIKM) c) Annual Meeting of the Association for Computational Linguistics(ACL) d) International World Wide Web Conference(WWW) 2、机器学习相关顶级会议
a) International Conference on Machine Learning(ICML) b) The Neural Information Processing Systems (NIPS)
c) Association for the Advancement of Artificial Intelligence(AAAI) 3、其他
a) International Conference on Data Engineering(ICDM)
b) International Conference on Computational Linguistics(COLING) c) European Conference on Information Retrieval(ECIR) NOTE: 用红色标注的期刊、会议与IR、NLP领域更加相关。
学习方法:
对于一个新的领域或方向,首先下载一些比较简单且具有代表性(一般通过期刊、会议的水平来过滤)的文章来阅读,熟悉该领域中惯用的术语及涉及到的技术,然后用相关的英文关键词在Google等检索系统中查找相关的英文文献,也可以通过中文文献中所引用的文章进行查找。在ACM数据中,给出了每篇文章的引用数(Citation Count),可以通过这个指标来衡量文章的经典程度。  在对这领域有了深入的了解之后,可以有选择性地跟踪该领域几个顶级的会议、期刊的文章,了解该目前该领域中别人都在关注哪方面。当然,也可以跟踪该领域公认的研究大牛(Authorities)的研究方向,这对把握该方向的研究趋势很有帮助。
NOTE: 查找文献是非常重要的一个技能,只有自己先学会了检索(Search)的基本技能,才有可能让机器帮助人们进行自动的信息检索(IR)。
阅读书籍:
a) Introduction to Information Retrieval. Cambridge b) 大规模中文文本处理,吴立德
c) 搜索引擎 — 原理、技术与系统,李晓明 d) 统计自然语言处理基础
NOTE: 根据自身情况,可以有选择性地选择其中一本或多本阅读,在理解的基础上进行阅读。
相关讲义、课件:
a) 《信息检索》、《统计自然语言处理》,刘挺,哈工大课件 b) 《计算语言学概论》,詹卫东,北大讲义 c) 《自然语言理解》,宗成庆,中科院讲义
现将阅读重点简单罗列一下:
a) IR、NLP领域的基本术语、概念、原理等。
b) 一个完整检索系统的详细流程,最好了解到实现层面,清楚各个模块包


你可能感兴趣的:(IR、NLP科普)