自然语言处理中的若干问题

一、语言模型

链接地址(一)N元语言模型

链接地址(二)语言模型性能评价

链接地址(三)数据平滑

链接地址(四)语言模型自适应方法

链接地址二、汉语自动分词和词性标注

链接地址(一)基本分词方法

链接地址(二)未登陆词处理方法

链接地址(三)基于多特征的命名实体模型

链接地址(四)词性标注

链接地址(五)词性标注的一致性检查和自动校对

链接地址三、句法分析

链接地址(一)统计句法分析以及句法分析的检查

链接地址(二)层次化汉语长句结构分析

链接地址(三)浅层句法分析

链接地址(四)依据句法理论与依存句法分析

链接地址四、语义消歧

链接地址(一)有监督的语义消歧

链接地址(二)基于词典的语义消歧

链接地址(三)无监督的语义消歧

链接地址(四)语义消歧系统评测

链接地址五、文本分类

链接地址(一)文本表示

链接地址(二)文本 特征选择方法

链接地址(三)特征权重计算方法

链接地址(四)分类器设计

链接地址(五)文本分类器性能评估方法

链接地址六、自动文摘和信息抽取

链接地址(一)多文档摘要

链接地址(二)单文档摘要

链接地址(三)信息抽取

链接地址七、文档聚类

链接地址(一)聚类算法

链接地址(二)聚类结果评估

链接地址八、自然语言处理的主要范畴

1.文本朗读(Text to speech)/语音合成(Speech synthesis)

2.语音识别(Speech recognition)

3.中文自动分词(Chinese word segmentation)

4.词性标注(Part-of-speech tagging)

5.句法分析(Parsing)

6.自然语言生成(Natural language generation)

7.文本分类(Text categorization)

8.信息检索(Information retrieval)

9.信息抽取(Information extraction)

10.文字校对(Text-proofing)

11.问答系统(Question answering)

12.机器翻译(Machine translation)

13.自动摘要(Automatic summarization)

14.文字蕴涵(Textual entailment)

链接地址九、自然语言处理研究的难点

1.单词的边界界定

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

2.词义的消歧

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。

3.句法的模糊性

自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。

4.有瑕疵的或不规范的输入

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。

5.语言行为与计划

句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说 回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要 比回答“没人没通过”好

你可能感兴趣的:(自然语言处理中的若干问题)