Atitit 自然语言处理(NLP)的应用 与 搜索引擎
目录
1.1. 搜索引擎并不是自然语言处理(NLP)的唯一应用。 2
1.2. NLP的应用 2
1.3. 社交网站信息流, 2
1.4. 语音助手,诸如苹果 Siri。 3
1.5. 垃圾邮件程序,比如 Google 的垃圾邮件过滤程序 3
1.6. 机器翻译 3
1.7. Ocr 3
1.8. automated chat bots, 3
1.9. article summarizers, 3
1.10. multi-lingual translation 3
1.11. opinion identification from data 3
1.12. 文本相似(BM25) 3
2. Nlp常见功能 3
2.1. 词频统计 3
2.2. 分词 4
2.3. 同义词 反义词 4
2.4. NLTK词干提取单词词干提取就是从单词中去除词缀并返回词根。 4
2.5. 从文本中理解和提取重要信息 4
2.6. ,其主要任务包括语音识别和生成 4
2.7. 、文本分析、 4
2.8. 情感分析、机器翻译 4
2.9. 词云、情感分析和LDA主题建模。 4
2.10. 文本分类(Naive Bayes) 4
2.11. 转换成拼音(Trie树实现的最大匹配) 4
2.12. 繁体转简体(Trie树实现的最大匹配) 4
2.13. 提取文本关键词(TextRank算法) 5
2.14. 提取文本摘要(TextRank算法) 5
2.15. Tokenization(分割成句子) 5
2.16. text classification, 5
2.17. entity detection, 5
2.18. machine translation, 5
2.19. question answering, 5
2.20. concept identification. 5
3. 现在有许多开源的自然语言处理(NLP)库。比如: 5
4. Ref 6
有很多公司热衷收集所有这些数据,以便更好地了解他们的用户和用户对产品的热情,并对他们的产品或者服务进行合适的调整。
这些海量数据可以揭示很多现象,打个比方说,巴西人对产品 A 感到满意,而美国人却对产品 B 更感兴趣。通过NLP,这类的信息可以即时获得(即实时结果)。例如,搜索引擎正是一种 NLP,可以在正确的时间给合适的人提供适当的结果。
但是搜索引擎并不是自然语言处理(NLP)的唯一应用。还有更好更加精彩的应
以下都是自然语言处理(NLP)的一些成功应用:
正如所料,Mr. 是一个词,也确实被 NLTK 当做一个词。NLTK使用 nltk.tokenize.punkt module 中的 PunktSentenceTokenizer 进行文本分词。这个标记器经过了良好的训练,可以对多种语言进行分词
(比方说 working 的词干是 work。)搜索引擎在索引页面的时候使用这种技术,所以很多人通过同一个单词的不同形式进行搜索,返回的都是相同的,有关这个词干的页面。
词干提取的算法有很多,但最常用的算法是 Porter 提取算法。NLTK 有一个 PorterStemmer 类,使用的就是 Porter 提取算法。
NLP 的任务包括
NLTK 也很容易入门,实际上,它将是你用到的最简单的自然语言处理(NLP)库
另外, jieba分词提供的基于TextRank的关键词提取工具。 snownlp也实现了关键词提取和摘要生成。
(9+条消息)Python NLTK 自然语言处理入门与例程 - hzp666的博客 - CSDN博客.html