Python文本挖掘笔记:1.2文本挖掘的基本流程和任务

文本挖掘/NLP的基本流程
1.语料获取(比如网络数据抓取、文本文件读入、图片OCR转化…)
2.原始语料的数据化(比如分词、信息清理与合并、文档-词条矩阵、相关字典编制、信息的转换…)
3.内在信息挖掘与展示(词云、关键词提取、自动摘要、文档聚类、情感分析、文章推荐…)
常见的TM分析任务
1.亚洲语言分词(及结果展示)
2.自动摘要
3.指定消解
例:他对她说它的尾巴很短
4.机器翻译
5.词性标注
6.主题识别
7.文本分类
8.语义理解
TM的各种应用方向举例
1.新一代搜索引擎
例:某博热搜榜
2.互联网内容安全
例:互联网舆情监测、非法内容发布
3.企业知识管理
例:企业内知识共享、企业相关外部信息、CRM系统
4.个人智能信息访问
5.目标客户的精确定位和推送
例:今日头条
注意
本文是观看B站@就是老衲啊转发的视频整理所得

你可能感兴趣的:(Python文本挖掘,python,数据挖掘,自然语言处理)