文本挖掘与分析课程笔记_Week2

第二周笔记


熵函数

  • X的熵与其不确定性有关,不确定性越大,熵越大

文本挖掘与分析课程笔记_Week2_第1张图片

熵应用于词的预测

  • 熵越高的词,越难预测

文本挖掘与分析课程笔记_Week2_第2张图片

条件熵

  • 某个词在另一个词出现(或不出现)的前提下的熵
  • 通过调整熵函数中相应条件的概率,即可得到条件熵

文本挖掘与分析课程笔记_Week2_第3张图片
文本挖掘与分析课程笔记_Week2_第4张图片

用条件熵寻找组合关系

  • 对某个词在不同前提词下的条件熵进行比较

文本挖掘与分析课程笔记_Week2_第5张图片

用“互信息”来寻找组合关系

  • 互信息具有非负性
  • 对称性
  • 当X和Y是相互独立时,它们互信息为0(两个词关联性越强,互信息越大)

文本挖掘与分析课程笔记_Week2_第6张图片
文本挖掘与分析课程笔记_Week2_第7张图片

用KL-divergence重写互信息(引入概率)

  • 分子:实际观察到的两个随机变量的联合分布
  • 分母:理想的两个随机变量的联合分布(相互独立)
  • 缺点:不出现的词概率为0(有些情况下不合理)【引入下面平滑概念】

文本挖掘与分析课程笔记_Week2_第8张图片

Smoothing 平滑

  • 增加了虚拟段(使得不出现的词也不会概率为0)

文本挖掘与分析课程笔记_Week2_第9张图片

主题挖掘与分析的定义

  • 原始数据可以不止文本,可加入其它许多非文本信息
  • 在收集到的系列文本中找k个主题
  • 找出哪篇文章在多大程度上涵盖了哪个主题
  • 对一些比较具体的问题,可以采用更有针对性的处理

文本挖掘与分析课程笔记_Week2_第10张图片

从系列文本中挖掘k个主题

  • 防止取得的主题是一些频繁词:TF-IDF
  • 防止取得的主题(术语)太相似:Greedy algorithm 贪心算法

文本挖掘与分析课程笔记_Week2_第11张图片

词对文本涵盖的计算

文本挖掘与分析课程笔记_Week2_第12张图片

用单个词做主题可能产生的问题

  • 单个词做为主题表现力不够
  • 词汇涵盖的不完整性(如关联词)
  • 单个词脱离上下文(语境)后会有多义(模糊)

文本挖掘与分析课程笔记_Week2_第13张图片

提升方法:用词分布来表示主题

  • 可以用更多词来表示主题
  • 可加入权重进行调节(区分词的重要程度)
  • 单个词可以通过其同组词来判断其具体意思

文本挖掘与分析课程笔记_Week2_第14张图片

  • 输入:C,k,V ; C为文本的集合,k是主题数,V是词汇表
  • 输出:词分布,主题在文档中的覆盖

文本挖掘与分析课程笔记_Week2_第15张图片

文本挖掘的生成模型

  • 基于数据来推算参数
  • 需要先建立模型,模型不同,结果(参数)也不同

文本挖掘与分析课程笔记_Week2_第16张图片

最简单的语言模型:一元语言模型

  • 并不适用某些问题,像关心单词顺序的

文本挖掘与分析课程笔记_Week2_第17张图片

对一元语言模型(Unigram LM)的估计

  • 极大似然估计:能赋予我们的被观察数据最大概率
  • 极大似然估计不一定是最优估计

文本挖掘与分析课程笔记_Week2_第18张图片

极大似然估计 vs. 贝叶斯

  • 用极大似然估计的话,数据太小时会有问题(未出现的词概率就为0)
  • 贝叶斯加入了先验知识,使得任何词的概率不会为0

文本挖掘与分析课程笔记_Week2_第19张图片
文本挖掘与分析课程笔记_Week2_第20张图片

语言模型的建立

  • Wi表示某个词,共有M个,θi表示该词的概率
  • 可用拉格朗日乘数法解函数

文本挖掘与分析课程笔记_Week2_第21张图片


课后测验

文本挖掘与分析课程笔记_Week2_第22张图片

你可能感兴趣的:(coursera学习笔记,NLP自然语言处理,coursera学习笔记)