第二周

文本挖掘与分析概述图
文本数据与非文本数据结合
主题模型两大任务
  • 发现K个主题
  • 计算每个文档包含哪些主题
常规形式化定义主题模型
概率主题模型

此处引入了单词集,用来计算各主题的词分布。

主题分布例子
文本挖掘的生成模型

通过调整模型的参数,使得生成数据的条件概率最大。


可以用最大似然法或贝叶斯估计找到最优值。

参数估计办法
  • MLE最大似然估计--缺点:数据太小的时候容易对模型参数估计有偏差
  • MAE贝叶斯推断--缺点:需要知道先验分布
贝叶斯推断示例

你可能感兴趣的:(第二周)