第一周

文本表示

文本表示有很多种，不同的种类对应着不同的应用场景和算法。

基于单词的表示方法有如下几个好处

基础的词关系

1. 最基础的词关系分为两种：

paradigmatic relation and syntagmatic relation
聚合关系和组合关系

这两种基础且互不的关系可以很好地描述一门语言里面个体之间的关系。

可以提高一些nlp任务的准确率
-- 词性标注，句法分析（parsing），实体识别，缩写辨识
--语法学习
在文本检索中能直接使用
-- 文本检索
-- 自动构建浏览内容的主题地图：把词作为顶点，联系作为边
-- 比较和总结观点，比如，哪些词与iphone6“电池”的正面和负面评价联系最强烈

相似的上下文

-- 用上下文表示单词
-- 计算上下文的相似性
-- 上下文相似度高的单词更可能具有聚合关系

-- 计算文本中两个单词共现频率
-- 对比它们同时出现和单独出现
-- 利用独立性计算它们的出现是否相互独立（比如卡方检验法，概率独立性公式）

忽略文本中单词的顺序，宛如一个装了单词的袋子，因此亦可称作伪文本。

基于词袋模型的文本相似度计算

从直觉上判断，两个文本单词重叠得越多，文本相似度越高。
但是该模型存在两个问题

解决方案

BM25的亚线性转换

BM25检索模型中聚合关系挖掘

M25检索模型中组合关系挖掘