新事件的文档表示和术语加权的主流技术。检测任务。在TDT-2002(包括我们的)中评估的所有四个系统都使用它。然而,在TFIDF的应用中存在差异。
CMU使用它与历史和前瞻数据的不同聚类技术相结合〔10〕。他们首先把一个新的文档分类成一个广泛的主题,然后进行主题条件的新颖性检测每个主题〔11, 12〕。主题模型包括主题特定的停用词删除和主题实体和其他特征的主题敏感加权。IBM基于单个链路TFIDF测量的决策加上N-gram重叠和时间特征。除了一套在TDT-2001会议(6)的幻灯片中,没有关于他们的系统是可用的。UMASS还使用TDIDF和单链路;所有TFIDF。统计是增量生成的。他们模型的一部分在[ 2 ]中描述。此外,他们使用主题模型和关联模型〔8〕。
3.基础模型
本节介绍了基本的新事件检测模型。这与当前大多数系统所使用的类似。我们使用它作为我们扩展的基础。
3.1 预处理
对于预处理,我们对数据进行标记,识别缩略语,规范缩写,去除停止词,用数字替换拼写数字,添加词性标记,用它们的源替换代标记,然后产生频率向量。
3.2 增量TF-IDF model
我们的文档相似性计算是基于增量TF IDF模型。在TF IDF模型中,文档(TF)中的术语的频率由逆文档频率(IDF)来加权。在增量模型中,文档频率2DF(W)不是静态的,而是在时间t在时间t,一组新的测试文档Ct通过更新频率添加到模型中。
DFCT表示新文件中的频率增加了一套文件CT。初始文档频率DF0(W)是由(可能是空的)训练产生的集合。在静态TF IDF模型中,新单词(即,这些单词在训练集中没有发生的情况)容易在进一步计算中被忽视,或它们被视为有一些小常数作为它们的文档频率,例如,DF=1。在第一种情况下,新术语根本没有权重,后者则没有权重。情况下,新项收到太多的权重。增量TF IDF模型根据他们在新文件中的使用情况使用新词汇和赋权。这是一个优势是因为新的事件经常引入新的词汇,并且为他们找到好的权重应该会提高模型效果。
低频项W往往是没有信息的。我们因此,设置一个阈值Th d,并且只有术语具有
被用于时间t,除此之外,我们使用Th d=2,
3.3参数赋权
如前所述的文档频率用于计算文档d中各项W的权重。在时间t,我们使用
其中Nt是t时刻文件的数量,ztd是归一化数据
如果我们使用HELELG距离,Kullback Leibler散度,或基于清晰度的距离(见下文),或
如果我们使用余弦距离。
3.4 相似度计算
由正规项权重加权的向量用于计算两个文档之间d和q的相似性。在我们当前的实现中,我们可以使用
余弦距离。
可能的相似性度量包括Kullback Leibler散度,它的对称形式,Jensen Shannon
距离,或基于清晰度的距离(5, 8)被发现在其他工作中有用[ 3 ]。
3.5 决策
以决定是否添加了新的文档q到在时间t的集合中描述了一个新事件,它与以前的所有文档进行了单独的比较。文档d与q具有最高的相似性:
其中值
用来决定是否文档q是否是一个新的事件,同时是否我们决策置信的指标。如果score值超过了阈值,就是前面没有足够相似的文档,因此q被描述为新事件。如果分值小于阈值,d*足够相似,因此q被认为是老事件。这个阈值可以依靠使用标注训练数据和计算文档对相似度分值在相同事件和不同事件上。
3.6 短文本的消除
所有TDT源数据包含很多短文本,这些短文本不描述一个事件只是一些通知,或者其他没有话题的文档。排除短文本提高了相似度计算的结果。对此的解释是戏弄者提及不同的事件,但根据TDT标签指引,他们并没有被认为是话题相关。
4.基础模型的改进
在下文中,我们描述了我们的基本模型的新的扩展和改进。这些改进是由于注意到故事在许多方面有所不同方法,包括来源、主题和解释规则,而平均相似度的差异可能会导致。我们开发了基于相似性分数的归一化方法。在这些条件下。我们也注意到了有关相同的事件往往有共同的部分,但每个故事也有独特的信息。我们的最后一个扩展使用这些信息修改我们的基本模型。
4.1
特定源 TF-IDF 模型
新闻故事流中的文档来源于不同的源。例如,在TDT 2002数据中有20种不同的源。其中,有ABC news,关联报道,纽约时报,美国之音等。每个来源可能有些不同词汇使用。例如,源的名称,
特定节目名称或新闻主播名称在他们自己的来源比在另一个更频繁。此外,还有一些细微的差别在首选词汇方面,为了反映特定的来源差异,我们不建立一个增量的TF IDF模型,但是我们有很多不同的来源和使用文档频率。
频率根据等式一被更新,但是只有使用那些ct来源s。因此,如CNN项获得一个高的文档频率在CNN源的模型中,但是在纽约时报的模型中获得低文档频率。
除了总文档频率df(w),我们使用特定源dfstw来计算项权重等式3.
没有训练数据的源数据可以两种方式初始化:
1.开始于一个空模型
2.识别一个或者多个其他相似数据源作为训练数据来使用:
对于这里提出的工作,我们确定了类似的来源。这是通过创建源层次结构来完成的。当没有训练数据对于特定的来源是可用的,我们在层级中更高层次地组合源。作为一个例子,我们把所有的英语语音识别数据组合起来初始化一个未知的英语语音识别源。
4.2 文档相似度归一化
有些文档类似于大量的文档(例如,因为它们是一个非常广泛的主题),而其他则非常与众不同。相似度高的宽主题文档到其他文档一般不这意味着窄主题文档与其他文档的高度相似性。为了捕捉这个差异,我们计算当前文档Q到集合中的所有以前的文档的平均相似性SIM(Q)。而不是原来的新文档Q和旧文档D之间相似性SIM(q;d),我们使用了调整后的相似性:
可以使用其他规范化,例如计算和平均相似度之比。然而,这样的规范化强调偏离平均值。远大于线性差异。我们观察到线性归一化模型是相对较好的模型。
4.3 特定源对主题相似度归一化
来自于同一个数据源的文档描述了同一个事件的可能性比来自不同源文档有较高的相似度,由于源附加的词汇惯例。类似的,来源于A和B的相同事件文档有一个不同相似度平均值比来源于A和C描述同一个事件。换句话说:如果我们有两个文档a、b和c,来自于源ABC,他们有各自的相似度值:
在a和a‘两个相同事件的不同故事案例里,他们来自源A,我们可以发现:
其中b也是同一事件爱你但是来自于不同源A不等于B,为了反映其不同,我们调整他们的sim’(q,d)值使用两个来自特殊源对q和p的同一事件的平均相似度值:
4.4 使用术语的逆事件频率
TDT任务里的事件被划分为翻译的规则,翻译规则可以被视为事件的高等级的类别。例如,包含翻译规则选择的数据有“巴西总统选举”和“美国中期选举”,来自同一个翻译规则的事件故事可以用来分享一些词汇(普通选举词汇)。因为词汇覆盖,我们希望来自同一翻译规则的事件比来自不同规则的事件更加难以区分。Yang探索了使用特定主题停用词移除的方法,给命名实体、主题敏感词汇赋予权重。
给出翻译规则的特征但是那无法区特定事件的项目可以获得更高的权重,比信息丰富的事件(如cardoso项目,巴西前总统的名字)。但是,权重无法过低以至于会无法区分来自不同翻译规则的事件,但是这些在事件特殊词汇方面有很好的覆盖。
为了解决这个问题,除了文档频率,我们使用事件频率efw来计算参数权重。如下:
其中efrwhi属于ROI r事件的个数,包含项w。假如合适的信息可利用,事件频率可以跟随时间t进行调整。基于大量训练数据他们可以生成处理文档的特定源。但是,TDT任务,测试数据并不包含翻译规则标签和训练数据规模太小。因此,可以从固定训练数据集中生成他们的数量,独立于源,他们不会反复变化。
使用事件频率的最好方式未知目前。我们采用ad-hoc 技术,源项目的权重调整如下:
其中ztd是一个归一化常数,Ne,w是事件的个数在规则翻译中最大化等式,g是规划函数,我们现在使用线性规划
4.5 文档匹配
两个文档可能仅部分重叠,即使他们在同一件事上。例如,这可能是由于对于其中一个文档中描述的附加事件,或对包含的同一事件的新信息在其中一个文件中,而不是在另一个文件中。理想情况下,我们希望在文档(7, 3)上执行基于主题的文本分割,然后局部地进行比较。当前文档与其他文档的相干段文件。
为了创建一个NIST话题检测和追踪评价系统,我们使用评估一个简化算法。每个文档都将使用一个固定长度l的滑动窗口划分为覆盖部分,伴随s的步长。滑动窗口如图2.如果文档比包含l单词还要短。他包含一个切分,否则包含多个切分。
当对比两个文档q和d,我们计算一个文档到另一个文档的切分相似度,分值的最大值为:
在实验部分,简单的titling方法提升结果。我们期待从一个基于话题的真实切分上获得多于的好处。
5.实验和结果
我们使用新事件检测系统-NIST话题检测和跟踪评价系统,系统使用TDT2和TDT3语料,TDT2被视为训练集TDT3被视为开发测试集。最后将使用TDT4语料进行测试,然后呈现发展和评估结果。
5.1 数据集
TDT2语料库由6个月的新闻故事组成。从一月到1998年6月。它包含大约。来自文本来源的联合新闻社的60000个故事。纽约时报,视频广播来源美国有线电视新闻网和美国广播公司,美国广播电台和国际广播电台。我们使用电视和收音机的自动语音识别和转录版本。广播。语料库的总大小约为3500万个单词。TDT3语料库由3个月的新闻故事组成。从十月到1998年12月,包含大约37000个英语故事。关于所使用的来源。对于TDT2,它包含NBC和MSNBC电视台的故事广播。语料库中也包含了汉语故事。以及《TDT3补充》中未使用的故事在本研究中。
TDT4语料库由4个月的新闻故事组成。从2000年10月到2001年1月。它包含大约28000个英语故事被用于评价。没有使用普通话和阿拉伯语故事。这个英语来源与TDT3相同。TDT2和TDT3被标记为120个主题。大约15000个英语故事属于这些主题之一,其他约45000个英文故事未标注。话题在TDT2中发生的,用于训练,发生在TDT3用于发育。TDT4当前标记为40个主题;20个附加主题正在准备中。这些标签是不可访问的发展中的美国。
5.2 评估矩阵
……