创新实训记录3--论文算法的理解

论文理解

1.融合语义规则和情感词典的房产中介评论情感分析

摘要: 为了降低评论文本情感分析的复杂度,同时提高情感分析的准确率,本文将语义规则和评论中产生的领域相关词典与开源情感词典相融合形成了新的评论情感分析算法,并在房产中介评论数据集上与其它两种算法做了对比实验。实验结果表明:融合语义规则和情感词典的房产中介评论情感分析算法在准确率、召回率和 F1 值三个指标上均有明显提高,验证了本文提出算法的有效性。
主要流程思想:
创新实训记录3--论文算法的理解_第1张图片
    这里面的关键部分在于首先对房产评价信息的处理,提取出直接分类词(基于此进行直接分类),如果无法分类则进行下一步基于文本中情感词语和程度副词等词典的基于规则的打分(打分公式如下):
创新实训记录3--论文算法的理解_第2张图片

2.Training Classifiers with Natural Language Explanations(用自然语言解释训练分类器)

参考论文资料:

https://baijiahao.baidu.com/s?id=1626537790439444249&wfr=spider&for=pc

  • 注释器
        特别地,我们提出了一个框架,其中注释器为它们分配给示例的每个标签提供自然语言解释(参见下图)。这些解释被解析为表示标记函数(LF)的逻辑形式,这些函数启发式地将示例映射到标签。然后,在许多未标记的示例上执行标记函数,从而产生大量的、弱监督的训练集,然后使用该训练集来训练分类器。

创新实训记录3--论文算法的理解_第3张图片

  • 模型

    BabbleLabble框架将自然语言解释和未标记数据转换为标记噪声的训练集(参见下图)。有三个关键组件:语义解析器(LF)、过滤器组(删除冗余,错误,重复,常数的LF)和标签聚合器(标签聚合器结合了来自LFs的多个(有可能冲突的)建议标签,并将它们组合成单个概率标签)。语义解析器将自然语言解释转换为表示标记函数(LF)的一组逻辑形式。过滤器组在不需要真正标签的情况下尽可能地去除不正确的LF。剩余的LF用于未标记的示例以产生标签矩阵。这个标签矩阵被传递给标签聚合器,它将这些潜在的冲突和重叠的标签组合为每个示例的一个标签。然后使用所得的标记示例来训练任意判别模型。
创新实训记录3--论文算法的理解_第4张图片

  • 基于规则的语义分析器
        我们选择一个简单的基于规则的语义分析器,可以在没有任何训练的情况下使用。解析器使用一组形式为α→β的规则,其中α可以被β中的token替换(参见下图)。为了识别候选LF,我们基于语法规则定义的替换,为解释的每个跨度递归地构造一组有效的语法分析。最后,解析器返回与整个解释相对应的所有有效解析(在本例中为LFs)
        我们还允许在查找匹配规则时忽略给定跨度中任意数量的tokens。这提高了解析器处理意外输入(如未知单词或输入错误)的能力,因为可解析的输入部分仍然可以导致有效的解析。例如,在上图中,“person”一词被忽略。
    创新实训记录3--论文算法的理解_第5张图片

  • [ ?] 在BabbleLabble基于规则的语义解析器支持的语法中预测。(规则模板???不懂)

创新实训记录3--论文算法的理解_第6张图片

  • [ ?] 使用数据编程将真实标签与标记函数输出之间的关系建模为一个因子图。 更具体地说,给定真正的标签Y∈{−1,1} 和 潜在标签矩阵Λ ∈{−1,0,1}m×n,其中在这里插入图片描述,我们定义了两种类型的因素,代表标记倾向和准确性:

在这里插入图片描述

-定义,模型如下:(需要不断的训练这个模型,获取其中的参数 Φ \Phi Φ, ω \omega ω, Z ω Z_{\omega} Zω等, p ω ( Λ , Y ) p_{\omega}(\Lambda,Y) pω(Λ,Y)是概率训练标签):

在这里插入图片描述
(其中是 ω \omega ω是权重向量, Z ω Z_{\omega} Zω是归一化常量。为了在不知道真正标签Y的情况下学习模型,我们最小化给定观测标签Λ:
在这里插入图片描述

  • [ ?] 判别模型:利用标签聚合器输出的带噪声标签的训练集来训练任意的判别模型。在任务上训练判别模型而不是直接使用标签聚合器作为分类器的一个优点是,标签聚合器仅考虑LF中包括的那些信息。另一方面,判别模型可以结合用户未识别但信息量大的特征。

你可能感兴趣的:(创新实训记录3--论文算法的理解)