论文笔记:时间序列分析

论文笔记:Causal Inference on EventSequences

论文综述

  • 解决的问题:两个不同的序列xn与yn,是否能断定他们相互关联,或者说存在因果关系。
  • 依托的主要知识:概率论

名词解释:

  • 格兰杰因果关系 Granger causality
    • 统计学上的因果关系:从统计的角度,因果关系是通过概率或者分布函数的角度体现出来的:在宇宙中所有其它事件的发生情况固定不变的条件下,如果一个事件A的发生与不发生对于另一个事件B的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上有先后顺序(A前B后),那么我们便可以说A是B的原因。
  • 熵与最优编码
    • 最优编码长度就是熵
    • lower entropy corresponds to better compression
  • Transfer Entropy:
    +它是一种基于概率分布,香农熵,统计的方法得出时间序列间因果性的方法
  • regret
  • 最大似然函数
  • SNML

论文方法描述

  • 两个假定:
    1. 原因发生在结果前
    2. 原因拥有影响未来值的信息
  • 步骤:

    1. 编码长度的比较:
    2. 根据编码长度确定因果
    3. 设置阈值
    4. 如何确定可用的概率(存在问题:模型给错结果一定错)
    5. SNML定义式子:
    6. 用于二进制数据
    7. Conditional Compression(在引入yn,xn两个序列的时候该如何处理这个问题)
      • 简单来说,根据y(用XOR)构造出不同的序列来查看哪个序列的熵最小,找到规律然后按照规律带入相关量
      • 把上述所有序列代入计算
      • 如图所示,对于1的预测,选取的序列1越多,熵越小,对于0的预测,选取的1越少,熵越少。
      • 上述式子要带入哪些值就知道了
  • 实验:生成数据的实验和水文,气温的实验。

  • 总结:这篇论文的核心思想在于提高对于有噪音的数据的序列分析,并且不依赖于lag这个参数,但于此同时,这篇论文的限制也很明显,只能处理离散数据。
  • 疑问:
    1. 选取传递熵得到的结果做对比,效果可信吗?上图是三种方法对比,第一行是作者的方法,准确率100%,第二种是作者对比的方法,只有39%的准确率,而第三种才是常用的格兰杰因果关系检验方法,有70%的准确率(目前只是初步处理,还有可能提高)
    2. 文章中始终没有说明怎么处理所谓的阈值,而格兰杰因果关系检测是可以判断显著性程度的。
    3. 文章中只是在确定有因果关系的数据中分析谁是原因谁是结果,但是如果两者没有因果关系呢?

你可能感兴趣的:(机器学习,时间序列,格兰杰因果关系)