这个东西是如何学习的?

这个东西是如何学习的?_第1张图片

现在到了文章中比较有趣的部分。到现在为止,我们所做的一切都叫作正向传递。在训练算法以及在生产中使用的时候,我们都要涉及以上这些步骤。这里我们要谈论一下向后传递,而且只谈论在训练中让算法学习的那一部分。



因此,在训练期间我们不仅准备了数年的历史数据,还准备了一系列预测目标,即0和1的列表。这个列表显示的内容,实际上表达的是VIX是否按照我们想要的方式去做了。


为了学习,我们将市场数据反馈到网络中,并将它的输出数据与计算得出的数据进行比较。在我的例子中,比较将只是一道简单的减法问题,也就是我们的模型误差为:


或者用文字来表达的话,即实际发生的事件与预测的事件之间的差的平方的平方根。


这就是美丽所在。这是一个微分函数,也就是说,如果我们的预测做出了微小的改变,我们也可以通过误差的变化而观察出来。我们的预测是可微函数的结果,SoftMax 输入到 softMax,LSTMs 都是可微分的数学函数。现在所有的函数都满是参数,也就是很久之前我就谈论过那些大的 excel 电子表格。考虑到模型中所有 excel 电子表格中数以万计的参数,所以在这个阶段,我们做的是取误差的导数。在求导过程中我们能够看到,参数值的改变会影响最终的误差。明白其影响原理之后,我们就可以改变其中的某些参数,以降低最终的误差值。

这个东西是如何学习的?_第2张图片
此过程会一直传播直到模型的开端。它调整了我们将输入嵌入到市场向量的方式,因此市场向量代表了任务中最重要的信息。


它调整了每个 LSTM 选择记住的时间和内容,这就使得它们的输出与任务最为息息相关。


它调整了 LSTM 学到的抽象概念,以便它们可以学到任务中最重要的抽象概念。


在我看来是很惊人的,因为它具有我们在任何地方都未曾指定过的所有的复杂性和抽象性。这都是从我们所认为的错误规范中推断出来的。


这个东西是如何学习的?_第3张图片


▌其它想法


这里有一些关于此项目的前沿观点以及我可能会尝试的内容,同时我会说明我觉得有意义的原因,这些想法可能真的会有用。


流动性和资本的有效利用

这个东西是如何学习的?_第4张图片
通常情况下,特定市场的流动性越强,越有效率。我认为这就相当于鸡和蛋的循环,然而当市场的流动性越来越强,它就能吸引更多的资本流出,而不受资本伤害。随着市场的流动性越来越强,有更多的资本可以使用,你会发现更多有经验的玩家纷纷加入。这是因为成为一个富有经验的人是非常昂贵的,所以你必须以大量的资本作为回报,以保证你的运营成本。


很快就能推论出,在不太流动的市场中竞争没那么复杂,因此这样的系统带来的机会可能最终不会涉及交易。重点在于,如果我试图交易的话,我将会选择市场上流动性相对较小的那一部分,可能会是 TASE 100,而不是 S&P 500。


这个东西是新的

这个东西是如何学习的?_第5张图片
至少在我这样平凡的人看来,这些算法的知识、执行算法的框架以及训练它们的计算能力都是新的。假设顶级玩家在几年前就想出了这个东西,并且有能力执行这么长时间,但是正如我在上面提到的,他们也很可能在能够支持其规模的流动市场中执行。我认为下一层市场参与者的技术同化速度较慢。从这个意义上来讲,在尚未开发的市场上,很快就会有一场比赛。


多个时间帧


虽然我在上面提到了单一的输入流,我想一个更有效的训练方式将是(至少)在多个时间帧上训练市场向量,并在推理阶段进行反馈。也就是说,最慢的时间帧将每30秒采样一次,我希望网络去学习延长最多时间的依赖性。


我不知道它们是否相关,但是我认为存在多个时间帧的模式,如果计算成本能足够低,那么值得将它们纳入模型。我仍在绞尽脑汁的想如何在计算图表上表示它们,或许它不是强制性的。


市场向量


当在 NLP 中使用词向量时,我们通常会从预训练模型开始,并在模型训练期间继续调整这些嵌入。在我的例子中,没有可用的预训练市场向量,也没有一个确定的算法来训练它们。


更值得认真考虑的一个问题是,翻译和语言识别中的从序列到序列模型的成功,序列最终被编码为一个独立的向量,然后被解码成不同的表征形式(比如从语音到文本的形式或者从英语到法语的形式)。在这个观点下,我所描述的整个架构实质上是个编码器,而我并没有真正的向其中放置过解码器。


但是,我想用第一层来实现某些特定的功能,使其在输入4000维向量后输出一个300维的向量。我想让它找到各种股票之间地相关性或关系,并组成它们的特征。

这个东西是如何学习的?_第6张图片

另一种方法是,通过 LSTM 来运行每个输入,可能连接所有的输出向量,并考虑编码阶段的输出。我认为这样效率很低,因为仪器和特征之间的相互作用和相关性将会丢失,而且这将会需要相比之前多于10倍的计算量。另一方面,这样的架构可以在多个 GPU 和主机之间畅通并行,无疑是一个优点。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


你可能感兴趣的:(这个东西是如何学习的?)