在Kaggle的使用新闻预测股票涨跌的AI 建模竞赛(2-Sigma 赞助)

在Kaggle的使用新闻预测股票涨跌的AI建模竞赛(2-Sigma 赞助)

我们可以使用新闻分析的内容来预测股价表现吗? 如今无处不在的数据使投资者能够以任何规模做出更好的投资决策。 这个竞赛在于提取和解释数据以确定哪些数据有用,在这个信息海洋中找到信号。 Two Sigma对这一挑战充满热情,并很高兴与Kaggle社区分享。

这场比赛最让人兴奋的是,Kaggle现在正在使用提交的模型进行实时的未来市场预测,这对于验证AI能否比人类更好地理解市场非常有意义? 就像AI对围棋的理解甚至要好于世界第一选手。

Two Sigma Investments LP是一家位于纽约市的对冲基金,它使用各种技术方法,包括人工智能,机器学习和分布式计算,用于交易策略。 该公司由John Overdeck和David Siegel经营。 (来自维基百科)管理资产:510亿美元(2017年)
在Kaggle的使用新闻预测股票涨跌的AI 建模竞赛(2-Sigma 赞助)_第1张图片
本次比赛的数据来自以下来源:

  1. 市场数据由Intrinio提供
  2. 汤森路透提供的新闻数据。版权所有©,汤森路透,2017年。保留所有权利。
    除竞争规则中所述之外,严禁使用,复制或销售此服务或此处包含的数据。

结果评估

在本次竞赛中,您必须预测一个有符号置信度值y ^ti∈[-1,1],它乘以给定assetCode在十天窗口内的市场调整回报。 如果您预计股票在未来十天内与大盘相比具有较大的正回报,您可以为其分配一个大的,正的置信度值(接近1.0)。 如果您希望股票具有负回报,您可以为其指定一个较大的负置信度值(接近-1.0)。 如果不确定,您可以为其指定接近零的值。
对于评估时间段内的每一天,我们计算:
在这里插入图片描述
y置信度值表示股价上涨或下跌的可能性,如果100%信心上涨,则价值将为1,其乘以r(回报:第10天的收盘价 - 第0天的收盘价),因此充分利用 r值,就像下降时明智的100%置信度一样,该值将为-1,它与负值r相乘,然后仍然是正值。

u表示该股票在特定日期可用于交易,例如,如果谷歌在2019年1月24日被暂时停牌,那么该值将为0,从而不会纳入计算

其中rti是股票i的第t天市场调整后的领先回报,而uti是0/1通用变量(如上所述),用于控制特定股票是否包含在特定日期的评分中。
然后,您的提交分数将计算为平均值除以每日xt值的标准差:
在这里插入图片描述
为什么2Sigma / Kaggle使用每日x的平均值除以标准差来评分?因为通过这种方式,他们可以选择最好的模型,不仅总体上有良好的回报,而且还考虑到稳定良好的每日表现。

市场数据

市场数据包含通过不同时间跨度计算的各种回报。这组市场数据中的所有回报都具有以下属性:

  1. 回报总是计算为开仓(从一个交易日的开盘时间到另一个交易日的开盘时间)或收盘价(从一个交易日的收盘时间到另一个交易日的开盘时间)
  2. 回报是原始的,意味着数据不是根据任何基准进行调整,或者是市场残差(Mktres),这意味着整个市场的变动已被考虑,只留下工具固有的变动。
  3. 可以在任意任意间隔内计算返回值。这里提供1天和10天的样本。
  4. 如果向以前看,则返回标记为’Prev’,如果向以后看,则返回标记为’Next’。

在市场数据中,您将找到以下列:
5. time(datetime64 [ns,UTC]) - 当前时间(在marketdata中,所有行均在UTC时间22:00获取
6. assetCode(object) - 股票的唯一ID
7. assetName(category) - 与一组assetCodes对应的名称。如果相应的assetCode在新闻数据中没有任何行,则这些可能是“未知”。
8. universe(float64) - 一个布尔值,指示当天的股票是否将包含在评分中。 在训练数据时间段之外不提供该值。
9. 成交量(float64) - 当日股票交易量
10. close(float64) - 当天收盘价(未因为股息或送股而除权)
11. open(float64) - 当天的开盘价(未因为股息或送股而除权)
12. returnsOpenNextMktres10(float64) - 10天,市场回报。这是竞争评分中使用的目标变量。市场数据已经过滤,因此returnsOpenNextMktres10始终不为空。

现在的排行榜

在Kaggle的使用新闻预测股票涨跌的AI 建模竞赛(2-Sigma 赞助)_第2张图片
Kaggle也将所有得分超过1.51都过滤掉了,因为结果不合理, 被认为是作弊。 从现在开始,所有提交的模型都在测试未来数据,让我们也监控这个排行榜,我们正在期待结果

你可能感兴趣的:(AI,ML,Fintech,Machine,Learning,and,Predictive)