基于word2vec对十年的新闻文本数据做道琼斯指数预测

1、数据描述:
(1)新闻数据:从Reddit WorldNews Channel(/ r / worldnews)抓获历史新闻头条。它们按reddit用户的投票排名,并且只有前25个标题被考虑用于单个日期。(范围:2008-06-08至2016-07-01)
(2)股票数据:道琼斯工业平均指数(DJIA)用于“证明这一概念”。(范围:2008-08-08至2016-07-01)
文件数据格式:csv
Combined_News_DJIA.csv
提供了27个列的组合数据集。第一列是“日期”,第二列是“标签”,以下是从“Top1”到“Top25”的新闻标题。
其中,当DJIA Adj Close值上升或保持不变时,“1”;当DJIA Adj Close值下降时,“0”。
对于任务评估,使用2008-08-08至2014-12-31的数据作为训练集,然后测试集将是以下两年的数据(从2015-01-02到2016-07-01)。这大约是80%/ 20%的分割。
最终结果使用AUC作为评估指标。
下载链接:https://pan.baidu.com/s/12Y2fVIJ7yhnlJGQCkyYysg 密码:xwg8
2、文本预处理
(1)观测数据

import pandas as pd
import numpy as np
from sklearn.metri

你可能感兴趣的:(基于word2vec对十年的新闻文本数据做道琼斯指数预测)