基于文本挖掘和情感分析的股票价格预测系统(一)

想做个如题的预测系统,这两三天利用休息时间在研究,整理下所知。


从网上爬取文本,可以是财经新闻、股吧、垂直投资社区和微博。

过滤得到和某几个被选定观察的股票相关的文本数据,包括过去一段时间的历史数据。

通过统计、文本挖掘和情感分析,

1,发帖量的时间序列与股价的时间序列的对比

2,积极情绪的帖子所占的比例值的时间序列与股价的时间序列的对比


可以通过历史数据检验以上两组时序图是否相似。

从大量的他人的研究来看,是有相似关系的。


但是这里存在一个问题,时序图的相似如何能够被拿来做预测?所需要的并不是对历史数据的检验而是推测未知的明天的值!

就像你无法从股价的历史时序图来推测明天的股价,你无法通过和股价历史时序图相似的其它时序图来推测明天的股价?!


所以需要从结果中寻找的应该是可以被历史数据所检验的预测的正确率,而不是所谓曲线的相似度。


如果不能明显的通过人工和人脑来发现预测性,可以考虑神经网络。








你可能感兴趣的:(基于文本挖掘和情感分析的股票价格预测系统(一))