互联网大数据挖掘策略梳理

策略类型:大数据选股 & 大数据择时
指标属性:热度指标 & 情绪指标 & 指示指标

数据抓爬方法

并非盲抓,需要事先分析不同数据来源的数据结构,总结网址规律(url规律),利用规律抓爬,提高数据抓爬及筛选效率。
数据可分为以下几类:
1.新闻搜索引擎结构:搜索结果设定、搜索时间段设定、以及新闻来源的相关设定。(参考广发大数据系列一)
2.公告信息披露平台数据(参考广发大数据系列二)
3.股吧论坛数据(参考广发大数据系列三)
4.财经类网站个股推荐,热点概念数据(参考广发大数据系列四、五)
5.各平台的关注度类数据,如关注人数,转发人数,点赞人数等(参考广发大数据系列六)

大数据选股方法

1.挖掘公告信息(事件驱动)

所用指标属于指示型指标。
对公告进行分类,再统计各类公告发布之后的个股表现。发掘不同类型公告与股价表现的统计性规律,从而构建相应的事件驱动策略。

2.个股推荐选股

批量持有热门财经类网站的推荐个股,构成组合,统计不同持有时长的收益情况,构造选股及持有策略。(短线效应明显)

3.新闻热点选股

根据网络文本识别当前热点,再选取与热点相关的投资标的,构建组合。

4.低关注度选股

对个股关注度进行标准化处理,寻找低关注度的冷门股,构建组合。

大数据择时方法

1.热度择时

通过板块整体新闻量,直接定义热度。当日热度数据与次日股票涨跌有较强的相关性。
策略构建:根据热度数据构建布林通道上下轨,向上突破看多,向下突破看空。

2.情绪择时

核心技术在于文本分析与情感分析。
使用网络文本挖掘的方法,抓取热门股吧的股票帖子内容,并采用文本脱水、分词以及情感分析等方法得到每条帖子的“乐观”与“悲观”判断,构建情绪指标。根据情绪指标构建布林通道,当某日情绪指标剧增,突破上界时,看多,突破下界时看空。

你可能感兴趣的:(互联网大数据挖掘策略梳理)