量化交易-数据源获取二

背景

工欲善其事,必先利其器。想要做量化,数据是基本,相关数据主要分成两个部分,此篇分析非交易数据的获取。

存储方案

考虑到非
离线要求:数据源大而广,适合离线分析,完善的数据补全方式
在线要求:数据小而快,为了能最快的获取在线分析要求的数据,在存储的时候应尽量保存最小集,保证数据库查询的效率
技术选型:离线数据引擎-maxcompute, 在线数据引擎-mongodb

爬虫

框架: scrapy
数据源: 新浪财经,同花顺和东方财富
问题分析:新浪财经和同花顺的数据比较好获取,内容赤裸裸的放在html 里,基本没有做js的数据隐藏,反爬虫的策略也比较简单。东方财富的数据基本都是通过js渲染出来的,需要使用浏览器模拟,比较影响大规模爬取的性能

Name odps表 来源 更新周期
股票概念数据 quant_crawler_concept 同花顺 不定期更新(手动)
股票重要事件 quant_crawler_event 同花顺 每日更新
股票机构调研 quant_crawler_survey 同花顺 每日更新
股票股东人数 quant_crawler_holder 同花顺 每周更新
股票公司公告 quant_crawler_announcement 同花顺 每日更新
股票新闻数据 quant_crawler_news 同花顺 每日更新
研报数据(部分) quant_crawler_report_ths 同花顺 每日更新
研报数据(全量) quant_crawler_report 同花顺 每周更新
股票行业分类 quant_crawler_industry 同花顺 不定期更新(手动)
基金持股 quant_crawler_fund 东方财富 每三个月更新
分配预案 quant_crawler_profit_share 新浪 每日更新
业绩预告 quant_crawler_forecast 新浪 每日更新
限售股解禁 quant_crawler_xsg 新浪 每日更新
融资融券 quant_crawler_rzrq 新浪 每日更新
业绩主表 quant_financial_report 新浪 每日更新
盈利能力 quant_financial_profit 新浪 每日更新
运营能力 quant_financial_operation 新浪 每日更新
成长能力 quant_financial_growth 新浪 每日更新
偿债能力 quant_financial_debtpaying 新浪 每日更新
现金流量 quant_financial_cashflow 新浪 每日更新

你可能感兴趣的:(量化交易-数据源获取二)