大数据及其衍生技术在最近几年时间里成为了一门被市场和大众热烈追捧的“新概念”和“新课题”。各种关于大数据的研讨及其应用层出不穷:“大数据风控”、“大数据扶贫”、“大数据城镇”等种种新词汇在各类媒体平台上不断刷洗着读者的眼球,同时也激发了人们对大数据所代表的某种“无所不能”的巨大憧憬。
对于金融行业和金融研究领域,“大数据金融”仿佛成为了一门新兴学科,业界期望这样的“跨界整合”,会给金融行业和金融学术研究开创新纪元。
互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习 欢迎进阶中和进想深入大数据的小伙伴加入
大数据不是“门外的陌生人”
其实,对于金融研究领域的从业者而言,大数据技术早就融入进了绝大部分研究者的日常工作当中。
如果只停留在对大数据字面意义的理解来分类,所有的金融实证研究例如应用型金融资产定价、市场微观结构等,早在三四十年前就引入了对海量数据的统计分析技术。最著名的案例包括尤金·法玛和肯尼斯·弗伦奇教授在上世纪九十年代初期,一系列关于市场风险溢价因子的研究论文,后来对于资产组合管理理论以及具有里程碑意义的三因子理论模型的提出,都是基于对美国和当时全球主要发达国家的证券市场过去几十年的交易数据深度统计研究的结果上获得的。更不要说当代关于市场微观结构的理论文献,每一项成果的背后无不凝聚着对高达十几甚至上百千兆字节海量高频行情和交易数据深度挖掘而归纳出的智慧结晶。所以传统的大数据应用对于金融理论研究领域来讲,其实并不属于门外的陌生人。
但是如果我们只着重拓展传统意义的大数据在金融上的应有,就会制约和束缚金融研究的创新和发展。大多数人对于大数据的理解停留在了它是“海量数据”这么一种直观感性的认识基础上。如果从事金融研究的专家学者,把思维桎梏在了这一狭隘的眼界上,那么他所做的研究则会在创新的道路上越走越窄。例如现在的某些金融研究论文或者金融理论模型的改进,动辄就要采用上百千兆字节的数据,对于一个溢价因子重要性的佐证,要调动全世界全市场的数据来统计。资源和精力的损耗不说,研究成果的重要性以及贡献度和他所付出努力也不成正比。
大数据的概念,并不能仅仅局限在突出数据的“多且海量”这一个方面的特征,其实它也需要囊括对数据“新且多元”的这么一层深刻理解。针对金融行业以及金融研究领域的大数据应用上,更应该强调它“新且多元”的一面。
过往我们所熟悉的金融研究文献,它需要搜集采纳的数据一般就是金融资产的市场交易数据。但是现在越来越多的创新型金融研究理论和模型的研发,已经跳出了对传统交易数据的唯一路径依赖,而采用了多样化的数据来源和格式,例如卫星影像数据、互联网搜索数据、人脸识别数据、图像声纹数据、媒体文本数据和社交通讯数据等。
“新且多元”的大数据,已经越来越明显地改变了金融行业的从业生态和重塑了金融研究的实践思维。
“新且多元”的大数据
金融场景结合“新且多元”的大数据实践应用,最具有幽默感的案例之一,就是本世纪初几名美国有线电视新闻网(CNN)财经记者,对时任美联储主席格林斯潘的公文包厚度和联储加息相关性研究的分析报道。他们发现了一个规律,但凡格林斯潘的公文包是鼓的,很厚,联储当日或者当季的加息决定可能性就很大,从而会影响一系列市场金融产品的价格和大盘走势。这一指标,后来也被学界定义为“格林斯潘公文包”指标。它突破了当时研究美国股票市场溢价因子和利率市场期限结构对传统数据源的依赖思维,而且研究成果也具备相当的说服力和显著性。
再例如美国诺特丹大学著名华人学者笪治、高芃杰以及约瑟夫三位教授,在2010年发表在国际顶级金融研究学术期刊上的文章,就将金融资产定价理论研究结合了谷歌互联网搜索热度指数,并且成功验证了二者之间有效关系的显著性。笪治教授将社会大众对于在美国证券交易所上市的股票(罗素3000指成分股)在谷歌上的搜索频率做成了“热搜指数”(SVI),通过统计回归,发现“热搜指数”不仅仅对预测股票在短期内高额回报有相当大的显著性,对于股票长期的价值回归也具备统计有效的预判性,他们的究结果同时也适用于新上市的次新股。
与此类似,我和同事发表在2018年金融研究评论(The Review of Financial Studies) 的文章,将新闻报道的历史文本数据做成了“舆情指标”,并且通过研究发现了市场化运作的财经媒体所报道的“舆情指标”,对于中国上市公司的股票回报率和高管层替换等重大事件都具有显著且有效的相关性。
“新且多元”的大数据,目前不仅仅成为了金融研究理论突破的重要资源,对于不同场景中的金融实践,也开始慢慢承担起了商业战略决策不可或缺的论证依据。
美国华尔街日报在2014年的一篇报道中介绍了一家高科技数据分析公司,该公司专门向金融市场和机构提供各种各样的另类数据和分析报告,并帮助用户通过这些报告在金融市场实践操作中获取了不菲的投资回报。他们提供的数据和应用场景,包括通过商业卫星对地球测绘扫描的图像,获得零售业巨头沃尔玛实体店门口停车场占用率数据,并且将该数据时间序列化后比对过往沃尔玛公司的盈利情况,从而能主动预测下一季度沃尔玛公司的财务公告。同时他们建议投资者根据结论提前交易布局,获得盈利。再者,同样是利用卫星的地球测绘光谱成像数据,获得美国农业产区各类农产品生长要素(水源,气候,灾害等)的变化数据,根据数据来判断农产品现货市场的真实供需关系,帮助贸易商和期货投资者交易决策做出科学判断。
大数据对金融监管和风险防范的应用,也不断地刷新着人们思想创新意识的边界高度。
大数据征信技术就是当前在金融监管领域属于前瞻性的课题。传统的征信模型往往依赖的数据源比较单一,除了个人在不同商业银行过往的贷款信用记录,就是一些水、电、煤气、网络或者手机的欠费记录。这些数据不能完整地表现出企业或者个人的信用曲线,依据这些数据所做的征信结论,往往偏向事后风险管理,对事前、事中的风控指导意义并不是很大。
但是如果可以引进能从不同角度反应企业或者个人的“新且多元”的大数据,则能给整个征信工作带来全新的改变。例如,很多征信模型开始引入社交软件的通讯数据,模型将根据用户平时社交聊天的关键词,来判断一个人对于诚信问题的态度,同时结合各种媒体过往的文本信息,去系统性追溯被征信人过去是否在不同城市和地点有过信用污点的报道和司法纠纷(中国目前对个人出境旅游是否产生有损国格的行为以及乘坐高铁是否有影响行车安全的记录,都是以文本信息的形式存在),最后人脸数据和识别技术可以帮助金融机构科学地判断拟授信人和被征信人是否一致等。这样大数据征信,不仅可以帮助金融监管机构动态地掌握被征信人实时信用状况,同时也把征信工作从事后风险管理,推向了事前、事中的风险预防,从而大幅度降低整体社会的金融风险。
互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习 欢迎进阶中和进想深入大数据的小伙伴加入
可预见的问题和挑战
我们有理由相信,将各类“新且多元”的大数据应用结合金融理论研究和实践的不同场景,他们会摩擦出各式各样的创意火花和成果。但是在大数据技术和金融相结合的发展道路上,也存在一些可预见的问题和挑战。
从大数据金融应用实践的角度看,目前社会争论比集中的地方是关于大数据安全、个人信息保护、技术垄断和滥用等几个问题。这几个问题本质根源,总结起来,是可以归纳为当前大数据行业高速变革的社会需求和针对大数据的立法司法工作进度不匹配的发展之间的矛盾。目前全世界的法律都没有明确界定数据源的产权归属问题(数据归谁),制造数据的社会实体(自然人或者法人)和实现数据交换的平台,以及通过数据交换过程中新衍生的数据,三者之间的法律定位和隶属关系远达不到有法可依的程度。对大数据垄断和滥用行为界定缺乏足够的法源法理依据,这部分的法律空白将会导致大数据寡头垄断以及竞争不充分等一系列后续发展问题。但是反过来说,要是针对大数据行业发展的立法过于超前,也将会遏制该行业未来的创新能力。所以这方面的挑战确实是摆在政府面前需要谨慎处理的难题。
另一方面的问题和挑战是关于大数据技术结合未来金融理论研究发展的路径选择。这方面的问题,例如大数据的“数据格式”和处理该数据的统计模型存在一定的不匹配,以及对于数据应用的原理缺乏严谨科学的理论认证。就像我们前面所说的,大数据目前能展现的格式多种多样,有传统的数字格式,也有图像格式、音频格式、文字格式等等。但是目前的金融统计模型只能处理传统的以数字格式出现的数据。研究界对于非数字格式出现的数据,缺乏一种科学的处理方案,最常用的手段就是把非数字格式的数据简单的数字化,例如对互联网和媒体的关键词数据进行频率化处理,来表达一种“多或者少”以及“有或者无”的统计。在这处理过程中,会出现数据的扭曲和失真问题,加上作者对数据的解读会具有一定任意性和误导,从而让整个研究的成果或多或少带有一定的偏向性。当然出现这问题的关键在于目前主流的金融统计模型,还不具备处理表现格式多样化的大数据能力。直白地说,现在没有一个统计回归模型能直接处理图像、音频和文字数据的功能,这方面基础研究的不足,已经制约了大数据在金融领域里面的实践应用。
今后我们要做的是对各类大数据“能不能用”、“为什么能用”、“如何应用”等问题作出系统性的解答,这样才能明确大数据和金融应用与理论探索的道路。