9月25日下午,由数据猿联合中国信通院和量子金服共同主办的活动——科技创新下的量化投资,顺利落幕。会议中我们邀请到了6位行业的精英为现场观众带来了精彩演讲,深刻剖析了行业发展的前世今生及未来远景,我们将一些精华内容整理出来以飨读者。
记者 | 张俊潇
官网 | www.datayuan.cn
微信公众号ID | datayuancn
未来20年创新企业和资本将迎来10倍增长
因果树创始合伙人藤放带来了主题为“风险投资市场的量化投资研究”的演讲。
藤放老师认为未来20年中国将走向创新创业驱动的经济模式,创业公司和资本会大量涌现。中国如果未来想在世界上成为科技创新的代表,创新型企业和资本的数量还需要5到10倍增长。
而创新和创业的力量不是来自于体制内的企业,也不是来自于大企业,大企业很难颠覆自己,新的技术和商业模式一定来自于小的外部企业。当商业模式发生变革之后,小企业逐渐通过并购的方式吸收壮大,最终形成所谓的“破坏式创新”,未来20年创业和投资将会是个非常大的市场。
那么当下市场现状是什么情况呢?大致表现出三个不对称。
第一,信息非常不对称,投资市场跟二级市场不太一样。二级市场是非常规范化的市场,有定期的制度披露,信息技术审核,但是一级市场完全不一样,信息极度封闭,很多投资人的经营情况是不对外公开的。
第二,知识不对称的情况非常明显,所有的参与者中,那些占据知识高地的人利用这个优势赚钱,而那些不赚钱的人也完全不明白别人是怎么赚的钱。
第三,人际关系不对称,雷军说过投企业其实就是投创始人,有些优秀的企业家我认识而你不认识,那我就能投进去而你就进不去,这是个很浅显的道理。
但利用这些“不对称”去赚钱,仅仅是一个过渡期,不是市场最优化的常态,因为这些“不对称”的结果导致了投资市场的资本不对称。
随着大量企业和资本进场这种不对称的程度在加大,以前市场非常依赖人力搜寻投资项目、判断投资项目,但现在这种模式越来越难以持续下去,因为要找到优秀的投资经理和投资人覆盖整个市场是越来越难的一件事。
怎么解决这些痛点,迎接未来急剧变化的20年呢?藤放老师提出一个扳机理论,在金融领域有些事情是可以让机器扣扳机的,有些事情机器是扣不了扳机的。在未来金融领域里面,一级市场一定是人机结合的方式。
没有人会怀疑机器未来在金融领域的重大作用,但要如何理性理解机器所能达到的程度呢?
金融领域的人工智能,到底应用到什么程度了?
财鲸联合创始人王蓁为我们全景式地展示了人工智能在金融领域的实际应用现状。
信贷领域。传统信贷的交易模式要经历提交申请、提供材料、人工审批等繁琐程序。用户从提交申请到拿到贷款可能要几周甚至几个月的时间。而且要提交材料非常多,很多材料可能根本就提供不出来。
而现在由于人工智能的发展,凭借用户平常创造出的数据就可以用AI算法做授信。
但是很多初创企业实际上是不具备征信能力的,因为底层数据没有掌握在他们手里。跟美国三大征信机构数据互通的情况不同的是,在中国所有掌握数据的企业和机构互相之间壁垒森严。蚂蚁金服的数据一定不会给到腾讯,腾讯的数据也绝对不会给到京东,甚至各个银行之间的数据也没有打通,目前国内的基础设施还非常薄弱。
国内绝大部分AI初创企业只能提供5000元的上限征信,实际上5000元的信贷根本用不着AI征信,毫不夸张的说,随便一个企业任意放款,坏账率也不会很高。
“只有哪天企业凭借AI征信放出500万贷款,我才相信这是AI征信。” 王蓁打趣地说。
尽管目前还不成熟,可以预见人工智能在信贷领域的应用有非常广阔的前景,尤其在中国,因为中国没有隐私问题,数据可以进行买卖,为行业发展提供了良好的土壤。
第二,在金融咨询中的应用。金融咨询中最广泛的应用是金融客服,金融客服比较好理解,比如说招行的小贷。用户提出问题,人工智能对用户所提问题做语意分析,但从效果来看智能程度还比较低。
在这方面可以对比一下美国的发展程度,美国正在努力实现客服的人工智能化,因为人工太贵。中国为什么不够努力去实现?因为我们人工便宜,没有动力。机器发展一定阶段成熟后可能会超越人,但初期一定是人做的比机器好。但我们要警惕,再过五年美国可能会非常成熟,而我们还在原地踏步。
第三,人脸识别。人脸识别在应用层面分为一对一,一对N和N对N。
现在商用化的一对一人脸比对准确率为99.7%,这个数字看起来似乎很厉害。但要知道微信支付每天有1亿笔交易,这意味着每一天人脸比对交易将会带来30万笔的错误,这是任何一家金融机构都不能承受的。
现在也没有一家银行能实现,门前ATM机刷脸取款。千分之三的错误率忍受不了,百万分之一错误率也忍受不了
现在AI在各种竞赛中已经证明自己能“超越人类”了,但是在商用化层面还远远不够。
第四,支付安全。这方面方面美国做的很超前,王蓁谈到自己在美国生活的经历。
“一个实验室的同学,信用卡被人盗刷了8000美元,但他完全不用担心,因为银行会全部赔偿。有一次我在海边,运通卡被海浪吹走了,最后运通卡也赔给了我。美国金融机构必须要识别哪些人是真得出现了这种情况,哪些人是故意欺诈,美国金融机构是有这个动力的,而国内没有。”
第五,反洗钱。目前国内反洗钱主要还是靠人,农行和中国银行前两年在美国被罚款,就是因为监管不到位。
第六,保险领域。国内现在有些保险公司号称AI技术和传统保险公司合作,把传统保险公司线上化,这不算是人工智能,只能说工业4.0自动化。
相较之下,一家以色列公司Insurify,他们提供个性化的车险解决方案,用户说出自己的车牌,企业连接公开的数据库,用户提供父母、孩子的相关数据,企业马上就能产生一套个性化的保险方案。
第七,投资投研分析和决策。王蓁举了一个具体的例子,这是他自己参与的项目——利用遥感技术预测新疆石河子市的棉花产量。从卫星遥感做一步步的处理,完成去雾霾去云层去阴影去水汽以及相变、形变分类等几十个步骤,这些工作完成之后提取出特征,预测新疆的棉花产量和实际的棉花产量,从7月份可以预测10月份的产量。当把所有的植被都认定为棉花树的时候,在这么粗糙的分类情况下准确率是78%。后面又进行了乔木和灌木的细分,细分之后的准确率达到了90%,这是一个非常惊人的数字。
总体来说,现在行业发展的大趋势很明确,将会慢慢经历从通道到券商到产品再到财富管理的过程,而且未来两年一定会迎来跑马圈地的高潮期。
如何构建稳定的量化交易平台
聚宽联合创始人朱铭,带来了关于如何构建稳定的量化交易平台的演讲。
朱铭介绍说,根据国外成熟市场的经验,国内量化投资到2020年至少会有超过3万亿的市场规模,而现在只有3000多亿的规模,后续发展空间非常大。
量化策略是量化投资的关键因素,而实现量化策略需要经历几个步骤:第一步,完成准确的金融数据,这是非常重要的基础条件;第二步,进行策略回测;第三步,模拟交易去验证具体策略。
具体都是怎么实现的呢? 朱铭利用聚宽的产品进行了介绍。
策略研究。它提供了一个在线的研究策略环境,这个是基于Python语言做的一个策略,提供的策略需要所有的API获取股票价格到满足卖出条件,如果有用户想要做策略的话,针对这些API可以很方便的实现一个策略,实现策略之后就可以通过回测模型进行判断。
回测模型是怎么操作的呢?产品会统计这个策略的累计收益、转化收益等所有指标,通过简单运行回测就可以知道这个策略在历史上过去三年过去十年表现怎么样。不仅如此,还可以看到这个策略每一笔的交易回收收益,通过回测就可以看到这个策略在历史上的条线。
另外聚宽还引进了微信工具,其实每笔交易都会产生交易信号,通过绑定微信之后就可以根据每笔交易进行分析。
实盘交易这块国内对于第三方接入实盘有些限制,聚宽和券商进行了合作。通过把策略上传到广发的实盘交易系统,就可以看到实盘交易。另外企业还提供量化投研客户端,这个客户端可以在本地进行回测,本地运行交易,能够最大程度保证策略的安全性。
资管运营服务体系的构建
量子金服技术合伙人曾波,讲述了自己心中资管运营服务体系的构建问题。
曾波把整个资管服务体系分为六个部分,其中募资服务和投资人服务是两个比较重要的内容。
曾波首先谈到募资服务,募资服务在服务体系里面还是比较简单的。它主要的功能是维护资源列表,用户画像,提供各个维护信息进行筛选。最早的时候像支付宝、微信这样平台的产品,只需要注册就可以。现在如果想进入这些平台需要用户提供年收入、日常花销、月收入这些信息,来确认用户能够承担多大的风险,这也是典型的用户画像。
整体来说,募资服务类似于CRM系统,难点在于数据来源,以及数据的准确性和及时性,一方面有很多的潜在客户但不一定都知道,一般来说公募基金专户、子公司、券商、期货资管、集合信托这些渠道,可以得到一些资源列表。
接下来是投资人服务,相对于募资服务,投资人服务是给投资人展示我有什么样的优势值得他去投资。
主要工具分为投前投后,在投前基金的筛选上,如果了解投资人比较详细信息的话,根据数据库里面的信息做推荐。投后工具主要是指假如投资人买入私募基金的话,可以根据自己的情况和基金情况进行投资人优化,给出合理的建议。
当然风险控制也是很重要的一环,风险控制相对于基金和市场来说,有时候盈利能力比较强,有时候盈利能力比较弱,通过风险控制能够给投资人一定的提醒。比如告诉他管理人出现什么样的变动,进行一定预警,来及时优化自己的投资决策。
AI+金融的智能投顾实践
理财魔方的创始人袁雨来,带来了 “AI+金融的智能投顾实践”的演讲。
袁雨来指出中国投顾市场面临着一个困境,国内的理财市场,特别是浮动收益率市场缺乏大量的专业理财顾问。中国短时间内崛起了4000万中产阶级家庭,市场供需失衡,短时间内不可能靠培养一个个的人才来填上这个缺口,所以只能靠机器,只能靠智能投部解决这样庞大的需求。
袁雨来介绍说:“理财魔方投顾是一个完整的投顾体系,由三个模块组成。”
第一个,金融数据管理模块。这个模块是用来整合不同来源和市场的资产数据,完成数据的格式化、标准化、准确性的交易。大家可能会有疑问?企业买一个商用数据源不就行了吗?但问题在于,国内有三大商用数据源,每一家都存在或多或少数据不准确、不及时甚至数据错误的问题。
“所以我们买了两个商用数据,又自己写了一个爬虫抓了第三方的数据,用三个数据来做大量校验工作。”袁雨来说道。
第二,市场景气度分析。如果企业能够对大的资产收益和风险趋势预测更准确的话,就会把风险控制的更准确,收益做的更好一些。理财魔方采用了7个机器学习算法,对18个大的资产,做宏观的分析与预测。完成这个复杂工作的,没有一个宏观分析师,全是利用机器进行预测的,当数据维度更多的时候,其实传统的量化算法已经很难适应了,AI算法能够在高维空间里面做的更好。
第三是资产池的管理。也就是怎样选择优质的资产,比如用户选了A股的资产,A股里面具体该配哪个基金才最合适?
“我们在做资产配置时有一个风险收益,会做大类配置、中类配置、细类配置,最后有个三级的风控体系,最后兜住风险的底。因为宏观的大类资产配置,一定程度上起到分散和对冲的作用。做因子评价的时候也会起到风险的评价和对冲,这些都会有意外,特别是在中国市场还需要有兜底的风控体系来保证。”袁雨来说道。
第四个,用户分析。一个是用户风险能力承受的分析,产品不断的采集用户行为数据,交易行为和使用行为,以及会不断采集用户的外部特征,然后基于这些数据对用户的风险进行一些调整。其次还要对用户的心理波动进行控制。当市场发生波动,预感用户情绪发生变化,给他发个信息说,市场没事正常的波动不要担心稳住,用户就在里面稳住了,这被称为心灵的按摩。
“很多实践证明,只要坚持在市场的长期投资,最后收益一定是可观的。”袁雨来说道。
大数据因子在量化投资中的探索与实践
量财富创始人何丽峰带来的是“大数据因子在量化投资中的探索与实践”的演讲。
他指出,大数据因子在量化投资市场中的应用在这两年变得异常火爆,首先要明确一个概念,大数据指数是包括大数据因子在内的多个因子组成的,那么大数据指数怎么做出来的?以大数据100为例,这是深交所南方基金和新浪财经三家公司合作的一个指数。众所周知次新股容易被炒作,股价也有很高的不确定性,于是就先把这些次新股替掉,在这个基础上,加了一些财务因子,还有一些具有市场驱动力的因子,最后再加上新浪大数据的因子。
前面几个因子很好理解,这里着重展开介绍一下新浪大数据因子。它是根据新浪财经频道下的股票页面访问热度,来计算单个股票的热度得分,新浪财经是财经类的一个资讯平台,里面有每个股票的信息,页面被打开的次数其实就相当于这支股票被关注的热度。
同时,新浪大因子还增加了一个新闻报道的正负面影响,相当于在财经分析基础上加上了一些情感分析。比如最近大家都在关注乐视,大部分都是负面新闻,可能对它的股价是利空的影响。
根据这样财务因子得分、市场驱动因子得分、大数据因子得分进行多因子组合,进行综合打分,最终得到大数据100指数的成分股。
何丽峰继续谈到,怎么利用因子去分析量化投资的基本框架?他用搜索因子的一个例子做了个指数,来形象展开说明。
百度指数有个接口比较容易拿到数据,把搜索新闻量做成一个指标,比如大家在百度上搜索万科,搜索多的话就表示热度比较高,搜索少的话就表示热度够比较低,每天会得出一个值,最终会搜索到跟它的成交量和收盘价类似的数据。因为每天都可以得到这个数据,然后对数据进行加工,观察加工后的数据跟股价的涨跌有没有关系。因为每天的指数可能波动比较大,所以要做一个月的平均值,得出以月为频率的数值,以及每个月的股票走势分析。
万科在大多数情况下新闻数是比较少的,但是在某个阶段,比如刚被举牌的时候,新闻量突然暴增,而这个时候股价波动率也比较大。这也就表明,这样的搜索因子可能就是有效的,下一步就要按多因子分析一般流程做有效性的检验,在有效性的检验中把IC滚动的值,大部分在0以上的,就定义为正相关的因子。
关注率越高可能未来股价涨的概率更大一些,完成这些工作之后,就可以进行业绩的回测表现。按照新闻总数的打分,把一个月新闻总数排名在前20%、前40%、前80%、前100%进行打分,发现单调性排名20%和排名40%的区别不大。
排名关注度低、新闻报道最少的确实是表现差一些,这个时候单调性还可以。把每次表现最好的股票前20%买入并持有,每个月调仓一次最终得到一个净值曲线,最后可以看到过去几年里面,还是可以跑过沪深300或者是中证500指数。拿沪深300做对冲,可以得到12%的超额回报,年化收益率也大于10%。拿沪深300+中证500对冲之后,发现回测比较小,超额收益还可以。
经过这样的流程检验之后,可以判定因子在整个评判体系里面是相对有效的因子,是可以使用的。
敬请期待,数据猿即将于10月25日举办的“2017金融科技价值—数据驱动金融商业裂变”高峰论坛!投递案例、文章、产品,联系视频&文字专访,请勾搭数据猿~
来源:数据猿