《Advances in Financial Machine Learning》读书札记 (一)

此书源于一位朋友的推荐,看过标题后,觉得是又一本介绍行业发展的综述,遂定义为某周末咖啡厅的伴读。真正开卷之时,是在清明出行的高铁,随手翻看百页后, 竟觉得是学术、实践双优同行的深思之言,称得上近几年同类书中排前三的精华,书中大有可咀嚼、印证、深思之处,于是就有了这个系列的读书笔记。原书是英文写成,我的读书笔记,尽量用中文,一来上让自己用母语将自觉可深思一遍可以自动降速阅读,达到印证推敲的精读定位,二来也为一些不了解此书的国内同道省下些阅读时间,并方便与同道讨论。
前言 第一章 Financial Machine Learning as a Distinct Subject--作为一个独特学科的金融机器学习

  1. 与投资有关的书可分为两类,第一类出自教学经验丰富却从未在市场中实践自己教授内容的教书先生之手,此类书中有用优雅和数学公式描述从未存在过的世界,一个定理在逻辑上合理并不能保证其在现实中合用;另一类作者的诠释缺乏严格的理论基础,这些人用不适用的数学工具描述自己观察到的市场,造成模型的过似和不适用。本书的一大动因就是填充学术与实践之间的割裂。
    旁注:拿走江湖卖艺而言,前一类人是“能说不能练嘴把式”;后一类人,有些是由于思维不足够完善,错把特定时期的市场走势当一般规律,此之谓“假把式”,有些像一些传统的主观交易员,其交易依据更多是盘感和直觉,而没办法把自己的交易经验用公式和模型描述出来,此之谓,“光练不说傻把式”,当然也有很多传统交易员秉承“知者不言”的华尔街古训,是不愿意说的。说到学术界与实践的脱节,近日看到某大学还在教诸如:int a=1,b=2,c=3;
    printf(''%d,%d,%d,%d'',++a||++b&&++c,a,b,c)输出的结果是啥之类的问题,也可一叹吧(也许是笔者才疏学浅,不理解此类问题的妙用,有不同意见者欢迎留言)。作者既然抛出此类问题,其隐语当然他是能够跨越空上鸿沟的人,随手搜一下作者,copy如下:
    Dr. Marcos López de Prado is the chief executive officer of True Positive Technologies. He founded Guggenheim Partners’ Quantitative Investment Strategies (QIS) business, where he applied cutting-edge machine learning (ML) to the development of high-capacity strategies that delivered superior risk-adjusted returns. After managing up to $13 billion in assets, Marcos acquired QIS and successfully spun-out from Guggenheim in 2018.

Since 2010, Marcos has been a research fellow at Lawrence Berkeley National Laboratory (U.S. Department of Energy, Office of Science). One of the top-10 most read authors in finance (SSRN's rankings), he has published dozens of scientific articles on ML and supercomputing in the leading academic journals, and he holds multiple international patent applications on algorithmic trading.

Marcos earned a Ph.D. in financial economics (2003), a second Ph.D. in mathematical finance (2011) from Universidad Complutense de Madrid, and is a recipient of Spain's National Award for Academic Excellence (1999). He completed his post-doctoral research at Harvard University and Cornell University, where he teaches a Financial ML course for the School of Operations Research and Information Engineering. Marcos has an Erdős #2 and an Einstein #4 according to the American Mathematical Society.

2.金融机器学习项目失败的几个原因:

  1. The Sisyphus paradigm (西西弗里神话,团队协作劳而无功问题)
    1.1 主观交易者凭主观判断及直觉而非特定的理论和逻辑工作(如果不是这样,那他们就变成系统型交易者),主观交易者的决策通常都是基于某个“故事”,且没有人能真正完全明白他们投资背后的逻辑。这并不意味着主观交易者不能成功,但他们必须独立工作,从而达到分散分的效果,如果你雇佣50个主观组合经理并让他们作为团队 作,在相互影响下,这些人的意见趋同,其结果是你用50个人的工资相当于得到一个雇员的效果;
    1.2. 将这种独立工作的思路用于量化或机器学习项目时,同样有问题,如果雇佣50个博士,让他们独立工作并在6个月内提交工作成果,其结果通常是每个人都疯狂的寻找交易机会,其产出通常是:(1)拥有亮丽回测结果的过度拟合;(2) 标准的因子投资,策略已经被太多投资人使用不能产生高sharpo,但至少有学术支持。这两个结果都会让投委会在失望中取消项目。即使这50人中有5人发现了真正的机会,5个人的收益也无法覆盖50人的支出,从而这5个人也要另谋高就。
    旁注:按我的理解,除了克服人性的弱点,在技术上,量化的一大功用就是可以将不同的投资和交易维度应用于多个不同的市场和时间周期,从而达到更优的结果。量化交易应该是从基本面、技术机、消息面等不同维度寻找拥有概率优势或波动性平抑的机会,因此,在我看来,对于量化交易而言,团队协作尤为重要。

  2. 资本市场发展到今天,已经几乎不存在macroscopic(肉眼可见)的alpha,alpha的寻找越来越向细粒度微观化发展。
    旁注:这一点不完全同意,我认识一些传统交易员只用一两套简单的策略就可以交易为生,据说海龟交易法则在期货市场上还在被广泛应用并盈利,最经典的“多因子模型”在国内市场,还在最经典的因子库和最简的线性回归为基础应用,不过作为量化研究人员,挖掘新的因子肯定是必须的,保持这种挖掘能力也能帮助我们降低被市场淘汰的风险。
    策略生产线(策略的生命周期)包括以下环节:
    3.1)Data Curator(数据准备):
    这个环节负责数据的收集、清理、指数化、存储、调整以及向生产环节发布。数据提供者应该熟知所处理金融数据的背景知识,以及各交易品种间的细微差别,如股票的并股、拆分、投票权等。
    3.2)Feature Analysts (特征分析):
    此环节负责在源数据中提取有一定预测能力的信息,团队成员应该是信息论、信息提取处理、可视化、标注、加权、分类及其它与特征分析相关技术的专家。比如通过交易簿记中提取市场多空信息(国内的盘口分析好像和这个比较相似?),这种特征通常不能独立构成交易策略,但有益于交易执行、流动性风险监控、作市、头寸建立,一个误区是认为特征可以直接作为策略,其更多是对信息的收集和归类。
    3.3)Strategists (策略):
    这个环节将特征加工成实际的交易算法,策略分析师通过分析特征开发投资策略。策略分析师的任务是通过观察特征形成交易想法并解释这些想法。策略仅是验证想法的工具。这个环节的团队成员是对资本市场和经济有深刻理解的数据科学家。需要注意的是,形成的想法应该能解释大量上述特征。想法的背后是行为金融偏差?信息不对称?管理限制?特征可以用黑盒手法提取,但策略必须构建在白盒上( 即可解释)。简单的将特征组合在一起并不能构成交易想法。当交易策略完全成后,策略分析师将实现整个交易想法的算法和原型代码提交给回测团队。
    3.4) Backtesters(回测):
    这个环节负责评估交易策略在不同交易场景下的盈利能力。其中一个场景是用历史数据回测,即假设历史会重演,但历史行情仅是随机过程中的一个可能结果,其并不能在很大程度上代表未来。回测还应该针对策略的优缺点进行测试和评估。这个环节的团队成员应该是对经验和实验技术有深刻理解的数据科学家。一个优秀的回测人员应该通过对源数据的分析理解交易想法的由来并注意预防过拟合。
    3.5 Deployment Team(策略部署团队):
    部署团队负责将策略代码与生产线对接。有些部件可以为多个策略共享,尤其是具有共性的策略。部署团队的成员是算法专家和数学编程高手。部署团队的任务有两个:1)保证部署的代码逻辑与策略原型代码完全一致;2)优化原型代码的实现,以保证交易延时最小。出于对实时性的要求,这个团队非常依赖于处理高度、自动化服务器(Jenkins)、向量化、多线程、多进程、图像处理芯片(GPU-NVIDIA),分布式计算(Hadoop),高性能计算(Slum)以及并行计算等技术。
    3.6 Portfolio Oversight (组合监督):
    策略布置完成后,即进入监督执行环节,包括:
    1). Embargo(准入):策略在测试集外的数据进行测试,这个环节不需要实时数据,如果这个阶段的结果与回测结果一致,策略进入下一阶段;
    2). Paper trading(模拟交易): 在这一阶段,策略在实时数据上模拟执行,这个阶段要考虑数据处理延迟、计算延迟、执行延迟以及其它在数据到达和建仓之间的时间延迟。模拟交易可以持续很久,直到有足够的证据表明策略表现与预期一致。

3).Graduation(实盘):策略进入实盘阶段,策略可以独立执行,也可以作为交易系统的一部分(如用于交易信号产生、信号过滤或资金管理),在这个阶段策略评估更加精细,包括风险、收益和成本归因。
4). Re-allocation(资金再分配): 基于策略表现,策略在分散组合中经常自动重新评估。一般而言,策略的资金分配遵循凹函数,初始仓位小,随着策略按预期运行时间的增加,仓位逐渐增加。再过一段时间,随着策略衰退,他们再逐渐缩小。

5). Decommission(策略终止): 所有策略都最终都会终止。当策略的表现在足够长的时间不符合预期时说明策略背后的理论已经被实证否定,此时应终止策略。

你可能感兴趣的:(《Advances in Financial Machine Learning》读书札记 (一))