机器学习与量化交易∙笔记(1)

  • Four Paradigms of Machine Learning

    • Connetionism连接主义。
    • Symbolism符号主义。可解释性
    • Frequentists
    • Bayesian

    Connetionism、Symbolism、Frequentists属同一类;Bayesian是单独的一类。

    60年代各类人工智能模型都已经出现了,70年代热度降低,80年代神经网络较热,但是黑盒属性导致不好解释;95年左右出现SVM具有可解释性。06年出现第一个深度学习模型;2011年出现DBN。

    神经网络最厉害的在于特征(feature)的表示,导致其在金融中的应用并没有图像应用中那么神奇。因为图像的特征不好表示,而金融数据特征本身就挺好表示的。

  • Machine Learning三步走

    • Data数据
    • Model & Objective Function建立模型,并通过
    • Optimization优化;就是寻找函数极值
  • 统计学&概率论&机器学习区别

神经网络没有统计学背景,与SVM不同。

统计统计学习的上游学科,与概率不同。统计学的数学工具只有一个:大数定律,其他所有公式和定律都可以通过其推到出来。统计学要做的是通过一些数据建立预测性的模型。

做概率的不需要任何数据,也不需要跑任何程序。概率是基于测度论,是统计学背后更基础的一些数学理论。

统计学用10个点就可以做一个模型,机器学习可能2W个点才能做模型。

机器学习可以看做是数据驱动的统计学。

  • 量化交易岗位

    • 编程岗:不需要懂策略,编程好就行,重写函数库,让速度更快之类的。
    • 策略岗:需要大量实验来开发策略,程序不需要太好,能用就行。

    量化交易的社会价值之一在于提高了货币的流动性,扯淡的理由。

  • 机器学习与量化交易

    • Limit Order Book Modeling适用高频,数据噪声大,需要的功底高。
    • Price-based Classification Models基于价格的分类模型。输入市场价格及其衍生指标,输出分类(涨跌、买卖持有…)。
    • Text-based Classification Models输入文本,输出股票。噪声较大。适合用在风控。
    • Renforcement Learning强化学习,Alpha go用的就是强化学习。
  • 深度学习

    • CNN空间
    • LSTM时间,能用HMM的,LSTM都可以用。
  • 强化学习

Agent给environment一个action,environment返回一个reward。

选择一个好的policy,让返回的Reward最大。属于高阶知识,用的人不多,但是比较有效。

在历史数据上训练处一个Policy,自己买卖学出一个Policy。

  • 自然语言处理

Word2Vec是近几年量化交易与自然语言处理结合的最关键因素。

新闻文本对股市有影响,怎么表示文本呢?(将文本转为向量)

现在的编码可以实现。king - man + woman = queen。

编码的思想基础是:一个词的意义是根据上下文所定义的。是一种非监督学习。

  • 交易策略的评估

  1. 策略基本假设
  2. Sharp Ratio
  3. 杠杆
  4. 频率
  5. 风险
  6. W/L
  7. 模型复杂度
  8. 最大亏损(Maxium drawdown)
  9. Benchmarking
  • 回测

    • 策略筛选
    • 策略优化
    • 策略验证

回测造成偏差的原因主要有:

  1. 乐观主义偏差(special look back region)
  2. 时间旅行
    1. 程序Bug
    2. Train/Val/Test set
  3. 幸存者误差。随着时间移动,有些公司已经不存在了。以现有公司数据回测,本身就是幸存者误差。
  • 综述

  1. 量化交易的关键:如何定义输入特征。只需要输入没有标注过的、足够大的中文文档,就可以对每一个词进行编码。特征工程
  2. 特征定义不能选取未来数据。特征选择
  3. 事件驱动:系统开着就一直在循环,监听到一个事件放到队列里。[Event, Event Queue, DataHandler,Strategy,Portfolio,ExecutionHandler,Backtest]

你可能感兴趣的:(#,小白学机器学习,#,小白学量化交易,量化交易,机器学习)