读书笔记_中国期货市场量化交易(李尉)02

第四章 基础统计模型

金融数据(问题)和传统数据(问题)差异:传统数据(时序等)更稳定,金融更博弈,高噪
对机器学习模型影响:模型简单则无法学习充分,模拟复杂则容易过拟合。(个人补充:对所有机器学习都有这个问题,但特殊在与传统问题我们人类可以取得较好结果,大多情况下,我们可以对其进行针对优化(构造特征等),而金融数据,即使我们人类也无法对其进行准确描述和建模,所以也和难优化,即使对于是过拟合还是飞过拟合都无从判断(所谓过拟合和非过拟合,不能单单通过测试集准确率-验证集准确率>0or<0判断,应为凡是测试集准确率必定高于验证集合))。
金融数据R2较低,一般采用相对性筛选,排序选最好就行了。
p和t-value:传统统计指标在金融数据中也无需太关注,由于其不满足样本的独立性和一些概率分布的假设
机器学习处理金融是过拟合了,(个人认为这也是不对的,不确定作者怎么得到这个结论的,如果是测试集准确率大于验证集,那么所有机器学习问题都过拟合了,单独对金融数据申明这一点并不合适)
对于样本外不佳的处理:l1,l2正则化

ridge:解决过拟合,去掉不重要特征(大体没问题,但需要先做标准化和归一化,作者在书中并未提到,如果不进行标准化和归一化,这么做就是错误的) 
lasso:解决过拟合,去掉不重要特征(这也是不对的,lasso主要是解决特征共线性的,而且lasso去掉的特征也不是不重要,而是和另一个特征高相关了,和特征本身重不重要没太大关系,对过拟合可能也有微弱削减,但削减其实依靠减少特征实现的,作用非常微弱)  

第五章 复杂统计模型与机器学习

(拙见:这一章整个都在验证不同算法,但实际机器学习问题,7成工作是在做特征工程,特征工程才是机器学习问题的核心,可视化,分析,转换等,但作者这里完全没有提到,只是把算法当做黑箱套用,分析出较好算法)
gbm算法,随机森林等算法
跨品种因子:把类似品种的另一个产品因子也拿过来,当做本产品的因子使用(我大不大理解,这么做意义,个人以为副作用,引入无理由的高相关特征,容易过拟合)
传统数据相对金融数据优势:传统问题稳定(人类误差低,理论上可以处理的)。数据分布一致。信噪比高(这三点非常认同)
拙见:这一章和上一章很多细节都是需要在斟酌的,不准确的信息太多了。

你可能感兴趣的:(期货市场,量化交易,读书笔记,李尉)