开发十年,就只剩下这套架构体系了! >>>
经历了一段时间的机器学习工程实践后,我发现,最难被工程化的地方就是测度,而测度可以是不精准的,也可以是动态的。想要对测度进行标准化,目前来看是一件很困难的任务。
伴随着对机器学习领域的深入,我对机器学习自动化的信心也越来越强,但在整个知识体系的拼图上,始终有一块让我无法突破:
1.数据的获取可以使用爬虫技术自动化;
2.数据的处理可以使用特征工程自动化;
3.模型的选择可以使用贝叶斯自动化;
4.模型的参数调整可以使用参数穷举自动化;
可是模型关键指标的选取又该如何自动化呢?这里的关键指标就是指AUC,KS,MSE等衡量指标。
我一边钦佩发明这些指标的大神,一边又陷入了苦恼的沉思:
难道,正如某位朋友说的,不要试图把所有的东西都放到盒子里?
那如果我们无法将已知的经验自动化,我们孜孜不倦的发展科技和理论又有什么意义?
我想,一定还是有办法的。
于是我不断的去观察这些指标,所有的数据和指标的定义都指向了一种方法论,那就是数学领域里一个叫测度论的东东。
我也一直坚信数学是人类认识宇宙本质的抽象。只要能用数学描述的事物,就一定能自动化,只是时间问题。
可是在测度论的领域搜刮了一番后,我又失望了。
现代测度论,大多只是介绍已有测度的成果,例如各种已发现的定义,各种已知的关系。并没有组织一套有效的方法论去概括和总结一个测度的发明过程。
难道人类的进步永远只能靠一个个天才的灵光一现?这样的发展是多么不靠谱?对于习惯了工程思维的我,这样的结果确实不能让我满意。
从网上搜刮了一番,倒是找到一些:
《定性指标的设计、测度与分析》
http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y325489
《浅析统计设计的指标体系和原则》
http://xueshu.baidu.com/usercenter/paper/show?paperid=5ec44fc2eb823b1fc44c632fc6f5a2a9&site=xueshu_se
大致内容也是通过统计学的手段去量化定性数据
综上,测度不应该建立在太多主观因素的基础上,希望能尽快找到成熟的理论体系,去指导我们进一步的工程化!?
坐等大神来怼!希望我的思维是错误的