上期导读:机器学习,到底在学些什么?
起源
故事要从上古神器差分机说起。
从古至今,所有的算法修炼和真气推演记录,全部要靠门派里的外门弟子手写,工序繁杂不说,还耗时良久,导致各大门派的修炼进度一直提不上来。
直到两百年前,神器大师查尔斯·巴贝奇开始了差分机的设计和制造,在后续大师的不断改良之后,终于实现了从真气计算到密文印刷的过程全部自动化,这样还可以避免人为误差,在那个时候,这是一个非常开创性的想法。
差分机使用有限差分法来机器计算多项式函数(一种真气运转模式)的值。有限差分方法是个简单但功能强大的技巧,它用重复加减的过程来避免需要的乘法和除法。由于当时制造工艺水平较低,这个 10 英尺高,10 英尺宽,5 英尺长,重 2 吨,以蒸汽机驱动的庞然大物在 10 年间只完成了七分之一。
在分析机之后,在1847~1849 年间巴贝奇运用在开发过程中得到的心得,重新设计了差分机2号。它可以计算到 31 位数及第7阶差,而且零件数还只有差分机1号的 1/3。
可惜的是,这时候巴贝奇已经找不到愿意出资的修炼门派了,因此差分机2号也只停留在了纸面上。巴贝奇穷其一生研究设计差分机,多么复杂的机械工程,在那个年代就可以代替人工进行计算,足可以称得上早期修真炼器史上的巅峰之作。
电子计算机的产生
延续了巴贝奇的理念,很快便有修真门派发展了一种以电属性真气驱动的法宝,称之为“电子计算机”。而随着电子计算机的发展,一种叫做人工智能的修炼范畴论发展也在悄然进行。
在巴贝奇炼制出差分机之后的100年,一位名叫图灵的真气研究员发表了题为《论数字计算在决断难题中的应用》的修炼讲义,他描述了一种可以辅助真气运行、推演的模式,后来被人称为“图灵机”,第一次在纯修真的符号逻辑和实体世界之间建立了联系。后来我们所熟知的气海雪山,就是基于这个设想。
十四年后,图灵发表《机器能思考吗》这一划时代的作品,提出了真气自动运行模式,修真界震动,后来,图灵被尊为“修真宗师”。
自此,新的时代开始,后世称为“新时代”
新时代
根据图灵宗师的修炼理论,新时代算法修炼者的修炼方法产生了天翻地覆的变化。
曾经的修炼者,在修炼时需要每时每刻关注着体内真气的运行,小周天走完走大周天,一个不慎就是真气错位,错位多了甚至有可能走火入魔。
这就是说,修炼时必须心无旁骛,无人打扰,且除了盯着体内真气运转,别的啥事都干不成,这样一来效率自然低下。先不说真气数量随着修炼越来越庞大,光是每天在洞府里闭关,人的心态都会出问题,修炼界有不少疯子就是这么来的。
图灵宗师提出的“人工智能”论,则是让体内经脉构造气海雪山,自行学习真气的运转模式、修炼规律,在修真者人为的引导几次之后,可以自行记住运行的模式,并且不需要时刻关注,只需要吸纳不同真气,就能在体内运转,极为方便。修炼者可以一心多用,24小时修炼,还能做别的事情,比如炼丹,炼器,和同门师妹侃大山等等。
人们给图灵宗师的评价就是 “解放双手,逍遥御风”
再到后来,修炼界人才辈出,迎来百花齐放的年代。就说当代,最出名的得数Geoffrey Hinton,深度学习派开山掌门,其门派擅长炼丹,丹方在炼丹界是个话题,却一直秘而不宣,隔壁的统计学派怀疑他们炼的丹都是歪打正着弄出来的,但修炼界的人士并不当真,因为丹药确实好用。服用丹药,可以构建新的运行模式,气海越发深厚,加速真气修炼。
其次,便是深度学习派首席长老Yann LeCun,创立“卷积”修炼法,使得气海雪山识别物体、文字的速度大大加快,效果也更好。关于这个门派的更多故事,以及修炼方法,会在另一篇《深度学习经》中详谈,此处略过。
修炼境界
筑基期:修炼者须熟练掌握线性代数、概率统计与微积分三大修行法门
分类期:修炼者需要让体内的气海雪山掌握将真气分门别类的功能,在不同经脉周天中运转
回归期:基于分类期的修炼基础,进一步将更高等级的真气(带数值)划分到更细微的脉、窍之中
聚类期:经过分类,各个真气分子通过红细胞运送到身体各处,构成经脉小周天。要突破金丹期,需要将气海雪山上的离散小元气聚合成具有高密度、内聚性的团,这就叫金丹。
集成期:目前江湖上各大门派最常见的境界,其实施简单也兼容其他功法,基于《分类篇》决策树所衍生
图论期:元神以各个节点组成周天图,可完整游走周天图,学习整体运行模式,有概率图模型、有向图、无向图
修炼功法
《筑基要讲》:修真界广为流传,内容有线代、微积分、概率统计,之后会穿插讲解,也可以提前针对性地学习
《机器学习经》:每一篇对应上面的修炼境界,基于筑基期的知识,可以有效、快速地进行修炼提升
《机器学习经·概念篇》:对于无监督、有监督、半监督等基础概念进行讲解
《模型真诀》:必读法术,主要讲气海雪山判别的准确率,召回率。以及交叉验证、周天评估、真气选择、泛化等。其中,泛化是指气海中的模型对于从未见过的真气,比如这个月门派从深度学习宗那边新进了一批跟以前不同的丹药。如果泛化能力弱的气海雪山修炼者,就很容易判断错误,七窍流血。
《降维天书》:主要讲真气的降维方法、特征的选择等,如主成分分析、线性判别分析
《优化术》:术法是修炼界每位算法修士必须修炼的,否则修炼途中只知道干什么,却没法调动真气运行。只有精通优化术,才能更好的减少气海的判断误差,减少走火入魔的几率,在体内自成小系统。最著名的优化术叫做随机梯度下降
《信息箓》:香农真人为大家介绍了天地中存在的信息、信息熵、KL散度等
知识对应
高等数学 = 筑基
数学知识补充 = 炼体
气海雪山 = 模型
训练数据 = 内部真气(用来引导循环小周天)
标签 = 真气类别,如最常见的金木水火土
特征 = 真气属性,比如铀、铯
测试数据 = 外来真气
验证集 = 一部分循环过的真气,用来鉴定气海雪山
学习 = 自动化进行真气吐纳修炼的过程
下一篇,主角正式踏上算法修炼之路,且看一个无名小卒如何一步步修炼成修真大佬~欢迎关注下一篇《《机器学习经·筑基篇》
任何关于算法、编程、AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”学习小组“,沙雕博主在线答疑~此外,公众号内还有更多AI、算法、编程和大数据知识分享,以及免费的节点和学习资料。其他平台(知乎/CSDN/B站)也是同名「图灵的猫」,不要迷路哦~