文章目录
- 微积分
- 函数:智人的诞生
- 反函数:因果置换
- 最优防控函数:函数也可以分析疫情的哟~
- 相关性:任何一个机器学习的过程,其实都是不断地调整数学模型(函数)参数的过程,直到参数收敛到最佳点
- 因果关系:强人工智能之路
数学是一种思维模式,考验的是一个人归纳、总结和抽象的能力。把这个能力放到程序员的世界里,其实就是解决问题的能力。
计算机系的学生学习高等数学:知其然更要知其所以然。学习的目的应该是:将抽象的理论再应用于实践,不但要掌握题目的解题方法,更要掌握解题思想,对于定理的学习:不是简单的应用,而是掌握证明过程即掌握定理的由来,训练自己的推理能力。
那一起来感受【初等数学】到【高等数学】思想性的变化吧。
在函数的概念之前,人们只懂[常量],数学是对一个个的数直接计算的;
在函数的概念之前,人们渐渐懂得了[变量],数学是对一个个的数直接计算的;
有了函数之后,数学开始研究变量之间的关系,分析他们的规律,关心事物的趋势。
是否喜欢研究函数,也是判断是不是智人的一个小标准。
您可以回想一下,您在现实生活里看到的表格,里面忽上忽下的曲线,其实就是函数。
因为这种形象的表达,可以直接让智人直观的感受到变化。
函数让人变成了智人,是将人从对单个数、变量的关注到整体的趋势。
在程序里,函数也有很大的作用。如果不用函数,你写的程序只是片段,只是随想;而如果形成了函数,程序结构就发生了变化,变得严格规整,变得可以复用,变得易于调试。
虽然如此,但许多智人再使用时函数也会犯错误。
主要在于,他们并没有考虑函数的定义域。
如, 工作效率 = 工作总量/工作时间。
其中的工作时间是有限制的(定义域),一天最多 24 小时,也不能是 负数。
只有一个变量的函数,自变量和函数值之间有因果关系,是一个变化导致了另一个变化。但记得考虑自变量的定义域。
当一个函数的变化的由俩个,或者更多的变量决定时,单个变量和函数之间的因果关系,并不是函数值变化的必然原因。
比如在经济学里,影响经济趋势的指标大概有几万个,你不可能都用上。那么经济学的研究通常只是选了几个维度来研究,所以,很多经济学专家说的话都是浮云。因为,ta的研究成果是片面性的,不过也并非是他们不懂,而是学术界的分工就是如此。
真实世界里也是如此,都是错综复杂的,你根本就无法列举影响一个结果的所有可能缘故。
所谓的机器学习模型,本质上是一个函数。
你必须做出各种取舍,你只能把你认为最重要的缘故用上。你只是说,根据你的猜测,应该是因为这几个缘故。
数学上的因果和生活里的又不一样,我们认知上里的因果是单向的。
如,公鸡之所以打鸣是因为太阳升起来,而不是反过来说,太阳之所以升起是因为公鸡叫TA。
但在数学上这样的因果关系,是可以让自变量和因变量互换的。
为了更完整的描述、研究这种因与果置换后的函数关系,数学家提出了[反函数]的概念。
他们除了因果置换外,在直角坐标系中的反函数与原函数的图,总是相对 45度角 的对角线对称。
中国的疫情防控是最高等级的(所有人隔离在家、停工停学、倾全国之力),最优防控。
最主要的是:【隔离】,我们用 x x x 代表,那完全不隔离 x = 0 x = 0 x=0, x x x 越大隔离强度越高。
隔离有一个最优隔离度,且这个最优隔离还影响俩个变量:
像以钟南山院士为主的医生,看重疫情成本最低,所以强烈推荐【隔离】。
由此,在疫情时, C = C ( x ) C = C(x) C=C(x) 是一个减函数…但隔离也影响了:经济成本。
E = E ( x ) E = E(x) E=E(x) 是一个增函数,隔离强度越大,经济成本越高。
那作为经济学家,我们的目标是啥呢?
目标:总成本, T C ( x ) = C ( x ) + E ( x ) TC(x) = C(x) + E(x) TC(x)=C(x)+E(x) 最小。
我们追求:
经济成本 E 最小化且疫情的成本 C 最大化,也就是【边际疫情成本】和【边际经济成本】的交点( C ′ ( x ) = E ′ ( x ) C'(x) = E'(x) C′(x)=E′(x),边际疫情成本 = 边际经济成本),即图中黑色的 d ∗ d^{*} d∗ 就是最优的隔离强度。
我们得出一个最优的隔离强度之后,要结合政策(经济学简单的来说,就是国师问道)。
发现如果把隔离强度加大一点点或者减少一点点,对于疫情防控的成本是没有什么影响的;但对于经济成本有巨大的影响。
现在就是这样一个情况:
那么我们的建议很明确:
那减到什么程度呢?
这就和世界相关了,因为现在国外疫情比国内严重。
所以在国外疫情风险大于国内疫情风险, C ′ ( x , k ) > E ′ ( x , k ) , k : 入 境 隔 离 强 度 C'(x, k) > E'(x, k),k:入境隔离强度 C′(x,k)>E′(x,k),k:入境隔离强度 时,隔离强度对于国外,是不能减低且还得提高对国外的隔离强度。
虽然限制进出口,会导致经济成本上升,但这个上升很有限。
所以说,加强跨境隔离只会导致经济成本上升一点点。
【结论】:
此外,疫情防控物质时战略物质。我们只不过是度过了疫情的第一个阶段,如果再次出现武汉的情况,那会出现 1400万人,医院也会被挤兑。
所以,中国并没有足够的实力救全球的(比如医疗资源不够),一省包一国这个有点夸张了。
前一段时间里,新闻上报到的ECMO成功的救助了重型『新型冠状病毒肺炎』。
那是不是说ECMO就是治愈『新型冠状病毒肺炎』的终极武器呢?
我咨询过的医生里,他们说,并不是。
因为这些最前沿、最高端的救命设备,只是起到了『支持』作用。
所有的这些治疗的目的都是为了跑赢病毒的复制,让人体的免疫系统重新获得优势。
肺炎本质上,就是人体免疫系统VS冠状病毒,如果人体的免疫系统一直处于巅峰状态,击败冠状病毒,只是迟早的事。
现在英国、德国、瑞典等国家,是准备通过让大部分人群感染新冠病毒,而获得群体免疫(自然选择,淘汰免疫力不行的人)。
英国首相鲍里斯说:“英国60%的人群感染,才能形成群体免疫。”
英德为什么会选择自然免疫呢?
第一:不知道何时才能生产出有效疫苗。有可能是几年之后,耗不起。
第二:新冠病毒可能会成为季节性病症。如英国首相鲍里斯所说:“我们认为这个病毒,会像季节性流感一样,每年都有可能爆发,我们需要充分接触感染它,最后获得群体免疫,以彻底阻止该病毒未来更长时间的传播。”
第三:错过了“遏制”的最佳时期。“我们已经难以有效遏制新冠病毒传播,只能尽可能减缓传播过程。”
“我们不可能像中国那样全面隔离全面救治,这样消耗的人力、物力成本太大了,对经济的影响太大了,而且还不一定能控制住,所以还不如采取自然免疫。”
…
如果真如这些国家元首说的,通过如此自然的方式淘汰人,哪怕只有 1% 的走了,那什么事情都有可能:
每个时代的技术,都会主导这个时代的人的思维。
老一辈的人爱说 “压力很大”、“动力十足”、“把压力化为动力”,这其实是一种暗喻 —— 是把人给当成了蒸汽时代的机车。
而今天的年轻人则善于用计算机做暗喻,会说……“我的大脑死机了”。
现在基于大数据和机器学习的 AI 技术兴起,很多人还爱说一句话,叫“相关就够了”。
计算机科学并不是一种科学,而且其重要性也与计算机本身并无关系。
计算机革命是有关我们如何去思考的方式,以及我们如何去表达自己的思考的一个革命。
我们更重视【怎么做】(相关性),而不是【为什么】(因果思维)。
那相关性是什么呢?
这个“相关”的意思,就是当一个变量变大或者变小的时候,另一个变量是否也跟着变大或者变小。
我们使用 r r r 代表相关度, r r r 的取值范围是 [-1, 1]。
也许您也听过心理学实验不太靠谱这类的话,这是因为在很多心理学家看来,r=0.3 就足以说明两个变量之间有相关性,甚至还可能暗示这两个变量之间有因果关系。
比如,假如智商和收入之间的相关系数是0.35。
心理学家:太好了!这足以说明挣钱多的人是因为聪明。
但是在统计学家看来:
相关性: A 发生后,B 发生的可能性就增加,这就是相关性。
如果相关性比较强,我们在得到信息 A 之后,就可以消除关于 B 的不确定性。
但是,如果 A 和 B 之间的相关性较弱,那种联系就没有意义。
那么,如何度量 A 和 B 的相关性是强还是弱 ?
信息论里有一个互信息公式度量:
举个刺激的例子,裙摆与股市的涨幅。
19世纪,宾州大学的经济学教授乔治·泰勒讲:“当经济增长时,女人会穿短裙,因为她们要炫耀里面的长丝袜;反之,当经济不景气时,女人买不起丝袜,只好把裙边放长,来掩饰没有穿长丝袜的窘迫。”
那么,在那个时候的人们是否该根据街上女生穿的裙子长短来购买或者抛售股票呢,就如股神巴菲特判断经济形式的方式一般,有点神奇,就是去百货店溜达啦 ?
按照互信息公式的推导过程:
女生的裙摆长度是随机变量,我们假定为X。
如果裙子的长度在膝盖处,X=0;如果高于膝盖一寸,X=1;高于两寸,X=2;
如果比膝盖长出一寸,X=-1;长出两寸,X=-2,等等。
股市的涨跌幅度 Y Y Y 也是一个随机变量,我们假定涨 1%,Y=1;涨2%,Y=2;
如果下跌,Y 就是负的;如果不涨不跌,Y 就是 0。
如果我们把过去的100年以每一个月作为一个单位,大约能得到1200个样点,这样就能估算出X和Y的概率分布 P ( X ) P(X) P(X) 和 P ( Y ) P(Y) P(Y)。
如果女生穿短裙,而股票也上涨,这两件事情同时发生了,它的概率就是 P(XY),被称为“这两个随机变量的联合概率分布”。
假如裙摆比膝盖高一寸的概率是10%,股票某天上涨 1% 的概率也是10%,如果这两件事同时发生的概率是1%,说明这两件事毫不相干,用上面的公式计算,互信息就得到 0。
反之如果这两件事情一同发生的概率有5%,就说明它们高度相关。
代入公式中算下来,它们的互信息就非常大。
您不必太关注这个公式本身,记住这样一个结论就可以了,就是如果X和Y基本上无关,它们的计算结果,也就是互信息就近乎为零。
如果相关,它们的互信息就非常大,您可以把互信息简单地理解为相关性。
经过计算,穿短裙这件事和股票上涨之间的互信息近乎为 0 。
后来,还有不少人用了不同的模型计算,得出的结论也是一样的。
现实中,的确有人是这样买股票的。但没听见谁发了大财的…
之所以,我们更重视【怎么做】(相关性),而不是【为什么】(因果思维)。
是因为,建立因果关系最好的办法是大规模随机试验,十分繁琐。
有相关性,也可以互相之间毫无影响因素。比如说,冰激凌销量上升的时候,游泳淹死的人数也增加了 —— 这就是一个很强的相关性,但是二者之间没有任何因果关系 —— 它们都是被另一个因素,“夏天”,影响的。
可是话说回来,假设我是一个对“夏天”一无所知的【人工智能】政府官员,我根据这个相关性,一听说冰激凌销量在上升,就下令往海滩多派救生员做好准备,我这仍然是个科学决策。
所以,很多情况下相关性就足够了。
现在的人工智能,大数据分析是基础,而且基本上都是关注相关性,而非因果关系。
其实是再现昨天的世界,只不过昨天的世界和今天的世界之间是连续变化的。
如,人脸识别软件,使用您过去的照片进行训练,识别今天的您,之所以能识别得准,是因为昨天的您,去年的您,甚至 10 年前的您,和今天的您之间是渐变的、连续变化的,而不是跳变的。
而现在的人工智能,实际上是寻找一种数学模型(本质是函数),让这种模型符合它所要描述的对象。
比如说我们要寻找一种描述天体运动的模型,让ta符合太阳系行星的运动情况,今天这个模型就是开普勒-牛顿的椭圆形模型:太阳系中所有的行星和彗星围绕着太阳系的重心(和太阳的位置很接近但是有所差别),做椭圆运动。
当然,这个模型内不同物体的运动速度和周期不同,这些数据被称为模型的参数。
有了这样一个模型,就可以知道今后太阳系中行星和彗星的运行规律了,哈雷就用它成功地预测了哈雷彗星未来回到人们视野的时间。
在这个模型中,要得到模型的参数(比如每一个星体运动的长轴半径,运动一圈的周期),就要根据观察到的历史数据计算。
我们在机器学习中有时用 “契合” 来形容模型描述的情况和真实情况的接近程度,契合度越高,误差越小,当然也就越好。
数学上有一个 “切比雪夫大数定律”,保证了只要数据量足够大,这种契合度就能接近100%。
机器学习通过反复迭代学习发现隐藏在数据中的科学,由于机器学习作用在真实的数据上并不依赖于假设,预测效果是非常好的。
相关就好~
在过去不到三十年的时间里,珀尔领导了一场统计学家和计算机科学家参与的 “因果革命”。
我们知道现在所谓的 AI,本质上就是机器学习。
而机器学习少了一种推理能力。这种能力最大的好处,就是让人不用依赖大量的数据就能学习。
举个例子,想让小孩子认识什么叫 “车”,就不需要让他们看上万张车的图片才能认出来,他们会总结——带轮子的、能在地上跑的就是车。
哪怕下次碰到的是之前从来没见过的拖拉机,小孩子也能知道这算是一种车。
但人工智能就做不到,它能准确识别一万次车,但它依然不理解车是什么。每次要辨认新种类的车,它都必须从头开始学习,每一次学习都要靠海量的数据来训练。
听到这您应该就明白了,人工智能和人在“学习”这件事上是有区别的。人类就是靠推理能力,快速学习,这种推理能力还能帮人类应对不断出现的新情况。
所以说,其实现在的人工智能(机器学习)没有改变什么,社会还是这个社会,计算机也没有解决我们的社会问题。
珀尔是机器学习技术的开山鼻祖之一,但他也是这种 AI 最激烈的批评者,他认为数据是极其愚蠢的。
珀尔要做的,是让计算机学会因果关系,让 AI 真正理解它在干什么,这样 AI 就和人一样可以推理了。
因果思维很有用,一个简单的因果模型,就能胜过无数经验。因果模型可以模拟出人的推理能力。
因此,因果关系是人工智能发展的趋势,对比俩者,其实是基于机器学习的人工智能是不智能的,而未来的基于因果关系的人工智能才是真的智能。
目前珀尔真的已经把理论弄出来了。
实现强人工智能的关键,在于用 因果模型 代替 概率图(概率论+图论)模型。
概率图:概率论+图论,有隐马尔科夫模型,还有诸如贝叶斯网络,马尔科夫随机场,条件随机场等模型,用来解决一些『预测问题』。
其中的贝叶斯网络,应用十分广泛,手机信号转换、垃圾邮件过滤、语言识别、油井钻探等等。
因果网络就是建立在原贝叶斯网络上的,网络里的计算方式不变(有图论部分)。
只是把因果网络替换为贝叶斯网络…
这个因果网络是什么呢,这么多年哲学家都没研究出来…直到某个人 — 赖特。
赖特不但使了因果模型,而且还提出了一个有关因果的洞见。
赖特:因果关系,其实是你的主观假设。我的因果模型并不是客观的。我不可能通过数据分析、用机械化的流程得到这张图。因果图之所以这么画,图中之所以考虑了这些关系而没考虑别的关系,这是我自己主观的选择 —— 是我用自己的知识、阅历和判断画出来的。
正如贝叶斯网络本身就是一个主观的判断,但经过客观的数学方法来修正。
因果其实也是主观的,数据是客观的,而人的观点是主观的。
相关性是客观的,因果是主观的。
『拨云见日』,画出因果模型:
第一步,根据你自己的见识,画一张主观的因果模型图。模型里有些因果关系是概率性的,A 发生并不一定会让 B 发生,只要 A 对 B 有影响就行。
第二步,使用实验和数据分析,确定图中每个因果关系的强弱大小。
这样你就有了一个完整的因果模型。
第三步,利用这个因果模型里的各种变量,就能回答很多,人能回答问题了。
本质上,我们还是没有回答“为什么”。我们只是回答了更简单的 3 个问题,至于这 3 个更简单的问题是什么,您可以阅读《为什么:因果关系的新科学》。
目前计算机科学家已经有了俩种方法:
这两种方案都有一定的效果,但也都有短板。
[方法一]:
美国西雅图有一家人工智能研究所,他们的科学家团队用的就是这个思路。
他们收集了很多常识性的陈述,作为人工智能学习的素材。
这些常识哪里来呢 ?
就是靠人来给,亚马逊有一个劳务众包平台,有很多人在线接一些散活儿。
研究人员就付费请这些众包人员来制作常识性的陈述。
比如 ,X 把 Y 打昏了”这样一个陈述,他们就找很多人来描述 X 的意图:X为什么这样做 ?
研究人员收集了 2 万 5 千条这样的陈述之后,就用这些陈述来训练AI,而后再让AI来分析新句子,推断出句子当中的情绪或者意图。
有时候,AI 能做出一些非常靠谱的推测,比如说,咱们换个问题:“杰克做了感恩节晚餐” ,AI会回答:“杰克的目的,是想要给家人留下美好的回忆”。这很不错了,对吧?
但是,从总体来看,AI的正确率不算高,最好的情况,也就能答对一半。
而且这个方法太需要依赖人力了,你想,有那么多条常识性的陈述,如果都要靠人工来想,这个工作量实在太恐怖了。
[方法二]:
彻底放弃了传统的深度学习的路子,直接把基本逻辑用硬编码的方式植入AI。
Vicarious公司用的就是这套方法,他们预先告诉AI:物体之间有相互作用,一个物体的运动轨迹,会因为与其他物体相互作用而发生改变——这就相当于给AI预先植入了人类对运动规律的基本认识。
这种 AI 用很少的数据量就能学会新技能,而且还会变通。
就拿“打砖块”来说,游戏规则改变之后,这么学习出来的 AI 竟然也能很快适应。
它似乎和人类一样,抓到了这个游戏的本质。
但这种方法最大的短板,就是AI做判断时速度比较慢,而且预先要植入什么样的逻辑,依然离不开人类的仔细推敲。
听到这,您可能听出问题来了。
是的,这两种方案表面上看似乎都能让人工智能掌握一些常识。
但问题在于,它们都是“治标不治本”。单靠人工智能,还是没有办法像人类一样积累常识。
长路漫漫,如果某天真的达到了,到时候大家就可以看到 “碾压” 人类能力的 AI 。
现在看来,函数真是一个神奇的知识,是分析事物的利器: