迎来智能数据分析的新时代

迎来智能数据分析的新时代_第1张图片

来源:知乎(ID:熊墨淼)

最近两星期(7月15日,7月22日),《自然》杂志连续发表两篇DeepMind写的用人工智能的方法预测蛋白质三维结构的文章和NIH Director Francis Collins 写的博客 "Artificial Intelligence Accurately Predicts Protein Folding”, 大大地震动了统计界和生物界。AlphaFold2获得了第十四屆CASP(两年一度的)的蛋白质结构预测竞赛冠军。它的Global distance test(GDT)的中位数是92.4,而它的平均误差仅为1.6埃。

GDT是CASP 用来判断预测准确性的主要指标。和实验结构相比,GDT是用来度量成功预测在正确位置上的比例。GDT的范围为(0-100)区间。如若达到90分,它的预测结果和实验相当。判断预测精度的另一指标是Z-score。Z-score是度量样本值相对于群体平均值的差,然后除以标准差所得的值。AlphaFold2D的Z-score大约是2.5,而对于最难预测的蛋白质结构,它的Z-score达到3.8。这大大高于其他方法。利用蛋白质序列高精度预测蛋白质结构不仅对结构生物学和功能生物学的发展具有极其重要的意义,而且对于人们重新认识人工智能潜在的推动各个科学领域和工程技术的急速发展的巨大力量有着深远而广泛的影响。历史有时会重演。正是因为,深度学习在2012 年ImageNet 图象识别比赛中以压倒性的胜利击败了基于Kenner的统计方法(SIFT+FVs)大大地推动了深度学习在许多行业中的广泛应用一样,AlphaFold2釆用了图神经网络和变换器在2020年蛋白质三维结构预测比赛中击败了早期的深度学习方法和统计方法。这一次胜利又会大大地推动人工智能在科学技术,工业和军事中的广泛应用。和任何新生事物的成长一样,人工智能的兴起和应用,尽管会有失败、困扰和波折,但它一定会淘汰陈旧的方法,包括一些过时的数据分析方法,也包括一些过时的统计方法、遗传分析方法和基因组分析方法。我们中国有一句俗语,叫做"无边落木萧萧下,不尽长江滚滚来"。未来科学和技术的发展也是这样。《自然》、《科学》上的文章素来是晦涩难懂的。并不是说,它的内容深奥得我们完全看不懂,而是文章方法部分过分简略。辅助材料本来不受文字限制,如果写得深入浅出,我们外行也可大致看出个子丑寅卯。但冗长的辅助材料使人不得要领,短时间很难领会。现在就据我对文章的不完整理解,谈谈我的一些粗浅看法。顺便借题发挥谈谈现代人工智能和我们传统数学之间有些什么重大的差异和我们今后努力的方向。

01 AlphaFold2 主要有哪些创新?

第一个创新是multiple Sequence Embedding

蛋白质三维结构的预测是一个历经五十年研究的老课题。我1993年去南加洲大学师从Michael Wterman做博士后所研究的课题就是利用"Large deviation theory"预报蛋白质的二维和三维结构。因Michael长期从事sequence alignment,我结合这个课题也研究了用马尔科夫模型Align multiple sequences。这些生物信息的方法都基于统计。我后来没有继续进行蛋白质三维结构的研究,也没有去跟踪有关文献。但隐约地觉得统计方法仍然是蛋白质三维结构预报的主流方法。近年来也有人应用卷积神经网络。但是这些方法都输给了AlphaFold2。我个人粗浅认为,AlphaFold2改变了传统的Multiple sequence表示的方法。重视概念和数据分析对象的计算机数学表示是人工智能的核心之一,也是人工智能研究所取得的巨大成就之一。传统的序列分析总是把amino acid视为离散变量。这样,存在于进化过程中的,空间结构中的相互依存,相互作用的关系在实际数据分析中就会被弱化和忽略。在自然语言处理中兴起的embedding(表示,嵌入)把各种类型的数据,字符串的数据,离散的数据,分类数据,曲线数据,图象数据,音符数据,词和短语,序列数据都映射到连续的欧几里得空间。同自然语言处理中字、词的向量表示能够包含字词的语义信息一样,许多物理量,生物量的向量表示可以包含这些物理量、生物量的物理、生物信息。这是自然语言在翻译、摘要,回答问题和机器撰写文章,以及正在紧张进行的机器自动编写计算机程序取得巨大成功的重要原因之一。因为多重序列的表示有行和列的表示。行的表示刻划了蛋白质序列的进化关系。列表示则刻划了residue(残基)在蛋白质三维结构中的空间关系。因为氨基酸共有20种,我们至少用一大于20维的一位有效编码向量代表氨基酸序列的一个残基输入到卷积神经网络或某种递归神经网络。神经网络中的一高维隐藏状态向量(如512维)来编码一残基。神经网络输出这一向量作为一残基的数学表示。在multiple sequence alignment(MSA)表示的输出矩阵中每一列代表一个氨基酸(残基)的数学表示,而每一行是代表一氨基酸序列。这样 MSA表示矩阵中的列代表氨基酸在蛋白质结构中的位置,而每一行代表氨基酸序列的进化关系。MSA的数学表示包含了氨基酸序列在蛋白质结构中空间位置和进化的重要信息。

第二个创新是预训练和知识蒸馏

预训练是自然语言处理成功的最重要因素之一。Open AI在2018年6月11日发布了GPT1。于该年的5至7月,CASP的组织者公布了未知蛋白质结构的氨基酸测试序列。全世界近100个研究小组包括Deep Mind参与了这次比赛。Deep Mind也许受到GPT1的鼓午,在去年的14屆CASP比赛中,它引入了预训练和知识蒸馏等。它采用了BFD氨基酸序列数据库。BFD 数据庫包含了2204359010蛋白质序列。这些序列经MSA 和马尔科夫模型归纳为65983866 蛋白质家族。预训练还包括其他20余种动植物的氨基酸序列。总共有二亿左右的氨基酸和从Protein Data Bank 中获得的18万个蛋白质结构用来预训练(无监督训练)和微调训练(有监督训练)。因为有监督训练需提供蛋白质结构的信息,这样的数据费时、费力、费钱,不可多得。氨基酸数据没有蛋白质结构数据,数量很多。预训练可从众多的氨基酸数据中抽取特征,这些特征既包括在少量的用于监督数据的氨基酸中,也可能不出现在监督数据的氨基酸中但会出现在隐含其它蛋白质结构的氨基酸中。这样就可实现知识转移,提高蛋白质结构的预报精度,提高模型的推广能力。

AlphaFold2 使用了self student distillation来进行知识蒸馏。当前时刻的模型来作为student ,而之前时刻的模型来作为 teacher 。用于老师与学生的模型结构相同,所以称为知识自蒸馏。应用知识自蒸馏可以大大提高模型知识转移和推广的能力,提高预报的精度。

第三个创新是变换器(Transformer)的使用

变换器是本世纪人工智能最重要的发展。它源于序列到序列的学习。序列到序列的学习可以视为一个调制解调器。譬如我们可以把一句英语调制成一个向量(压缩表示)。这个向量然后输入到一个解调器里,把它翻译成一句中文。Recurrent neural networks (RNN)是以前广泛使用的一个工具。可是RNN仅能调制一个有限长度的序列。变换器具有如下几个显著特点。第一,它不同于以往统计中 pair-wise的相关性,交互信息(mutual information)(类似于linkage disequilibrium),它能计算涉及多变量的相关性、多重信息、交互作用信息(multi-information and interact information)和高阶的linkage disequilibrium。第二,变换器的每块有分布式的和独立的表示。这些表示形成类似卷积那样的多特征(feature)图。一层一层的特征图又形成一层比另一层更抽象的特征图,形成更抽象的概念。第三,变换器每一元素的语义、物理和生物意义依赖于上下文。第四,变换器的多层次、多块结构可以形成更抽象的表示。第五,更易把底层和高层的信息有机结合起来。第六,变换器attention weights 动态地依赖于数据,动态地改变以响应数据的变化。

变换器是AlphaFold 最重要的突破。它把氨基酸的输入序列和蛋白质空间结构的输出有机地结合起来。

第四个创新是空间图的表示

AlphaFold2 的另一创新的地方是用空间图来逐渐逼近蛋白质的三维结构。残基是空间图的结点。较为接近的两个残基用边连起来。两个残基的接触数可用来度量边的长度。蛋白质的结构预测问题可视作图的推断。残基空间之间的关系被编码在一对氨基酸序列中。MSA 表示的列代表了残基个体,而MSA 的行表示一氨基酸序列以及所有组成氨基酸的残基。行与行之间的关系代表了氨基酸的进化。这样蛋白质之间的物理相互作用和蛋白质的进化历史都隐含在空间图中。进化关联起来的氨基酸序列,MSA和一对氨基酸残基的向量表示,三位一体定义的空间图有效地刻划了蛋白质的三维结构,大大地改善了蛋白质结构的预测精度。

02 统计学、数据分析和人工智能

奠基近代科学的笛卡尔几何座标体系和智能科学的嵌入(embedding)表示

十七世纪法国著名的数学家、物理学家和西方近代哲学的创始人勒内·笛卡尔所创立的几何座标体系是近代数学、物理学和科学发展的基石。它把各种几何图形,物理量在座标系的概念下都转换成实数,转换成变量,转换成代数。没有座标系的概念,就不会有解析几何,微积分,微分方程,就不会有力学,电磁学,量子力学和相对论。它们共同需要座标系的概念,来刻划,度量和表示现实世界的几何量,物理量。发展起来的各种仪器和传感器就是用来测量各种几何量和物理量。在座标系的概念下才可以来比较这些几何量和物理量,来研究这些量相互之间的关系。智能科学所考虑的实体是和几何实体,物理实体不同的。如自然语言的词汇是和几何实体,物理实体截然不同的。如何才能象比较几何量,物理量一样来比较词汇,来揭示词汇之间的关系。于是有人就发展了嵌入的概念,来把自然语言中的词汇嵌入到欧几里德空间,利用欧氏空间的笛卡尔几何座标系来定位词汇,来研究词汇之间的关系,来运算词汇。如皇帝—王子=男人和皇后—公主=女人。电子病历表有血压及它的度量,胆固醇和它的度量,有医生的疾病诊断,有使用的药物和使用的剂量,有用作生物标记的蛋白质测量的数据,有CT,MRI等影像,有心电图,脑电图等。只有对这些数据进行比较和运算,我们才能有效地抽取有用的信息和集成语言,图象和基因组等各种数据。在基因调控分析中,我们有基因的名字,基因表达量,调控因子,DNA数据,甲基化和组蛋白等数据。这些数据如果不进行变换,它们之间的关系很难用数字表达,它们之间的运算很难进行。这里最为关键的和最为困难的是如何把这些数据映射到欧氏空间上去。智能数据分析的核心和基础是智能数据的嵌入表示。这是传统的数据分析所不具有的。

二十世纪上半叶概率和统计学蓬蓬发展起来的黄金年代

柯尔莫哥洛夫,费歇,纽曼和皮尔逊在二十世纪二、三十年代的工作几乎奠定了现代概率和统计的基础。其主要理论源于现实世界数据分析的需要。柯尔莫哥洛夫于1920年进入莫斯科大学学习。在那里,他学习了集合论,函数论和测度论。他的这些数学知识孕育了柯尔莫哥洛夫概率论的公理结构。现代概率理论起源于柯尔莫哥洛夫于1933年写《概率论的基本概念》一书。尽管柯尔莫哥洛夫的概率理论非常抽象,但正如日本著名数学家伊藤清教授在《柯尔莫哥洛夫的数学观和业绩》一文中所说的"根据 Kolmogorov的观点,数学是现实世界中的数量关系与空间形式的科学"。柯尔莫哥洛夫概率所研究的对象是他那个时代人们在现实世界中所观察的实体,事件。由于柯尔莫哥洛夫二十年代在莫斯科大学学习和研究集合论、实变函数论和测度论,在他的脑海里就是集合和测度的王国。现实世界中的事物和他头脑中抽象的集合世界相结合就诞生了柯尔莫哥洛夫的概率公理结构。

费歇是一位伟大统计学家。他是一个不断从试验中、从现实世界中、从直观中形成新概念、新方法然后总结成为理论。费歇的极大似然估计,和纽曼,皮尔逊共同发展起来的假设检验理论,费歇的农业空间站实验,他和哈代、Wright的遗传学研究开创了二十世纪上半叶统计学发展的全盛时期。早期统计分析主要围绕着回归分析、方差分析、试验设计、关联分析、分类分析、预测和假设检验来进行。它们主要考察两个变量(或两组变量),在少数情况下也考虑多个变量的关系。预测和假设检验都取决于具体的模型、概率空间和样本空间。样本变了会导致预测和假设检验均无效。数据主要考虑离散和连续两种变量形式。几乎所有的模型都是显式的。函数要能清楚地用数学表达出来,因此回归分析大多数情况下仅研究线性。分布函数要能用数学表达出来。因此,我们仅能研究少数的几种分布。随机变量的矩只能研究低阶的,分布函数是已知的。关联分析仅考虑两个变量之间的correlation,假设检验实际是pair-wise 进行的。分类分析主要使用可用公式表达的线性(Fisher)判别法。方差分析仅线性分析少数几个因素之间的关系。试验设计仅设计考察几个因素之间的线性关系。参数估计要求似然函数和残差要能显式地表达出来。二十世纪下半叶和本世纪初的统计学是在二十世纪上半叶经典统计学基础上的进一步发展起来的。如蒙特卡洛方法、EM方法、推广的线性模型、regulatory (包括lasso)、线性结构方程、基于虚拟假设的(counterfactual)因果推断、线性生存分析、马尔科夫过程和平稳随机过程等方法。这些分析方法在数据分析的历史上都曾经起过重要作用。

03 统计学和经典数据处理方法在现代数据分析中的重大缺陷

(1) 费歇、纽曼、皮尔逊假设检验理论的局限性

由费歇于1925年纽曼和皮尔逊于1928年所创立的假设检验理论有如下几点致命的的局限性:

(a) 假说是不唯一的。

假说一般用如下方程式来规定:H0: M1=M2 。但是 H0:M1-M0=M2-M0 也成立。在假说检验理论中,我们感兴趣的是替代假设,是在什么情况下假设不成立。由于即使我们检验假设的统计量又是一个随机变量。在许多情况下假说都会不成立。在实际中,这就会导致我们所检验的假设是不唯一的。如关联分析,我们要检验的假说是位点(如SNP)的频率在正常人群体和病人群体的差异。如果它在病人群体中的频率大于在正常人群体中的频率,这个位置就有可能与疾病相关联。但是所有与该位点处于联锁不平衡的位点,其在两个群体的频率都有显著性的差异。所以统计学中的假设与物理学中的假设是不一样的。如果物理学的假设被证实,那么它的假设在一定的范围内就有因果性。但统计假设检验的不唯一性就决定了统计假说检验结果的显著性不具有因果性。因此假设检验的理论不能满足因果的唯一性,难于应用因果分析。

(b) 假说检验依赖于样本,依赖于样本空间。

检验假说的手段是所构造的统计量。统计量的计算是依赖于样本的。样本空间变了,统计值会变,假说检验的显著性也会变。如某些基因在某一群体呈显著性关联,在另一群体其关联的显著性就会消失。

(c) 经典假设检验理论难于应用更为复杂的数据,如图,影像,语言和音乐等。

人工智能要处理的对象是自然语言,图象,符号,音乐等。在这些领域内假设很难用数学语言来表示。从统计学的理论中我们知道,预测和假设检验是一一对应的。所以,预测也不是唯一的,是依赖于预测模型和样本的。

(2) 因果关系是唯一的,但仍然依赖于样本

因果的假说是唯一的,但因果分析理论仍然依赖模型和样本。因果分析主要有三种理论。一是德国馬普所Bernhardt Scholkopf 的独立机制原理(principal of independent mechanism)。二是美国UCLA Judea Pearl的结构方程理论(structural casual model)。三是哈佛大学的Rubin 于1974年提出的虚拟反事实或虚拟反结果(counterfactual)理论。在实际运用中,独立机制原理需定义函数模型和检验原因和函数方程残差的独立性。

函数没有一般的表达式,理论上可以用神经网络来表示。用generative adversarial network (GAN) 可以隐式地表示线性和非线性函数,而不需要显示地指明是线性还是非线性。尽管GAN表示的数据是多样的、不唯一的,但所代表的数据的分布是唯一的。不影响检验函数模型拟合残差和原因的独立性。但是检验残差和原因的独立性仍取决于所选择的统计量和样本。最早提出的结构方程是线性方程。然后扩展到非线性结构方程。用结构方程来研究变量的因果关系同样涉及到模型,函数的形式和检验拟合方程的残差和内在变量之间的独立性,从而依赖于样本。虚拟事实理论中的虚拟事实是不可能观察到的。虚拟事实理论基于一个基本的假设:就是假设在群体中存在至少两个一样的人。这一样的人形成的子群体中,有的得到了治疗,有的没有得到治疗,仅给予了安慰剂。这样我们就用该群体中所观察的值来代替虚拟反事实或虚拟反结果。譬如说,一个人给予了治疗,这个人的虚拟反结果是不可能观察到的,必须用同一子群内没有给予治疗的人所观察的结果来代替给予治疗的人虚拟反结果。正是根据这个假设,我们才能计算平均疗效。在群体中完全一样的人是理想的,是不存在的。我们就寻找大致匹配(match)的人。所以平均疗效的计算就取决于寻求匹配的标准、算法,取决于校正的模型,取决于样本。如果我们把治疗看成因,把疗效看成果,那么Rubin 提出的虚拟反事实理论也是一种因果分析理论。总之,迄今为止所有因果分析的结果理论上是唯一的,但仍取决于样本。

(3) 数据表示形式十分有限

统计学和经典数据分析方法,仅能有效地表示连续数据。即使对于categorical 数据也没有比较好的表示方法。更不用说,自然语言,符号数据,数学方程式,图象数据和曲线数据。这就是为什么经典数据分析方法在声音辩识,语言翻译,图象识别,蛋白质预测,数学演算和证明诸多领域被人工智能的方法所远远地抛在后面。相反在自然语言处理中发展起来的表示(embedding)和变换(transformer)思想是数据处理的巨大突破。它能把各种形式的数据如连续变量,离散变量,语言、符号数据,EHR,基因组数据,图象数据和曲线数据统统映照到低维的欧氏空间。Embedding和transformer的一个极为宝贵的特性是它能反映变量之间的语义,物理和生物关系,能处理变量之间的结构,因而会大大改善数据分析,加速数据处理的自动化。这是传统的统计分析等方法所无法完成的。

(4) 难于表达非线性关系

统计和经典数据分析方法主要研究变量之间的线性关系。如我们有方差分析,因子分析,主成分分析,线性回归分析,线性判别分析,线性结构方程等。但人工智能则不然。业已证明神经网络和变换器可以近似于任何非线性函数。Generative adversarial network (GAN)可以拟合任何函数(包括线性和非线性,尚不需明确规定)。因现实世界中变量之间的关系不总是线性的。所以在许多实际数据分析中,人工智能比统计和经典数据分析方法有更广阔的应用范围。

(5) 仅有显式模型

统计和经典数据分析方法大多需显式规定模型。如最大似然估计,需明确规定和计算似然函数。但在许多情况下,现实中难于实现。为解决此一困难,人工智能中发展了变分推断 (variational inference)和隐式模型。它既不需要似然函数,也不需要蒙特卡洛方法。在图象分析中,在化合物,材料和药物发展中,GAN可以产生原来没有的图象或化学分子式。但经典统计因要明确规定模型,这就难以办到。

(6) 仅能表达两个变量之间的依赖关系

经典统计可以计算两个变量之间的相关系数。没有提供计算两个变量的非线性依赖关系,两个变量以上的依赖关系的方法(但新近发展起来的距离相关可度量多个变量之间的线性和非线性依赖关系)。在遗传学中,我们能计算两个位点之间的联锁不平衡,但难以计算两个以上位点的高阶联锁不平衡。但人工智能的变换器可用以计算任何变量之间的复杂的非线性依赖关系。可计算高阶连锁不平衡。它可用以阅读理解、文本摘要、文本生成。文本摘要的核心是data reduction 和特征抽取。更为可贵的是人工智能可同时用以非线性 Dimensional reduction 和特征选取。可用以各种数据类型,诸如语言、图象、函数、EHR、基因组和数学方程式、逻辑推理。统计学的data reduction ,如主成分法、正则相关分析、正矩阵的分解和函数主成分法只做data reduction,不能同时也做特征选取。可应用的数据类型也有限。

(7) 深度加强学习

深度加强学习是用于复杂系统决策的强有力工具。统计学长期研究的马尔可夫决策过程是加强学习的数学理论基础。动态系统的识别和控制也是和加强学习息息相关的。但经典马尔可夫决策过程、动态系统的识别和控制并不大量使用数据,不考虑各种不同环境下的决策过程,不大规模地摸拟各种复杂环境下的决策。主要考虑的系统是线性系统。但深度加強学习,特别是离线深度学习不同。它收集各种环境下的数据,模拟产生决策者和环境不断相互作用的数据,sample experience from the replay buffer,从而产生符合实际环境的一系列决策过程,以达到最优的目标。经典馬尔可夫决策过程一般不预测其他决策者的决策过程以及对环境,对动态系统的影响,不预测其他决策者的行动轨迹。而加強学习把这整个视为不断学习的过程。加强学习与传统的马尔可夫决策过程和经典控制主要不同的是加强强学习认为最优决策是可以利用深度学习理论不断学习的,而传统的馬尔可夫决策和经典控制论认为最优决策是通过解方程,概率分析计算出来的。正是因为加强学习的这些特点使它在围棋比赛中胜出,广泛地应用于机器人、工厂的自动化生产、无人工厂、无人飞机、无人驾驶等。

(8) 因果分析,自动推理

统计学和经典数据分析着重于关联分析。虽然哈佛的Rubin 从1974年就开始研究因果推断,他以79岁的高龄还去清华讲授因果分析的课程,但由于他所提出的虚拟的 counterfactual 概念是在实践中永远无法验证的,不可观察的confounders 用非常有限的可观察变量来近似非常困难。因此长时期以来,在统计学界、在遗传学界,因果分析常常遭到排斥。Rubin的因果推断理论主要探讨疗法(treatment)和效果两个变量之间的因果关系,推广到更多的变量,更普遍的情形也有它自身存在的困难。如前所述,除了Counterfactual 为基础的因果分析理论外,还有UCLA Judea Pearl的结构方程理论,德国马普所 Bernhardt Scholkopf 的 principal of independent mechanism。他们之间除了有些细微的差别外,是可用intervention calculus统一起来的。人工智能中的神经网络、variational autoencoder、GAN、变换器和加强学习都可作为基于这三种因果分析理论的因果推断的工具。类似于预处理,我们可以利用大量收集的无监督数据去近似confounders,从而去解决因果分析中长期备受争议的confounders问题。受到自然语言成功的鼓励,可进行符号逻辑自动运算、数学定理的自动证明。"We can plan, reason, use logic"。"Attention and composition"也许提供结合因果分析和深度学习的强有力的工具,实现深度学习从系统1 至系统2 的过渡。

04 未来之路

在展开这个话题之前,我先回忆一下一位数学家的故事。

阿贝尔是挪威十九世纪最伟大的数学家。他出身贫寒。家里有七个兄弟姐妹。一八二三年在他年仅二十一岁时他证明了一元五次方程不可能有初等解。他自掏腰包在当地的印刷厂印刷他这篇论文。因为穷,没有太多的钱印刷论文。他就把论文缩减至六页。可怜的阿贝尔滿怀着期待和信心把用法文写出的六页论文寄给外国数学家,包括著名数学家高斯。令人叹惜的是天才论文寄出却石沉大海。高斯武断地认为这样著名的数学难题这么可能短短的六页就可以证明。他把那凝集着阿贝尔的天才,心血和希望的论文连信封都未开启就束之高阁。人们没有想到这种广泛存在的冷漠却正在扼杀一个才华横溢的天才的生命。一八二五年阿贝尔在汉斯丁教授的帮助下申请到了出国进行短期研究的基金。他首先去了德国。由于高斯以前对待阿贝尔的冷漠,他并没有去找高斯。在柏林他结识了著名工程师克勒。当时克勒创办了一份纯粹和应用数学杂志(这份杂志按影响因子的标准来看,影响因子是很低的)。阿贝尔在这份杂志上发表了近二十篇文章。

1826年七月,阿贝尔离开德国来到法国。但他在巴黎的命运不见得比在德国好多少。他在给他中学时的老师洪波义写道:"总而言之,我不喜欢法国人和德国人。对陌生者,法国人是非常的缄默,非常的难以接近他们,而我也不希望这样。他们每个人只顾自己的工作,而不照顾別人。每个人想要教别人,可是不愿意学习。绝对的自私统帅一切。⋯ 每个人只想到自己,只有他自己可以发明理论东西,这是他们的想法。所以你明白,对于初学者是难以注意的。"阿贝尔希望自己的一篇长篇论文可以在法国科学院学报上发表。他把论文交给了勒让徳。勒让德因为年老,看不太懂。他就把论文交给了柯西。柯西,人们形容他是朝扣富儿门,暮随肥馬尘的人。他随手翻一翻就丢到角落里去了。可怜的阿贝尔在法国染上了肺结核却全然不知。他在柏林没有见到高斯,在法国没有发表任何论文。于是挪威政府中断了他的奖学金。阿贝尔在极度失望和贫病交加中回到了挪威.阿贝尔回到挪威,一方面担任家教以赚取生活费,一面继续他的数学研究。在群论,函数论领域作出了杰出的贡献。虽然他的好友克勒几经努力最后在伯林一所大学为他找到了一份教授的工作,但是疾病无情地过早地夺去了这位年青数学天才的生命。他生前并不知道这一喜讯。阿贝尔,这位令无数青年学生敬佩的人类历史上杰出的代数学家却这样凄凉地结束了他短暂而光辉的一生。

这个故事告诉人们,发明创造和你的现实生活是不画等号的。下面我从保守和激进两种截然不同的态度谈一下自己对未来我们要做什么和可做什么谈一些粗浅的看法。因自己的知识有限,对未来的洞察可能有误,这些建议不一定有价值。抛磚引玉,只期引起讨论。

(1) 继续创立和发展新的数据分析理论,克服统计假设检验中所存在的局限性

(a) 深入开展因果分析的研究

如前所述,统计假设检验中最为重要的局限性之一是要检验的假设的不唯一性,假说检验结果的不唯一性,也就是我们经常所说的虚假的关联性"spurious association"。克服这一局限性的最有力武器是因果分析。因果分析的结果是唯一的。经典数据分析的最重要和最广泛流行的方法是关联分析。关联分析不涉及机制。因果分析致力于揭示支配自然现象的基本规律,揭示隐藏在现象背后的机制。

因果分析是个尚待进一步开发研究的领域。它的研究可以有三方面。一是发展新的因果分析的概念和理论。二是应用人工智能到因果分析中去。三是应用因果推断到人工智能分析中去。理论是在不断发展的。我们不可能完全预测今后会创立什么样的因果分析理论。但有一点我们现在要探讨的是,我们周围的世界,大自然是如何由一块块具有内在因果关系的子系统,小世界组成的,而这些小世界是独立发展的。所谓内在因果关系是指任何独立的子系统都是由因,由规律,由机制,推动和发展的。这样因果分析的研究首先要解决的问题是如何把大自然,把我们周围的世界分割为独立的具有因果链条的子系统,然后再把这些子系统结合起来。

因果分析为统计方法留下了相当的空间。但是单纯依靠统计方法去分析因果关系是远远不够的,有非常大的局限性。如我们要分解一系统成相互独立的因果子系统,最近几年发展起来的人工智能方法就是要把数据映射到一个隐式空间,在隐式空间里构造有向图和因果结构。实现从观察空间到隐式空间映照的最强有力的武器是隐式生成模型如变分自编码器 (variation also autoencoder),瓦塞斯坦自编码器(Wasserstein autoencoder),带有正则化和不带有正则化的梯式变分自编码器(variation also ladder autoencoder)。赋予隐式变量予结构的是有向图和因果网络。

如何构造隐式因果网络是一个刚刚呱呱落地、尚在摇篮中孕育的研究课题,是可融合统计和人工智能为一体解决复杂问题的典型范例。目前有三种途径尝试构造隐式因果网络。第一种是显式地嵌入线性或半线性结构方程到自编码器。第二种借助于Style-GAN来构造由隐变量组成的一般的函数结构方程。第三种是借助于变换器来构建因果网络。

因果网络的构造常常最后归结为一个最优化的问题。传统的方法是归结为组合最优化。最常用的用于构造因果网络组合最优化的方法是动态规划和整数规划。组合最优化是一个 NP 问题,因而计算时间长,难以用它构造大型因果网络。一般来说基因组合最优化所构建的因果网络的节点数小于100。现有两条途径来解决这一问题。一是借助于人工智能来求解组合最优化,二是把组合最优化转换成有约束的连续变量的最优化问题。现在有许多尝试用人工智能来解决组合最优化的问题,如把组合最优化的问题视为一个马尔可夫过程,而用加强学习来求解组合最优化。大型组合最优化求解的核心问题是精度和计算时间。经典的办法是通过一步一步执行算法来求解。而人工智能的办法是把求解过程分为两部分。一部分仍然用传统的方法精确求解,而另一部分用机器学习的办法来预报可行解。最近DeepMind 和Google Research 用神经网络(Neural Diving 和 Neural Brancing)求解混合整数规划就属于这一类。Neural Diving 用于搜索混合整数规划的可行解,而 Neural Branching 用于选择分支变量。两者的核心在于构造描述混合整数规划的两分图,其继而转换成图神经网络。图神经网络embedding to 欧氏空间转换成向量,继而输入到 多层感知器(multilayer perceptron (MLP)),从而预报可行解或分支变量。把组合最优化转换成连续变量的最优化的关键点是构建基于邻接矩阵的约束以保证所求的有向图是无环的。

数学定理的证明,自动运算和自动逻辑推理也是因果分析的一个重要组成部分。在上世纪下半叶,我国著名数学家吳文俊教授用符号逻辑来研究数学定理的证明。然而,符合逻辑的演算需要一些规则。这些规则犹如自然语言的语法一样难以进行数值运算。现在人们认识到人的认知,智能活动植根于向量的数值运算。现在数学符号,数学方程式,逻辑推理的公式(先转换成图),定理的证明(定理的证明过程可转换为逻辑公式)被embedding 到向量空间,然后借助于变换器和预训练识别数学演算的先后顺序,定理证明的过程证明数学定理,取得了比符号逻辑运算更为好的结果。如用于自然语言处理的GPT-3推广到去自动证明定理的GPT-f就是一个典型成功的例子。

在对一大系统进行因果分析时最为困难的问题是如何分解一个未知结构的大因果网络成相互独立的子因果网络,然后又如何把他们组合起来。这是一个具有巨大挑战性的问题。如在组学数据的研究中,在药物靶标的识别和药物开发的研究中,我们希望构造一个包括基因表达,甲基化,蛋白质表达,代谢物,临床变量和疾病等表型在内的大型因果网络。这需要我们发展新的因果分析的概念,方法和算法。

(2) 预训练,预训练中的提示,知识图谱和贝叶斯定理,基础模型,样本序列极限,大样本和小样本

(a) 预训练是在智能座标系下,假设检验的一个极限过程

如前所述,假设检验(因而预测)与检验的样本息息相关。其相关性不仅在于样本的大小影响到检验的功效(power),而且在于随着样本的扩大,要检验的假设本身在变化,数据的分布在变化。我们研究自然要不断探索未曾研究的领域,产生,收集和分析out of distribution 的数据。费歇,纽曼和皮尔逊所提出的假设检验(实际上也就是经典统计)的框架是一种静止的,限于局部世界的分析方法。假设仅局限于一定的时间,地点。但是它把局部条件下的假说视作可运用于任何时间和地点的全局假设。这往往导致在训练状况下非常精确的预测模型,换了时间、地点就不精确了。我们以前大部分关注假设随区域、群体而变化,较少考虑随时间变化。如新冠肺炎预测模型没有考虑或很少考虑新的病毒(从而改变传播速度)的出现,疫苗随着时间逐渐失效。因而现有的大多新冠肺炎预测模型的长期预测的精度都较低。要克服传统的假说检验模型的局限性,我们拟把假设检验视作一个极限过程。在笛卡尔引进座标系后,科学中最重要的发现之一就是牛顿,莱布尼茲所创立的微积分。微分和积分是一极限过程。极限是一个过程,是一个从有限向无限发展和过渡的过程。无限是一个概念,在实际中无限可任意接近,但不可能达到。微积分创立了许多求极限的方法。在本世纪人工智能的发展过程中,我们正在创立智能分析系统中的座标系(工具式嵌入)。预训练可视为在智能座标系下,假设检验的一个极限过程。如果极限过程收敛于维一的极限,那么任何一组预训练都可视为这一极限过程的子序列,都会收敛于维一的极限,从而具有很高的预测精度。同时也不需要大样本。任一子序列(样本可小)都可收敛极限假设。

我们的困难在于如果一序列假设检验(预测模型)是发散的,我们如何构建子序列和如何获取子序列收敛的极限(也就是我们常说的 detection of out of distribution)。现在有三类方法:无监督,半监督和监督的方法来探测收敛的子序列,如预训练变换器,异常干扰,基于似然率的检验等。这些方法是非常初步的。这是个尚未充分开垦的领域,有许多工作等待我们去做,等待我们去开发。

(b) 预训练使用隐式模型

我们常说预训练是无监督学习,我们不提供完整训练的数据。但是预训练并不是不要监督学习,而是使用自监督学习。预训练是在自然语言的处理过程中发展起来的。通常自然语言的处理有翻译,回答问题,生成新的文本,对话等。这些自然语言处理的任务包括两部分。一部分是输入,另一部分是输出。无监督学习是指只提供输入,不提供输出。虽然预训练是无监督学习,但预训练的学习实际上也包括这两部分,只不过是这两部分不是都要事先由外部提供,而是由输入部分提供的。我们把输入部分分为两部分。一部分仍为输入,而另一部分为输出。所以我们称为自监督学习。我们构造深度神经网络。用新分出来的这两部分数据来训练神经网络,估计神经网络的参数。由于预训练的数据集很大,我们可训练巨大的神经网络。GPT-3的参数是1750亿。虽然是用预训练集训练出来的神经网络,当我们用少量的监督数据再训练它时,它只要少量调整参数,仍然能非常准确地翻译语言,生成文本,回答问题等。如此巨大的神经网络是不可能是数学式子表达出来的,其训练出来的模型是为许多统计学家所不熟悉的隐式模型。正是因为预训练模型有这样神奇的功能,所以有人称它为基础模型。但是我们要清醒地认识到基础模型不是一成不变的,它会随着样本的扩大会引入子样本的极限,从而引起基础模型的改变。构造神经网络的办法多种多样,构造出来的神经网络模型也不一样,因而基础模型也会变化。或许我们说预训练是人工智能分析的一个基本(基础)方法,但预训练所获得的神经网络模型可以是多种多样的。

我们要继续深入研究开发预训练神经网络模型的方法,研究它的模块式组合和多模态结构,研究网络模型的稳定性,它的综合推广能力,它的可扩展性,隐式模型的显式表达能力,模型的记忆容量,训练样本的最优选取,模型的适应性和模型的评估。我们要从统计学和智能学的基本原理出发逐步系统地建立起预训练的理论。

(c) 预训练中的提示,贝叶斯定理,先验知识和知识图谱

预训练是通过无监督学习从大型数据集中训练模型,然后通过监督学习的微调去改进模型以适应各种不同的任务。我们所面临的一个很重要的问题是如何从训练的模型中抽取特征,加入先验知识,充分利用认知的规律把知识和数据结合起来,从而找到收敛的子序列,减少样本,增加精度。为达到这一目的,一门称为prompt(提示)的技术正在兴起。

所谓提示就是给出任务的描述和一些范例。当我们面临多个任务时,我们不是去为每个任务复制预训练模型,而是保留一个统一的模型,通过提示所设定的任务描述,应用预训练的模型去求解各种不同的任务。我们可以把预训练中的提示看作一个贝叶斯问题。提示即为先验知识。给定先验知识可以改善模型的参数估计,从而改善模型的性能。避如说在药物靶标的寻找问题中,我们希望能找到从药物,经过各种组学通道到达要被治愈的疾病。虽然这些组学通道可以通过数据和因果分析来得到。但是往往不精确。如果在求解中结合经由试验获得的知识可大大改善精度。这些先验知识可通过知识图谱来获取。如何发展统计方法和计算机算法,设计和收集最优子样本,优化提示的选取是这个领域研究中急待要解决的问题。

(3) 生成式人工智能

最近隐式模型催生了生成式人工智能。在自然语言处理中,我们可以生成新的文本,故事,回答和提出问题。在计算机视角研究中,生成神经网络模型如GAN 可生成新的图象,甚至影片。在疾病治疗过程中,我们可由计算机从EHR数据或其他治疗数据中中产生新的治疗方案。最近《科学进展》杂志发表了一篇文章,提倡把生成式人工智能和芯片上合成结合起来,辅之以机器人设计和制造新药。Gardner 最新发布的“2021年新兴技术成熟度”预测,到2025年,“超过30%的新药和材料将通过生成式人工智能技术进行系统性的研发”。生成式人工智能也包括设计芯片,生成代码,甚至包括生成新的数学,物理定理,定律。2018年曾报道麻省理工学院的两位研究人员生成了一位人工智能物理学家,他能创建关于虚构宇宙物理定律的理论。有报道说,人工智能重新构造了牛顿第二定律,並发现了以前未知的暗物质质量计算公式。人工智能可以证明数学定理,产生物理定律,人们有理由期望生成式人工智能可以带来科学发现的自动化。

(4) 系统地建立起智能座标系理论,把 embedding 运用到数据处理的各个领域中去

大自然是在参照系的框架下运行的。物体运动的参照系是笛卡尔座标系。人的神经活动的参照系是智能座标系。正如人工智能之父 Geoff Hinton 最近在接受 "MIT Tech Review"时所说的大脑内部的神经活动既不是外部影像的像素,也不是符号逻辑的演绎,而是巨大向量的运算。统计学家和数据分析科学家当务之急是建立起智能座标系理论。智能座标系是笛卡尔座标系的延伸。我们要发展算法把单词、短语和句子、数字、DNA、基因、蛋白质、图神经网络、符号逻辑、数学方程式、最优化的目标函数和约束不等式等都映照到向量空间。我们要建立起智能座标系向量的运算法则和复合函数法则,建立起单词、词组、短语、句子、段落、全文和各种语言之间的向量运算,我们要定义智能座标系中向量的微分和积分。我们要把动态系统也映照到向量空间中去。要定义智能座标系中的微分方程以描述动态系统和大脑神经活动的重大变化。使智能座标系成为人工智能基本的分析工具。

(5) 变换器(Transformer)是本世纪人工智能发展的一个重大概念突破,我们要寻求更多这样的概念突破

变换器是一种新型的神经网络,是智能座标系中向量运算的基本工具之一。统计学只定义了两个变量之间的相关系数,没有定义或很难定义两个变量以上的相关关系。在遗传中,我们曾尝试定义高阶连锁不平衡。但高于四阶以上的连锁不平衡的计算公式就十分复杂。在信息论中,我们定义了两个变量之间的互信息(mutual information),也定义了两个变量以上的信息度量,相互作用信息(interactive information),但计算公式复杂。变换器定义了任何变量之间的相关性。和embedding相结合,起源于自然语言处理的变换器可以推广到图象、音乐、网络、数学方程式、数学模型、最优化模型、化合分子式、基因组科学、符合演算等。变换器深刻地揭示了变量之间的内在联系,揭示了自然界的内在规律。

变换器是基于两个变量之间的相关来计算的。我们也可发展基于两个变量因果关系的变换器,或称之于因果变换器。从而把因果变换器发展成为解开自然界因果链条的有力工具。科学总是在吐故纳新中成长壮大起来的。人工智能进一步发展中所需的新的概念正等待我们去发现,去探索。

(6) 创立统一的新的统计理论

(a) 创立智能统计学

现在的统计学理论是在笛卡尔座标系的框架下发展起来的。一部分仍然可以在智能座标系下工作,但有的不能在智能座标系下工作。如皮尔逊相关系数是针对两个变量定义的,但不能用于度量两个向量之间的依赖关系。对于两个向量之间的依赖关系,我们需用距离相关系数(现统计学中已有定义)的概念来研究。对于两个网络之间的依赖关系,现在的统计学没有给予定义。虽然多元正态分布可用于研究向量空间的相量分佈,但其它的分佈很难推广到高维向量空间来。我们迫切需要发展智能座标系下的统计理论。

智能座标系下的统计理论包括两部分:一部分是智能元素(实体)映照前的统计学,一部分是映照到向量空间后的向量(embedding)的统计学。Embedding 统计学包括 embedding 的统计分布,一组 embeddings 的独立检验,它们的依赖关系的度量,它们的线性和非线性变换的分布,智能座标系下向量的贝叶斯公式。在笛卡尔座标系中,图的节点对应一个变量。但在智能座标系中,图的节点对应一个向量。在笛卡尔座标系中的贝叶斯网络如何向智能座标系推广。在笛卡尔座标系中n个变量的多元正态分布推广到智能座标系中n个向量就是矩阵正态分布。其它在笛卡尔座标系的分布,点过程,正态随机过程和马尔可夫过程如何推广到智能座标系中来。我们要发展智能座标系下的线性和非线性回归理论,发展在智能座标系下的假设检验理论。

智能座标系下的统计理论的第二部分是如何通过智能元素的 embeddings 的统计关系来定义智能元素的统计关系(inverse embedding 的统计学)。如词汇、句子、短语和段落都映射成向量空间的向量(embeddings)。如何通过这些向量的统计关系来定义词汇、句子、短语和段落之间的统计关系。如图神经网络映射成智能座标系的向量集。如何通过这些向量集的统计关系来定义和研究图神经网络的统计关系。这是个从未有人研究但饶有兴趣的研究领域。

(b) 创立统一的统计理论

在物理学的研究中曾提出统一场论的思想。物理学家和数学家曾为之奋斗了半个多世纪。最近斯坦福大学的计算机学家又提出了基础模型的概念。我们统计学家又面临着创立智能统计学的理论的艰巨任务。智能统计学的理论不是凭空创立起来的,而是站在柯尔莫哥洛夫,费歇,纽曼和皮尔逊等巨人的肩上去发展的,是植根于经典概率论和统计学基础上的。在现在这个阶段,我尚不能预测统一的统计理论究竟是什么样的,但我能预测统计界和数据分析界可迎来末来几十年的蓬勃发展。有志者事竟成,在本世纪上半叶,新的统一的统计理论一定会诞生。

(7) 建立强大的智能数据分析中心

成功的数据分析需要三个资源:人力资源、数据资源和计算机资源。人工智能是在本世纪崛起的一门新型独立学科。在过去半个多世纪的发展中,人工智能从计算机科学,自然语言处理,影像学,统计学,认知学,脑科学,甚至社会科学中吸取了广泛和丰富的知识。人工智能理论巳形成了多个分支,不是学一、两门课,看几篇文章就能解决的。人工智能是一门交叉学科,需要一支具有良好的计算机编程技能,多个学科组成的,有经验的,有工作热情的,能紧密合作的技术队伍。预训练需要大量的数据。要产生和收集项目分析所需的大量数据。因模型的参数很多,数据很多。因此一般需要在超大型计算机上计算。这样的数据分析中心可以有几种不同的类型,有实体的,仅由一个单位管理的,也可由几个单位合作组成、近乎虚拟的。

(8) 继续你现在的工作

任何一个新事物代替一个旧事物都需要一个过程。新的概念,新的理论的传播是需要时间的。新的一代科学家的培养更需要时间。经典统计学真正受到威胁需要十年以上的时间。那些杂志的编辑,审核你文章和资金的人大多是与你具有同一理念,学术思想的人。你不会有什么烦恼和忧愁。继续你现在所做的研究工作。

(9) 做好应用

在历史的长河中,我们看到创造理论的人总是少数人。大多数人是理解他们的理论,通俗地解释他们的理论,培养新一代的科学家,把他们的理论应用到实际中去,应用到工程技术和医药卫生中去,应用到其他学科的发展中去。把新的理论和旧的理论很好地结合起来解决实际问题。好的应用也不是一件容易的事情。应用也是研究,也需要创造性思维。应用研究的队伍是一支最大的队伍。

05 踏破坎坷成大道,一路豪歌向天涯

人工智能在科学和技术研究,工业生产和社会经济发展的各个领域所取得的巨大成就举世瞩目。在人类历史的发展长河中我们曾经历过三次技术革命,即农业技术革命,工业革命和电子技术和计算机革命。我们现在正在经历人类历史上的第四次技术革命,即智能技术革命。智能技术革命正在引起科学研究,工农业生产,医学和社会经济发展的巨大变化,正在改变每个人的日常生活方式,思维方式。智能技术革命方兴未艾,正处在巨大的蓬勃发展中,是没有任何力量可以阻挡的。

和任何新生事物的成长一样,人工智能的发展一定会遇到困难,遭受挫折。任何一种新提出的理论,学说,开始时都是不被人们所理解,所承认。有时还会遭到围剿。在任何时候,旧势力的代表者总是编造出许多貌似有理的、振振有词的证据、推理、预测来反对尚为弱小的新理论、新学说。这是非常需要勇气和毅力去坚持、宣传和发展新理论和新方法的。

我们过去所学过的、熟悉的许多东西将会要闲置起来。新的、不熟悉的东西正等待我们艰难地去学习、去创造。我们也许正走在荆蕀丛生的道路上。"敢问路在何方,路在脚下"。如来佛取经一样,让我们在探求科学真理的道路上,"踏破坎坷成大道,一路豪歌向天涯"。

06 后记

8月23日,AlphaFold 2以"PROTEIN POWER"为标题登上了《自然》杂志的封面。同时《自然》杂志发表了署名为 Mohammed AlQuraishi 的文章"Protein-structure prediction revolutionized"。《科学》杂志于8月27日发表了题为"Geometric deep learning of RNA structure"的文章,谈如何利用信号、生物实体映照到向量空间的表示、向量空间的几何结构来予测RNA的三维结构,展现了人工智能的巨大威力和在各行各业的广阔发展前景。

耶鲁大学张和平教授和北卡大学教堂山分校朱宏图教授鼓励我把一些想法写成文章,在公众号上发表。现撰写此文,以饗读者。

—— 熊墨淼教授 from 美国德州大学公共卫生学院

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

迎来智能数据分析的新时代_第2张图片

你可能感兴趣的:(人工智能,神经网络,大数据,dbcp,微软)