2025年的数学科学:数学科学的生命力

节选自《2025年的数学科学》,美国科学院国家研究理事会编著

本章阐述一些最新进展,从使用数学分支领域的技术来解决百年难题,到解决另一个领域的重大问题,再到开创全新的研究领域。主题依次是:

  • 三维空间拓扑
  • 不确定性量化
  • 数学科学与社会网络
  • 蛋白质折叠问题和计算生物学
  • 基本引理
  • 算数级数中的素数
  • 分层建模
  • 算法与复杂性
  • 反问题:可见与不可见
  • 几何学和理论物理学的相互作用
  • 统计推断的新前沿
  • 经济与商业:机构设计
  • 数学科学和医学
  • 压缩传感

三维空间拓扑

直观地,人们可以想象拓扑学空间由橡胶或乳脂糖之类的物质构成,而几何学空间由钢构成。
三位球面:四维空间中与原点有单位距离的点的全体——四维空间中的球面,其表面是三维的。它具有的性质是,球体上的任何闭合路径可以通过在球体上的连续变形,且始终位于球面上,收缩为一个点路径。
庞加莱猜想:这是否是有限扩展到拓扑等价的唯一的三维空间。2002年,格里戈里·佩雷尔曼成功证明了庞加莱猜想,在证明过程中,他借助了分析的和理查德-哈密顿抛物型方程组的深刻思想。简单的说,哈密顿引入并研究了黎曼度量的演化方程,类似于热传导方程。

不确定性量化

当今科学、工程和社会的许多领域,要利用数学模型表示复杂的过程。数学建模和计算机科学是数值模拟发展基础,在过去的20年取得了惊人的进步,并将持续得到改进,然而,除非数学模型能够准确表示模拟的真实过程,否则这种数值模拟的作用是有限的。
确保数值模拟能准确表示真实过程还要解决许多问题:

  • 数学模型的许多因素是未知的
  • 数值模拟输入的初始条件往往是不完美的,例如天气和气候预测必须以当前状态数据为依据,而对当前状态并不完全知道。
  • 数学建模往往基于不完整的可u邪恶只是

为了解决这些问题,出现了称之为“不确定性量化”的新领域。它可以实现通过计算模拟解决真正复杂过程的精确建模和预测的梦想。要实现不确定性的量化,需要利用概率、测度论、泛函分析、微分方程、图形和网络理论、逼近论、遍历理论、随机过程、时间序列、经典推理、贝叶斯分析、重要性抽样、非参数技术、稀有和极端事件分析、多元分析等各种数学和统计学研究。

数学科学与社会网络

在线社交网络以前所未有的规模和分辨率收集社会数据,使在过去只能通过深入挖掘才能实现的社会网络得以呈现。由于互联网和社会网络的兴起,网络分析的基本假设已发生了巨大变化。社会网络日益丰富的数据量以及日益增加的复杂性,正在改变社会网络的研究面貌。这些变化对数学和统计学建模既是机遇也是挑战。
数学应用的新机遇的一个例子是大量关于随机图模型方面的工作。随机图模型可以捕捉到大型网络数据中观察到的一些定性性质。随机图数学模型有助于人们理解社会网络的许多属性。其中一个属性是网络的度,在某些情况下揭示了小世界原理,其中距离非常遥远的人通过较短的路径连接在一起。这些短路径非常容易找到,促使了分散搜索算法的成功。

蛋白质折叠问题

诺贝尔奖获得者,生物学家Christian Anfinsen证明,未折叠的蛋白质可以自发重新折叠到原来的生物活性构象,这一论断产生了著名的蛋白质折叠猜想。
对于一类特定的蛋白质而言,蛋白质折叠猜想已被证明是错误的,例如,有时被称为“分子伴侣”的酶,它们在蛋白质折叠中起必要的辅助作用。
2005年,蛋白质折叠问题被《科学》杂志列为125个尚未解决的重大科学难题之一。
从概念上讲,蛋白质折叠问题很简单:给定蛋白质中所有原子的位置,我们就可以计算结构的势能,然后找到能量最小的结构。然而,这样的目标在技术上难以实现,原因是能量依赖于结构的方式极其复杂。一个更具吸引力的策略是“分子动力学”,它具有清晰的物理学基础:运用牛顿运动定律,列出一组称为哈密顿方程组的微分方程组,描述任一时刻蛋白质结构中的所有原子的位置和速度。然后,我们求解蛋白质结构运动方程组的数值解。蛋白质结构运动方程组不仅能预测一种蛋白质的低能量结构,而且还能提供蛋白质的运动信息和动力学信息。为了获得这些方程组的数值解,我们通常将时间离散化,利用差分方程对微分方程组进行近似。然后采用分子动力学算法,如蛙跳算法,对运动方程进行积分。由于系统既大又复杂,离散时间的步长必须足够小,以避免灾难性的错误,也就是仅几分之一。
另一种策略是基于统计力学的基本原理,此策略指出:观察一个特定结构状态的概率与其玻尔兹曼分布成正比,利用玻尔兹曼分布进行模拟非常具有挑战性。需要使模拟更有效的新的蒙特卡罗法,这些新方法也可以对其它计算领域产生更广泛的影响。
分子动力学方法和蒙特卡罗法都依赖于好的能量函数,虽然人们已经通过努力取得了许多深刻的见解,但精确地模拟原子间的相互作用,尤其是在显示环境中以更实际的方式进行模拟,仍然是一个巨大挑战。所有的方法都仍未达到要求的精度,虽然拥有大量已知的蛋白质结构,但应用一定的统计学习策略,结合经验数据和物理学原理的信息,能量函数仍有很大的改进空间。
最近几年,利用快速增长的蛋白质结构数据库,计算预测蛋白质结构已经取得了很大的成功。众所周知的成功策略被称为“同源性建模”。另一个具有吸引力的策略是,成功地将蛋白质结构的经验知识和模拟蛋白质折叠的蒙特卡罗策略结合起来,其思想是:在数据库中,对那些由观察到的结构折叠支撑的结构进行修正。到目前为止,这些以生物信息学为基础的学习方法能够准确预测小球状蛋白质的折叠,以及与已知结构的蛋白质同源的蛋白质折叠。
当一个蛋白质发生折叠时,它是利用“量子隧道效应”来突破(假想的)导致分子动力学程序发生问题的经典的能量壁垒吗?

朗兰兹纲领的基本引理

基本引理是看起来不起眼的组合恒等式,由罗伯特·朗兰兹在1979年提出,是朗兰兹纲领的一个组成部分。朗兰兹纲领由基础数学中一系列影响深远的猜想构成,通过系统解决,能够解决数论的最根本问题。朗兰兹纲领提出了数论中的绝对伽罗华群与分析中的自守形式之间的一个关系网。
2009年,吴宝珠证明了朗兰兹纲领自守形式中的基本引理。吴宝珠因此项成果获得了2010年的菲尔兹奖。
朗兰兹纲领的基本引理被证明了,整个纲领还没有被证明,朗兰兹纲领的整个纲领的证明还在继续着,他的证明过程同时为未来的研究提供了新的见解。朗兰兹纲领基本引理的证明是数学科学富有生命力的有力证据。
吴宝珠在越南长大,在法国学习,却在美国完成了他最伟大的工作,现在他是芝加哥大学的教授,这个例子表明,美国富有吸引力的强大数学文化,吸引了世界上最伟大的一些科学家定居美国。

等差数列中的素数

一个古老的问题:是否有无穷多个差值仅为2的素数对,如5和7,11和13,尽管问题表述并不困难,但它仍然没有得到解决。另一个古老问题由拉格朗日和Warning在1770年提出,是关于等差数列中的素数。该问题的一种形式很容易表述:是否存在素数p和某个数q,组成100万个元素的等差数列并使每个元素都是素数?当然,人们可以用任何数N代替100万。
这个问题的进展甚微,直到本·格林和陶哲轩的证明:对于任意的N,的确都存在上述的N个素数组成的等差数列。
该研究成功建立了素数与两个无关的数学领域——谐波分析和遍历理论之间令人惊讶的联系。从这个意义上说,格林和陶哲轩的成果是许多伟大数学进展的典型,使显然不相关的领域相结合,在这个过程中开辟了新的机会。
遍历理论通常认为是概率论的一部分。它可用于素数的研究,反映了将素数作为完全确定的现象来对待和认识。我们通过假设它们在某些方面是随机的而更好地处理他们之间的关系,因此通过概率论进行最好地处理。格林和陶哲轩取得了重大的进展,证明及时是非常无序的集合,如素数集合,有时也可以分解成一个高度结构化的部分和一个具有高度随机行为的部分。

分层建模

分层建模是一组用于两个相关方面的技术:估计总体分布特征,如均值和方差;通过结合不同来源的信息预测总体中的个体特征。为了说明分层建模如何工作,我们以几场比赛后棒球击球手的排名问题作为例子,比赛者的排名依据是击球手成功击球次数的比例。成功击球次数的比例部分反映了击球手的能力,因为只进行了几场比赛,所以包含大量的随机性。得到公认的是,很多比赛者的最初击球率非常高或非常低,但随着赛季的进行,击球率将恢复到平均水平,没有得到公认的是,最初击球率非常的高或低是非常随机的,这是不可避免的。
这种情况可以使用分层建模,假设每个击球手都有一个以技术水平为基础的未知“真实”击球率,然后观察这一真实的击球率与测量误差的组合。对测量误差进行建模,真实的击球率利用源于“总体分布”进行建模,正是这种二级建模产生了“分层建模”的概念。
在各种情况下,分层模型称为随机效应模型、经验贝叶斯模型、多层模型、随机系数模型、收缩模型、隐马尔科夫模型。下面例子说明了当今科学和社会是如何使用分层建模的:
气候和环境研究要基于不同来源的数据对温度和降水等气候变量进行推导例如在古气候重建中,气候场需要从不同类型的观测数据中恢复,分层建模在模拟它们的复杂结构,以及集成所有信息,对未知气候过程分析出一个清晰的结论等方面非常有用。
计算生物学家使用分层建模方法分析微阵列数据,研究不同物种的基因组序列模式
分层建模基本结构的一个拓展是贝叶斯网络,其在人工智能中已成为重要的机器学习工具。贝叶斯网络是编码概率相关性模型的一种图形化方法,图形中的每个节点代表一个可能会或不会被观测到的随机变量,两个节点之间的定向连接表示它们之间是相关的。研究人员发现,这种结构在学习诸多因素之间的关系和在复杂情况下作出非常准确的预测非常有效。例如,科学家和工程师将贝叶斯网络用于创建垃圾邮箱过滤工具、信息检索、图像处理、生物监测、决策支持系统等。
公共卫生研究人员、人口普查的科学家和地理学家使用分层建模进行空间分析,如各区域的疾病地图和小范围内的人口估计。

算法与复杂性

近年来,人们使用算法解决工程问题的能力显著提高,人们不仅可以有效地使用算法解决工程问题,而且知道哪些工程问题可以用算法解决。
在过去的几十年中,数学科学界在开发和改进算法工具方面取得了长足进步,最近,由Spielman和Teng提出的平滑分析方法,为证实大公司的优化算法的有效性提供了新的框架,它利用概率,而不是利用罕见的最坏情况估计性能。
收益信息通常是业务优化决策的一部分,但在一些没有交易收益信息的情况下,仍需要算法马上做出决策。能实现这种决策的网络环境正在有条不紊地建立。例如Akamai公司所采用的一个方法,几乎所有的大型网站都在采用,这个公司的建立是基于一个很强的理论性算法思想,算法解决“如何以最佳方式在互联网上发布内容”的问题。
具有巨大商业效益的最有名的数学算法是RSA加密方案,这些发展最根本的是发现同态加密技术,允许人们仅用加密信息计算,而不需要解密这些信息或学习相关内容。
最近计算机学习理论界的Spielman等人开发出了新的编码,这些编码可以在线性时间内进行编码和解码,对于最坏情况下的噪声模型,也能达到香农容量。编码对理解有效计算的局限性产生了重大影响。编码是开发“概率可验证明”(PCP)新型证明系统的关键工具。这些证明只能从概率上进行正确性验证,例如随机算法仅从证明中检查几个字符,就可能以99%的确定性证明它是正确的。复杂性理论的惊人发展已经证明,每一个正确证明都可以转化成概率可验的证明,证明规模仅以多项式级增加,有效地提供了证明的高冗余编码。

反问题:可见与不可见

反问题是那些通过外部观测,理解系统内部结构的问题。系统本身是隐藏的,是一个无法直接探测的黑盒子。这种问题是当代科学探究和技术发展的核心。这方面的应用包括各种成像技术,如癌症和肺水肿早期检测、地壳中是有和矿藏勘探、根据望远镜数据创建天体物理图像、发现材料内部的裂缝和界面、优化形状、确定成长过程的模型,以及生命科学中的建模。
典型的反问题需要确定偏微分方程的系数,给出有关方程解的一些信息。这方面的研究利用个数学分支领域,包括复分析、微分几何学、谐波调和分析、积分几何学、数值分析、优化、偏微分方程和概率论建立应用领域和数学之间很强的联系。
椭圆方程反边界问题的一个案例是经典的卡尔德伦问题,也被称为电阻抗断层成像(EIT)。电阻抗断层成像被应用于多个领域,包括地球物理勘探和医疗成像。
隐形:超材料,变换光学系统利用材料光学性能的变换规则,从理论上证明了微博频率隐形的计划是可以实现的。最近几年,人们通过努力,使超材料能够对包括可见光在内的更广泛的频率范围隐形。

几何学与理论物理学的相互影响

数学,尤其是几何学,与理论物理学的相互影响有悠久的历史。19世纪中期,几何学与理论物理学属于同一个领域。例如,狄利克雷关于在给定圆周边界值的圆盘上存在调和级数的观点,能够很好地说明对静电的物理直观感受。希尔伯特空间在量子力学的作用、黎曼几何在相对论的作用。而弦理论还缺乏数学来描述,物理学家在不断发展其中蕴含的数学问题和数学结论。
物理学论据提供了通用公式,后来数学论据进行了直接证实。
规范场-引力场对偶将广义相对论与量子场论理论联系起来。

统计推断的新前沿

目前的技术催生了高维数据集,以及在每一个实验中都产生的大量观测数据,统计学家为医学研究人员返回一个基因列表,并使他相信他应该期望这些基因至多只有已知的一部分是“虚假发现”,比如10%。
方程数量比未知数少得多,我们该如何处理,近年来,统计学家和应用数学家已经为稀疏回归问题提出了一些非常实用的方法。这些方法大多都依赖于凸优化,我们需要最小的信噪比来确认真正重要的变量。
根据高维数据进行准确估计是不可能的,除非假设是上面我们讨论的稀疏结构。统计学家们研究了其他关键结构,确保从不完整的数据中进行准确估计。包括低秩的估计,如著名的Netflix问题,其目的是预测用户未观看电影的偏好。
一般情况下,标准统计学检验和应用于选定参数的置信区间是完全错误的。在海量数据时代,迫切需要提供正确推理的统计学方法。

经济学与商业:机构设计理论

机构设计是一门具有悠久历史的学科。例如,设计规则建立激励措施从而获得期望的结果。现在机构设计理论的发展强调了将计算的思想应用到经典机构设计问题上的必要性。
机构设计理论的最典型的例子是在互联网上销售广告空间,这是许多网络服务提供者的主要收入来源。在线广告的成功,很大程度是由于供应商能够根据用户的搜索行为,推断出用户的兴趣,为用户量身定制广告。
计算可行的机构设计的许多前沿问题已经获得了显著的进步,三大亮点如下:

  • 认识发现纳什均衡的计算难度
  • 量化博弈中没有完全实现理想结构的均衡效率损失,这称为混乱的代价。这方面的初步成功实在博弈论领域,如保证平衡和进行路线选择,最近这方面的工作和网上拍卖有关,有很大的发展潜力。
  • 通过开发近似实现期望结果的技术,推动计算可行的机构设计的理论发展。

数学科学与医学

计算医学面临的重大挑战之一是,如何根据一系列随时间变化的测量数据来构建个性化的心脏生物学、力学和电活动模型。它们可以用来诊断或手术规划,从而为患者带来更好的恢复效果。应对这一挑战,需要应用数学解决两项任务。

  • 从随时间变化的三维计算机断层扫描或核磁共振成像的患者图像序列中利用数学获知心脏的运动情况,依赖于核心数学的一个分支——微分几何学的概念和工具。
  • 将通过数学工具提取的心脏运动情况作为观测数据,促进反问题的求解。反问题是指根据外部成像观察到的运动,推断心脏模型的生物机电属性的参数。

压缩传感

压缩传感的目的是解决核磁共振成像的重大问题。核磁共振成像是一个缓慢地数据采集过程,由于儿童不可能长时间保持静止或屏住呼吸,所以不可能实现高分辨率扫描。
通过减少数据点的采集量,可实现更快的成像,一组研究人员证明少量的采样就可以实现高分辨率成像,从而改变了信号处理过程。引用Wired杂志观点:“那是压缩感知的开始,它是数学的热点领域,重塑了人们在大数据集工作的方式。”
在数字光学领域,人们已经设计出几个系统。在压缩传感思想的指导下,工程师们有了更多的设计自由,体现在三方面:

  • 使用比最初认为少得多的传感器,获得高分辨率成像,显著降低设备成本。
  • 设计能够使显微镜的信号采集时间减少若干数量级,开拓了新的应用领域
  • 可以在大大降低功耗的情况下,感知周围环境,延长传感器的使用寿命。
    压缩传感是过去十年数学科学最实用的理论之一,也是非常复杂的数学理论之一,压缩传感理论找到新的应用领域的同时,从应用领域提出新问题和新方向,产生新的理论数学问题。

你可能感兴趣的:(2025年的数学科学:数学科学的生命力)