数据驱动——新材料发展的新引擎

材料工业是国民经济的基础产业,新材料是材料工业发展的先导,是重要的战略性新兴产业。当前,我国新材料产业发展面临着重大战略机遇,以新一代信息技术、航空航天、物联网、新能源汽车和轨道交通等代表的战略性新兴产业快速发展对材料产业提出了更高要求,新材料研发的迫切性前所未有,新材料研发的模式也在不断创新优化。本文从材料研发的模式出发,探索大数据在材料研发过程中发挥的作用和商业化结果,提出材料大数据领域的投资策略。

一、新材料研发的传统模式具有时代局限性 已经难以满足产业发展需求

自从十八世纪近代化学诞生以来,材料科学的发展已经历了实验试错、经典理论构建、第一性原理计算三个范式阶段。目前主流的材料研究和开发模式仍然是上述三种范式及其组合应用。随着信息科技的多轮革命性发展及其对整个产业经济的带动,作为产业经济最上游的材料环节,传统的研究开发模式已经愈发难以满足当前产业经济快速发展的需求。

1.经典理论与传统实验结合:试错模式开发缓慢,实验成本日益高昂

在二十世纪和本世纪之初的相当长的时间内,材料的研发模式主要依赖经典理论指导与大量实验试错结合的传统模式。这种传统模式在近现代化学和材料科学发展的早期,曾经有效地实现了大量新材料的发现和改良,并推动了化学与材料科学经典规律的发现和理论体系的建立完善。

但时至今日,这种类似于“爱迪生尝试了近8000种材料发现了钨丝适用于白炽灯”的传统模式,具有效率低下、成本过高的明显弊端,已不能适应工业快速发展的需求,反而一定程度上成为制约产品技术进步和工业发展的瓶颈。

例如,作为目前移动电子设备主要能源的锂离子电池,从上世纪70年代中期实验室原型到90年代中后期实现工业化应用,前后花了近20年时间,甚至直到当前才逐渐广泛应用于新能源汽车上,一个重要原因便是锂离子电池中涉及多种材料的设计和适配,其缓慢的开发进度迟滞了锂离子电池的产业化速度。

另一方面,随着对材料性能要求的不断提高,材料科学研究对象的空间尺度在不断变小,纳米乃至原子尺度的结构调控已成为材料研究的内容,对部分功能材料的研究甚至要到电子层次。因此,材料研究越来越依赖于先进的测试技术和设备,研究难度和成本也越来越高。此外,随着材料应用环境的日益复杂化,人们越来越重视材料与应用环境的相互作用及其对材料性能的影响,仅仅依靠实验室级别的实验来进行材料研究已难以满足现代新材料研究和发展的要求。

2.计算化学第三范式处理实际体系材料问题时难以逾越的复杂度鸿沟

基于量子化学原理,利用不同的模型和计算方法研究新材料是新材料开发的第三范式。借助计算机虚拟环境和超级计算机算力,可以从不同性能指标维度对材料进行多层次研究,模拟材料在各种条件下的性能演变规律、失效机理,甚至可以模拟超高温、超高压等极端环境下的材料性能,进而实现材料性能的改善和设计的优化。

计算化学范式在处理小规模原子或小分子体系,分析有限的结构和性能参数时通常能取得有效的结果,与实验结果符合度很高,并能对未知体系的研究开发起到很好的指导预测作用。

然而,在分析处理材料领域的实际体系时,通常要面对更大的尺度(宏观尺度材料的原子数量通常在10^20数量级以上),更多的微观性能参数(高达100+),以及实际应用中对不同维度宏观性能(力/电/磁/光/热/化学/生物等)要求的协同;这使得计算的复杂度可能攀升至10^400数量级。

而目前最顶级的超算算力达到每秒10^17次运算,因此对于当前的超算算力和计算需要的存储容量而言,完全依靠计算化学手段处理实际体系材料问题几乎是不可能完成的任务。

二、数据驱动的材料科学新范式 已在科研领域得到广泛应用

1.各国政府推动发展数据驱动材料开发新范式

面对材料开发传统模式的缺陷和困难,各国政府、科研界和产业界都在积极寻求新的突破。美国率先提出了数据驱动材料科学研发计划。美国政府在 2011年启动材料基因组计划,旨在将材料的发现、开发、制造速度提高一倍,同时大幅降低新材料的研发成本。

材料基因工程包括三种模式。第一种是高通量实验驱动,以量变引起质变,典型技术是组合材料芯片技术。第二种模式是理论计算驱动,缩小实验范围,再进行实验验证。第三种即是数据驱动:通过对材料领域大量数据(即材料数据库)挖掘和深度学习建立模型,预测候选材料,大幅降低实验试错成本。

我国也高度重视数据驱动材料科学的发展。2014年上海市、北京市先后成立了上海市材料基因组工程研究院、材料基因工程北京市重点实验室。2016年工业和信息化部、科技部等部门联合发布的《新材料产业发展指南》明确提出要加速新材料与信息技术加速融合,不断突出大数据、数字仿真等技术在新材料研发设计中作用。

欧洲、日韩等世界其他国家和地区也有类似政策推出,这种趋势促成了材料科学走向新范式:数据驱动的材料科学。

2.材料数据库等基础设施正在加快建设

为了推动数据驱动材料科学的新范式发展,进而减少支持传统的新材料研发-商业化周期所需的时间(10-20年)和投资额,材料数据库的建设和材料数据的开放共享成为必不可少的基础条件。

1965年,剑桥结构数据库的成立,为材料科学领域展开新篇章,并在后来引领了材料结构、实验等数据的数字化趋势。四十多年来,以数据库为主的材料基础设施在全球各地逐步涌现,近年来也有越来越多的材料数据库在亚洲落地。

图:材料数据基础设施和公司的时间表和地理分布

大多数早期的材料数据库仅提供托管数据和搜索功能。随着数据挖掘和人工智能的兴起,近年来一些数据库正逐步发展成为提供基础材料和数据分析服务的数据中心,材料数据库的角色也正由基础设施逐渐发展成为科学发现和材料开发的新平台。

3.数据驱动材料开发新范式的有效性正在越来越广泛的研究中得到印证

早在上世纪70年代,科学家就曾在相图计算方法和数据库的开发中尝试使用大量数据来加速新合金的设计和开发。近年来随着人工智能和大数据技术的发展进步,其在材料领域的作用也愈发明显;对材料大数据进行人工智能分析,挖掘数据间的隐含变量和关联,以此来加速新材料开发和指导材料科学新发现。

例如,日本大阪大学一名教授利用1200种光伏电池材料作为训练数据库,通过机器学习算法研究高分子材料结构和光电感应之间的关系,成功在1分钟内筛选出有潜在应用价值的化合物结构,传统方法则需5-6年时间。

又如,英国利物浦大学的科研人员研发的一款机器人,成功在8天内自主设计化学反应路线,完成了688个实验,并找到一种高效催化剂来提高聚合物光催化性能,这项实验若由人工完成将花费数月时间。

越来越多的案例表明,当前基于数据驱动的新范式已在材料科学研究中得到了广泛验证和应用。此外,研究者们也日渐重视“失败”数据的获取和分析,以构建真正意义上完整的材料数据库,进而加强数据驱动材料科学的有效性。2016年《Nature》发表的一篇论文显示,通过机器学习从过去认为是“失败”的数据中“学习”规律,并对新材料进行预测;最终机器预测结果以89%的成功率胜于有成功经验的材料科学家的人工判断结果(78%的成功率)。 

三、数据驱动的材料开发模式 已在部分行业实现商业化落地

在材料开发及应用相关产业的需求升级的拉动下,伴随着大数据和人工智能产业的蓬勃发展,近年来已经涌现出了不少材料大数据的商业化落地案例,主要集中在包括半导体、新能源、生物医药、精细化工等领域,几个典型案例如下:

1.锂电池材料

锂电池从上世纪70年代中期已出现实验室原型,但一直到现在将近五十年的时间,才实现在电动汽车上的广泛应用。即使到现在,锂电池在性能和安全性上的更新迭代进度依旧较为缓慢。美国Materials Design公司旗下的的MedeA便是一个基于材料数据库的功能材料设计与性质预测平台,其利用强大的数据库与计算模拟方法,为锂电池材料研究设计提供一套完备的设计解决方案,范围涵盖了锂电池的稳定性提升、循环寿命改善、正负极材料设计优化、电解液迭代升级等,同时拥有如霍尼韦尔、宁德时代、飞利浦等国内外知名客户。

2.有机发光材料

有机发光材料相比无机发光材料具有很多优点:光程范围大、易得到蓝光、亮度大、效率高、驱动电压低、耗能少、具柔性、制作工艺简单、来源丰富、易加工、可大面积制作等,基于有机发光材料的光电器件近年来也得到了快速发展和广泛应用。上海某材料大数据企业开发了一款研究和设计有机分子材料发光和传输机理以及定量预测发光效率的软件MOMAP,目前广泛应用于OLED发光和传输机理研究、新型OLED设计、有机显示与照明材料以及有机太阳能电池等领域,在实现分子材料性质预测、高效率的OLED材料开发和计算等方面作用显著。

3.新药研发

在新药研发行业,一个药物分子从发现设计到最后的成药上市,平均周期需要13年,总成本更是高达17亿美元。其中,临床前先导化合物的发现和优化平均花费3.5年,资本化成本5.8亿美元,而化学合成大量的分子则是这部分的主要工作;基于人工经验的合成存在效率低、成本高、需大量试错的缺点,大幅拉低了新药临床前研发的效率。

武汉某材料大数据企业,其开发的药物分子逆合成技术,已经部分实现了用人工智能和化学大数据解决新药研发临床前的化学合成问题,有效提高了药企新药研发的效率;目前已和全球多家大型药企、CRO巨头达成实质订单合作。

上述案例已经说明了数据驱动新范式在商业化材料开发和应用上的有效性,但同时这些专注于某个领域的材料数据企业也存在其发展局限——这种类型的企业的材料数据库一般只针对某一特定细分行业收集数据,因此基于其数据库的开发平台或计算软件也只能在特定领域发挥作用。要充分发挥数据驱动新范式的全方位优势,实现跨领域、宽门类、多维度协同的材料开发和应用,有赖于更加全面的材料数据库和基于此发展的丰富的材料开发和应用软硬件产品。

四、交叉学科产生投资机会:材料大数据企业应关注三个核心能力

到2020年底,我国新材料产业总产值超过6万亿元,预计2025年将达到10万亿元。仅考量材料研发环节,按3%研发费用测算,市场空间可达1800亿-3000亿,值得投资机构关注。

这也对材料大数据企业的综合能力和产业技术资源提出了很高的要求,重点体现在以下三方面:

1.庞大的材料数据库是基础

国外如AFLOW、NIST、NOMAD等领先的世界级材料数据库积累了数十万甚至上百万条材料相关数据,覆盖范围甚广。国内企业要想在材料大数据领域实现弯道超车,首先要依托我国全产业门类的优势建立更大量级的材料数据库。大量真实数据是上层应用的底层基础,没有足够庞大的数据库作为基础,要想实现在特定领域乃至跨领域的新材料开发应用将是寸步难行。

2.深厚的材料学科背景是核心

对于材料大数据企业而言,核心团队不仅需要掌握数据挖掘和智能分析技术,而且还需要深厚的材料专业背景;一方面,数据挖掘环节,需要材料专业知识来对错误和无效数据进行剔除和清洗,实现高质量有效数据的高效挖掘;另一方面,需要建立材料领域的知识图谱和描述符,将材料领域的的语言转为AI可理解的语言,将材料领域的科学认知和技术积累转化为数据的形式,进而才能开展人工智能分析。

3.持续优化的数据算法和软硬件技术是应用条件

目前在材料大数据领域通常采用的算法包括高通量计算、第一性原理、蒙特卡罗算法等,未来随着越来越多维度的实验和理论计算数据加入,相关算法需要持续迭代。另一方面,材料大数据的产品服务需要针对不同应用场景进行软件开发和优化,并与材料表征测试、合成反应、系统控制等多种技术融合,因此要求企业具备相关的技术团队和合作资源。

数据驱动的材料开发新范式需要跨学科、多技术、多场景的交叉融合,未来材料大数据将产生巨大的价值。创东方将以精益求精的眼光,持续关注材料大数据企业未来的发展。

你可能感兴趣的:(人工智能,大数据,数据挖掘)