本文为中国激光第1834篇。
欢迎点击在看、转发,让更多人看到。
*记得把我点亮星标哦,操作见文末。
编者按
《中国激光》于2020年第5期出版“纪念激光器诞生60周年”专题。《中国激光》编委、清华大学陈宏伟教授受邀联合北京邮电大学徐坤教授课题组撰写《光子神经网络发展与挑战》,回顾了光子神经网络的发展,阐述了目前已取得的阶段性进展,并揭示了未来的发展趋势和面临的挑战。
背景介绍
近年来,以神经网络为代表的人工智能技术快速发展。2017年,采用了神经网络的AlphaGo依次战胜了人类顶尖围棋选手李世石和柯洁,展现了人工智能强大的学习和计算能力,揭开了新一代人工智能的序幕。人工智能技术正向着高速低功耗的方向快速发展。 受限于电子器件的固有极限,传统电子神经网络难以进一步提高功率效率与计算速度。而光子神经网络,作为光电子技术与人工智能技术的交叉产物,能够充分发挥光(电)子技术在带宽、容量、速度方面的优势,成为突破传统限制的潜在手段。 当前,光子神经网络技术的研究主要涉及前馈神经网络、循环神经网络(存储池计算)以及脉冲神经网络这三种典型结构。与此同时,光子神经网络也正朝着可实时训练、规模化以及特殊应用等方向继续发展。研究现状
1. 前馈神经网络
前馈神经网络的计算信息呈现为输入层至输出层的单向流动。
2017年,来自MIT的Shen等人成功构建出世界首款基于集成光子干涉计算单元的前馈神经网络。利用由MZI网络构成的光子干涉计算单元(OIU),辅以非线性激活模块(图1),该课题组成功实现元音识别功能。据分析,相比于传统电子前馈网络,其结构更能适应高速、低功耗和低延时的运算场景。
(a)
(b)
图1 集成光子干涉计算单元结构和元音识别混淆矩阵。(a)集成光子干涉计算单元结构;(b)元音识别混淆矩阵 2018年,Bagherian等在上述光子干涉计算单元芯片的基础上提出,通过时分复用的方式,利用该芯片分段计算图像卷积,从而构建更加复杂的卷积神经网络结构。该结构模型可用于彩色数字的识别。 2. 循环神经网络(存储池计算) 相异于前馈神经网络,循环神经网络(存储池计算)的计算信息除了前向流动外,还存在同层节点间的流动以及后向反馈流动。 一般循环神经网络由输入层、中间层和输出层组成。训练时,往往只训练输出权重使网络收敛。使用光电子器件构建循环神经网络时,存在串行与并行两种方案。 并行的优势是直观性强,计算速度快。2011年,Vandoorne等提出的基于半导体光放大器(SOA)的循环神经网络结构以及2016年Bueno等提出的基于空间光学器件的循环神经网络结构均采用该方案。 然而并行存在鲁棒性较差、规模不易扩展以及成本较高等问题,串行方案可改善这些问题。2012年,Paquot等利用光电混合系统率先构建了光电混合串行循环神经网络,实现了信号分类的功能。 3. 脉冲神经网络 脉冲神经网络(SNNs)模拟的神经元更接近生物神经元模型,因此又被称为第三代人工神经网络。脉冲神经元并非在每一次迭代传播中都被激活,而是只有当其膜电位达到阈值时才被激活。 2016年,普林斯顿大学的Prucnal小组提出了基于可激活的石墨烯光纤激光器的脉冲处理系统,其结构如图2所示。该系统主要由掺铒光纤 (增益部分)和石墨烯饱和吸收体(损耗部分)构成,1480 nm激光器携带脉冲刺激信号激发系统产生类LIF (leaky integrate-and-fire)脉冲神经元的响应。发展趋势
1. 实时训练算法 由于光子本身难以存储,故在电神经网络训练中应用广泛的后向传播算法难以移植于光子神经网络的训练上。 针对这一问题,Hughes等人于2018年首次提出了针对集成光子干涉单元的实时训练算法。该算法通过记录光场分布以及移相器的相位分布能够得到向收敛方向下降的梯度值,进而计算下一轮迭代中芯片移相器的相位配置,从而使得芯片整体性能能够逐步收敛。 除此之外,北京邮电大学Zhang等人于2019年提出了基于遗传算法/粒子群算法的非梯度片上训练方案,以减少获取与计算梯度值所带来的器件性能和要求。Zhang等通过仿真分别实现了光神经网络在Iris 数据集、Wine数据集上的在线训练,训练的收敛效果如图4所示。(a)
(b)
图4 (a)采用GA算法训练光神经网络的分类效果; (b)采用PSO算法训练光神经网络的分类效果 相比于电子器件,光电子器件实现非线性函数困难,且所实现的非线性函数存在很多非理想特性,因此非线性运算已成为光子神经网络发展的另一个障碍。 1967年,Seldon等提出了在光子神经网络中实现非线性运算的饱和吸收体模型或电子模块,但该方法难于精准控制,且需要将光信号通过光电二极管转化为电信号,从而降低了计算速度。 2019年,Williamson等提出了一种光电混合的非线性运算模块(图5)。该模块除了能够较为精准的产生非线性激活函数,通过改变移相器的相位,还能够实现不同激活函数的转换。同年,Feldmann 等提出了光控相变存储器(PCM)方案,该方案利用相变材料对不同输入光强的透光性差异,进而实现非线性激活函数的功能(图6)。图5 光电混合非线性模块结构以及通过调谐相位实现不同的非线性函数
(a)
(b)
(c)
图9 (a)光电混合二值神经网络架构;(b)单偏振系统二值权重映射结构;(c)偏振复用系统二值权值映射结构 该结构可以缓解电域的信号处理压力,降低光接收机整体的功耗,提升光接收机的信号处理速度。此外,该结构还能极大地降低对模数转换器量化位数的要求,从而有效降低光接收机的成本。总结
近年来,种类繁多的光子神经网络异军突起,成为突破电子神经网络瓶颈的潜在手段。得益于光电器件大带宽、低损耗的特点,光子神经网络更能适应高速低时延运算。然而,光子神经网络还需克服实时训练、非线性激活函数实现、规模化以及应用扩展等问题,才能真正在人工智能领域大放异彩。
课题组介绍
清华大学宽带光网络实验室隶属于清华大学电子工程系信息光电子研究所与北京信息科学与技术国家研究中心。课题组长期从事光电子技术与系统研究,包括微波光子学、超高速激光成像、智能光子系统、硅基光子集成等领域,课题组主要成员陈宏伟教授曾入选教育部首批青年长江学者、国家自然科学基金委优青及新世纪人才计划等。课题组的工作多次获得北京市、教育部及行业协会奖项,承担国家重点研发计划、国家自然科学基金重大重点项目等。
北京邮电大学射频光子学实验室隶属于北京邮电大学信息光子学与光通信国家重点实验室,在国家杰出青年科学基金获得者徐坤教授带领下,长期从事信息光子学方面的研究,主要包括微波光子学、光纤通信与光纤无线融合系统、人工智能与光子神经网络等。。
推荐阅读
本文编辑:沈灵灵
声明:本文所用图片如涉及版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并立即删除。
End
首发前沿光学成果,放送新鲜光学活动
如需转载,请直接留言。
商务合作:朱先生 13918384218
免责声明
本文注明来源为其他媒体或网站的文/图等稿件均为转载,如涉及版权等问题,请作者在20个工作日之内来电或来函联系,我们将协调给予处理(按照法规支付稿费或删除)。
最终解释权归《中国激光》杂志社所有。