深度学习已变革了人工智能领域,但传统计算机硬件的局限性已经在阻碍着进步。麻省理工学院的研究人员认为,通过以光速进行的深度学习,他们的新的“纳米光子”处理器可能是解决这一问题的答案。
20世纪80年代,科学家和工程师们将光学计算誉为信息技术的下一个伟大革命。但结果证明,使用像光纤电缆和透镜这样的笨重部件无法制造出特别耐用或小型的计算机。
麻省理工学院的物理学博士后Yichen Shen表示,他们发现制造可扩展的光学逻辑闸是极具挑战性的。因此,想要制造普通的光学计算机也是非常不现实的。不过,光可以应用到矩阵相乘中。矩阵就是排列在列和行中的数字阵列。实际上,你可以从数学上用矩阵乘法来解释透镜对一束光的作用。
这也恰好是深度学习过程中计算的核心组成部分。再加上纳米光学方面的进步,以及对光在纳米尺度上的行为的研究,这使得人们对光学计算重新燃起了兴趣。
麻省理工学院的物理学博士后Shen说:“深度学习主要是矩阵乘法,所以考虑到光的性质,这会非常有效。”“有了光,你就可以让深度学习计算的速度快得多,其效能相对于原来可以提高数千倍。”
为了证明这一点,Shen和他在麻省理工学院的同事们设计了一种全光芯片,可以将人工神经网络(受到人脑工作模式的启发的一种算法)置于深度学习的核心。
在《自然》杂志上一篇最近的论文中,该团队描述了由56个干涉仪组成的芯片,这些元件可以让研究人员控制光束如何相互干涉,从而进行数学运算。
通过对引导光束环绕处理器的波导管施加小幅电压,便可对处理器进行重新编程。光束环绕在处理器周围可以对其加热,并使之改变形状。
研究人员表示,这种芯片最适用于完成推理任务。在这种情况下,应用一种已经习得的模型来分析新数据,比如探测图像中的物体,算法就得到了实际运用。
它不是非常擅长学习,因为与电子系统的重新编程相比,加热波导的速度相对较慢。因此,在研究中,研究人员在将习得的模型传输到纳米光子处理器上进行推理任务之前,先在计算机上对这个算法进行了训练。
但这并不是主要问题。对于许多实际应用来说,没有必要在同一块芯片上进行学习和推理。谷歌最近因设计了自己的深度学习芯片——TPU而登上头条新闻。该芯片也是专门被设计用于完成推理任务,专给大多数大量使用机器学习的公司使用——机器学习会将学习和推理这两项任务分开。
Shen说:“在很多情况下,他们每隔几个月就会对这些模型进行一次更新,在剩下的时间里,固定模型就只是在做推理任务。”“人们通常会把这些任务分开设计。“他们通常会有一台服务器只进行培训,而另一个服务器只是在进行推理,所以我认为,让芯片只专注于做推理没有什么大的问题。”
一旦这个模型被编程到芯片上,它就可以以光速进行计算,其耗能不到传统电子芯片的每次运算所耗能量的千分之一。
不过,这也有局限性。因为芯片处理的是几微米级的光波,所以这些芯片能做到多小是有基本限度的。
“波长确实限制了波导管的大小。我们无法大幅缩小这些设备的体积。也许我们能把它缩小到原来的四分之一,但物理学定律最终会阻止我们继续。”该论文的共同作者、麻省理工学院研究生尼古拉斯·哈里斯如此说道。
这就意味着要实现比几千个神经元更大的神经网络是非常困难的。然而,目前绝大多数的深度学习算法都还处在这个范围之内。
与使用同样深度学习模型的标准计算机相比,该系统在任务准确率上要低很多,前者可以正确识别91.7%的元音,而它只能识别76.7%。但哈里斯说,他们认为这很大程度上是由于使用不同的加热元件来对波导进行编程所造成的干扰,使用热隔离槽或额外的校准步骤就很容易解决这个问题。
重要的是,这些芯片也使用的是与传统计算机芯片相同的制造技术,因此扩大生产应该很容易。Shen说,已经有知名的芯片制造商对他们的技术产生了兴趣。
皮埃尔·亚历山大·布兰奇是亚利桑那大学的一名光学教授,他说,这篇论文令他非常兴奋,据他所说“补充了他自己研究”。但他告诫人们不要太过激动。
“这是迈向有用光学计算的又一个里程碑。但要和电子产品进行竞争,我们还有很长的路要走。”他在一封电子邮件中对Singularity Hub网站如此说到。“该论文关于可测量性、耗电量、速度等方面的论证,使用了大量的条件时态和假设,这表明,如果确实存在潜力,仍有大量研究要做。”
他特别指出,该系统只解决了部分问题。虽然绝大多数的神经元计算都涉及到矩阵乘法,但还有另一个组成部分:计算非线性反应。
在当前的这篇论文中,计算的这部分是在普通计算机上进行模拟的。研究人员说,在未来的模型中,这个功能可以由一个称之为“可饱和吸收器”完成,该吸收器被整合到波导管中,但随着强度的增加,吸收的光线会减少。
布兰奇指出,这不是一个微不足道的小问题,他的团队目前正在对这方面进行研究。“这又不是说你可以去杂货店买一个回来那么简单,不是这么回事,”他说。伯文·沙斯特里是普林斯顿大学的博士后,他的团队也在研究纳米光子芯片以实现神经网络,他说,这项研究很重要,因为激活矩阵的多样性是实现成熟的光子神经网络的一个关键步骤。
“总的来说,这个研究领域即将迎来一个激动人心、充满希望的方向,”他补充说,“在光子硬件中装载的神经网络可能会彻底改变机器与超快速物理现象的交互方式。硅光子学把光子学的模拟设备性能与硅制造的成本和可扩展性结合了起来。”