高速时钟速率自由空间光学内存计算:实现超低能耗与延迟的大规模并行边缘智能

时间:2026年2月14日
来源:Light-Science & Applications

编辑推荐:

为解决边缘设备在复杂动态环境中部署深度神经网络时遇到的能效与算力瓶颈,研究人员开展了一项名为“高速VCSEL内存神经网络”的主题研究,成功研制出FAST-ONN系统。该系统利用垂直腔面发射激光器(VCSEL)阵列与空间光调制器(SLM)结合,实现了每秒数十亿次的光学卷积运算,在YOLO目标检测任务中达到1亿帧/秒的处理速度,并支持系统内反向传播训练。此项研究为超高速、低功耗的边缘AI硬件开辟了全新路径。

广告
   X   

自动驾驶汽车、三维环境感知、远程机器人等前沿应用的蓬勃发展,使得在数据产生源头进行实时处理和决策的能力变得至关重要。然而,将强大的深度神经网络(DNN)模型部署到算力、体积和能耗都受限的边缘设备上,正面临着前所未有的挑战。其核心在于DNN模型依赖于大规模矩阵-向量乘法(MVM)运算,这需要极高的数据并行性。传统的中央处理器受限于冯·诺依曼瓶颈,而包括图形处理器(GPU)、张量处理器(TPU)在内的先进加速计算处理器,也因依赖电荷在电子线路中的移动和存储,导致了时钟速率低、电容损耗带来的高热耗散等问题。随着算力需求的激增,尺寸、重量和功率(SWaP)约束进一步收紧,使得在严格的SWaP限制下执行高速、大规模、低延迟的矩阵运算,成为边缘AI硬体的关键瓶颈。
光子学解决方案正以其超高时钟速率、低损耗传播和高并行性的优势,为加速矩阵代数计算带来新希望。尽管基于光子集成平台和自由空间系统的研究已取得显著进展,但其系统吞吐量往往受限于低速的输入数据发射器(通常低于100千赫兹),成为充分发挥光计算潜力的主要障碍。
为此,研究人员在《Light: Science & Applications》期刊上发表了他们的最新成果。他们引入了一种名为“扇出空间飞行时间光学神经网络”(FAST-ONN)的系统,该系统能够以超低延迟和功耗实现每秒数十亿次的卷积运算。这一突破性进展,源于高速、密集的垂直腔面发射激光器(VCSEL)阵列用于输入调制,与具有高像素数的空间光调制器(SLM)用于内存内权重的结合。在一个三维光学系统中,并行差分读出允许在单次计算中实现带符号的权重值,从而进行精确的推理。研究团队通过YOLO(You-Only-Look-Once)算法中的特征提取,将卷积速度提升至1亿帧/秒(MFPS)进行性能基准测试,并利用光子可重构性实现了系统内反向传播训练。VCSEL发射器可应用于任何自由空间光学计算系统,将时钟速率提高到千兆赫兹以上,其设备数量和通道并行性方面的高度可扩展性,为扩展自由空间计算硬体性能开辟了新途径。
为开展这项研究,作者主要采用了以下几项关键技术方法:首先,制备并利用了包含8个阵列、每个阵列具有5×5个VCSEL的芯片,该芯片支持高带宽调制。其次,设计了包含输入编码层、空间扇出层、权重层和读出光电探测器(PD)阵列的FAST-ONN系统架构。其中,输入图像被编码到VCSEL阵列上,其发射的光信号通过衍射光学元件(DOE)复制成多个空间副本,每个副本在SLM上与权重核进行元素级乘法运算。最后,通过并行非干涉差分读出技术,使用平衡光电探测器(BPD)阵列实现了带符号权重的卷积运算,确保了计算的准确性。研究中对来自COCO(Common Objects in Context)等公共数据集的数据进行了模型训练与测试。
研究结果部分通过多个实验和图表,系统性地展示了FAST-ONN的性能:
并行计算精度:研究人员通过将一组随机分布的带符号数字以每秒1亿次(100 MS s-1)的速率编码到9个VCSEL阵列上,验证了FAST-ONN的计算精度。实验结果表明,所有九个输出通道的平均计算误差标准差为3.27%,对应超过6比特(5比特用于数值精度,1比特用于符号)的精度,足以满足大多数神经网络任务的需求。在图像处理任务中,对大学徽标和手写数字应用边缘检测核,结果与真实情况的准确率超过95.6–96.3%,显示出强大的实时卷积能力。
You only look once (YOLO):为评估FAST-ONN在严格、贴近实际部署场景下的性能,研究人员将其应用于目标级别的汽车分类任务,这与自动驾驶中的YOLO式任务相匹配。他们在COCO数据集上构建了一个汽车与背景的分类器,使用ResNet-18作为主干网络提供输入。实验将第二层卷积层(使用2×2核)在硬件系统中实现,后续操作(如ReLU、全局平均池化和分类头)则以数字方式执行。使用2000个随机选择的COCO测试样本进行比较,混合光电系统与纯电子基线的输出表现出极好的一致性,输出间的标准差为0.037。在模拟硬件缺陷的高斯噪声下评估鲁棒性,即使在噪声方差σ=0.5时,性能仍保持稳定,AUC(接收者操作特征曲线下面积)高于0.82,表明在预期操作条件下对硬件缺陷具有很强的容忍度。
CNN推理和训练:研究团队在标准的10类MNIST和Fashion-MNIST数据集上对FAST-ONN进行了基准测试。网络架构包含输入层、卷积层和全连接分类头。卷积层使用9个不同的3×3核在光域中完全执行。数字模型在MNIST和Fashion-MNIST上分别达到95.75%和84.88%的准确率,而硬件推理分别达到93.75%和80.75%,与数字基线高度吻合。
除了实时推理,研究还展示了FAST-ONN支持系统内训练的能力,这对于边缘智能适应多样化环境变化至关重要。通过将每秒1亿次的光学前向传播与数字梯度更新相结合,在MNIST训练子集上进行训练,系统经过20个周期后,在训练子集上达到93.5%的准确率,在测试子集上达到92.8%,证明了在实时推理路径中进行片上设备学习的实用性。
讨论部分,作者对FAST-ONN系统的性能与前景进行了深入分析。
吞吐量:实验实现了5×5 VCSEL阵列在3×3并行核上以每秒1亿个子图像的速度进行光学卷积,相当于每秒90亿次卷积。其计算吞吐量T = 2 × N × M × R,随着VCSEL设备数量(N)和扇出因子(M)的增加而增加。目前吞吐量T = 45 GOPS,受限于低通道数和时钟速度R = 100 MS s-1。基于批量制造的设备平台和大规模空间并行性,近期有望实现具有32×32 VCSEL和32×32扇出因子的系统。若VCSEL时钟速率达到25 GS s-1,总吞吐量T > 50,000 TOPS可能实现,这将超过电子系统(如NVIDIA H100的4000 TOPS)性能10倍以上。
SLM刷新限制:FAST-ONN的一个重要应用场景是边缘低功耗AI推理,其中低延迟至关重要,且不需要频繁的权重更新。在这种情况下,系统的整体计算速度主要受限于VCSEL的时钟速率,而不是SLM的刷新率。尽管液晶SLM的刷新率相对较慢(约100赫兹),但它足以适应原位环境变化,且在固定权重下不影响推理吞吐量。
系统延迟:端到端延迟考虑了输入编码、光传播、光电检测、数字化和数字后处理。对于28×28输入的CNN图像分类任务,总流式处理时间约为1.0微秒,剩余的数字计算(19,138 FLOPs)在具有50 GFLOP s-1计算速率的处理器内核上需要约0.4微秒,导致总的输入到决策延迟约为1.4微秒。如果将VCSEL调制和读出速率从100 MS s-1提高到25 GS s-1,则子图像处理时间可降至约40皮秒,从而将总传输时间大幅减少至纳秒级。
可扩展性:高扇出通道的一个关键要求是有足够的光功率来支持目标计算比特精度所需的读出信噪比。在FAST-ONN中,VCSEL既作为激光源又作为发射器,扩展高通道数不仅增加了数据带宽,也增加了总功率。分析表明,每个探测器上1毫瓦的光功率足以支持在25 GS s-1时钟速率下7-8比特计算所需的信噪比。另一个关键要求是拥有O(N×M)个权重设备通道,这可以通过现成的SLM实现(例如本研究中使用的SLM提供1920×1200 = 2,304,000像素)。与片上集成电路相比,实现数百万个光子器件具有根本性挑战。与其他运行速度低于10 MHz的自由空间系统相比,FAST-ONN基于紧凑高速的VCSEL平台,支持时钟速度提高1000倍,并具有用于高扇出副本的密集阵列。
能效:对全系统能耗的分析表明,通过适当的电子电路,FAST-ONN系统可以实现约370 fJ·OP-1(约3 TOPS·W-1)的能效,与最先进的GPU相当。如果系统扩展到32×32 VCSEL和32×32扇出,效率可能达到2 fJ·OP-1(500 TOP·W-1),这相当于比最先进的电子计算(NVIDIA H100约为5 TOP·W-1)提高了100倍。
迈向深度神经网络:研究人员设想了一种由多个DAC-VCSEL-DOE-SLM-PD-ADC模块组成的光电多层架构。在这种方案中,每一层的MVM在光域执行,随后进行数字化、非线性激活和重新编码,然后加载到下一个光学层。这利用了FAST-ONN在低能耗高速矩阵乘法方面的优势,同时保持了每一层的信号完整性和可扩展性。
综上所述,FAST-ONN将高速、紧凑的VCSEL发射器与大规模可编程空间权重相结合,实现了可重构和并行的AI计算。这种紧凑、高速、可批量制造的VCSEL平台可用于任何自由空间光学计算系统,包括衍射神经网络和光学生成模型,以提高时钟速率和吞吐量。FAST-ONN提供了强大的推理能力并支持反向优化,实现了实时任务,并成功在混合光电流水线中实现了车辆识别。该系统有望推动从边缘部署到大规模模型体系在能力和效率上的复合进步,为计算描绘出一条更高效的轨迹。

生物通微信公众号
微信
新浪微博


生物通 版权所有