下载乐鱼体育官网:用光学生成图画简直0耗电浙大校友一作研讨登Nature
- 发布时间:2026-04-11 15:49:59
- 作者:下载乐鱼体育官网
- 发布时间:2026-04-11 15:49:59
- 作者:下载乐鱼体育官网
在 《天然》 杂志宣布的一篇论文中,加州大学洛杉矶分校 Shiqi Chen 等人描绘了一种简直不用耗电量的 AI 图画生成器的开发。
![]()
该生成器是一种受分散模型启示的光学生成模型。其作业原理如下:首要经过数字编码器(运用揭露数据集练习)生成终究构成图画的静态噪声,这一进程仅需耗费很少能量。随后,一种被称为空间光调制器(SLM)的液晶屏幕会将这种噪声形式刻印到激光束上。该激光束再经过第二台解码 SLM 设备,将光束中的噪声形式转化为终究图画。
与传统 AI 依靠数百万次核算机运算不同,该体系运用光完结一切中心作业,因而简直不用耗电能。论文榜首作者 Shiqi Chen 表明:「咱们的光学生成模型简直无需算力就能组成海量图画,为数字 AI 模型供给了可扩展且高能效的代替计划。」
研讨人员选用多种 AI 练习图画对体系来进行测验,包括名人肖像、蝴蝶图画以及梵高风格的全彩画作。成果显现,光学体系生成的图画效果与传统图画生成器适当,但能耗明显下降。
![]()
该技能还具有广泛的运用远景。凭仗其超高速和超低能耗特性,该体系可用于生成 VR、AR 显现的图画视频,也适用于智能手机、AI 眼镜等可穿戴电子设备的小型化终端。
![]()
![]()
本文提出的光学生成模型,可以依据方针数据散布组成单色或五颜六色图画 —— 即经过光学办法生成特定数据散布中前所未见的新图画。受分散模型启示,该计划选用浅层数字编码器将随机二维高斯噪声形式快速转换为代表光学生成种子的二维相位结构。这种光学种子的发生是一次性的,它触及一个作用于随机二维噪声形式的浅而快速的相位空间编码器。
依据方针散布即时生成图画或输出数据的进程,可经过随机调用这些预先核算好的光学生成种子按需完结。这一广义概念可经过不同光学硬件完结,集成光子学或依据自由空间的完结。
图 1 展现了作者研制的单色图画即时生成模型的原理示意图。如图 1a 所示,遵从正态散布的随机二维输入首要经过数字编码器转换为二维相位形式,该编码器可快速提取潜在特征并将其编码至相位通道以供后续模仿处理。这些由随机噪声生成的相位编码输入作为光学生成种子,被加载到 SLM 中,为衍射光学生成模型供给信息输入。在相干光照下,带着编码相位形式的光场继续传达并经过为特定方针数据散布优化的衍射解码器做处理。终究,生成的图画由图画传感器捕获,这些图画契合方针数据散布特征。
图 1b 展现了练习流程:作者首要依据去噪分散概率模型(DDPM)练习教师数字生成模型以学习方针数据散布。完结练习后,冻住该 DDPM 模型并继续生成用于练习即时光学生成模型的噪声 - 图画数据对。浅层数字相位编码器与光学生成模型经过联合练习,使模型可以以简练可重构的架构高效学习方针散布。
图 1c 出现了盲推理进程:由数字编码器从随机噪声形式发生的编码相位形式(即光学种子)是预先核算的,光学生成模型则运用固定的静态解码器在自由空间中对这些生成相位种子进行解码。为完结从随机高斯噪声快速组成光学生成相位种子,数字编码器包括三个全衔接层,其间前两层选用非线性激活函数(详见办法部分)。可重构衍射解码器经过 400 × 400 个可调相位特征(每个特征掩盖 0-2π 规模)来优化,完结优化后针对每个方针数据散布坚持静态。
![]()
作者还规划了一种迭代式光学通用模型,可从高斯噪声中递归重建方针数据散布。如图 2a 所示,该迭代光学生成模型相同作业在三个照明波长下,经过浅层数字相位编码器编码的多通道相位图画被次序加载到同一 SLM 上。
为展现这种迭代光学模型的生成才能,作者选用 Lₒ=5 个联合优化并固定的解码层来处理方针数据散布。与前述即时光学生成模型的不同之处在于:当图画传感器平面记载初始强度图画后,丈量成果会按规划方差增加高斯噪声,该噪声扰动成果将作为下一时刻步的迭代光学输入。
图 2b 展现了这种迭代光学生成模型的练习进程:采样一批时刻步并相应地向原始数据增加噪声,取得噪声样本。这些噪声样本经过浅层数字编码器和迭代光学生成模型处理,得到接连输出。与规范 DDPM 完结不同,该迭代光学生成模型直接猜测去噪样本,其丢失函数依据原始数据核算。
图 2c 概述了迭代式光学生成模型的盲推理进程:已练习的光学模型对从终究时刻步到初始时刻步的扰动样本递归履行去噪操作,终究生成的图画在传感器平面捕获(详见办法部分)。
在开始试验中,研讨者别离依据 MNIST 和 Fashion-MNIST 数据集练习了两个不同的模型,用于生成手写数字和时髦产品图画。
图 3c 为两个模型的成果,生成的图片在 MNIST 和 Fashion-MNIST 数据集上别离达到了 131.08 和 180.57 的 FID 试验评分。这表明生成的图片契合这两个数据集的方针散布,足够体现了所规划体系的多样性,进一步验证了快照式光学生成模型的可行性。
![]()
图 4 与图 5 别离展现了运用 5.8 亿参数数字编码器完结的高分辨率单色及五颜六色(RGB)图画生成试验成果。其间梵高风格单色图画选用 520 纳米波长照明生成,而五颜六色图画则顺次运用 {450, 520, 638} 纳米波长别离对应蓝、绿、红三通道。
![]()
在多色梵高风格艺术图画生成试验中,研讨者为每个波长通道生成了相应的相位编码生成种子图画,并顺次加载到空间光调制器(SLM)上。在对应波长的照明下,运用固定或静态的衍射解码器生成多彩图画,并经过数字方法来进行交融。换言之,在一切波长照明下的图画生成进程中,体系同享同一个解码器状况。
图 5 展现了多色梵高风格艺术作品的生成成果,其间既包括与教师数字分散模型输出高度符合的事例,也包括具有差异性输出的示例(该教师模型需运用 10.7 亿可练习参数并经过 1000 次迭代过程生成单幅图画)。虽然观察到细微的色差现象,生成的高分辨率五颜六色图画仍坚持了优异的质量。
![]()
Shiqi Chen,加州大学洛杉矶分校(UCLA)博士后研讨员,导师为 Aydogan Ozcan 教授。此前,他在浙江大学取得博士学位,师从冯华君教授和徐之海教授。
Shiqi Chen 在博士期间首要研讨重点是运用光学和核算机视觉,以完结更明晰的核算成像,其间部分研讨成果已运用于最新的移动终端设备。
版权所有◎下载乐鱼体育官网 - 乐鱼体育彩票平台 - 乐鱼体育平台进入页面入口 网站建设:下载乐鱼体育官网 北京 京ICP备2021029137号-1