基于改进WRP的计算全息图快速生成

更新时间：2009-03-28

相比于传统光学全息技术，计算全息图(computer-generated-holograms，简称CGH)不仅可全面记录和再现光波的振幅和位相，还具有低噪声，高重复性，对实验条件要求低及获得虚拟物体全息图等优点[1]，近年来在理论与应用研究方面得到了广泛重视[2]。

点源法将被记录物体视作由离散点光源组成的漫散射体，通过模拟计算所有点光源发出的光线，在全息面上与参考光干涉叠加而获得全息图[3]，当物体具有复杂表面及深度信息时，需被离散成大量的点才能精确表示，导致全息计算量剧增。为解决该问题，Lucene采用“空间换时间”策略，先离线计算每个物点在全息面的贡献，并预存于给定结构的表格(look-up-table，简称LUT)，实际生成全息图时，仅需根据物体表面位置与查找表间的关联，查找相关内容，进行简单计算即可，不足之处在于，该三维表格数据需占据大量存储空间[4]。沿着这一思路，Pan等[5]提出了分裂查找表(splited look-up-table，简称S-LUT)，通过简化点源法计算公式，成功将三维LUT拆分为分别存储水平、竖直方向调制因子的2个二维LUT，再现三维物体时，只需调用2个LUT中的调制因子就能获得全息图，从而大幅降低查找表内存需求，并提高计算速度；基于三维物体深度远小于物体和全息图距离的夫琅禾费近似，JIA等[6]提出了压缩查找表(compressed look-up-table，简称C-LUT)，通过忽略深度信息大大节省了存储空间，但降低了全息图水平和竖直方向的相位精度，会造成重建图像失真；蒋晓瑜等[7]将深度信息加入到查找表离线计算过程，提出的三角函数查找表(triangle look-up-table，简称T-LUT)，有效减少了在线计算时的算法复杂度，且内存理论上与S-LUT相当，若采用单精度数据存储查找表，则实际内存占用还可降低50%。其他优化算法还包括:Matsushima,Weng等[8-9]基于点源法计算速度主要消耗在开方、平方等高消耗运算符，以及不同点不同像素相位值多次计算上的特点，递归计算物点衍射相位角并以加减法替代平方、开方运算，使相位值计算速度提高23倍，但全息计算整体速度不能满足实时处理要求；Shimobaba等[10]提出在物体与全息面之间引入一个虚拟平面-波前记录面WRP，先计算物点在WRP的复振幅分布，再利用快速傅里叶变换求得全息图，该方法因减少物体光波穿过区域而降低计算复杂度，困难在于如何确定WRP最优设置距离，且整体效率仍有较大提升空间；Chen等[11]将三维物体分层、叠加各层到全息面的菲涅尔衍射后通过相干光干涉获到全息图，该方法再现像质受分层数量影响，分层越多，效果越好，但被记录物体深度层面较多，且每层包含较少物点，计算效率较低。

除通过算法提升速度，许多学者也通过硬件对计算全息进一步加速，如Ito等[12]开发出专门用来加速计算的硬件设备HORN系列，简献忠等[13]利用FPGA生成全息图的速度比传统Matlab快165倍，但是利用硬件进行加速给未来集成化、小型化的产品设计带来了困难。目前飞速发展的图形处理单元(GPU)具有强大的并行计算能力，且内存带宽大、价格低廉，一些学者尝试利用GPU对计算全息加速，如Masuda等[14]用GPU实现了800×600的全息图，与CPU运算时间相比，效率提高47倍。蒋晓瑜等[7]结合统一计算设备架构CUDA在GPU中实现了T-LUT算法,3次并行优化后，使计算时间相比于GPU加速的点源法至少提升30倍。因此，将算法与高性能计算机相结合是目前提高计算速度的有效手段，也是未来计算全息发展的趋势。

1 算法原理

根据点源法可计算得到各物点发出的光在全息面(x,y)处的复振幅[4]：

(1)

其中：I(xh,yh)为物光波到达全息面的复振幅；R为物点(Xj,Yj,Zj)到全息面(xh,yh)点的距离；λ为记录光的波长；Aj为j点的振幅；N为物点总数，j∈[1,N]。由式(1)可看出，点源法计算全息图时，每个空间点需遍历全息面上所有像素，且主要为平方、开方、三角函数等耗时的符号运算，由Shimobaba提出的WRP算法加速策略是在物面和全息面之间插入一个虚拟平面-波前记录面WRP，将传统点源法计算全息过程分为2个阶段，如图1所示，通过减少物体光波穿过全息面区域，以降低计算复杂度、减少时间开销[10]。

图1 WRP算法图Fig.1 WRP algorithm diagram

1) 按传统点源法计算物面到WRP的复振幅信息。由于WRP距物面更近，导致物点的衍射距离发生改变，故由式(1)可得：

(2)

其中：Iw(xw,yw)为物光波到达WRP的复振幅；Rw为物点j到WRP任一点(xw,yw)的距离。令p为全息面采样间隔，θr为参考光入射角，则任一物点光波到达WRP的区域半径Wj为[10]：

新时期以来,我国的医疗卫生事业取得理想的成绩,医保水平不断提高,医保制度也不断完善,极大地满足了参保患者的就医需求[1]。但是医保政策在实际的实施过程中,无法百分百落实到位,导致医保患者住院费用的控制出现了不同程度的问题,因而需要采取有效措施加以解决。本研究以我院2017年10月-2017年12月收治的520例医保患者为对象,对住院费用的影响因素进行分析,根据影响因素提出相应措施加以干预。现将情况汇报如下:

Wj=djtan(λ/2p+θr)。

(3)

考虑到计算全息采用的参考光入射角度、波长均很小，式(3)可近似为：

(4)

式(8)中H(Δx,Zj)，V(Δy,Zj)分别为水平调制因子和竖直调制因子。对于Y坐标相同的同列物点(Xj,Yj,Zj)，因水平调制因子相同，它们在全息图(xh,yh)点的作用可表示为：

(5)

一般情况下，工匠精神主要是指在具体的工作中，工匠们可以对设计具有独特的见解，能够严格的控制质量，并随着时代的发展，可以对相关技术进行积极的完善和革新，保证可以有效提升制作的效果和水平，促进企业的可持续发展。新时期也赋予了工匠精神新的含义。对于工匠精神来说，其是现代精神与传统职业价值有效融合的结果。在现代的社会中，工匠精神除了要具备尊师重教的精神，还应该具备较高的创新精神，保证可以提升工作的高效性，推动企业发展进程。

2) WRP面到全息面的衍射计算。由于WRP面完全记录了三维物体复振幅信息，WRP面到全息面的衍射计算和三维物体到全息面的衍射计算是等价的，故可采用菲涅尔衍射[1]来计算全息面上的复振幅I(x,y)：

本研究对WRP算法的改进集中在2个方面：1)引入分裂查找表S-LUT算法，提高WRP面光波复振幅记录效率，并通过WRP的设置降低了S-LUT存储空间；2)建立了GPU-CPU协同的计算全息框架，以提高算法整体效率。

(6)

或

F-1[F[I(xw,yw)]·F[h(x,y)]]。

(7)

式(6)为式(7)傅里叶变换形式，其中：F和F-1为正、逆傅里叶变换；z为WRP到全息面垂直距离；exp(i(π/λz)(x2+y2))为脉冲响应。由于菲涅尔衍射是在二维平面上进行，乘法比卷积运算快，并可利用快速FFT算子，这一阶段具有很高的计算效率，且与三维数据大小、WRP到全息面间的距离无关。

2 算法加速

∬

他就是柳州市柳南区食品药品监督管理局党组书记、局长朱晓仑。他组织破获了多起重大制售假劣药品、医疗器械案，积累了丰富的稽查工作经验，率先在全广西范围内组织编制一套《药品医疗器械行政执法案卷范本》。在稽查打假行动中，朱晓仑以高度警惕的态度和责任感，结合10多年的稽查工作经验，重视案源信息的捕捉和追根溯源，带领柳州市药品稽查人员与制假分子斗智斗勇，组织并参与查处了500多件药品、医疗器械违法案件，涉案货值2000多万元。

2.1 S-LUT引入与改进

假定物体点可规整为空间网格，沿空间坐标轴方向的采样点数分别为NX、NY、NZ，物体空间点数为：N=NX×NY×NZ，全息面尺寸为W×H，若|xh-Xj|≪Zj,|yh-Yj|≪Zj，则式(1)经适当简化可改写为[5]：

式中，ce，水解平衡时水解液中葡萄糖的浓度，g/L；ct，任意时刻水解液中葡萄糖的浓度，g/L；t，水解时间，min；k1，拟一级水解反应速率常数，min-1；k2，拟二级水解反应速率常数，L/(g·min)。

小尺寸WRP虽大幅减少运算次数，但点源法固有的平方、开方、三角函数等高耗时符号运算仍形成较大计算负担，这里引入分裂查找表S-LUT算法并予以优化。点源法存在大量点和点间的距离(相位)重复计算，传统查表算法采用的加速策略是离线计算好所有相位信息和在线运行时，通过直接地址查找来减少运行时间，不足之处在于构建的查找表LUT数据量大，所需存储空间达GB量级[1]，由新加坡国立大学研究人员提出的S-LUT算法，通过查找表分裂、降维处理，可有效降低存储要求，所需空间为百兆比特量级。原理如下[5]：

(8)

其中：

以平均尺寸表示所有物点到达WRP面的距离，即

(9)

Δx和是独立的，故式(9)可分2步进行：

(10)

2) I(xh,yh)|(Xj,Yj,Zj)=H(Δx,Zj)S(yh)。

在化学学习中，学生应对相关问题深入研究，以此来提高化学学习效率。例如，在学习氯气（Cl2）时，为了更好掌握这一气体的特点，我们可以通过相关实验来加深对知识的理解，在教师的指导下进行实验操作。利用两条毛巾，一条是干燥且有颜色的，另一条则是浸湿且有颜色的，通过氯气发现被浸润的毛巾有褪色现象产生，从而了解到水与氯气反应的化学方程式：Cl2+H2O=HClO+HCl，离子方程式：Cl2+H2O=H++Cl-+HClO。

(11)

叠加各列物点复振幅获得最终全息图，即有

当天下午，我就来到了周书记的办公室，周书记墙上那幅“静水流深”的字不见了，换成了毛泽东同志的题字“为人民服务”，虽然，毛泽东同志的题字是印刷出来的，却也装裱得很精致，挂在周书记头顶的上方，倒也显得很像那么回事的。

I(xh,yh)=∑I(xh,yh)|(Xj,Yj,Zj)。

(12)

由式(10)～(12)可知，S-LUT算法在线计算的总次数为：

NZ×[NX×(NY×H+W×H)+W×H]，

每次计算包含一次加法和乘法运算。其中式(10)计算次数为NY×H，式(11)计算次数为W×H。为进一步提高运算速度，将式(10)也转化为离线计算，即存储物点每列对全息面每行像素的贡献S(yh)，等价于式(10)变为：

动物实验表明，CTLA-4基因敲除的小鼠会迅速发展为淋巴细胞浸润性心肌炎，进一步导致严重的多器官衰竭[44-45]。小鼠心肌炎模型中CTLA-4(-/-)细胞毒性T淋巴细胞比CTLA-4(+/+)更易使小鼠罹患心肌炎[46]。因此，CTLA-4单抗引起心脏毒性的机制可能是其降低了心脏中T细胞特异性自身抗原活性的阈值。心脏毒性已经与其他免疫疗法如自身抗MAGE-A3 T淋巴细胞与心肌细胞的免疫反应导致细胞死亡相关联。

k=0,1,…,NX-1。

(13)

相应地，以新竖直调制因子V′(S(yh,k),Zj)取代原竖直调制因子V(Δy,Zj)作为查找表，改进S-LUT的在线计算总次数将减少为NZ×(NX+1)×(W×H)，若不考虑GPU数据存储、访问时间开销，则理论上效率提升：

R=NZ×[NX×(NY×H+W×H)+W×

则WRP面距物体越近，物点到达WRP面的区域将越小。若WRP面与全息面像素个数相同，由于物点穿过WRP面的有效区域面积小于全息面，则其点源法计算量将显著减小。但是，WRP不能无限接近物体，否则将因距离过小，无法记录物体较高的空间频率，导致三维信息缺失。

H]/[NZ×(NX+1)×(W×H)]-1=

“枫桥经验”作为一种本土的社会治理模式，随着社会转型已走上法治化征途,但这个过程漫长而曲折。法院作为司法机关，积极参与“枫桥经验”实践，引导和保障其法治化发展，作了诸多工作，但也面临困惑。

[NX×NY×H]/[(NX+1)×

(W×H)]≈NY/W。

存储空间方面，记全息图上每个像素所占空间为M，原竖直调制因子所需存储空间为NY×H×NZ×M，新竖直调制因子所需存储空间为NX×H×NZ×M，两者相比，若被记录物体沿坐标轴X、Y方向的采样点数NX、NY相同，存储空间大小不变；若NX>NY，则后者存储空间将增加，否则减少。需要注意的是，虽然竖直调制因子内容的改变并不一定降低其自身数据量，但WRP设置使查找表的Zj发生变化，变为较小的dj，从而整体上可减小对查找表(含水平调制因子)存储空间的要求。

门急诊处方质量关系到患者的用药安全性和合理性，体现医院的合理用药水平[1]。《三级肿瘤医院评审标准实施细则（2011年版）》明确规定药品不合理处方≤1%。现对江苏省肿瘤医院2016～2017年门急诊药房成功干预的不合理处方进行回顾性分析，了解不合理处方状况，为临床合理用药及处方质量持续改进提供参考。

2.2 GPU-CPU协同处理

为进一步提高计算效率，利用CUDA对改进算法并行加速，并建立了GPU-CPU协同下的计算全息处理框架，共分3个阶段：1)计算全息预处理。在CPU中完成被记录物点空间网格规整、WRP设置、S-LUT查找表离线生成等预处理任务；2)波前记录，即在GPU中在线记录物体点在WRP上的复振幅信息；3)菲涅尔衍射，即在GPU中实现WRP面到全息面的衍射计算。

在GPU运行过程中，菲涅尔衍射主要涉及傅里叶变换运算，通过直接调用CUDA中的CUFFT库实现加速目的；波前记录的并行化设计则集中在式(11)和(12)，整个Kernel1设计为W×H个线程(全息图大小)、(W/BlockSize)×(H/BlockSize)个线程块(BlockSize大小由GPU显卡性能决定，这里取32)，每个线程块负责计算大小为BlockSize×BlockSize的子全息图，线程块内单个线程负责计算子全息图内单个像素点的复振幅。为减少从全局存储器重复读取表格数据的次数，将表格S(yh,k)和H(Δx,Zj)分别划分成维度为BlockSize的多个方阵，各方阵乘积给出大小为BlockSize×BlockSize的子全息图usub，乘积运算时，首先从全局存储器中载入对应的表格方阵到共享存储器，然后由各个线程计算单个像素的复振幅并将结果汇总到寄存器中，最后写入全局存储器。通过这种方式，可充分利用速度较快的共享存储器，同时有效节省全局存储器带宽。

3 实验和分析

在PC机及C++编程语言环境下实现了上述算法，算法实施平台性能主要参数为：CPU Intel Core E5-1620 1CPU, 4cores, 3.70 GHz；GPU NVIDIA Quadro K2000 1GPU, 384cores, 954 MHz, 2 GB；内存 OCZ DDR3 1 866 MHz, 16 GB；编译器 Visual Studio 2012 64 bit。测试生成计算全息图的被记录物体三维模型如图2所示，距离全息面380 mm，空间点数分别为41800(物体1-头像)和119 488(物体2-圣诞老人)，均规整到空间网格，前者规整后采样点数(Nx,Ny,Nz)=(300,300,300)，后者为(400,400,300)，全息面分辨率为W×H=1920×1080,波长λ=532 nm，全息面采样间隔p=10.8 μm。算法性能测试包含2个方面：1)引入S-LUT及不同距离WRP设置下的查找表存储、计算全息图生成效率;2)GPU-CPU协同处理下的计算全息图生成效率，其结果将与CPU环境下的WRP算法效率比较。

铁路运输的安全性是行车调度的第一要素，也是铁路运输部门的义务和职责。铁路行车调度部门凭借信息化调度管理设备和先进的铁路调度管理理论，能够制订出最优化的行车调度规范方案。在节假日或重大纪念日活动时，铁路运输压力会局部性的出现高峰，这时对铁路行车调度部门的管理提出了更高的要求。调度管理人员作为行车的指挥单位，在进行集约化调度管理的过程中还要发挥行车监管义务，及时发出行车调度命令，保障铁路运输安全。

图2 用于生成计算全息图的物体三维模型Fig.2 Model of 3D object for generating a computed hologram

根据算法加速原理，首先设置WRP，并根据全息参数生成查找表S-LUT，进而实施2阶段全息图计算。实验表明，当距离被记录物体深度D不少于90 mm时，WRP已能相对完整地记录物体光波复振幅信息，分别取D=90,120,150 mm，设置WRP以评估算法在不同WRP设置下的计算效率，图3为D=90 mm时的测试物体正面振幅型计算全息图及其重建像，图4为CPU环境下原算法与改进算法在线生成全息图的时间开销比R。由图4可看出，S-LUT的引入大幅提高了WRP算法计算效率，R随物体空间点数增大而增大，但随物体层数增大而呈对数关系下降，并趋于稳定，其原因在于：基于S-LUT的全息图在线计算次数正比于物体层数，且为简单加、乘法运算，原算法计算次数与层数无关，且包含复杂的开方、平方运算。同时可以发现，当物体层数大于50时，同一物体相同层数下的R在不同WRP中相近，可以认为，随着WRP不断接近全息面，改进算法的加速性能因S-LUT生成全息图在线计算次数不断增多而弱化，直至与原算法时间开销关系趋于稳定。S-LUT存储方面，除算法本身固有的、正比于物体层数并随物体空间点数增多而增大的存储特点外，通过WRP设置距离的选取，可有效节省S-LUT存储空间，如图5所示。在D=90 mm和D=150 mm两种WRP距离设置下,当层数为300时，物体1的S-LUT存储大小分别为201.2 MB和336 MB，物体2的S-LUT存储大小分别为276.2 MB和456 MB，2种WRP设置下的S-LUT存储空间相差约40%，可以设想，单纯采用S-LUT生成计算全息图(等价于WRP与全息面重合)时，其存储空间将数倍于本算法，这也意味着，改进算法为原S-LUT算法存储问题的解决提供了有效途径。

图3 被记录物体正面计算全息图及其重建像Fig.3 Recorded object hologram and its reconstruction

图4 算法CPU运行时间比率随WRP距离设置、物体层数变化Fig.4 The CPU running time ratio with different WRP distance、 number of layers

图5 不同WRP、层数下的查找表存储开销Fig.5 Memory usage of different WRPs and layers

图6 全息图生成时间随WRP设置、物体层数变化Fig.6 Hologram generation time changes with WRP setting, number of layers

图6为改进算法在CPU和GPU-CPU协同环境下的全息图在线计算时间开销。图6可看出，GPU-CPU协同处理可显著提升计算效率，且随物点数及WRP距物体深度增加加速优势明显。相同距离WRP设置下，改进算法在CPU和GPU-CPU协同环境下的时间开销均正比于物体层数，但物体空间点数的不同使得改进算法在CPU环境下的时间开销有较大差距，且随物体层数增加而增大(直线斜率相差大)；相反地，GPU-CPU协同在数据加速处理方面的优势，使得两者时间开销仅略有差异，且随物体层数增加的幅度不明显(直线斜率相差小)。定义改进算法CPU环境下的加速比:R1=原算法CPU时间/改进算法CPU时间，改进算法GPU-CPU协同环境下的加速比:R2=改进算法CPU时间/改进算法GPU时间，则在物体层数为300时，物体1和物体2的R1平均值分别达到25和50倍，R2平均值分别为31和34倍，这也就意味着，相对于原WRP算法，本算法生成物体1的计算全息图时间加速达到25×31=775倍，生成物体2的计算全息图时间加速比达到50×34=1700倍，效率提升及其显著，当层数少于50时，时间开销不到0.1 s，基本达到实时显示要求。

3 结束语

由本研究结果表明，引入S-LUT可大幅提高WRP面上的光波复振幅记录效率，并因WRP较之于全息面距离物体近而能有效节省S-LUT存储空间。GPU-CPU协同处理框架进一步提高改进算法整体运行效率，相对于原WRP算法，物体1和2生成计算全息图的时间加速比分别达775、1700倍；当物体层数小于50时,改进全息图在线计算效率基本达到实时显示要求。

参考文献:

[1] 李俊昌.衍射计算及数字全息[M].北京：科学出版社,2014:107-145.

[2] JAVIDI B,TAJAHUERCE E.Three-dimensional object recognition by use of digital holography[J].Optics Letters,2000,25(9):610-612.

[3] 郑华东,于瀛洁,程维明.三维物体空间再现技术中的全息图计算[J].光学精密工,2008,16(5):917-924.

[4] MARK E.Interactive computation of holograms using a look-up table[J].Journal of Electronic Imaging,1993,2(1):28-34.

[5] PAN Y,XU X,SOLANKI S,et al.Fast CGH computation using S-LUT on GPU[J].Optics Express,2009,17(21):18543-18555.

[6] JIA J,WANG Y,LIU J,et al.Reducing the memory usage for effective computer-generated hologram calculation using compressed look-up table in full-color holographic display[J].Applied Optics,2013,52(7):1404-1407.

[7] 蒋晓瑜,丛彬,裴闯,等.一种基于新型查表方法的统一计算设备架构并行计算全息算法[J].光学学报,2015,35(2):80-87.

[8] MATSUSHIMA K,TAKAI M.Recurrence formulasfor fast creation of synthetic three-dimensional holograms[J].Applied Optics,2000,39(35):6587-6594.

[9] WENG J,SHIMOBABA T,OIKAWA M,et al.Fast recurrence relation for computer-generated-hologram[J].Computer Physics Communications,2012,183(1):46-49.

[10] SHIMOBABA T,MASUDA N,ITO T.Simple and fast calculation algorithm for computer-generated hologram with wavefront recording plane[J].Optics Letters,2009,34(20):3133-3135.

[11] CHEN J S,CHU D P.Improved layer-based method for rapid hologram generation and real-time interactive holographic display applications[J].Optics Express,2015,23(14):18143-18155.

[12] ITO T,MASUDA N,YOSHIMURA K,et al.Special-purpose computer HORN-5 for a real-time electroholography[J].Optics Express,2005,13(6):1923-1932.

[13] 简献忠,张晗,范建鹏,等.基于FPGA技术的计算全息研究[J].激光技术,2012,36(1):26-28.

[14] MASUDA N,ITO T,TANAKA T,et al.Computergenerated holography using a graphics processing unit[J].Optics Express,2006,14(2):603-608.

作者

吴军，莫葵梅

出处

《桂林电子科技大学学报》 2018年第06期

上一篇：基于局部特征的车辆二次识别方法

下一篇：注射泵上微型实验平台的研制

《桂林电子科技大学学报》2018年第06期文献

《桂林电子科技大学学报》2018年总目次 2009/03/28

基于相位调制的频控阵雷达-通信一体化研究作者：黄东红，欧阳缮，李晶晶，徐子安，黄高见

77 GHz天线阵列的基片集成波导转接结构设计作者：李权，姜兴，廖欣，李晓峰，杨明

S波段低噪声放大器的设计作者：李占祥，岳宏卫，吴超飞，龚全熙

基于FPGA的低硬件复杂度的极化码编码实现方案作者：周秉毅，陈紫强，谢跃雷，黄志成

基于C4.5决策树的VoIP实时检测系统作者：张致远，刘建明，陈振舜

基于混合语义空间的汉译英自动评分模型作者：潘婷婷，黄桂敏，刘剑

基于封闭权限集的用户授权方法作者：付光超，赵岭忠，翟仲毅

基于局部特征的车辆二次识别方法作者：苏欣欣，蒋行国，蔡晓东

基于改进WRP的计算全息图快速生成作者：吴军，莫葵梅

注射泵上微型实验平台的研制作者：李晓瑜，苏海涛，张敏，梁英

一种阵列式“多针-网”离子风灭菌装置作者：陈彦伶，李华，蒋林秀，邓敏超，刘春花，曾若生，蒋永荣

气候对登革热传播的驱动机制和预测分析作者：李雯雯，祝光湖

求解黑体辐射反演问题的改进CD共轭梯度法作者：宿金平，朱志斌

求解Sylvester问题的梯度镜面下降算法作者：董榕恩，杨娅，胡清洁

超常介质非线性传输方程的精确行波解作者：陈虎，谢永安，范振伟

求解超对称张量秩-1逼近的BFGS方法作者：李娟，段雪峰