栏目文章

Select

1. 基于双重语义对比学习的无监督红外图像生成方法

程梓萌, 杨馨悦, 艾浩军, 王中元

计算机科学 2026, 53 (4): 260-268. DOI: 10.11896/jsjkx.250700172

摘要（26）

PDF（pc）（4728KB）（77）

红外图像在计算机视觉领域应用广泛。受制于采集条件,高质量红外图像数据集规模较小。把可见光图像转换为红外图像,是扩充红外数据集的有效手段。现有生成方法多依赖有监督学习,需要大量配对数据。为此,提出基于双重语义对比学习的无监督红外图像生成方法DSCGAN。该方法采用双向转换架构,通过语义对比学习增强图像内容保持能力和红外特征学习能力。损失函数增加几何一致性损失,协助保留可见光图像的原始结构与细节。同时,构建多尺度PatchGAN判别器,增强判别能力,提升生成图片的真实感。在AVIID-1,AVIID-2和Day-DroneVehicle数据集上的实验表明,DSCGAN在多项指标上优于对比方法,生成的红外图像热辐射分布更合理,视觉质量更优。在AVIID-1数据集中,DSCGAN的 SSIM值提升至0.814 4,FID分数降低至0.145 6。在Day-DroneVehicle数据集中,DSCGAN的PSNR值提升至18.14,LPIPS值降低至0.294 9。所提方法为无监督红外图像生成提供了新思路,可进一步应用于红外目标检测和场景分割等下游任务。

参考文献 | 相关文章 | 多维度评价

Select

2. LegoViT:边缘端视觉推理中ViT模型块粒度缩放技术

周豪捷, 吴晓宁, 高志强, 韩锐, 张青龙, 刘驰, 陈铮, 赵玉, 王硕

计算机科学 2026, 53 (4): 269-276. DOI: 10.11896/jsjkx.250900024

摘要（25）

PDF（pc）（5162KB）（89）

近年来,ViT模型凭借其强大的图像理解能力被广泛部署于边缘侧视觉应用。在资源受限边缘端推理中,ViT模型需依据可用资源对其进行有效缩放来获取最优的推理精度-延迟平衡。然而,现有推理模型缩放技术往往仅能在整个模型粒度进行缩放,导致关键信息丢失,需消耗更多计算资源/推理延迟来获取同样的精度。对此,提出LegoViT方法,旨在从ViT模型前馈网络中识别出可缩放模型块,以支持运行时块粒度模型缩放。对比模型粒度缩放方法的测试结果表明,LegoViT使ViT模型内存占用降低22.37%,计算量减少21.1%,推理延迟平均缩短61.05%。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于混合量子经典长-短距离特征扩展网络的图像分类

郑毅, 贾星昊, 张骏温, 任爽

计算机科学 2026, 53 (4): 277-283. DOI: 10.11896/jsjkx.250600108

摘要（29）

PDF（pc）（2178KB）（72）

经典神经网络的规模、计算时长很难进一步突破,难以兼顾轻量化和高性能,在目前大数据时代下成为了解决海量数据的图像分类问题的瓶颈。而混合量子经典神经网络具有量子计算与经典计算的优势,能够进行高效的并行计算并具有较好的普适性。为此,设计了混合量子经典长-短距离特征扩展网络(Hybrid Quantum-Classical Long-Short Range Feature Extension Neural Network,HQC-LSNet),它是一种包含多个混合模块的多分支结构。通过多种量子旋转门及受控-Z门构成量子解耦全连接注意力机制,利用量子特性从量子增强特征空间中高效地获取长距离特征;与此同时,采用经典卷积模块获取短距离特征,并以组合特征图的方式进行特征扩展。在MNIST的十分类以及CIFAR-10数据集上的三分类这两个图像多分类任务上测试其准确率分别为99.42%和91.42%,相较于对应的经典模型及混合量子经典模型均有提升,而且该模型的参数量与时间复杂度相较于经典模型均有所减小。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于张量的多模态融合诊断微血管侵犯

汪少东, 李柳军, 李蕊, 苏中振, 陆遥

计算机科学 2026, 53 (4): 284-290. DOI: 10.11896/jsjkx.250600188

摘要（23）

PDF（pc）（2282KB）（64）

微血管侵犯(MVI)作为肝细胞癌(HCC)术后复发和生存率低的关键预后因素,其术前精准定位对治疗决策至关重要。针对现有放射组学方法特征泛化弱、可解释性差且忽略瘤周MVI空间分布的问题,提出通过病理全切片(WSI)与三维超声(3D US)的空间融合实现MVI三维定位,并设计特征张量融合深度学习模型(融合多尺度特征、特征张量及正交化损失函数)提取瘤周MVI分布语义特征。在收集的数据集上开展了详细的对比分析和消融实验研究,使用受试者工作特征曲线下的面积(AUC)、准确度(Accuracy)和F1分数等指标证明了该模型的有效性。实验验证了该模型性能优异(AUC:0.910,ACC:0.930,F1 score:0.852),证实了其在术前MVI精确诊断中的临床潜力。

参考文献 | 相关文章 | 多维度评价

Select

5. 结合局部、全局感知与语义流对齐的脑白质高信号分割方法

张新峰, 郭依海, 刘晓民, 许忠贺, 李相生

计算机科学 2026, 53 (4): 291-298. DOI: 10.11896/jsjkx.250700057

摘要（22）

PDF（pc）（3468KB）（79）

针对脑白质高信号目标小的特点,提出一种结合局部、全局感知与语义流对齐的脑白质信号分割方法PGF-Net。首先,提出局部感知注意力模块(Patch Aware Attention,PAA),通过划分局部小图像块进行特征选择的方法,加强局部特征提取能力;然后,提出结合局部和全局感知的注意力模块(Patch Global Aware Attention,PGAA),利用Transformer全局感知的特点建立长程依赖;最后,提出门控语义流对齐模块(Gated Flow Alignment Module GFAM),在解码部分预测语义流偏移场,引导解码器中的高层特征扩张,实现与编码器对应低层特征的精准对齐融合。实验结果表明,PGF-Net在自采数据集中,交并比(mIoU)达到0.876 9,Dice系数为0.842 3,豪斯多夫距离(HD)降至32.61,平均表面距离(ASD)仅为1.7,达到了最优效果;在两种小目标公开数据集上也达到最优效果,验证了其泛化性和鲁棒性。此方法在辅助医生诊断方面具有一定的应用前景。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于结构化知识蒸馏的轻量级伪装目标检测模型

宋建华, 刘淳, 张龑

计算机科学 2026, 53 (4): 299-307. DOI: 10.11896/jsjkx.250100105

摘要（27）

PDF（pc）（2489KB）（72）

伪装目标检测在自然场景分析与安全监控中发挥着重要作用,但伪装目标的复杂性和多样性对检测模型的性能提出了严峻挑战。现有知识蒸馏方法多用于模型压缩,通过对教师网络与学生网络的输出层特征对齐,实现轻量化。然而,现有知识蒸馏方法通常忽略了教师网络中间特征的丰富语义信息。此外,固定学习率策略难以适应教师和学生模型规模差距过大的情况,导致蒸馏过程不稳定。为此,设计了一种基于结构化知识蒸馏的轻量级伪装目标检测模型,利用结构化知识改进传统的软硬标签损失计算,从而显著提升蒸馏效果。同时,将学习率优化问题建模为一个最优化任务,以稳定蒸馏过程中的性能波动。实验结果表明,该方法在COD10K-V3和CAMO伪装目标检测数据集上,S_m分别达到82.9%和81.0%,且训练时间减少至6.5 h。

参考文献 | 相关文章 | 多维度评价

Select

7. 面向群车协同感知的车载视频压缩算法

江子贤, 喻赛萱, 黄瑞雪, 沈鑫, 黄河清

计算机科学 2026, 53 (4): 308-317. DOI: 10.11896/jsjkx.250400103

摘要（22）

PDF（pc）（4246KB）（65）

群车协同感知通过大幅度拓展汽车的感知范围,能够极大地提升自动驾驶和辅助驾驶的安全性。但在传输高精度、大容量车载视频感知数据时,其仍面临时延大的问题。为了解决该问题,一些研究通过去除车载视频中包含无效信息的冗余帧,来有效降低数据传输时延。然而,由于车载视频中关键信息动态变化且特征复杂,存在表征帧间关键与冗余信息难、平衡关键信息保留率与压缩率难两个挑战。对此,提出面向群车协同感知的车载视频压缩算法,旨在兼顾信息保真与压缩效率。首先,利用目标检测和多目标追踪算法,跨视频帧提取关键信息的连续特征。然后,基于提取特征的低秩特性,将复杂的关键与冗余信息表征转化为低秩稀疏矩阵分解问题,并通过非精确增广拉格朗日法进行迭代优化,以准确提取视频的关键部分。最后,基于重庆市真实道路数据集和公共数据集BDD100K的部分数据对所提算法进行性能评估。实验结果表明,相比4种对比算法,所提算法在不同交通状况下的关键信息保留率平均提高12.99%,且传输时间平均缩短61.24%。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于GraspNet的多阶段无序混装抓取方法

于灵鑫, 陈艺博, 曲浩君, 厉广伟, 李金屏

计算机科学 2026, 53 (4): 318-325. DOI: 10.11896/jsjkx.250600124

摘要（29）

PDF（pc）（3232KB）（67）

用于工业分拣领域的机械装置通常是针对特定应用场景和特定产品而设计的,面对多种物品无序堆叠的场景,其普适性和智能性往往较差。当前基于3D结构光相机的点云匹配抓取技术虽在一定程度上提升了柔性生产能力,但受限于硬件成本高昂,以及特征描述能力有限、计算复杂度高、对遮挡敏感等固有缺陷,难以满足无序混装抓取需求。近年来以GraspNet为代表的深度学习抓取技术发展迅速,通过双目相机实现位姿估计,但仍存在目标选择策略欠优、位姿评分机制具有局限性、位姿定位偏差大等问题。针对上述挑战,提出一种改进型三阶段抓取算法。第一阶段,针对目标选择策略欠佳的问题,通过融合YOLOv10目标检测与SAM分割模型,结合优化的目标选择算法,即选择无遮挡、距离近的目标,有效解决了堆叠遮挡场景下的目标选择策略不佳难题。第二阶段,对GraspNet位姿估计框架进行改进,即通过引入基于点云表面法向量的位姿筛选机制,重构更加合理的评分机制,进而获取高精度抓取位姿。第三阶段,设计位姿微调策略,即采用"悬停对齐-垂直抓取"的分层控制架构,最大程度消除执行过程中的累积误差,有效解决位姿定位偏差大、实际抓取不准确问题。实验结果表明,该方法显著提升了复杂场景下的抓取效率、操作可靠性和跨场景泛化能力,同时由于使用双目相机取代了3D结构光相机,还显著降低了系统成本,为工业自动化提供了高性价比的解决方案。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于EchoMimic改进的面部动画生成算法及其应用规范

詹奇玮, 任好佳, 肖甜甜

计算机科学 2026, 53 (4): 326-336. DOI: 10.11896/jsjkx.251200015

摘要（22）

PDF（pc）（6185KB）（82）

近年来,基于扩散模型的语音驱动面部动画生成方法已取得突破性进展,此类方法能够高效生成长时序、音频嘴型同步的高分辨率讲话视频。然而,当前方法生成的视频在嘴部区域普遍存在显著的模糊与伪影问题,严重制约了合成视频的真实感与视觉可信度。针对这一问题,提出一种基于 EchoMimic 改进的面部动画生成算法LiveEchoMimic,并深入探讨其标准化应用规范。首先,在技术应用层面,以 EchoMimic 扩散模型与隐式关键点模型为双核心基础架构,构建了一套端到端的自然化讲话视频生成框架。其中,EchoMimic 扩散模型借助音频特征与面部关键点的联合控制机制,完成粗粒度讲话视频的生成任务;隐式关键点模型则采用视频驱动的范式,通过控制隐式关键点空间的位移特征,实现高质量面部动画视频的精细化生成。其次,构建音频-嘴型映射模型,用于精准建模音频特征与嘴部运动状态间的内在关联,并针对性设计映射网络,以强化生成视频的音频-嘴型同步精度。最后,在公开数据集CelebV-HQ、MEAD及私有数据集Avatar上开展大规模实验验证,定量与定性结果表明,LiveEchoMimic方法在视觉质量、音频-嘴型同步性等核心指标上显著优于当前主流方法,实现了最佳的视频生成性能。在应用规范层面,鉴于高度逼真的语音驱动面部动画技术可能引发身份与行为的失真问题,从面临挑战、应用理念、实施措施等方面提出了可操作性的建议,以促进语音驱动面部动画技术在可控、安全前提下更好地契合社会发展需求。

参考文献 | 相关文章 | 多维度评价