栏目文章

Select

1. 基于三维CT切片的下肢骨分割算法的优化研究

宋磊, 王宝会, 杜辉

计算机科学 2025, 52 (11A): 240900072-7. DOI: 10.11896/jsjkx.240900072

摘要（268）

PDF（pc）（3564KB）（170）

在机器人辅助下肢截骨术中,置针和截骨等操作的位置规划依赖于高精度的骨骼模型,而准确分离CT影像中的骨骼组织是实现建模的关键。对此,提出了一种改进的U-Net卷积神经网络模型,创新性地引入了动态滑动窗口机制,即在处理连续切片数据时,通过动态调整窗口大小,以增强对不同截面变化的适应性,从而提升分割的准确度。基于北京积水潭医院下肢骨CT影像数据集进行验证,得到改进后模型的Dice系数为84.948%,而U-Net为80.353%,Attention U-Net为83.580%,结果表明,改进后模型的分割效果有显著提升。

参考文献 | 相关文章 | 多维度评价

Select

2. 面向聚变堆冷却管可视化的管道中心线提取方法研究与应用

罗月童, 董子秋, 彭俊, 赵东晟

计算机科学 2025, 52 (11A): 241000137-5. DOI: 10.11896/jsjkx.241000137

摘要（183）

PDF（pc）（2623KB）（146）

冷却管是遍布聚变反应堆的重要部件,其对聚变堆的核安全有重要影响,研究冷却管的可视化对改进聚变核安全有重要意义。因为冷却管呈线性分布,所以基于管道中心线进行可视化是常用方法,但从复杂冷却管的面片模型中提取中心线非常繁琐。针对这个问题,提出了一种解决方法,首先使用平均曲率流算法提取中心线附近的离散点,然后设计了一种优化方法,基于管道段是圆柱或圆环及管道段之间的连接关系这个先验知识,从离散点构建准确的中心线段,包括中心线段的类型、方程及中心线段之间的连接关系。使用国际热核聚变实验堆(International Thermonuclear Experimental Reactor,ITER)的冷却管验证所提方法的有效性,实验结果表明,所提取管道中心线符合要求,能有效支持后续可视化任务,证明了所提方法是有效的。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于DEFM-YOLOv8的高铁接触网导线状态检测算法

高玉立, 王宝会

计算机科学 2025, 52 (11A): 241000155-9. DOI: 10.11896/jsjkx.241000155

摘要（351）

PDF（pc）（5028KB）（174）

高铁接触网是电气化铁路系统中的关键导线,保障其导线的正常状态对于维持铁路的稳定运营至关重要。传统的人工巡检方式效率低下且易漏检,随着深度学习技术的快速发展,利用计算机视觉技术实现自动化检测已成为迫切需求。针对高铁接触网室外多种复杂背景和多种环境(如夜晚、白天)下导线状态检测的挑战,文中提出了一种基于DEFM(细节增强融合模块)与YOLOv8结合的高铁接触网导线状态检测算法,通过结合空间和通道注意力机制将红外与可见光图像融合,引入多模态融合和Shuffle Attention注意力机制。通过在真实数据集上进行实验,验证了该模型在检测精度、召回率等性能指标上的显著提升。结果表明,改进后的算法相比原始算法,召回率提升了 0.94%,mAP 提升了 2.09%。经实际测试,基于DEFM-YOLOv8的检测模型在面对高铁接触网复杂背景时,无论是在夜晚还是白天场景下,均能够取得良好的检测效果。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于改进YOLO模型的脑肿瘤病灶区域检测

荣昌达, 殷继彬

计算机科学 2025, 52 (11A): 241000166-8. DOI: 10.11896/jsjkx.241000166

摘要（321）

PDF（pc）（4824KB）（152）

针对传统人工检测在脑肿瘤阅片中易受主观因素影响而出现误诊或漏诊的问题,结合脑肿瘤图像的特点,提出一种改进YOLO模型以实现对脑肿瘤病灶区域的智能检测。针对脑肿瘤病灶区域形状不规则的特点,引入可变形卷积,使得网络能自适应复杂病灶形态,提升不规则病灶的特征提取能力。同时,通过嵌入结合了全局多头注意力、局部注意力和通道注意力的全局注意力机制,使网络在关注病灶区域细微特征的同时,降低图像复杂背景对病灶区域特征提取的负面影响,以获得更高的识别准确率。此外,针对脑肿瘤数据集标注中预测框不一定精准的实际情况,采用改进Wise-IoU代替原有的CIoU损失函数,以应对人工标注不精准的问题。在脑肿瘤数据集Brain Tumor Detection上的对比实验结果表明,所提出的模型相比于原始模型,精度提高了5.9%。

参考文献 | 相关文章 | 多维度评价

Select

5. 面向缺损QR码的高鲁棒性定位与编码方法研究

康博涵, 高万林, 贾敬敦

计算机科学 2025, 52 (11A): 241000179-7. DOI: 10.11896/jsjkx.241000179

摘要（252）

PDF（pc）（3073KB）（183）

随着移动终端不断普及和物联网技术的快速发展,QR码作为一种方便快捷的数据信息传递载体得到了广泛应用。然而QR码在长期使用过程中容易遭受磨损和腐蚀等情况,尤其是缺角破损造成码图位置探测模块和格式信息编码模块的缺失,使得用户难以通过现有软件对QR码进行解码。为了解决这个问题,提出一种改进的位置探测中心检测算法和边缘位置角点检测算法,实现了当存在QR码的位置探测区域缺失时,依然能够被解码器成功定位。同时,提出一种新型的格式版本信息结构算法来取代原有传统区域的功能。实验结果表明相较于现有QR码,当存在缺角破损时,提出的方法在解码实验中展现了更强的鲁棒性,并具有较强的实际应用意义。

参考文献 | 相关文章 | 多维度评价

Select

6. RMSFF-SSD:基于重参数化与多尺度特征融合的遥感图像目标检测模型

陈海燕, 马舒豪, 张振霄

计算机科学 2025, 52 (11A): 241000184-7. DOI: 10.11896/jsjkx.241000184

摘要（313）

PDF（pc）（3563KB）（177）

遥感图像目标检测在国土资源调查、灾害监测、军事侦察等领域具有广泛的应用。针对SSD(Single Shot MultiBox Detector)模型在遥感图像目标检测时难以有效提取小目标的特征,从而对小目标检测不利的问题,文中提出了一种基于重参数化与多尺度特征融合的RMSFF-SSD(Reparameterization Multi-Scale Feature Fusion SSD)遥感图像目标检测模型,该模型在SSD模型的基础上进行改进。首先,对SSD的骨干特征提取网络中的卷积层使用具有重参数化性质的卷积来提取特征,同时在重参数化卷积中引入SE注意力机制,以捕获通道之间的依赖关系并抑制无用的特征;其次,将特征提取网络中提取到的特征用多级特征融合的方式对全局信息与局部细节信息进行融合,来进一步增强目标的特征;最后,将融合后所获得的6个不同尺度的特征图用于目标检测。在NWPU VHR-10数据集上进行目标检测实验,实验结果表明,所提出的RMSFF-SSD512目标检测模型平均精度为89.7%,显著高于DSSD(78.7%)模型、FSSD(86.7%)模型、FPN(68.9%)模型、Faster R-CNN(44.2%)模型和YOLOv5(83.7%)模型。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于CVAE-WGAN的音乐情感转换模型

胥备, 赵丹

计算机科学 2025, 52 (11A): 241100014-13. DOI: 10.11896/jsjkx.241100014

摘要（263）

PDF（pc）（3913KB）（165）

音乐是人表达情感的重要方式。音乐情感转换技术能够将原始音乐转换成具有目标情感的音乐,满足用户对多样化情感音乐的需求,并提升创作效率。现有音乐情感转换技术通过构建深度学习模型来实现端到端的情感转换,但其表征音乐的情感向量与实际音乐特征之间的对应性不足,导致中间层缺乏可解释性,这在一定程度上限制了音乐情感转换的准确性,并可能引发梯度消失问题。针对上述问题,提出了一种基于CVAE-WGAN(Conditional Variational Autoencoder Wasserstein Generative Adversarial Network)架构的音乐情感转换模型,使用WGAN-GP网络替代传统GAN,引入Wasserstein 距离和梯度惩罚机制,有效避免模式崩溃和梯度消失,从而提升训练的稳定性和生成质量。同时,为了解决生成模型中间过程缺乏可解释性的问题,引入涵盖音乐旋律、和声、节奏、动态强弱、音色、表达性和曲式方面的64种具备明确可解释性的中间感知特征作为潜在空间变量融入模型,确保潜在空间的每一个维度都能对应一个具体的音乐特征。此外,该模型还使用高斯混合模型代替变分自编码器中的单高斯模型,用于捕捉和表示不同情感类别下的音乐特征分布。实验结果表明,该模型在快乐、悲伤、温柔、愤怒、恐惧和惊讶6种典型情感间的相互转换任务上表现优异,在情感准确率、重构误差、生成连贯性和生成多样性方面的表现均优于对比模型。

参考文献 | 相关文章 | 多维度评价

Select

8. CINN:一种高速且抗JPEG的医学图像水印网络

张小瑞, 许亚楠, 孙伟

计算机科学 2025, 52 (11A): 241100037-7. DOI: 10.11896/jsjkx.241100037

摘要（266）

PDF（pc）（4101KB）（175）

针对远程医疗中医学图像隐私保护及传输效率问题,提出了一种抗JPEG压缩的医学图像水印恢复算法。传统方法如奇偶校验码和海明码在水印纠错方面存在局限性,而里德-所罗门码虽然能有效恢复多比特错误,但面对JPEG压缩等块处理攻击时,其恢复能力受限。随着深度学习的发展,基于INN的水印技术虽实现了高容量信息嵌入,但计算负担大,影响了信息传递效率。为解决这些问题,首先应用里德-所罗门码对水印信息进行预处理,提高其稳定性和恢复能力,并将处理后的水印嵌入载体图像的DCT低频系数中。其次,为降低计算时间,受CSPNet的结构启发,将特征分为两部分,通过跨阶段连接优化INN的网络结构,减少模型参数数量,加速训练过程。实验结果表明,该算法在QF=50的JPEG压缩下达到了近乎100%的水印正确恢复率,同时减少了约40%的训练时间,显著提升了模型的计算效率和训练速度。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于改进YOLOv8的草原巡检机器人障碍物识别方法

窦琢仑, 于春战, 张佳林, 李玉龙

计算机科学 2025, 52 (11A): 241100065-6. DOI: 10.11896/jsjkx.241100065

摘要（296）

PDF（pc）（3497KB）（175）

为解决草原巡检机器人的障碍物识别算法受限于外部环境复杂和自身算力不足等在准确率与实时性上难以兼顾的问题,提出了一种基于YOLOv8的草原障碍物轻量化检测模型,利用高效多尺度注意力机制(Efficient Multi-Scale Attention Module)增强网络特征提取能力。同时在网络颈部结构添加1X1卷积进行降维映射处理,降低网络的参数量;还将原网络的损失函数替换为WIoU,降低了低质量图像在训练过程中对模型的影响。在自建数据集上进行了实验,结果表明,改进后模型的F1分数、平均精度值(mAP)分别为93%和96.2%,比原模型提高了1个百分点和1.9个百分点;模型参数量为1.96×10⁶,比原模型降低了34.7%,最后将模型移植到嵌入式平台并进行FP16量化,运行帧率提升了35%。提出的方法能兼顾准确率和实时性,是一种适用于嵌入式平台的轻量化检测方法,为草原巡检机器人的障碍物检测提供了技术支持。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于全局-局部信息融合LPV-Net和3D-EDA的心脏半监督分割算法研究

胡慧称, 刘瑞霞, 刘照阳, 郭振华

计算机科学 2025, 52 (11A): 241100077-7. DOI: 10.11896/jsjkx.241100077

摘要（207）

PDF（pc）（2820KB）（167）

心脏分割算法提供精准把握心脏结构的信息,辅助医生进行诊断、制定治疗计划以及进行手术前的评估工作,提高临床治疗的效果并减轻并发症。然而,心脏分割在应用中存在诸多问题。手动分割方法不仅耗时费力,并且具有很强的主观意识。全监督的心脏分割方法虽已取得一定成果,但标注数据的依赖性过高。现有的半监督分割方法在处理复杂的心脏结构和病理变化时表现仍不够理想,难以在实际临床环境中稳定应用。为解决这一问题,提出了心脏磁共振成像(MRI)分割方法,结合Linformer and Performer merge V-Net(LPV-Net)和3D Enhanced Discriminator with Attention(3D-EDA)技术,实现了全局-局部信息的有效整合。LPV-Net模块由LinPerBlock和改进的V-Net联袂打造,旨在规范模型训练过程、实现全局与局部信息的有机整合,有效提高分割效果的准确性与鲁棒性。同时引入新鉴别器3D-EDA规范未标记数据,并加入关键模块CARE-Layer,集成自定义注意力模块以增强对特征重要信息的捕捉能力,辅助网络可提高主网络分割指标性能。在左心房数据集上进行综合实验,并将所提方法与MC-Net,V-Net等其他先进的半监督方法进行比较,发现该方法在基准数据集上的表现尤为优异。特别是在使用有限标签数据进行训练时,该方法仍然展示出卓越的性能;当仅使用10%和20%的标记数据进行训练时,该方法的Dice系数分别达到88.50%和90.39%。

参考文献 | 相关文章 | 多维度评价

Select

11. 融合注意力机制的道路场景三维目标检测算法

曹文博, 魏明洋, 段小勇, 刘学渊

计算机科学 2025, 52 (11A): 241100112-7. DOI: 10.11896/jsjkx.241100112

摘要（283）

PDF（pc）（3676KB）（177）

随着深度学习和车载激光雷达的发展,无人驾驶汽车对检测的要求也越来越高,不仅需要准确地检测出行驶道路上的障碍物,而且在检测速度上也有较高要求。而在复杂道路场景中,也总是存在障碍物遮挡以及部分目标体积较小从而导致一些目标难以准确检测的情况。针对这种问题,提出了一种改进Pointpillars算法模型的三维目标检测方法,以实现在保证检测速度的情况下有更高的准确率。首先,通过引入多种数据增强的操作来增加数据集的多样性和量级,减少过拟合现象;然后,在点柱特征提取方面加入了注意力矩阵,根据不同的体素位置和语义信息,动态地调整每个体素的重要性,使模型能够关注对目标检测任务更加有用的特征;最后,将通道注意力机制(CA)和空间注意力机制(SA)模块依次添加在模型的主干网络中,增强了模型对有用信息的响应,抑制不重要特征对检测结果的干扰,从而提高目标特征表示力。实验结果表明,改进后的算法模型在各个类别和检测难度上的检测精度均有提升。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于视觉损失的低照度增强图像多准则质量评价方法

陈岐, 孙瑾, 汪纪钢, 黄长城

计算机科学 2025, 52 (11A): 241100114-7. DOI: 10.11896/jsjkx.241100114

摘要（240）

PDF（pc）（4199KB）（154）

低照度图像增强能提高图像的感知度和可解释性,对增强后图像的评价是衡量图像信息可靠性的有效手段,并对增强算法的参数选择、模型调整也有指导作用。但目前已有的图像质量评价方法没有针对低照度增强图像,导致评价结果与主观感受存在分歧。根据人眼视觉感知,分析增强后图像的视觉损失原因,提出了一种基于视觉损失的低照度增强图像多准则质量评价方法(Multi-criteria Based Low-light Enhanced Image Quality Assessment,MC-LEIQA)。该方法针对低照度图像增强过程中出现的亮度增益不足、伪影、伪轮廓和颜色偏移等视觉损失现象,以基于KL散度的自适应亮度增益度、基于方差与梯度的结构恢复度和颜色恢复度设计评价准则,并引入亮度自动感知的正偏移修正系数来实现低照度增强图像质量的准确性评价。通过消融实验验证了选取的评价指标的合理性和必要性,并进一步与主流图像质量评价方法在公开数据集上进行对比实验,结果表明所提方法针对低照度增强图像具备更高的评价准确性和有效性。

参考文献 | 相关文章 | 多维度评价

Select

13. 面向全天候多场景的多模态融合目标检测方法

张帆, 李昂

计算机科学 2025, 52 (11A): 241100137-10. DOI: 10.11896/jsjkx.241100137

摘要（324）

PDF（pc）（6405KB）（200）

传统的目标检测方法在处理复杂场景时存在局限性,尤其在夜间低光照和白天阴影环境中难以取得理想效果。现有多模态图像融合技术多偏重红外图像在低光照场景中的重要性,却忽视了白天复杂环境对红外与可见光融合的需求平衡。因此,针对全天候、多场景的目标检测需求,提出了一种基于特征图分类与生成对抗网络(Generative Adversarial Network,GAN)的多模态融合目标检测方法。与以往强调图像视觉质量的融合方法不同,该方法着眼于提升融合图像的目标检测性能。通过多尺度注意机制将特征图分类为显著性和细节特征图,并在交叉对抗训练网络中通过生成器及显著性、细节判别器优化融合效果,捕捉各模态的关键信息,以满足不同场景的检测需求。实验结果表明,所提出的方法在TNO,RoadScene和M3FD数据集上的表现优异,显著提升了多模态融合目标检测的性能。

参考文献 | 相关文章 | 多维度评价

Select

14. 面向电力缺陷场景的小样本图像生成适应

杨岚, 赵金雄, 李志茹, 张驯, 狄磊, 蔡云婕, 张和慧

计算机科学 2025, 52 (11A): 241100149-8. DOI: 10.11896/jsjkx.241100149

摘要（286）

PDF（pc）（3968KB）（163）

在电力系统的运行与维护中,及时准确地检测电力缺陷对保障系统安全稳定至关重要。然而,由于电力缺陷场景图像数据难以获取,深度学习模型常面临训练样本不足的问题。为解决这一难题,将扩散模型应用于电力缺陷图像生成,并提出了一种基于纹理调制和EMA参数更新的小样本生成适应方法,以扩展电力缺陷图像数据集。具体而言,在扩散模型中引入了纹理调制模块,通过两阶段注入机制,提升了图像的细节捕捉能力与空间结构对齐能力。此外,设计了一种EMA参数更新的跨域适应训练策略,结合风格损失与扩散损失,平滑了模型训练过程,提升了生成图像的质量与稳定性。实验结果表明,该方法在多个电力设备缺陷小样本数据集上表现出色,生成图像具有较高的空间结构一致性与细节还原能力,展现了其在电力缺陷检测中的应用潜力。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于下肢骨X光三维重建算法的优化研究

王宝会, 杜辉, 张远

计算机科学 2025, 52 (11A): 241100152-7. DOI: 10.11896/jsjkx.241100152

摘要（297）

PDF（pc）（4116KB）（213）

在临床实践中,下肢骨畸形是骨科医疗中常见且治疗难度较大的病症,医生通常依赖正侧位X光片进行负重位畸形程度判断,但这一过程高度依赖医生的专业程度与经验水平。虽然CT三维摄片技术存在,但患者在拍摄CT时需要平躺,与站立负重位的差异导致其无法很好地满足诊断要求。因此,创建更为直观和准确的下肢骨畸形模型展示至关重要。这样不仅可以简化医生的工作,还能提高诊断的准确性,帮助他们制定更有效的治疗方案。因此,提出了基于PSSobel-X2CTGAN的模型,在原模型的基础上对reshape模块加入了Transformer机制,另外在数据集的准备中使用了CycleGAN来进行数据增强。在原论文的数据集上进行验证,实验结果清晰地表明,该模型在CT-PELVIC和SKI10数据集上的结构相似值分别达到了79.51%和56.32%,而原模型的值仅为77.49%和49.53%,展示了其显著的改进和提升。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于多目标追踪的视频无关人员自动识别

马一心, 曾军皓, 杨鑫岩, 梁刚

计算机科学 2025, 52 (11A): 241100155-8. DOI: 10.11896/jsjkx.241100155

摘要（300）

PDF（pc）（3496KB）（143）

无关人员自动识别旨在检测并识别视频中的无关人员,以解决其隐私保护问题。现有的隐私保护方法通过提取高级视觉特征识别与主题无关的个人。然而,高级特征的提取会显著影响视频的处理效率,难以处理海量视频数据。同时,现有的单帧识别方法没有考虑目标的时序特征,导致准确率较低。因此,提出了一种自动识别算法以高效识别无关人员,引入了多目标追踪方法来判断人物与视频之间的相关性。该方法能够从个人运动轨迹的时间和空间两个维度提取5种轻量特征。此外,为了解决视频运动过程中遮挡和模糊带来的挑战,采用了基于观察的轨迹关联算法,旨在提高运动跟踪的准确性。在各种数据集上进行了实验验证,结果表明,所提出的方法在各种指标上相较于当前的先进方法表现出显著的提升,其中MOTA指标最高提高10.87个百分点,HOTA指标最高提高10.95个百分点,无关人员识别的准确率达到98.13%。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于多模态数据融合的公害网站识别方法研究

赵春蕾, 于杰, 王鹏翔, 尤伟

计算机科学 2025, 52 (11A): 241100171-10. DOI: 10.11896/jsjkx.241100171

摘要（235）

PDF（pc）（3613KB）（149）

当前,针对公害网站识别方法存在特征利用不充分、特征融合性差等问题。因此,提出了一种基于HTML文本、网站截图文本、网站截图的多模态融合公害网站识别模型RBI-RA。该模型使用ResNet50+Attention模型提取网站截图的视觉特征,同时借助OCR技术提取截图文本,进而将其用于后续丰富网站的文本特征。该模型使用RoBERTa+BiLSTM+交互注意力机制模型分别对HTML文本和截图文本特征进行提取,并通过交互注意力机制进行融合,实现网站文本特征的丰富与扩展。该模型通过自注意力机制,融合网站的视觉特征和文本特征,得到多模态融合的分类器,实现不同模态间特征的互补。最后,为证明所提出模型的有效性,在自主开发构建的数据集上进行了大量科学实验。实验结果表明,所提出的基于多模态数据融合的模型可以有效提高识别公害网站的性能,在精密度、召回率和F1指标上表现良好。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于生成式数据增强与Faster-RCNN改进的发动机打刻面缺陷检测

谭建辉, 张峰

计算机科学 2025, 52 (11A): 241200025-7. DOI: 10.11896/jsjkx.241200025

摘要（297）

PDF（pc）（3033KB）（162）

汽车发动机的打刻面具有承载发动机信息、丢失查找以及防止私自拆改发动机等作用,打刻面的质量将直接决定车辆是否能正常上牌行驶。但是在汽车制造领域,现阶段对打刻面的缺陷检测主要采用人工目视检测的方法,存在漏检的风险。虽然业界已有一些针对表面缺陷检测的研究,但它们无法完全适应发动机打刻面缺陷检测的特点,容易出现错检、漏检情况。为了革新发动机打刻面缺陷检测的方式,提出了一种基于生成式数据增强与Faster-RCNN改进的缺陷检测方法。首先,针对发动机打刻面缺陷样本少的小样本问题,提出了一种基于stable diffusion的打刻面缺陷图片生成方法。该方法通过两个掩膜图分别控制缺陷生成的位置以及恢复图像的字符特征,从而完成打刻面缺陷样本图像的生成,实现数据集的增强。其次,提出了一种同步双向融合特征金字塔网络替换原模型所使用的特征金字塔网络,增强多尺度特征融合能力,解决打刻面缺陷目标尺度范围广的问题。实验结果表明,所提出的方法在检测发动机打刻面缺陷时,均值平均精度(mAP)达到了97.52%,相比原始的Faster-RCNN模型提高了34.73%,可以满足发动机打刻面缺陷的检测需求。

参考文献 | 相关文章 | 多维度评价

Select

19. 卷积增强自适应分类模型的构造与研究

陈一卓, 邹伟, 王洪大

计算机科学 2025, 52 (11A): 241200069-5. DOI: 10.11896/jsjkx.241200069

摘要（314）

PDF（pc）（3095KB）（164）

经典卷积神经网络(Convolutional Neural Networks,CNN)已被成功应用于图像领域,但是在图像旋转与缩放等几何变换条件下提取图像特征存在鲁棒性不足的局限。文中提出一种卷积增强自适应分类模型(Convolutionally Enhanced Adaptive Classification Model,CEACM),通过集成特征提取与分类器优化,来提升模型在复杂图像变换场景下的性能。在特征提取部分,引入了特征不变层作为对传统CNN的增强机制。该层通过集成旋转变换策略,有效增强CNN在提取图像特征时的旋转不变性,确保模型能够从多样化的输入数据中捕获到稳定且具有高度代表性的特征表示,提高模型对图像几何变换的鲁棒性。在分类器设计部分,提出了一种基于粒子群优化(Particle Swarm Optimization,PSO)的自适应增强模型。该模型利用PSO算法的全局搜索能力,对分类器的权重进行精细调整,能有效避免传统优化方法易陷入局部最优解的问题,提升模型的泛化能力和分类精度。为验证CEACM模型的有效性,采用了一系列国际标准图像数据集进行测试。实验结果表明,相较于传统机器学习模型及现有改进CNN模型,CEACM在分类任务上展现出了更为优越的性能,不仅提高了分类的准确率,还显著增强了模型在处理图像几何变换时的稳定性与鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于多尺度注意力的视网膜血管分割方法研究

朱思凡, 朱国胜

计算机科学 2025, 52 (11A): 241200112-10. DOI: 10.11896/jsjkx.241200112

摘要（273）

PDF（pc）（3664KB）（167）

在医学图像分割中,视网膜血管分割对于眼科疾病的早期诊断与治疗是很重要的。视网膜血管分割不仅有助于诊断糖尿病视网膜病变、青光眼、动脉硬化等疾病,还在分析眼部血管形态、血流动力学等方面具有广泛的应用。但是现有方法在处理视网膜细小血管和血管边缘时还无法精确分割,在类别不平衡、血管形态复杂性和有限训练样本等方面仍然受到限制。为了提高血管分割精度并降低误判率,提出了一种基于多尺度注意力的视网膜血管分割模型(MDAF-Net)。该模型通过引入多尺度动态卷积来自适应地调整对不同尺度血管的关注度,缓解了细小血管提取不足的问题,结合通道和空间注意力机制优化特征融合,增强了模型对细节特征的提取能力,采用多尺度特征融合策略,提升了在血管形态复杂性下的分割效果。MDAF-Net在DRIVE和CHASE_DB1数据集上验证模型效果,得到Dice系数为0.764、MIoU为78.3%(DRIVE)和Dice系数为0.820、MIoU为82.5%(CHASE_DB1)。实验结果表明,MDAF-Net在分割精度和假阳性率控制方面具有显著优势,解决了传统方法在细小血管分割、类别不平衡和假阳性等方面的局限。

参考文献 | 相关文章 | 多维度评价

Select

21. SAM-MR:基于SAM的混合区域匹配专家适配布匹检测算法

罗其锋, 肖星, 温焯飞, 池明旻, 彭博

计算机科学 2025, 52 (11A): 241200124-6. DOI: 10.11896/jsjkx.241200124

摘要（238）

PDF（pc）（2838KB）（154）

有监督异常检测因其精准的工业异常检测能力而广泛应用于布匹质量检测。现有的统一架构的异常检测方法,因其单一的特征适配能力,不能对多样化的,所以度较高的布匹瑕疵进行有效地区分,因此在布匹的多类别的异常检测中性能会显著下降。为此提出一种基于混合区域匹配专家适配方法(Mixture of Region Experts),通过Mixture of Adapter Experts模块来区别化不同类别的布匹瑕疵特征,使用Align and Differencing模块对齐模板图特征和瑕疵特征来进一步加强异常区域的划分,从而有效提高了模型分辨复杂多类型的布匹瑕疵的能力。同时,模型进一步集成成分检测任务,在完成瑕疵定位的基础上实现异常成分的语义识别。实验结果表明,SAM-MR在布匹纤维材质和缺陷检测任务上取得了优于现有方法的性能,定性、定量分析及消融实验验证了所提出方法在多任务预测中的有效性。

参考文献 | 相关文章 | 多维度评价

Select

22. 频域纹理先验与特征增强的医学图像分割模型

钟延杰, 蹇木伟, 张昊然, 凌钰坤

计算机科学 2025, 52 (11A): 241200125-8. DOI: 10.11896/jsjkx.241200125

摘要（329）

PDF（pc）（3708KB）（193）

提出的模型利用傅里叶变换提取的频域信息作为优化依据,增强网络在高相似性背景下伪装性病灶区域的识别能力。通过设计频域特征增强模块(Frequency Feature Enhancement Module,FFEM),网络能够显著增强病灶区域不同频率的特征信息,实现在复杂背景下更精准地捕捉伪装区域的细微特征。此外,创新性地将频域特征先验图加权融合到损失函数中,以在优化过程中引导网络关注病灶区域特征,提升网络在训练阶段的敏锐度和适应性。同时,设计了交叉注意力融合模块(Cross Attention Fusion Module,CAFM),针对不同频率特征进行差异化增强,进一步提升了网络对各频率特征的调节能力。提出的方法在多个医学影像数据集上(皮肤数据集:ISIC2016,ISIC2017,ISIC2018;结肠息肉数据集:CVC-Clinic,Kvasir,CVC-ColonDB,ETIS LaribPolyDB;乳腺数据集:BUSI)展现出卓越的分割性能;在定量指标,如Dice系数、交并比(IoU)和准确率(ACC)等指标方面,均优于现有模型,具有更好的准确性和鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于改进YOLOv8的城市交通视域下的目标识别算法

陈俊杰, 赵红, 罗勇, 丁晓云

计算机科学 2025, 52 (11A): 241200131-8. DOI: 10.11896/jsjkx.241200131

摘要（276）

PDF（pc）（5003KB）（185）

为减少目标检测算法在城市环境下的误检和漏检问题,以YOLOv8目标检测算法模型为基础,引入小目标检测层,使得网络能够更好地捕捉和识别视野内的小尺寸物体,进而提高对检测目标的关注度;融合新型遥感目标检测模型来重构C2f模块,以增强其对丰富梯度流信息的感知能力,并增加其动态调节感受野的能力;通过采用拓扑优化思想来优化CBAM注意力机制,提出了GSAM注意力机制,并将其嵌入到网络的适当位置,以提高对语义信息的利用;改善漏检情况,通过对比多种IOU的性能,选择效果最优的EIOU,来加速算法的收敛速度,提高回归精度。在Cityscapes公开数据集上进行了测试和消融实验,实验结果表明改进后的算法相较于基准算法,在精确率、召回率、平均精度值方面分别提升了2.5个百分点、5.8个百分点、6.1个百分点,可以有效地提升城市交通视域下车辆的目标检测精度,为道路视频监控等提供保证。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于CRAFT和OCR技术的药品名称识别方法

许莹, 厉小明, 于丰豪

计算机科学 2025, 52 (11A): 241200160-7. DOI: 10.11896/jsjkx.241200160

摘要（370）

PDF（pc）（3865KB）（193）

在智能化药房的运作中,为实现药品的高效与精准挑选,机器人准确识别药品并完成取药至关重要。聚焦药品名称识别方法,提出一种融合CRAFT算法与OCR技术的CRAFT-OCR算法,以实现药品名称的高效识别。其中,CRAFT算法用于检测药盒文本区域,为提升识别准确率,设计一种基于排序规则的药名区域定位方法来确定药名区域,最终借助先进的OCR技术完成文字识别。在采集的药盒图片数据集上开展的药名识别实验显示,CRAFT-OCR方法检测药名区域的准确率为96.43%,文字识别准确率为96.00%,性能优于现有算法,为智能化药名识别提供了有效的解决方案。

参考文献 | 相关文章 | 多维度评价

Select

25. 生成式人工智能在视频处理领域的应用综述

王中原, 王宝山, 王拥军, 袁天浩

计算机科学 2025, 52 (11A): 241200164-10. DOI: 10.11896/jsjkx.241200164

摘要（347）

PDF（pc）（4873KB）（189）

生成式人工智能是近年来的重点研究方向,尤其是视频处理领域。Sora等新技术的问世,掀起了新一轮的生成式人工智能研究热潮。介绍了生成式人工智能在视频处理领域的发展及应用,并讨论了未来值得研究的方向及面临的挑战。具体包括3个部分:首先,回顾了生成式人工智能在视频处理领域早期的重要基础模型,包括生成式对抗网络、变分自动编码器、扩散模型等结构,并总结了在视频生成任务中做出重大创新或效果优异的模型;然后,从基本属性、视频生成质量、人类主观视角3个维度对比了2023－2024年Sora出现前后视频生成新模型的优劣;最后,基于对数据的分析,提出了未来视频生成领域的发展方向及挑战,为相关领域研究者提供参考,推动生成式人工智能在视频处理领域的广泛应用。

参考文献 | 相关文章 | 多维度评价

Select

26. GCP辅助COLMAP框架SFM绝对尺度恢复算法的研究

李鹏飞, 官先才, 朱有建, 李院瞧, 王俊

计算机科学 2025, 52 (11A): 250100015-6. DOI: 10.11896/jsjkx.250100015

摘要（359）

PDF（pc）（3394KB）（161）

随着数字经济的快速发展,对三维重建技术的需求显著增加。然而,现有商用三维重建系统多依赖于封闭的单机或集群架构,导致灵活性和效率受限,而开源框架在绝对坐标和尺度恢复方面存在不足。对此,提出了一种基于GCP(Ground Control Point)辅助的Colmap框架中的SFM(Structure from Motion)算法。该算法通过构建残差方程、应用相似变换和全局光束法平差,将Colmap中SFM的自由网结果精确转换为绝对坐标。实验结果表明,该方法在计算精度上与商用系统Agisoft和大疆智图相当,且在尺度恢复上保持了较高的计算效率。所提方法不仅提升了开源三维重建系统的绝对尺度恢复能力,还为未来云端应用和大规模数据处理提供了理论和实践基础。未来将致力于实现全流程自动化三维重建的云架构,并探讨与物联网设备在三维监管中的应用前景。

参考文献 | 相关文章 | 多维度评价

Select

27. 融合自适应优化与多维聚焦的点云配准网络

岳倩雯, 王东强, 张强

计算机科学 2025, 52 (11A): 250100019-7. DOI: 10.11896/jsjkx.250100019

摘要（379）

PDF（pc）（2800KB）（148）

在点云配准领域,面对低重叠率的点云时,如何有效捕捉细节特征并提高配准精度是两大核心挑战。尽管传统特征提取方法已取得一定成效,但其对点云几何信息的挖掘尚显不足,导致所提取特征的区分度有限。当前的技术主要依赖于位置编码和几何嵌入策略,虽在一定程度上增强了模型的几何理解能力,但在面对高离群值的场景时,配准精度仍有提升空间。为了解决这些问题,提出了一种融合自适应优化与多维聚焦的点云配准网络ROPNet。通过引入多维聚焦、自适应调制核以及动态优化选择器模块来捕捉全局特征和局部细节,识别点云的空间位置和对应关系,理解点云数据的内在结构,增强内点的识别能力,提升了配准精度。实验结果表明,ROPNet在多个数据集上均展现出优越性能。具体来说,在3DMatch数据集中,将配准召回率提升至92.4%,内点比率提高到71.3%。而在KITTI数据集上,不仅实现99.8%的高配准精度,同时还将相对旋转误差降低至0.24°,相对平移误差降低至6.6 cm。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于无人机检视的公路工程施工人员安全帽佩戴实时检测算法

文明, 吴兴堂, 尚宇豪, 甄键, 于富才

计算机科学 2025, 52 (11A): 250100047-7. DOI: 10.11896/jsjkx.250100047

摘要（271）

PDF（pc）（3776KB）（175）

为保障公路工程施工人员作业安全,减少施工安全事故,实时检测施工人员是否佩戴安全帽已成为重要的安全监管手段。公路工程施工具有点多、线长、面广的特点,且面临穿山越岭、跨江跨河等复杂地势,传统固定摄像头的覆盖存在局限性,且成本较高。无人机作为一种灵活、低成本且具备高可视性的影像采集工具,能够有效弥补这一不足,特别适用于传统手段难以覆盖的施工现场高风险区域。针对基于无人机采集图像的安全帽检测,在光照变化、目标尺度和形状变化较大的情况下容易出现误检、漏检的问题,提出了一种基于改进扩展差分高斯(XDOG)的YOLOv5安全帽实时检测算法。针对复杂施工环境中安全帽与背景或其他物体难以区分的问题,XDOG模块通过提取图像的边缘信息,增强了待检测安全帽的结构与细节特征。随后,差分高斯结果通过归一化和非线性激活处理,消除了环境中的亮度变化和噪声干扰。为了与YOLOv5网络兼容,采用1×1卷积层调整增强后的特征图通道数,并通过残差连接与原始图像特征进行融合,从而提高了网络的鲁棒性和准确性。实验结果表明,相较于传统的YOLOv5和YOLOx等模型,XDOG-YOLOv5在mAP@50和mAP@50-95等指标上均有显著提升,显著提高了施工作业人员安全帽检测的精度。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于特征相似性分析的轻量级图像超分辨率重建

刘兴鹏, 薛一鸣, 林钰扬, 李岩, 彭万里

计算机科学 2025, 52 (11A): 250100057-8. DOI: 10.11896/jsjkx.250100057

摘要（260）

PDF（pc）（4552KB）（174）

基于Transformer的轻量级图像超分辨率网络已经取得了显著成果,然而大多数研究工作专注于设计轻量级网络结构,却忽视了对网络架构冗余性的分析。因此,提出了一种基于特征相似性的超分网络设计方法,通过压缩网络中具有较高特征相似性的注意力组,并保留具有较低相似性的注意力组,有效减少了模型冗余。进一步,设计了一种结合频域和空间域的特征提取模块,通过在频域和空间域上分别进行局部频域特征提取和局部空间特征提取,使模型能够利用更广泛且具有积极影响的输入像素,从而有效提高了对细节纹理的修复能力。将上述方法应用在基线模型上,在多个数据集上的对比结果表明,所提模型具有低复杂度且实现了较好的视觉感知质量和重建性能。

参考文献 | 相关文章 | 多维度评价

Select

30. C2P-YOLO:一种轻量级的风电塔筒裂缝检测算法

段鹏松, 高杨, 张大龙, 曹仰杰, 赵杰

计算机科学 2025, 52 (11A): 250100126-6. DOI: 10.11896/jsjkx.250100126

摘要（277）

PDF（pc）（2583KB）（180）

风电塔筒作为整个风电设备的支撑结构,其安全性至关重要。裂缝作为风电塔筒主要的病害之一,对其进行准确检测十分有必要。受限于特征提取能力不足,现有的裂缝检测算法存在精度较低、模型复杂度较高的问题,不能很好满足端侧设备现场检测的需求。为此,文中提出了一种基于YOLO的风电塔筒安全性检测算法C2P-YOLO。在主干网络部分,该算法利用轻量级的特征提取模块C2P来代替冗余的网络结构,以提取特征图中更丰富的特征信息。在颈部网络部分,该算法添加了轻量化上采样CARFE和注意力机制模块,以补充特征融合过程中的信息损失。实验结果表明,该算法在公开数据集NEU-DET上的mAP分数达到84.9%,相较于同类算法提升了3%~8%,且能保持较好的轻量化特性。

参考文献 | 相关文章 | 多维度评价