1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    三维视觉与元宇宙 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 三维视觉与元宇宙专题论文点评
    曹明伟, 李成龙, 高浩, 朱虎, 吕智涵
    计算机科学    2025, 52 (3): 1-3.   DOI: 10.11896/jsjkx.qy20250301
    摘要241)      PDF(pc) (489KB)(318)    收藏
    相关文章 | 多维度评价
    2. 元宇宙技术发展与应用综述
    曹明伟, 张迪, 彭圣洁, 李宁, 赵海峰
    计算机科学    2025, 52 (3): 4-16.   DOI: 10.11896/jsjkx.241000095
    摘要315)      PDF(pc) (3868KB)(384)    收藏
    元宇宙是一个结合了虚拟现实、增强现实、人工智能和互联网技术的虚拟世界,它不仅提供了一个数字化的沉浸式环境,还代表着一种新的社会互动和经济模式。随着一些科技巨头和创新企业的积极投入,元宇宙的快速发展在多个领域引起了广泛关注。着眼于元宇宙的起源、技术基础、当前应用以及对社会和经济的影响,探讨了其面临的隐私和安全问题,并展望了未来的发展方向。通过对元宇宙的多个方面进行深入分析,以期为理解和探索这一复杂前沿领域提供全面的理论框架,并为未来进一步对其进行研究和实践提供参考。
    参考文献 | 相关文章 | 多维度评价
    3. 元宇宙中三维场景重建技术综述
    宋星诺, 王丛妍, 陈鸣锴
    计算机科学    2025, 52 (3): 17-32.   DOI: 10.11896/jsjkx.241000043
    摘要155)      PDF(pc) (3463KB)(670)    收藏
    随着虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)、区块链、人工智能(Artificial Intelligence,AI)等多种技术的发展,元宇宙逐渐被应用于游戏、教育、医疗、商业等许多领域。三维重建技术作为元宇宙的核心技术,因具有极高研究价值和广泛应用前景而受到关注。传统的三维重建技术在处理以实时交互性为特点的元宇宙任务中表现不佳,其计算效率以及重建模型精度都有很大提升空间。因此,如何优化三维重建技术,提高精度和鲁棒性,为用户提供更真实、更实时的交互体验,成为当前的研究热点。文中对近几年元宇宙中基于场景生成的三维重建技术进行了跟踪与归纳。首先,回顾元宇宙的发展历程,指出其中三维重建技术面临的挑战,并提出基于两种不同三维表示的解决思路。其次,分别梳理了基于三维高斯(3D Gaussian)和神经辐射场(Neural Radiance Field,NeRF)表示的三维重建技术。然后,主要分析了三维重建技术与触觉信号、大语言模型的创新融合方法。最后,详细探讨了元宇宙中基于场景生成的三维重建技术面临的挑战,并提出其未来研究方向。
    参考文献 | 相关文章 | 多维度评价
    4. LpDepth:基于拉普拉斯金字塔的自监督单目深度估计
    曹明伟, 邢景杰, 程宜风, 赵海锋
    计算机科学    2025, 52 (3): 33-40.   DOI: 10.11896/jsjkx.240800069
    摘要166)      PDF(pc) (4291KB)(343)    收藏
    自监督单目深度估计受到了国内外研究人员的广泛关注。现有基于深度学习的自监督单目深度估计方法主要采用编码器-解码器结构。然而,这些方法在编码过程中对输入图像进行下采样操作,导致部分图像信息,尤其是图像的边界信息丢失,进而影响深度图的精度。针对上述问题,提出一种基于拉普拉斯金字塔的自监督单目深度估计方法(Self-supervised Monocular Depth Estimation Based on the Laplace Pyramid,LpDepth)。此方法的核心思想是:首先,使用拉普拉斯残差图丰富编码特征,以弥补在下采样过程中丢失的特征信息;其次,在下采样过程中使用最大池化层突显和放大特征信息,使编码器在特征提取过程中更容易地提取到训练模型所需要的特征信息;最后,使用残差模块解决过拟合问题,提高解码器对特征的利用效率。在KITTI和Make3D等数据集上对所提方法进行了测试,同时将其与现有经典方法进行了比较。实验结果证明了所提方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    5. 基于边缘增强的选择性特征融合肾癌三维CT图像分割
    王涛, 白雪飞, 王文剑
    计算机科学    2025, 52 (3): 41-49.   DOI: 10.11896/jsjkx.240300091
    摘要139)      PDF(pc) (3375KB)(325)    收藏
    针对肾癌三维CT图像存在病变区域多尺度、边缘像素稀疏、对比度低以及肿瘤形状复杂且不规则等问题,提出一种基于边缘增强的选择性特征融合肾癌三维CT图像分割网络(EE-SFF U-Net)。EE-SFF U-Net采用基于U-Net的对称编解码网络架构,编码路径中包含一个用于强化边缘信息的边缘增强模块,可有效挖掘、利用浅层特征信息以缓解边缘像素稀疏问题,同时避免小目标的漏检。此外,在网络的跳跃连接中,设计一个选择性特征融合模块,使得深浅层特征相互补充,实现不同信息的有效聚合。最后提出一个综合Generalized Dice Loss和Focal Loss的混合损失函数,利用动态权重调整策略,实现损失函数的优化训练,并降低病变区域多尺度和肿瘤形状大小不规则带来的影响。所提方法在保证病变区域整体定位准确的同时,强化对小目标特征信息的挖掘利用,从而提高分割的准确性和鲁棒性。在KiTS19公开数据集上的实验结果表明,与其他分割算法相比,该方法各项指标表现良好,分割性能有显著提升。
    参考文献 | 相关文章 | 多维度评价
    6. 基于区域编码的可驱动头部虚拟化身重建算法
    王杰, 王创业, 谢九成, 高浩
    计算机科学    2025, 52 (3): 50-57.   DOI: 10.11896/jsjkx.240200060
    摘要126)      PDF(pc) (2876KB)(264)    收藏
    传统的头部化身大多基于 3D 可变形模型(3DMM) 制作,虽然 3DMM 能够方便地进行驱动,但无法表达头发等非刚性结构。近期,基于神经辐射场的头部化身工作虽然取得了优秀的视觉效果,但在可驱动性和训练效率上存在不足。为了解决以上问题,单目视频被作为原始数据,一个数量动态增长的点云被用来构建可驱动的头部虚拟化身。点云能够通过光栅化操作快速渲染为图像,大大减少了训练时间。在纹理表示上,颜色被解耦为反照率和阴影,阴影又进一步被分解为法线和通过对点进行稀疏性编码获得的区域特征的组合,这种分解最终得到了更精准的纹理。然而,点云固有的离散性质会导致渲染时出现孔洞。因此,一项法线平滑策略被用来提高纹理的连续性,从而有效地消除了牙齿、舌头等区域上的纹理孔洞。在多个主体上的大量的实验表明,相比 IMavatar,PointAvatar,NerFace和 StyleAvatar 等目前最好的头部化身构建算法,基于点云并结合区域编码和法线平滑策略构建的可驱动头部化身在 PSNR 指标上平均取得了约3.41% 的提升。消融实验表明,相较于不使用区域编码和法线平滑策略,所提方法的 PSNR 指标分别提升了约3.50% 和3.44%。
    参考文献 | 相关文章 | 多维度评价
    7. 基于区域显著性与空间特征提取的说话人像合成方法
    王邢波, 张浩, 高浩, 翟明亮, 谢九成
    计算机科学    2025, 52 (3): 58-67.   DOI: 10.11896/jsjkx.240300030
    摘要115)      PDF(pc) (4590KB)(249)    收藏
    音频驱动的说话人像合成技术致力于将任意的输入音频序列转换为逼真的说话人像视频。近期,基于神经辐射场(NeRF)的多个说话人像合成工作取得了优秀的视觉效果。但是,此类工作仍普遍存在着语音-嘴唇同步欠佳、躯干抖动和合成视频清晰度较低等不足。为了解决上述问题,提出了一种基于区域显著特征和空间体积特征的高保真说话人像合成方法。具体而言,一方面,开发了一个区域显著性感知模块用于头部建模。它利用多模态输入信息动态调整头部空间点的体积特征,同时优化基于哈希表的特征存储,从而提高面部细节表征的精确度和渲染效率。另一方面,设计了一个空间特征提取模块用于躯干的独立建模。不同于现有方法普遍采用的直接基于躯干表面空间点坐标估计其颜色和密度的方式,该模块利用参考图像构建躯干场以提供对应的纹理和几何先验,从而实现更清晰的躯干渲染和自然的躯干运动。应用于多个人物主体的实验结果表明,在自我重建场景中,所提方法相较于当前最优的基线模型,在图像质量上(PSNR,LPIPS,FID,LMD)分别取得了10.15%,12.12%,0.77%和1.09%的提升,在嘴唇同步精度上(AUE)提高了14.20%。此外,在交叉驱动(使用非训练集音频)的场景下,该算法在嘴唇同步精度(AUE)上提升了4.74%。
    参考文献 | 相关文章 | 多维度评价
    8. 基于中心点注意力的多视角多人三维人体姿态估计
    江以恒, 李洋, 刘春颜, 赵蕴龙
    计算机科学    2025, 52 (3): 68-76.   DOI: 10.11896/jsjkx.240600063
    摘要122)      PDF(pc) (3046KB)(287)    收藏
    多视角多人三维人体姿态估计被广泛应用于各类计算机视觉任务中。当前基于空间体素的方法由于需要消耗巨大的资源难以实现在边缘计算设备上的实时性运算;而回归方法因缺乏几何约束导致泛化能力有限,在新的环境中无法直接应用而需要采集数据进行微调。通过结合空间体素方法与基于回归的姿态估计方法并融合二者的特点,提出了基于中心点注意力回归的多视角多人三维人体姿态估计模型。该模型通过一个小规模的体素网络粗略估计人体中心点位置,并以此构建初始姿态,随后在人体中心点的范围内进行回归预测得到更精确的人体姿态。本研究通过结合空间关键点位置,使得模型的回归预测更加准确,在大尺度上平均准确率提升1.16%,同时使得模型非常容易训练,在小样本微调中准确率最多提升了12%。这使得基于回归的模型可以在新的场景下通过小数据量的训练快速部署而实现泛化性能和通用性的大幅提升。
    参考文献 | 相关文章 | 多维度评价
    9. 基于注意力机制与对比损失的单视图草图三维重建
    钟悦, 谷杰铭
    计算机科学    2025, 52 (3): 77-85.   DOI: 10.11896/jsjkx.240200102
    摘要113)      PDF(pc) (2857KB)(300)    收藏
    元宇宙是三维的沉浸式互联空间。随着虚拟现实、人工智能等技术的发展,元宇宙正在重塑人类的生活方式。三维重建是元宇宙的核心技术之一,其中,基于深度学习的三维重建是计算机视觉领域的研究热点。针对手绘草图难以避免的前景和背景模糊性、绘制风格差异性和视角偏差问题,提出了基于注意力机制与对比损失的单视图草图三维重建方法,重建过程中无需额外的标注信息和交互操作。该模型首先通过空间变换模块矫正输入草图的空间位置,随后使用基于归一化的注意力模块在草图上建立长距离和多层次的依赖关系,利用草图的全局结构信息缓解前景和背景的模糊性所带来的重建困难,并设计对比损失函数使模型学习到对草图风格和视角不变的潜空间特征,提升模型对输入草图的鲁棒性。在多个数据集上的实验结果证明了所提模型的有效性和先进性。
    参考文献 | 相关文章 | 多维度评价
    10. 跨视角地理定位中的三维交互机制
    周博文, 李阳, 王家宝, 苗壮, 张睿
    计算机科学    2025, 52 (3): 86-94.   DOI: 10.11896/jsjkx.240500020
    摘要86)      PDF(pc) (3306KB)(237)    收藏
    跨视角地理定位是一种图像检索任务,其目的是在不同视角下使用无地理坐标的图像与数据库中有地理坐标的图像进行检索匹配,从而获取目标图像的地理位置信息。然而,现有方法大多忽略了全局位置信息和特征完整性,导致模型无法捕获深层语义信息;另外,现有的二维交互方式未充分利用维度间关系,导致跨维交互不充分。为解决上述问题,设计了一种跨视角地理定位三维交互机制。该方法利用ConvNeXt作为特征提取网络,随后使用所提出的三维交互机制(Triplet Interaction Mechanism,TIM)进行特征丰富操作,最后利用联合损失函数指导模型训练。所提方法在模型内进行了多次三维交互,缓解了二维特征投影部分信息丢失的问题。同时,所提出的三维交互机制在3个通道中使用不同的注意力,使模型对跨视角图像的平移、缩放、旋转具有鲁棒性。实验结果表明,所提方法在University-1652数据集上针对无人机视角定位和无人机导航两个任务均取得了最优性能。
    参考文献 | 相关文章 | 多维度评价
    11. 基于拆分联邦学习的元宇宙视线交互中的隐私主动保护方法研究
    骆正权, 王云龙, 王子磊, 孙哲南, 张堃博
    计算机科学    2025, 52 (3): 95-103.   DOI: 10.11896/jsjkx.240500038
    摘要92)      PDF(pc) (2925KB)(442)    收藏
    随着元宇宙的迅猛发展,视线交互技术作为元宇宙核心交互方式受到广泛关注,视线隐私问题愈发引起人们的担忧。视线不仅可以表征凝视方向,还能用于个体身份识别,以及识别一系列敏感的软生物特征,如年龄、性别、种族等,甚至可以用于推断个体的情绪、认知状态和决策过程。因此,研究元宇宙视线交互中的隐私保护策略变得极为关键。此外,元宇宙中很多基于视线交互的新功能需要利用特定的个体隐私属性以提供更好的服务,然而目前尚无主动控制视线隐私进行选择性流通的方法。为此,首先围绕视线隐私泄露问题展开了分层次、定量的实证研究;接着创新性地提出了一种融合联邦学习与拆分学习的视线隐私保护框架,有效降低了隐私泄露的风险;进一步地,提出了一种基于对抗训练的主动隐私控制策略,不仅实现了针对性的隐私过滤,而且提高了视线模型的泛化能力;最后进行了严谨的实验验证,所提方法在视线数据的隐私保护和交互性能方面展现出了双重优势,为元宇宙环境中视线交互的隐私保护提供了创新的解决路径和技术方案。
    参考文献 | 相关文章 | 多维度评价
    12. 融合动态加权图卷积的三维目标检测
    李宗民, 戎光彩, 白云, 徐畅, 鲜世洋
    计算机科学    2025, 52 (3): 104-111.   DOI: 10.11896/jsjkx.240700041
    摘要88)      PDF(pc) (2810KB)(292)    收藏
    三维目标检测是自动驾驶中最关键的技术之一,基于激光雷达的三维目标检测通常在点云构建的场景中进行。目前的三维检测方法不能充分地利用点云的结构信息,这将导致目标物体的误检和漏检。为此,提出了基于动态加权图卷积的DEG R-CNN。首先,在RoI中对节点设置主邻点和次邻点,为目标物体构建点云的图结构,恢复物体的几何信息;然后,在图中利用Gaussian函数和一维卷积,高效地聚合点云的结构特征;最后,使用交叉注意力机制自适应地融合不同粒度的图像特征,为点云补充图像语义信息。在KITTI数据集上进行实验,验证了各个模块的有效性,三维目标检测的3D mAP达到88.80%,相比基线模型提高了1.22%。同时,对三维目标检测的结果进行了可视化,并对可视化结果进行了分析。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共1页 共12条记录