
在生产一般人工智能,世界模型,智力宝石等基本技术的竞争中,一种能力成为3D场景的核心-DE质量生成。在过去的三年中,该领域的研究大大增长,这几乎是每年论文数量的两倍,这反映了其在多模式理解,机器人技术,自动驾驶甚至虚拟现实系统中的关键地位。注意:4月底的2025年数据的数据,Nanyang Technological University的S-LAB的研究人员正在全面调查该领域中最剪裁的研究方法,发表了对“ 3d一代场景:一项调查”的评论,系统地汇总了300多个纸面代表的300多个代表,以及四年级的纸质代表的划分。图像驱动的一代,视频驱动的世代。评论也概论将3D场景生成的应用到许多主要流程中,包括编辑3D场景,人类场景接触,具体的智能,机器人,自动驾驶等,并探索深厚的挑战和未来的方向。纸张标题:3D场景生成:调查纸链接:https://arxiv.org/abs/2505.05474选定的列表:https://github.com/hzxie/hzxie/awsome-crene-crene-crene-secne-secne-secne-secne-generation of四个主要世代的范式全面研究的3D早期3D范围的程序范围是基本的本质。自2021年以来,生成模型正在增加(尤其是扩散模型),并且新的3D表示(例如Nerf和3D Gaussians)的提议p patlang进入了爆炸增长的阶段。更多样化的方法和场景建模功能的持续改进也已经迅速增加了研究论文的数量。这种趋势迫切需要对该领域进行系统的审查和全面评估。在此修订中研究团队IEW建立了系统的技术分类系统,将现有的3D代方法分为四个主要的范式,每种类型的程序都通过整合代表工作而深深地遵守。这四个游行为3D场景的生成建立了一条明确的技术途径,研究人员将其性能指标与许多尺寸进行了比较,包括现实主义,差异 - I,使用 - 相似的观点,清晰度,效率,效率,控制和真实性。在控制,真实性,效率和不同技术之间的一致性之间揭示了权衡。诸如程序化场景生成之类的程序会自动建立复杂的三维环境,例如土地,建筑物,道路,房间,甚至通过预定的政策,物理或空间障碍,或者借助大型语言模型(LLMS)的帮助。由于空间,发电技术的一致性S广泛用于游戏和图形引擎。根据特定的范式,这种类型的过程可能更分为:基于规则的生成:通过预定算法或KWA的过程产生;通常用于产生地形或自然环境;基于强迫优化的世代:通过障碍物(例如物理政策和场景设计规则)进行设计目标,以优化场景;通常用于生成内部场景;大型语言模型在一代人的协助下:在LLM的帮助下开发场景布局,或用作代理的代理,并在程序化生成中(例如搅拌机)中控制工具。基于神经3D的一代(基于神经3D的生成)用于直接在三维空间中建模,开发结构化的3D场景布局(场景图,场景参数)或直接产生3D表示(点云,Voxels,voxels,nerf,nerf,3d Gaussian,3D Gaussian,3D Gaussian,3D Gaussian,3D Gaussian,e 3D Gauss,E,E,E,E,3D Gauss,E,E,E,E,E,3D Gaussian,E,E,E,E,E,E,E,E 3D Gaussian,E,E,E,E,E,E 3D表示。TC。),并具有强大的三维理解和表达能力。根据场景布局,它可以进一步分为:参数控制:通过显式场景参数(例如对象位置,方向,大小,几何位置)控制场景布局,并通过获取对象或对象的生成来改进详细信息;图形结构表示:使用场景图来表达生物及其关系,并通过获得对象或对象的生成来改善细节;语义布局:通过二维或三维语义图提供布局,以及控制生成;隐式布局:通过隐式布局控制场景布局,并学会生成空间结构和端到端。基于图像的技术的快速发展为3D场景建模带来了新的可能性。这些过程类型基于2D图像生成模型,然后生成三维场景的多视图图像和重新审查结构。 BASIC包括两种技术:总体一代:一次开发完整的场景视图,通常以全景视图表示。迭代生成:逐渐扩展场景字段并产生图像 - 跟随。通常通过深度估计方法获得对3D的明确识别,以确保一致性。基于视频的一代将3D场景视为时间序列中图像扩展的序列,视频生成范式包括空间建模和时间一致性。在诸如视频扩散模型之类的新技术中,这种类型的技术可能会通过移动视图或动态进化来综合这些奸诈的情况。根据各种生成过程,它可以分为以下:阶段过程:视频的端到端生成,联合建模时间和空间信息。两个阶段的方法:视频的产生是通过两个阶段进行的,而场景的时间连续性和空间一致性受到控制的分离y。即使3D场景的一代发展使我们面临的四个主要挑战都取得了惊人的发展,但世界上三维建模仍然存在着一个巨大的空间,这确实是“控制,高诚实和身体上的真实”。 Generation的能力仍然无法平衡:目前,各种方法具有自己的专业知识,程序化生成和神经3D方法在建模和空间控制的建筑中非常出色,但是很难实现实际的质地和照明;图像和视频生成技术的视觉效果是现实的,但是它们在保持空间一致性方面经常表现较差,并且容易受到几何变形和其他问题的影响。3D识别仍然需要改进:3D识别的形式在不断变化,但具有自己的缺点和表达。近年来,诸如3D高斯人之类的新形式的代表性促进了效率,但没有良好的身体支持。如何开发3D级别的场景-L既紧凑又有效的EVEL表示,具有物理意义和视觉现实是一个困难的问题,目前需要破坏。高质量的数据仍然是瓶颈:现有数据集是两极分化的,合成数据被精心标记,但没有变化和现实感。现实世界扫描数据是现实的,但没有准确的语义信息结构。此外,现有数据很少包含物理属性,材料特征或交互式信息,这使得很难支持生成实际现实场景的生成,从而支持任务要求,例如机器人和体现的智能。缺乏审查标准:目前,考试指标分散,通常依赖于自己定义的视觉或几何指标。缺乏一个单一的主观和客观评估系统。最近的基准主要致力于查看图像或视频,并且缺乏Directortang分析3D特征。 3D基准(例如eval3d)仅限于对象级别建模,并且对完整场景的审查有限。未来的四个主要发展方向将更多地基于诚实:未来的3D代模型应同时达到几何,纹理,质地,照明和一致性的协调和统一性,包括专注于结构和外观,提高材料的质量和照明,照明,空间改进的一致性,阴影,阴影,其他基本要素和其他基本基本要素。真正的高诚实水平还需要当地细节,以密切联系全球空间和语义布局,以生产具有高现实和沉浸式的3D场景。物理障碍的引入:贝恩事实当前的世代方法在视觉效果上已经显着发展,物理真实性通常被忽略,例如,事物的放置和移动是否符合现实世界的物理定律。未来的研究应在开发过程中介绍实物,障碍或模拟机制,以确保结构,语义和身体行为结果的相似性。例如,可以通过不同的物理模拟器和其他方式引入物理反馈。对于需要对身体一致的环境(例如具体的智能和机器人)进行决策和控制的应用,该方向尤其重要。支持联系人的场景的产生:在4D场景生成的开发中,当前的过程是带有传输对象的Nakmake动态环境。但是,目前的大多数情况仍然缺乏响应,无法根据输入变化或环境变化发表评论。场景的互动产生不仅需要实现“被动”动态,而且还需要在物理下产生合理的反应联系,用户说明或环境条件的变化。这将要求模型具有理解对象,原因和许多代理之间相互作用的逻辑。感知发展的整合:统一的理解和生成能力是下一代3D建模系统发展的重要方向。诸如细分,更改和世代之类的任务基本上取决于Parehong的空间和语义早期信息。将来,可以通过统一的体系结构来实现双向功能:两者都使用感知能力来改善影响,还可以通过开发能力来提高理解场景的感觉。这种类型的模型可以用作一般的“感知”脊柱网络,为体现的代理提供集成的视觉,语言和3D空间推理能力。