斯坦福团队项目：无限连贯的3D场景，只需1句话1张图就能生成！

AIGC设计课程7个月前更新 AIGC学院

64 0 0

嗨！小伙伴们，我是你的好朋友小SOMO！

有一项新技术，一张图一段文字就能沿相机轨迹生成无限连贯 3D场景

▼为什么乌鸦像写字台？

在《爱丽丝漫游奇境记》中许多奇特的人物与场景构成了一个引人入胜的世界，由此吸引无数读者。在今天这个技术中，继承了这一创造性传统，探索现代计算机视觉和AI如何同样生成如此有趣和多变的视觉世界。

一张图、一段文字就生成3D场景的技术，实在太多了，都见怪不怪了！

但是今天！不一样！不光能生成3D场景，且还可以任意方向沿着相机轨迹生成无线连贯的3D场景。

（输入图像）

（输出图像）

（输入文字）

（输出图像）

用一张爱丽丝梦游仙境的图片，就可以生成一段整个仙境的奇幻之旅；同样的，用一首诗就可以生成中国风水墨的幻境；这样丰富的生成仅仅是冰山一角！此项目名为WonderJourney，由斯坦福吴佳俊团队和谷歌研究院强强联合共同打造！

WonderJourney是一个模块化的永久场景生成框架，与之前专注于单一类型场景的视图生成工作不同，从用户提供的任何位置（通过文字描述或图像）开始，生成一长串不同但连贯的三维场景之旅。利用LLM生成旅程中场景的文本描述，利用文本驱动的点云生成管道，生成引人注目且连贯的三维场景序列，并利用大型VLM验证生成的场景。展示了各种场景类型和风格的多样化视觉结果，形成了想象中的“奇妙之旅”！

从任何地方出发

WonderJourney从一个任意位置（由文本或图像指定）开始，沿摄像机轨迹生成一系列不同但连贯的三维场景（即 “奇妙之旅”）。

（输入图像）

（输出图像）

（输入真实照片）

（输出图像）

（输入图像）

（输出图像）

漫长的“奇妙之旅”

WonderJourney可以合成超漫长的“奇妙旅程”。所合成景象更是不带重复的！将鼠标悬停在视频上可暂停自动滑动。

（输入图像）

（输出图像）

（输入图像）

（输出图像）

（输入真实照片）

（输出图像）

去往任何地方

WonderJourney还可以生成一系列多样化的“奇妙旅程”，最终到达不同的目的地。使用相机姿势的轨迹渲染下面的每个视频，将鼠标悬停在视频上就可以暂停自动滑动。

受控奇妙之旅

WonderJourney还能根据文字描述序列（如诗歌、俳句和故事摘要）生成可控的奇妙之旅，将鼠标悬停在视频上可暂停自动滑动。

（输入文字）

（输出图像）

（输入文字）

（输出图像）

（输入图像）

（输出图像）

从上面的生成图来看，生成的风格很不一样，输入中文的诗词，是最具有我国代表性的中国山水3D场景；输入日文，则是浮世绘风格的3D场景；输入英文，则是油画风格的3D场景！

生成的质量也是不错的，很流畅并且视觉效果也很惊艳，难得的是生成的元素，以及所在空间位置等具有合理性，并且风格多变！这个项目可以说，从传统一句话一张图生成3D图像的基础上，又开了一扇新的窗口！还未等到项目代码的正式发布，就收获了300多颗小星星。

那究竟使用了何种技术才能达到这种效果呢？在论文中编编找到了一些蛛丝马迹，请看WonderJourney框架和跨模块的工作流程图：

如上图所示，WonderJourney框架包含三个核心组件：用于生成场景描述的LLM，以及生成连贯3D场景的文本驱动的视觉模块Text-guided inpainting，还有一个用于验证生成场景的VLM。

WonderJourney生成过程分为“确定给场景生成那些对象”、“将这些对象放在哪里”以及“这些场景如何以几何的形式相互连接”。整个生成过程需要下面三个模块配合完成：

Scene description generation：即场景描述生成，在这个模块中，LLM提供常识和语义推理，并生成场景文本描述。利用LLM输出自然语言描述，然后使用词汇类别过滤文本，只保留实体的名词和属性的形容词来生成更连贯的连接场景。
Visual scene generation：即视觉场景生成，将文本描述转换，通过视觉模块提供视觉和几何理解生成适当的3D效果。将图像提升到点云：确定由图像表示的当前场景，通过估计深度将其提升到3D，并使用针孔相机模型将其取消投影。其次，为了解决物体边界深度边缘过于平滑，以及天空深度的问题，引入了一种利用像素分组分割，和天空分割的深度细化过程。
为了增强跨对象边界的深度不连续性，当元素的视差范围有限时，使用正面平面对场景元素进行建模。从而使过渡更加自然。