World Labs入门指南

最新推荐文章于 2026-06-11 09:09:14 发布

原创最新推荐文章于 2026-06-11 09:09:14 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#ai #图形渲染 #空间计算

World Labs入门指南

1 了解什么是World Labs

核心产品是两个互补模型 —— 商用 3D 世界生成器Marble，以及实时帧模型RTFM(Real-Time Frame Model)；前者输出持久化显式 3D，后者做隐式实时渲染，两者都服务于 “空间智能” 目标，本质上是以高斯泼建为核心。

2 核心模型原理

Marble：多模态→持久化 3D 世界（显式 3D 表示）
定位：从单图 / 多图 / 文本生成可下载、可编辑、空间一致的完整 3D 场景，不是孤立 3D 资产
核心原理：以3D Gaussian Splatting (3D 高斯泼溅) 为几何与渲染核心，结合多模态语义理解、几何推理、持久化表征，流程如下
输入解析：文本→CLIP 等大模型编码语义向量；单图→深度 / 法线 / 遮挡推理，补全背面等不可见视角；多图→SfM（运动恢复结构）重建相机位姿、稀疏点云
几何构建：初始化海量 3D 高斯核（半透明椭球粒子），结合深度与语义，用可微分渲染优化高斯参数（位置、形状、透明度、颜色），确保多视角几何与纹理一致
空间结构化：构建场景层级，保证物体间空间关系、物理直觉自洽，实现持久化—— 视角漫游后，物体位置、形状、光影保持不变，无 “幻觉漂移”
导出与编辑：输出高斯点云、网格，支持 USD 等工业 3D 格式，可做局部编辑、光照 / 材质调整
RTFM：实时帧预测→隐式 3D 感知（无显式 3D）
定位：实时渲染可漫游 3D 视图流，单 GPU 即可运行，不输出可导出的 3D 模型，专注渲染效率World Labs
核心原理：自回归扩散 Transformer 架构，端到端学视频时空规律，实现隐式空间理解World Labs
输入→KV 缓存表征：将初始帧转为神经网络激活（KV 缓存），隐式编码 3D 空间状态
自回归视角生成：给定当前帧 + 相机位姿，网络用注意力从缓存读取局部上下文，预测下一帧；采用上下文调度（context juggling），只检索邻近帧，避免算力爆炸World Labs
渲染特性：无需显式 3D（网格、NeRF、点云），不建模物体概念；光照、反射等效果纯靠视频学习，是习得的渲染器而非 3D 生成器

3 与文生 3D / 图重建模型的本质区别

DreamFusion、Shap‑E、Point‑E、Neuralangelo
① 生成目标：场景级完整世界 vs 孤立 3D 资产 / 重建
World Labs（Marble）：面向完整 3D 场景，强调空间连续性、物体关系、持久化漫游；支持场景拼接、扩展、编辑
DreamFusion/Shap‑E/Point‑E：面向孤立 3D 物体（单模型、小道具），不做大规模场景、不保证全局空间一致
Neuralangelo：面向单物体 / 小场景高精度重建，依赖多视角，不做开放生成
②3D 表示范式：高斯显式 + 隐式智能 vs NeRF / 点云 / 网格 / 隐式向量
Marble：3D Gaussian Splatting（显式，高效可微），兼顾渲染速度、几何细节、编辑性；优于纯 NeRF（渲染慢）、纯网格（拓扑复杂）
DreamFusion：NeRF 隐式表征，靠 SDS（分数蒸馏采样）把 2D 扩散模型当成监督信号，迭代优化，无显式几何，导出网格步骤多、耗时长DreamFusion
Shap‑E：直接学 3D 隐式表示（隐式函数 / 神经场）的扩散模型，输出隐向量后解码，不优化显式几何，结构可控但细节有限
Point‑E：文→图→低分点云→高分点云，显式点云，表面连续性差，编辑困难
Neuralangelo：高精度网格重建，依赖多视角，重还原、轻生成
③生成驱动逻辑：原生空间理解 vs 2D 升维优化
World Labs：Marble 融合显式几何 + 空间结构化 + 物理先验；RTFM 直接学视频帧间时空规律→隐式空间理解，都不依赖 SDS（2D 扩散蒸馏）
DreamFusion：核心就是 SDS—— 用 2D 文生图扩散模型，评估 NeRF 渲染图与文本一致性，梯度回传优化 NeRF；本质是 2D 升维，对 3D 几何与物理一致性无原生理解，易有空间漂移、表面噪点DreamFusion
Shap‑E/Point‑E：前者学 3D 隐式表示的扩散，后者点云流水线；都缺乏全局场景空间理解，不具备 Marble 的持久化场景能力

4 使用方法

Marble 的网页端是面向个人 / 设计师的主要入口，无需本地部署，全程云端操作World Labs
访问与注册：打开官网 marble.worldlabs.ai → 注册账号 → 等待审核（一般 1-2 周）；通过后获得初始积分 / 生成额度
选择输入模态（按需求选）
文本输入：写详细 prompt（如 “有壁炉和地毯的北欧客厅，午后阳光”），适合纯原创场景
单图 / 多图：上传 JPG/PNG（最多 8 张多角度照片），适合实物空间、数字孪生
全景 360°：上传全景图，高度还原沉浸式环境
短视频：上传≤100MB 短视频，自动提取空间结构，重建 3D 场景
Chisel (付费版)：手动绘制 3D 布局（墙体、空间框架）→ 再用文本定义风格，做精确可控的空间设计World Labs
提交生成：选择参数，提交后等待（单次生成一般 5-15 分钟），云端完成 3D 高斯点云重建、光照、纹理融合
在线编辑（核心价值）
自由漫游：网页内第一人称视角浏览、缩放、调整视角
局部重绘：框选区域，用自然语言指令修改细节（如 “把沙发换成皮质灰色”），保持全局空间一致性World Labs
扩展世界：拼接多个生成场景、补全边界，构建更大环境
相机路径：生成流畅的漫游视频，用于展示 / 渲染
导出交付
导出格式（付费版更全）：PLY (高斯点云)、USD/USDZ、GLB、视频等，适配 Blender、UE5、Unity、苹果 Vision Pro、Meta Quest 等 VR 设备World Labs
免费版导出能力受限；Max 版解锁完整导出