World Labs入门指南

World Labs入门指南

1 了解什么是World Labs

核心产品是两个互补模型 —— 商用 3D 世界生成器Marble,以及实时帧模型RTFM(Real-Time Frame Model);前者输出持久化显式 3D,后者做隐式实时渲染,两者都服务于 “空间智能” 目标,本质上是以高斯泼建为核心。

2 核心模型原理

Marble:多模态→持久化 3D 世界(显式 3D 表示)
定位:从单图 / 多图 / 文本生成可下载、可编辑、空间一致的完整 3D 场景,不是孤立 3D 资产
核心原理:以3D Gaussian Splatting (3D 高斯泼溅) 为几何与渲染核心,结合多模态语义理解、几何推理、持久化表征,流程如下
输入解析:文本→CLIP 等大模型编码语义向量;单图→深度 / 法线 / 遮挡推理,补全背面等不可见视角;多图→SfM(运动恢复结构)重建相机位姿、稀疏点云
几何构建:初始化海量 3D 高斯核(半透明椭球粒子),结合深度与语义,用可微分渲染优化高斯参数(位置、形状、透明度、颜色),确保多视角几何与纹理一致
空间结构化:构建场景层级,保证物体间空间关系、物理直觉自洽,实现持久化—— 视角漫游后,物体位置、形状、光影保持不变,无 “幻觉漂移”
导出与编辑:输出高斯点云、网格,支持 USD 等工业 3D 格式,可做局部编辑、光照 / 材质调整
RTFM:实时帧预测→隐式 3D 感知(无显式 3D)
定位:实时渲染可漫游 3D 视图流,单 GPU 即可运行,不输出可导出的 3D 模型,专注渲染效率World Labs
核心原理:自回归扩散 Transformer 架构,端到端学视频时空规律,实现隐式空间理解World Labs
输入→KV 缓存表征:将初始帧转为神经网络激活(KV 缓存),隐式编码 3D 空间状态
自回归视角生成:给定当前帧 + 相机位姿,网络用注意力从缓存读取局部上下文,预测下一帧;采用上下文调度(context juggling),只检索邻近帧,避免算力爆炸World Labs
渲染特性:无需显式 3D(网格、NeRF、点云),不建模物体概念;光照、反射等效果纯靠视频学习,是习得的渲染器而非 3D 生成器

3 与文生 3D / 图重建模型的本质区别

DreamFusion、Shap‑E、Point‑E、Neuralangelo
① 生成目标:场景级完整世界 vs 孤立 3D 资产 / 重建
World Labs(Marble):面向完整 3D 场景,强调空间连续性、物体关系、持久化漫游;支持场景拼接、扩展、编辑
DreamFusion/Shap‑E/Point‑E:面向孤立 3D 物体(单模型、小道具),不做大规模场景、不保证全局空间一致
Neuralangelo:面向单物体 / 小场景高精度重建,依赖多视角,不做开放生成
②3D 表示范式:高斯显式 + 隐式智能 vs NeRF / 点云 / 网格 / 隐式向量
Marble:3D Gaussian Splatting(显式,高效可微),兼顾渲染速度、几何细节、编辑性;优于纯 NeRF(渲染慢)、纯网格(拓扑复杂)
DreamFusion:NeRF 隐式表征,靠 SDS(分数蒸馏采样)把 2D 扩散模型当成监督信号,迭代优化,无显式几何,导出网格步骤多、耗时长DreamFusion
Shap‑E:直接学 3D 隐式表示(隐式函数 / 神经场)的扩散模型,输出隐向量后解码,不优化显式几何,结构可控但细节有限
Point‑E:文→图→低分点云→高分点云,显式点云,表面连续性差,编辑困难
Neuralangelo:高精度网格重建,依赖多视角,重还原、轻生成
③生成驱动逻辑:原生空间理解 vs 2D 升维优化
World Labs:Marble 融合显式几何 + 空间结构化 + 物理先验;RTFM 直接学视频帧间时空规律→隐式空间理解,都不依赖 SDS(2D 扩散蒸馏)
DreamFusion:核心就是 SDS—— 用 2D 文生图扩散模型,评估 NeRF 渲染图与文本一致性,梯度回传优化 NeRF;本质是 2D 升维,对 3D 几何与物理一致性无原生理解,易有空间漂移、表面噪点DreamFusion
Shap‑E/Point‑E:前者学 3D 隐式表示的扩散,后者点云流水线;都缺乏全局场景空间理解,不具备 Marble 的持久化场景能力

4 使用方法

Marble 的网页端是面向个人 / 设计师的主要入口,无需本地部署,全程云端操作World Labs
访问与注册:打开官网 marble.worldlabs.ai → 注册账号 → 等待审核(一般 1-2 周);通过后获得初始积分 / 生成额度
选择输入模态(按需求选)
文本输入:写详细 prompt(如 “有壁炉和地毯的北欧客厅,午后阳光”),适合纯原创场景
单图 / 多图:上传 JPG/PNG(最多 8 张多角度照片),适合实物空间、数字孪生
全景 360°:上传全景图,高度还原沉浸式环境
短视频:上传≤100MB 短视频,自动提取空间结构,重建 3D 场景
Chisel (付费版):手动绘制 3D 布局(墙体、空间框架)→ 再用文本定义风格,做精确可控的空间设计World Labs
提交生成:选择参数,提交后等待(单次生成一般 5-15 分钟),云端完成 3D 高斯点云重建、光照、纹理融合
在线编辑(核心价值)
自由漫游:网页内第一人称视角浏览、缩放、调整视角
局部重绘:框选区域,用自然语言指令修改细节(如 “把沙发换成皮质灰色”),保持全局空间一致性World Labs
扩展世界:拼接多个生成场景、补全边界,构建更大环境
相机路径:生成流畅的漫游视频,用于展示 / 渲染
导出交付
导出格式(付费版更全):PLY (高斯点云)、USD/USDZ、GLB、视频等,适配 Blender、UE5、Unity、苹果 Vision Pro、Meta Quest 等 VR 设备World Labs
免费版导出能力受限;Max 版解锁完整导出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值