李飞飞团队空间智能首个模型诞生：一张图可生成交互式3D场景

讯知在线 • 2024年12月7日上午12:34 • 体育 • 1 views

空间智能首个模型诞生：一张图可生成交互式3D场景

由AI领域影响力最大的女性和华人之一李飞飞领导的AI学者团队World Labs日前公布了其第一个创业项目成果——能用单张静态图片生成3D世界的AI产品。

这项技术突破将图像与3D模型和场景的转换提升到了一个新的高度。以往的AI工具虽然可以将照片转换为3D模型和场景，但World Labs生成的场景独具交互性和可修改性。

“我们的技术让你走进任何一张图像，并以3D的形式对其进行探索。”World Labs在一篇博客文章中写道。

具体而言，该AI工具能通过可操控的滑块调节模拟景深（DoF）和模拟推拉变焦（dolly zoom），为视觉体验增添层次感和真实感。此外，用户还可以移动摄像机位置，更改对象颜色，创建聚光灯特效和动态效果。

World Labs的系统属于“世界模型”人工智能范畴，这类模型能够模拟游戏和3D环境。现有模型存在伪影和一致性问题，但World Labs的技术通过预测3D场景而不是像素，实现了场景的持久性和一致性。

“大多数生成式AI工具生成的都是图像或视频等二维内容。”World Labs表示，“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”

目前，World Labs已经开放Waitlist候补名单申请，创作者们已经将其整合到现有的工作流程中。例如，内容创作者埃里克·索洛里奥（Eric Solorio）发现，这项技术完美地填补了创作过程中的空白，可以“让角色布置和精确的镜头调度变得更容易”。

尽管如此，World Labs在博客中说明，目前披露的只是“3D原生生成AI未来的一个缩影”。AI工具仍有改进的空间，例如用户的移动范围仍然受限于较小的区域，有时还会出现渲染错误。

据Tech Crunch报道，World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资，现公司估值超过10亿美元，计划在2025年推出首款正式产品。

World Labs于今年1月成立，由李飞飞和贾斯汀·约翰逊（Justin Johnson）、克里斯托夫·拉斯纳（Christoph Lassner）和本·米尔登霍尔（Ben Mildenhall）联合创立，三人均在AI领域拥有丰富的经验。其中贾斯汀·约翰逊是李飞飞的博士生，现为密歇根大学的助理教授。World Labs目前总部位于旧金山，拥有20名员工。

在李飞飞的构想里，空间智能生物能够将感知与行动关联。她认为，如果想让AI超越其自身当前的能力，我们需要的是一个可以行动的AI，而世界模型或能够填补这一空白。

对于World Labs与“元宇宙”概念的相似性，创始人解释说，元宇宙的热潮基于一些有前景的硬件，但缺乏真正的互动内容，而世界模型可以填补这一空白。

原创文章，作者：讯知在线，如若转载，请注明出处：http://m.xzxci.cn/2024/12/07/29672.shtml