空间智能首个模型诞生:一张图可生成交互式3D场景
由AI领域影响力最大的女性和华人之一李飞飞领导的AI学者团队World Labs日前公布了其第一个创业项目成果——能用单张静态图片生成3D世界的AI产品。
这项技术突破将图像与3D模型和场景的转换提升到了一个新的高度。以往的AI工具虽然可以将照片转换为3D模型和场景,但World Labs生成的场景独具交互性和可修改性。
“我们的技术让你走进任何一张图像,并以3D的形式对其进行探索。”World Labs在一篇博客文章中写道。
具体而言,该AI工具能通过可操控的滑块调节模拟景深(DoF)和模拟推拉变焦(dolly zoom),为视觉体验增添层次感和真实感。此外,用户还可以移动摄像机位置,更改对象颜色,创建聚光灯特效和动态效果。
World Labs的系统属于“世界模型”人工智能范畴,这类模型能够模拟游戏和3D环境。现有模型存在伪影和一致性问题,但World Labs的技术通过预测3D场景而不是像素,实现了场景的持久性和一致性。
“大多数生成式AI工具生成的都是图像或视频等二维内容。”World Labs表示,“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”
目前,World Labs已经开放Waitlist候补名单申请,创作者们已经将其整合到现有的工作流程中。例如,内容创作者埃里克·索洛里奥(Eric Solorio)发现,这项技术完美地填补了创作过程中的空白,可以“让角色布置和精确的镜头调度变得更容易”。
尽管如此,World Labs在博客中说明,目前披露的只是“3D原生生成AI未来的一个缩影”。AI工具仍有改进的空间,例如用户的移动范围仍然受限于较小的区域,有时还会出现渲染错误。
据Tech Crunch报道,World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资,现公司估值超过10亿美元,计划在2025年推出首款正式产品。
World Labs于今年1月成立,由李飞飞和贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)联合创立,三人均在AI领域拥有丰富的经验。其中贾斯汀·约翰逊是李飞飞的博士生,现为密歇根大学的助理教授。World Labs目前总部位于旧金山,拥有20名员工。
在李飞飞的构想里,空间智能生物能够将感知与行动关联。她认为,如果想让AI超越其自身当前的能力,我们需要的是一个可以行动的AI,而世界模型或能够填补这一空白。
对于World Labs与“元宇宙”概念的相似性,创始人解释说,元宇宙的热潮基于一些有前景的硬件,但缺乏真正的互动内容,而世界模型可以填补这一空白。
原创文章,作者:讯知在线,如若转载,请注明出处:http://m.xzxci.cn/2024/12/07/29672.shtml