空间智能突破:李飞飞首个模型出炉,一张图生成3D场景
作为人工智能领域最具影响力的女性和华人之一,斯坦福大学教授李飞飞近日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。
开创性技术,交互式3D场景
虽然已有众多AI工具可以将照片转换为3D模型和场景,但World Labs声称,他们所生成场景的独特之处在于它们具有交互性,而且是可修改的。
“(我们的技术)能让你走进任何一张图像,并以3D的形式对其进行探索。”World Labs在一篇博客文章中写道。
纽约大学助理教授谢赛宁表示,“想象是生成式的,控制是3D的。”
实时渲染,自由探索
在World Labs网站的演示中,这些由AI生成的场景均通过浏览器实时渲染而成。用户可以使用箭头键或键盘(WASD)键移动,然后单击并拖动鼠标实现交互,从而自由探索场景。
具体而言,该AI工具配备了可操控的滑块来调节模拟景深(DoF)与模拟推拉变焦(dolly zoom)。当使用者将景深效果调至越强时,背景中的物体便会越发模糊,为整个视觉体验增添了更多层次感与真实感。
多维交互,打造真实感
此外,该工具也支持调整摄像机的位置和视野、更改对象颜色,通过3D场景结构创建聚光灯特效、创建自动运行的动态效果等交互方式。
World Labs指出,大多数生成模型预测的是像素,而预测3D场景则具有许多优势。例如,场景更加持久,一旦生成,它就会一直存在。即使把视线移开然后又回来,场景也不会改变。此外,用户可以实时控制、实时移动场景。用户可以仔细观察花朵的细节,也可以偷看角落里露出的物体。
数字世界新范式
“大多数生成式AI工具生成的都是图像或视频等二维内容,”World Labs表示,“而生成三维内容能够提升操控性和一致性。这将改变我们制作电影、游戏、模拟器以及物理世界其他数字呈现形式的方式。”
目前,World Labs已向公众开放了Waitlist候补名单申请,但部分创作者已受邀将其整合到了现有的工作流程中。例如,内容创作者埃里克·索洛里奥发现,这项技术完美地填补了他创作过程中的空白,可以“让角色布置和精确的镜头调度变得更容易”。
未来愿景,空间智能
在李飞飞的构想里,“所有空间智能的生物所具备的行动能力,是与生俱来的。因为,它能够将感知与行动进行关联。”
她曾表示,“如果想让AI超越其自身当前的能力,我们需要的是,不仅仅能够看到、会说话的AI,而且是一个可以行动的AI。”
尽管如此,《连线》杂志的记者曾指出,World Labs的愿景与此前迅速消退的热炒概念“元宇宙”有些相似。对此,World Labs的创始人则解释说,元宇宙之所以短暂,是因为当时的热潮基于一些有前景的硬件,但缺乏真正的互动内容,而他们认为,世界模型或能够填补这一空白。
团队实力,估值超十亿
World Labs于今年1月成立,由李飞飞和贾斯汀·约翰逊、克里斯托夫·拉斯纳和本·米尔登霍尔联合创立。三人均在AI领域拥有丰富的经验。
据Tech Crunch报道,World Labs已从包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在内的投资者处筹集了2.3亿美元的投资,现公司估值超过10亿美元,计划在2025年推出首款正式产品。
总部位于旧金山的World Labs目前拥有20名员工。其突破性的技术,预示着空间智能领域的新时代即将到来。
原创文章,作者:讯知在线,如若转载,请注明出处:http://m.xzxci.cn/2024/12/07/30090.shtml