創(chuàng)業(yè) 3 個月估值破 10 億美元的美國斯坦福大學(xué)教授李飛飛創(chuàng)辦的 World Labs 再出新成果。當(dāng)?shù)貢r間 9 月 16 日,李飛飛團隊展示了一款名為 Marble 的模型的新成果。只需給到一張圖片或者給到一段文字提示,這款模型就能生成一個 3D 世界,用戶可以在這個 3D 世界里隨心所欲地探索,這個 3D 世界既沒有時間限制,也沒有變形和不一致性。相比上一版模型,本次版本的模型能夠生成更大的、風(fēng)格更加多樣的 3D 世界,同時還擁有更清晰的 3D 幾何圖形。一名未具名的虛幻引擎的 VR 電影制作人表示,自己很想嘗試使用本次模型來向觀眾制作電影故事和設(shè)計互動體驗項目。
對于使用本次模型所生成的 3D 世界,用戶通過借助李飛飛團隊的開源渲染庫 Spark,可以將其導(dǎo)出為高斯分布圖,并能將其用于相關(guān)的下游項目。Spark 可以將高斯分布圖無縫地集成到開源 JavaScript 庫 Three.js 之中,從而用于構(gòu)建基于 Web 的 3D 體驗,并能在臺式機、筆記本電腦、移動設(shè)備和虛擬現(xiàn)實(VR,Virtual Reality)頭顯上進行高效渲染。該模型具有較好的一致性和風(fēng)格遵行能力,故能通過組合多個 3D 世界來構(gòu)建大型 3D 世界。

圖 | 李飛飛
具體來說:
首先,本次模型所生成的 3D 世界具有更好的幾何形狀。對于視覺創(chuàng)作者來說,他們非常需要在能夠 3D 世界中進行導(dǎo)航和交互的一致性的能力。而使用此次本次模型生成的 3D 世界允許用戶在瀏覽器中零成本且自由地進行視點導(dǎo)航。相比此前的同類 3D 產(chǎn)品,本次模型所創(chuàng)建的 3D 世界不僅具有更加豐富的幾何復(fù)雜性,還可以生成更加完整的 3D 世界。需要說明的是,本次模型目前主要是能夠創(chuàng)建 3D 環(huán)境,而非創(chuàng)建孤立的物體例如人物或者動物。有用戶表示,這一成果讓其可以像電影制作人一樣在連貫一致的 3D 場景中進行規(guī)劃和拍攝。還有用戶表示,其使用兩張旅行照片和一張預(yù)先加載的圖片創(chuàng)建了一個 3D 世界,這個 3D 世界既可以放大也可以縮小,還能讓人找到圖片中“意想不到的秘密”。
其次,本次模型所生成的 3D 世界在風(fēng)格上更加多樣。生成式 AI 的好處就是能在創(chuàng)作過程中自由地迭代,正因此該模型允許將各種風(fēng)格的輸入轉(zhuǎn)化為 3D 形式。比如,可以轉(zhuǎn)化為彩色卡通風(fēng)格,也可以轉(zhuǎn)化為逼真且細節(jié)豐富的風(fēng)格。

再次,在此之前,人們很難使用 AI 生成大規(guī)模的、持久的 3D 幾何體。而對于任何需要合成、拼接、堆疊、持久編輯以及具備大內(nèi)存的工作流程來說,本次模型都能很好地滿足這些需求。鑒于本次模型能夠?qū)崿F(xiàn)風(fēng)格上的連貫性和幾何上的一致性,因此李飛飛團隊在官方博客中表示其能生成比已有案例更大的 3D 世界用例。比如,同樣是生成一個 3D 房間,李飛飛團隊在官方博客中展示了三種不同的風(fēng)格。
第一種風(fēng)格是質(zhì)樸的房間。
第二種風(fēng)格是色彩繽紛的房間。
第三種風(fēng)格是奇幻風(fēng)格的房間。
并且,這三款作品分別由三位不同用戶生成。
值得注意的是,本次模型相比上一版,所生成的 3D 世界不僅更加逼真,空間感也更強。如下圖所示:圖中的上圖是本次模型生成的 3D 房間,地毯的質(zhì)地和花紋就像來自于真實世界一樣;圖中的下圖是幾個月前的上一版模型生成的 3D 房子,其在逼真感和空間感上確實不如本次版本。

總的來說,本次模型通過提供構(gòu)建 3D 世界的能力,可以提高用戶的生產(chǎn)力和創(chuàng)造力。目前,已有用戶將該模型生成的 3D 世界集成到游戲項目和互動內(nèi)容項目中,未來等到該模型的 API 開放之后,用戶就可以實現(xiàn)無縫的 3D 世界集成。未來,李飛飛團隊將在 marble.worldlabs.ai 上推出 Marble 模型的有限訪問 Beta 預(yù)覽版,屆時用戶可以在上面查看和創(chuàng)建 3D 世界。

圖 | 李飛飛(右四)和其余三位創(chuàng)始人
據(jù)了解,含李飛飛在內(nèi)該公司有四位創(chuàng)始人,他們都是世界知名的計算機視覺專家和圖形技術(shù)專家。除了李飛飛,其余三位聯(lián)合創(chuàng)始人分別是:
聯(lián)合創(chuàng)始人賈斯汀·約翰遜(Justin Johnson)曾經(jīng)是李飛飛學(xué)生,目前他同時也任職于美國密歇根大學(xué),此前曾擔(dān)任 Meta 的高級研究員,他是實時風(fēng)格轉(zhuǎn)換技術(shù)的首創(chuàng)者,這一技術(shù)目前已被 Meta、Snap 和 Prisma 等公司使用。

圖 | 賈斯汀·約翰遜(Justin Johnson)(來源:資料圖)
聯(lián)合創(chuàng)始人克里斯托夫·拉斯納(Christoph Lassner)是可微分渲染器 Pulsar 的首創(chuàng)者,這一技術(shù)為 3D 高斯分布鋪平了道路。憑借自己在可擴展實時神經(jīng)渲染領(lǐng)域的成果,他將神經(jīng)輻射場(NeRF,Neural Radiance Fields)成功引入了虛擬現(xiàn)實和虛幻引擎。在此之前,他還曾在 Meta Reality Labs Research 和 Epic Games 工作。

圖 | 克里斯托夫·拉斯納(Christoph Lassner)(來源:資料圖)
聯(lián)合創(chuàng)始人本·米爾登霍爾(Ben Mildenhall)是神經(jīng)輻射場的共同提出者之一,神經(jīng)輻射場通過引入一種利用隱式神經(jīng)表征,來以照片級的真實感來展示和渲染復(fù)雜場景,徹底改變了 3D 場景重建以及視圖合成。在和李飛飛創(chuàng)業(yè)之前,他曾擔(dān)任谷歌的高級研究科學(xué)家。

圖 | 本·米爾登霍爾(Ben Mildenhall)(來源:資料圖)
值得注意的是,該公司官網(wǎng)目前展示了將近 30 位團隊成員的信息,其中著名華人學(xué)者謝賽寧和吳佳俊擔(dān)任該公司的顧問,此外還有 10 余位華人技術(shù)人員。

圖 | 該公司官網(wǎng)展示的團隊成員信息
作為一位 AI 名人,李飛飛的創(chuàng)業(yè)吸引了眾多知名風(fēng)投機構(gòu)和業(yè)內(nèi)大佬的支持。目前,其已獲得 A16Z、全球最大和最活躍的 VC 之一美國恩頤投資以及加拿大 AI 風(fēng)投機構(gòu) Radical Ventures 的投資。在該公司的個人投資名單上,深度學(xué)習(xí)先驅(qū)杰夫·迪恩(Jeff Dean)、諾獎得主兼圖靈獎得主杰弗里·辛頓(Geoffrey Hinton)、領(lǐng)英聯(lián)合創(chuàng)始人里德·霍夫曼(Reid Hoffman)、OpenAI 創(chuàng)始成員之一的安德烈·卡帕西(Andrej Karpathy)等知名人士的名字赫然在列。此外,其還獲得了一些其他知名人士和知名機構(gòu)的投資。

圖 | 李飛飛此次創(chuàng)業(yè)獲得眾多支持
對于創(chuàng)業(yè)使命,李飛飛團隊曾在一篇博文中表示,人類智能包含了多個方面,語言智能是其中的一種,語言智能讓人類能夠通過語言與他人進行溝通和聯(lián)系。但是,李飛飛團隊認為更具基礎(chǔ)性的是空間智能,正是空間智能讓人們能夠理解周圍的世界并與之互動。空間智能還能幫助人類將腦海中的圖像轉(zhuǎn)化為 3D 世界,從而能讓人類進行推理和發(fā)明。李飛飛團隊認為,盡管文生圖模型和文生視頻模型展示了 AI 在視覺領(lǐng)域的潛力,但是它們僅僅觸及了未來更多可能性的表面。要想超越當(dāng)前這些模型的能力,就得打造具備空間智能的 AI,這種 AI 能夠建模世界,并能針對 3D 時空中的物體、位置和交互進行推理。正因此,李飛飛創(chuàng)辦了這家公司,并將其定位為是一家致力于構(gòu)建大型世界模型的空間智能 AI 公司,旨在實現(xiàn) 3D 世界的生成、感知和交互,以便能將 AI 模型從 2D 像素平面提升至完整的 3D 世界,并能賦予這個 3D 世界以和人類自身一樣豐富的空間智能。李飛飛團隊認為,人類的空間智能進化了數(shù)千年之久,而在這個飛速發(fā)展的時代,將有希望在短期內(nèi)賦予 AI 以空間智能。目前,她和團隊主要聚焦于生成不受限制的 3D 世界,即創(chuàng)建和編輯包含物理、語義和控制的虛擬空間,從而能為開發(fā)者、工程師和藝術(shù)工作者帶來更多創(chuàng)意。即使對于非專業(yè)用戶,該公司的產(chǎn)品也能讓他們想象并創(chuàng)造專屬于自己的世界。

圖 | 李飛飛 X 推文
2024 年,對于李飛飛來說這一個很有意義的年份。這一年,她休了長假;這一年,她出版了自己的自傳圖書,書的名字叫做《我看見的世界》,書中既介紹了她的個人成長史,也介紹了她眼中的 AI 發(fā)展史,“世界”既是書名中的一個詞語,也是她在書中濃墨重寫的一個篇章,她在書中寫道“相比現(xiàn)在充滿感官刺激和智力活動的世界,5.43 億年前的生命形態(tài)極其原始,近乎抽象,用蘇格拉底的話說,它們完全生活在一種‘未經(jīng)審視’的狀態(tài)中。那個世界完全不被看到,海水深邃而本能粗淺”;這一年,她也創(chuàng)辦了 World Labs 這家公司,公司名字中同樣包含“世界(World)”這一詞語。
在她對于公司的發(fā)展構(gòu)想上,既有前沿技術(shù)方面的考慮,也有哲學(xué)層面的斟酌,并賦予了這家公司以不同的氣質(zhì)。當(dāng)然,創(chuàng)業(yè)既要形而上也要形而下,正因此李飛飛團隊在本次新成果的博客文章里多次引用了用戶使用感想,想必也是為公司的進一步商業(yè)化做鋪墊,畢竟等著她“交作業(yè)”的投資人并不算少。