NVIDIA Research 的兩篇論文,一篇關於探索基於擴散的生成式人工智慧 (AI) 模型,另一篇則是關於訓練通用式 AI 代理,因其對 AI 和機器學習領域的貢獻而榮獲 NeurIPS 2022 獎項。
|
NVIDIA 憑藉人工智慧研究榮獲 NeurIPS 獎項 |
NeurIPS 大會本週在美國新奧爾良 (New Orleans) 舉行實體活動,而下週將於線上進行舉辦,而 NVIDIA 的作者群將參加其中超過 60 場的演講、研究海報發布及研討會活動。
產生圖像、文字或影片的合成資料,是貫穿 NVIDIA 多篇論文的一大關鍵主題。其他主題還包括強化學習、資料收集與擴充、天氣模型與聯合學習。
NVIDIA 學習與感知研究部門副總裁 Jan Kautz 表示:「AI 是一項極其重要的技術,NVIDIA 從生成式 AI 到自主式 AI 代理等各個領域,都取得快速的進展。此外,我們在生成式 AI 方面,不單推進我們對基礎模型的理論有更進一步的理解,還產出了實際貢獻,這將讓人們能夠更為輕鬆地建立逼真的虛擬世界以及模擬內容。」
重新構思基於擴散的生成模型設計
基於擴散的模型已經成為生成式 AI 的一項突破性技術。NVIDIA 的研究人員因在分析擴散模型設計的工作中,針對顯著提高這些模型的效率及品質提出改進措施,而榮獲 Main Track 傑出論文獎。
該論文將擴散模型的組件拆解為模組化設計,幫助開發人員找出調整的方式,以提高整個模型效能的過程。研究人員表示,經過他們的調整之後,能夠在評估 AI 生成影像品質的指標方面獲得創紀錄的成果。
在基於《Minecraft》的模擬套件中,訓練通用式 AI 代理
雖然研究人員長期以來,一直使用《星際爭霸》、《Dota》和圍棋等電玩遊戲環境來訓練自主式 AI 代理,但這些代理通常只擅長執行少數的任務。因此,NVIDIA 的研究人員改為使用全球最廣受歡迎的遊戲《Minecraft》,為通用式 AI 代理開發了一個具擴充性的訓練框架,使得這個代理能夠順利執行各種開放式任務。
這個名為 MineDojo 的框架,使得 AI 代理能夠利用一個由七千多個維基百科頁面、數百萬個 Reddit 討論串以及 30 萬個小時的遊戲紀錄所組成的龐大線上資料庫,學習《Minecraft》的靈活玩法。這個研究項目榮獲 NeurIPS 委員會所頒發的傑出資料集和基準論文獎。
MineDojo 框架背後的研究人員,創建了一個名為 MineCLIP 的大型基礎模型,用於驗證概念。遊戲玩家通常會在逐字稿中敘述畫面中的動作,而這個模型學會了將 YouTube 上,《Minecraft》的遊戲畫面片段與影片逐字稿串連起來。該團隊利用 MineCLIP 模型,能夠訓練一個強化學習代理在無任何人為介入的情況下,於《Minecraft》中執行多項任務。
創建複雜的 3D 形狀以妝點虛擬世界
同樣在 NeurIPS 大會中展出的,還有生成式 AI 模型 GET3D,它可以根據用於訓練它的 2D 圖片類別,像是建築物、汽車或動物,立即合成出 3D 形狀。AI 生成的物體具有極為寫實的紋理和複雜的幾何細節,且以時下受歡迎的繪圖軟體應用中使用的三角形網格來建立。這麼一來,用戶便能輕鬆地將這些形狀匯入 3D 渲染器以及遊戲引擎,以便進行後續的編輯工作。
GET3D 之所以得名,是因為它能夠生成顯式紋理 3D 網格 (Generate Explicit Textured 3D meshes),研究人員在 NVIDIA A100 Tensor 核心 GPU 上使用從不同相機角度拍攝,約 100 萬張 3D 形狀的 2D 圖片進行訓練。在單個 NVIDIA GPU 上運行推論時,該模型每秒可生成大約 20 個物體。
AI 生成的物體可用於放置在以 3D 方式呈現的建築物、戶外空間或整個城市內,這些是為遊戲、機器人、建築和社群媒體等產業設計的數位空間。
控制材料和照明,改進逆向渲染工作流程
NVIDIA Research 在六月於新奧爾良 (New Orleans) 召開的最新一屆 CVPR 大會上,發表了逆向渲染方法 3D MoMa。它讓開發人員能夠創建由三個不同部分所組成的 3D 物體:3D 網格模型、覆蓋在模型上的材料及照明。
該團隊後續在拆解 3D 物體的材料和照明方面更取得了重大的進展,這反過來又讓創作者在物體於場景中移動時,以交換材料或調整照明的方式編輯 AI 生成形狀的能力。這項工作仰賴於利用 NVIDIA RTX GPU 的加速光線追蹤技術,為模型製作更加寫實的著色效果。
提高語言模型生成文字的事實準確性
在 NeurIPS 發表的另一篇論文研究中,展示了預先訓練語言模型的一大挑戰:AI 生成文字的事實準確性。
為生成開放式文字而訓練的語言模型,通常會產生出內有不符合事實資訊的文字,原因在於 AI 只是在單字之間建立起關聯性,以預測字句裡接下來的內容。NVIDIA 的研究人員在這篇論文中,提出了克服這項限制的技術,對於將這類模型部署到實際應用程式前來說是非常必要的。
研究人員建立了第一個自動基準,來衡量用於開放式文字生成語言模型的事實準確性,並發現有著數十億個參數的大型語言模型,比起小型語言模型所生成的文字,其事實準確性更高。該團隊提出了事實增強訓練這項新技術,再加上新式採樣演算法,共同幫助訓練語言模型生成準確的文字,並且證明事實錯誤率從 33% 降至 15% 左右。