天天短訊!英偉達(dá)饞哭建模師!投喂隨意視頻,直出3D模型
英偉達(dá)一出手,3D建模師都饞哭了。
(資料圖片)
現(xiàn)在,制作一個(gè)紋理超細(xì)致的大衛(wèi)3D模型,需要幾步?
剛剛靠著AI,市值一度飚破萬(wàn)億美元的英偉達(dá)給出最新答案:
給AI投喂一段普通視頻,它就能自動(dòng)搞定。
不僅雕塑的每一個(gè)褶皺都能拿捏住,更為復(fù)雜的建筑場(chǎng)景3D重建,同樣靠一個(gè)視頻就能解決:
連深度都能直接估算出來(lái)。
這個(gè)新AI名叫Neuralangelo,來(lái)自英偉達(dá)研究院和約翰霍普金斯大學(xué)。
論文剛一發(fā)表就吸引了全場(chǎng)網(wǎng)友的目光,讓人直呼:這是直接創(chuàng)造新世界的節(jié)奏。
甚至再一次拉動(dòng)了顯卡銷量【狗頭】:
目前,相關(guān)論文已經(jīng)入選CVPR 2023。更多技術(shù)細(xì)節(jié),我們一起接著往下看~
無(wú)需深度數(shù)據(jù),直出3D結(jié)構(gòu)
這篇論文采用的架構(gòu)名叫Neuralangelo,一個(gè)聽起來(lái)有點(diǎn)像著名雕塑家米開朗基羅(Michelangelo)的名字。
具體來(lái)說(shuō),Neuralangelo核心采用了兩個(gè)技術(shù)。
一個(gè)是基于SDF的神經(jīng)渲染重建。
其中,SDF即符號(hào)距離函數(shù)(Signed Distance Function),它的本質(zhì)就是將3D模型劃出一個(gè)表面,然后用數(shù)值表示每個(gè)點(diǎn)距離模型的實(shí)際距離,負(fù)數(shù)指點(diǎn)在表面內(nèi)側(cè),正數(shù)指點(diǎn)在表面外側(cè):
基于SDF的神經(jīng)渲染技術(shù),則是采用神經(jīng)網(wǎng)絡(luò)(如MLP)對(duì)SDF進(jìn)行編碼,來(lái)對(duì)物體表面進(jìn)行一個(gè)近似還原。
另一個(gè)則是多分辨率哈希編碼,用于降低計(jì)算量。
多分辨率哈希編碼是一種特殊的編碼方式,能用很小的網(wǎng)絡(luò)降低計(jì)算量,同時(shí)確保生成的質(zhì)量不降低。
其中,多分辨率哈希表的value,對(duì)應(yīng)由隨機(jī)梯度下降優(yōu)化得到特征向量。
操作流程上,則分為兩步。
首先,基于神經(jīng)渲染重建方法,計(jì)算出視頻中3D結(jié)構(gòu)的“粗糙表面”。
值得注意的是,這里采用了數(shù)值梯度而不是解析梯度,這樣基于SDF生成算法做出來(lái)的3D模型表面更加平滑,不會(huì)出現(xiàn)凹凸不平的狀態(tài):
論文還額外對(duì)比了一下解析梯度和數(shù)值梯度的狀態(tài),從圖中來(lái)看,數(shù)值梯度整體上能取得更平滑的建筑效果:
隨后,就是逐漸減小數(shù)值梯度的步長(zhǎng)(step size)、采用分辨率更高的哈希表,一步一步提升模型的精細(xì)度,還原建筑的細(xì)節(jié):
最后再對(duì)生成的效果進(jìn)行優(yōu)化,就得到了還原出來(lái)的圖像。
包含MLP和哈希編碼在內(nèi),整個(gè)網(wǎng)絡(luò)采用端到端的方式進(jìn)行訓(xùn)練。
測(cè)試效果如何?
研究人員采用了DTU和Tanks and Temples兩個(gè)數(shù)據(jù)集對(duì)Neuralangelo進(jìn)行測(cè)試。
DTU數(shù)據(jù)集包含128個(gè)場(chǎng)景,這篇論文具體采用了其中的15個(gè)場(chǎng)景,每個(gè)場(chǎng)景包含49~64張由機(jī)器人拍攝的RGB圖像。
隨后,還采用了Tanks and Temples中6個(gè)場(chǎng)景的263~1107張RGB相機(jī)拍攝圖像,真實(shí)數(shù)據(jù)則由LiDAR傳感器獲得。
Tanks and Temples包含中級(jí)和高級(jí)兩類數(shù)據(jù)集。
其中,中級(jí)數(shù)據(jù)集包含雕塑、大型車輛和住宅規(guī)模的建筑;高級(jí)數(shù)據(jù)集則包含從內(nèi)部成像的大型室內(nèi)場(chǎng)景、以及具有復(fù)雜幾何布局和相機(jī)軌跡的大型室外場(chǎng)景:
具體到生成細(xì)節(jié)上,Neuralangelo相比NeuS和NeuralWarp等“前SOTA”模型,在DTU數(shù)據(jù)集上展現(xiàn)出了非常準(zhǔn)確的3D細(xì)節(jié)生成:
而在Tanks and Temples數(shù)據(jù)集上,Neuralangelo也同樣展現(xiàn)出了不錯(cuò)的還原效果:
在F1-Score評(píng)估和圖像質(zhì)量PSNR評(píng)估中,Neuralangelo基本上全部取得了最好的效果:
華人一作
這篇研究的作者來(lái)自英偉達(dá)和約翰霍普金斯大學(xué)(Johns Hopkins University)。
論文一作李趙碩(Zhaoshuo Li),本科畢業(yè)于不列顛哥倫比亞大學(xué),目前是約翰霍普金斯大學(xué)的博士生,師從Mathias Unberath和Russell Taylor。
Russell Taylor是醫(yī)療機(jī)器人領(lǐng)域泰斗,曾主持研發(fā)全球首臺(tái)骨科手術(shù)機(jī)器人ROBDOC。
而李趙碩本人,本科專業(yè)也是機(jī)器人工程,如今算是小小跨界,研究重點(diǎn)在圖像重建3D結(jié)構(gòu)上。
Neuralangelo是李趙碩在英偉達(dá)實(shí)習(xí)期間的工作。此前,他還曾在Meta的Reality Labs實(shí)習(xí)(就是小扎All in 元宇宙的核心部門)。
本文作者:魚羊 蕭簫 發(fā)自 凹非寺,來(lái)源:量子位,原文標(biāo)題:《英偉達(dá)饞哭建模師!投喂隨意視頻,直出3D模型,華人一作登CVPR 2023》
風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: