更新時(shí)間:2024-09-10 07:06:31作者:佚名
今天,官方公布了12篇獲獎(jiǎng)?wù)撐暮蜻x名單。(占接受論文的0.51%和提交論文的0.13%)
根據(jù)官網(wǎng)統(tǒng)計(jì),本屆 CVPR 共接受論文 9155 篇,其中錄取 2359 篇,錄取率為 25.8%。
其中 235 篇經(jīng)過(guò)評(píng)級(jí)。(占已接受論文的 10% 和已提交論文的 2.6%)
1. 通過(guò)自我頭部姿勢(shì)實(shí)現(xiàn)自我身體姿勢(shì)
作者:Li, Karen Liu, Wu
院校:斯坦福大學(xué)
論文地址:
在本文中,研究人員提出了一種新方法,通過(guò)自我頭部姿勢(shì)估計(jì)來(lái)進(jìn)行自我身體姿勢(shì)估計(jì)(Ego-Body Pose ),將問(wèn)題分解為以頭部運(yùn)動(dòng)作為中間表示連接的兩個(gè)階段。首先,結(jié)合SLAM和一種學(xué)習(xí)方法來(lái)估計(jì)準(zhǔn)確的頭部運(yùn)動(dòng)。
隨后薩里大學(xué),利用條件擴(kuò)散,使用估計(jì)的頭部姿勢(shì)作為輸入,生成多個(gè)合理的全身運(yùn)動(dòng)。頭部和身體姿勢(shì)的分離消除了對(duì)以自我為中心的視頻和 3D 人體運(yùn)動(dòng)的配對(duì)訓(xùn)練數(shù)據(jù)集的需求,使研究人員能夠分別利用大規(guī)模以自我為中心的視頻數(shù)據(jù)集和動(dòng)作捕捉數(shù)據(jù)集。
此外,為了對(duì)該系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試,研究人員開(kāi)發(fā)了一個(gè)合成數(shù)據(jù)集 AMASS-Ego-Syn (ARES),其中包括成對(duì)的自我中心視頻和人體動(dòng)作。在 ARES 和真實(shí)數(shù)據(jù)上,研究人員的模型表現(xiàn)明顯優(yōu)于目前最先進(jìn)的方法。
2. 3D 和
作者:張希宇、楊嘉琪、張、張
3. :大型 3D ,和
作者:吳童、張、付曉、王雨馨、任、潘亮、吳、楊雷、王嘉琪、陳茜、林大華、劉紫薇
機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)、商湯科技、香港科技大學(xué)、南洋理工大學(xué)
論文地址:
由于缺乏大規(guī)模真實(shí)掃描 3D 數(shù)據(jù)庫(kù),3D 對(duì)象建模的最新進(jìn)展都依賴(lài)于合成數(shù)據(jù)集。
為了推動(dòng)現(xiàn)實(shí)世界 3D 感知、重建和生成的最新技術(shù),我們提出了一個(gè)大詞匯量的 3D 對(duì)象數(shù)據(jù)集,其中包含大量高質(zhì)量的真實(shí)掃描 3D 對(duì)象。
它有幾個(gè)吸引人的特點(diǎn):1)數(shù)據(jù)量非常大:包括190個(gè)日常類(lèi)別的6000個(gè)掃描物體,與流行的2D數(shù)據(jù)集(如和LVIS)共享共同類(lèi)別,有利于追求通用的3D表示。2)注釋豐富:每個(gè)3D物體都由2D和3D傳感器捕獲,提供紋理網(wǎng)格、點(diǎn)云、多視圖渲染圖像和多個(gè)真實(shí)捕獲的視頻。3)逼真的掃描:專(zhuān)業(yè)掃描儀支持高質(zhì)量的物體掃描,形狀精確,外觀逼真。
利用提供的廣闊探索空間,研究人員精心設(shè)立了四個(gè)評(píng)估基準(zhǔn):a) 強(qiáng)大的 3D 感知、b) 新穎的視圖合成、c) 神經(jīng)表面重建和 d) 3D 物體生成。
4. :for Field 上的
作者:陳,,Peter,
機(jī)構(gòu):谷歌、西蒙弗雷澤大學(xué)、多倫多大學(xué)
論文地址:
神經(jīng)輻射場(chǎng) (NeRF) 在從新視角合成 3D 場(chǎng)景圖像方面表現(xiàn)出了令人印象深刻的能力。然而,它們依賴(lài)于專(zhuān)有的體積渲染算法,而這些算法與廣泛部署的圖形硬件的能力不匹配。
本文介紹了一種基于紋理多邊形的新型 NeRF 表示,可用于使用標(biāo)準(zhǔn)渲染管道高效合成新圖像。NeRF 表示為一組多邊形,其紋理表示二進(jìn)制不透明度和特征向量。使用 Z 緩沖區(qū)對(duì)多邊形進(jìn)行傳統(tǒng)渲染會(huì)產(chǎn)生每個(gè)像素都具有特征的圖像,這些特征由片段著色器中運(yùn)行的小型、視圖相關(guān)的 MLP 進(jìn)行解釋?zhuān)援a(chǎn)生最終的像素顏色。
這種方法使得 NeRF 能夠使用傳統(tǒng)的多邊形光柵化管道進(jìn)行渲染,從而提供大量像素級(jí)并行性并實(shí)現(xiàn)足以在包括移動(dòng)電話(huà)在內(nèi)的各種計(jì)算平臺(tái)上進(jìn)行交互使用的幀速率。
5. :基于圖像
作者:Li, Wang, Cole, Noah
組織:、康奈爾科技
論文地址:
在本文中,研究人員提出了一種基于體積圖像的渲染框架,該框架通過(guò)以場(chǎng)景運(yùn)動(dòng)感知的方式聚合附近的視點(diǎn)特征來(lái)合成新的視點(diǎn)。
研究人員的系統(tǒng)保留了以前方法的優(yōu)勢(shì),即能夠模擬復(fù)雜場(chǎng)景和視點(diǎn)相關(guān)效果,但也能夠從具有復(fù)雜場(chǎng)景動(dòng)態(tài)和不受約束的相機(jī)軌跡的長(zhǎng)視頻中合成照片般逼真的新視點(diǎn)。
結(jié)果表明,新方法在動(dòng)態(tài)場(chǎng)景數(shù)據(jù)集上比 SOTA 有顯著改進(jìn)。此外,它還可以應(yīng)用于具有挑戰(zhàn)性的體育視頻,而之前的方法無(wú)法在這些視頻中產(chǎn)生高質(zhì)量的渲染。
6.-
作者:胡一涵、楊、陳力、李克宇、司馬、朱、柴思齊、杜、林、王、盧樂(lè)偉、賈、劉強(qiáng)、戴、喬宇、李
單位:上海市人工智能實(shí)驗(yàn)室自動(dòng)駕駛團(tuán)隊(duì)、武漢大學(xué)、商湯科技
論文地址:
在本文中,研究人員提出了一種新的綜合框架——統(tǒng)一自動(dòng)駕駛(UniAD)。通過(guò)將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中,該框架可以利用每個(gè)模塊的優(yōu)勢(shì),并從全局視角為代理交互提供互補(bǔ)的功能抽象。任務(wù)通過(guò)統(tǒng)一的查詢(xún)接口進(jìn)行通信,從而促進(jìn)彼此的規(guī)劃。
研究人員在具有挑戰(zhàn)性的基準(zhǔn)上實(shí)例化了 UniAD。消融實(shí)驗(yàn)表明,新方法在各方面均顯著優(yōu)于之前的 SOTA。
7. :精細(xì)文本轉(zhuǎn)圖像 -
作者:Ruiz、Li、Varun、Yael、Kfir
組織:、波士頓大學(xué)
論文地址:
在這項(xiàng)工作中,研究人員提出了一種“個(gè)性化”文本到圖像擴(kuò)散模型的新方法。
只需輸入幾張主題圖片,預(yù)先訓(xùn)練好的文本轉(zhuǎn)圖像模型就可以進(jìn)行微調(diào),學(xué)習(xí)將唯一標(biāo)識(shí)符綁定到特定主題。一旦主題嵌入到模型的輸出域中,唯一標(biāo)識(shí)符便可用于合成該主題在不同場(chǎng)景中的新照片級(jí)逼真圖像。
通過(guò)利用模型中嵌入的語(yǔ)義先驗(yàn)以及新穎的自生成的類(lèi)特定先驗(yàn)保留損失,新方法能夠合成參考圖像中不存在的各種場(chǎng)景、姿勢(shì)、視點(diǎn)和光照條件下的主體。
8. 關(guān)于
作者:孟羅賓、高瑞琪、Ermon、Ho、Tim
機(jī)構(gòu):斯坦福大學(xué)、AI、慕尼黑大學(xué)、谷歌
論文地址:
沒(méi)有分類(lèi)器指導(dǎo)的擴(kuò)散模型的一個(gè)缺點(diǎn)是它們?cè)谕评頃r(shí)計(jì)算成本很高,因?yàn)樗鼈冃枰u(píng)估兩個(gè)擴(kuò)散模型(一個(gè)是類(lèi)條件的,一個(gè)是無(wú)條件的),數(shù)十到數(shù)百次。
為了解決這一限制,研究人員提出了一種方法,將沒(méi)有分類(lèi)器指導(dǎo)的擴(kuò)散模型細(xì)化為快速采樣模型。
給定一個(gè)沒(méi)有分類(lèi)器指導(dǎo)的預(yù)訓(xùn)練模型,我們首先學(xué)習(xí)一個(gè)單一模型來(lái)匹配組合條件和非條件模型的輸出,然后逐漸將該模型細(xì)化為需要更少采樣步驟的擴(kuò)散模型。
9. :
作者:古普塔,
機(jī)構(gòu):艾倫人工智能研究所
論文地址:
研究人員提出了一種神經(jīng)符號(hào)方法,根據(jù)自然語(yǔ)言指令解決復(fù)雜和組合的視覺(jué)任務(wù)。
我們利用大型語(yǔ)言模型的非文本學(xué)習(xí)能力來(lái)生成類(lèi)似于的模塊化程序,然后執(zhí)行這些程序以獲得解決方案和全面、可解釋的理由。
生成的程序的每一行都可以調(diào)用幾個(gè)現(xiàn)成的 CV 模型、圖像處理子程序或函數(shù)之一來(lái)產(chǎn)生中間輸出。
研究人員在四項(xiàng)不同的任務(wù)上展示了它們的靈活性:組合視覺(jué)問(wèn)答、圖像對(duì)的零樣本推理、事實(shí)知識(shí)對(duì)象標(biāo)記和語(yǔ)言引導(dǎo)的圖像編輯。
研究人員表示,像這樣的神經(jīng)符號(hào)方法是一種令人興奮的途徑,可以輕松有效地?cái)U(kuò)展人工智能系統(tǒng)的覆蓋范圍,以服務(wù)于人們可能想要執(zhí)行的長(zhǎng)期復(fù)雜任務(wù)。
10. 人類(lèi)能做什么?
作者: Nath、Ayan Kumar、Sain、Koley、Tao Hong、宋一哲
院校:薩里大學(xué)
論文地址:
素描具有極強(qiáng)的表現(xiàn)力,能夠捕捉主觀且精細(xì)的視覺(jué)線索。然而,目前對(duì)素描這種固有屬性的探索僅限于圖像檢索領(lǐng)域。
在論文中,研究人員試圖利用草圖的表現(xiàn)力,而不是物體檢測(cè)的基本視覺(jué)任務(wù)。
研究人員首先獨(dú)立提示了SBIR模型的素描和照片分支,基于CLIP的泛化能力,構(gòu)建了高度可泛化的照片編碼器。
隨后,研究人員設(shè)計(jì)了一個(gè)訓(xùn)練范例,以使編碼器適應(yīng)物體檢測(cè),使得檢測(cè)到的邊界區(qū)域的嵌入與 SBIR 草圖和照片的嵌入對(duì)齊。
通過(guò)在標(biāo)準(zhǔn)對(duì)象檢測(cè)數(shù)據(jù)集(例如 -VOC 和 MS-COCO)上評(píng)估最新框架,結(jié)果表明它們?cè)诹銟颖驹O(shè)置中優(yōu)于監(jiān)督(SOD)和弱監(jiān)督對(duì)象檢測(cè)器(WSOD)。
11. 事件數(shù)據(jù)
作者:Nico Fang
機(jī)構(gòu):蘇黎世大學(xué)
論文地址:
現(xiàn)有的事件相機(jī)特征跟蹤方法要么是手工制作的,要么是從第一原理推導(dǎo)出來(lái)的,但需要大量的參數(shù)調(diào)整,對(duì)噪聲敏感,并且由于未建模的影響而無(wú)法推廣到不同的場(chǎng)景。
為了解決這些缺陷薩里大學(xué),研究人員引入了第一個(gè)數(shù)據(jù)驅(qū)動(dòng)的基于事件的相機(jī)特征跟蹤器,該跟蹤器利用低延遲事件來(lái)跟蹤在灰度幀中檢測(cè)到的特征。
通過(guò)無(wú)縫地將合成數(shù)據(jù)直接轉(zhuǎn)換為真實(shí)數(shù)據(jù),新的數(shù)據(jù)驅(qū)動(dòng)跟蹤器在相對(duì)特征年齡方面的表現(xiàn)比現(xiàn)有方法高出 120%,同時(shí)還實(shí)現(xiàn)了最低的延遲。通過(guò)使用新的自監(jiān)督策略將跟蹤器調(diào)整到真實(shí)數(shù)據(jù),這一性能差距進(jìn)一步擴(kuò)大到 130%。
12.
作者:Azim, Irina, Yury, Dehua Song,
機(jī)構(gòu):華為諾亞方舟實(shí)驗(yàn)室
論文地址:
研究人員引入了一個(gè)新的深度神經(jīng)網(wǎng)絡(luò)家族。研究人員不再使用傳統(tǒng)的 N 維權(quán)重張量來(lái)表示網(wǎng)絡(luò)層,而是使用沿濾波器和通道維度的連續(xù)層表示。研究人員將這種網(wǎng)絡(luò)稱(chēng)為積分神經(jīng)網(wǎng)絡(luò) (INN)。
具體來(lái)說(shuō),INN 的權(quán)重表示為在 N 維超立方體上定義的連續(xù)函數(shù),而每層輸入的離散變換相應(yīng)地由連續(xù)積分運(yùn)算取代。
在推理過(guò)程中貝語(yǔ)網(wǎng)校,可以通過(guò)數(shù)值積分和求積將連續(xù)層轉(zhuǎn)換為傳統(tǒng)的張量表示。這種表示允許網(wǎng)絡(luò)以任意大小和各種離散化間隔離散化積分核。
該方法可用于直接在邊緣設(shè)備上修剪模型,無(wú)需任何微調(diào),即使在高修剪率下也只會(huì)造成很小的性能損失。
為了評(píng)估所提出方法的實(shí)際效果,研究人員使用各種神經(jīng)網(wǎng)絡(luò)架構(gòu)在多項(xiàng)任務(wù)上進(jìn)行了實(shí)驗(yàn)。
報(bào)告的結(jié)果表明,所提出的 INN 實(shí)現(xiàn)了與傳統(tǒng)離散 INN 相同的性能,同時(shí)能夠在高修剪率(高達(dá) 30%)下保持大致相同的性能(準(zhǔn)確度損失 2%)而無(wú)需微調(diào),而傳統(tǒng)修剪方法在相同條件下會(huì)遭受 65% 的準(zhǔn)確度損失。
參考:
2024-09-09 21:06
2024-09-09 17:09