2023.03.06 ArXiv精選
關(guān)注領(lǐng)域:
AIGC
3D computer vision learning
Fine-grained learning
GNN
其他
聲明
論文較多,時(shí)間有限,本專欄無(wú)法做文章的講解,只挑選出符合PaperABC研究興趣和當(dāng)前熱點(diǎn)問題相關(guān)的論文,如果你的research topic和上述內(nèi)容有關(guān),那本專欄可作為你的論文更新源或Paper reading list.

Paper list:
今日ArXiv共更新82篇.
3D 視覺
Unsupervised 3D Shape Reconstruction by Part Retrieval and Assembly
https://arxiv.org/pdf/2303.01999.pdf

來(lái)自于Brown 大學(xué) Daniel組的一篇工作,主要提出了使用檢索的思想替代曾經(jīng)的原型模型優(yōu)化,避免了生成質(zhì)量差,擬合難的問題.通過提供part library,來(lái)對(duì)相關(guān)part進(jìn)行檢索,最終組裝成3D target shapes.
ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion
https://arxiv.org/pdf/2303.01979.pdf

本文提出了首個(gè)自監(jiān)督的點(diǎn)云補(bǔ)全方法.動(dòng)機(jī)是現(xiàn)有的有監(jiān)督的補(bǔ)全方法,由于真實(shí)數(shù)據(jù)和合成數(shù)據(jù)之間gap的存在,很難在真實(shí)場(chǎng)景中使用.做法是提出一個(gè)closed-loop system 使得對(duì)輸入點(diǎn)云的不同變體都能得到相同的輸出.
AIGC
Unleashing Text-to-Image Diffusion Models for Visual Perception
https://arxiv.org/pdf/2303.02153.pdf
https://github.com/wl-zhao/VPD

來(lái)自清華的一篇文章,出發(fā)點(diǎn)非常新穎:探討如何利用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的Diffusion model來(lái)支持下游的Visual perception 任務(wù).代碼已經(jīng)開源,近期泛讀考慮更新這篇文章.
Foundation Models
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners
https://arxiv.org/pdf/2303.02151.pdf
https://github.com/ZrrSkywalker/CaFo

看圖可知,這是一篇利用多種不同能力的Foundation model來(lái)集成一個(gè)更強(qiáng)的模型.能夠聚合CLIP的圖文對(duì)比學(xué)習(xí)能力,DALLE的視覺生成能力,GPT-3的語(yǔ)言生成能力.主要的做法:首先利用GPT-3生成那個(gè)大量的文本數(shù)據(jù)提供給CLIP, 其次利用DALL-E生成圖像來(lái)進(jìn)一步擴(kuò)大圖像數(shù)據(jù).最后混合DINO和CLIP的prediction.