CVPR'21 Talk預(yù)告+在線交流 | Oral一作面對面 應(yīng)用側(cè)專場

?由將門-TechBeat人工智能社區(qū)所主辦的「CVPR 2021 群星閃耀·云際會」現(xiàn)已進(jìn)行過半,上周末來自字節(jié)、清華、港大、港中文等七個Lab專場的在線直播交流已火熱結(jié)束。本周繼續(xù)為你帶來13位Oral一作的分享!
?北京時間6月22日今晚8點,九位Oral一作同學(xué)的Talk合輯(應(yīng)用側(cè))將準(zhǔn)時在TechBeat人工智能社區(qū)開播!屆時來自加州大學(xué)圣地亞哥分校、康奈爾大學(xué)、香港中文大學(xué)、美團等九位同學(xué)將一起分享他們的工作內(nèi)容,帶領(lǐng)大家完成一場頭腦、能力和眼界的巔峰碰撞。
6月27日(周日)上午10點,九位嘉賓將與大家相約騰訊會議直播交流,更有阿德萊德大學(xué)在讀博士、劍橋大學(xué)準(zhǔn)博后劉伊凡作為空降特邀主持人,帶領(lǐng)大家一起與學(xué)術(shù)新星0距離對話,歡迎踴躍報名!直播活動主要為在線Q&A,沒有回放視頻,請想交流的小伙伴準(zhǔn)時參加哦!
(嘉賓工作介紹及報名方式見下文)
Oral一作面對面·報名通道



特邀主持人
劉伊凡
阿德萊德大學(xué)在讀博士、劍橋大學(xué)準(zhǔn)博后
劉伊凡,阿德萊德大學(xué)三年級博士生,導(dǎo)師是沈春華老師。本碩畢業(yè)于北京航空航天大學(xué)。8月將入職劍橋大學(xué)做博后。研究領(lǐng)域是語義分割,知識蒸餾,生成對抗網(wǎng)絡(luò)等。論文曾發(fā)表于TPAMI,ICCV,CVPR,ECCV等期刊和會議。
個人主頁:
https://irfanicmll.github.io
論文信息&嘉賓介紹
①
基于局部隱式圖片函數(shù)的連續(xù)圖片表示學(xué)習(xí)

在這篇論文中,我們提出一種Local Implicit Image Function (LIIF)的連續(xù)圖片表示,以圖片中的一個坐標(biāo)作為輸入,RGB值作為輸出。在連續(xù)的坐標(biāo)表示下LIIF可以表示成任意分辨率。我們用超分辨率的目標(biāo)來訓(xùn)練一個編碼器來生成圖片的LIIF表示。
論文鏈接:https://arxiv.org/abs/2012.09161
項目鏈接:https://yinboc.github.io/liif/
陳胤伯 |?美國加州大學(xué)圣地亞哥分校在讀博士生
陳胤伯,UCSD博士一年級在讀,目前研究方向為表征學(xué)習(xí)。本科畢業(yè)于清華大學(xué)交叉信息研究院。
個人主頁:
https://yinboc.github.io
②
通過在空間劃分中魯棒的神經(jīng)路

針對室內(nèi)動態(tài)變化場景中的相機重定位任務(wù),從建模和學(xué)習(xí)場景幾何結(jié)構(gòu)出發(fā),探索機器學(xué)習(xí)模型對三維空間的理解和記憶。通過在場景空間層次劃分中學(xué)習(xí)路由,記憶場景靜態(tài)信息的同時感知場景動態(tài)信息,從而有效應(yīng)對動態(tài)干擾,實現(xiàn)魯棒的相機位姿預(yù)測。
論文鏈接:https://arxiv.org/abs/2012.04746
項目鏈接:https://github.com/siyandong/NeuralRouting
董思言 |?山東大學(xué)在讀博士生董思言,山東大學(xué)博士學(xué)生,導(dǎo)師陳寶權(quán)教授。研究方向為計算機圖形學(xué),計算機視覺和機器人,興趣主要集中在三維重建和相機定位。2018年9月至今訪問北京大學(xué)前沿計算研究中心,同期作為研究實習(xí)生參與北京電影學(xué)院未來影像高精尖創(chuàng)新中心的科研項目。作為第一作者在SIGGRAPH、CVPR等國際頂級會議發(fā)表論文。個人主頁:
https://siyandong.github.io/
③
無視頻標(biāo)注信息下的實例跟蹤

傳統(tǒng)的視頻實例分割往往會面臨兩個挑戰(zhàn):1)大規(guī)模的數(shù)據(jù)標(biāo)注,如YouTube-VOS; 2) two-stage方法所帶來的復(fù)雜度。為解決這兩個問題,我們提出了一種新的semi-supervised learning的框架,使我們可以僅僅通過標(biāo)注的圖片數(shù)據(jù)集和大量未標(biāo)注的視頻實現(xiàn)對視頻中物體的分割與追蹤。
論文鏈接:https://arxiv.org/pdf/2104.00287.pdf
項目鏈接:https://oasisyang.github.io/projects/semi-track/index.html
付旸?|?加州大學(xué)圣地亞哥分校在讀博士生付旸,UCSD ECE Ph.D 導(dǎo)師 Xiaolong Wang; M.S.畢業(yè)于UIUC ECE專業(yè) 導(dǎo)師 Thomas S. Huang; 主要研究方向計算機視覺中的視頻物體跟蹤與分割,行人重識別。曾多次在AAAI, ICCV, CVPR等會議發(fā)表文章。
個人主頁:https://oasisyang.github.io/
④
Intentonomy:人類意圖理解和識別

圖片可以傳遞比圖片內(nèi)容更多的信息。在這個工作中,我們探索圖片內(nèi)容對意圖識別的影響。我們首先介紹了一個新的圖片數(shù)據(jù)集,Intentonomy。這個數(shù)據(jù)集中有14K圖片,人工標(biāo)注了28個意圖標(biāo)簽。我們系統(tǒng)的學(xué)習(xí)了圖片內(nèi)容和圖片意圖的相關(guān)性。根據(jù)我們的對照學(xué)習(xí),我們提出了一個新的識別意圖的模型,利用多模態(tài)和quantify the effect of attending to object and context classes。實驗結(jié)果quantitatively and qualitatively 證明了視覺和文本線索對于意圖識別的影響。
論文鏈接:https://arxiv.org/pdf/2011.05558.pdf
項目鏈接:https://github.com/kmnp/intentonomy
賈夢霖 |?康奈爾大學(xué)計算機信息科學(xué)系在讀博士生
賈夢霖,康奈爾計算機信息科學(xué)在讀博士生,同時Facebook AI兼職Visiting Research Engineer。其導(dǎo)師是Serge Belongie 和Claire Cardie. 她的研究方向包括細(xì)粒度識別, multi-modalities。
個人主頁:https://github.com/KMnP
⑤
少即是多:視頻與語言的稀疏學(xué)習(xí)模型ClipBERT

視頻與語言的學(xué)習(xí),通常使用離線提取的整段視頻和語言特征。然而,用于訓(xùn)練特征提取器的數(shù)據(jù)通常和下游任務(wù)以及數(shù)據(jù)存在較大的差異,從而影響下游任務(wù)的性能。本文介紹一種端到端的,基于稀疏采樣的視頻與語言模型ClipBERT來解決這個問題。
論文鏈接:
https://arxiv.org/abs/2102.06183
代碼鏈接:
https://github.com/jayleicn/ClipBERT
雷杰 |?北卡大學(xué)教堂山分校計算機系在讀博士生雷杰,北卡大學(xué)教堂山分校計算機系四年級博士生,師從Tamara L. Berg和Mohit Bansal教授。本科畢業(yè)于電子科技大學(xué),曾在加拿大曼尼托巴大學(xué)和新加坡南洋理工大學(xué)任研究助理,曾在騰訊,微軟和Facebook的人工智能部門實習(xí)。?主要研究方向為計算機視覺與自然語言處理,如視頻檢索,視頻問答,跨模態(tài)預(yù)訓(xùn)練等等。目前已有多項研究成果發(fā)表于CVPR, ECCV, ACL, EMNLP, NAACL等頂級會議。曾獲Adobe Research Fellowship。個人主頁:https://www.cs.unc.edu/~jielei/
⑥
用于全景分割的全卷積網(wǎng)絡(luò)

近年來,視覺場景分割從實例和語義層級拓展到更加綜合的全景分割。相對于獨立的實例和語義分割任務(wù)來說,全景分割的主要難點在于物體和環(huán)境的個體差異及語義一致性難以在網(wǎng)絡(luò)中同時滿足。因此,如何使用全卷積形式統(tǒng)一表達(dá)和預(yù)測物體和環(huán)境困擾著我們。本次報告主要分為三個部分,即全景分割的發(fā)展和難點、基于全卷積的全景分割網(wǎng)絡(luò)、以及相關(guān)的結(jié)果及分析。
論文鏈接:https://arxiv.org/pdf/2012.00720.pdf
項目鏈接:https://github.com/yanwei-li/PanopticFCN
李彥瑋?|?香港中文大學(xué)計算機科學(xué)與工程系在讀博士生李彥瑋,香港中文大學(xué)計算機科學(xué)與工程系博士生,師從賈佳亞教授。主要研究方向為圖像檢測與分割。在CVPR及NeurIPS等會議上發(fā)表多篇論文,并獲得Microsoft COCO 2018比賽亞軍。
個人主頁:
https://yanwei-li.com/
⑦
密集對比學(xué)習(xí):為檢測分割定制的自監(jiān)督視覺預(yù)訓(xùn)練范式

本文提出了密集對比學(xué)習(xí),一種簡單高效的針對密集預(yù)測任務(wù)設(shè)計的自監(jiān)督預(yù)訓(xùn)練方法。?提出的密集對比學(xué)習(xí)通過在像素/局部特征層面構(gòu)造樣本對來進(jìn)行自監(jiān)督學(xué)習(xí),相比于ImageNet有監(jiān)督預(yù)訓(xùn)練和其他已有的自監(jiān)督預(yù)訓(xùn)練方法,此方法在下游密集預(yù)測任務(wù)如物體檢測和語義分割上能帶來顯著的提升。
論文鏈接:https://arxiv.org/abs/2011.09157
項目鏈接:https://github.com/WXinlong/DenseCL
王鑫龍?|?澳大利亞阿德萊德大學(xué)在讀博士生王鑫龍,目前是澳大利亞阿德萊德大學(xué)在讀博士生,導(dǎo)師沈春華教授。研究方向為計算機視覺,主要課題包括2D/3D/視頻上的物體檢測和實例分割。目前作為第一/主要作者在CVPR、NeurIPS、ECCV、AAAI上發(fā)表論文10余篇。代表工作包括SOLO系列實例分割算法。
個人主頁:
http://www.xloong.wang/
⑧
基于transformers的端到端視頻實例分割算法VisTR

本文是第一個將Transformers應(yīng)用于視頻分割領(lǐng)域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進(jìn)行分類,分割和跟蹤的任務(wù)?,F(xiàn)有的方法通常設(shè)計復(fù)雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務(wù)視為直接端到端的并行序列解碼和預(yù)測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進(jìn)行監(jiān)督和分割。?VisTR將實例分割和跟蹤統(tǒng)一到了相似度學(xué)習(xí)的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數(shù)據(jù)集上實現(xiàn)了最快的速度。
論文鏈接:https://arxiv.org/abs/2011.14503
項目鏈接:https://github.com/Epiphqny/VisTR
王鈺晴?|?美團計算機視覺算法工程師王鈺晴,2019年碩士畢業(yè)于南開大學(xué),現(xiàn)為美團計算機視覺算法工程師。主要負(fù)責(zé)無人車相關(guān)的目標(biāo)檢測和實例分割工作,以及圍繞一階段實例分割和視頻實例分割相關(guān)的算法研究。曾在CVPR2020發(fā)表一階段實例分割算法CenterMask,在CVPR2021發(fā)表視頻實例分割算法VisTR。
個人主頁:https://github.com/Epiphqny
⑨
風(fēng)格化神經(jīng)繪畫

本文提出了一種風(fēng)格化神經(jīng)繪畫算法,在統(tǒng)一框架下支持油畫、馬克筆、水彩畫等多種筆觸。不同于此前圖像風(fēng)格化方法在逐像素預(yù)測框架下進(jìn)行處理,該方法在矢量空間下生成具有物理意義的序列畫筆參數(shù),并可以進(jìn)一步用于可微渲染和風(fēng)格化。
論文鏈接:https://arxiv.org/abs/2011.08114
項目鏈接:https://jiupinjia.github.io/neuralpainter/
鄒征夏?|?密西根大學(xué)博士后研究員鄒征夏博士,于2013年和2018年于北航獲得學(xué)士和博士學(xué)位,2018年至今于密西根大學(xué)任博士后研究員,致力于計算機視覺領(lǐng)域的基礎(chǔ)研究和交叉應(yīng)用研究,相關(guān)研究成果發(fā)表在TPAMI, CVPR, ICCV等權(quán)威期刊和會議,Google Scholar引用1000余次,Github Star/Fork 3000余次。鄒征夏博士受邀擔(dān)任IJCAI高級委員會委員、TPAMI, NeurIPS, ICLR, CVPR, ICCV等人工智能領(lǐng)域權(quán)威期刊和會議的程序委員會委員/審稿人。鄒征夏博士以第一作者身份發(fā)表的多項研究成果被全球知名科技媒體TheNextWeb、以及機器之心、量子位、新智元、麻省理工科技評論中文網(wǎng)等國內(nèi)外30余家高影響力科技媒體報道,多項技術(shù)成果已實現(xiàn)商業(yè)轉(zhuǎn)化和技術(shù)落地,相關(guān)算法目前已在業(yè)界領(lǐng)先的AI圖像處理平臺Remini以及網(wǎng)易的多個大型游戲平臺上線,為全球超過3000萬注冊用戶提供照片風(fēng)格化以及虛擬游戲角色自動生成服務(wù),在業(yè)界起到了積極的影響。
個人主頁:http://www-personal.umich.edu/~zzhengxi/
關(guān)于TechBeat人工智能社區(qū)
TechBeat(www.techbeat.net)是一個薈聚全球華人AI精英的成長社區(qū)。我們希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其學(xué)習(xí)成長。期待這里可以成為你學(xué)習(xí)AI前沿知識的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級打怪的根據(jù)地!
更多詳細(xì)介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ