無(wú)監(jiān)督的三維人臉重建論文解讀
來(lái)源:投稿 作者:小灰灰
編輯:學(xué)姐

隨著計(jì)算機(jī)視覺(jué)和三維測(cè)量領(lǐng)域方面的深入研究,如何重建真實(shí)人臉的三維模型成了研究的熱點(diǎn)之一。
人臉作為人體結(jié)構(gòu)中外在表現(xiàn)能力最強(qiáng)的一部分,承載了很多的人類面部信息,世界上不存在完全一致的人臉,例如雙胞胎,兄弟姐妹之間都有或多或少的差異,這些差異表現(xiàn)在人的臉型,眉毛,酒窩,表情和膚色等一些面部特征。
通過(guò)每張人臉的不同特征,可以獲取到很多有意義的信息,用來(lái)進(jìn)行人臉檢測(cè),年齡識(shí)別等計(jì)算機(jī)視覺(jué)領(lǐng)域。
當(dāng)今世界,二維照片極易獲取,但隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,二維照片的研究已經(jīng)不能滿足人臉的需求了,但是相比較二維照片,三維空間中的人臉模型包含了更復(fù)雜和更豐富的生物信息,相比較二維圖片,三維照片多了一個(gè)維度,可以更能體現(xiàn)人臉的形狀和細(xì)節(jié)信息。
基于單張圖像的三維人臉重建可以分為四類:
基于傳統(tǒng)的人臉三維重建方法,
基于形變模型的三維重建方法,
基于端到端的三維人臉重建方法,
基于深度學(xué)習(xí)的三維人臉重建方法,
基于無(wú)監(jiān)督的三維人臉重建。
接下來(lái)我們來(lái)學(xué)習(xí)一下這篇論文中的無(wú)監(jiān)督三維人臉重建。
???
論文標(biāo)題:
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild ?
論文鏈接:
https://arxiv.org/abs/1911.11130
論文代碼:
https://github.com/elliottwu/unsup3d
數(shù)據(jù)集:
CelebA[1],3DFAW,和BFM[2]。
CelebA是一個(gè)大規(guī)模的人臉數(shù)據(jù)集,由超過(guò)20萬(wàn)張野外真實(shí)人臉圖像組成,并用邊界框進(jìn)行了注釋。
3DFAW包含23k個(gè)圖像,其中有66個(gè)3D關(guān)鍵點(diǎn)注釋,我們使用這些注釋來(lái)評(píng)估我們的3D預(yù)測(cè)。我們粗略地裁剪頭部區(qū)域的圖像,并使用官方的train/val/test分割。
BFM(Basel Face Model)是一種合成人臉模型,我們用它來(lái)評(píng)估三維重建的質(zhì)量(因?yàn)橐巴鈹?shù)據(jù)集缺乏真實(shí)感)。按照[34]的協(xié)議生成一個(gè)數(shù)據(jù)集,隨機(jī)對(duì)形狀、姿勢(shì)、紋理和照明進(jìn)行采樣。我們使用SUN數(shù)據(jù)庫(kù)中的圖像作為背景,并保存地面真實(shí)深度圖以供評(píng)估。
01?網(wǎng)絡(luò)結(jié)構(gòu)
一般的基于無(wú)模型的三維人臉重建,是通過(guò)分析單張圖像中的明暗信息來(lái)判斷物體表面的法線方向,從而恢復(fù)表面形狀的方法。
首先輸入一張?jiān)谡鎸?shí)世界中拍攝的環(huán)境不受限的128*128大小的RGB人臉圖像,在朗伯假設(shè)下,將圖像分解為形狀,反射和光照三方面的信息。
形狀信息就是法向圖,反射信息由于已經(jīng)采用朗伯假設(shè),反射信息表示為反照率(Albedo),簡(jiǎn)單的理解就像3D游戲建模里的紋理貼圖。
光照信息表示成一個(gè)三通道,每個(gè)通道9參數(shù)的矩陣,總共27個(gè)光照參數(shù)。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取出圖像的feature map,引入了兩個(gè)殘差塊Normal Residual Blocks和Albedo Residual Blocks,這兩個(gè)殘差塊的作用就是從圖像的feature map中學(xué)習(xí)分解出法向和反照率兩方面的信息。
經(jīng)過(guò)殘差塊后,通過(guò)法向、反照率以及圖像特征來(lái)回歸光照參數(shù)。這個(gè)SH light就是最終的球諧光照。
然后法向特征與反照率特征分別經(jīng)過(guò)卷積后生成最終的Normal和Albedo。
這里Normal和光照經(jīng)過(guò)渲染后生成Shading圖像,這個(gè)圖像就是生成的三維形狀的白模在光照下的情況,Shading本來(lái)是灰色圖像的,但因?yàn)榉纸獬龅墓庹掌{(lán)色,所以這個(gè)Shading圖像也就有了顏色。最終通過(guò)形狀,光照,反照率生成重建的圖像。

從原始單目圖像學(xué)習(xí)三維形變物體的方法,并且沒(méi)有額外的監(jiān)督信號(hào)。這個(gè)方法是基于自編碼器的架構(gòu),將輸入的圖像轉(zhuǎn)換為深度、反射率、視角和照明信息。
為了分解這些沒(méi)有監(jiān)督的組件,作者使用了這樣一個(gè)事實(shí),即在大體上很多物體都是一個(gè)對(duì)稱結(jié)構(gòu)。對(duì)照明的推理允許我們?nèi)グl(fā)掘潛在的對(duì)稱,盡管由于陰影等原因外表不是對(duì)稱的。
從深度(depth)、反射率(albedo)、視角(viewpoint)、光照(lighting)和每個(gè)像素點(diǎn)的對(duì)稱概率(confidence)5個(gè)角度進(jìn)行建模。

a表示反射率albedo, d表示深度圖depth,l表示光照方向light,w表示視角方向viewpoint
人臉重建一共分為兩步:
①光照函數(shù)Λ:使用深度圖d、光照方向l和反射率a,生成一張標(biāo)準(zhǔn)視角 w = 0下的人臉圖像,其中d和a為正面的.
②重映射函數(shù)Π:將①中生成的標(biāo)準(zhǔn)視角下的人臉圖像,再結(jié)合視角w以及深度圖,最終得到重建的人臉圖像

02?重建損失

其中l(wèi)為重建誤差,采用拉普拉斯分布,σ為每個(gè)像素點(diǎn)是對(duì)稱點(diǎn)的概率,由拉普拉斯分布的曲線可知,分子相同時(shí)(不是很大,基本靠近0)分母越大,則概率分布越小,對(duì)應(yīng)到模型中,σ 的值小,則說(shuō)明該點(diǎn)不為對(duì)稱點(diǎn),則該點(diǎn)的誤差更加重要,同時(shí),為了隱式地約束圖像的對(duì)稱性,將深度圖d和反射率a進(jìn)行左右翻折后,同樣約束重建圖像和原始圖像相同。
總的損失為:

03?實(shí)驗(yàn)結(jié)果
定量指標(biāo):
主要采用尺度不變深度誤差(SIDE)和平均角度偏差(MAD)兩個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)算法的重建效果。
比例不變深度誤差(SIDE)定義為重建的人臉深度與實(shí)際人臉深度之間的誤差,定義如下:

平均角度偏差(MAD)定義為重建人臉?lè)ň€與實(shí)際人臉?lè)ň€之間的平均誤差。


本文的方法在有監(jiān)督和相關(guān)的無(wú)監(jiān)督方法上性能表現(xiàn)良好。
定性指標(biāo):

如圖可見(jiàn),我們的方法與其他方法相比,我們方法質(zhì)量,清晰度都比較好。
下面是重建后的圖片的展示。


參考文獻(xiàn):
Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proc. ICCV, 2015
PascalPaysan,ReinhardKnothe,BrianAmberg,SamiRomd- hani, and Thomas Vetter. A 3D face model for pose and illumination invariant face recognition. In Advanced video and signal based surveillance, 2009
— 經(jīng)典論文合集?—
https://deepshare.feishu.cn/docs/doccnewbeOX1q1t4Pk5npjv0p5d