五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CLIP 改進(jìn)工作串講(下)【論文精讀·42】

2023-04-03 21:48 作者:c1assy好好學(xué)習(xí)  | 我要投稿

CLIPasso

(CLIPasso: Semantically-Aware Object Skectching)

將CLIP做teach, 用它蒸餾自己的模型


  • semantic loss: <原始,生成>特征盡可能的接近
  • 幾何形狀上的限制,geomatric loss: perceptual loss把模型前面幾層的輸出特征算<原始,生成i>的相似性,而不是最后的2048維的特征因?yàn)榍懊娴奶卣骱虚L(zhǎng)寬的概念,對(duì)幾何位置更加的敏感)。保證幾何形狀,物體朝向 位置的一致性
  • 基于saliency的初始化方式:用一個(gè)訓(xùn)練好的VIT,把最后一層的多頭自注意力加權(quán)平均得到一個(gè)saliency map,對(duì)saliency map顯著的地方進(jìn)行采點(diǎn)。(在顯著的地方采點(diǎn)其實(shí)就相當(dāng)于自己已經(jīng)知道了這個(gè)地方有物體或已經(jīng)沿著這個(gè)物體的邊界畫(huà)貝茲曲線了)效果更穩(wěn)定


  • 一張V100 6min 2000 iters
  • 后處理:一張input,三張簡(jiǎn)筆畫(huà),取兩個(gè)loss最低的那張

優(yōu)點(diǎn):

  • zero-shot: 不受限于數(shù)據(jù)集里含有的類(lèi)型
  • 能達(dá)到任意程度的抽象,只需要控制筆畫(huà)數(shù)

局限性:

  • 有背景的時(shí)候,效果不好(自注意力圖等不好)-> automatic mask的方式如U2Net,將物體扣出里(但是是two step了,不是end to end)
  • 簡(jiǎn)筆畫(huà)都是同時(shí)生成的,不像人畫(huà)的時(shí)候具有序列性(做成auto-regressive,根據(jù)前一個(gè)筆畫(huà)去定位下一筆在哪)
  • 必須提前制定筆畫(huà)數(shù),手動(dòng)+同等抽象度不同圖像需要的筆畫(huà)數(shù)不一樣多,(將筆畫(huà)數(shù)也進(jìn)行優(yōu)化)

CLIP+視頻

CLIP4clip: An empirical study of CLIP for end to end video clip retrieval


視頻是有時(shí)序的。一系列的幀,10個(gè)image token(cls token)如何做相似度計(jì)算:

1.parametr-free 直接取平均(目前最廣泛接受的)。沒(méi)有考慮時(shí)序,區(qū)分不了做下和站起來(lái)

2.加入時(shí)序,LSTM或transformer+位置編碼

late fusion:已經(jīng)抽取好圖像和文本的特征了,只是在最后看怎么融合

3.early fusion:最開(kāi)始就融合

文本和位置編碼, patch喂入一個(gè)transformer

直接拿CLIP做視頻文本的retrieval,效果直接秒殺之前的那些方法

少量數(shù)據(jù)集:直接mean效果最好(CLIP在4million上訓(xùn)練的,微調(diào)反而不好)

So, 大家都是直接mean

insights:

Gradient search,多試幾組學(xué)習(xí)率。

ActionCLIP: 動(dòng)作識(shí)別

動(dòng)機(jī):

  • 動(dòng)作識(shí)別中標(biāo)簽的定義,標(biāo)記是非常困難的。
  • 遇到新類(lèi),更細(xì)粒度的類(lèi)

因?yàn)檫@里的文本就是標(biāo)好的labels,非對(duì)角線點(diǎn)也可能是正樣本。->交叉熵?fù)Q成KL散度(兩個(gè)分布的相似度)

三階段:pre-train, prompt, finetune



shift: 在特征圖上做各種各樣的移動(dòng),達(dá)到更強(qiáng)的建模能力。沒(méi)有增加額外的參數(shù)和存儲(chǔ)。

19年tsm將shift用到了時(shí)序

shift window,swin transformer里有用到

multimodal framework: 把one hot的標(biāo)簽變成language guided的目標(biāo)函數(shù)

都是RGB+分類(lèi),使用CLIP預(yù)訓(xùn)練好的效果更好

因?yàn)樽R(shí)別的數(shù)據(jù)集很大,funetune足夠了

zero/Few-shot的能力:

視頻還有很多難點(diǎn)

?
55:21
?

拿CLIP作為visual encoder for diverse 下游vision-language tasks的初始化參數(shù), 再finetune

?
56:06
?

AudioCLIP

文本,視頻(幀),語(yǔ)音成triplet

三個(gè)相似度矩陣,loss

zero-shot語(yǔ)音分類(lèi)

?
57:30
?

數(shù)據(jù)集很小

只要是RGB圖像,CLIP都能處理的很好

prompt: 明確告訴是點(diǎn)云


?
59:21
?

把深度估計(jì)看成了一個(gè)分類(lèi)問(wèn)題而不是回歸


類(lèi)別和[0.5,1,1.5..]對(duì)應(yīng)


總結(jié):

1.僅用CLIP提取更好的特征,點(diǎn)乘

2.clip做teacher,蒸餾

3.不用預(yù)訓(xùn)練的CLIP,僅用多模態(tài)對(duì)比學(xué)習(xí)的思想



CLIP 改進(jìn)工作串講(下)【論文精讀·42】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
岳阳市| 阿拉善左旗| 朝阳区| 琼结县| 浪卡子县| 咸宁市| 潼关县| 石景山区| 宜宾县| 威宁| 博兴县| 商洛市| 桂阳县| 黄陵县| 晋州市| 鄂托克前旗| 新泰市| 清水河县| 临高县| 申扎县| 平利县| 丹阳市| 凤山市| 遂溪县| 潜山县| 罗城| 盐边县| 东源县| 婺源县| 崇文区| 东城区| 福安市| 惠州市| 通山县| 武平县| 涟水县| 延川县| 喀喇沁旗| 合水县| 茂名市| 抚远县|