五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

<nav id="ggggg"><cite id="ggggg"></cite></nav>

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CLIP 改進(jìn)工作串講（下）【論文精讀·42】

2023-04-03 21:48 作者:c1assy好好學(xué)習(xí) 0人讀過(guò) | 我要投稿

CLIPasso

（CLIPasso: Semantically-Aware Object Skectching）

將CLIP做teach, 用它蒸餾自己的模型

semantic loss: <原始,生成>特征盡可能的接近
幾何形狀上的限制，geomatric loss: perceptual loss把模型前面幾層的輸出特征算<原始，生成i>的相似性，而不是最后的2048維的特征（因?yàn)榍懊娴奶卣骱虚L(zhǎng)寬的概念，對(duì)幾何位置更加的敏感）。保證幾何形狀，物體朝向位置的一致性
基于saliency的初始化方式：用一個(gè)訓(xùn)練好的VIT，把最后一層的多頭自注意力加權(quán)平均得到一個(gè)saliency map，對(duì)saliency map顯著的地方進(jìn)行采點(diǎn)。（在顯著的地方采點(diǎn)其實(shí)就相當(dāng)于自己已經(jīng)知道了這個(gè)地方有物體或已經(jīng)沿著這個(gè)物體的邊界畫(huà)貝茲曲線了）效果更穩(wěn)定

一張V100 6min 2000 iters
后處理：一張input，三張簡(jiǎn)筆畫(huà)，取兩個(gè)loss最低的那張

優(yōu)點(diǎn)：

zero-shot: 不受限于數(shù)據(jù)集里含有的類(lèi)型
能達(dá)到任意程度的抽象，只需要控制筆畫(huà)數(shù)

局限性：

有背景的時(shí)候，效果不好（自注意力圖等不好）-> automatic mask的方式如U2Net，將物體扣出里（但是是two step了，不是end to end）
簡(jiǎn)筆畫(huà)都是同時(shí)生成的，不像人畫(huà)的時(shí)候具有序列性（做成auto-regressive，根據(jù)前一個(gè)筆畫(huà)去定位下一筆在哪）
必須提前制定筆畫(huà)數(shù)，手動(dòng)+同等抽象度不同圖像需要的筆畫(huà)數(shù)不一樣多，（將筆畫(huà)數(shù)也進(jìn)行優(yōu)化）

CLIP+視頻

CLIP4clip: An empirical study of CLIP for end to end video clip retrieval

視頻是有時(shí)序的。一系列的幀，10個(gè)image token(cls token)如何做相似度計(jì)算:

1.parametr-free 直接取平均（目前最廣泛接受的）。沒(méi)有考慮時(shí)序，區(qū)分不了做下和站起來(lái)

2.加入時(shí)序，LSTM或transformer+位置編碼

late fusion:已經(jīng)抽取好圖像和文本的特征了，只是在最后看怎么融合

3.early fusion：最開(kāi)始就融合

文本和位置編碼, patch喂入一個(gè)transformer

直接拿CLIP做視頻文本的retrieval,效果直接秒殺之前的那些方法

少量數(shù)據(jù)集：直接mean效果最好（CLIP在4million上訓(xùn)練的，微調(diào)反而不好）

So, 大家都是直接mean

insights:

Gradient search,多試幾組學(xué)習(xí)率。

ActionCLIP: 動(dòng)作識(shí)別

動(dòng)機(jī)：

動(dòng)作識(shí)別中標(biāo)簽的定義，標(biāo)記是非常困難的。
遇到新類(lèi)，更細(xì)粒度的類(lèi)

因?yàn)檫@里的文本就是標(biāo)好的labels，非對(duì)角線點(diǎn)也可能是正樣本。->交叉熵?fù)Q成KL散度(兩個(gè)分布的相似度)

三階段：pre-train, prompt, finetune

shift: 在特征圖上做各種各樣的移動(dòng)，達(dá)到更強(qiáng)的建模能力。沒(méi)有增加額外的參數(shù)和存儲(chǔ)。

19年tsm將shift用到了時(shí)序

shift window，swin transformer里有用到

multimodal framework: 把one hot的標(biāo)簽變成language guided的目標(biāo)函數(shù)

都是RGB+分類(lèi)，使用CLIP預(yù)訓(xùn)練好的效果更好

因?yàn)樽R(shí)別的數(shù)據(jù)集很大，funetune足夠了

zero/Few-shot的能力：

視頻還有很多難點(diǎn)

?

55:21

?

拿CLIP作為visual encoder for diverse 下游vision-language tasks的初始化參數(shù), 再finetune

?

56:06

?

AudioCLIP

文本，視頻（幀），語(yǔ)音成triplet

三個(gè)相似度矩陣，loss

zero-shot語(yǔ)音分類(lèi)

?

57:30

?

數(shù)據(jù)集很小

只要是RGB圖像，CLIP都能處理的很好

prompt: 明確告訴是點(diǎn)云

?

59:21

?

把深度估計(jì)看成了一個(gè)分類(lèi)問(wèn)題而不是回歸

類(lèi)別和[0.5,1,1.5..]對(duì)應(yīng)

總結(jié)：

1.僅用CLIP提取更好的特征，點(diǎn)乘

2.clip做teacher，蒸餾

3.不用預(yù)訓(xùn)練的CLIP，僅用多模態(tài)對(duì)比學(xué)習(xí)的思想

標(biāo)簽：

CLIP 改進(jìn)工作串講（下）【論文精讀·42】的評(píng)論 (共條)

岳阳市| 阿拉善左旗| 朝阳区| 琼结县| 浪卡子县| 咸宁市| 潼关县| 石景山区| 宜宾县| 威宁| 博兴县| 商洛市| 桂阳县| 黄陵县| 晋州市| 鄂托克前旗| 新泰市| 清水河县| 临高县| 申扎县| 平利县| 丹阳市| 凤山市| 遂溪县| 潜山县| 罗城| 盐边县| 东源县| 婺源县| 崇文区| 东城区| 福安市| 惠州市| 通山县| 武平县| 涟水县| 延川县| 喀喇沁旗| 合水县| 茂名市| 抚远县|

<tfoot id="ggggg"><dd id="ggggg"></dd></tfoot>

<tfoot id="ggggg"><optgroup id="ggggg"></optgroup></tfoot>

<tfoot id="ggggg"></tfoot>