五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

都2022年了你還不知道多模態(tài)在研究什么?

2022-02-28 18:28 作者:深度之眼官方賬號(hào)  | 我要投稿

來(lái)源:投稿?作者:宋岳庭

編輯:學(xué)姐

標(biāo)題看起來(lái)是不是很囂張?其實(shí)大部分人也是知道多模態(tài),但是你真的很了解嘛?也不一定吧?今天給你一五一十的說(shuō)明白!認(rèn)真看~覺(jué)得好了給個(gè)贊!





什么是多模態(tài)?


多模態(tài)指的是多種模態(tài)的信息,包括:文本、圖像、視頻、音頻等。


顧名思義,多模態(tài)研究的就是這些不同類型的數(shù)據(jù)的融合的問(wèn)題。



目前大多數(shù)工作中,只處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式。


這就涉及到圖像和文本領(lǐng)域的內(nèi)容。



多模態(tài)的任務(wù)和數(shù)據(jù)集有哪些?


多模態(tài)研究的是視覺(jué)語(yǔ)言問(wèn)題,其任務(wù)是關(guān)于圖像和文字的分類、問(wèn)答、匹配、排序、定位等問(wèn)題。



例如給定一張圖片,可以完成以下任務(wù):


一、VQA(Visual Question Answering)視覺(jué)問(wèn)答


輸入:一張圖片、一個(gè)自然語(yǔ)言描述的問(wèn)題

輸出:答案(單詞或短語(yǔ))


二、Image Caption 圖像字幕


輸入:一張圖片

輸出:圖片的自然語(yǔ)言描述(一個(gè)句子)


三、Referring Expression Comprehension 指代表達(dá)


輸入:一張圖片、一個(gè)自然語(yǔ)言描述的句子

輸出:判斷句子描述的內(nèi)容(正確或錯(cuò)誤)


四、Visual Dialogue 視覺(jué)對(duì)話


輸入:一張圖片

輸出:兩個(gè)角色進(jìn)行多次交互、對(duì)話


五、VCR (Visual Commonsense Reasoning) 視覺(jué)常識(shí)推理


輸入:1個(gè)問(wèn)題,4個(gè)備選答案,4個(gè)理由

輸出:正確答案,和理由



六、NLVR(Natural Language for Visual Reasoning)自然語(yǔ)言視覺(jué)推理


輸入:2張圖片,一個(gè)分布

輸出:true或false



七、Visual Entailment 視覺(jué)蘊(yùn)含


輸入:圖像、文本

輸出:3種label的概率。(entailment、neutral、contradiction)蘊(yùn)含、中性、矛盾



八、Image-Text Retrieval 圖文檢索


有3種方式。

1)以圖搜文。輸入圖片,輸出文本

2)以文搜圖。輸入文本,輸出圖片

3)以圖搜圖,輸入圖片,輸出圖片





多種模態(tài)融合的方式有哪些?


通過(guò)NLP的預(yù)訓(xùn)練模型,可以得到文本的嵌入表示;

再結(jié)合圖像和視覺(jué)領(lǐng)域的預(yù)訓(xùn)練模型,可以得到圖像的嵌入表示;


那么,如何將兩者融合起來(lái),來(lái)完成以上的各種任務(wù)呢?

常用的多模態(tài)交叉的方式有兩種。


【1】點(diǎn)乘或者直接追加。


此種方式將文本和圖像分別進(jìn)行Embedding,之后將各自的向量進(jìn)行追加或者點(diǎn)乘。


好處是簡(jiǎn)單方便,計(jì)算成本也比較低。



【2】另外一種模態(tài)交叉的方式是最近用得比較多的Transformer。


其好處是利用了Transformer架構(gòu),能夠更好地進(jìn)行圖像特征和文本特征的表示。


缺點(diǎn)是占用空間大,計(jì)算成本較高。



參考:

https://lil.nlp.cornell.edu/nlvr/

http://arxiv.org/abs/1909.11740

https://arxiv.org/abs/2103.06561v6

http://arxiv.org/abs/2103.00020

http://arxiv.org/abs/2201.12086

http://arxiv.org/abs/2102.05918


深入了解多模態(tài)找不到人指導(dǎo)?

來(lái)找明鏡小享,帶你開(kāi)啟多模態(tài)研究!



都2022年了你還不知道多模態(tài)在研究什么?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
新竹市| 浏阳市| 图木舒克市| 合作市| 东兰县| 延吉市| 肃宁县| 巴塘县| 兴安盟| 集安市| 安化县| 威宁| 泾川县| 金华市| 辽宁省| 高密市| 额敏县| 孝昌县| 延长县| 乐安县| 前郭尔| 平顺县| 平阳县| 恩平市| 明光市| 全南县| 宾阳县| 龙州县| 宁乡县| 屯门区| 湘潭县| 民县| 汨罗市| 海安县| 九龙坡区| 浦江县| 冕宁县| 察隅县| 墨竹工卡县| 尼勒克县| 门源|