關(guān)聯(lián)創(chuàng)新點(diǎn):相似的模型結(jié)構(gòu),相似的設(shè)計(jì)思想,相同的benchmark摘要
多模態(tài)情緒識(shí)別旨在從文本、音頻和視覺(jué)信息中識(shí)別人類(lèi)情緒。以往的方法致力于探索不同模態(tài)之間的相關(guān)性,或者設(shè)計(jì)復(fù)雜的多模態(tài)信息融合策略。然而,有個(gè)嚴(yán)重的問(wèn)題是,不同的模態(tài)之間存在著分布差距(distribution gap)和信息冗余 (information redundancy),以至于學(xué)習(xí)到的多模態(tài)表征可能是不完善的。對(duì)此,作者提出了一種特征分解的多模態(tài)情感識(shí)別(FDMER)方法,該方法學(xué)習(xí)了每種模態(tài)的共同和私有特征。具體來(lái)說(shuō),通過(guò)一個(gè)共同編碼器和每個(gè)模態(tài)的私有編碼器,作者將每種模態(tài)投射到模態(tài)不變子空間和模態(tài)特定子空間。模態(tài)不變的子空間旨在探索不同模態(tài)之間的共性,并充分減少分布差距。模態(tài)特定子空間試圖增強(qiáng)多樣性,捕捉每種模態(tài)信息的獨(dú)特特征。之后,引入模態(tài)判別器,以對(duì)抗訓(xùn)練的方式來(lái)指導(dǎo)共同和私有編碼器的參數(shù)學(xué)習(xí)。通過(guò)為子空間設(shè)計(jì)多個(gè)專(zhuān)門(mén)的損失,F(xiàn)DMER實(shí)現(xiàn)了對(duì)模態(tài)信息的一致性和差異性的約束。此外,作者們還提出了一個(gè)跨模態(tài)注意力融合模塊,以便學(xué)習(xí)自適應(yīng)權(quán)重以獲得有效的多模態(tài)表示。實(shí)驗(yàn)結(jié)果表明,F(xiàn)DMER在在兩個(gè)多模態(tài)情緒識(shí)別的benchmark上表現(xiàn)優(yōu)于SOTA方法。此外,通過(guò)多模態(tài)幽默檢測(cè)任務(wù)的實(shí)驗(yàn),進(jìn)一步驗(yàn)證了模型的有效性。
情感在人類(lèi)交流中發(fā)揮著作用。多模態(tài)情緒識(shí)別(MER)已成為一個(gè)活躍的研究領(lǐng)域,在各個(gè)領(lǐng)域都有重要的應(yīng)用,如人機(jī)交互、智能醫(yī)療和機(jī)器人學(xué)。人類(lèi)的情緒表達(dá)通常是自然語(yǔ)言、面部手勢(shì)和聲音行為的混合。不同的模式可以提供豐富的信息,來(lái)幫助AI理解人類(lèi)的情緒和意圖。人們開(kāi)發(fā)了各種深度學(xué)習(xí)模型來(lái)從多模態(tài)序列中提取情感相關(guān)的信息,如卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、Transformer以及它們的變體。主流的研究?jī)?nèi)容可被分為兩類(lèi) :
然而,不同模態(tài)之間固有的異質(zhì)性往往會(huì)引入信息冗余和分布差距,增加了多模態(tài)表征學(xué)習(xí)和特征融合的難度。以往的方法以整體學(xué)習(xí)的方式來(lái)處理每個(gè)模態(tài)的表征,導(dǎo)致學(xué)到的多模態(tài)表征可能是不完善的和冗余的。
本文中,作者提出了一種特征分解的多模態(tài)情緒識(shí)別(FDMER)方法來(lái)處理模態(tài)的異質(zhì)性。如上圖所示。FDMER為每種模態(tài)學(xué)習(xí)兩種不同的表征,第一個(gè)是共同表征,其目的是將所有模態(tài)投射到一個(gè)模態(tài)不變的,具有統(tǒng)一分布的共享子空間。FDMER可以捕獲關(guān)于潛在情緒的模態(tài)之間的共同性,并減少這個(gè)子空間中的模態(tài)差距。第二種是私有表征,其目的是為每個(gè)模態(tài)提供一個(gè)特定的模態(tài)子空間。在這些子空間中,我們的FDMER可以學(xué)習(xí)不同模態(tài)的獨(dú)特特征并消除冗余信息。我們?cè)O(shè)計(jì)了公共和私有編碼器來(lái)實(shí)現(xiàn)上述的特征分離。此外,我們利用所提出的一致性和差異性約束來(lái)保證共同表征的一致性和私有表示的多樣性。為了進(jìn)一步保證不同的表征被完美地投射到相應(yīng)的子空間中,我們引入了一個(gè)模態(tài)判別器來(lái)指導(dǎo)共同和私有編碼的參數(shù)學(xué)習(xí)。為了緩解模態(tài)異質(zhì)性的問(wèn)題,我們?cè)跒殡[藏表征和模態(tài)判別器的參數(shù)采用超球體上的球形模態(tài)判別損失來(lái)提高類(lèi)內(nèi)緊湊性和類(lèi)間差異性。隨后,我們提出了一個(gè)基于自適應(yīng)注意力權(quán)重的個(gè)跨模態(tài)注意力融合模塊,以有效地融合不同的表征。完善的多模態(tài)表征最終服務(wù)于下游的任務(wù)。
上圖展示了在CMU-MOSI上的一個(gè)可視化結(jié)果(另外兩個(gè)數(shù)據(jù)集上有類(lèi)似的結(jié)果)。左邊的圖是在損失函數(shù)中去掉一致性和差異性約束后學(xué)到的表示,右邊的是加上那幾個(gè)損失后的表示。左邊的圖中可以看出,大概分成三簇,每簇中有兩個(gè)顏色,表示每個(gè)模態(tài)的共有表征和獨(dú)特表征沒(méi)有區(qū)分開(kāi)。右邊的圖分成了四簇,中間那簇是三個(gè)模態(tài)提取出來(lái)的共有表征,重疊在了一塊,外面三個(gè)是每個(gè)模態(tài)的獨(dú)特表征,分散的比較開(kāi),較好的解決了作者提出來(lái)的,模態(tài)信息冗余性和分布差異的問(wèn)題。
本文提出了FDMER,一種基于特征分解的新型多模態(tài)情緒識(shí)別方法。FDMER通過(guò)學(xué)習(xí)多模態(tài)的共同和私有表征來(lái)解決模態(tài)異質(zhì)性的問(wèn)題。
本文提出了一個(gè)跨模態(tài)注意力融合(CMAF)模塊來(lái)有效地融合多模態(tài)表征。該模塊自適應(yīng)地給不同的表征分配權(quán)重,基于它們的重要性突出較強(qiáng)的表征并抑制較弱的表征。
本文的FDMER在三個(gè)標(biāo)準(zhǔn)的多模態(tài)基準(zhǔn)上優(yōu)于以前的最先進(jìn)的方法。綜合實(shí)驗(yàn)證明,F(xiàn)DMER可以清楚地捕捉到不同的多模態(tài)表征,并描繪出多種模態(tài)之間的共性和多樣性。
Florence-VL是由微軟和馬里蘭大學(xué)共同開(kāi)源的多模態(tài)大語(yǔ)言模型,結(jié)合生成式視覺(jué)基礎(chǔ)模型Florence-2和深度-廣度融合技術(shù),實(shí)現(xiàn)視覺(jué)與語(yǔ)言理解的深度融合,適用于多種下游任務(wù)。
【YOLOv8改進(jìn) - 注意力機(jī)制】Sea_Attention: Squeeze-enhanced Axial Attention,結(jié)合全局語(yǔ)義提取和局部細(xì)節(jié)增強(qiáng)
【YOLOv8改進(jìn) - 注意力機(jī)制】Sea_Attention: Squeeze-enhanced Axial Attention,結(jié)合全局語(yǔ)義提取和局部細(xì)節(jié)增強(qiáng)
開(kāi)源版GPT-4o來(lái)了,AI大神Karpathy盛贊!67頁(yè)技術(shù)報(bào)告全公開(kāi)
【10月更文挑戰(zhàn)第20天】近日,開(kāi)源版GPT-4o的發(fā)布成為AI領(lǐng)域的焦點(diǎn)。作為GPT系列的最新成員,GPT-4o在性能和多模態(tài)數(shù)據(jù)處理方面實(shí)現(xiàn)了顯著提升,得到了知名AI專(zhuān)家Andrej Karpathy的高度評(píng)價(jià)。該模型的開(kāi)源特性將進(jìn)一步促進(jìn)AI研究的進(jìn)展。
本文詳細(xì)介紹了如何利用NetworkX庫(kù)從圖結(jié)構(gòu)中提取重要特征。首先,通過(guò)定義輔助函數(shù)設(shè)置了圖的可視化選項(xiàng),并以Zachary網(wǎng)絡(luò)數(shù)據(jù)集為例進(jìn)行了可視化展示。接著,文章深入探討了三類(lèi)圖特征:基于節(jié)點(diǎn)的特征(如節(jié)點(diǎn)度、中心性等)、基于邊的特征(如最短路徑、鄰域重疊等)以及基于圖的特征(如Graphlets、Weisfeiler-Leman特征等)。通過(guò)這些特征的提取與分析,可以全面理解網(wǎng)絡(luò)結(jié)構(gòu),識(shí)別關(guān)鍵節(jié)點(diǎn),分析信息流動(dòng)模式,并發(fā)現(xiàn)潛在的隱藏模式。本文不僅展示了如何應(yīng)用這些特征來(lái)揭示社交網(wǎng)絡(luò)中的角色和聯(lián)系,還強(qiáng)調(diào)了其在交通網(wǎng)絡(luò)分析和生物系統(tǒng)研究等領(lǐng)域的廣泛應(yīng)用潛力。
基于GA-PSO遺傳粒子群混合優(yōu)化算法的TSP問(wèn)題求解matlab仿真
本文介紹了基于GA-PSO遺傳粒子群混合優(yōu)化算法解決旅行商問(wèn)題(TSP)的方法。TSP旨在尋找訪問(wèn)一系列城市并返回起點(diǎn)的最短路徑,屬于NP難問(wèn)題。文中詳細(xì)闡述了遺傳算法(GA)和粒子群優(yōu)化算法(PSO)的基本原理及其在TSP中的應(yīng)用,展示了如何通過(guò)編碼、選擇、交叉、變異及速度和位置更新等操作優(yōu)化路徑。算法在MATLAB2022a上實(shí)現(xiàn),實(shí)驗(yàn)結(jié)果表明該方法能有效提高求解效率和解的質(zhì)量。
該文探討了即時(shí)通訊技術(shù),涉及網(wǎng)絡(luò)協(xié)議(TCP/IP、UDP、HTTP/HTTPS)在IM中的應(yīng)用,數(shù)據(jù)傳輸與同步(消息隊(duì)列、長(zhǎng)輪詢(xún)、WebSocket、數(shù)據(jù)同步)技術(shù),安全性保障(加密、認(rèn)證授權(quán)、防止攻擊)措施,以及多媒體處理(音頻、視頻處理和實(shí)時(shí)傳輸)和用戶(hù)界面交互設(shè)計(jì)的重要性。文章旨在幫助讀者理解并應(yīng)用相關(guān)技術(shù)。
tensorflow object detection API訓(xùn)練公開(kāi)數(shù)據(jù)集Oxford-IIIT Pets Dataset
PostgreSQL 圖式搜索(graph search)實(shí)踐 - 百億級(jí)圖譜,毫秒響應(yīng)
android 在 ListView 的 item 中插入 GridView 仿微信朋友圈圖片顯示。
【Unity3D實(shí)例-功能-移動(dòng)】角色移動(dòng)-通過(guò)WSAD(CharacterController方式)
【硬件測(cè)試】基于FPGA的4ASK+幀同步系統(tǒng)開(kāi)發(fā)與硬件片內(nèi)測(cè)試,包含高斯信道,誤碼統(tǒng)計(jì),可設(shè)置SNR
AI-Compass 強(qiáng)化學(xué)習(xí)模塊:理論到實(shí)戰(zhàn)完整RL技術(shù)生態(tài),涵蓋10+主流框架、多智能體算法、游戲AI與金融量化應(yīng)用
AI-Compass LLM合集-多模態(tài)模塊:30+前沿大模型技術(shù)生態(tài),涵蓋GPT-4V、Gemini Vision等國(guó)際領(lǐng)先與通義千問(wèn)VL等國(guó)產(chǎn)優(yōu)秀模型
AI-Compass NLP2SQL模塊:集成Chat2DB、DB-GPT、MindsDB等核心工具,實(shí)現(xiàn)自然語(yǔ)言到SQL轉(zhuǎn)換的智能化數(shù)據(jù)查詢(xún)生態(tài)系統(tǒng)
AI-Compass GraphRAG技術(shù)生態(tài):集成微軟GraphRAG、螞蟻KAG等主流框架,融合知識(shí)圖譜與大語(yǔ)言模型實(shí)現(xiàn)智能檢索生成