中文字幕亚洲综合久久蜜桃,成年日韩片AV在线网站医生 ,无码精品国产dvd在线观看9久,xfplay5566色资源网站

開云(中國)Kaiyun·官方網(wǎng)站-Kaiyun科技股份有限公司

當(dāng)前位置: 主頁 > 光研動態(tài) > 公司新聞

一種基于置信度融合的多模態(tài)情緒識別方法及系統(tǒng)pdf

作者:小編發(fā)布時間:2025-07-18 06:14

  本發(fā)明公開了一種基于置信度融合的多模態(tài)情緒識別方法及系統(tǒng),屬于人工智能技術(shù)領(lǐng)域。本發(fā)明能夠系統(tǒng)地對多模態(tài)情緒數(shù)據(jù)中的不確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化。包括使用MNE和OPENFACE工具包分別對EEG信號和面部表情特征進行數(shù)據(jù)預(yù)處理,使用共享權(quán)重的多通道LSTM對預(yù)處理后的多模態(tài)樣本進行跨模態(tài)特征對齊,并采用自注意力機制對序列數(shù)據(jù)在時間層面上的不確定性進行建模。還包括訓(xùn)練兩個置信度回歸模塊來獲取不同模態(tài)特征表示的分類置信度,以作為多模態(tài)融合的指導(dǎo);基于置信度回歸模塊獲取的置信

  1.一種基于置信度融合的多模態(tài)情緒識別方法,其特征在于,該方法針對多模態(tài)情緒

  數(shù)據(jù)中的不確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化,包括如下步驟:

  S1、獲取多模態(tài)情緒序列數(shù)據(jù),對該數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的同步多模態(tài)序列

  S2、基于步驟1中預(yù)處理的數(shù)據(jù),將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進行多模態(tài)特征對

  口數(shù),D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度,與之對應(yīng)的標(biāo)簽信息記為y;為

  了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性,采用一個共享權(quán)重的多

  通道LSTM網(wǎng)絡(luò),通過共享權(quán)重,多通道LSTM學(xué)習(xí)跨模態(tài)之間的相關(guān)性,公式表示如下:

  式中,和代表模態(tài)m={E,F}的第i個樣本第t?1或第t個時間窗在LSTM中的

  記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù);代表多通道LSTM的輸出,則是第t個時間窗的記

  憶單元和隱藏狀態(tài);隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享,而輸入向量的權(quán)值只在模

  態(tài)和時間窗之間共享;多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性,并實現(xiàn)異構(gòu)

  S3、使用自注意力機制來建模時間層面的不確定性,識別出更可靠的時間段內(nèi)的序列

  于生成模態(tài)m={E,F}特征表示的查詢、鍵和值的參數(shù)矩陣,在模型訓(xùn)練中通過反向傳播更

  S4、基于真類概率設(shè)計置信度回歸網(wǎng)絡(luò)來獲得模態(tài)的置信度,同時為了保持多模態(tài)數(shù)

  據(jù)之間的共同特征,采用KL?divergence來約束不同模態(tài)的相似性;

  其中,所述真類概率使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度,每個模態(tài)

  式中,x表示模態(tài)m樣本的高維特征向量,y代表它的真實類別,TCP則代表模態(tài)m樣本對

  S5、基于置信度作為多模態(tài)融合的指導(dǎo),實現(xiàn)可信多模態(tài)融合,通過自注意力機制提取

  EEG和面部表情模態(tài)特征,分別表示為f∈R,f∈R;在訓(xùn)練過程中,利用置信度回歸網(wǎng)

  S6、基于融合后的多模態(tài)特征進行分類,實現(xiàn)情緒識別,其中包括使用交叉熵?fù)p失來監(jiān)

  S7、在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模,為了學(xué)習(xí)多模態(tài)輸入的

  魯棒表示,采用自定節(jié)奏學(xué)習(xí),基于低到高不確定性的樣本來訓(xùn)練上述模型,由此提高模型

  2.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S1

  S1.2、使用mne.filter()對EEG信號進行帶通濾波器濾波,以過濾EEG信號中與情緒激

  S1.3、通過Welch方法提取EEG信號中t秒非重疊時間窗口的功率頻譜密度特征;

  S1.4、對于數(shù)據(jù)集中的面部表情數(shù)據(jù),將數(shù)據(jù)集中原始的視頻數(shù)據(jù)導(dǎo)入OPENFACE工具

  S1.5、使用OPENFACE提取面部視頻的特征,其中包括相面部位置、頭部位置、眼睛凝視

  S1.6、根據(jù)t秒非重疊滑動窗口,取時間窗各特征的平均值作為最終使用的特征。

  3.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S3

  通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù),并將其輸入

  SoftMax函數(shù),然后,通過注意力系數(shù)與V的乘積得到具有自注意的特征:

  4.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S4

  中,對于模態(tài)m,通過一個置信回歸網(wǎng)絡(luò)g來近似真類概率,利用MSE損失來訓(xùn)練置信回歸網(wǎng)

  這里的c=g(x)表示由置信度回歸網(wǎng)絡(luò)預(yù)測的置信度值,M是模態(tài)的數(shù)量,代表TCP

  5.根據(jù)權(quán)利要求1或4所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步

  驟S4中通過KL?divergence來約束不同模態(tài)的相似性,不僅可以學(xué)習(xí)置信度c,還可以根據(jù)

  6.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S5

  還包括通過賦予較高的權(quán)重,增強不確定性較低的模態(tài)的破壞性;通過賦予較低的權(quán)重,可

  這里c,c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度,代表

  7.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S6

  式中,表示交叉熵?fù)p失,P(f)為融合特征向量劃分為某類的概率,Y為樣本的標(biāo)

  8.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S7

  上式中的自步學(xué)習(xí)正則化項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本,在該方法

  9.根據(jù)權(quán)利要求8所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,在初始

  階段,隨機選擇一小部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型;隨著訓(xùn)練的進行,根據(jù)樣本的訓(xùn)練損失將更

  多的樣本加入到訓(xùn)練過程中,直到包括所有樣本,這使得模型能夠?qū)W習(xí)到更魯棒的多模態(tài)

  10.一種基于置信度融合的多模態(tài)情緒識別系統(tǒng),其特征在于,該系統(tǒng)包括基于時間不

  確定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度感知融合模塊、分類模塊和基

  該系統(tǒng)及上述模塊是由實施如權(quán)利要求1所述的方法得到的,且所述的置信度感知融

  合模塊由多通道LSTM、自注意力機制、置信度回歸模塊和自步學(xué)習(xí)機制組成;

  所述的多通道LSTM用于對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊,從而更好地解決模態(tài)

  所述的自注意力機制用于挖掘序列數(shù)據(jù)在時間上的不確定性,進一步學(xué)習(xí)有效的特征

  所述的置信度回歸模塊用于獲取不同模態(tài)特征的模態(tài)置信度,以作為多模態(tài)融合的加

  所述的自步學(xué)習(xí)機制用于讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中,從而更

  [0001]本發(fā)明屬于人工智能技術(shù)領(lǐng)域,具體涉及一種基于置信度融合的多模態(tài)情緒識別

  [0002]情緒識別正受到越來越多的關(guān)注,由于其在人機交互系統(tǒng)的感知和決策提供了關(guān)

  鍵信息,使這些系統(tǒng)能夠?qū)τ脩舻那榫w狀態(tài)做出適當(dāng)?shù)姆磻?yīng)。在生理情緒特征中,腦電圖具

  有無創(chuàng)、低成本和高時間分辨率等優(yōu)點。不僅如此,由于EEG信號與高級認(rèn)知過程直接相關(guān),

  基于EEG的情緒識別在近年來受到越來越多的關(guān)注。此外,情緒數(shù)據(jù)的收集和識別過程往往

  受到不同程度的不確定性影響。因此,開發(fā)能夠有效提取情感內(nèi)在狀態(tài)的魯棒識別模型仍

  [0003]許多基于機器學(xué)習(xí)或深度學(xué)習(xí)的方法已被用于基于EEG的情緒識別。HSAN能夠聯(lián)

  合建模EEG特征的局部和全局時間信息。MNSEP通過學(xué)習(xí)EEG腦網(wǎng)絡(luò)中的判別圖拓?fù)?,能夠?

  用多個與情緒相關(guān)的空間網(wǎng)絡(luò)拓?fù)淠J竭M行多類別情緒識別。OGSSL將自適應(yīng)圖學(xué)習(xí)和情

  緒識別統(tǒng)一為一個目標(biāo)。然而上述方法依賴于單模態(tài)分析,不能完全反映情緒狀態(tài),難以達

  到令人滿意的準(zhǔn)確性和穩(wěn)定性。得益于多模態(tài)之間的互補信息,整合生理信號和行為信號

  可以提高情緒識別的表現(xiàn)。ETF基于注意力機制融合EEG和眼動數(shù)據(jù),以實現(xiàn)較高的情緒識

  別精度。MMResLSTM能夠?qū)W習(xí)EEG與外圍生理信號的潛在相關(guān)性,從而提高識別性能。

  EmotionMeter通過將EEG和眼動結(jié)合,整合了內(nèi)部認(rèn)知和外部潛意識行為,探索了多模態(tài)表

  征能力的互補特征。然而,情緒的復(fù)雜生理特性使得不確定性成為情緒識別中的一個重要

  因素。具體來說,多模態(tài)數(shù)據(jù)中各種形式不確定性的存在增加了準(zhǔn)確識別情緒的難度。

  [0004]近年來,研究者提出了一些基于不確定性學(xué)習(xí)的情緒識別方法。例如,EMENet通過

  采用深度集成模型從多個情緒描述符中捕獲不確定性,并應(yīng)用迭代自蒸餾來提高情緒識別

  和不確定性估計的性能。IQI能夠用來描述不同頻段信號強度的不確定性,從而精確提取和

  選擇腦電情緒特征。SCN通過自注意力機制對訓(xùn)練中的每個樣本進行加權(quán)。值得注意的是,

  這些不確定性分析方法都是針對單模態(tài)情緒預(yù)測而開發(fā)的,并不能環(huán)節(jié)多模態(tài)情緒數(shù)據(jù)和

  融合模型中更多的不確定性。多模態(tài)情緒數(shù)據(jù)和模型中的不確定性歸結(jié)為以下三個方面:

  首先,多模態(tài)情緒數(shù)據(jù)通常具有不同的語義表示,并且由于情緒產(chǎn)生的機制不同,每個時間

  窗口對情緒狀態(tài)的重要性也不同,這反映了時間層面的不確定性。其次,不同模態(tài)所產(chǎn)生的

  決策模糊性導(dǎo)致了融合層面的不確定性。第三,同一模型識別來自不同主體或軌跡的情緒

  樣本的難度或置信度不同,反映了樣本層面的不確定性。上述不確定性共同給多模態(tài)情感

  識別帶來了挑戰(zhàn)。因此,迫切需要開發(fā)有效的融合方法來緩解上述不確定性,提高多模態(tài)情

  [0005]發(fā)明目的:針對單模態(tài)腦電情緒識別方法存在的不足問題,本發(fā)明的第一目的是

  提供一種基于置信度融合的多模態(tài)情緒識別方法,它能夠系統(tǒng)地對多模態(tài)情緒數(shù)據(jù)中的不

  確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化。基于該方法的應(yīng)用,本發(fā)明第二

  [0006]技術(shù)方案:一種基于置信度融合的多模態(tài)情緒識別方法,該方法針對多模態(tài)情緒

  數(shù)據(jù)中的不確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化,包括如下步驟:

  [0007]S1、獲取多模態(tài)情緒序列數(shù)據(jù),對該數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的同步多模態(tài)

  [0008]S2、基于步驟1中得到的經(jīng)過預(yù)處理的數(shù)據(jù),將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進

  間窗口數(shù),D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度,與之對應(yīng)的標(biāo)簽信息記為

  y;為了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性,采用了一個共享權(quán)

  重的多通道LSTM網(wǎng)絡(luò)(MC?LSTM表示LSTM網(wǎng)絡(luò)的進程),通過共享權(quán)重,多通道LSTM學(xué)習(xí)跨模

  [0011]式中,和代表模態(tài)m={E,F}的第i個樣本第t?1或第t個時間窗在

  LSTM中的記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù);代表多通道LSTM的輸出,則是第t個時

  間窗的記憶單元和隱藏狀態(tài);隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享,而輸入向量的權(quán)

  值只在模態(tài)和時間窗之間共享;多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性,并

  [0012]S3、使用自注意力機制來建模時間層面的不確定性,識別出更可靠的時間段內(nèi)的

  由多通道LSTM產(chǎn)生的X和X分別執(zhí)行線]式中,查詢Q,鍵K和值V代表模態(tài)m的三組線性變換特征表示,和分

  別是用于生成模態(tài)m={E,F}特征表示的查詢、鍵和值的參數(shù)矩陣,在模型訓(xùn)練中通過反向

  [0017]S4、基于真類概率設(shè)計置信度回歸網(wǎng)絡(luò)來獲得模態(tài)的置信度,同時為了保持多模

  態(tài)數(shù)據(jù)之間的共同特征,采用KL?divergence來約束不同模態(tài)的相似性;

  [0018]其中,所述真類概率使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度,每個

  式中,x表示模態(tài)m樣本的高維特征向量,y代表它的真實類別,TCP則代表模態(tài)m樣

  [0021]S5、基于置信度作為多模態(tài)融合的指導(dǎo),實現(xiàn)可信多模態(tài)融合,通過自注意力機制

  提取EEG和面部表情模態(tài)特征,分別表示為f∈R,f∈R;在訓(xùn)練過程中,利用置信度回

  歸網(wǎng)絡(luò)動態(tài)估計各模態(tài)的預(yù)測置信度,并以此作為加權(quán)的指導(dǎo)不同情緒模態(tài)的融合;

  [0022]S6、基于融合后的多模態(tài)特征進行分類,實現(xiàn)情緒識別,其中包括使用交叉熵?fù)p失

  [0023]S7、在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模,為了學(xué)習(xí)多模態(tài)輸

  入的魯棒表示,采用自定節(jié)奏學(xué)習(xí),基于低到高不確定性的樣本來訓(xùn)練上述模型,由此提高

  集進行預(yù)處理,對于數(shù)據(jù)集中的EEG信號執(zhí)行下采樣,將信號下采樣到128Hz;

  [0027]S1.3、通過Welch方法提取EEG中t秒非重疊時間窗口的功率頻譜密度特征;

  [0028]S1.4、對于數(shù)據(jù)集中的面部表情數(shù)據(jù),將數(shù)據(jù)集中原始的視頻數(shù)據(jù)導(dǎo)入OPENFACE

  [0029]S1.5、使用OPENFACE提取面部視頻的特征,其中包括相對于攝像頭的面部位置,頭

  [0030]S1.6、根據(jù)t秒非重疊滑動窗口,取時間窗各特征的平均值作為最終使用的特征。

  [0032]通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù),并將其

  輸入SoftMax函數(shù),然后,通過注意力系數(shù)與V的乘積得到具有自注意的特征:

  [0034]式中,d代表歸一化參數(shù),它與K的維度相等,表示K的轉(zhuǎn)置矩陣。

  [0035]所述方法中,步驟S4對于模態(tài)m,通過一個置信回歸網(wǎng)絡(luò)g來近似真類概率,利用

  這里的c=g(x)表示由置信度回歸網(wǎng)絡(luò)預(yù)測的置信度值,M是模態(tài)的數(shù)量,代

  [0038]進一步的,步驟S4中通過KL?divergence來約束不同模態(tài)的相似性,不僅可以學(xué)習(xí)

  置信度c,還可以根據(jù)所提出的置信度回歸網(wǎng)絡(luò)的SoftMax輸出獲得每個模態(tài)的預(yù)測分布

  [0043]所述方法中,步驟S5還包括通過賦予較高的權(quán)重,增強不確定性較低的模態(tài)的破

  [0045]這里c,c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度,

  [0046]所述方法中,步驟S6通過交叉熵?fù)p失來監(jiān)督多模態(tài)學(xué)習(xí),避免模型的過渡擬合,計

  [0048]式中,表示交叉熵?fù)p失,P(f)為融合特征向量劃分為某類的概率,Y為樣本

  [0049]所述方法中,步驟S7所述自定節(jié)奏學(xué)習(xí),基于低到高不確定性的樣本來訓(xùn)練過程

  為樣本不確定性的度量,其中α和β是控制損失權(quán)重的超參數(shù),通過最小化以下函數(shù):

  [0053]上式中的自步學(xué)習(xí)正則化項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本,在

  [0058]更進一步的,在初始階段,隨機選擇一小部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型;隨著訓(xùn)練的進

  行,根據(jù)樣本的訓(xùn)練損失將更多的樣本加入到訓(xùn)練過程中,直到包括所有樣本,這使得模型

  [0059]通過實施上述方法及步驟,相應(yīng)的可得到一種基于置信度融合的多模態(tài)情緒識別

  系統(tǒng),該系統(tǒng)包括基于時間不確定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度

  [0060]該系統(tǒng)中,所述的置信度感知融合模塊由多通道LSTM、自注意力機制、置信度回歸

  [0061]所述的多通道LSTM用于對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊,從而更好地解決

  [0062]所述的自注意力機制用于挖掘序列數(shù)據(jù)在時間上的不確定性,進一步學(xué)習(xí)有效的

  [0063]所述的置信度回歸模塊用于獲取不同模態(tài)特征的模態(tài)置信度,以作為多模態(tài)融合

  [0064]所述的自步學(xué)習(xí)機制用于讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中,從

  [0065]有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明顯著的效果和實質(zhì)性的特點主要在于:

  [0066](1)本發(fā)明提出了一種新型的自動化多模態(tài)情緒識別方法,該方法能夠系統(tǒng)地建

  模多模態(tài)情緒識別中的不確定性,實現(xiàn)了多模態(tài)情緒數(shù)據(jù)的可信融合,并且明確地揭示了

  [0067](2)開發(fā)了一個具有注意力機制地多通道LSTM特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)可以同時校

  [0068](3)提出了一種基于真類概率的置信度回歸模塊來估計情緒預(yù)測在模態(tài)層面上的

  不確定性,通過置信度加權(quán)實現(xiàn)了更好的融合可解釋性和更可靠的多模態(tài)情緒識別表現(xiàn)。

  [0069](4)在模型的優(yōu)化過程中,采用自步學(xué)習(xí)來提高所提出模型的魯棒性。在多個多模

  態(tài)情緒數(shù)據(jù)集上的實驗結(jié)果表明,該方法的表現(xiàn)優(yōu)于當(dāng)前最先進的情緒識別算法,并通過

  [0074]為詳細(xì)的說明本發(fā)明所公開的技術(shù)方案,下面結(jié)合說明書附圖做進一步的介紹。

  [0075]現(xiàn)有的單模態(tài)腦電情緒識別方法難以反映受試者的情緒狀態(tài),且無法利用多模態(tài)

  數(shù)據(jù)中的互補信息,從而使其準(zhǔn)確性和穩(wěn)定性難以令人滿意。同時,情緒的復(fù)雜生理特性使

  kaiyun下載地址

  得不確定性成為情緒識別中的一個重要因素,多模態(tài)情緒識別中各種形式的不確定性增加

  [0076]本發(fā)明所提供的是一種基于置信度融合的多模態(tài)情緒識別方法,結(jié)合圖1所示的

  流程,實施例采用完全連接的神經(jīng)網(wǎng)絡(luò)層,其中共享權(quán)重的多通道LSTM網(wǎng)絡(luò)的隱藏層為256

  kaiyun下載地址

  個節(jié)點,層數(shù)為1,自注意力的線個節(jié)點,前饋網(wǎng)絡(luò)的隱藏層為512個節(jié)點,并

  在最后一層使用softmax作為激活函數(shù),在整個模型中,使用RELU作為激活函數(shù)。下面進一

  [0077]S1:獲取多模態(tài)情緒序列數(shù)據(jù),對該數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的同步多模態(tài)

  [0081]使用mne.filter()對EEG信號進行帶通濾波器濾波,以過濾EEG信號中與情緒激活

  [0083]對于數(shù)據(jù)集中的面部表情數(shù)據(jù),首先打開OPENFACE工具箱的GUI界面,將數(shù)據(jù)集中

  [0084]接著使用OPENFACE提取面部視頻的特征,其中包括3個相對于攝像頭的面部位置,

  [0085]最后,與EEG信號類似,根據(jù)t秒非重疊滑動窗口,取時間窗各特征的平均值作為最

  [0086]S2、基于步驟1中得到的經(jīng)過預(yù)處理的數(shù)據(jù),將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進

  間窗口數(shù),D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度,與它們對應(yīng)的標(biāo)簽信息記

  為y。為了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性,本發(fā)明采用了一

  個共享權(quán)重的多通道LSTM網(wǎng)絡(luò)(MC?LSTM)。通過共享權(quán)重,多通道LSTM可以學(xué)習(xí)跨模態(tài)之間

  [0089]這里和代表模態(tài)m={E,F(xiàn)}的第i個樣本第t?1或第t個時間窗在LSTM

  中的記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù)。代表多通道LSTM的輸出,則是第t個時間窗

  的記憶單元和隱藏狀態(tài)。隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享,而輸入向量的權(quán)值只

  在模態(tài)和時間窗之間共享。多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性,并實現(xiàn)

  [0090]步驟3:使用自注意力機制來建模時間層面的不確定性,識別出更可靠的時間段內(nèi)

  [0091]由于情緒模式的差異,即使在長時間和連續(xù)的刺激中,也很難保證在不同模式之

  間進行一致的情緒預(yù)測,這導(dǎo)致生理或非生理序列的某些時間段存在潛在的不確定性。為

  了克服這一局限性,增強時間信息的特異性,本發(fā)明采用自注意力機制,在序列數(shù)據(jù)中識別

  更可靠的時間段,對由多通道LSTM產(chǎn)生的X和X分別執(zhí)行線]這里的查詢Q,鍵K和值V代表模態(tài)m的三組線性變換特征表示。和分

  別是用于是用于生成模態(tài)m={E,F}特征表示的查詢、鍵和值的參數(shù)矩陣,在模型訓(xùn)練中通

  過反向傳播更新。通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù),

  [0099]得益于多模態(tài)信息之間的互補性,雖然多模態(tài)融合通常能夠增強情緒識別的性

  能,但不同模態(tài)的決策不一致可能對多模態(tài)融合產(chǎn)生負(fù)面影響。為了有效整合多模態(tài)信息,

  對每個模態(tài)的預(yù)測置信度進行估計是至關(guān)重要的。模態(tài)的預(yù)測置信度越高,對模型預(yù)測的

  不確定性就越低。因此,本發(fā)明引入了真類概率(TCP)來作為衡量模態(tài)置信度的標(biāo)準(zhǔn)。

  [0100]TCP使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度。形式上,每個模態(tài)的

  這里x表示模態(tài)m樣本的高維特征向量,y代表它的真實類別,TCP則代表模態(tài)m樣

  本對應(yīng)的真類概率。雖然TCP能夠獲得可靠的置信度,但由于沒有標(biāo)簽信息,在測試階段不

  [0103]對于模態(tài)m,本發(fā)明設(shè)計了一個置信回歸網(wǎng)絡(luò)g來近似TCP,利用MSE損失來訓(xùn)練置

  表TCP的真實值。然后TCP就可以用置信度回歸網(wǎng)絡(luò)來近似。同時為了保持多模態(tài)數(shù)據(jù)之間

  的共同特征,采用KL?divergence來約束不同模態(tài)的相似性。不僅可以學(xué)習(xí)置信度c,還可

  [0109]步驟5:基于置信度作為多模態(tài)融合的指導(dǎo),實現(xiàn)可信多模態(tài)融合。

  該方法利用自注意力機制提取EEG和面部表情模態(tài)特征,分別表示為f∈R,f

  ∈R。在訓(xùn)練過程中,利用置信度回歸網(wǎng)絡(luò)動態(tài)估計各模態(tài)的預(yù)測置信度,并以此作為加

  權(quán)的指導(dǎo)不同情緒模態(tài)的融合。通過賦予較高的權(quán)重,可以增強不確定性較低的模態(tài)的破

  [0112]這里c,c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度,

  代表特征拼接操作。該模型從模態(tài)層面對不確定性進行建模,使多模態(tài)融合預(yù)測更加可靠。

  [0114]對于多模態(tài)任務(wù),現(xiàn)有技術(shù)通常使用二元交叉熵(BCE)來監(jiān)督每個分支的學(xué)習(xí),但

  它會嚴(yán)重懲罰無法從特定模態(tài)分類的樣本。在這種情況下,模型可能會過度擬合數(shù)據(jù)中的

  偏差,從而導(dǎo)致模型的過度擬合。因此,基于由置信度感知融合得到的聯(lián)合特征表示,本發(fā)

  [0116]這里P(f)為融合特征向量劃分為某類的概率,Y為樣本的標(biāo)簽。

  [0117]步驟7:在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模,提高模型魯棒

  [0118]如果在訓(xùn)練過程中較早地引入具有較高訓(xùn)練學(xué)習(xí)損失的樣本,則它們更有可能對

  模型的魯棒性產(chǎn)生負(fù)面影響。為了學(xué)習(xí)多模態(tài)輸入的魯棒表示,該方法采用自定節(jié)奏學(xué)習(xí),

  [0121]這里n代表訓(xùn)練樣本的數(shù)量,y代表樣本對應(yīng)的標(biāo)簽。、上式中的自步學(xué)習(xí)正則化

  項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本。在本發(fā)明所述的方法中,采用了一個硬

  [0125]初始化λ的值為1,λ隨訓(xùn)練的遞增步長為1.15。在初始階段,本發(fā)明隨機選擇一小

  部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型。隨著訓(xùn)練的進行,根據(jù)樣本的訓(xùn)練損失將更多的樣本加入到訓(xùn)

  練過程中,直到包括所有樣本,這使得模型能夠?qū)W習(xí)到更魯棒的多模態(tài)特征表示。

  [0126]進一步的結(jié)合圖3和圖4,本發(fā)明所提出的多模態(tài)情緒識別模型包括基于時間不確

  定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度感知融合模塊、分類模塊和基于

  樣本不確定性的模型魯棒性優(yōu)化模塊。所提出系統(tǒng)的整體框架結(jié)構(gòu)如圖1所示,其中置信度

  回歸模塊的框架結(jié)構(gòu)如圖4所示。它由多通道LSTM、自注意力機制、置信度回歸模塊和自步

  學(xué)習(xí)機制組成。其中,多通道LSTM的作用是對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊,從而更

  好地解決模態(tài)異質(zhì)性對融合造成的負(fù)面影響。自注意力機制能夠挖掘序列數(shù)據(jù)在時間上的

  不確定性,進一步學(xué)習(xí)有效的特征表示。置信度回歸模塊的作用是獲取不同模態(tài)特征的模

  態(tài)置信度,以作為多模態(tài)融合的加權(quán)指導(dǎo),從而提升多模態(tài)融合的可靠性和情緒識別的準(zhǔn)

  確性。自步學(xué)習(xí)機制能夠讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中,從而更好地

  建模樣本層面的不確定性,提高模型的魯棒性和泛化能力。Confidence

  (L)的目的是為了解決真類概率由于需要標(biāo)簽信息,無法在測試期間計算得到的問題。

  通過訓(xùn)練置信度回歸模塊,模型能夠在測試階段逼近真類概率值。Kullback?Leibler

  Loss(L)用于約束不同模態(tài)間的特征相似性,從而保持多模態(tài)數(shù)據(jù)之間的共

  [0127]綜上所述,本發(fā)明所提供的方法中,多通道LSTM的作用是對異構(gòu)多模態(tài)情緒數(shù)據(jù)

  進行跨模態(tài)對齊,從而更好地解決模態(tài)異質(zhì)性對融合造成的負(fù)面影響。自注意力機制能夠

  挖掘序列數(shù)據(jù)在時間上的不確定性,進一步學(xué)習(xí)有效的特征表示。置信度回歸模塊的作用

  是獲取不同模態(tài)特征的模態(tài)置信度,以作為多模態(tài)融合的加權(quán)指導(dǎo),從而提升多模態(tài)融合

  的可靠性和情緒識別的準(zhǔn)確性。自步學(xué)習(xí)機制能夠讓模型逐步將不確定性樣本加入到模型

  訓(xùn)練過程中,從而更好地建模樣本層面的不確定性,提高模型的魯棒性和泛化能力,L的

  目的是為了解決真類概率由于需要標(biāo)簽信息,無法在測試期間計算得到的問題。通過訓(xùn)練

  置信度回歸模塊,模型能夠在測試階段逼近真類概率值。L用于約束不同模態(tài)間的特征相

  似性,從而保持多模態(tài)數(shù)據(jù)之間的共同特征,避免關(guān)鍵情緒特征的丟失。此外,Cross?

  Loss(L)的作用是訓(xùn)練分類器,通過拉近預(yù)測標(biāo)簽和真實標(biāo)簽之間的距離來提升

  2、成為VIP后,下載本文檔將扣除1次下載權(quán)益。下載后,不支持退款、換文檔。如有疑問加。

  3、成為VIP后,您將擁有八大權(quán)益,權(quán)益包括:VIP文檔下載權(quán)益、閱讀免打擾、文檔格式轉(zhuǎn)換、高級專利檢索、專屬身份標(biāo)志、高級客服、多端互通、版權(quán)登記。

  4、VIP文檔為合作方或網(wǎng)友上傳,每下載1次, 網(wǎng)站將根據(jù)用戶上傳文檔的質(zhì)量評分、類型等,對文檔貢獻者給予高額補貼、流量扶持。如果你也想貢獻VIP文檔。上傳文檔

  遼寧省遼陽市2024-2025學(xué)年高一下學(xué)期期末考試語文試卷(含答案).pdf

  六年級(下)小升初語文必考重點古詩文、日積月累專題練習(xí)卷(有答案).pdf

  遼寧省沈陽市2024-2025學(xué)年高一下學(xué)期暑假語文練習(xí)題(含答案).pdf

  2023年安徽省宿州市墉橋區(qū)城東街道招聘社區(qū)工作者真題及答案詳解一套.docx

  寧夏石嘴山市第一中學(xué)2024-2025學(xué)年高二下學(xué)期7月期末考試語文試卷(含答案).pdf

  2023年安徽省宿州市墉橋區(qū)南關(guān)街道招聘社區(qū)工作者真題含答案詳解.docx

  吉林省通化市2025-2026學(xué)年新高三暑假語文練習(xí)題(含答案).pdf

  CNAS-GL27-2009 聲明檢測或校準(zhǔn)結(jié)果及與規(guī)范符合性的指南.pdf

  【行業(yè)研報】2023年肯尼亞行業(yè)企業(yè)戰(zhàn)略規(guī)劃方案及未來五年行業(yè)預(yù)測報告.docx

  部編六年級下冊第11課《十六年前的回憶》一等獎教學(xué)設(shè)計說課稿.docx

  GB_T 39637-2020 金屬和合金的腐蝕 土壤環(huán)境腐蝕性分類.pdf

  原創(chuàng)力文檔創(chuàng)建于2008年,本站為文檔C2C交易模式,即用戶上傳的文檔直接分享給其他用戶(可下載、閱讀),本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人所有。原創(chuàng)力文檔是網(wǎng)絡(luò)服務(wù)平臺方,若您的權(quán)利被侵害,請發(fā)鏈接和相關(guān)訴求至 電線) ,上傳者

Copyright ? 2025 Kaiyun科技股份有限公司 版權(quán)所有   浙ICP備11013208號-1

開云網(wǎng)站 - 情緒化智能照明算法應(yīng)用專家