本發(fā)明公開了一種基于置信度融合的多模態(tài)情緒識別方法及系統(tǒng),屬于人工智能技術(shù)領(lǐng)域。本發(fā)明能夠系統(tǒng)地對多模態(tài)情緒數(shù)據(jù)中的不確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化。包括使用MNE和OPENFACE工具包分別對EEG信號和面部表情特征進行數(shù)據(jù)預(yù)處理,使用共享權(quán)重的多通道LSTM對預(yù)處理后的多模態(tài)樣本進行跨模態(tài)特征對齊,并采用自注意力機制對序列數(shù)據(jù)在時間層面上的不確定性進行建模。還包括訓(xùn)練兩個置信度回歸模塊來獲取不同模態(tài)特征表示的分類置信度,以作為多模態(tài)融合的指導(dǎo);基于置信度回歸模塊獲取的置信
1.一種基于置信度融合的多模態(tài)情緒識別方法,其特征在于,該方法針對多模態(tài)情緒
數(shù)據(jù)中的不確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化,包括如下步驟:
S1、獲取多模態(tài)情緒序列數(shù)據(jù),對該數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的同步多模態(tài)序列
S2、基于步驟1中預(yù)處理的數(shù)據(jù),將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進行多模態(tài)特征對
口數(shù),D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度,與之對應(yīng)的標(biāo)簽信息記為y;為
了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性,采用一個共享權(quán)重的多
通道LSTM網(wǎng)絡(luò),通過共享權(quán)重,多通道LSTM學(xué)習(xí)跨模態(tài)之間的相關(guān)性,公式表示如下:
式中,和代表模態(tài)m={E,F}的第i個樣本第t?1或第t個時間窗在LSTM中的
記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù);代表多通道LSTM的輸出,則是第t個時間窗的記
憶單元和隱藏狀態(tài);隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享,而輸入向量的權(quán)值只在模
態(tài)和時間窗之間共享;多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性,并實現(xiàn)異構(gòu)
S3、使用自注意力機制來建模時間層面的不確定性,識別出更可靠的時間段內(nèi)的序列
于生成模態(tài)m={E,F}特征表示的查詢、鍵和值的參數(shù)矩陣,在模型訓(xùn)練中通過反向傳播更
S4、基于真類概率設(shè)計置信度回歸網(wǎng)絡(luò)來獲得模態(tài)的置信度,同時為了保持多模態(tài)數(shù)
據(jù)之間的共同特征,采用KL?divergence來約束不同模態(tài)的相似性;
其中,所述真類概率使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度,每個模態(tài)
式中,x表示模態(tài)m樣本的高維特征向量,y代表它的真實類別,TCP則代表模態(tài)m樣本對
S5、基于置信度作為多模態(tài)融合的指導(dǎo),實現(xiàn)可信多模態(tài)融合,通過自注意力機制提取
EEG和面部表情模態(tài)特征,分別表示為f∈R,f∈R;在訓(xùn)練過程中,利用置信度回歸網(wǎng)
S6、基于融合后的多模態(tài)特征進行分類,實現(xiàn)情緒識別,其中包括使用交叉熵?fù)p失來監(jiān)
S7、在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模,為了學(xué)習(xí)多模態(tài)輸入的
魯棒表示,采用自定節(jié)奏學(xué)習(xí),基于低到高不確定性的樣本來訓(xùn)練上述模型,由此提高模型
2.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S1
S1.2、使用mne.filter()對EEG信號進行帶通濾波器濾波,以過濾EEG信號中與情緒激
S1.3、通過Welch方法提取EEG信號中t秒非重疊時間窗口的功率頻譜密度特征;
S1.4、對于數(shù)據(jù)集中的面部表情數(shù)據(jù),將數(shù)據(jù)集中原始的視頻數(shù)據(jù)導(dǎo)入OPENFACE工具
S1.5、使用OPENFACE提取面部視頻的特征,其中包括相面部位置、頭部位置、眼睛凝視
S1.6、根據(jù)t秒非重疊滑動窗口,取時間窗各特征的平均值作為最終使用的特征。
3.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S3
通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù),并將其輸入
SoftMax函數(shù),然后,通過注意力系數(shù)與V的乘積得到具有自注意的特征:
4.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S4
中,對于模態(tài)m,通過一個置信回歸網(wǎng)絡(luò)g來近似真類概率,利用MSE損失來訓(xùn)練置信回歸網(wǎng)
這里的c=g(x)表示由置信度回歸網(wǎng)絡(luò)預(yù)測的置信度值,M是模態(tài)的數(shù)量,代表TCP
5.根據(jù)權(quán)利要求1或4所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步
驟S4中通過KL?divergence來約束不同模態(tài)的相似性,不僅可以學(xué)習(xí)置信度c,還可以根據(jù)
6.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S5
還包括通過賦予較高的權(quán)重,增強不確定性較低的模態(tài)的破壞性;通過賦予較低的權(quán)重,可
這里c,c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度,代表
7.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S6
式中,表示交叉熵?fù)p失,P(f)為融合特征向量劃分為某類的概率,Y為樣本的標(biāo)
8.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,步驟S7
上式中的自步學(xué)習(xí)正則化項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本,在該方法
9.根據(jù)權(quán)利要求8所述的基于置信度融合的多模態(tài)情緒識別方法,其特征在于,在初始
階段,隨機選擇一小部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型;隨著訓(xùn)練的進行,根據(jù)樣本的訓(xùn)練損失將更
多的樣本加入到訓(xùn)練過程中,直到包括所有樣本,這使得模型能夠?qū)W習(xí)到更魯棒的多模態(tài)
10.一種基于置信度融合的多模態(tài)情緒識別系統(tǒng),其特征在于,該系統(tǒng)包括基于時間不
確定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度感知融合模塊、分類模塊和基
該系統(tǒng)及上述模塊是由實施如權(quán)利要求1所述的方法得到的,且所述的置信度感知融
合模塊由多通道LSTM、自注意力機制、置信度回歸模塊和自步學(xué)習(xí)機制組成;
所述的多通道LSTM用于對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊,從而更好地解決模態(tài)
所述的自注意力機制用于挖掘序列數(shù)據(jù)在時間上的不確定性,進一步學(xué)習(xí)有效的特征
所述的置信度回歸模塊用于獲取不同模態(tài)特征的模態(tài)置信度,以作為多模態(tài)融合的加
所述的自步學(xué)習(xí)機制用于讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中,從而更
[0001]本發(fā)明屬于人工智能技術(shù)領(lǐng)域,具體涉及一種基于置信度融合的多模態(tài)情緒識別
[0002]情緒識別正受到越來越多的關(guān)注,由于其在人機交互系統(tǒng)的感知和決策提供了關(guān)
鍵信息,使這些系統(tǒng)能夠?qū)τ脩舻那榫w狀態(tài)做出適當(dāng)?shù)姆磻?yīng)。在生理情緒特征中,腦電圖具
有無創(chuàng)、低成本和高時間分辨率等優(yōu)點。不僅如此,由于EEG信號與高級認(rèn)知過程直接相關(guān),
基于EEG的情緒識別在近年來受到越來越多的關(guān)注。此外,情緒數(shù)據(jù)的收集和識別過程往往
受到不同程度的不確定性影響。因此,開發(fā)能夠有效提取情感內(nèi)在狀態(tài)的魯棒識別模型仍
[0003]許多基于機器學(xué)習(xí)或深度學(xué)習(xí)的方法已被用于基于EEG的情緒識別。HSAN能夠聯(lián)
合建模EEG特征的局部和全局時間信息。MNSEP通過學(xué)習(xí)EEG腦網(wǎng)絡(luò)中的判別圖拓?fù)?,能夠?
用多個與情緒相關(guān)的空間網(wǎng)絡(luò)拓?fù)淠J竭M行多類別情緒識別。OGSSL將自適應(yīng)圖學(xué)習(xí)和情
緒識別統(tǒng)一為一個目標(biāo)。然而上述方法依賴于單模態(tài)分析,不能完全反映情緒狀態(tài),難以達
到令人滿意的準(zhǔn)確性和穩(wěn)定性。得益于多模態(tài)之間的互補信息,整合生理信號和行為信號
可以提高情緒識別的表現(xiàn)。ETF基于注意力機制融合EEG和眼動數(shù)據(jù),以實現(xiàn)較高的情緒識
別精度。MMResLSTM能夠?qū)W習(xí)EEG與外圍生理信號的潛在相關(guān)性,從而提高識別性能。
EmotionMeter通過將EEG和眼動結(jié)合,整合了內(nèi)部認(rèn)知和外部潛意識行為,探索了多模態(tài)表
征能力的互補特征。然而,情緒的復(fù)雜生理特性使得不確定性成為情緒識別中的一個重要
因素。具體來說,多模態(tài)數(shù)據(jù)中各種形式不確定性的存在增加了準(zhǔn)確識別情緒的難度。
[0004]近年來,研究者提出了一些基于不確定性學(xué)習(xí)的情緒識別方法。例如,EMENet通過
采用深度集成模型從多個情緒描述符中捕獲不確定性,并應(yīng)用迭代自蒸餾來提高情緒識別
和不確定性估計的性能。IQI能夠用來描述不同頻段信號強度的不確定性,從而精確提取和
選擇腦電情緒特征。SCN通過自注意力機制對訓(xùn)練中的每個樣本進行加權(quán)。值得注意的是,
這些不確定性分析方法都是針對單模態(tài)情緒預(yù)測而開發(fā)的,并不能環(huán)節(jié)多模態(tài)情緒數(shù)據(jù)和
融合模型中更多的不確定性。多模態(tài)情緒數(shù)據(jù)和模型中的不確定性歸結(jié)為以下三個方面:
首先,多模態(tài)情緒數(shù)據(jù)通常具有不同的語義表示,并且由于情緒產(chǎn)生的機制不同,每個時間
窗口對情緒狀態(tài)的重要性也不同,這反映了時間層面的不確定性。其次,不同模態(tài)所產(chǎn)生的
決策模糊性導(dǎo)致了融合層面的不確定性。第三,同一模型識別來自不同主體或軌跡的情緒
樣本的難度或置信度不同,反映了樣本層面的不確定性。上述不確定性共同給多模態(tài)情感
識別帶來了挑戰(zhàn)。因此,迫切需要開發(fā)有效的融合方法來緩解上述不確定性,提高多模態(tài)情
[0005]發(fā)明目的:針對單模態(tài)腦電情緒識別方法存在的不足問題,本發(fā)明的第一目的是
提供一種基于置信度融合的多模態(tài)情緒識別方法,它能夠系統(tǒng)地對多模態(tài)情緒數(shù)據(jù)中的不
確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化。基于該方法的應(yīng)用,本發(fā)明第二
[0006]技術(shù)方案:一種基于置信度融合的多模態(tài)情緒識別方法,該方法針對多模態(tài)情緒
數(shù)據(jù)中的不確定性進行建模,通過不確定性估計揭示情緒的動態(tài)變化,包括如下步驟:
[0007]S1、獲取多模態(tài)情緒序列數(shù)據(jù),對該數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的同步多模態(tài)
[0008]S2、基于步驟1中得到的經(jīng)過預(yù)處理的數(shù)據(jù),將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進
間窗口數(shù),D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度,與之對應(yīng)的標(biāo)簽信息記為
y;為了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性,采用了一個共享權(quán)
重的多通道LSTM網(wǎng)絡(luò)(MC?LSTM表示LSTM網(wǎng)絡(luò)的進程),通過共享權(quán)重,多通道LSTM學(xué)習(xí)跨模
[0011]式中,和代表模態(tài)m={E,F}的第i個樣本第t?1或第t個時間窗在
LSTM中的記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù);代表多通道LSTM的輸出,則是第t個時
間窗的記憶單元和隱藏狀態(tài);隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享,而輸入向量的權(quán)
值只在模態(tài)和時間窗之間共享;多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性,并
[0012]S3、使用自注意力機制來建模時間層面的不確定性,識別出更可靠的時間段內(nèi)的
由多通道LSTM產(chǎn)生的X和X分別執(zhí)行線]式中,查詢Q,鍵K和值V代表模態(tài)m的三組線性變換特征表示,和分
別是用于生成模態(tài)m={E,F}特征表示的查詢、鍵和值的參數(shù)矩陣,在模型訓(xùn)練中通過反向
[0017]S4、基于真類概率設(shè)計置信度回歸網(wǎng)絡(luò)來獲得模態(tài)的置信度,同時為了保持多模
態(tài)數(shù)據(jù)之間的共同特征,采用KL?divergence來約束不同模態(tài)的相似性;
[0018]其中,所述真類概率使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度,每個
式中,x表示模態(tài)m樣本的高維特征向量,y代表它的真實類別,TCP則代表模態(tài)m樣
[0021]S5、基于置信度作為多模態(tài)融合的指導(dǎo),實現(xiàn)可信多模態(tài)融合,通過自注意力機制
提取EEG和面部表情模態(tài)特征,分別表示為f∈R,f∈R;在訓(xùn)練過程中,利用置信度回
歸網(wǎng)絡(luò)動態(tài)估計各模態(tài)的預(yù)測置信度,并以此作為加權(quán)的指導(dǎo)不同情緒模態(tài)的融合;
[0022]S6、基于融合后的多模態(tài)特征進行分類,實現(xiàn)情緒識別,其中包括使用交叉熵?fù)p失
[0023]S7、在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模,為了學(xué)習(xí)多模態(tài)輸
入的魯棒表示,采用自定節(jié)奏學(xué)習(xí),基于低到高不確定性的樣本來訓(xùn)練上述模型,由此提高
集進行預(yù)處理,對于數(shù)據(jù)集中的EEG信號執(zhí)行下采樣,將信號下采樣到128Hz;
[0027]S1.3、通過Welch方法提取EEG中t秒非重疊時間窗口的功率頻譜密度特征;
[0028]S1.4、對于數(shù)據(jù)集中的面部表情數(shù)據(jù),將數(shù)據(jù)集中原始的視頻數(shù)據(jù)導(dǎo)入OPENFACE
[0029]S1.5、使用OPENFACE提取面部視頻的特征,其中包括相對于攝像頭的面部位置,頭
[0030]S1.6、根據(jù)t秒非重疊滑動窗口,取時間窗各特征的平均值作為最終使用的特征。
[0032]通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù),并將其
輸入SoftMax函數(shù),然后,通過注意力系數(shù)與V的乘積得到具有自注意的特征:
[0034]式中,d代表歸一化參數(shù),它與K的維度相等,表示K的轉(zhuǎn)置矩陣。
[0035]所述方法中,步驟S4對于模態(tài)m,通過一個置信回歸網(wǎng)絡(luò)g來近似真類概率,利用
這里的c=g(x)表示由置信度回歸網(wǎng)絡(luò)預(yù)測的置信度值,M是模態(tài)的數(shù)量,代
[0038]進一步的,步驟S4中通過KL?divergence來約束不同模態(tài)的相似性,不僅可以學(xué)習(xí)
置信度c,還可以根據(jù)所提出的置信度回歸網(wǎng)絡(luò)的SoftMax輸出獲得每個模態(tài)的預(yù)測分布
[0043]所述方法中,步驟S5還包括通過賦予較高的權(quán)重,增強不確定性較低的模態(tài)的破
[0045]這里c,c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度,
[0046]所述方法中,步驟S6通過交叉熵?fù)p失來監(jiān)督多模態(tài)學(xué)習(xí),避免模型的過渡擬合,計
[0048]式中,表示交叉熵?fù)p失,P(f)為融合特征向量劃分為某類的概率,Y為樣本
[0049]所述方法中,步驟S7所述自定節(jié)奏學(xué)習(xí),基于低到高不確定性的樣本來訓(xùn)練過程
為樣本不確定性的度量,其中α和β是控制損失權(quán)重的超參數(shù),通過最小化以下函數(shù):
[0053]上式中的自步學(xué)習(xí)正則化項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本,在
[0058]更進一步的,在初始階段,隨機選擇一小部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型;隨著訓(xùn)練的進
行,根據(jù)樣本的訓(xùn)練損失將更多的樣本加入到訓(xùn)練過程中,直到包括所有樣本,這使得模型
[0059]通過實施上述方法及步驟,相應(yīng)的可得到一種基于置信度融合的多模態(tài)情緒識別
系統(tǒng),該系統(tǒng)包括基于時間不確定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度
[0060]該系統(tǒng)中,所述的置信度感知融合模塊由多通道LSTM、自注意力機制、置信度回歸
[0061]所述的多通道LSTM用于對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊,從而更好地解決
[0062]所述的自注意力機制用于挖掘序列數(shù)據(jù)在時間上的不確定性,進一步學(xué)習(xí)有效的
[0063]所述的置信度回歸模塊用于獲取不同模態(tài)特征的模態(tài)置信度,以作為多模態(tài)融合
[0064]所述的自步學(xué)習(xí)機制用于讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中,從
[0065]有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明顯著的效果和實質(zhì)性的特點主要在于:
[0066](1)本發(fā)明提出了一種新型的自動化多模態(tài)情緒識別方法,該方法能夠系統(tǒng)地建
模多模態(tài)情緒識別中的不確定性,實現(xiàn)了多模態(tài)情緒數(shù)據(jù)的可信融合,并且明確地揭示了
[0067](2)開發(fā)了一個具有注意力機制地多通道LSTM特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)可以同時校
[0068](3)提出了一種基于真類概率的置信度回歸模塊來估計情緒預(yù)測在模態(tài)層面上的
不確定性,通過置信度加權(quán)實現(xiàn)了更好的融合可解釋性和更可靠的多模態(tài)情緒識別表現(xiàn)。
[0069](4)在模型的優(yōu)化過程中,采用自步學(xué)習(xí)來提高所提出模型的魯棒性。在多個多模
態(tài)情緒數(shù)據(jù)集上的實驗結(jié)果表明,該方法的表現(xiàn)優(yōu)于當(dāng)前最先進的情緒識別算法,并通過
[0074]為詳細(xì)的說明本發(fā)明所公開的技術(shù)方案,下面結(jié)合說明書附圖做進一步的介紹。
[0075]現(xiàn)有的單模態(tài)腦電情緒識別方法難以反映受試者的情緒狀態(tài),且無法利用多模態(tài)
數(shù)據(jù)中的互補信息,從而使其準(zhǔn)確性和穩(wěn)定性難以令人滿意。同時,情緒的復(fù)雜生理特性使
得不確定性成為情緒識別中的一個重要因素,多模態(tài)情緒識別中各種形式的不確定性增加
[0076]本發(fā)明所提供的是一種基于置信度融合的多模態(tài)情緒識別方法,結(jié)合圖1所示的
流程,實施例采用完全連接的神經(jīng)網(wǎng)絡(luò)層,其中共享權(quán)重的多通道LSTM網(wǎng)絡(luò)的隱藏層為256
個節(jié)點,層數(shù)為1,自注意力的線個節(jié)點,前饋網(wǎng)絡(luò)的隱藏層為512個節(jié)點,并
在最后一層使用softmax作為激活函數(shù),在整個模型中,使用RELU作為激活函數(shù)。下面進一
[0077]S1:獲取多模態(tài)情緒序列數(shù)據(jù),對該數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后的同步多模態(tài)
[0081]使用mne.filter()對EEG信號進行帶通濾波器濾波,以過濾EEG信號中與情緒激活
[0083]對于數(shù)據(jù)集中的面部表情數(shù)據(jù),首先打開OPENFACE工具箱的GUI界面,將數(shù)據(jù)集中
[0084]接著使用OPENFACE提取面部視頻的特征,其中包括3個相對于攝像頭的面部位置,
[0085]最后,與EEG信號類似,根據(jù)t秒非重疊滑動窗口,取時間窗各特征的平均值作為最
[0086]S2、基于步驟1中得到的經(jīng)過預(yù)處理的數(shù)據(jù),將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進
間窗口數(shù),D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度,與它們對應(yīng)的標(biāo)簽信息記
為y。為了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性,本發(fā)明采用了一
個共享權(quán)重的多通道LSTM網(wǎng)絡(luò)(MC?LSTM)。通過共享權(quán)重,多通道LSTM可以學(xué)習(xí)跨模態(tài)之間
[0089]這里和代表模態(tài)m={E,F(xiàn)}的第i個樣本第t?1或第t個時間窗在LSTM
中的記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù)。代表多通道LSTM的輸出,則是第t個時間窗
的記憶單元和隱藏狀態(tài)。隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享,而輸入向量的權(quán)值只
在模態(tài)和時間窗之間共享。多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性,并實現(xiàn)
[0090]步驟3:使用自注意力機制來建模時間層面的不確定性,識別出更可靠的時間段內(nèi)
[0091]由于情緒模式的差異,即使在長時間和連續(xù)的刺激中,也很難保證在不同模式之
間進行一致的情緒預(yù)測,這導(dǎo)致生理或非生理序列的某些時間段存在潛在的不確定性。為
了克服這一局限性,增強時間信息的特異性,本發(fā)明采用自注意力機制,在序列數(shù)據(jù)中識別
更可靠的時間段,對由多通道LSTM產(chǎn)生的X和X分別執(zhí)行線]這里的查詢Q,鍵K和值V代表模態(tài)m的三組線性變換特征表示。和分
別是用于是用于生成模態(tài)m={E,F}特征表示的查詢、鍵和值的參數(shù)矩陣,在模型訓(xùn)練中通
過反向傳播更新。通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù),
[0099]得益于多模態(tài)信息之間的互補性,雖然多模態(tài)融合通常能夠增強情緒識別的性
能,但不同模態(tài)的決策不一致可能對多模態(tài)融合產(chǎn)生負(fù)面影響。為了有效整合多模態(tài)信息,
對每個模態(tài)的預(yù)測置信度進行估計是至關(guān)重要的。模態(tài)的預(yù)測置信度越高,對模型預(yù)測的
不確定性就越低。因此,本發(fā)明引入了真類概率(TCP)來作為衡量模態(tài)置信度的標(biāo)準(zhǔn)。
[0100]TCP使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度。形式上,每個模態(tài)的
這里x表示模態(tài)m樣本的高維特征向量,y代表它的真實類別,TCP則代表模態(tài)m樣
本對應(yīng)的真類概率。雖然TCP能夠獲得可靠的置信度,但由于沒有標(biāo)簽信息,在測試階段不
[0103]對于模態(tài)m,本發(fā)明設(shè)計了一個置信回歸網(wǎng)絡(luò)g來近似TCP,利用MSE損失來訓(xùn)練置
表TCP的真實值。然后TCP就可以用置信度回歸網(wǎng)絡(luò)來近似。同時為了保持多模態(tài)數(shù)據(jù)之間
的共同特征,采用KL?divergence來約束不同模態(tài)的相似性。不僅可以學(xué)習(xí)置信度c,還可
[0109]步驟5:基于置信度作為多模態(tài)融合的指導(dǎo),實現(xiàn)可信多模態(tài)融合。
該方法利用自注意力機制提取EEG和面部表情模態(tài)特征,分別表示為f∈R,f
∈R。在訓(xùn)練過程中,利用置信度回歸網(wǎng)絡(luò)動態(tài)估計各模態(tài)的預(yù)測置信度,并以此作為加
權(quán)的指導(dǎo)不同情緒模態(tài)的融合。通過賦予較高的權(quán)重,可以增強不確定性較低的模態(tài)的破
[0112]這里c,c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度,
代表特征拼接操作。該模型從模態(tài)層面對不確定性進行建模,使多模態(tài)融合預(yù)測更加可靠。
[0114]對于多模態(tài)任務(wù),現(xiàn)有技術(shù)通常使用二元交叉熵(BCE)來監(jiān)督每個分支的學(xué)習(xí),但
它會嚴(yán)重懲罰無法從特定模態(tài)分類的樣本。在這種情況下,模型可能會過度擬合數(shù)據(jù)中的
偏差,從而導(dǎo)致模型的過度擬合。因此,基于由置信度感知融合得到的聯(lián)合特征表示,本發(fā)
[0116]這里P(f)為融合特征向量劃分為某類的概率,Y為樣本的標(biāo)簽。
[0117]步驟7:在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模,提高模型魯棒
[0118]如果在訓(xùn)練過程中較早地引入具有較高訓(xùn)練學(xué)習(xí)損失的樣本,則它們更有可能對
模型的魯棒性產(chǎn)生負(fù)面影響。為了學(xué)習(xí)多模態(tài)輸入的魯棒表示,該方法采用自定節(jié)奏學(xué)習(xí),
[0121]這里n代表訓(xùn)練樣本的數(shù)量,y代表樣本對應(yīng)的標(biāo)簽。、上式中的自步學(xué)習(xí)正則化
項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本。在本發(fā)明所述的方法中,采用了一個硬
[0125]初始化λ的值為1,λ隨訓(xùn)練的遞增步長為1.15。在初始階段,本發(fā)明隨機選擇一小
部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型。隨著訓(xùn)練的進行,根據(jù)樣本的訓(xùn)練損失將更多的樣本加入到訓(xùn)
練過程中,直到包括所有樣本,這使得模型能夠?qū)W習(xí)到更魯棒的多模態(tài)特征表示。
[0126]進一步的結(jié)合圖3和圖4,本發(fā)明所提出的多模態(tài)情緒識別模型包括基于時間不確
定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度感知融合模塊、分類模塊和基于
樣本不確定性的模型魯棒性優(yōu)化模塊。所提出系統(tǒng)的整體框架結(jié)構(gòu)如圖1所示,其中置信度
回歸模塊的框架結(jié)構(gòu)如圖4所示。它由多通道LSTM、自注意力機制、置信度回歸模塊和自步
學(xué)習(xí)機制組成。其中,多通道LSTM的作用是對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊,從而更
好地解決模態(tài)異質(zhì)性對融合造成的負(fù)面影響。自注意力機制能夠挖掘序列數(shù)據(jù)在時間上的
不確定性,進一步學(xué)習(xí)有效的特征表示。置信度回歸模塊的作用是獲取不同模態(tài)特征的模
態(tài)置信度,以作為多模態(tài)融合的加權(quán)指導(dǎo),從而提升多模態(tài)融合的可靠性和情緒識別的準(zhǔn)
確性。自步學(xué)習(xí)機制能夠讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中,從而更好地
建模樣本層面的不確定性,提高模型的魯棒性和泛化能力。Confidence
(L)的目的是為了解決真類概率由于需要標(biāo)簽信息,無法在測試期間計算得到的問題。
通過訓(xùn)練置信度回歸模塊,模型能夠在測試階段逼近真類概率值。Kullback?Leibler
Loss(L)用于約束不同模態(tài)間的特征相似性,從而保持多模態(tài)數(shù)據(jù)之間的共
[0127]綜上所述,本發(fā)明所提供的方法中,多通道LSTM的作用是對異構(gòu)多模態(tài)情緒數(shù)據(jù)
進行跨模態(tài)對齊,從而更好地解決模態(tài)異質(zhì)性對融合造成的負(fù)面影響。自注意力機制能夠
挖掘序列數(shù)據(jù)在時間上的不確定性,進一步學(xué)習(xí)有效的特征表示。置信度回歸模塊的作用
是獲取不同模態(tài)特征的模態(tài)置信度,以作為多模態(tài)融合的加權(quán)指導(dǎo),從而提升多模態(tài)融合
的可靠性和情緒識別的準(zhǔn)確性。自步學(xué)習(xí)機制能夠讓模型逐步將不確定性樣本加入到模型
訓(xùn)練過程中,從而更好地建模樣本層面的不確定性,提高模型的魯棒性和泛化能力,L的
目的是為了解決真類概率由于需要標(biāo)簽信息,無法在測試期間計算得到的問題。通過訓(xùn)練
置信度回歸模塊,模型能夠在測試階段逼近真類概率值。L用于約束不同模態(tài)間的特征相
似性,從而保持多模態(tài)數(shù)據(jù)之間的共同特征,避免關(guān)鍵情緒特征的丟失。此外,Cross?
Loss(L)的作用是訓(xùn)練分類器,通過拉近預(yù)測標(biāo)簽和真實標(biāo)簽之間的距離來提升
2、成為VIP后,下載本文檔將扣除1次下載權(quán)益。下載后,不支持退款、換文檔。如有疑問加。
3、成為VIP后,您將擁有八大權(quán)益,權(quán)益包括:VIP文檔下載權(quán)益、閱讀免打擾、文檔格式轉(zhuǎn)換、高級專利檢索、專屬身份標(biāo)志、高級客服、多端互通、版權(quán)登記。
4、VIP文檔為合作方或網(wǎng)友上傳,每下載1次, 網(wǎng)站將根據(jù)用戶上傳文檔的質(zhì)量評分、類型等,對文檔貢獻者給予高額補貼、流量扶持。如果你也想貢獻VIP文檔。上傳文檔
遼寧省遼陽市2024-2025學(xué)年高一下學(xué)期期末考試語文試卷(含答案).pdf
六年級(下)小升初語文必考重點古詩文、日積月累專題練習(xí)卷(有答案).pdf
遼寧省沈陽市2024-2025學(xué)年高一下學(xué)期暑假語文練習(xí)題(含答案).pdf
2023年安徽省宿州市墉橋區(qū)城東街道招聘社區(qū)工作者真題及答案詳解一套.docx
寧夏石嘴山市第一中學(xué)2024-2025學(xué)年高二下學(xué)期7月期末考試語文試卷(含答案).pdf
2023年安徽省宿州市墉橋區(qū)南關(guān)街道招聘社區(qū)工作者真題含答案詳解.docx
吉林省通化市2025-2026學(xué)年新高三暑假語文練習(xí)題(含答案).pdf
CNAS-GL27-2009 聲明檢測或校準(zhǔn)結(jié)果及與規(guī)范符合性的指南.pdf
【行業(yè)研報】2023年肯尼亞行業(yè)企業(yè)戰(zhàn)略規(guī)劃方案及未來五年行業(yè)預(yù)測報告.docx
部編六年級下冊第11課《十六年前的回憶》一等獎教學(xué)設(shè)計說課稿.docx
GB_T 39637-2020 金屬和合金的腐蝕 土壤環(huán)境腐蝕性分類.pdf
原創(chuàng)力文檔創(chuàng)建于2008年,本站為文檔C2C交易模式,即用戶上傳的文檔直接分享給其他用戶(可下載、閱讀),本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人所有。原創(chuàng)力文檔是網(wǎng)絡(luò)服務(wù)平臺方,若您的權(quán)利被侵害,請發(fā)鏈接和相關(guān)訴求至 電線) ,上傳者