麻豆国产在线精品国偷产拍,亚洲国产精品一区二区制服

　　本發(fā)明公開了一種基于置信度融合的多模態(tài)情緒識別方法及系統(tǒng)，屬于人工智能技術(shù)領(lǐng)域。本發(fā)明能夠系統(tǒng)地對多模態(tài)情緒數(shù)據(jù)中的不確定性進行建模，通過不確定性估計揭示情緒的動態(tài)變化。包括使用MNE和OPENFACE工具包分別對EEG信號和面部表情特征進行數(shù)據(jù)預(yù)處理，使用共享權(quán)重的多通道LSTM對預(yù)處理后的多模態(tài)樣本進行跨模態(tài)特征對齊，并采用自注意力機制對序列數(shù)據(jù)在時間層面上的不確定性進行建模。還包括訓(xùn)練兩個置信度回歸模塊來獲取不同模態(tài)特征表示的分類置信度，以作為多模態(tài)融合的指導(dǎo)；基于置信度回歸模塊獲取的置信

　　1.一種基于置信度融合的多模態(tài)情緒識別方法，其特征在于，該方法針對多模態(tài)情緒

　　數(shù)據(jù)中的不確定性進行建模，通過不確定性估計揭示情緒的動態(tài)變化，包括如下步驟：

　　S1、獲取多模態(tài)情緒序列數(shù)據(jù)，對該數(shù)據(jù)進行預(yù)處理，得到預(yù)處理后的同步多模態(tài)序列

　　S2、基于步驟1中預(yù)處理的數(shù)據(jù)，將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進行多模態(tài)特征對

　　口數(shù)，D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度，與之對應(yīng)的標(biāo)簽信息記為y；為

　　了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性，采用一個共享權(quán)重的多

　　通道LSTM網(wǎng)絡(luò)，通過共享權(quán)重，多通道LSTM學(xué)習(xí)跨模態(tài)之間的相關(guān)性，公式表示如下：

　　式中，和代表模態(tài)m＝{E,F}的第i個樣本第t?1或第t個時間窗在LSTM中的

　　記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù)；代表多通道LSTM的輸出，則是第t個時間窗的記

　　憶單元和隱藏狀態(tài)；隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享，而輸入向量的權(quán)值只在模

　　態(tài)和時間窗之間共享；多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性，并實現(xiàn)異構(gòu)

　　S3、使用自注意力機制來建模時間層面的不確定性，識別出更可靠的時間段內(nèi)的序列

　　于生成模態(tài)m＝{E,F}特征表示的查詢、鍵和值的參數(shù)矩陣，在模型訓(xùn)練中通過反向傳播更

　　S4、基于真類概率設(shè)計置信度回歸網(wǎng)絡(luò)來獲得模態(tài)的置信度，同時為了保持多模態(tài)數(shù)

　　據(jù)之間的共同特征，采用KL?divergence來約束不同模態(tài)的相似性；

　　其中，所述真類概率使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度，每個模態(tài)

　　式中，x表示模態(tài)m樣本的高維特征向量，y代表它的真實類別,TCP則代表模態(tài)m樣本對

　　S5、基于置信度作為多模態(tài)融合的指導(dǎo)，實現(xiàn)可信多模態(tài)融合，通過自注意力機制提取

　　EEG和面部表情模態(tài)特征，分別表示為f∈R，f∈R；在訓(xùn)練過程中，利用置信度回歸網(wǎng)

　　S6、基于融合后的多模態(tài)特征進行分類，實現(xiàn)情緒識別，其中包括使用交叉熵?fù)p失來監(jiān)

　　S7、在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模，為了學(xué)習(xí)多模態(tài)輸入的

　　魯棒表示，采用自定節(jié)奏學(xué)習(xí)，基于低到高不確定性的樣本來訓(xùn)練上述模型，由此提高模型

　　2.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，步驟S1

　　S1.2、使用mne.filter()對EEG信號進行帶通濾波器濾波，以過濾EEG信號中與情緒激

　　S1.3、通過Welch方法提取EEG信號中t秒非重疊時間窗口的功率頻譜密度特征；

　　S1.4、對于數(shù)據(jù)集中的面部表情數(shù)據(jù)，將數(shù)據(jù)集中原始的視頻數(shù)據(jù)導(dǎo)入OPENFACE工具

　　S1.5、使用OPENFACE提取面部視頻的特征，其中包括相面部位置、頭部位置、眼睛凝視

　　S1.6、根據(jù)t秒非重疊滑動窗口，取時間窗各特征的平均值作為最終使用的特征。

　　3.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，步驟S3

　　通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù)，并將其輸入

　　SoftMax函數(shù)，然后，通過注意力系數(shù)與V的乘積得到具有自注意的特征：

　　4.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，步驟S4

　　中，對于模態(tài)m，通過一個置信回歸網(wǎng)絡(luò)g來近似真類概率，利用MSE損失來訓(xùn)練置信回歸網(wǎng)

　　這里的c＝g(x)表示由置信度回歸網(wǎng)絡(luò)預(yù)測的置信度值，M是模態(tài)的數(shù)量，代表TCP

　　5.根據(jù)權(quán)利要求1或4所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，步

　　驟S4中通過KL?divergence來約束不同模態(tài)的相似性，不僅可以學(xué)習(xí)置信度c，還可以根據(jù)

　　6.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，步驟S5

　　還包括通過賦予較高的權(quán)重，增強不確定性較低的模態(tài)的破壞性；通過賦予較低的權(quán)重，可

　　這里c，c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度，代表

　　7.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，步驟S6

　　式中，表示交叉熵?fù)p失，P(f)為融合特征向量劃分為某類的概率，Y為樣本的標(biāo)

　　8.根據(jù)權(quán)利要求1所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，步驟S7

　　上式中的自步學(xué)習(xí)正則化項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本，在該方法

　　9.根據(jù)權(quán)利要求8所述的基于置信度融合的多模態(tài)情緒識別方法，其特征在于，在初始

　　階段，隨機選擇一小部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型；隨著訓(xùn)練的進行，根據(jù)樣本的訓(xùn)練損失將更

　　多的樣本加入到訓(xùn)練過程中，直到包括所有樣本，這使得模型能夠?qū)W習(xí)到更魯棒的多模態(tài)

　　10.一種基于置信度融合的多模態(tài)情緒識別系統(tǒng)，其特征在于，該系統(tǒng)包括基于時間不

　　確定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度感知融合模塊、分類模塊和基

　　該系統(tǒng)及上述模塊是由實施如權(quán)利要求1所述的方法得到的，且所述的置信度感知融

　　合模塊由多通道LSTM、自注意力機制、置信度回歸模塊和自步學(xué)習(xí)機制組成；

　　所述的多通道LSTM用于對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊，從而更好地解決模態(tài)

　　所述的自注意力機制用于挖掘序列數(shù)據(jù)在時間上的不確定性，進一步學(xué)習(xí)有效的特征

　　所述的置信度回歸模塊用于獲取不同模態(tài)特征的模態(tài)置信度，以作為多模態(tài)融合的加

　　所述的自步學(xué)習(xí)機制用于讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中，從而更

　　[0001]本發(fā)明屬于人工智能技術(shù)領(lǐng)域，具體涉及一種基于置信度融合的多模態(tài)情緒識別

　　[0002]情緒識別正受到越來越多的關(guān)注，由于其在人機交互系統(tǒng)的感知和決策提供了關(guān)

　　鍵信息，使這些系統(tǒng)能夠?qū)τ脩舻那榫w狀態(tài)做出適當(dāng)?shù)姆磻?yīng)。在生理情緒特征中，腦電圖具

　　有無創(chuàng)、低成本和高時間分辨率等優(yōu)點。不僅如此，由于EEG信號與高級認(rèn)知過程直接相關(guān)，

　　基于EEG的情緒識別在近年來受到越來越多的關(guān)注。此外，情緒數(shù)據(jù)的收集和識別過程往往

　　受到不同程度的不確定性影響。因此，開發(fā)能夠有效提取情感內(nèi)在狀態(tài)的魯棒識別模型仍

　　[0003]許多基于機器學(xué)習(xí)或深度學(xué)習(xí)的方法已被用于基于EEG的情緒識別。HSAN能夠聯(lián)

　　合建模EEG特征的局部和全局時間信息。MNSEP通過學(xué)習(xí)EEG腦網(wǎng)絡(luò)中的判別圖拓?fù)?，能夠?

　　用多個與情緒相關(guān)的空間網(wǎng)絡(luò)拓?fù)淠Ｊ竭M行多類別情緒識別。OGSSL將自適應(yīng)圖學(xué)習(xí)和情

　　緒識別統(tǒng)一為一個目標(biāo)。然而上述方法依賴于單模態(tài)分析，不能完全反映情緒狀態(tài)，難以達

　　到令人滿意的準(zhǔn)確性和穩(wěn)定性。得益于多模態(tài)之間的互補信息，整合生理信號和行為信號

　　可以提高情緒識別的表現(xiàn)。ETF基于注意力機制融合EEG和眼動數(shù)據(jù)，以實現(xiàn)較高的情緒識

　　別精度。MMResLSTM能夠?qū)W習(xí)EEG與外圍生理信號的潛在相關(guān)性，從而提高識別性能。

　　EmotionMeter通過將EEG和眼動結(jié)合，整合了內(nèi)部認(rèn)知和外部潛意識行為，探索了多模態(tài)表

　　征能力的互補特征。然而，情緒的復(fù)雜生理特性使得不確定性成為情緒識別中的一個重要

　　因素。具體來說，多模態(tài)數(shù)據(jù)中各種形式不確定性的存在增加了準(zhǔn)確識別情緒的難度。

　　[0004]近年來，研究者提出了一些基于不確定性學(xué)習(xí)的情緒識別方法。例如，EMENet通過

　　采用深度集成模型從多個情緒描述符中捕獲不確定性，并應(yīng)用迭代自蒸餾來提高情緒識別

　　和不確定性估計的性能。IQI能夠用來描述不同頻段信號強度的不確定性，從而精確提取和

　　選擇腦電情緒特征。SCN通過自注意力機制對訓(xùn)練中的每個樣本進行加權(quán)。值得注意的是，

　　這些不確定性分析方法都是針對單模態(tài)情緒預(yù)測而開發(fā)的，并不能環(huán)節(jié)多模態(tài)情緒數(shù)據(jù)和

　　融合模型中更多的不確定性。多模態(tài)情緒數(shù)據(jù)和模型中的不確定性歸結(jié)為以下三個方面:

　　首先，多模態(tài)情緒數(shù)據(jù)通常具有不同的語義表示，并且由于情緒產(chǎn)生的機制不同，每個時間

　　窗口對情緒狀態(tài)的重要性也不同，這反映了時間層面的不確定性。其次，不同模態(tài)所產(chǎn)生的

　　決策模糊性導(dǎo)致了融合層面的不確定性。第三，同一模型識別來自不同主體或軌跡的情緒

　　樣本的難度或置信度不同，反映了樣本層面的不確定性。上述不確定性共同給多模態(tài)情感

　　識別帶來了挑戰(zhàn)。因此，迫切需要開發(fā)有效的融合方法來緩解上述不確定性，提高多模態(tài)情

　　[0005]發(fā)明目的：針對單模態(tài)腦電情緒識別方法存在的不足問題，本發(fā)明的第一目的是

　　提供一種基于置信度融合的多模態(tài)情緒識別方法，它能夠系統(tǒng)地對多模態(tài)情緒數(shù)據(jù)中的不

　　確定性進行建模，通過不確定性估計揭示情緒的動態(tài)變化。基于該方法的應(yīng)用，本發(fā)明第二

　　[0006]技術(shù)方案：一種基于置信度融合的多模態(tài)情緒識別方法，該方法針對多模態(tài)情緒

　　數(shù)據(jù)中的不確定性進行建模，通過不確定性估計揭示情緒的動態(tài)變化，包括如下步驟：

　　[0007]S1、獲取多模態(tài)情緒序列數(shù)據(jù)，對該數(shù)據(jù)進行預(yù)處理，得到預(yù)處理后的同步多模態(tài)

　　[0008]S2、基于步驟1中得到的經(jīng)過預(yù)處理的數(shù)據(jù)，將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進

　　間窗口數(shù)，D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度，與之對應(yīng)的標(biāo)簽信息記為

　　y；為了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性，采用了一個共享權(quán)

　　重的多通道LSTM網(wǎng)絡(luò)(MC?LSTM表示LSTM網(wǎng)絡(luò)的進程)，通過共享權(quán)重，多通道LSTM學(xué)習(xí)跨模

　　[0011]式中，和代表模態(tài)m＝{E,F}的第i個樣本第t?1或第t個時間窗在

　　LSTM中的記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù)；代表多通道LSTM的輸出，則是第t個時

　　間窗的記憶單元和隱藏狀態(tài)；隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享，而輸入向量的權(quán)

　　值只在模態(tài)和時間窗之間共享；多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性，并

　　[0012]S3、使用自注意力機制來建模時間層面的不確定性，識別出更可靠的時間段內(nèi)的

　　由多通道LSTM產(chǎn)生的X和X分別執(zhí)行線]式中，查詢Q，鍵K和值V代表模態(tài)m的三組線性變換特征表示，和分

　　別是用于生成模態(tài)m＝{E,F}特征表示的查詢、鍵和值的參數(shù)矩陣，在模型訓(xùn)練中通過反向

　　[0017]S4、基于真類概率設(shè)計置信度回歸網(wǎng)絡(luò)來獲得模態(tài)的置信度，同時為了保持多模

　　態(tài)數(shù)據(jù)之間的共同特征，采用KL?divergence來約束不同模態(tài)的相似性；

　　[0018]其中，所述真類概率使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度，每個

　　式中，x表示模態(tài)m樣本的高維特征向量，y代表它的真實類別,TCP則代表模態(tài)m樣

　　[0021]S5、基于置信度作為多模態(tài)融合的指導(dǎo)，實現(xiàn)可信多模態(tài)融合，通過自注意力機制

　　提取EEG和面部表情模態(tài)特征，分別表示為f∈R，f∈R；在訓(xùn)練過程中，利用置信度回

　　歸網(wǎng)絡(luò)動態(tài)估計各模態(tài)的預(yù)測置信度，并以此作為加權(quán)的指導(dǎo)不同情緒模態(tài)的融合；

　　[0022]S6、基于融合后的多模態(tài)特征進行分類，實現(xiàn)情緒識別，其中包括使用交叉熵?fù)p失

　　[0023]S7、在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模，為了學(xué)習(xí)多模態(tài)輸

　　入的魯棒表示，采用自定節(jié)奏學(xué)習(xí)，基于低到高不確定性的樣本來訓(xùn)練上述模型，由此提高

　　集進行預(yù)處理，對于數(shù)據(jù)集中的EEG信號執(zhí)行下采樣，將信號下采樣到128Hz；

　　[0027]S1.3、通過Welch方法提取EEG中t秒非重疊時間窗口的功率頻譜密度特征；

　　[0028]S1.4、對于數(shù)據(jù)集中的面部表情數(shù)據(jù)，將數(shù)據(jù)集中原始的視頻數(shù)據(jù)導(dǎo)入OPENFACE

　　[0029]S1.5、使用OPENFACE提取面部視頻的特征，其中包括相對于攝像頭的面部位置，頭

　　[0030]S1.6、根據(jù)t秒非重疊滑動窗口，取時間窗各特征的平均值作為最終使用的特征。

　　[0032]通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù)，并將其

　　輸入SoftMax函數(shù)，然后，通過注意力系數(shù)與V的乘積得到具有自注意的特征：

　　[0034]式中，d代表歸一化參數(shù)，它與K的維度相等，表示K的轉(zhuǎn)置矩陣。

　　[0035]所述方法中，步驟S4對于模態(tài)m，通過一個置信回歸網(wǎng)絡(luò)g來近似真類概率，利用

　　這里的c＝g(x)表示由置信度回歸網(wǎng)絡(luò)預(yù)測的置信度值，M是模態(tài)的數(shù)量，代

　　[0038]進一步的，步驟S4中通過KL?divergence來約束不同模態(tài)的相似性，不僅可以學(xué)習(xí)

　　置信度c，還可以根據(jù)所提出的置信度回歸網(wǎng)絡(luò)的SoftMax輸出獲得每個模態(tài)的預(yù)測分布

　　[0043]所述方法中，步驟S5還包括通過賦予較高的權(quán)重，增強不確定性較低的模態(tài)的破

　　[0045]這里c，c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度，

　　[0046]所述方法中，步驟S6通過交叉熵?fù)p失來監(jiān)督多模態(tài)學(xué)習(xí)，避免模型的過渡擬合，計

　　[0048]式中，表示交叉熵?fù)p失，P(f)為融合特征向量劃分為某類的概率，Y為樣本

　　[0049]所述方法中，步驟S7所述自定節(jié)奏學(xué)習(xí)，基于低到高不確定性的樣本來訓(xùn)練過程

　　為樣本不確定性的度量，其中α和β是控制損失權(quán)重的超參數(shù)，通過最小化以下函數(shù)：

　　[0053]上式中的自步學(xué)習(xí)正則化項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本，在

　　[0058]更進一步的，在初始階段，隨機選擇一小部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型；隨著訓(xùn)練的進

　　行，根據(jù)樣本的訓(xùn)練損失將更多的樣本加入到訓(xùn)練過程中，直到包括所有樣本，這使得模型

　　[0059]通過實施上述方法及步驟，相應(yīng)的可得到一種基于置信度融合的多模態(tài)情緒識別

　　系統(tǒng)，該系統(tǒng)包括基于時間不確定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度

　　[0060]該系統(tǒng)中，所述的置信度感知融合模塊由多通道LSTM、自注意力機制、置信度回歸

　　[0061]所述的多通道LSTM用于對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊，從而更好地解決

　　[0062]所述的自注意力機制用于挖掘序列數(shù)據(jù)在時間上的不確定性，進一步學(xué)習(xí)有效的

　　[0063]所述的置信度回歸模塊用于獲取不同模態(tài)特征的模態(tài)置信度，以作為多模態(tài)融合

　　[0064]所述的自步學(xué)習(xí)機制用于讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中，從

　　[0065]有益效果：與現(xiàn)有技術(shù)相比，本發(fā)明顯著的效果和實質(zhì)性的特點主要在于：

　　[0066](1)本發(fā)明提出了一種新型的自動化多模態(tài)情緒識別方法，該方法能夠系統(tǒng)地建

　　模多模態(tài)情緒識別中的不確定性，實現(xiàn)了多模態(tài)情緒數(shù)據(jù)的可信融合，并且明確地揭示了

　　[0067](2)開發(fā)了一個具有注意力機制地多通道LSTM特征提取網(wǎng)絡(luò)，該網(wǎng)絡(luò)可以同時校

　　[0068](3)提出了一種基于真類概率的置信度回歸模塊來估計情緒預(yù)測在模態(tài)層面上的

　　不確定性，通過置信度加權(quán)實現(xiàn)了更好的融合可解釋性和更可靠的多模態(tài)情緒識別表現(xiàn)。

　　[0069](4)在模型的優(yōu)化過程中，采用自步學(xué)習(xí)來提高所提出模型的魯棒性。在多個多模

　　態(tài)情緒數(shù)據(jù)集上的實驗結(jié)果表明，該方法的表現(xiàn)優(yōu)于當(dāng)前最先進的情緒識別算法，并通過

　　[0074]為詳細(xì)的說明本發(fā)明所公開的技術(shù)方案，下面結(jié)合說明書附圖做進一步的介紹。

　　[0075]現(xiàn)有的單模態(tài)腦電情緒識別方法難以反映受試者的情緒狀態(tài)，且無法利用多模態(tài)

　　數(shù)據(jù)中的互補信息，從而使其準(zhǔn)確性和穩(wěn)定性難以令人滿意。同時，情緒的復(fù)雜生理特性使

　　kaiyun下載地址

　　得不確定性成為情緒識別中的一個重要因素，多模態(tài)情緒識別中各種形式的不確定性增加

　　[0076]本發(fā)明所提供的是一種基于置信度融合的多模態(tài)情緒識別方法，結(jié)合圖1所示的

　　流程，實施例采用完全連接的神經(jīng)網(wǎng)絡(luò)層，其中共享權(quán)重的多通道LSTM網(wǎng)絡(luò)的隱藏層為256

　　kaiyun下載地址

　　個節(jié)點，層數(shù)為1，自注意力的線個節(jié)點，前饋網(wǎng)絡(luò)的隱藏層為512個節(jié)點，并

　　在最后一層使用softmax作為激活函數(shù)，在整個模型中，使用RELU作為激活函數(shù)。下面進一

　　[0077]S1：獲取多模態(tài)情緒序列數(shù)據(jù)，對該數(shù)據(jù)進行預(yù)處理，得到預(yù)處理后的同步多模態(tài)

　　[0081]使用mne.filter()對EEG信號進行帶通濾波器濾波，以過濾EEG信號中與情緒激活

　　[0083]對于數(shù)據(jù)集中的面部表情數(shù)據(jù)，首先打開OPENFACE工具箱的GUI界面，將數(shù)據(jù)集中

　　[0084]接著使用OPENFACE提取面部視頻的特征，其中包括3個相對于攝像頭的面部位置，

　　[0085]最后，與EEG信號類似，根據(jù)t秒非重疊滑動窗口，取時間窗各特征的平均值作為最

　　[0086]S2、基于步驟1中得到的經(jīng)過預(yù)處理的數(shù)據(jù)，將數(shù)據(jù)輸入共享權(quán)重的多通道LSTM進

　　間窗口數(shù)，D和D分別代表EEG模態(tài)和面部表情模態(tài)的特征維度，與它們對應(yīng)的標(biāo)簽信息記

　　為y。為了利用連續(xù)刺激在腦電圖和面部表情之間呈現(xiàn)的潛在時間依賴性，本發(fā)明采用了一

　　個共享權(quán)重的多通道LSTM網(wǎng)絡(luò)(MC?LSTM)。通過共享權(quán)重，多通道LSTM可以學(xué)習(xí)跨模態(tài)之間

　　[0089]這里和代表模態(tài)m＝{E，F(xiàn)}的第i個樣本第t?1或第t個時間窗在LSTM

　　中的記憶單元、隱藏狀態(tài)和輸入數(shù)據(jù)。代表多通道LSTM的輸出，則是第t個時間窗

　　的記憶單元和隱藏狀態(tài)。隱藏狀態(tài)的權(quán)值在模態(tài)和時間窗之間共享，而輸入向量的權(quán)值只

　　在模態(tài)和時間窗之間共享。多通道LSTM能夠捕獲多模態(tài)序列數(shù)據(jù)中的潛在相關(guān)性，并實現(xiàn)

　　[0090]步驟3：使用自注意力機制來建模時間層面的不確定性，識別出更可靠的時間段內(nèi)

　　[0091]由于情緒模式的差異，即使在長時間和連續(xù)的刺激中，也很難保證在不同模式之

　　間進行一致的情緒預(yù)測，這導(dǎo)致生理或非生理序列的某些時間段存在潛在的不確定性。為

　　了克服這一局限性，增強時間信息的特異性，本發(fā)明采用自注意力機制，在序列數(shù)據(jù)中識別

　　更可靠的時間段，對由多通道LSTM產(chǎn)生的X和X分別執(zhí)行線]這里的查詢Q，鍵K和值V代表模態(tài)m的三組線性變換特征表示。和分

　　別是用于是用于生成模態(tài)m＝{E,F}特征表示的查詢、鍵和值的參數(shù)矩陣，在模型訓(xùn)練中通

　　過反向傳播更新。通過計算Q和K之間的標(biāo)量點積相關(guān)來獲得時間窗口之間的注意力系數(shù)，

　　[0099]得益于多模態(tài)信息之間的互補性，雖然多模態(tài)融合通常能夠增強情緒識別的性

　　能，但不同模態(tài)的決策不一致可能對多模態(tài)融合產(chǎn)生負(fù)面影響。為了有效整合多模態(tài)信息，

　　對每個模態(tài)的預(yù)測置信度進行估計是至關(guān)重要的。模態(tài)的預(yù)測置信度越高，對模型預(yù)測的

　　不確定性就越低。因此，本發(fā)明引入了真類概率(TCP)來作為衡量模態(tài)置信度的標(biāo)準(zhǔn)。

　　[0100]TCP使用真實標(biāo)簽對應(yīng)的SoftMax輸出概率作為預(yù)測置信度。形式上，每個模態(tài)的

　　這里x表示模態(tài)m樣本的高維特征向量，y代表它的真實類別,TCP則代表模態(tài)m樣

　　本對應(yīng)的真類概率。雖然TCP能夠獲得可靠的置信度，但由于沒有標(biāo)簽信息，在測試階段不

　　[0103]對于模態(tài)m，本發(fā)明設(shè)計了一個置信回歸網(wǎng)絡(luò)g來近似TCP，利用MSE損失來訓(xùn)練置

　　表TCP的真實值。然后TCP就可以用置信度回歸網(wǎng)絡(luò)來近似。同時為了保持多模態(tài)數(shù)據(jù)之間

　　的共同特征，采用KL?divergence來約束不同模態(tài)的相似性。不僅可以學(xué)習(xí)置信度c，還可

　　[0109]步驟5：基于置信度作為多模態(tài)融合的指導(dǎo)，實現(xiàn)可信多模態(tài)融合。

　　該方法利用自注意力機制提取EEG和面部表情模態(tài)特征，分別表示為f∈R，f

　　∈R。在訓(xùn)練過程中，利用置信度回歸網(wǎng)絡(luò)動態(tài)估計各模態(tài)的預(yù)測置信度，并以此作為加

　　權(quán)的指導(dǎo)不同情緒模態(tài)的融合。通過賦予較高的權(quán)重，可以增強不確定性較低的模態(tài)的破

　　[0112]這里c，c分別表示EEG模態(tài)和面部表情模態(tài)由置信度回歸網(wǎng)絡(luò)獲得的置信度，

　　代表特征拼接操作。該模型從模態(tài)層面對不確定性進行建模，使多模態(tài)融合預(yù)測更加可靠。

　　[0114]對于多模態(tài)任務(wù)，現(xiàn)有技術(shù)通常使用二元交叉熵(BCE)來監(jiān)督每個分支的學(xué)習(xí)，但

　　它會嚴(yán)重懲罰無法從特定模態(tài)分類的樣本。在這種情況下，模型可能會過度擬合數(shù)據(jù)中的

　　偏差，從而導(dǎo)致模型的過度擬合。因此，基于由置信度感知融合得到的聯(lián)合特征表示，本發(fā)

　　[0116]這里P(f)為融合特征向量劃分為某類的概率，Y為樣本的標(biāo)簽。

　　[0117]步驟7：在優(yōu)化階段采用自步學(xué)習(xí)對樣本層面不確定性進行建模，提高模型魯棒

　　[0118]如果在訓(xùn)練過程中較早地引入具有較高訓(xùn)練學(xué)習(xí)損失的樣本，則它們更有可能對

　　模型的魯棒性產(chǎn)生負(fù)面影響。為了學(xué)習(xí)多模態(tài)輸入的魯棒表示，該方法采用自定節(jié)奏學(xué)習(xí)，

　　[0121]這里n代表訓(xùn)練樣本的數(shù)量，y代表樣本對應(yīng)的標(biāo)簽。、上式中的自步學(xué)習(xí)正則化

　　項f(v,λ)有利于從訓(xùn)練集中選擇低不確定性樣本。在本發(fā)明所述的方法中，采用了一個硬

　　[0125]初始化λ的值為1，λ隨訓(xùn)練的遞增步長為1.15。在初始階段，本發(fā)明隨機選擇一小

　　部分訓(xùn)練數(shù)據(jù)來訓(xùn)練模型。隨著訓(xùn)練的進行，根據(jù)樣本的訓(xùn)練損失將更多的樣本加入到訓(xùn)

　　練過程中，直到包括所有樣本，這使得模型能夠?qū)W習(xí)到更魯棒的多模態(tài)特征表示。

　　[0126]進一步的結(jié)合圖3和圖4，本發(fā)明所提出的多模態(tài)情緒識別模型包括基于時間不確

　　定性的多模態(tài)特征對齊模塊、基于模態(tài)不確定性的置信度感知融合模塊、分類模塊和基于

　　樣本不確定性的模型魯棒性優(yōu)化模塊。所提出系統(tǒng)的整體框架結(jié)構(gòu)如圖1所示，其中置信度

　　回歸模塊的框架結(jié)構(gòu)如圖4所示。它由多通道LSTM、自注意力機制、置信度回歸模塊和自步

　　學(xué)習(xí)機制組成。其中，多通道LSTM的作用是對異構(gòu)多模態(tài)情緒數(shù)據(jù)進行跨模態(tài)對齊，從而更

　　好地解決模態(tài)異質(zhì)性對融合造成的負(fù)面影響。自注意力機制能夠挖掘序列數(shù)據(jù)在時間上的

　　不確定性，進一步學(xué)習(xí)有效的特征表示。置信度回歸模塊的作用是獲取不同模態(tài)特征的模

　　態(tài)置信度，以作為多模態(tài)融合的加權(quán)指導(dǎo)，從而提升多模態(tài)融合的可靠性和情緒識別的準(zhǔn)

　　確性。自步學(xué)習(xí)機制能夠讓模型逐步將不確定性樣本加入到模型訓(xùn)練過程中，從而更好地

　　建模樣本層面的不確定性，提高模型的魯棒性和泛化能力。Confidence

　　(L)的目的是為了解決真類概率由于需要標(biāo)簽信息，無法在測試期間計算得到的問題。

　　通過訓(xùn)練置信度回歸模塊，模型能夠在測試階段逼近真類概率值。Kullback?Leibler

　　Loss(L)用于約束不同模態(tài)間的特征相似性，從而保持多模態(tài)數(shù)據(jù)之間的共

　　[0127]綜上所述，本發(fā)明所提供的方法中，多通道LSTM的作用是對異構(gòu)多模態(tài)情緒數(shù)據(jù)

　　進行跨模態(tài)對齊，從而更好地解決模態(tài)異質(zhì)性對融合造成的負(fù)面影響。自注意力機制能夠

　　挖掘序列數(shù)據(jù)在時間上的不確定性，進一步學(xué)習(xí)有效的特征表示。置信度回歸模塊的作用

　　是獲取不同模態(tài)特征的模態(tài)置信度，以作為多模態(tài)融合的加權(quán)指導(dǎo)，從而提升多模態(tài)融合

　　的可靠性和情緒識別的準(zhǔn)確性。自步學(xué)習(xí)機制能夠讓模型逐步將不確定性樣本加入到模型

　　訓(xùn)練過程中，從而更好地建模樣本層面的不確定性，提高模型的魯棒性和泛化能力，L的

　　目的是為了解決真類概率由于需要標(biāo)簽信息，無法在測試期間計算得到的問題。通過訓(xùn)練

　　置信度回歸模塊，模型能夠在測試階段逼近真類概率值。L用于約束不同模態(tài)間的特征相

　　似性，從而保持多模態(tài)數(shù)據(jù)之間的共同特征，避免關(guān)鍵情緒特征的丟失。此外，Cross?

　　Loss(L)的作用是訓(xùn)練分類器，通過拉近預(yù)測標(biāo)簽和真實標(biāo)簽之間的距離來提升

　　2、成為VIP后，下載本文檔將扣除1次下載權(quán)益。下載后，不支持退款、換文檔。如有疑問加。

　　3、成為VIP后，您將擁有八大權(quán)益，權(quán)益包括：VIP文檔下載權(quán)益、閱讀免打擾、文檔格式轉(zhuǎn)換、高級專利檢索、專屬身份標(biāo)志、高級客服、多端互通、版權(quán)登記。

　　4、VIP文檔為合作方或網(wǎng)友上傳，每下載1次，網(wǎng)站將根據(jù)用戶上傳文檔的質(zhì)量評分、類型等，對文檔貢獻者給予高額補貼、流量扶持。如果你也想貢獻VIP文檔。上傳文檔

　　遼寧省遼陽市2024-2025學(xué)年高一下學(xué)期期末考試語文試卷（含答案）.pdf

　　六年級（下）小升初語文必考重點古詩文、日積月累專題練習(xí)卷（有答案）.pdf

　　遼寧省沈陽市2024-2025學(xué)年高一下學(xué)期暑假語文練習(xí)題（含答案）.pdf

　　2023年安徽省宿州市墉橋區(qū)城東街道招聘社區(qū)工作者真題及答案詳解一套.docx

　　寧夏石嘴山市第一中學(xué)2024-2025學(xué)年高二下學(xué)期7月期末考試語文試卷（含答案）.pdf

　　2023年安徽省宿州市墉橋區(qū)南關(guān)街道招聘社區(qū)工作者真題含答案詳解.docx

　　吉林省通化市2025-2026學(xué)年新高三暑假語文練習(xí)題（含答案）.pdf

　　CNAS-GL27-2009 聲明檢測或校準(zhǔn)結(jié)果及與規(guī)范符合性的指南.pdf

　　【行業(yè)研報】2023年肯尼亞行業(yè)企業(yè)戰(zhàn)略規(guī)劃方案及未來五年行業(yè)預(yù)測報告.docx

　　部編六年級下冊第11課《十六年前的回憶》一等獎教學(xué)設(shè)計說課稿.docx

　　GB_T 39637-2020 金屬和合金的腐蝕土壤環(huán)境腐蝕性分類.pdf

　　原創(chuàng)力文檔創(chuàng)建于2008年，本站為文檔C2C交易模式，即用戶上傳的文檔直接分享給其他用戶（可下載、閱讀），本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人所有。原創(chuàng)力文檔是網(wǎng)絡(luò)服務(wù)平臺方，若您的權(quán)利被侵害，請發(fā)鏈接和相關(guān)訴求至電線) ，上傳者

中文字幕亚洲综合久久蜜桃,成年日韩片AV在线网站医生 ,无码精品国产dvd在线观看9久,xfplay5566色资源网站

開云（中國）Kaiyun·官方網(wǎng)站-Kaiyun科技股份有限公司

一種基于置信度融合的多模態(tài)情緒識別方法及系統(tǒng)pdf