中文字幕亚洲综合久久蜜桃,成年日韩片AV在线网站医生 ,无码精品国产dvd在线观看9久,xfplay5566色资源网站

開云(中國)Kaiyun·官方網(wǎng)站-Kaiyun科技股份有限公司

當(dāng)前位置: 主頁 > 光研動(dòng)態(tài) > 公司新聞

一種基于情境感知的多模態(tài)情感識(shí)別方法和系統(tǒng)pdf

作者:小編發(fā)布時(shí)間:2025-07-23 18:39

  

一種基于情境感知的多模態(tài)情感識(shí)別方法和系統(tǒng)pdf

  本發(fā)明涉及一種基于情境感知的多模態(tài)情感識(shí)別方法和系統(tǒng),系統(tǒng)包括多模態(tài)信息采集單元、基于多模態(tài)行為表現(xiàn)的情感處理單元、基于場景上下文的情感分析單元、基于代理人群體交互的情感分析單元、基于代理人和情境交互的情感分析單元、基于自適應(yīng)規(guī)劃的特征融合單元、基于離散情感的識(shí)別單元、基于連續(xù)情感的預(yù)測單元以及顯示模塊,多模態(tài)數(shù)據(jù)一部分來源于面部表情、步態(tài)和手勢信息;另一部分來自情境中的場景上下文、代理人群體互動(dòng)上下文以及場景與代理人互動(dòng)的上下文信息。與現(xiàn)有技術(shù)相比,本發(fā)明有效的解決了真實(shí)場景中情感識(shí)別效率低下

  kaiyun下載地址

  (19)中華人民共和國國家知識(shí)產(chǎn)權(quán)局 (12)發(fā)明專利申請 (10)申請公布號(hào) CN 113947702 A (43)申請公布日 2022.01.18 (21)申請?zhí)?7.X G06V 40/20 (2022.01) G06K 9/62 (2022.01) (22)申請日 2021.09.15 G10L 25/30 (2013.01) (71)申請人 復(fù)旦大學(xué) G10L 25/63 (2013.01) 地址 200433 上海市楊浦區(qū)邯鄲路220號(hào) G06N 3/04 (2006.01) (72)發(fā)明人 張立華楊鼎康王順利鄺昊鵬 G06N 3/08 (2006.01) 黃帥 (74)專利代理機(jī)構(gòu) 上??剖⒅R(shí)產(chǎn)權(quán)代理有限 公司 31225 代理人 趙繼明 (51)Int.Cl. G06V 10/80 (2022.01) G06V 10/764 (2022.01) G06V 10/82 (2022.01) G06V 40/16 (2022.01) G06V 40/10 (2022.01) 權(quán)利要求書2頁 說明書9頁 附圖8頁 (54)發(fā)明名稱 一種基于情境感知的多模態(tài)情感識(shí)別方法 和系統(tǒng) (57)摘要 本發(fā)明涉及一種基于情境感知的多模態(tài)情 感識(shí)別方法和系統(tǒng),系統(tǒng)包括多模態(tài)信息采集單 元、基于多模態(tài)行為表現(xiàn)的情感處理單元、基于 場景上下文的情感分析單元、基于代理人群體交 互的情感分析單元、基于代理人和情境交互的情 感分析單元、基于自適應(yīng)規(guī)劃的特征融合單元、 基于離散情感的識(shí)別單元、基于連續(xù)情感的預(yù)測 單元以及顯示模塊,多模態(tài)數(shù)據(jù)一部分來源于面 部表情、步態(tài)和手勢信息;另一部分來自情境中 的場景上下文、代理人群體互動(dòng)上下文以及場景 與代理人互動(dòng)的上下文信息。與現(xiàn)有技術(shù)相比, A 本發(fā)明有效的解決了真實(shí)場景中情感識(shí)別效率 2 低下,現(xiàn)有算法情感識(shí)別準(zhǔn)確率不達(dá)標(biāo),識(shí)別算 0 7 7 法魯棒性和泛化能力受外界因素干擾的問題。 4 9 3 1 1 N C CN 113947702 A 權(quán)利要求書 1/2頁 1.一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,包括以下步驟: 多模態(tài)信息采集步驟:采集用于情感識(shí)別的視頻和真實(shí)世界圖像,所述視頻中包括待 進(jìn)行情感識(shí)別的人類主體和其它代理人; 基于多模態(tài)行為表現(xiàn)的情感處理步驟:根據(jù)所述視頻,提取面部表情特征、面部界標(biāo) 點(diǎn)、人體姿態(tài)和人體手勢的特征向量,并通過初始特征級(jí)聯(lián)的方式生成外在行為表現(xiàn)模態(tài) 向量; 基于場景上下文的情感分析步驟:通過為所述真實(shí)世界圖像和視頻中各視頻幀中的人 類主體添加蒙版,獲取場景圖像,然后進(jìn)行場景情感語義的特征提取,得到第一情感特征向 量; 基于代理人群體交互的情感分析步驟:在所述真實(shí)世界圖像和視頻中各視頻幀中分別 提取人類主體和其它代理人信息,然后提取初始表征特征,將各初始表征特征作為情感節(jié) 點(diǎn)饋送入圖注意力網(wǎng)絡(luò)中,構(gòu)建情感關(guān)系圖;根據(jù)該情感關(guān)系圖,計(jì)算不同的其它代理人對(duì) 人類主體的情感影響強(qiáng)度和程度,通過情感相似系數(shù)判斷其它代理人交互產(chǎn)生的情感特征 向量的權(quán)重大小,并與初始表征特征進(jìn)行加權(quán)平均操作,得到第二情感特征向量; 基于代理人和情境交互的情感分析步驟:通過為所述真實(shí)世界圖像和視頻中各視頻幀 中的其它代理人添加蒙版,獲取場景圖像,提取場景的初始特征;根據(jù)其它代理人的初始表 征特征,建立基本特征圖,對(duì)所述場景的初始特征和基本特征圖進(jìn)行特征聚合,得到第三情 感特征向量; 特征融合步驟:對(duì)所述外在行為表現(xiàn)模態(tài)向量、第一情感特征向量、第二情感特征向量 和第三情感特征向量進(jìn)行特征融合,得到融合特征向量; 情感識(shí)別步驟:根據(jù)所述融合特征向量進(jìn)行情感識(shí)別。 2.根據(jù)權(quán)利要求1所述的一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,所述 基于場景上下文的情感分析步驟中,進(jìn)行場景情感語義的特征提取具體為:選取殘差神經(jīng) 網(wǎng)絡(luò)作為主體模型的骨干網(wǎng)絡(luò),所述殘差神經(jīng)網(wǎng)絡(luò)中的多個(gè)殘差連接塊按順序交替嵌入基 于通道和空間的注意力機(jī)制模塊形成完整的注意力提取網(wǎng)絡(luò),將所述場景圖像載入該注意 力提取網(wǎng)絡(luò)中進(jìn)行場景情感語義的特征提取。 3.根據(jù)權(quán)利要求2所述的一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,所述 基于通道和空間的注意力機(jī)制模塊包括通道注意力機(jī)制和空間注意力機(jī)制,所述通道注意 力機(jī)制包括:通過全局平均池化推理出一張1D的通道注意力圖 隨后在輸出層 通過通道級(jí)別的乘法進(jìn)行特征合并; 所述空間注意力機(jī)制包括:通過全局最大池化層推理出一張2D的空間注意力圖 隨后在輸出層通過通道級(jí)別的乘法進(jìn)行特征合并。 4.根據(jù)權(quán)利要求1所述的一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,所述 特征融合步驟中進(jìn)行特征融合具體為: 從所述外在行為表現(xiàn)模態(tài)向量、第一情感特征向量、第二情感特征向量和第三情感特 征向量中選取強(qiáng)相關(guān)的特征向量和弱相關(guān)的特征向量,對(duì)于強(qiáng)相關(guān)的特征向量通過特征級(jí) 聯(lián)操作進(jìn)行特征融合,對(duì)于弱相關(guān)的特征向量通過乘性融合方式進(jìn)行特征融合。 5.根據(jù)權(quán)利要求1所述的一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,所述 2 2 CN 113947702 A 權(quán)利要求書 2/2頁 情感識(shí)別步驟具體包括離散情感識(shí)別子步驟和連續(xù)情感預(yù)測子步驟; 所述離散情感識(shí)別子步驟包括:將所述融合特征向量映射到0到1之間,然后對(duì)每個(gè)輸 出節(jié)點(diǎn)和對(duì)應(yīng)的標(biāo)簽計(jì)算交叉熵?fù)p失函數(shù),通過計(jì)算出每一類可能輸出的表情標(biāo)簽的概率 來預(yù)測得到的表情標(biāo)簽。 6.根據(jù)權(quán)利要求5所述的一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,所述 連續(xù)情感預(yù)測子步驟包括依次進(jìn)行數(shù)據(jù)歸一化、標(biāo)簽差值求和、誤差幅度計(jì)算和連續(xù)數(shù)值 預(yù)測,所述連續(xù)情感預(yù)測子步驟通過預(yù)先構(gòu)建并訓(xùn)練好的網(wǎng)絡(luò)模型實(shí)現(xiàn),該網(wǎng)絡(luò)模型采用 均方誤差損失來計(jì)算預(yù)測數(shù)值和目標(biāo)數(shù)值之間的差值的平方和從而進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練。 7.根據(jù)權(quán)利要求5所述的一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,所述 離散情感識(shí)別子步驟中的表情標(biāo)簽包括高興、驚喜、悲傷、厭惡、興奮、平和、恐懼和生氣; 所述連續(xù)情感預(yù)測子步驟的輸出為情感的VAD連續(xù)模型的1到10中的預(yù)測值,該VAD連 續(xù)模型指的是情感的喚醒度、控制度以及愉悅度。 8.根據(jù)權(quán)利要求1所述的一種基于情境感知的多模態(tài)情感識(shí)別方法,其特征在于,所述 基于多模態(tài)行為表現(xiàn)的情感處理步驟中,通過面部檢測器提取面部表情輪廓,隨后通過設(shè) 計(jì)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取操作,得到面部表情特征向量; 通過面部檢測器提取多個(gè)面部界標(biāo)點(diǎn),通過卷積神經(jīng)網(wǎng)絡(luò)獲取并轉(zhuǎn)換為情感特征向 量; 通過姿態(tài)檢測器提取多個(gè)人體姿態(tài)的坐標(biāo)點(diǎn),將其饋送到編碼器網(wǎng)絡(luò)進(jìn)行特征提取, 得到人體姿態(tài)的特征向量; 通過姿態(tài)檢測器提取人體手部表征關(guān)鍵點(diǎn),利用卷積神經(jīng)網(wǎng)絡(luò)獲取人體手勢的特征向 量。 9.一種采用如權(quán)利要求1?8任一所述的一種基于情境感知的多模態(tài)情感識(shí)別方法的系 統(tǒng),其特征在于,包括: 多模態(tài)信息采集單元,被配置為執(zhí)行所述多模態(tài)信息采集步驟; 基于多模態(tài)行為表現(xiàn)的情感處理單元,被配置為執(zhí)行所述基于多模態(tài)行為表現(xiàn)的情感 處理步驟; 基于場景上下文的情感分析單元,被配置為執(zhí)行所述基于場景上下文的情感分析步 驟; 基于代理人群體交互的情感分析單元,被配置為執(zhí)行所述基于代理人群體交互的情感 分析步驟; 基于代理人和情境交互的情感分析單元,被配置為執(zhí)行所述基于代理人和情境交互的 情感分析步驟; 基于自適應(yīng)規(guī)劃的特征融合單元,被配置為執(zhí)行所述特征融合步驟; 情感識(shí)別單元,被配置為執(zhí)行所述情感識(shí)別步驟。 10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括顯示模塊,該顯示模塊被 配置為線束所述情感識(shí)別單元的輸出結(jié)果。 3 3 CN 113947702 A 說明書 1/9頁 一種基于情境感知的多模態(tài)情感識(shí)別方法和系統(tǒng) 技術(shù)領(lǐng)域 [0001] 本發(fā)明涉及情感識(shí)別技術(shù)領(lǐng)域,尤其是涉及一種基于情境感知的多模態(tài)情感識(shí)別 方法和系統(tǒng)。 背景技術(shù) [0002] 情感識(shí)別作為人機(jī)情感交互的基礎(chǔ),能夠使機(jī)器理解人的感性思維,影響著機(jī)器 智能化的繼續(xù)發(fā)展,成為人機(jī)自然交互的關(guān)鍵要素。近年來,基于多模態(tài)的情感識(shí)別技術(shù)越 來越受到研究者的關(guān)注。該方法受到情感心理學(xué)研究的推動(dòng),旨在融合諸如面部表情,語 音,身體手勢以及步態(tài)等多種情感信號(hào),通過多樣的融合模式以提高情感識(shí)別的準(zhǔn)確性和 精度。 [0003] 情境感知作為計(jì)算機(jī)視覺領(lǐng)域目前的熱點(diǎn)研究,對(duì)于在真實(shí)場景中理解人類情感 具有舉足輕重的作用。通常人類所處的情境上下文中蘊(yùn)含著豐富的語義信息,通過深度學(xué) 習(xí)的方式在不同的情境上下文中感知人類的情感,利用從中抽取的多模態(tài)情感特征進(jìn)行特 征級(jí)別和決策級(jí)別的融合,往往可以獲得人類主體之外更多的情感線索,以促進(jìn)情緒表達(dá) 和情感理解。 [0004] 真實(shí)環(huán)境下的情境感知技術(shù)被用于多模態(tài)的情感識(shí)別是極具研究價(jià)值的新領(lǐng)域, 目前尚未出現(xiàn)相關(guān)基于情景感知的多模態(tài)情感識(shí)別的專利方法,大部分采用傳統(tǒng)的使用單 一模態(tài)的情感識(shí)別方法。目前的大多數(shù)工作基于深度學(xué)習(xí)的網(wǎng)絡(luò)體系結(jié)構(gòu)實(shí)現(xiàn)。早期的研 究工作旨在結(jié)合面部表情的直觀情感表達(dá)和整體的情境上下文信息實(shí)現(xiàn)情感識(shí)別;隨后的 工作在此基礎(chǔ)上利用區(qū)域提議網(wǎng)絡(luò)(RPN)從樣本中提取上下文元素,將其作為情感圖的節(jié) 點(diǎn),饋送入圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)以對(duì)上下文信息進(jìn)行編碼,最終基于特征級(jí)聯(lián)的方式實(shí)現(xiàn) 多模態(tài)情感識(shí)別。最近的工作中,部分研究者將面部以外的所有信息視為上下文,通過從圖 像中屏蔽人類的面部表情從而提取上下文情感表達(dá)。還有一些著名的工作從心理學(xué)角度入 手,基于注意力機(jī)制學(xué)習(xí)情境中情感特征的表示后,結(jié)合熱力圖的方式探索多人交互情境 下人類主體之間的接近程度和距離,以挖掘群體間的情感上下文信息,從而提高了情感識(shí) 別的準(zhǔn)確率。 [0005] 現(xiàn)有的基于情境感知的多模態(tài)情感識(shí)別方法,往往僅針對(duì)圖像和視頻中采集的完 整上下文語義信息進(jìn)行編碼和特征提取,這些方法的缺點(diǎn)是沒有考慮到背景環(huán)境中其他主 體的情感流露變化對(duì)情感識(shí)別主體的情感預(yù)測的干擾,大致準(zhǔn)確率大大降低;同時(shí)針對(duì)多 人交互情境中情感信息的編碼方式簡單,通常使用圖卷積網(wǎng)絡(luò)或者熱力圖(heat map)的形 式進(jìn)行建模分析,這類方法將多人之間的高維情感距離視為不變的常量,且只能粗略的度 量情感張力變化,導(dǎo)致很難捕獲到與主體情感變化有關(guān)的情境上下文表征,缺乏合理性。同 時(shí),情境中人類主體和環(huán)境的交互上下文變化很少被考慮到,這導(dǎo)致大多數(shù)多模態(tài)情感特 征的表達(dá)出現(xiàn)冗余和錯(cuò)誤,情感識(shí)別模型的魯棒性無法獲得保障。 [0006] 目前的多模態(tài)形式往往專注于對(duì)情境中除去人類主體之外的情感線索提取,而忽 略了人類外在情感行為表現(xiàn)特征的利用。例如將面部表情,步態(tài)以及手勢等與情感信息流 4 4 CN 113947702 A 說明書 2/9頁 露密切相關(guān)的模態(tài)信號(hào)相結(jié)合。此外,傳統(tǒng)的基于離散情緒模型的情感定義模式無法科學(xué) 有效的描述情感變化的本質(zhì),導(dǎo)致情感識(shí)別結(jié)果的評(píng)估和分析缺乏有效性。 [0007] 綜上所述,開發(fā)新型基于情境感知的方法,充分利用面部表情,步態(tài),以及手勢等 人體外在行為表現(xiàn)模態(tài),結(jié)合對(duì)人類主體和場景以及人類群體之間情感交互行為進(jìn)行建模 分析的多模態(tài)情感識(shí)別系統(tǒng)成為了本研究領(lǐng)域技術(shù)人員亟待解決的問題。 發(fā)明內(nèi)容 [0008] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種充分利用面部 表情,步態(tài),以及手勢等人體外在行為表現(xiàn)模態(tài),結(jié)合對(duì)人類主體和場景以及人類群體之間 情感交互行為進(jìn)行建模分析的基于情境感知的多模態(tài)情感識(shí)別方法和系統(tǒng)。 [0009] 本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn): [0010] 一種基于情境感知的多模態(tài)情感識(shí)別方法,包括以下步驟: [0011] 多模態(tài)信息采集步驟:采集用于情感識(shí)別的視頻和真實(shí)世界圖像,所述視頻中包 括待進(jìn)行情感識(shí)別的人類主體和其它代理人; [0012] 基于多模態(tài)行為表現(xiàn)的情感處理步驟:根據(jù)所述視頻,提取面部表情特征、面部界 標(biāo)點(diǎn)、人體姿態(tài)和人體手勢的特征向量,并通過初始特征級(jí)聯(lián)的方式生成外在行為表現(xiàn)模 態(tài)向量; [0013] 基于場景上下文的情感分析步驟:通過為所述真實(shí)世界圖像和視頻中各視頻幀中 的人類主體添加蒙版,獲取場景圖像,然后進(jìn)行場景情感語義的特征提取,得到第一情感特 征向量; [0014] 基于代理人群體交互的情感分析步驟:在所述真實(shí)世界圖像和視頻中各視頻幀中 分別提取人類主體和其它代理人信息,然后提取初始表征特征,將各初始表征特征作為情 感節(jié)點(diǎn)饋送入圖注意力網(wǎng)絡(luò)中,構(gòu)建情感關(guān)系圖;根據(jù)該情感關(guān)系圖,計(jì)算不同的其它代理 人對(duì)人類主體的情感影響強(qiáng)度和程度,通過情感相似系數(shù)判斷其它代理人交互產(chǎn)生的情感 特征向量的權(quán)重大小,并與初始表征特征進(jìn)行加權(quán)平均操作,得到第二情感特征向量; [0015] 基于代理人和情境交互的情感分析步驟:通過為所述真實(shí)世界圖像和視頻中各視 頻幀中的其它代理人添加蒙版,獲取場景圖像,提取場景的初始特征;根據(jù)其它代理人的初 始表征特征,建立基本特征圖,對(duì)所述場景的初始特征和基本特征圖進(jìn)行特征聚合,得到第 三情感特征向量; [0016] 特征融合步驟:對(duì)所述外在行為表現(xiàn)模態(tài)向量、第一情感特征向量、第二情感特征 向量和第三情感特征向量進(jìn)行特征融合,得到融合特征向量; [0017] 情感識(shí)別步驟:根據(jù)所述融合特征向量進(jìn)行情感識(shí)別。 [0018] 進(jìn)一步地,所述基于場景上下文的情感分析步驟中,進(jìn)行場景情感語義的特征提 取具體為:選取殘差神經(jīng)網(wǎng)絡(luò)作為主體模型的骨干網(wǎng)絡(luò),所述殘差神經(jīng)網(wǎng)絡(luò)中的多個(gè)殘差 連接塊按順序交替嵌入基于通道和空間的注意力機(jī)制模塊形成完整的注意力提取網(wǎng)絡(luò),將 所述場景圖像載入該注意力提取網(wǎng)絡(luò)中進(jìn)行場景情感語義的特征提取。 [0019] 進(jìn)一步地,所述基于通道和空間的注意力機(jī)制模塊包括通道注意力機(jī)制和空間注 意力機(jī)制,所述通道注意力機(jī)制包括:通過全局平均池化推理出一張1D的通道注意力圖 隨后在輸出層通過通道級(jí)別的乘法進(jìn)行特征合并; 5 5 CN 113947702 A 說明書 3/9頁 [0020] 所述空間注意力機(jī)制包括:通過全局最大池化層推理出一張2D的空間注意力圖 隨后在輸出層通過通道級(jí)別的乘法進(jìn)行特征合并。 [0021] 進(jìn)一步地,所述特征融合步驟中進(jìn)行特征融合具體為: [0022] 從所述外在行為表現(xiàn)模態(tài)向量、第一情感特征向量、第二情感特征向量和第三情 感特征向量中選取強(qiáng)相關(guān)的特征向量和弱相關(guān)的特征向量,對(duì)于強(qiáng)相關(guān)的特征向量通過特 征級(jí)聯(lián)操作進(jìn)行特征融合,對(duì)于弱相關(guān)的特征向量通過乘性融合方式進(jìn)行特征融合。 [0023] 進(jìn)一步地,所述情感識(shí)別步驟具體包括離散情感識(shí)別子步驟和連續(xù)情感預(yù)測子步 驟; [0024] 所述離散情感識(shí)別子步驟包括:將所述融合特征向量映射到0到1之間,然后對(duì)每 個(gè)輸出節(jié)點(diǎn)和對(duì)應(yīng)的標(biāo)簽計(jì)算交叉熵?fù)p失函數(shù),通過計(jì)算出每一類可能輸出的表情標(biāo)簽的 概率來預(yù)測得到的表情標(biāo)簽。 [0025] 進(jìn)一步地,所述連續(xù)情感預(yù)測子步驟包括依次進(jìn)行數(shù)據(jù)歸一化、標(biāo)簽差值求和、誤 差幅度計(jì)算和連續(xù)數(shù)值預(yù)測,所述連續(xù)情感預(yù)測子步驟通過預(yù)先構(gòu)建并訓(xùn)練好的網(wǎng)絡(luò)模型 實(shí)現(xiàn),該網(wǎng)絡(luò)模型采用均方誤差損失來計(jì)算預(yù)測數(shù)值和目標(biāo)數(shù)值之間的差值的平方和從而 進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練。 [0026] 進(jìn)一步地,所述離散情感識(shí)別子步驟中的表情標(biāo)簽包括高興、驚喜、悲傷、厭惡、興 奮、平和、恐懼和生氣; [0027] 所述連續(xù)情感預(yù)測子步驟的輸出為情感的VAD連續(xù)模型的1到10中的預(yù)測值,該 VAD連續(xù)模型指的是情感的喚醒度、控制度以及愉悅度。 [0028] 進(jìn)一步地,所述基于多模態(tài)行為表現(xiàn)的情感處理步驟中,通過面部檢測器提取面 部表情輪廓,隨后通過設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取操作,得到面部表情特征向量; [0029] 通過面部檢測器提取多個(gè)面部界標(biāo)點(diǎn),通過卷積神經(jīng)網(wǎng)絡(luò)獲取并轉(zhuǎn)換為情感特征 向量; [0030] 通過姿態(tài)檢測器提取多個(gè)人體姿態(tài)的坐標(biāo)點(diǎn),將其饋送到編碼器網(wǎng)絡(luò)進(jìn)行特征提 取,得到人體姿態(tài)的特征向量; [0031] 通過姿態(tài)檢測器提取人體手部表征關(guān)鍵點(diǎn),利用卷積神經(jīng)網(wǎng)絡(luò)獲取人體手勢的特 征向量。 [0032] 本發(fā)明還提供一種采用如上所述的一種基于情境感知的多模態(tài)情感識(shí)別方法的 系統(tǒng),包括: [0033] 多模態(tài)信息采集單元,被配置為執(zhí)行所述多模態(tài)信息采集步驟; [0034] 基于多模態(tài)行為表現(xiàn)的情感處理單元,被配置為執(zhí)行所述基于多模態(tài)行為表現(xiàn)的 情感處理步驟; [0035] 基于場景上下文的情感分析單元,被配置為執(zhí)行所述基于場景上下文的情感分析 步驟; [0036] 基于代理人群體交互的情感分析單元,被配置為執(zhí)行所述基于代理人群體交互的 情感分析步驟; [0037] 基于代理人和情境交互的情感分析單元,被配置為執(zhí)行所述基于代理人和情境交 互的情感分析步驟; [0038] 基于自適應(yīng)規(guī)劃的特征融合單元,被配置為執(zhí)行所述特征融合步驟; 6 6 CN 113947702 A 說明書 4/9頁 [0039] 情感識(shí)別單元,被配置為執(zhí)行所述情感識(shí)別步驟。 [0040] 進(jìn)一步地,所述系統(tǒng)還包括顯示模塊,該顯示模塊被配置為線束所述情感識(shí)別單 元的輸出結(jié)果。 [0041] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn): [0042] (1)區(qū)別于傳統(tǒng)的多模態(tài)情感識(shí)別方法,本發(fā)明提出了基于情境感知的情感理解 和推理模式,試圖通過情感識(shí)別主體之外的多模態(tài)語義輔助進(jìn)行情感判別和分析。具體的, 場景上下文的情感分析單元通過提取真實(shí)世界中蘊(yùn)含的事物和背景環(huán)境中的上下文情感 語義信息,從而強(qiáng)化情感外在表征,提高情感識(shí)別的判別能力;代理人群體交互的情感分析 單元通過分析情感識(shí)別主體和周圍其他代理人之間的情感傳遞關(guān)系,利用先進(jìn)的圖注意力 神經(jīng)網(wǎng)絡(luò)分析不同代理人之間的情感強(qiáng)度,以輔助和增強(qiáng)識(shí)別主體的情感表征能力;代理 人和情境交互的情感分析單元致力于挖掘其他代理人在場景中進(jìn)行社會(huì)活動(dòng)所觸發(fā)的隱 藏情感狀態(tài),通過特征聚合的形式以完備識(shí)別主體的情感表達(dá)空間。 [0043] (2)基于多模態(tài)行為表現(xiàn)的情感處理單元充分結(jié)合了情感識(shí)別主體的面部表情信 息,面部關(guān)鍵點(diǎn)信息、手勢信號(hào)以及姿態(tài)信號(hào)等外在情感信息,所獲取的基于外在行為表現(xiàn) 的多模態(tài)信息有效的解決了生活中的遮擋和傳感器噪聲導(dǎo)致的部分模態(tài)信息缺失和異常 時(shí),所帶來得系統(tǒng)性能下降問題。同時(shí),面部分析中同時(shí)采用面部表情信息和面部關(guān)鍵點(diǎn)信 息,通過先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和融合,最大化強(qiáng)化了外在情感的表征能力。 [0044] (3)區(qū)別于傳統(tǒng)特征融合中單一的特征拼接方式,本發(fā)明提出的自適應(yīng)規(guī)劃融合 單元,可以有效的動(dòng)態(tài)規(guī)劃不同模態(tài)的融合策略,自適應(yīng)的考慮異構(gòu)模態(tài)之間的差異性和 相關(guān)性,通過乘性融合和特征級(jí)聯(lián)智能選擇的方式,充分挖掘潛在的情感特征以及進(jìn)一步 加強(qiáng)顯式情感特征的分類和預(yù)測能力。 [0045] (4)本發(fā)明提出的基于情感分類和預(yù)測的多任務(wù)學(xué)習(xí)模式,能夠有效的揭示情感 的演化和流露過程,此方法重新定義了情感識(shí)別規(guī)則,不像是傳統(tǒng)模式一樣僅僅考慮離散 情感的分類,而是結(jié)合高維情感空間的離散情感節(jié)點(diǎn)和連續(xù)空間變化中的情感狀態(tài),兩者 之間的共同訓(xùn)練和學(xué)習(xí),有效的促進(jìn)了多模態(tài)情感識(shí)別模型的可靠性和準(zhǔn)確性。 附圖說明 [0046] 圖1為本發(fā)明實(shí)施例中提供的一種基于情境感知的多模態(tài)情感識(shí)別系統(tǒng)原理框 圖; [0047] 圖2為本發(fā)明實(shí)施例中提供的基于多模態(tài)行為表現(xiàn)的情感處理單元原理框圖; [0048] 圖3為本發(fā)明實(shí)施例中提供的基于場景上下文的情感分析單元原理框圖; [0049] 圖4為本發(fā)明實(shí)施例中提供的基于代理人群體交互的情感分析單元原理框圖; [0050] 圖5為本發(fā)明實(shí)施例中提供的基于代理人和情境交互的情感分析單元原理框圖; [0051] 圖6為本發(fā)明實(shí)施例中提供的基于自適應(yīng)規(guī)劃的特征融合單元原理框圖; [0052] 圖7為本發(fā)明實(shí)施例中提供的基于離散情感的識(shí)別單元原理框圖; [0053] 圖8為本發(fā)明實(shí)施例中提供的基于連續(xù)情感的預(yù)測單元原理框圖。 具體實(shí)施方式 [0054] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 7 7 CN 113947702 A 說明書 5/9頁 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施 例的組件可以以各種不同的配置來布置和設(shè)計(jì)。 [0055] 因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù) 的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通 技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范 圍。 [0056] 實(shí)施例1 [0057] 本實(shí)施例提供一種基于情境感知的多模態(tài)情感識(shí)別方法,包括以下步驟: [0058] 多模態(tài)信息采集步驟:采集用于情感識(shí)別的視頻和真實(shí)世界圖像,視頻中包括待 進(jìn)行情感識(shí)別的人類主體和其它代理人; [0059] 基于多模態(tài)行為表現(xiàn)的情感處理步驟:根據(jù)視頻,提取面部表情特征、面部界標(biāo) 點(diǎn)、人體姿態(tài)和人體手勢的特征向量,并通過初始特征級(jí)聯(lián)的方式生成外在行為表現(xiàn)模態(tài) 向量; [0060] 基于場景上下文的情感分析步驟:通過為真實(shí)世界圖像和視頻中各視頻幀中的人 類主體添加蒙版,獲取場景圖像,然后進(jìn)行場景情感語義的特征提取,得到第一情感特征向 量; [0061] 基于代理人群體交互的情感分析步驟:在真實(shí)世界圖像和視頻中各視頻幀中分別 提取人類主體和其它代理人信息,然后提取初始表征特征,將各初始表征特征作為情感節(jié) 點(diǎn)饋送入圖注意力網(wǎng)絡(luò)中,構(gòu)建情感關(guān)系圖;根據(jù)該情感關(guān)系圖,計(jì)算不同的其它代理人對(duì) 人類主體的情感影響強(qiáng)度和程度,通過情感相似系數(shù)判斷其它代理人交互產(chǎn)生的情感特征 向量的權(quán)重大小,并與初始表征特征進(jìn)行加權(quán)平均操作,得到第二情感特征向量; [0062] 基于代理人和情境交互的情感分析步驟:通過為真實(shí)世界圖像和視頻中各視頻幀 中的其它代理人添加蒙版,獲取場景圖像,提取場景的初始特征;根據(jù)其它代理人的初始表 征特征,建立基本特征圖,對(duì)場景的初始特征和基本特征圖進(jìn)行特征聚合,得到第三情感特 征向量; [0063] 特征融合步驟:對(duì)外在行為表現(xiàn)模態(tài)向量、第一情感特征向量、第二情感特征向量 和第三情感特征向量進(jìn)行特征融合,得到融合特征向量; [0064] 情感識(shí)別步驟:根據(jù)融合特征向量進(jìn)行情感識(shí)別。 [0065] 下面對(duì)各步驟進(jìn)行詳細(xì)描述。 [0066] 1.1、基于多模態(tài)行為表現(xiàn)的情感處理步驟 [0067] 基于多模態(tài)行為表現(xiàn)的情感處理步驟中,通過面部檢測器提取面部表情輪廓,隨 后通過設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取操作,得到面部表情特征向量; [0068] 通過面部檢測器提取多個(gè)面部界標(biāo)點(diǎn),通過卷積神經(jīng)網(wǎng)絡(luò)獲取并轉(zhuǎn)換為情感特征 向量; [0069] 通過姿態(tài)檢測器提取多個(gè)人體姿態(tài)的坐標(biāo)點(diǎn),將其饋送到編碼器網(wǎng)絡(luò)進(jìn)行特征提 取,得到人體姿態(tài)的特征向量; [0070] 通過姿態(tài)檢測器提取人體手部表征關(guān)鍵點(diǎn),利用卷積神經(jīng)網(wǎng)絡(luò)獲取人體手勢的特 征向量。 8 8 CN 113947702 A 說明書 6/9頁 [0071] 1.2、基于場景上下文的情感分析步驟 [0072] 基于場景上下文的情感分析步驟中,進(jìn)行場景情感語義的特征提取具體為:選取 殘差神經(jīng)網(wǎng)絡(luò)作為主體模型的骨干網(wǎng)絡(luò),殘差神經(jīng)網(wǎng)絡(luò)中的多個(gè)殘差連接塊按順序交替嵌 入基于通道和空間的注意力機(jī)制模塊形成完整的注意力提取網(wǎng)絡(luò),將場景圖像載入該注意 力提取網(wǎng)絡(luò)中進(jìn)行場景情感語義的特征提取。 [0073] 基于通道和空間的注意力機(jī)制模塊包括通道注意力機(jī)制和空間注意力機(jī)制,通道 注意力機(jī)制包括:通過全局平均池化推理出一張1D的通道注意力圖 隨后在輸 出層通過通道級(jí)別的乘法進(jìn)行特征合并; [0074] 空間注意力機(jī)制包括:通過全局最大池化層推理出一張2D的空間注意力圖 隨后在輸出層通過通道級(jí)別的乘法進(jìn)行特征合并。 [0075] 1.3、特征融合步驟 [0076] 特征融合步驟中進(jìn)行特征融合具體為: [0077] 從外在行為表現(xiàn)模態(tài)向量、第一情感特征向量、第二情感特征向量和第三情感特 征向量中選取強(qiáng)相關(guān)的特征向量和弱相關(guān)的特征向量,對(duì)于強(qiáng)相關(guān)的特征向量通過特征級(jí) 聯(lián)操作進(jìn)行特征融合,對(duì)于弱相關(guān)的特征向量通過乘性融合方式進(jìn)行特征融合。 [0078] 1.4、情感識(shí)別步驟 [0079] 情感識(shí)別步驟具體包括離散情感識(shí)別子步驟和連續(xù)情感預(yù)測子步驟; [0080] 離散情感識(shí)別子步驟包括:將融合特征向量映射到0到1之間,然后對(duì)每個(gè)輸出節(jié) 點(diǎn)和對(duì)應(yīng)的標(biāo)簽計(jì)算交叉熵?fù)p失函數(shù),通過計(jì)算出每一類可能輸出的表情標(biāo)簽的概率來預(yù) 測得到的表情標(biāo)簽。 [0081] 連續(xù)情感預(yù)測子步驟包括依次進(jìn)行數(shù)據(jù)歸一化、標(biāo)簽差值求和、誤差幅度計(jì)算和 連續(xù)數(shù)值預(yù)測,連續(xù)情感預(yù)測子步驟通過預(yù)先構(gòu)建并訓(xùn)練好的網(wǎng)絡(luò)模型實(shí)現(xiàn),該網(wǎng)絡(luò)模型 采用均方誤差損失來計(jì)算預(yù)測數(shù)值和目標(biāo)數(shù)值之間的差值的平方和從而進(jìn)行網(wǎng)絡(luò)模型的 訓(xùn)練。 [0082] 離散情感識(shí)別子步驟中的表情標(biāo)簽包括高興、驚喜、悲傷、厭惡、興奮、平和、恐懼 和生氣; [0083] 連續(xù)情感預(yù)測子步驟的輸出為情感的VAD連續(xù)模型的1到10中的預(yù)測值,該VAD連 續(xù)模型指的是情感的喚醒度、控制度以及愉悅度。 [0084] 本實(shí)施例還提供一種采用如上的一種基于情境感知的多模態(tài)情感識(shí)別方法的系 統(tǒng),包括: [0085] 多模態(tài)信息采集單元,被配置為執(zhí)行多模態(tài)信息采集步驟; [0086] 基于多模態(tài)行為表現(xiàn)的情感處理單元,被配置為執(zhí)行基于多模態(tài)行為表現(xiàn)的情感 處理步驟; [0087] 基于場景上下文的情感分析單元,被配置為執(zhí)行基于場景上下文的情感分析步 驟; [0088] 基于代理人群體交互的情感分析單元,被配置為執(zhí)行基于代理人群體交互的情感 分析步驟; [0089] 基于代理人和情境交互的情感分析單元,被配置為執(zhí)行基于代理人和情境交互的 9 9 CN 113947702 A 說明書 7/9頁 情感分析步驟; [0090] 基于自適應(yīng)規(guī)劃的特征融合單元,被配置為執(zhí)行特征融合步驟; [0091] 情感識(shí)別單元,被配置為執(zhí)行情感識(shí)別步驟; [0092] 具體的,本實(shí)施例中情感識(shí)別單元包括基于離散情感的識(shí)別單元和基于連續(xù)情感 的預(yù)測單元。 [0093] 優(yōu)選地,系統(tǒng)還包括顯示模塊,該顯示模塊被配置為線束情感識(shí)別單元的輸出結(jié) 果。 [0094] 具體的,多模態(tài)數(shù)據(jù)一方面來源于人體外在表現(xiàn)的面部、姿態(tài)以及手勢信息,另一 方面來自預(yù)處理過程中獲取的來自圖像或者視頻中的完整場景信息、所有代理人交互信息 以及場景和代理人交互信息。隨后在不同的情感處理和分析單元通過不同的神經(jīng)網(wǎng)絡(luò)和處 理技術(shù)提取到對(duì)應(yīng)的不同情感語音特征。在自適應(yīng)規(guī)劃的特征融合單元中,為了抵抗多模 態(tài)數(shù)據(jù)采集單元中產(chǎn)生的信號(hào)干擾和冗余信息,該單元采取乘性和級(jí)聯(lián)策略結(jié)合的自適應(yīng) 方式進(jìn)行特征融合,以確保多模態(tài)情感特征的完整性和有效性。隨后饋送到離散情感的識(shí) 別單元利用多標(biāo)簽分類損失訓(xùn)練網(wǎng)絡(luò)后輸出情感類別。具體的,情感類別包括高興、驚喜、 悲傷、厭惡、興奮、平和、恐懼和生氣。在連續(xù)情感預(yù)測單元中通過均方誤差損失訓(xùn)練網(wǎng)絡(luò) 后,輸出情感的VAD連續(xù)模型的1到10中的預(yù)測值。具體的,VAD模型指的是情感的喚醒度、控 制度以及愉悅度,其衡量了情感空間在連續(xù)狀態(tài)上的變化情況,能夠更加形象生動(dòng)的刻畫 情感強(qiáng)度和表征情感差異。隨后,通過顯示單元可以呈現(xiàn)出離散情感分析和連續(xù)情感預(yù)測 的結(jié)果。 [0095] 下面對(duì)該系統(tǒng)各單元的具體實(shí)施過程進(jìn)行詳細(xì)描述。 [0096] 2.1、基于多模態(tài)行為表現(xiàn)的情感處理單元 [0097] 圖2為本實(shí)施例提供的基于多模態(tài)行為表現(xiàn)的情感處理單元原理框圖,該單元包 括四個(gè)子特征提取單元,分別是面部表情提取單元、面部關(guān)鍵點(diǎn)提取單元、情感姿態(tài)提取單 元以及情感手勢提取單元。針對(duì)面部表情提取單元,首先通過OpenFace面部檢測器提取面 部表情輪廓,得到尺寸為224*224的面部圖像,隨后通過設(shè)計(jì)的五層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征 提取操作。該神經(jīng)網(wǎng)絡(luò)頭部包含五層卷積層以及相連接的批量歸一化層和ReLu激活層,尾 部包含兩層最大池化層進(jìn)行特征降維和縮放,最終獲得26*1*1大小的特征向量。針對(duì)面部 關(guān)鍵點(diǎn)提取單元,首先通過OpenFace面部檢測器提取68個(gè)面部界標(biāo)點(diǎn),隨后轉(zhuǎn)換成136*1*1 大小的初始特征向量。該向量通過兩層一維的卷積層以及相連接的批量歸一化層和ReLu激 活層,最后經(jīng)過一層全連接層獲取26*1*1大小的特征向量。針對(duì)情感姿態(tài)提取單元,通過 AlphaPose姿態(tài)檢測器提取26個(gè)人體姿態(tài)的坐標(biāo)點(diǎn),將其轉(zhuǎn)換成26*2*1的特征向量饋送到 編碼器網(wǎng)絡(luò)進(jìn)行特征提取,最終獲得26*1*1大小的特征向量。針對(duì)情感手勢提取單元,通過 AlphaPose姿態(tài)檢測器提取人體手部表征關(guān)鍵點(diǎn),利用三層轉(zhuǎn)置卷積層以及相連接的批量 歸一化層和ReLu激活層獲得512*1*1的特征向量,隨后再通過三層卷積層獲取26*1*1的大 小的特征向量。隨后通過初始特征級(jí)聯(lián)的方式獲取104*1*1大小的外在行為表現(xiàn)模態(tài)向量 進(jìn)行模態(tài)輸出。 [0098] 2.2、基于場景上下文的情感分析單元 [0099] 圖3為本實(shí)施例提供的基于場景上下文的情感分析單元原理框圖,單元主要包括 數(shù)據(jù)預(yù)處理、基于通道的注意力特征提取、基于空間的注意力特征提取、熱力圖生成以及特 10 10 CN 113947702 A 說明書 8/9頁 征提取和輸出幾個(gè)階段。具體的,在數(shù)據(jù)預(yù)處理階段,通過為輸入的真實(shí)世界圖像和利用視 頻截取的視頻幀表示為中的待進(jìn)行情感識(shí)別的人類代理人主體添加蒙版,以獲取只保留場 景信息的場景圖像,隨后選取殘差神經(jīng)網(wǎng)絡(luò)的ResNet?18作為主體模型的骨干網(wǎng)絡(luò),在其中 所包含的8個(gè)殘差連接塊中按順序交替嵌入基于通道和空間的注意力機(jī)制模塊形成完整的 注意力提取網(wǎng)絡(luò)進(jìn)行場景情感語義的特征提取。針對(duì)通道注意力機(jī)制,通過全局平均池化 推理出一張1D的通道注意力圖,隨后在輸出層通過通道級(jí)別的乘法進(jìn)行特征合并;針對(duì)空 間注意力機(jī)制,通過全局最大池化層推理出一張2D的空間注意力圖,隨后在輸出層通過通 道級(jí)別的乘法進(jìn)行特征合并。在注意力機(jī)制的幫助下,使得該系統(tǒng)可以更加聚焦于關(guān)注和 所對(duì)應(yīng)代理人相關(guān)的情感線索,進(jìn)一步生成注意力熱圖。在注意力熱圖中,本實(shí)施例可以將 權(quán)重較大的場景語義進(jìn)行可視化,并進(jìn)行標(biāo)注,便于分析場景信息和情感的關(guān)聯(lián)程度和耦 合關(guān)系。最終講進(jìn)行特征提取和得到26*1*1大小的情感特征向量。 [0100] 2.3、基于代理人群體交互的情感分析單元 [0101] 圖4為本實(shí)施例提供的基于代理人群體交互的情感分析單元原理框圖,其主要包 括數(shù)據(jù)預(yù)處理、特征預(yù)提取、情感關(guān)系圖構(gòu)建以及情感特征輸出四個(gè)步驟。具體的,數(shù)據(jù)預(yù) 處理階段,通過在輸入的真實(shí)世界圖像和利用視頻截取的視頻幀表示為I中分別提取待情 感識(shí)別的人類主體I 和其他代理人信息I ,通過深度殘差網(wǎng)絡(luò)ResNet?18首先提取兩方 agent p 的初始特征分別記為f 和f ,隨后將不同的特征作為情感節(jié)點(diǎn)饋送入圖注意力網(wǎng)絡(luò) agent p (Graph Attention Network)中構(gòu)建情感關(guān)系圖。之后考慮到不同的其他代理人對(duì)識(shí)別主 體的情感影響強(qiáng)度和程度不同,為此計(jì)算它們之間的情感相似系數(shù)記為n =α([Wf ij agent Wf ])。其中W表示權(quán)重參數(shù),α(.)表示特征映射關(guān)系以及表示為連接操作。為了增強(qiáng)情感 p 傳遞的關(guān)系學(xué)習(xí),本實(shí)施例同時(shí)使用多頭注意機(jī)制實(shí)現(xiàn)域節(jié)點(diǎn)特征的融合,即在相鄰的兩 個(gè)特征節(jié)點(diǎn)之間進(jìn)行三次情感關(guān)系系數(shù)的計(jì)算。最終基于得到的不同權(quán)重影響下的其他代 理人特征和原識(shí)別主體特征做加權(quán)平均操作,輸出26*1*1大小的情感特征向量h 。 3 [0102] 2.4、基于代理人和情境交互的情感分析單元 [0103] 圖5為本實(shí)施例提供的基于代理人和情境交互的情感分析單元原理框圖。該單元 旨在探索其他代理人和場景交互過程中產(chǎn)生的情感線索對(duì)識(shí)別主體代理人產(chǎn)生的情感影 響。其中包括數(shù)據(jù)預(yù)處理、代理人特征圖構(gòu)建、特征聚合以及模態(tài)輸出四個(gè)步驟。具體的,通 過為輸入的真實(shí)世界圖像和利用視頻截取的視頻幀表示為I中的所有其他代理人添加蒙版 得到僅保留場景信息的圖像I ,通過深度殘差網(wǎng)絡(luò)ResNet?18首先提取場景的初始特征f , s s 隨后利用代理人群體交互的情感分析單元中得到的f 饋送入兩層的圖卷積神經(jīng)網(wǎng)絡(luò)建 agent 立基本特征圖。接下來利用長短期記憶網(wǎng)絡(luò)實(shí)現(xiàn)f和f 的特征聚合,得到26*1*1大小的 s agent 情感特征向量h 。 4 [0104] 2.5、基于自適應(yīng)規(guī)劃的特征融合單元 [0105] 圖6為本實(shí)施例提供的基于自適應(yīng)規(guī)劃的特征融合單元原理框圖。具體的,該單元 會(huì)自適應(yīng)的根據(jù)上述情感分析和識(shí)別單元得到的多模態(tài)特征的特點(diǎn)進(jìn)行特征篩選和融合。 當(dāng)輸入的特征是基于面部表情、面部關(guān)鍵點(diǎn)等強(qiáng)相關(guān)的特征向量時(shí),為保證情感特征空間 的完備性和強(qiáng)表達(dá)能力,系統(tǒng)會(huì)自動(dòng)的進(jìn)行特征級(jí)聯(lián)操作進(jìn)行特征融合;當(dāng)輸入的特征是 基于代理人之間傳遞的情感信息和場景的情感語義信息等弱相關(guān)的特征向量時(shí),為了充分 挖掘和增強(qiáng)情感信息的表征能力,系統(tǒng)會(huì)自動(dòng)執(zhí)行乘性融合方式,通過保持原維度不變的 11 11 CN 113947702 A 說明書 9/9頁 形式,進(jìn)行特征滲透和互補(bǔ),最大限度彌補(bǔ)特征之間的差異性。最終將融合后的特征進(jìn)行輸 出。 [0106] 2.6、基于離散情感的識(shí)別單元 [0107] 圖7為本實(shí)施例提供的基于離散情感的識(shí)別單元原理框圖,在該單元中,首先對(duì)得 到的融合后情感特征向量進(jìn)行歸一化處理,隨后利用Sigmoid函數(shù)將輸出的特征值映射到0 到1之間,然后對(duì)每個(gè)輸出節(jié)點(diǎn)和對(duì)應(yīng)的標(biāo)簽計(jì)算交叉熵?fù)p失函數(shù),通過計(jì)算出每一類可能 輸出的表情標(biāo)簽的概率,且所有八種概率之和加起來為1。隨后選取最大概率的標(biāo)簽輸出, 即為系統(tǒng)預(yù)測為得到的表情標(biāo)簽。 [0108] 2.7、基于連續(xù)情感的預(yù)測單元 [0109] 圖8為本實(shí)施例提供的基于連續(xù)情感的預(yù)測單元原理框圖,其主要包含數(shù)據(jù)歸一 化、標(biāo)簽差值求和、誤差幅度計(jì)算以及最終的連續(xù)數(shù)值預(yù)測幾個(gè)步驟。具體的,該單元采用 均方誤差損失來計(jì)算預(yù)測數(shù)值和目標(biāo)數(shù)值之間的差值的平方和。由于本實(shí)施例中數(shù)據(jù)收集 的可靠性,因此對(duì)預(yù)測局外點(diǎn)具有魯棒性。所以模型會(huì)致力減小局外點(diǎn)造成的誤差,從而使 得模型的整體表現(xiàn)提高。 [0110] 均方誤差損失進(jìn)行優(yōu)化可以得到所有觀測的均值,為此針對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程 中,它的梯度在極值點(diǎn)處會(huì)有很大的躍變,誤差幅度計(jì)算在極值點(diǎn)有著良好的特性。同時(shí)加 上動(dòng)態(tài)調(diào)整學(xué)習(xí)率的策略,均方誤差的梯度隨著損失函數(shù)的減小而減小,這一特性使得在 最后的訓(xùn)練過程中能得到更精確的結(jié)果。 [0111] 通過離散情感的識(shí)別單元和連續(xù)情感的預(yù)測單元獲得情感信息后,在顯示單元中 通過可視化的方式進(jìn)一步的實(shí)現(xiàn)結(jié)果展示和呈現(xiàn)。 [0112] 本實(shí)施例展示的基于情境感知的多模態(tài)情感識(shí)別系統(tǒng)首次引入情境感知中的場 景語義、代理人交互以及代理人與場景交互中蘊(yùn)含的情感特征,有效的推動(dòng)了真實(shí)世界下 的多模態(tài)情感識(shí)別的發(fā)展。同時(shí),通過充分采集情感識(shí)別主體的面部表情信息,面部關(guān)鍵點(diǎn) 信息、手勢信號(hào)以及姿態(tài)信號(hào)等外在情感信息,結(jié)合不同識(shí)別單元對(duì)異構(gòu)模態(tài)信息進(jìn)行預(yù) 處理和特征提取,進(jìn)一步使用自適應(yīng)規(guī)劃的特征融合方式實(shí)現(xiàn)了多模態(tài)特征的有機(jī)融合。 最終基于情感分類和預(yù)測的多任務(wù)學(xué)習(xí)模式,極大的加強(qiáng)了多模態(tài)情感識(shí)別的精度,提高 了模型的泛化性能和準(zhǔn)確率。本實(shí)施例所提出的方法,可以提供完整有效的情感判別特征 空間,為后續(xù)的人類自然情感理解以及開放世界的情感表征提供可靠保障。 [0113] 以上詳細(xì)描述了本發(fā)明的較佳具體實(shí)施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)人員無 需創(chuàng)造性勞動(dòng)就可以根據(jù)本發(fā)明的構(gòu)思做出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù) 人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實(shí)驗(yàn)可以得到的 技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。 12 12 CN 113947702 A 說明書附圖 1/8頁 圖1 13 13 CN 113947702 A 說明書附圖 2/8頁 圖2 14 14 CN 113947702 A 說明書附圖 3/8頁 圖3 15 15 CN 113947702 A 說明書附圖 4/8頁 圖4 16 16 CN 113947702 A 說明書附圖 5/8頁 圖5 17 17 CN 113947702 A 說明書附圖 6/8頁 圖6 18 18 CN 113947702 A 說明書附圖 7/8頁 圖7 19 19 CN 113947702 A 說明書附圖 8/8頁 圖8 20 20

  2、成為VIP后,下載本文檔將扣除1次下載權(quán)益。下載后,不支持退款、換文檔。如有疑問加。

  3、成為VIP后,您將擁有八大權(quán)益,權(quán)益包括:VIP文檔下載權(quán)益、閱讀免打擾、文檔格式轉(zhuǎn)換、高級(jí)專利檢索、專屬身份標(biāo)志、高級(jí)客服、多端互通、版權(quán)登記。

  4、VIP文檔為合作方或網(wǎng)友上傳,每下載1次, 網(wǎng)站將根據(jù)用戶上傳文檔的質(zhì)量評(píng)分、類型等,對(duì)文檔貢獻(xiàn)者給予高額補(bǔ)貼、流量扶持。如果你也想貢獻(xiàn)VIP文檔。上傳文檔

  提供農(nóng)業(yè)、鑄造、給排水、測量、發(fā)電等專利信息的免費(fèi)檢索和下載;后續(xù)我們還將提供提供專利申請、專利復(fù)審、專利交易、專利年費(fèi)繳納、專利權(quán)恢復(fù)等更多專利服務(wù)。并持續(xù)更新最新專利內(nèi)容,完善相關(guān)專利服務(wù),助您在專利查詢、專利應(yīng)用、專利學(xué)習(xí)查找、專利申請等方面用得開心、用得滿意!

  原創(chuàng)力文檔創(chuàng)建于2008年,本站為文檔C2C交易模式,即用戶上傳的文檔直接分享給其他用戶(可下載、閱讀),本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人所有。原創(chuàng)力文檔是網(wǎng)絡(luò)服務(wù)平臺(tái)方,若您的權(quán)利被侵害,請發(fā)鏈接和相關(guān)訴求至 電線) ,上傳者

Copyright ? 2025 Kaiyun科技股份有限公司 版權(quán)所有   浙ICP備11013208號(hào)-1

開云網(wǎng)站 - 情緒化智能照明算法應(yīng)用專家