中文字幕亚洲综合久久蜜桃,成年日韩片AV在线网站医生 ,无码精品国产dvd在线观看9久,xfplay5566色资源网站

開云(中國)Kaiyun·官方網站-Kaiyun科技股份有限公司

當前位置: 主頁 > 光研動態(tài) > 公司新聞

多模態(tài)智能情緒感知系統的制作方法

作者:小編發(fā)布時間:2025-07-17 12:58

  1.基于視覺和語音的智能性別、情緒識別檢測系統及方法,該系統包括,基于圖像的情緒和性別識別模塊,用以根據人臉圖像進行車內人員的情緒識別,以及根據人臉進行車內人員的性別識別;基于語音的情緒和性別識別模塊,用以根據人的語音進行車內人員的情緒識別,以及根據語音進行車內人員的性別識別;融合模塊,用以將所述性別識別的結果進行匹配和情緒識別的結果進行融合,并發(fā)送到個性化智能語音交互系統;個性化智能語音交互系統,可進行語音交互。該發(fā)明通過融合圖像和語音的識別結果,提升性別/情緒識別的精準度,通過個性化語音交互系統提升駕駛體驗,提升駕駛安全性,通過語音交互,增加車載設備使用的樂趣和信息服務精準性。

  2.一種用于智能機器人的情緒識別方法及系統,該系統包括:交互信息獲取步驟,獲取用戶輸入的多模態(tài)交互信息:交互信息解析步驟,對多模態(tài)交互信息進行解析,分別根據多模態(tài)交互信息確定出至少兩種情緒信息,得到情緒信息集合;情緒識別步驟,根據情緒信息集合,確定出用戶的當前情緒。相較于現有技術,本方法能夠使得情緒識別結果更加準確可靠,這樣也就可以避免在用戶言行不一等情況下情緒識別結果錯誤的問題。

  3.一種穿戴設備識別語義的方法與系統,該發(fā)明公開了一種穿戴設備識別語義的方法與系統。該方法通過獲取用戶發(fā)出的語音和發(fā)出語音時的生理數據參數;識別所述語音的文字,根據所述生理數據參數識別出用戶情緒;通過所述文字和所述用戶情緒識別出語義。本發(fā)明在識別語音語義過程中,將用戶發(fā)出的語音與發(fā)出語音時用戶的情緒相結合,能準確的識別語義,極大的提高了用戶的體驗。

  目前最相近的已有技術方案是基于視覺和語音的智能性別、情緒識別檢測系統及方法,該系統包括,基于圖像的情緒和性別識別模塊,用以根據人臉圖像進行車內人員的情緒識別,以及根據人臉進行車內人員的性別識別;基于語音的情緒和性別識別模塊,用以根據人的語音進行車內人員的情緒識別,以及根據語音進行車內人員的性別識別;融合模塊,用以將所述性別識別的結果進行匹配和情緒識別的結果進行融合,并發(fā)送到個性化智能語音交互系統;個性化智能語音交互系統,可進行語音交互。該發(fā)明通過融合圖像和語音的識別結果,提升性別/情緒識別的精準度,通過個性化語音交互系統提升駕駛體驗,提升駕駛安全性,通過語音交互,增加車載設備使用的樂趣和信息服務精準性。(專利名稱:基于視覺和語音的智能性別、情緒識別檢測系統及方法)。

  1.集成度差:現有的技術采集的信號比較單一,測量多種信號需要連接多種不同的設備。不能做到多種信息的同時采集,即不能夠感知受試者當前情緒狀態(tài)下的多種能夠表征情緒的信息。

  2.準確性低:依靠單模態(tài)的信號不能準確地識別出真實的情緒,會出現表里不一的情況。譬如,一個人的表情信息有可能會受到主觀因素的影響,容易偽裝,此時僅僅依靠面部表情信息來感知一個人的情緒狀態(tài),得到的結果往往是相悖的。事實上一個人的情緒狀態(tài)會通過多種信號表征出來,融合多模態(tài)信息進行情緒感知所得結果才會更加客觀、精確。而這也正是現有技術中所缺少的。

  3.忽略了情緒強度的測量:現有的技術往往只注重于情緒類型的識別,而忽略了情緒強度的測量。在不同的情境下,同一種情緒類型的情緒強度會有不同。情緒的變化不僅僅是情緒類型的轉換,也包括情緒強度的變化。忽略了情緒強度的測量將不能夠對情緒的變化做到實時精確的感知。

  4.忽略了人體行為對情緒感知的影響:現有技術多是利用主觀判斷、表情信息、語音信息等來識別情緒,而忽略了人體行為信息與情緒的映射關系。比如,當人體的上臂伸展程度較大時,可推斷該人當前的情緒狀態(tài)應為積極的。而當一個人的上臂擺動幅度比較大并且重心前移的時候,可推斷該人當前的情緒狀態(tài)是恐懼的。事實上不同的人體行為在一定程度上也表征著不同的情緒。

  5.忽略了生理信號對情緒感知的影響:現有技術大都忽略了生理信號對情緒感知的影響?,F有技術中的基于主觀判斷、面部表情以及語音信息的情緒識別簡單直觀,測量簡單,但是其結果往往受主觀因素影響,容易偽裝,有時不能夠真實地反應受試者當時的情緒狀態(tài)。而生理信號的變化只受人的自主神經系統和內分泌系統支配,不受人的主觀控制,因而采用生理信號進行情緒感知得到的結果更加客觀,相對精確。

  本發(fā)明提供了一種多模態(tài)智能情緒感知系統,包括采集模塊、識別模塊、融合模塊,所述采集模塊將采集到的信息傳輸給所述識別模塊,所述采集模塊包括視頻采集裝置、語音采集裝置、動作捕捉裝置以及生理信號采集裝置,所述識別模塊包括基于表情的情緒識別單元、基于語音的情緒識別單元、基于行為的情緒識別單元、以及基于生理信號的情緒識別單元,所述識別模塊中的各情緒識別單元對多模態(tài)信息進行識別,從而獲得情緒分量,所述情緒分量包含情緒類型和情緒強度,所述融合模塊將所述識別模塊的情緒分量進行融合實現人體情緒的準確感知;

  所述基于表情的情緒識別單元通過對采集到的視頻或者圖像,提取有效的動態(tài)表情特征或靜態(tài)表情特征,訓練出人臉表情與情緒的映射模型,在訓練好的模型基礎上,通過分類器對表情特征進行識別從而得到表情的情緒分量;

  基于語音的情緒識別單元從實時采集的語音信號中提取能夠表征情緒變化的特征參數,通過對表達情緒的有效參數的提取、分析,進而通過分類器進行情緒的判別,得到語音的情緒分量;

  基于行為的情緒識別單元通過分析和提取與情緒相關的行為特征,將其量化為表征情緒的參數,得到人體動作與情緒的映射模型,在識別的過程中,通過對固定長度的運動序列進行動作識別,得到不同的行為特征的數值,將其放入映射模型中從而得到了行為的情緒分量;

  基于生理信號的情緒識別單元用于對通過接觸或非接觸式方式采集的用戶生理信號,濾除生理信號中的噪聲后,利用經典模態(tài)分解和希爾伯特-黃變換算法提取心電、脈搏、肌電、皮膚電、腦電和呼吸信號的生理信號的特征,通過線性融合的方法對上述特征進行特征融合,并用信息增益率對特征進行選擇,最后,通過分類器對特征進行識別得到基于生理信號的情緒分量。

  表情特征提取模塊,用于對采集到的視頻或者圖像進行預處理操作,從預處理后的圖像或者視頻中提取有效的表情特征;

  分類器判別情緒模塊,用于利用訓練好的情緒模型,選取分類器進行情緒類型判別和情緒強度的計算,得到表情的情緒分量。

  作為本發(fā)明的進一步改進,在表情特征提取模塊中,對采集到的視頻序列進行關鍵幀提取,在檢測到視頻序列的關鍵幀后,將單個表情的一段完整的視頻序列分割出來,對分割后的視頻片段進行預處理操作,對預處理后的視頻序列提取動態(tài)特征或者靜態(tài)特征,從而提取有效的表情特征;

  在訓練映射模型模塊中,對提取到的動態(tài)特征或靜態(tài)特征,采用特征降維方法進行特征降維去取特征間的相關性,并對降維后的特征用relieff特征選擇方法進行特征選擇加權,使得加權后的綜合特征更加具有區(qū)分能力。

  作為本發(fā)明的進一步改進,在表情特征提取模塊中,關鍵幀提取的特征是視頻序列的三維空間梯度的幅值特征或是光流應變幅值。

  作為本發(fā)明的進一步改進,在所述表情特征提取模塊中,所述預處理操作包括對分割后的視頻片段進行人臉檢測、人眼定位、根據人眼進行配準、旋轉至水平、剪切歸一化人臉、直方圖均衡化,所述預處理操作包括上述操作的一種或幾種。

  語音提取分析模塊,對采集到的語音信號進行預處理,并從中提取能夠表征情緒變化的特征參數;

  分類器判斷模塊,針對表征情緒變化的特征參數,通過分類器進行情緒的判別,得到語音情緒分量;

  在所述語音提取分析模塊中,對采集到的語音信號進行采樣、量化,使之變成數字信號,然后對語音信號進行分幀、加窗的預處理,對原始特征向量集合進行降維,得到簡約向量集,降低網絡模型的復雜性,降低訓練時間;

  在所述分類器判斷模塊中,采用分類器的分類識別算法進行分類識別,從而得到語音的情緒識別分量。

  行為特征提取模塊,提取動作捕捉數據中與情緒相關的行為特征,行為特征包括人體重心的傾向、人體各肢體與重心的相對位置、人體的動作及速率;

  特征參數量化模塊,將提取到的與情緒相關的行為特征進行量化,形成表征情緒的參數;

  分類識別模塊,利用分類器對當前的行為信息進行識別,并將其作為參數傳入映射模型單元中得到行為的情緒分量。

  生理信號去噪模塊,通過小波變換和自適應濾波器去除采集到的生理信號中的噪聲;

  生理信號特征提取模塊,采用經典模態(tài)分解和希爾伯特-黃變換算法提取生理信號中的特征;

  特征融合及選擇模塊,采用線性融合的方法對提取到的信號特征進行特征融合,并利用信息增益率對特征進行選擇;

  作為本發(fā)明的進一步改進,所述分類器包括支持向量機、k近鄰、決策樹、隨機森林、隱馬爾可夫、神經網絡算法。

  作為本發(fā)明的進一步改進,該多模態(tài)智能情緒感知系統還包括顯示模塊,所述顯示模塊對采集到的信息進行實時顯示,并顯示最終識別出來的情緒類型和情緒強度。

  本發(fā)明的有益效果是:本發(fā)明所提供的多模態(tài)智能情緒感知系統不再像現有的情緒識別方法依靠主觀判斷或者單一模態(tài)進行情緒識別,本發(fā)明融合了表情、語音、行為以及生理信號等多模態(tài)進行情緒識別,實際使用時能夠自由靈活組合,可以是基于單個生理特征的智能感知系統,也可以是基于多個模態(tài)生理特征的任意組合的智能感知系統,相較于現有技術,本發(fā)明可以更加準確地識別出情緒,有效檢測出用戶在表里不一的情況下的真實情緒。

  如圖1所示,本發(fā)明公開了一種多模態(tài)智能情緒感知系統,包括采集模塊、識別模塊、融合模塊,所述采集模塊包括視頻采集裝置、圖像采集裝置、語音采集裝置、動作捕捉裝置以及生理信號采集裝置,該采集模塊可以為接觸式采集,也可以為非接觸式采集。所述識別模塊包括基于表情的情緒識別單元、基于語音的情緒識別單元、基于行為的情緒識別單元、以及基于生理信號的情緒識別單元。通過識別模塊可獲得各個情緒識別單元的情緒分量,情緒分量包含了情緒類型和情緒強度。融合模塊是將識別模塊中各情緒識別單元的情緒分量進行融合實現人體情緒的準確感知。顯示模塊是將采集到的信息進行實時顯示,并顯示最終識別出來的情緒類型和情緒強度。

  基于面部表情的情緒識別單元通過對采集到的視頻或者圖像,提取有效的動態(tài)表情特征或靜態(tài)表情特征,訓練出人臉表情與情緒的映射模型,在訓練好的模型基礎上,通過分類器對表情特征進行識別從而得到表情情緒分量。

  基于語音的情緒識別單元采用聲音采集裝置實時采集語音信號,并從中提取能夠表征情緒變化的特征參數,通過對表達情緒的有效參數的提取、分析,進而通過分類器進行情緒的判別,得到語音情緒分量。

  基于行為的情緒識別單元通過分析和提取與情緒相關的行為特征,將其量化為表征情緒的參數,得到人體動作與情緒的映射模型。在識別的過程中,通過對固定長度的運動序列進行動作識別,得到不同的行為特征的數值,將其放入映射模型中從而得到了行為情緒分量。

  基于生理信號的情緒識別單元通過接觸或非接觸式方式采集用戶生理信號,濾除生理信號中的噪聲后,利用經典模態(tài)分解和希爾伯特-黃變換算法提取心電、脈搏、肌電、皮膚電、腦電和呼吸信號等生理信號的特征。通過線性融合的方法對上述特征進行特征融合,并用信息增益率對特征進行選擇。最后,通過分類器對特征進行識別得到基于生理信號情緒分量。

  本發(fā)明所描述的多模態(tài)情緒智能感知系統在實際應用時可以是基于單個生理特征的智能感知系統,也可以是基于多個模態(tài)生理特征的任意組合的智能感知系統。

  本發(fā)明可通過穿戴式獲取用戶的多模態(tài)信息,這些多模態(tài)信息包含:表情信息、語音信息、行為信息以及生理信息。其中,用戶的表情信息可通過視頻采集裝置(如攝像頭)獲取,用戶的語音信息可通過語音采集裝置(如麥克風)獲取,用戶的行為信息可通過動作捕捉裝置(如穿戴式動作捕捉裝置,基于光影或視頻技術的動作捕捉裝置)獲取,用戶的生理信息可通過生理信號采集裝置(如接觸式智能手環(huán),非接觸式雷達等)采集。

  當系統采集到上述多模態(tài)信息后,識別模塊中的各情緒識別單元對相應的信息進行處理。

  表情特征提取模塊,用于對采集到的視頻或者圖像進行預處理操作,從預處理后的圖像或者視頻中提取有效的表情特征;

  分類器判別情緒模塊,用于利用訓練好的情緒模型,選取分類器進行情緒類型判別和情緒強度的計算,得到表情的情緒分量。

  在表情特征提取模塊中,對采集到的視頻序列進行關鍵幀提取,關鍵幀提取的特征可以是視頻序列的三維空間梯度的幅值特征,亦或是光流應變幅值,當然,并不局限于這些。在檢測到視頻序列的關鍵幀后,則可以將單個表情的一段完整的視頻序列分割出來。對分割后的視頻片段可以進行人臉檢測、人眼定位、根據人眼進行配準、旋轉至水平、剪切歸一化人臉、直方圖均衡化等預處理操作。預處理操作可以是這些操作中的一種或幾種,當然也可以是其他合理的預處理操作。對預處理后的視頻序列提取動態(tài)特征或者靜態(tài)特征,本實施例中,我們優(yōu)選動態(tài)特征,并采用特征降維方法(例如pca(主成分分析))進行特征降維去取特征間的相關性,并對降維后的特征優(yōu)選公認較好的relieff特征選擇方法進行特征選擇加權。使得加權后的綜合特征更加具有區(qū)分能力。relieff算法從訓練集d中隨機選擇一個樣本r,然后從和r同類的樣本中尋找最近鄰樣本h,稱為nearhit,從和r不同類的樣本中尋找最近鄰樣本m,稱為nearmiss。它的更新每個特征權重的規(guī)則:如果r和nearhit在某個特征上的距離小于r和nearmiss上的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權重;反之,說明該特征對區(qū)分同類和不同類的最近鄰起負面作用,則降低該特征的權重。以上過程重復m次,最后得到各特征的平均權重。特征的權重越大,表示該特征的分類能力越強,反之,表示該特征分類能力越弱。最后是將提取到的綜合特征放進分類器進行情緒的分類識別。以此得到基于面部表情的情緒識別分量。融入到最終的融合模塊進行最終的情緒判定。

  語音提取分析模塊,對采集到的語音信號進行預處理,并從中提取能夠表征情緒變化的特征參數;

  分類器判斷模塊,針對表征情緒變化的特征參數,通過分類器進行情緒的判別,得到語音情緒分量;

  對于語音信息,首先對原語音信號進行預處理操作。由于語音信號是連續(xù)信號,我們需要對它進行采樣、量化,使之變成數字信號。根據采樣定理,我們選定合適的采樣頻率進行采樣使之離散化。之后選擇合適的量化精度對采樣后的離散信號進行量化。由于語音信號是隨時間變化的非平穩(wěn)信號,不能夠用現有的數字信號處理技術進行直接研究。但研究表明語音信號是短時平穩(wěn)信號,我們對語音信號進行分幀、加窗等預處理操作。特征提取中,采用樣本熵及目前比較成熟的聲學參數及其統計參數,進行特征融合應用于語音情緒識別。采用pca貢獻分析對原始特征向量集合進行降維,得到最簡約向量集,降低網絡模型的復雜性,降低訓練時間。在最終的分類識別中可以采用人工神經網絡、支持向量機、動態(tài)時間規(guī)整算法、隱馬爾可夫模型等分類識別算法進行分類識別。以此得到語音的情緒識別分量。融入到最終的融合模塊進行最終的情緒判定。

  行為特征提取模塊,提取動作捕捉數據中與情緒相關的行為特征,行為特征包括人體重心的傾向、人體各肢體與重心的相對位置、人體的動作及速率;

  特征參數量化模塊,將提取到的與情緒相關的行為特征進行量化,形成表征情緒的參數;

  分類識別模塊,利用分類器對當前的行為信息進行識別,并將其作為參數傳入映射模型單元中得到行為的情緒分量。

  具體為,對于行為信息,首先對行為信息進行分析提取出與情緒相關的行為特征,包括人體重心的傾向、人體各肢體與重心的相對位置、人體的動作及速率等。將這些特征量化形成可以表征情緒的參數,進而得到人體動作與情緒的映射關系。比如,當人體的上臂伸展程度較大時,可推斷該人當前的情緒狀態(tài)應為積極的。而當一個人的上臂擺動幅度比較大并且重心前移的時候,可推斷該人當前的情緒狀態(tài)時恐懼的。對于人體的不同動作,一個人在跳舞的時候,情緒一般為積極的狀態(tài)。一個人在走路時,緩慢的行走在大多數情況下該人的情緒智能是開心或是悲傷,當該人快速地行走時,表明該人的情緒色彩很濃厚,所以可能是憤怒或是害怕,而當該人忽快忽慢地行走時,表明該人是受到了某件事情的刺激而變得喜悅,所以其情緒應該是驚喜。在建立動作與情緒之間的映射后,系統利用分類器對當前的行為信息進行識別,判斷用戶當前的人體重心的傾向程度,人體各肢體相對于人體重心的距離的遠近,動作類型,動作的速率快慢等。并將其作為參數傳入動作與情緒的關系模型中得到行為情緒分量。

  生理信號去噪模塊,通過小波變換和自適應濾波器去除采集到的生理信號中的噪聲;

  生理信號特征提取模塊,采用經典模態(tài)分解和希爾伯特-黃變換算法提取生理信號中的特征;

  特征融合及選擇模塊,采用線性融合的方法對提取到的信號特征進行特征融合,并利用信息增益率對特征進行選擇;

  對于生理信息,首先通過小波變換和自適應濾波器去除生理信號中的噪聲,采用經典模態(tài)分解和希爾伯特-黃變換算法提取生理信號中的特征。希爾伯特-黃算法利用尺度函數和信號自身的特點將信號進行分解和變換得到信號的瞬時幅值和瞬時頻率信息,從而更加全面的提取生理信號的特征信息。為使特征集最優(yōu)化,該系統不僅采用線性融合的方法將特征融合,還用信息增益率對特征進行選擇。線性融合可以將多種類特征組合構成綜合特征集用于情緒識別中,相較于單一種類特征集,綜合特征集包含更全面的信號特征和信息;而基于信息增益率的特征選擇方法則可以將無用的特征去除,不僅可以降低特征集的維數提高算法效率,還可以表面“特征冗余”對識別效果的影響。最后,將特征放入分類器中得到生理信號情緒分量。

  在得到表情的情緒分量、語音的情緒分量、行為的情緒分量和生理信號的情緒分量后,該系統通過融合模塊通過上述不同情緒分量的不同比重進行融合,從而得到最終的情緒類型以及情緒強度。情緒類型包括高興、驚訝、憤怒、惡心、悲傷、恐懼和平靜。

  最后,通過無線智能終端或上位機系統,將上述采集信息、情緒類型以及情緒強度進行實時顯示,并進行實時分析。

  在本發(fā)明的采集模塊中,采集方式包括:在面部表情采集當中,視頻或圖像采集裝置我們可以采用普通的usb攝像頭、3d攝像頭等,也可用其他可用視頻采集裝置代替。行為采集方式中,可以通過穿戴式動作傳感器采集,也可通過非接觸式的攝像頭等方式采集;生理信號采集方式中,可以通過穿戴式接觸式設備采集,也可通過非接觸式設備如uwb雷達等采集。

  kaiyun合作伙伴

  表情特征:在面部表情特征提取中,我們可以提取動態(tài)的表情特征和靜態(tài)的表情特征,表情特征可以是紋理特征、幾何特征、形狀特征等,可以是其中一種特征或多種特征的融合特征,當然,本發(fā)明包括但不限于這些特征。

  降維方法:常見的特征降維方法有pca、lda、kpca、kfda、isomap、le、lle、lpp等,本發(fā)明中所使用到的降維方法可以用這些但不限于這些的特征降維方法來替換。

  特征選擇有三種基本的方法:嵌入(embed)、封裝(wrapper)、過濾(filter)。我們可以采用三種特征選擇方法中的任意一種,當然也不局限于這些特征選擇方法。

  分類器包括支持向量機、k近鄰、決策樹、隨機森林、隱馬爾可夫、神經網絡等算法,但不限于這些分類方法。

  語音信息提取的特征包括mfcc、lpc、cep、mel等特征,但不限于這些特征。

  行為特征還包括頭部旋轉的角度、膝關節(jié)角(大腿與小腿所成夾角)、肘關節(jié)角(前臂和上臂所成夾角)、軀干向前彎曲的角度,但不限于這些信號。

  本發(fā)明所提供的多模態(tài)智能情緒感知系統不再像現有的情緒識別方法依靠主觀判斷或者單一模態(tài)進行情緒識別,本發(fā)明融合了表情、語音、行為以及生理信號等多模態(tài)進行情緒識別,實際使用時能夠自由靈活組合,可以是基于單個生理特征的智能感知系統,也可以是基于多個模態(tài)生理特征的任意組合的智能感知系統,相較于現有技術,本發(fā)明可以更加準確地識別出情緒,有效檢測出用戶在表里不一的情況下的真實情緒。

  以上內容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬技術領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本發(fā)明的保護范圍。

Copyright ? 2025 Kaiyun科技股份有限公司 版權所有   浙ICP備11013208號-1

開云網站 - 情緒化智能照明算法應用專家