本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),包括:信息獲取模塊、多模態(tài)數(shù)據(jù)處理模塊、數(shù)據(jù)存儲模塊和評估模塊;信息獲取模塊接收用戶個人信息;多模態(tài)數(shù)據(jù)處理模塊中,量表自測模塊向用戶提供情緒測試量表并計算分數(shù);語音檢測模塊向用戶發(fā)送帶有多種情感激發(fā)的問題,并收集答復語音;對答復語音進行VAD處理后,由預設模型提取音頻特征;離線狀態(tài)下,將答復語音轉(zhuǎn)換為文本數(shù)據(jù),提取文本情感特征;視頻檢測模塊向用戶發(fā)送帶有多種情感激發(fā)的視頻,并收集用戶觀看時的行為視頻,由預設模型提取其中的視頻特征;評估模塊根據(jù)上述得
(19)國家知識產(chǎn)權局 (12)發(fā)明專利申請 (10)申請公布號 CN 116665845 A (43)申請公布日 2023.08.29 (21)申請?zhí)?2.6 (22)申請日 2023.05.17 (71)申請人 北京郵電大學 地址 100876 北京市海淀區(qū)西土城路10號 (72)發(fā)明人 李雅任一鳴高迎明李啟飛 王棟 (74)專利代理機構(gòu) 北京金咨知識產(chǎn)權代理有限 公司 11612 專利代理師 薛海波 (51)Int.Cl. G16H 20/70 (2018.01) G06V 20/40 (2022.01) G06V 40/20 (2022.01) G06V 10/774 (2022.01) G06V 10/82 (2022.01) 權利要求書2頁 說明書11頁 附圖3頁 (54)發(fā)明名稱 一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng) (57)摘要 本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)用戶情緒 自測系統(tǒng),包括:信息獲取模塊、多模態(tài)數(shù)據(jù)處理 模塊、數(shù)據(jù)存儲模塊和評估模塊;信息獲取模塊 接收用戶個人信息;多模態(tài)數(shù)據(jù)處理模塊中,量 表自測模塊向用戶提供情緒測試量表并計算分 數(shù);語音檢測模塊向用戶發(fā)送帶有多種情感激發(fā) 的問題,并收集答復語音;對答復語音進行VAD處 理后,由預設模型提取音頻特征;離線狀態(tài)下,將 答復語音轉(zhuǎn)換為文本數(shù)據(jù),提取文本情感特征; 視頻檢測模塊向用戶發(fā)送帶有多種情感激發(fā)的 視頻,并收集用戶觀看時的行為視頻,由預設模 型提取其中的視頻特征;評估模塊根據(jù)上述得到 A 的特征,得到情緒分析數(shù)據(jù)及評估值。本發(fā)明的 5 系統(tǒng)支持遠程自測,醫(yī)療成本低,檢測流程標準 4 8 5 且客觀。 6 6 6 1 1 N C CN 116665845 A 權利要求書 1/2 頁 1.一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述系統(tǒng)關聯(lián)至預設平臺,以 應用程序的形式展現(xiàn),所述系統(tǒng)包括: 多模態(tài)數(shù)據(jù)處理模塊;所述多模態(tài)數(shù)據(jù)處理模塊包括量表自測模塊、語音檢測模塊和 視頻檢測模塊; 所述量表自測模塊響應于用戶請求提供多種情緒測試表,接收所述用戶反饋的情緒測 試表填報結(jié)果,并根據(jù)所述情緒測試表填報結(jié)果生成對應的自測分數(shù); 所述語音檢測模塊響應于所述用戶請求以文字形式提供多種帶有情感激發(fā)的問題,并 接收所述用戶針對所述問題反饋的答復語音;對所述答復語音進行語音端點檢測處理,將 所述答復語音合并為短音頻;將所述短音頻輸入預訓練得到的音頻特征提取模型中,得到 用于判斷用戶情感的音頻特征;在離線狀態(tài)下,將所述答復語音轉(zhuǎn)換為文本數(shù)據(jù),并基于預 設算法得到所述文本數(shù)據(jù)的文本情感特征; 所述視頻檢測模塊響應于所述用戶請求以視頻形式提供多種帶有情感激發(fā)的視頻片 段,并同步采集所述用戶在觀看所述視頻片段過程中的行為視頻,所述行為視頻包括用戶 的表情和動作;對所述行為視頻進行預處理后輸入預訓練得到的視頻特征提取模型中,得 到用于判斷用戶情感的視頻特征; 數(shù)據(jù)存儲模塊,用于存儲所述自測分數(shù)、所述答復語音、所述文本數(shù)據(jù)、所述文本情感 特征、所述音頻特征、所述行為視頻和所述視頻特征; 評估模塊 ,用于根據(jù)所述自測分數(shù)、所述文本情感特征、所述音頻特征和所述視頻特 征,得到用戶的情緒分析數(shù)據(jù)及評估值。 2.根據(jù)權利要求1所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,還包括: 所述量表自測模塊響應于用戶請求提供多種抑郁量表,所述抑郁量表包括漢密爾頓量 表、貝克抑郁量表、患者健康問卷和自評抑郁量表;接收所述用戶反饋的抑郁量表填報結(jié) 果,并根據(jù)所述抑郁量表填報結(jié)果生成對應的自測分數(shù); 所述語音檢測模塊響應于所述用戶請求以文字形式提供用于診斷抑郁癥的多種帶有 積極情感、消極情感、中性情感激發(fā)的問題,并接收所述用戶針對所述問題反饋的答復語 音;對所述答復語音進行語音端點檢測處理,將所述答復語音合并為短音頻;將所述短音頻 輸入預訓練得到的音頻特征提取模型中,得到用于判斷用戶情感的音頻特征;在離線狀態(tài) 下,將所述答復語音轉(zhuǎn)換為文本數(shù)據(jù),并基于預設算法得到所述文本數(shù)據(jù)的文本情感特征; 所述視頻檢測模塊響應于所述用戶請求以視頻形式提供用于診斷抑郁癥的多種帶有 積極情感、消極情感、中性情感激發(fā)的視頻片段,并同步采集所述用戶在觀看所述視頻片段 過程中的行為視頻,所述行為視頻包括用戶的表情和動作;對所述行為視頻進行預處理后 輸入預訓練得到的視頻特征提取模型中,得到用于判斷用戶情感的視頻特征; 評估模塊 ,用于根據(jù)所述自測分數(shù)、所述文本情感特征、所述音頻特征和所述視頻特 征,得到用戶的情緒分析數(shù)據(jù)以及患有抑郁癥的概率值。 3.根據(jù)權利要求1所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述系統(tǒng)還 包括信息獲取模塊,所述信息獲取模塊用于接收用戶輸入的個人信息,所述個人信息包括 年齡、性別、心理咨詢記錄。 4.根據(jù)權利要求3所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述信息獲 取模塊和所述多模態(tài)數(shù)據(jù)處理模塊均設有用戶知情和用戶授權模塊。 2 2 CN 116665845 A 權利要求書 2/2 頁 5.根據(jù)權利要求1所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述語音檢 測模塊包括音頻質(zhì)檢模塊,所述音頻質(zhì)檢模塊用于預先錄制環(huán)境音和用戶語音樣例,并對 其計算音頻能量及信噪比,以保證后續(xù)錄制的答復語音的音頻質(zhì)量。 6.根據(jù)權利要求5所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述語音檢 測模塊與預設錄音設備連接,所述預設錄音設備用于記錄用戶在回答問題時的答復語音, 將所述答復語音上傳至所述語音檢測模塊,并存儲于所述數(shù)據(jù)存儲模塊。 7.根據(jù)權利要求5所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述語音檢 測模塊包括語音識別模塊,所述語音識別模塊中設有語音識別模型,將所述答復語音輸入 所述語音識別模型進行識別,并對識別結(jié)果進行數(shù)據(jù)處理和解碼操作,得到所述文本數(shù)據(jù); 對所述文本數(shù)據(jù)進行數(shù)據(jù)預處理,提取所述文本情感特征。 8.根據(jù)權利要求1所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,還包括: 所述音頻特征提取模型是通過采用基于多個用戶的答復語音構(gòu)建的音頻訓練樣本集 對初始神經(jīng)網(wǎng)絡模型訓練得到的 ,其中,將各用戶對應的自測分數(shù)作為所述音頻訓練樣本 集的標簽; 所述視頻特征提取模型是通過采用基于多個用戶的行為視頻構(gòu)建的視頻訓練樣本集 對初始神經(jīng)網(wǎng)絡模型訓練得到的 ,其中,將各用戶對應的自測分數(shù)作為所述視頻訓練樣本 集的標簽。 9.根據(jù)權利要求1所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述視頻檢 測模塊與預設攝像設備連接,所述預設攝像設備用于記錄用戶在觀看過程中的行為視頻, 將所述行為視頻上傳至所述視頻檢測模塊,并存儲于所述數(shù)據(jù)存儲模塊。 10.根據(jù)權利要求1所述的基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述視頻 檢測模塊設有關鍵點特征提取模塊,用于提取所述行為視頻中的關鍵點,所述關鍵點包括 表情關鍵點和動作關鍵點,并計算所述行為視頻中相鄰幀之間所述關鍵點的運動信息,所 述運動信息包括運動方向、運動速度和運動加速度。 3 3 CN 116665845 A 說明書 1/11 頁 一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng) 技術領域 [0001] 本發(fā)明涉及數(shù)據(jù)收集與處理技術領域,尤其涉及一種基于多模態(tài)數(shù)據(jù)用戶情緒自 測系統(tǒng)。 背景技術 [0002] 抑郁癥是一種世界范圍內(nèi)常見的精神疾病,主要表現(xiàn)為情緒低落、思維緩慢、意志 活動減弱等。抑郁癥已經(jīng)成為主要的健康問題之一,全球約有3億人受到抑郁癥的影響。根 據(jù)世界衛(wèi)生組織(世衛(wèi)組織)2021年青少年心理健康報告,全世界10~19歲的人群中,每7人 中就有1人患有精神障礙,抑郁癥是這一年齡組的主要病因之一。 [0003] 抑郁癥是一種典型的心理障礙,隨著病情惡化,可能會導致患者發(fā)生自殺、自殘等 行為。青少年正處于成長的關鍵時期,因此抑郁癥對其而言更加危險。幸運的是,早期發(fā)現(xiàn) 和診斷有助于防止病情惡化,減少抑郁癥造成的損害。因此,早期發(fā)現(xiàn)和診斷對于預防和治 療抑郁癥至關重要。 [0004] 現(xiàn)有技術方案包括有問卷調(diào)查、神經(jīng)影像技術、生物標志物、行為和認知測試等 等。其中,問卷調(diào)查是一種廣泛使用的抑郁癥研究數(shù)據(jù)收集方法,使用標準化的抑郁癥問卷 來評估受試者的心理狀況,但存在回憶偏差和主觀性等局限性。神經(jīng)影像技術通過收集大 量關于抑郁癥患者神經(jīng)系統(tǒng)結(jié)構(gòu)和功能的信息,以診斷抑郁癥。生物標志物是一種物理或 化學指標,可以提供與抑郁癥患者的生理狀況相關的信息,以及可能與抑郁癥發(fā)病機制有 關的生化通路的信息。行為和認知測試可以評估抑郁癥患者的認知和行為功能,如反應時 間測試、工作記憶測試和認知柔性測試等測試。以上方案需要患者親自前往醫(yī)院或診所,且 需要醫(yī)生陪同完成,診斷效率低,診斷結(jié)果受醫(yī)生主觀因素影響,醫(yī)療成本高,無法實現(xiàn)遠 程診斷。 發(fā)明內(nèi)容 [0005] 鑒于此,本發(fā)明實施例提供了一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),以消除或 改善現(xiàn)有技術中存在的一個或更多個缺陷,解決現(xiàn)有的情緒/心理檢測治療技術方案中存 在的診斷效率低、診斷結(jié)果受醫(yī)生主觀因素影響、醫(yī)療成本高、無法實現(xiàn)遠程診斷的問題。 [0006] 本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),其特征在于,所述系統(tǒng)關聯(lián) 至預設平臺,以應用程序的形式展現(xiàn),所述系統(tǒng)包括: [0007] 多模態(tài)數(shù)據(jù)處理模塊;所述多模態(tài)數(shù)據(jù)處理模塊包括量表自測模塊、語音檢測模 塊和視頻檢測模塊; [0008] 所述量表自測模塊響應于用戶請求提供多種情緒測試表,接收所述用戶反饋的情 緒測試表填報結(jié)果,并根據(jù)所述情緒測試表填報結(jié)果生成對應的自測分數(shù); [0009] 所述語音檢測模塊響應于所述用戶請求以文字形式提供多種帶有情感激發(fā)的問 題,并接收所述用戶針對所述問題反饋的答復語音;對所述答復語音進行語音端點檢測處 理,將所述答復語音合并為短音頻;將所述短音頻輸入預訓練得到的音頻特征提取模型中, 4 4 CN 116665845 A 說明書 2/11 頁 得到用于判斷用戶情感的音頻特征;在離線狀態(tài)下,將所述答復語音轉(zhuǎn)換為文本數(shù)據(jù),并基 于預設算法得到所述文本數(shù)據(jù)的文本情感特征; [0010] 所述視頻檢測模塊響應于所述用戶請求以視頻形式提供多種帶有情感激發(fā)的視 頻片段,并同步采集所述用戶在觀看所述視頻片段過程中的行為視頻,所述行為視頻包括 用戶的表情和動作;對所述行為視頻進行預處理后輸入預訓練得到的視頻特征提取模型 中,得到用于判斷用戶情感的視頻特征; [0011] 數(shù)據(jù)存儲模塊,用于存儲所述自測分數(shù)、所述答復語音、所述文本數(shù)據(jù)、所述文本 情感特征、所述音頻特征、所述行為視頻和所述視頻特征; [0012] 評估模塊,根據(jù)所述自測分數(shù)、所述文本情感特征、所述音頻特征和所述視頻特 征,得到用戶的情緒分析數(shù)據(jù)及評估值。 [0013] 在本發(fā)明的一些實施例中,所述系統(tǒng)還包括: [0014] 所述量表自測模塊響應于用戶請求提供多種抑郁量表,所述抑郁量表包括漢密爾 頓量表、貝克抑郁量表、患者健康問卷和自評抑郁量表;接收所述用戶反饋的抑郁量表填報 結(jié)果,并根據(jù)所述抑郁量表填報結(jié)果生成對應的自測分數(shù); [0015] 所述語音檢測模塊響應于所述用戶請求以文字形式提供用于診斷抑郁癥的多種 帶有積極情感、消極情感、中性情感激發(fā)的問題,并接收所述用戶針對所述問題反饋的答復 語音;對所述答復語音進行語音端點檢測處理,將所述答復語音合并為短音頻;將所述短音 頻輸入預訓練得到的音頻特征提取模型中,得到用于判斷用戶情感的音頻特征;在離線狀 態(tài)下,將所述答復語音轉(zhuǎn)換為文本數(shù)據(jù),并基于預設算法得到所述文本數(shù)據(jù)的文本情感特 征; [0016] 所述視頻檢測模塊響應于所述用戶請求以視頻形式提供用于診斷抑郁癥的多種 帶有積極情感、消極情感、中性情感激發(fā)的視頻片段,并同步采集所述用戶在觀看所述視頻 片段過程中的行為視頻,所述行為視頻包括用戶的表情和動作;對所述行為視頻進行預處 理后輸入預訓練得到的視頻特征提取模型中,得到用于判斷用戶情感的視頻特征; [0017] 評估模塊,用于根據(jù)所述自測分數(shù)、所述文本情感特征、所述音頻特征和所述視頻 特征,得到用戶的情緒分析數(shù)據(jù)以及患有抑郁癥的概率值。 [0018] 在本發(fā)明的一些實施例中,所述系統(tǒng)還包括信息獲取模塊,所述信息獲取模塊用 于接收用戶輸入的個人信息,所述個人信息包括年齡、性別、心理咨詢記錄。 [0019] 在本發(fā)明的一些實施例中,所述信息獲取模塊和所述多模態(tài)數(shù)據(jù)處理模塊均設有 用戶知情和用戶授權模塊。 [0020] 在本發(fā)明的一些實施例中,所述語音檢測模塊包括音頻質(zhì)檢模塊,所述音頻質(zhì)檢 模塊用于預先錄制環(huán)境音和用戶語音樣例,并對其計算音頻能量及信噪比,以保證后續(xù)錄 制的答復語音的音頻質(zhì)量。 [0021] 在本發(fā)明的一些實施例中,所述語音檢測模塊與預設錄音設備連接,所述預設錄 音設備用于記錄用戶在回答問題時的答復語音,將所述答復語音上傳至所述語音檢測模 塊,并存儲于所述數(shù)據(jù)存儲模塊。 [0022] 在本發(fā)明的一些實施例中,所述語音檢測模塊包括語音識別模塊,所述語音識別 模塊中設有語音識別模型,將所述答復語音輸入所述語音識別模型進行識別,并對識別結(jié) 果進行數(shù)據(jù)處理和解碼操作,得到所述文本數(shù)據(jù);對所述文本數(shù)據(jù)進行數(shù)據(jù)預處理,提取所 5 5 CN 116665845 A 說明書 3/11 頁 述文本情感特征。 [0023] 在本發(fā)明的一些實施例中,所述系統(tǒng)還包括: [0024] 所述音頻特征提取模型是通過采用基于多個用戶的答復語音構(gòu)建的音頻訓練樣 本集對初始神經(jīng)網(wǎng)絡模型訓練得到的,其中,將各用戶對應的自測分數(shù)作為所述音頻訓練 樣本集的標簽; [0025] 所述視頻特征提取模型是通過采用基于多個用戶的行為視頻構(gòu)建的視頻訓練樣 本集對初始神經(jīng)網(wǎng)絡模型訓練得到的,其中,將各用戶對應的自測分數(shù)作為所述視頻訓練 樣本集的標簽。 [0026] 在本發(fā)明的一些實施例中,所述視頻檢測模塊與預設攝像設備連接,所述預設攝 像設備用于記錄用戶在觀看過程中的行為視頻,將所述行為視頻上傳至所述視頻檢測模 塊,并存儲于所述數(shù)據(jù)存儲模塊。 [0027] 在本發(fā)明的一些實施例中,所述視頻檢測模塊設有關鍵點特征提取模塊,用于提 取所述行為視頻中的關鍵點,所述關鍵點包括表情關鍵點和動作關鍵點,并計算所述行為 視頻中相鄰幀之間所述關鍵點的運動信息,所述運動信息包括運動方向、運動速度和運動 加速度。 [0028] 本發(fā)明的有益效果至少是: [0029] 本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),包括:以組件形式設置于預 設平臺應用程序中的信息獲取模塊、多模態(tài)數(shù)據(jù)處理模塊、數(shù)據(jù)存儲模塊和評估模塊;信息 獲取模塊用于接收用戶個人信息;多模態(tài)數(shù)據(jù)處理模塊中,量表自測模塊用于向用戶提供 情緒測試量表并計算分數(shù) ;語音檢測模塊用于向用戶發(fā)送帶有多種情感激發(fā)的問題,并收 集答復語音;對答復語音進行VAD處理后,由預設模型提取音頻特征;在離線狀態(tài)下,將答復 語音轉(zhuǎn)換為文本數(shù)據(jù),提取文本情感特征;視頻檢測模塊用于向用戶發(fā)送帶有多種情感激 發(fā)的視頻,并收集用戶觀看時的行為視頻,由預設模型提取其中的視頻特征;評估模塊用于 根據(jù)上述得到的量表分數(shù)、文本情感特征、音頻特征和視頻特征,得到情緒分析數(shù)據(jù)及評估 值,本發(fā)明的系統(tǒng)可被應用于抑郁癥等心理疾病的診斷中,其采用平臺應用程序為載體,實 現(xiàn)在線的數(shù)據(jù)收集和實時處理,大大提高了數(shù)據(jù)采集和分析的效率和準確性,同時,應用程 序作為一種基于互聯(lián)網(wǎng)的在線服務平臺,可以實現(xiàn)醫(yī)療資源共享,實現(xiàn)醫(yī)療服務線上化,極 大降低醫(yī)療成本;收集以不同情感激發(fā)為前提的音頻、文本和視頻的多模態(tài)數(shù)據(jù),數(shù)據(jù)全面 且質(zhì)量高,為情緒/心理的診斷和評估提供重要數(shù)據(jù)支持;支持遠程診斷,患者不需要親自 前往醫(yī)院,即可及時獲得專業(yè)的醫(yī)療服務,降低交通成本。 [0030] 進一步的,在語音檢測模塊中,采用語音識別模塊將答復語音轉(zhuǎn)換為文本數(shù)據(jù),并 基于自然語言處理提取文本情感特征,采用深度學習模型提取音頻特征,在視頻檢測模塊 中,采用深度學習模型提取視頻特征,實現(xiàn)了自動化及智能化的診斷,極大提高診斷效率, 同時,診斷流程標準且客觀,診斷結(jié)果不再受醫(yī)生主觀因素的影響,診斷準確率得到提升。 [0031] 本發(fā)明的附加優(yōu)點、目的,以及特征將在下面的描述中將部分地加以闡述,且將對 于本領域普通技術人員在研究下文后部分地變得明顯,或者可以根據(jù)本發(fā)明的實踐而獲 知。本發(fā)明的目的和其它優(yōu)點可以通過在說明書以及附圖中具體指出的結(jié)構(gòu)實現(xiàn)到并獲 得。 [0032] 本領域技術人員將會理解的是,能夠用本發(fā)明實現(xiàn)的目的和優(yōu)點不限于以上具體 6 6 CN 116665845 A 說明書 4/11 頁 所述,并且根據(jù)以下詳細說明將更清楚地理解本發(fā)明能夠?qū)崿F(xiàn)的上述和其他目的。 附圖說明 [0033] 此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,并不 構(gòu)成對本發(fā)明的限定。在附圖中: [0034] 圖1為本發(fā)明一實施例中基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng)的結(jié)構(gòu)框圖。 [0035] 圖2為本發(fā)明一實施例中信息獲取模塊的流程框圖。 [0036] 圖3為本發(fā)明一實施例中語音檢測模塊的流程框圖。 [0037] 圖4為本發(fā)明一實施例中視頻檢測模塊的流程框圖。 [0038] 標記說明: [0039] 100:信息獲取模塊; 200:多模態(tài)數(shù)據(jù)處理模塊; 300:數(shù)據(jù)存儲模塊; [0040] 400:評估模塊; 500:用戶知情和用戶授權模塊;210:量表自測模塊; [0041] 220:語音檢測模塊; 221:預設錄音設備; 222:音頻質(zhì)檢模塊; [0042] 223:語音識別模型; 230:視頻檢測模塊; 231:預設攝像設備。 具體實施方式 [0043] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下面結(jié)合實施方式和附圖,對 本發(fā)明做進一步詳細說明。在此,本發(fā)明的示意性實施方式及其說明用于解釋本發(fā)明,但并 不作為對本發(fā)明的限定。 [0044] 在此,還需要說明的是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅 示出了與根據(jù)本發(fā)明的方案密切相關的結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關系不大 的其他細節(jié)。 [0045] 應該強調(diào),術語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并 不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。 [0046] 在此,還需要說明的是,如果沒有特殊說明,術語“連接”在本文不僅可以指直接連 接,也可以表示存在中間物的間接連接。 [0047] 在下文中,將參考附圖描述本發(fā)明的實施例。在附圖中,相同的附圖標記代表相同 或類似的部件,或者相同或類似的步驟。 [0048] 為了解決現(xiàn)有的情緒/心理檢測治療技術方案中存在的診斷效率低、診斷結(jié)果受 醫(yī)生主觀因素影響、醫(yī)療成本高、無法實現(xiàn)遠程診斷的問題,本發(fā)明提供一種基于多模態(tài)數(shù) 據(jù)用戶情緒自測系統(tǒng),該系統(tǒng)關聯(lián)至預設平臺,以應用程序的形式展現(xiàn),如圖1所示,該系統(tǒng) 包括多模態(tài)數(shù)據(jù)處理模塊200、數(shù)據(jù)存儲模塊300和評估模塊400,具體的: [0049] 多模態(tài)數(shù)據(jù)處理模塊200中又包括量表自測模塊210、語音檢測模塊220和視頻檢 測模塊230。 [0050] 其中,量表自測模塊210響應于用戶請求提供多種情緒測試量表,接收用戶反饋的 情緒測試量表填報結(jié)果,并根據(jù)情緒測試量表填報結(jié)果生成對應的自測分數(shù)。 [0051] 語音檢測模塊220響應于用戶請求以文字形式提供多種帶有情感激發(fā)的問題,并 接收用戶針對問題反饋的答復語音;對答復語音進行語音端點檢測處理,將答復語音合并 為短音頻;將短音頻輸入預訓練得到的音頻特征提取模型中,得到用于判斷用戶情感的音 7 7 CN 116665845 A 說明書 5/11 頁 頻特征,在離線狀態(tài)下,將所述答復語音轉(zhuǎn)換為文本數(shù)據(jù),并基于預設算法得到所述文本數(shù) 據(jù)的文本情感特征。 [0052] 視頻檢測模塊230響應于用戶請求以視頻形式提供多種帶有情感激發(fā)的視頻片 段,并同步采集用戶在觀看視頻片段過程中的行為視頻,其中,行為視頻包括用戶的表情和 動作;對行為視頻進行預處理后輸入預訓練得到的視頻特征提取模型中,得到用于判斷用 戶情感的視頻特征。 [0053] 數(shù)據(jù)存儲模塊300用于存儲用戶的個人信息、自測分數(shù)、答復語音、文本數(shù)據(jù)、文本 情感特征、音頻特征、行為視頻和視頻特征。 [0054] 評估模塊400用于根據(jù)自測分數(shù)、文本情感特征、音頻特征和視頻特征,得到用戶 的情緒分析數(shù)據(jù)及評估值。 [0055] 在一些實施例中 ,預設平臺的應用程序包括微信小程序、QQ小程序、支付寶小程 序、百度智能小程序、快手小程序等,示例性的,本發(fā)明選用微信小程序。 [0056] 在一些實施例中,系統(tǒng)還包括信息獲取模塊100,信息獲取模塊100用于接收用戶 輸入的個人信息,其中,個人信息包括年齡、性別、心理咨詢記錄。 [0057] 在一些實施例中,基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng)可被應用于抑郁癥診斷中, 形成基于多模態(tài)數(shù)據(jù)的抑郁癥診斷系統(tǒng),同樣包括信息獲取模塊100、多模態(tài)數(shù)據(jù)處理模塊 200、數(shù)據(jù)存儲模塊300和評估模塊400,其中: [0058] 量表自測模塊210響應于用戶請求提供多種抑郁量表,示例性的,抑郁量表包括漢 密爾頓量表、貝克抑郁量表、患者健康問卷和自評抑郁量表;接收用戶反饋的抑郁量表填報 結(jié)果,并根據(jù)抑郁量表填報結(jié)果生成對應的自測分數(shù)。 [0059] 語音檢測模塊220響應于用戶請求以文字形式提供用于診斷抑郁癥的多種帶有積 極情感、消極情感、中性情感激發(fā)的問題,并接收用戶針對問題反饋的答復語音;對答復語 音進行語音端點檢測處理,將答復語音合并為短音頻 ;將短音頻輸入預訓練得到的音頻特 征提取模型中,得到用于判斷用戶情感的音頻特征;在離線狀態(tài)下,將答復語音轉(zhuǎn)換為文本 數(shù)據(jù),并基于預設算法得到文本數(shù)據(jù)的文本情感特征。 [0060] 視頻檢測模塊230響應于用戶請求以視頻形式提供用于診斷抑郁癥的多種帶有積 極情感、消極情感、中性情感激發(fā)的視頻片段,并同步采集用戶在觀看視頻片段過程中的行 為視頻,示例性的,行為視頻包括用戶的表情和動作;對行為視頻進行預處理后輸入預訓練 得到的視頻特征提取模型中,得到用于判斷用戶情感的視頻特征。 [0061] 評估模塊400,用于根據(jù)自測分數(shù)、文本情感特征、音頻特征和視頻特征,得到用戶 的情緒分析數(shù)據(jù)以及患有抑郁癥的概率值。 [0062] 具體的,在信息獲取模塊100中,預先設計了信息收集表格,將信息收集表格存儲 于信息獲取模塊100中。當用戶進入系統(tǒng)后,會提示進入信息獲取模塊100中進行個人信息 的填寫,其中,個人信息包括年齡、性別、近期是否參加過心理咨詢等能夠反應用戶生理狀 態(tài)或心理狀態(tài)的信息。 [0063] 在一些實施例中,用戶可采用選擇已有選項的形式填寫信息收集表格,示例性的, 信息收集表格中,年齡欄目設有年齡選項,性別設有男和女的選項,近期是否參加過心理咨 詢設有是和否的選項,用戶根據(jù)自身情況進行選擇。 [0064] 在一些實施例中,用戶可采用填空的形式填寫信息收集表格,根據(jù)自身情況,利用 8 8 CN 116665845 A 說明書 6/11 頁 智能終端的輸入設備在表格相應位置處手動輸入相應的信息。 [0065] 在一些實施例中,信息獲取模塊100還設有用戶知情和用戶授權模塊500,當用戶 進入信息獲取模塊100后,用戶知情和用戶授權模塊500會自動彈窗至智能設備屏幕的最上 層,提示用戶信息獲取模塊100需要獲取用戶的個人信息,只有用戶選擇同意或拒絕后,用 戶知情和用戶授權模塊500才會關閉。當用戶選擇同意時,系統(tǒng)跳轉(zhuǎn)回信息獲取模塊100,等 待用戶輸入個人信息;當用戶選擇拒絕時,系統(tǒng)跳轉(zhuǎn)至系統(tǒng)首頁,并提示用戶個人信息填寫 失敗。 [0066] 在獲取用戶個人信息后,系統(tǒng)跳轉(zhuǎn)至多模態(tài)數(shù)據(jù)處理模塊200,對用戶進行多模態(tài) 的數(shù)據(jù)收集與處理,為后續(xù)診斷抑郁癥提供數(shù)據(jù)支持。其中,對于多模態(tài)可以理解為:語音 是一種模態(tài),視頻是一種模態(tài),一個任務中用到兩種或多種模態(tài)的輸入就認為是多模態(tài)的。 [0067] 首先跳轉(zhuǎn)至多模態(tài)數(shù)據(jù)處理模塊200的量表自測模塊210。如圖2所示,量表自測模 塊210中至少存儲有漢密爾頓量表(HAMD)、貝克抑郁量表(BDI)、患者健康問卷(PHQ)和自評 抑郁量表(SDS)等量表。 [0068] 在一些實施例中,用戶進入量表自測模塊210后,可以主動選擇其中的一份或者多 份進行作答。 [0069] 在一些實施例中,量表自測模塊210會根據(jù)用戶需要的份數(shù),隨機調(diào)取相應份數(shù)的 不同量表,以供用戶進行作答。 [0070] 在一些實施例中,量表采用“問題?選項”的形式展現(xiàn),即量表包含多個問題,每個 問題下面有2~4個選項,用戶根據(jù)自身情況,選擇最符合的答案。 [0071] 當用戶完成所有問題確認提交時,量表自測模塊210根據(jù)用戶的作答情況,根據(jù)標 準算法計算用戶的抑郁量表分數(shù),生成自測分數(shù),并將自測分數(shù)存儲于數(shù)據(jù)存儲模塊300 中,便于后續(xù)數(shù)據(jù)調(diào)用。 [0072] 完成量表自測后,系統(tǒng)提示用戶進入語音檢測模塊220或視頻檢測模塊230。需要 說明的是對于先進入語音檢測模塊220還是先進入視頻檢測模塊230在本發(fā)明中不作限定, 可根據(jù)用戶當時的實際情況和喜好進行選擇。 [0073] 示例性的,如圖3所示,用戶先進入語音檢測模塊220。 [0074] 在一些實施例中,語音檢測模塊包括音頻質(zhì)檢模塊222,音頻質(zhì)檢模塊222用于預 先錄制環(huán)境音和用戶語音樣例,并對其計算音頻能量及信噪比,以保證后續(xù)錄制的答復語 音的音頻質(zhì)量。同時,通過對音頻能量和信噪比進行分析,還可以確定最佳的預設錄音設備 位置和環(huán)境設置,調(diào)整相關參數(shù),以實現(xiàn)更好的語音識別效果。 [0075] 語音檢測模塊220中存儲有多個帶有多種情感激發(fā)的問題,其中,多種情感至少包 括有積極、消極和中性情感。用戶先進入語音檢測模塊220后,語音檢測模塊220從存儲庫中 隨機調(diào)取一系列帶有積極、消極和中性情感激發(fā)的問題,并逐一發(fā)送給用戶。示例性的,問 題包括:“你最近有什么令人開心的事情發(fā)生嗎?”這類帶有積極情緒的問題,“你曾經(jīng)經(jīng)歷 過讓你感到失落的事情嗎?”這類帶有消極情緒的問題,和“今天的天氣怎么樣?”這類帶有 中性情緒的日常線] 在一些實施例中,語音檢測模塊220與預設錄音設備221連接,示例性的,預設錄音 設備221可以是智能設備的麥克風或其他錄音設備。當用戶接收到語音檢測模塊220發(fā)送來 的問題后,對相應的問題進行回答,并利用預設錄音設備221進行錄音,生成答復語音。通過 9 9 CN 116665845 A 說明書 7/11 頁 預設錄音設備221將答復語音上傳至語音檢測模塊220,并存儲于數(shù)據(jù)存儲模塊300。 [0077] 語音檢測模塊220對接收到的答復語音做進一步的處理與分析。 [0078] 對質(zhì)量合格的答復語音進行語音端點檢測處理 (Voice Activity Detection , VAD) ,將靜音部分刪除 ,將答復語音中說話部分的音頻合并為一段短音頻。其中,語音端點 檢測是一種處理語音信號的技術,用于識別輸入語音信號中的活動部分和非活動部分。 [0079] 研究表明,抑郁癥患者的語音特征與健康人的語音特征有所不同。例如,抑郁癥患 者的語速更慢、音調(diào)更低、語調(diào)變化更小等。因此將語音端點檢測處理后的短音頻輸入預訓 練得到的音頻特征提取模型中,得到用戶的音頻特征,通過對用戶音頻特征進行分析,可以 判斷用戶患有抑郁癥的可能性,示例性的,音頻特征包括用戶聲音強度、頻率、譜特性等。 [0080] 在一些實施例中,將語音端點檢測處理后的短音頻分割成多個連續(xù)的音頻片段后 再進行特征提取。 [0081] 在一些實施例中,音頻特征提取模型是通過采用基于多個用戶的答復語音構(gòu)建的 音頻訓練樣本集對初始神經(jīng)網(wǎng)絡模型訓練得到的,具體包括以下步驟: [0082] 獲取多個用戶的音頻質(zhì)量合格、且經(jīng)語音端點檢測處理后的短音頻,將短音頻分 割成多個連續(xù)的音頻片段,以構(gòu)建音頻訓練樣本集,即每個樣本包含一段音頻片段,根據(jù)各 用戶在量表自測模塊210中獲取的自測分數(shù)為每個樣本添加標簽;其中,標簽可以直接采用 自測分數(shù),也可以根據(jù)自測分數(shù)劃分具體的標簽,以抑郁診斷量表為例,貝克抑郁量表 (BDI)的劃分規(guī)則為:0~13分為無抑郁癥狀、14~19分為輕度抑郁、20~28分為中度抑郁、 29~63分為重度抑郁;患者健康問卷 (PHQ)的劃分規(guī)則為:0~4分為無抑郁癥狀、5~9分為 輕度抑郁、10~14分為中度抑郁、15~19分為中重度抑郁、20~27分為重度抑郁。 [0083] 獲取初始神經(jīng)網(wǎng)絡模型,所述初始神經(jīng)網(wǎng)絡模型可以選用卷積神經(jīng)網(wǎng)絡 (Convolutional Neural Networks ,CNN)、循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network , RNN)等;將樣本按批或逐一輸入初始神經(jīng)網(wǎng)絡模型中,得到每個樣本對應的音頻特征; [0084] 采用音頻訓練樣本集對初始神經(jīng)網(wǎng)絡模型進行訓練,直至滿足預設模型性能要 求,最終得到音頻特征提取模型。 [0085] 在一些實施例中,對語音端點檢測處理后的短音頻直接采用特征提取算法,提取 音頻特征,示例性的 ,特征提取算法可以采用短時傅里葉變換 (Short?time Fourier Transform,STFT)、梅爾頻率倒譜系數(shù)(Mel?Frequency Cepstral Coefficients,MFCC)等。 [0086] 在一些實施例中,語音檢測模塊220還包括語音識別模型223,語音識別模型223中 設有語音識別模型,其中,語音識別模型可以使用已經(jīng)訓練好的預訓練模型,也可以進行自 定義訓練,根據(jù)需要進行模型部署和加載。將答復語音輸入語音識別模型進行識別,對識別 結(jié)果進行數(shù)據(jù)處理和解碼操作,得到相應的文本數(shù)據(jù),并將文本數(shù)據(jù)存儲于數(shù)據(jù)存儲模塊 300中。需要說明的是,語音識別模型223在離線狀態(tài)下進行處理,預先將答復語音下載至智 能設備,以實現(xiàn)離線轉(zhuǎn)錄。離線轉(zhuǎn)錄可以在沒有網(wǎng)絡連接的情況下進行轉(zhuǎn)換,并且可以更好 地保證數(shù)據(jù)的隱私和安全。 [0087] 在一些實施例中,語音檢測模塊220還包括用戶知情和用戶授權模塊500。當用戶 進入語音檢測模塊220后,用戶知情和用戶授權模塊500會自動彈窗至智能設備屏幕的最上 層,提示用戶語音檢測模塊220需要獲取用戶的錄音權限以及音頻信息,只有用戶選擇同意 或拒絕后,用戶知情和用戶授權模塊500才會關閉。當用戶選擇同意時,系統(tǒng)跳轉(zhuǎn)回語音檢 10 10 CN 116665845 A 說明書 8/11 頁 測模塊220,等待用戶進行語音回答問題;當用戶選擇拒絕時,系統(tǒng)跳轉(zhuǎn)至系統(tǒng)首頁,并提示 用戶音頻信息獲取失敗。 [0088] 完成語音數(shù)據(jù)的收集和處理后,系統(tǒng)提示用戶進入視頻檢測模塊230。若用戶先進 入視頻檢測模塊230,則相應的,完成視頻數(shù)據(jù)的收集和處理后,系統(tǒng)提示用戶進入語音檢 測模塊220。 [0089] 如圖4所示,視頻檢測模塊230中存儲有多個帶有多種情感激發(fā)的視頻片段,其中, 多種情感至少包括有積極、消極和中性情感。用戶進入視頻檢測模塊230后,視頻檢測模塊 230從存儲庫中隨機調(diào)取一系列帶有積極、消極和中性情感激發(fā)的視頻片段,并發(fā)送給用 戶。示例性的,視頻片段包括:美景風光、音樂和陽光海灘等能夠帶給人愉悅和放松感的視 頻片段;落寞、憂傷和緊張等能夠帶給人消極情緒的視頻片段;上班、做家務、吃飯等普通的 日常場景下帶有中性情緒的視頻片段。 [0090] 在一些實施例中,視頻檢測模塊230與預設攝像設備231連接,示例性的預設攝像 設備231可以是智能設備的攝像頭或其他錄像設備。當用戶接收到視頻檢測模塊230發(fā)送來 的視頻片段后,逐一觀看各視頻片段,并利用預設攝像設備231進行錄像,生成行為視頻。其 中,行為視頻包括用戶的表情和動作,具體的,如用戶的面部表情、眼神、頭部姿勢等。通過 預設攝像設備231將行為視頻上傳至視頻檢測模塊230,并存儲于數(shù)據(jù)存儲模塊300。 [0091] 視頻檢測模塊230對接收到的行為視頻做進一步的處理與分析。 [0092] 在一些實施例中,將行為視頻分割成多個連續(xù)的視頻片段,以便于后續(xù)的特征提 取。 [0093] 在一些實施例中,視頻檢測模塊230設有關鍵點特征提取模塊,用于提取行為視頻 中的關鍵點,其中,關鍵點至少包括表情關鍵點和動作關鍵點,并計算行為視頻中相鄰幀之 間用戶的運動信息,以提取更多用戶行為特征。其中,運動信息包括運動方向、運動速度和 運動加速度等。 [0094] 研究表明,抑郁癥患者的非語言行為也與健康人的行為有所不同。例如,抑郁癥患 者可能會表現(xiàn)出面部表情不自然、動作緩慢、眼神呆滯等非語言行為特征。因此,將行為視 頻輸入預訓練得到的視頻特征提取模型中,得到用戶的視頻特征,通過對用戶視頻特征的 分析,可以判斷用戶患有抑郁癥的可能性。 [0095] 在一些實施例中,視頻特征提取模型是通過采用基于多個用戶的行為視頻構(gòu)建的 視頻訓練樣本集對初始神經(jīng)網(wǎng)絡模型訓練得到的,具體包括以下步驟: [0096] 獲取多個用戶的行為視頻,將行為視頻分割成多個連續(xù)的視頻片段,以構(gòu)建視頻 訓練樣本集,即每個樣本包含一段視頻片段,根據(jù)各用戶在量表自測模塊210中獲取的自測 分數(shù)為每個樣本添加標簽;其中,標簽可以直接采用自測分數(shù),也可以根據(jù)自測分數(shù)劃分具 體的標簽,以抑郁診斷量表為例,貝克抑郁量表 (BDI)的劃分規(guī)則為 :0~13分為無抑郁癥 狀、14~19分為輕度抑郁、20~28分為中度抑郁、29~63分為重度抑郁;患者健康問卷(PHQ) 的劃分規(guī)則為:0~4分為無抑郁癥狀、5~9分為輕度抑郁、10~14分為中度抑郁、15~19分 為中重度抑郁、20~27分為重度抑郁。 [0097] 獲取初始神經(jīng)網(wǎng)絡模型,所述初始神經(jīng)網(wǎng)絡模型可以選用卷積神經(jīng)網(wǎng)絡 (Convolutional Neural Networks ,CNN)、循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network , RNN)等;將樣本按批或逐一輸入初始神經(jīng)網(wǎng)絡模型中,得到每個樣本對應的視頻特征; 11 11 CN 116665845 A 說明書 9/11 頁 [0098] 采用視頻訓練樣本集對初始神經(jīng)網(wǎng)絡模型進行訓練,直至滿足預設模型性能要 求,最終得到視頻特征提取模型。 [0099] 在一些實施例中,視頻檢測模塊230還包括用戶知情和用戶授權模塊500。當用戶 進入視頻檢測模塊230后,用戶知情和用戶授權模塊500會自動彈窗至智能設備屏幕的最上 層,提示用戶視頻檢測模塊230需要獲取用戶的錄像權限以及視頻信息,只有用戶選擇同意 或拒絕后,用戶知情和用戶授權模塊500才會關閉。當用戶選擇同意時,系統(tǒng)跳轉(zhuǎn)回視頻檢 測模塊230,等待用戶進行錄像;當用戶選擇拒絕時,系統(tǒng)跳轉(zhuǎn)至系統(tǒng)首頁,并提示用戶視頻 信息獲取失敗。 [0100] 數(shù)據(jù)存儲模塊300用于存儲用戶的個人信息、自測分數(shù)、答復語音、文本數(shù)據(jù)、文本 情感特征、音頻特征、行為視頻和視頻特征,以便調(diào)用。 [0101] 在一些實施例中,數(shù)據(jù)存儲模塊300僅存儲用戶最近一年內(nèi)或最近20次的抑郁癥 診斷的數(shù)據(jù),自動清除過期數(shù)據(jù)與無用數(shù)據(jù)。需要說明的是,“一年”和“20次”在本發(fā)明中僅 是舉例說明,可根據(jù)實際情況進行修改。 [0102] 評估模塊400從數(shù)據(jù)存儲模塊300中調(diào)取數(shù)據(jù),即自測分數(shù)、文本情感特征、音頻特 征和視頻特征,按照預設算法,根據(jù)自測分數(shù)、文本情感特征、音頻特征和視頻特征,得到用 戶的情緒分析數(shù)據(jù)以及患有抑郁癥的概率值。 [0103] 在一些實施例中,按照預設算法,自測分數(shù)、文本情感特征、音頻特征和視頻特征 每個數(shù)據(jù)都會得到一個對應的抑郁癥的概率值,為每個數(shù)據(jù)設置比重;每個數(shù)據(jù)的概率值 按照比重綜合計算,最終得到的用戶患有抑郁癥的概率值。 [0104] 在一些實施例中,評估模塊400還包括業(yè)務推薦模塊410,業(yè)務推薦模塊410中設有 在線咨詢窗口,用于在診斷之后,根據(jù)用戶的病情為其推薦合適的醫(yī)院或診所,使得用戶能 夠及時尋求心理治療;科普抑郁癥調(diào)節(jié)方法,如規(guī)律生活方式、減輕壓力、深呼吸和冥想、尋 求家人朋友的幫助等。 [0105] 下面結(jié)合一具體實施例,對該系統(tǒng)做進一步說明,在該具體實施例下,基于多模態(tài) 數(shù)據(jù)用戶情緒自測系統(tǒng)設置于微信小程序中,用戶A想要自我檢測情緒狀態(tài),是否患有抑郁 癥: [0106] 用戶A在智能設備的微信小程序中打開并進入基于多模態(tài)數(shù)據(jù)用戶情緒自測系 統(tǒng)。 [0107] 根據(jù)系統(tǒng)提示,進入信息獲取模塊中,隨即自動彈窗提示用戶A授權系統(tǒng)獲取個人 信息,用戶A選擇同意后,在信息獲取模塊預設的信息收集表格中填寫個人信息,完成后選 擇提交。 [0108] 根據(jù)系統(tǒng)提示,進入量表自測模塊,用戶A選擇其中的漢密爾頓量表進行作答,完 成作答后選擇提交,隨即量表自測模塊生成用戶A的量表分數(shù)。 [0109] 根據(jù)系統(tǒng)提示,進入語音檢測模塊,隨即自動彈窗提示用戶A授權系統(tǒng)獲取錄音權 限以及音頻信息,用戶A選擇同意后,接收語音檢測模塊發(fā)送的兩組分別帶有積極、消極和 中性情感激發(fā)的問題,對相應的問題進行語音回答,并將答復語音用智能設備的麥克風錄 制下來,上傳至語音檢測模塊。語音檢測模塊對答復語音進行質(zhì)量檢測,在合格的情況下, 對答復語音進行處理,生成音頻特征,提示用戶音頻數(shù)據(jù)已收集完成。將答復語音下載至智 能設備本地,在離線狀態(tài)下提取文本情感特征。 12 12 CN 116665845 A 說明書 10/11 頁 [0110] 根據(jù)系統(tǒng)提示,進入視頻檢測模塊,隨即自動彈窗提示用戶A授權系統(tǒng)獲取錄像權 限以及視頻信息,用戶A選擇同意后,接收視頻檢測模塊發(fā)送的兩組分別帶有積極、消極和 中性情感激發(fā)的視頻片段,用戶A逐一觀看視頻片段,并用智能設備的攝像頭記錄觀看過程 中的行為視頻,上傳至視頻檢測模塊。視頻檢測模塊對行為視頻進行處理,生成視頻特征, 提示用戶視頻數(shù)據(jù)已收集完成。 [0111] 系統(tǒng)自動跳轉(zhuǎn)至評估模塊,顯示用戶A患有抑郁癥的概率值,并對用戶A的情緒狀 態(tài)進行分析。 [0112] 綜上所述,本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)用戶情緒自測系統(tǒng),包括:以組件形式 設置于預設平臺應用程序中的信息獲取模塊、多模態(tài)數(shù)據(jù)處理模塊、數(shù)據(jù)存儲模塊和評估 模塊;信息獲取模塊用于接收用戶個人信息;多模態(tài)數(shù)據(jù)處理模塊中,量表自測模塊用于向 用戶提供情緒測試量表并計算分數(shù);語音檢測模塊用于向用戶發(fā)送帶有多種情感激發(fā)的問 題,并收集答復語音;對答復語音進行VAD處理后,由預設模型提取音頻特征;在離線狀態(tài) 下,將答復語音轉(zhuǎn)換為文本數(shù)據(jù),提取文本情感特征;視頻檢測模塊用于向用戶發(fā)送帶有多 種情感激發(fā)的視頻,并收集用戶觀看時的行為視頻,由預設模型提取其中的視頻特征;評估 模塊用于根據(jù)上述得到的量表分數(shù)、文本情感特征、音頻特征和視頻特征,得到情緒分析數(shù) 據(jù)及評估值,本發(fā)明的系統(tǒng)可被應用于抑郁癥等心理疾病的診斷中,其采用平臺應用程序 為載體,實現(xiàn)在線的數(shù)據(jù)收集和實時處理,大大提高了數(shù)據(jù)采集和分析的效率和準確性,同 時,應用程序作為一種基于互聯(lián)網(wǎng)的在線服務平臺,可以實現(xiàn)醫(yī)療資源共享,實現(xiàn)醫(yī)療服務 線上化,極大降低醫(yī)療成本 ;收集以不同情感激發(fā)為前提的音頻、文本和視頻的多模態(tài)數(shù) 據(jù),數(shù)據(jù)全面且質(zhì)量高,為情緒/心理的診斷和評估提供重要數(shù)據(jù)支持;支持遠程診斷,患者 不需要親自前往醫(yī)院,即可及時獲得專業(yè)的醫(yī)療服務,降低交通成本。 [0113] 進一步的,在語音檢測模塊中,采用語音識別模塊將答復語音轉(zhuǎn)換為文本數(shù)據(jù),并 基于自然語言處理提取文本情感特征,采用深度學習模型提取音頻特征,在視頻檢測模塊 中,采用深度學習模型提取視頻特征,實現(xiàn)了自動化及智能化的診斷,極大提高診斷效率, 同時,診斷流程標準且客觀,診斷結(jié)果不再受醫(yī)生主觀因素的影響,診斷準確率得到提升。 [0114] 本領域普通技術人員應該可以明白,結(jié)合本文中所公開的實施方式描述的各示例 性的組成部分、系統(tǒng)和方法,能夠以硬件、軟件或者二者的結(jié)合來實現(xiàn)。具體究竟以硬件還 是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每 個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的 范圍。當以硬件方式實現(xiàn)時,其可以例如是電子電路、專用集成電路(ASIC)、適當?shù)墓碳?、?件、功能卡等等。當以軟件方式實現(xiàn)時,本發(fā)明的元素是被用于執(zhí)行所需任務的程序或者代 碼段。程序或者代碼段可以存儲在機器可讀介質(zhì)中,或者通過載波中攜帶的數(shù)據(jù)信號在傳 輸介質(zhì)或者通信鏈路上傳送。 [0115] 需要明確的是,本發(fā)明并不局限于上文所描述并在圖中示出的特定配置和處理。 為了簡明起見,這里省略了對已知方法的詳細描述。在上述實施例中,描述和示出了若干具 體的步驟作為示例。但是,本發(fā)明的方法過程并不限于所描述和示出的具體步驟,本領域的 技術人員可以在領會本發(fā)明的精神后,作出各種改變、修改和添加,或者改變步驟之間的順 序。 [0116] 本發(fā)明中,針對一個實施方式描述和/或例示的特征,可以在一個或更多個其它實 13 13 CN 116665845 A 說明書 11/11 頁 施方式中以相同方式或以類似方式使用,和/或與其他實施方式的特征相結(jié)合或代替其他 實施方式的特征。 [0117] 以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,對于本領域的技術人 員來說,本發(fā)明實施例可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何 修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。 14 14 CN 116665845 A 說明書附圖 1/3 頁 圖1 圖2 15 15 CN 116665845 A 說明書附圖 2/3 頁 圖3 16 16 CN 116665845 A 說明書附圖 3/3 頁 圖4 17 17
2、成為VIP后,下載本文檔將扣除1次下載權益。下載后,不支持退款、換文檔。如有疑問加。
3、成為VIP后,您將擁有八大權益,權益包括:VIP文檔下載權益、閱讀免打擾、文檔格式轉(zhuǎn)換、高級專利檢索、專屬身份標志、高級客服、多端互通、版權登記。
4、VIP文檔為合作方或網(wǎng)友上傳,每下載1次, 網(wǎng)站將根據(jù)用戶上傳文檔的質(zhì)量評分、類型等,對文檔貢獻者給予高額補貼、流量扶持。如果你也想貢獻VIP文檔。上傳文檔
用于制備高性能二氧化碳分離混合基質(zhì)膜的聚乙烯基胺改性希夫堿框架材料的制備方法.pdf
原創(chuàng)力文檔創(chuàng)建于2008年,本站為文檔C2C交易模式,即用戶上傳的文檔直接分享給其他用戶(可下載、閱讀),本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人所有。原創(chuàng)力文檔是網(wǎng)絡服務平臺方,若您的權利被侵害,請發(fā)鏈接和相關訴求至 電線) ,上傳者