情緒辨識AI技術介紹
  • Post category:News
  • Post author:

◎ 陳箴(倫敦政經學院法律碩士、漢堡大學法律經濟分析碩士)

情緒辨識AI是人工智慧的一個子類型,專門測量、理解、模擬、回應人類情緒。情緒辨識技術的起源可回朔到1995年美國麻省理工學院教授Rosalind Picard發表的文章「情緒運算(Affective Computing)」。目前市面上的情緒辨識AI主要用三種方式辨識情緒:臉部表情、語音與生理反應。多數產品採單一方式辨識,而結合三種方式來辨識情緒的AI(多模態情緒辨識)仍在研發階段。以下簡單介紹目前最普及的技術。

Photo by Tengyart on Unsplash

一、臉部表情情緒辨識技術

臉部表情是人類最豐富的表達管道,主要傳遞情緒與社群訊號。心理學家Paul Ekman 和Wallace V. Friesen於1978年發表的臉部動作編碼系統Facial Action Coding System (FACS)是客觀分類臉部動作最常見的方式。臉部動作單元Facial action units (AUs)是構成臉部表情的基本單位,例如外側眉毛上揚、嘴角外移。然而手動編碼非常花時間,也很難有即時的運用。

現在的人工智慧技術與充足的資料量突破了過往的限制,開創了情緒辨識AI的發展。情緒辨識的處理架構,包括資料收集、資料標記、資料輸入、機器學習、辨識輸出等階段。首先,資料搜集主要有兩種方式。學界常見的收集資料方法是設計互動情境請專業演員演出,並進行錄影。此方法的好處是搜集資料效率高,以及能夠捕捉最自然的情緒反應,缺點是無法確保情境設計是否接近現實的情緒反應;業界較常使用的方式是透過群眾外包(crowd sourcing)的方式搜集影片,例如徵求網友的同意,記錄其觀看廣告時的臉部反應作為研究資料,此方法的好處是搜集的資料為人們真實生活中的反應。第二步驟,FACS編碼專家將資料庫中的相片或是影片進行臉部動作編碼。第三步驟的機器學習,是用已編碼的資料庫來訓練機器進行編碼。

最後,辨識輸出階段的流程為:一、臉部範圍偵測(運用臉部辨識技術,通常用一個長方體框住人臉)與臉部運動支點部位偵測(通常有34個點,由這些點的變化可以進一步判讀臉部動作單元)。二、萃取臉部五官與動作。三、臉部動作單元分類與強度判讀(例如用1-100的分數評分外側眉毛上揚的程度)。四、判讀情緒與強度:不同的臉部動作單元組成會對應到不同的情緒表達。通常情緒判讀以生氣、厭惡、恐懼、高興、難過、驚喜此六種核心情緒為主(亦是Paul Ekman提出的理論)。有些產品會加上另外兩種情緒,例如中性(平靜)和藐視。AI同樣會以1-100的分數評分每一種情緒的強度,最後輸出其辨識出的情緒。通常AI也會辨識性別與有無配戴眼鏡,以調整其對於臉部動作的情緒判讀。

該技術目前使用範圍為三種情緒辨識技術中最廣的。例如用於分析某廣告手法對於消費者的吸引程度、協助人資主管辨識面試者的情緒與抗壓力、協助教師觀察學生學習專注度、協助辦案人員測謊、協助醫護人員辨識病人是否有憂鬱症或阿茲海默症、給予疲勞駕駛警訊等等。

Photo by Orkun Azap on Unsplash

二、語音情緒辨識技術

當一個人說話時,傳遞出的訊息有兩種:顯性訊息(說話的字面意思)以及隱性訊息(語調、姿態、表情等)。例如,當一個人用嚴肅的語調說「這很好笑」,很可能他並不認為這真的很好笑,而是在嘲諷或是隱匿其真實想法。語音情緒辨識技術即是用來偵測在語音通話中可能錯失的隱性訊息,輔助使用者對於訊息有更正確的解讀。目前該技術主要用於客戶服務專線,幫助服務人員更能精準的顧慮到客戶的情緒與需要。

語音情緒辨識的處理架構與上述臉部表情情緒辨識技術相似,包括資料收集、資料標記、資料輸入、機器學習、辨識輸出等階段。首先,資料搜集主要有三種方式:設計互動情境請專業演員演出、將非專業演員放置於模擬的情緒情境中、一般日常生活對話(例如廣播節目、電話客服錄音)。此三種方式依序越貼近生活實況,能夠提高情緒判讀的精準度,然而因為法律倫理因素越難取得。第二步驟,將語音資料處理成為可用的檔案,例如分割視窗與音框(作為訊號的運算單位)、分辨斷句、去除噪音。第三步驟,進行特徵擷取。目前尚無通用的模型,常見擷取的特徵如音高(聲音頻率)、共振峰(顯示能量集中的頻率位置)、聲音強度/能量(振幅大小)、語速。舉例來說,聲音能量漸強通常與開心或生氣正相關;能量漸弱則與難過或厭惡正相關。語速上,生氣時會比難過時來得快。第四步驟、透過標記好情緒的資料進行機器學習,訓練辨識模型。最後,辨識輸出階段的流程會先重複前面一到三步驟,接著AI會根據先前所訓練出來的辨識模型將受測語音與資料庫的語音特徵進行比對,進而辨識受測語音的情緒。

三、生理反應情緒辨識技術

主要透過心跳、呼吸、流汗、血液含氧量、吐出的二氧化碳變化等生理反應辨識情緒。目前主要用於醫療方面,例如當AI偵測到心跳加快,判讀病患出現焦慮反應時,裝置會釋出一些可以安定人心的芬香。該技術亦有被用於辦案測謊。


資料來源