【 CCF-GAIR 2018 】竹間智能 CTO 翁嘉頎談情感計算技術與商業落地(中)

【 CCF-GAIR 2018 】竹間智能 CTO 翁嘉頎談情感計算技術與商業落地(中)

▲竹間智能 CTO 翁嘉頎談情感計算技術與商業落地。(圖/翻攝自雷鋒網)

【原文:《對話翁嘉頎:暢聊竹間智能情感計算技術與商業落地 |  CCF-GAIR 2018 》,作者:李詩,智慧機器人網編輯整理】

文、圖/雷鋒網

雷鋒網:情感計算這個概念最近大家說得比較多,能說說您對這個概念的理解嗎?

翁嘉頎:情感計算是由 MIT 教授 Rosalind Picard 提出來的,他是情感計算的始祖。然後以目前來說,我一般把人機交互分成三個層次,最底下的層次叫做自然語言處理,比如「我肚子餓」、「等會兒想吃東西」,這兩句話,它的句法分析是不一樣的,這是最底下的一層。第二層叫做「意圖的理解」,這兩句話雖然不一樣,但是它意圖是一致的。它的意圖可能代表說,我想要點外賣,或者我要找附近的什麼餐館。 

然後,第三層是背後的意思,目前還沒有人能做到,像我在今天這個場合,我們第一次見面,我如果突然跟你說我肚子餓,我相信你的心裡感受不會太好。你總會覺得說,我是不是來要飯的?那如果我跟一個女同事說我肚子餓,她搞不好覺得說我是不是要約她出去吃飯,是不是有不良的企圖?在不同的場景、跟不同的人、在什麼樣的狀況我講同樣的一句話,它其實背後代表的意思是不一樣的。 

▲竹間智能致力於情感計算和人工智慧的結合。(圖/翻攝自網路)

目前大家都還在做第一層和第二層,我如何把句子分對,我如何讓句法結構是對的。在這方面,中國哈工大有很多專家。第二層意圖理解這個也很多人在做。目前可以做到大概可用的地步,我對電視、音箱講說「來首誰誰誰的歌」,它知道我是要聽音樂。那我跟音箱說,「誰誰誰的歌好難聽」,也不代表我要聽他的歌,我只是說以後不要再放他的歌給我聽,現在能做到正確理解這些句子的意圖。 

第三層,背後的意思。我講肚子餓,這句話到底背後真正的意思是什麼?那要走到這一步,情感計算不可避免,整個場景、情境你不可避免。 

雷鋒網:現在竹間智慧有將文字、語音、人臉都融合到一起來做情感計算的落地場景嗎?

翁嘉頎:講一個我們幫夏普電視做新零售的例子,夏普有個新開業的商場旗艦店,那個商場裡邊總共有五家賣電視的。開業的前三天,夏普的營業額 90 萬,另外四家加起來營業額只四十幾萬,夏普一家就超過其他四家的總和,這是怎麼做到的?

▲竹間智能替夏普電視從事新零售的案例。(圖/翻攝自網路)

我們在賣場的入口放了一個大的電視螢幕,可以抓拍每個路過的人的臉,能識別出男、女、長頭髮、短頭髮、歲數、表情、顏值等,很多人會停下來看。然後我們根據用戶畫像,進行不同的商品和優惠活動的推薦。這樣使得進店的客流就是別人的五倍以上。 

進到店內後,我們有無人的智慧貨架,上面安裝了平板、攝像頭,當攝像頭看到一個長頭髮的女生走過來,智慧貨架就會主動打招呼,說:「這位女士,你的頭髮非常好看,我這裡有洗髮、護髮、潤髮的產品,你有沒有興趣?」如果說攝像頭識別到女生臉上有黑斑,還會自動推薦遮瑕膏等產品。如果對方回應了,則會繼續話題;如果攝像頭發現消費者的臉色變得越來越難看,它就會停止話題。所以我們看到,這個案例裡的互動包括了有人臉、語音和文字。 

雷鋒網:現在的對話式人工智慧主攻語音,竹間智慧為什麼一開始就重視視覺?

翁嘉頎:我們的對話式人工智慧的想法主要來自於電影《 Her 》,裡面的智慧助手賽曼莎可以全方面地感知用戶的狀態,能看到用戶的表情聽到用戶說的話。任何人的交流,語音固然重要,但是很多時候其實一句話都不用說,一個表情就已經足夠了。比如你進到一家門店,看到某個產品露出厭惡的表情,那其實就已經表達出來了你根本不喜歡這個產品。 

所以那時候在做的時候,一開始起步,我們就有圖像處理、語音處理,有文字的處理,當時老闆(簡仁賢)已經想好他未來要的場景。不只是有手機上的人機互動、音箱上的人機互動,還要包括進到賣場裡邊。那麼視覺就是必不可少的部分。所以一開始老闆的野心就比較大。

雷鋒網:文字、語音、人臉的多模態情感計算的難點在哪兒?

翁嘉頎:比較大的難點當然是幾種情緒相衝突的時候應該怎麼辦?你如果說文字裡是高興,語音也是高興,人臉表情也是高興,那沒問題,小學生也知道這是高興。它語音是憤怒,文字是高興,比如我很憤怒的去說,「我今天很高興」,你聽了以後你覺得是什麼意思呢?要解決這個問題,首先是文字、人臉和語音的情緒識別要準確,再一個就是幾個情緒相衝突的時候,我到底該以誰為主?

一般來說,語音情緒占的比重更大,但是如果說語音情緒是憤怒,但是信心程度只有三四分,文字說你是高興,信心程度 99 分。這個時候應該怎麼辦?還有一個重要的點是整個情境,雖然有三個多模態的判斷,但是如果只有一小段,也是不夠準確,我還要看連續的情境,因為人情緒變化不至於太快,你當然有時候瞬間會驚喜,瞬間會爆怒,但是不代表說,你一生氣下一秒突然就變高興,所以整個連續的情緒要去考慮,這個是比較大的一個難點。 

▲如何辨別人類情緒語言的弦外之音。(圖/翻攝自網路)

最後,一個最難的地方是,智慧助手發現你憤怒或者悲傷,該如何去安撫你、安慰你,情緒判斷完之後,該怎麼回應?

雷鋒網:多模態情緒計算的方案在你們現在的業務裡能占到多大的比例?

翁嘉頎:目前來說,智慧客服絕大部分沒有視覺,然後智慧電視、冰箱、音箱也都沒有攝像頭,畢竟你在家裡面裝一堆攝像頭,讓人感到非常不安,這個肯定侵犯你的隱私。在公共場合,比如外面的賣場、銀行,有攝像頭也有監控,這個大家是接受的。

比如說我去面試的時候,有一個攝像頭對著我,然後我在這裡講話的時候,幫我做著人臉分析,這個感覺有些怪怪的,但是可能可以接受。人對攝像頭的接受程度要看場景,而且也許要看年代吧,每個年代接受的東西都不一樣,像現在七十幾歲那一輩,真的會用手機嗎?會用電腦,這個可能接受度不高,大家會用 APP 嗎?還是習慣拿電話起來講,拿電話去溝通交流,而不是用 APP ,用網絡。

可能五六十歲這一代,他可能不太習慣用搜尋引擎,因為他長大的那個年代沒有搜尋引擎。然後四十幾歲這一代,用 APP 的比例絕對沒有二十幾歲這一代來得多。所以這個還是要看,未來的一些變化,有些場景接受的,有些場景不接受。

留言

延伸閱讀