【 CCF-GAIR 2018 】竹間智能 CTO 翁嘉頎談情感計算技術與商業落地(上)

【 CCF-GAIR 2018 】竹間智能 CTO 翁嘉頎談情感計算技術與商業落地(上)

▲竹間智慧 CTO 翁嘉頎。(圖/翻攝自雷鋒網)

【原文:《對話翁嘉頎:暢聊竹間智慧情感計算技術與商業落地 |  CCF-GAIR 2018 》,作者:李詩,智慧機器人網編輯整理】

文、圖/雷鋒網

在自然語言處理專場上,竹間智能 CTO 翁嘉頎受邀作為「自然語言處理的落地難點及應用未來」圓桌討論嘉賓,分享了自己的觀點。會後,《雷鋒網》對翁嘉頎進行了一對一的專訪。

竹間智能成立於 2016 年,主要是做文本分析、自然語義理解、情感計算。竹間智慧主要有兩條產品線,一條是類腦對話機器人,包含了客服機器人、導購機器人、金融機器人、營銷機器人、個人助理、品牌 IP 機器人等;一條是多模態情感識別系統,包括情緒識別分析系統、人臉表情識別系統、印象分析系統、廣告效果分析系統、呼叫中心質檢系統、課堂情緒分析系統等。

▲竹間智慧 CTO 翁嘉頎。(圖/翻攝自雷鋒網)

目前大多做對話式人工智慧的公司專注於文本,而竹間智慧的多模態情感識別則包括了文本、語音、人臉表情等多個模塊。《雷鋒網》採訪翁嘉頎主要圍繞著情感計算技術和商業化落地兩方面。

在翁嘉頎看來,人機交互分為三個層次,最底層是「自然語言處理」(NLP),第二層是意圖理解,第三層是理解背後的涵義,目前業界還停留在前兩個階段,要做到第三個階段,情感計算不可避免。

情感計算的難點在於不僅要準確理解單個模態的情緒,當多個模態的情緒發生衝突時,還要準確判定哪個情緒才是真實的,比如當一個人的語音情緒是高興的,但是面部表情卻是憤怒的,那他是高興還是憤怒呢?更難的地方在於,當 AI 獲知人的情緒之後,如何進行反應,如何去安慰心情低落的人?

竹間智能以電影《 Her 》裡的智慧機器人賽曼莎為原型,認為機器人應該能看懂人臉表情、聽懂人類對話,從一開始就致力於多模態情感計算。且創始人簡仁賢從一開始就不只是關注在手機、音箱裡的智慧語音助手,也關注賣場、零售等場景,在這些場景中,只有文字和語音的交互顯然不夠,視覺必不可少。

然而,目前除了零售場景外,情感計算的落地場景還需要探索,畢竟很多私人的場合,比如家庭裡,就很難接受有機器人安裝了攝像頭。

翁嘉頎認為現在語文和文本技術能夠在特定領域幫人解決問題,特定領域是指我要訂酒店、訂餐館參觀,能與人進行自然對話,而無需讓人去按照機器人的邏輯說話。未來,每個人都會有自己的智慧助理,能夠理解你的情感、你的意圖、幫你打理日常生活。而每個企業也會有客服機器人,以後很可能就是用戶的智慧助理和企業的客服機器人打交道。在這些場景裡,大公司和創業公司都有機會,沒有公司能解決所有的技術和場景。

▲竹間智能 CTO 翁嘉頎。(圖/翻攝自雷鋒網)

雷鋒網:您目前在竹間智慧負責哪些工作?加入竹間之前您的工作經歷是怎麼樣的?

翁嘉頎:我從 1982 年開始從事電腦業, 27 年前接觸人工智慧,當然那個年代做人工智慧其實做不出,因為那時候的人工智慧已經整個走下坡了。當時絕大部分做 AI 的人都轉去做搜尋引擎,因為搜尋引擎跟文本分析有一定的關係。我在搜尋引擎領域做了大概 11 年,現在我又回到人工智慧,這一次 AI 應該不至於再泡沫化,它是真的能夠走入人類的生活。

我大概在兩年半之前加入竹間智能,目前擔任公司 CTO ,負責技術部分,包括設計竹間目前整個對話的架構、模塊怎麼反映、模塊如何交互等,以及整個對外項目的落地

雷鋒網:能具體說一下有哪些模塊嗎?

翁嘉頎:聊天機器人大概分三類,第一種是功能型的機器人,像 SIRI 、微信語音助手,可以查天氣、可以查股票、可以去設置一些提醒;第二種是知識型的,你可以問他陸奇去哪兒工作了?(時事題,陸奇加入拼多多),可以問陸奇離開百度之後,股票到底跌了多少(三天約跌了 18 點);第三種是閒聊,可以與人類進行情感對話,進行情景式聊天。如果你跟機器人說你失戀了,那我們要想機器人該如何回覆,如何去控制整個對話的上下文的話題。

我負責的是整個對話的流程控制,比如用戶說了一句話,機器人需要判斷應該是執行任務、提供知識、還是開啟閒聊,因為每個模塊都可以觸達。這個跟搜尋引擎一樣,百度的搜尋引擎背後大概有300多個模塊, Google 背後大概500多個模塊,今天問一句話,它其實300多個模塊都出來答案,出來答案之後,那我該如何把答案整合,做個排序。第一頁應該看到哪些,第二頁看到哪些?

那聊天機器人也是,聊天機器人更嚴苛,因為我沒辦法回答100句話,我只能回答一句話。這時候我應該選哪句話來回答,讓它會比較生動一點,又沒有那麼呆板,但是回答又不會太離譜。這是整個對話控制在做的事情。 

▲微軟小冰。(圖/翻攝自網路)

雷鋒網:現在有像微軟小冰一樣同時發展智商情商的對話機器人,也有一些創業公司做得更垂直,主攻任務型,或者是知識圖譜領域。竹間智能在往哪個方向發展?

翁嘉頎:微軟小冰將智商與情商結合的概念是對的,竹間智能的創始人簡仁賢也是微軟小冰的創始人之一,他在 2015 年從微軟出來創辦竹間智能( Emotibot ),公司名字的命名就是「情感機器人」的意思。竹間智能其實比微軟小冰還早一年半做情感機器人。

情商跟情感並不是一個意思,「情商」它的意思是我真的去理解你,我不會冒犯你,我不會冷冰冰的去回答一個東西,那這個當然包括情感計算在那邊。在文字情緒方面,有些企業做了正、負、中 3 種分類,微軟小冰可能做了 6 種,而竹間智能在文字情緒上面做了 22 種分類,會更精準地探測無聊、嫉妒這些情緒。

光是文字情緒是不夠的,我們還做語音、表情情緒。例如,一個人說我高考考了 500 分,這時候你並不知道應該表示恭喜還是安慰,這時你就需要知道語氣。一般來說,語音的情緒會比文字的情緒的重要度更強,信號更強烈。人臉表情的情緒要復雜一些,因為我講話講到一半的時候,我的臉可能是扭曲的,我的嘴巴剛好張開,這個時候抓拍下來,不代表我現在是驚訝的。

那麼,文字、語音、表情混搭在一起,就更加複雜了。像我最常舉的一個例子,我面帶著微笑,跟著我的同事說你死定了,面部表情的情緒和文字的情緒是衝突的,這時候應該怎麼辦?這是一個「多模態情感」的概念,就是你目前的情緒是文字、語音,再加上人臉表情,整個混搭在一起,然後各有各的權重,通常文字的比重會稍微低一點,語音會是最高的,人臉表情算是排在中間。

剛剛的那個例子,我面帶微笑說你死定了,其實這個還要看上下文,如果前面兩個我們都在開玩笑,我突然面帶微笑說你死定了,那還是開玩笑,如果前面兩個我們根本在吵架,我突然面帶微笑說你死定了,那肯定是在威脅你,所以這個情緒情感其實不是只看文字。

留言

延伸閱讀