讓聊天 AI 邊聊天邊學習?Facebook 和史丹佛大學合作實現了這個場景

讓聊天 AI 邊聊天邊學習?Facebook 和史丹佛大學合作實現了這個場景
▲Facebook 和史丹佛大學合作實現了讓聊天 AI 邊聊天邊學習的場景。(圖/翻攝自雷鋒網)

【原文:《讓聊天 AI 一邊聊天一邊學習?Facebook 和斯坦福大學合作實現了》,作者:叢末,智慧機器人網編輯整理】

文、圖/雷鋒網

雷鋒網 AI 科技評論按:現在的聊天 AI 除了比較出眾的那幾個——如微軟「小冰」,普遍無法給人類帶來較好的對話體驗,其「答非所問」的回復往往讓人啼笑皆非。近日,Facebook 人工智能研究院和史丹佛大學的研究員們共同開發了一款能通過從對話中提取訓練數據進行自我提高的聊天 AI,通過實驗測試,相比於一般聊天 AI ,其對話準確率提高了 31%。科技媒體記者 Kyle Wiggers 在 venturebeat 網站上對這項成果進行了報導,雷鋒網 AI 科技評論編譯如下。

聊天 AI 中很少有不錯的健談家。除了擁有 4 千萬用戶和人均 23 次對話的微軟「小冰」以及每天服務近 350 萬顧客的智能銷售客服阿里巴巴「店小蜜」,對於其他大多數聊天 AI,人類的關注時長一般不會超過 15 分鐘。但是這並不能影響人類對 AI 的使用——實際上,據 Gartner 預計,到 2020 年,這些聊天 AI 將承擔 85% 的客服交互工作。 

幸運的是,AI 研究領域的不斷進展,為有朝一日實現高級得多的聊天 AI 帶來了很大希望。這周在預印本網站 Arxiv.org 上發表的一篇論文(《Learning from Dialogue after Deployment: Feed Yourself, Chatbot!》)中,來自 Facebook 人工智能研究院和史丹佛大學的科學家們描繪了這麼一個聊天 AI——它能夠通過從對話中提取訓練數據進行自我提高。 

論文作者解釋道:「當對話看上去正在順利進行時,用戶的回復就會變成聊天 AI 模擬的新訓練樣本。(並且)當智能體認為自己出現了錯誤時,它會尋求反饋,並學着去預測反饋,這會進一步提高聊天 AI 的對話能力... 這些新的樣本可以提升智能體的對話水平。而且這個過程只需要使用用戶的自然回復,不要求這些回復有任何的特殊結構,也不需要同時還伴隨着數值化的反饋,更不需要額外的人為干預。」 

研究人員們假設這種 AI 系統在不進行太多人類監督的情況下,依舊能夠持續地調整。那唯一的問題是什麼?一個在自身的對話上進行訓練的聊天 AI 存在強化錯誤的風險,從而導致產生「荒謬」的對話。 

在研究人員們的示例中,這個解決方案原來是「滿意度」——也就是說,AI 的聊天對象對它的回復的滿意度。他們通過讓臨時雇傭人員與 AI 智能體進行閑聊,然後在 1~5 的分值區間中對智能體的每次回復的質量進行打分,來收集「滿意度」數據集,其中智能體的每次回復,都會被用來「教」系統去預測:人類對於它們的說話方式是「滿意的」還是「不滿意的」。(為了增加「一個更乾淨的訓練集」的類別之間的距離,分數為 2 的對話上下文會被捨棄掉。) 

在聊天 AI 與人類聊天的過程中,前者會同時在兩項任務中進行訓練:對話任務(它接下來要說什麼)以及反饋任務(它的回復的一致性)。對於每一輪對話,它都會考慮之前的對話(用以生成接下來的回復),以及大量分值在 0 到 1 範圍內的滿意度分數。如果滿意度達到一個特定的門檻,它就會利用之前的對話上下文以及人類的回復來提取訓練集;但是如果分數太低,聊天 AI 就會提出一個問題來詢問人類的反饋,進而使用這一回復來為反饋任務創建一個新的樣本。 

例如,假設聊天 AI 對問題「法國這個時候的天氣怎麼樣?」回復的是「它很美味」等不相干的回答,一般來說,聊天對象(人類)可能會接話:「你到底在說什麼?」,根據他們的語氣,這個聊天 AI 會推斷出他們對它的回復不滿意,進而正如它們事先被設計好的那樣,去禮貌地提示聊天對象來糾正它(「哎呀!我搞糊塗了。我應該說什麼呢?」)。一旦它們得到正確的答案(「也許你應該告訴我法國現在很冷。」),它就會從中提取出訓練樣本,以防止在未來犯同樣的錯誤。 

在他們的研究課題中,這些科學家為創建在 Transformer(在語言翻譯任務中表現優於最先進模型的神經架構,https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)上的聊天 AI 餵養了 131,438 個「人類-人類」的對話樣本,這些樣本源自於 PersonaChat——一個旨在「與其他人交流... 並且嘗試了解彼此」的由職工人員之間的短對話組成的對外開放的數據集。

在測試中,他們發現當給定學習曲線處於最陡峭部分的小訓練集時,聊天 AI 的準確率相比基線提高了 31%,同時表現最好的模型實現了 46.3% 的準確率,並在對話任務和反饋任務上,分別實現了 68.4% 的準確率。 

至於聊天 AI 預測用戶滿意度的能力,即便在只有 1000 個訓練樣本的情況下,它也「明顯優於」之前的方法。 

研究人員們寫道:「我們展示了,聊天 AI 可以通過模仿人類滿意時的回復,或者通過在他們不滿意時詢問其反饋,並增加輔助性任務預測反饋,來提高它們的對話能力。並且我們還證明了,對用戶滿意度進行分類是自學過程中非常重要的學習任務,這樣的自學過程,表現會明顯優於一個基於模型不確定性的方法。」 

他們表示,論文中所涉及的數據集、模型和訓練代碼將會通過 Facebook 的 ParlAI 平台對外開放。如果運氣好的話,它們或許能夠幫助實現真正值得與之交談的下一代聊天 AI。

留言

延伸閱讀