透過交互式對話交流 人類教 AI 智慧體面對新事物「一學就通」

透過交互式對話交流 人類教 AI 智慧體面對新事物「一學就通」

▲百度推「一次包會」模型,讓智能體一次就學會。(圖/翻攝自網路)

【原文:《百度推「一次包會」模型:「一次性」教會智能體認知新事物》,作者:劉鵬,智慧機器人網編輯整理】

文、圖/雷鋒網

打造能夠通過語言與人類自然交流並向人類學習的智慧體,對 AI 科技的進步而言,價值重大。百度 Research 研究人員的目標就是,開發能夠透過「自然互動」來向人類學習的 AI 智慧體。

百度曾在去年 6 月份發表過一篇《 Learning to Speak via Interaction 》,該方法教 AI 智慧體如何透過和一位虛擬老師的互動,來學習說話。在一項最新研究中,百度重點關注了虛擬老師與 AI 智慧體之間的對話互動,這種互動既可以作為語言學習的自然途徑,也可以作為學習新的知識的自然途徑。百度提出的聯合仿真和強化方法可以通過一個對話互動遊戲,來訓練 AI 智慧體學習「接地氣」的語言和進行快速概念學習。

用該方法訓練的 AI 智慧體可以提問關於新事物的問題以主動獲得資訊,並在隨後的對話中,使用剛剛學到的知識;這個學習過程是單樣本學習的。 AI 智慧體的「主動」表現在:它能夠主動向老師問關於未知事物的訊息」,與此形成對比的是,目前大多數的 AI 智慧體範例,還只能被動地學習預先收集好的標籤數據。「一次性」意味著,在部署之後,被老師教會過一次的 AI 智慧體,就可以在無須進一步訓練的情況下,學會識別一個「從未見過的事物」並且還將能正確地回答老師針對該新事物提出的相關問題。

為了教會智慧體認知新事物,百度在虛擬環境中搭建了一位老師來跟 AI 智慧體交談。該虛擬環境與老師的設計靈感來自人類如何教嬰兒學習語言和認知新事物的經歷。在每一節課程的開頭,虛擬老師會隨機選擇一個事物來與學生(AI 智能體)互動,並針對這個事物隨機提出一個問題(如「它是什麼」),然後保持沉默或者給出一個陳述語句(如「它是猴子」)。

隨後,老師將根據學生的回答來做出相應行為,可以是回答智慧體提出的問題,或者是轉向下一個隨機事物再繼續。老師也會依據 AI 智慧體回答的適當程度,提供給它一個鼓勵,或不鼓勵的獎勵信號,例如, AI 智慧體問關於新事物的訊息的時候,或者在僅僅教了一次之後,就能正確回答問題的時候, AI 智慧體都會收到激勵信號。

百度的該 AI 智慧體始於新生兒般的白紙狀態。它必須學會破解語言的奧秘,並理解原始視覺和語言信號。 AI 智慧體只會通過與老師交流,來評估自己的知識狀態,和記住有用的資訊,與老師的交流包括聽、冒泡,透過模仿進行學習以及通過老師的激勵進行強化學習。經過最初的訓練後,AI 智能體無需進一步的任何訓練就能成功地將成熟的語言和「一次性」概念認知能力遷移至新的測試場景。

▲透過對話讓智慧體學會「圖片中是櫻桃」。(圖/翻攝自雷鋒網)

例如,經過動物數據集的訓練後的 AI 智慧體,在面對屬於此前它從未見過的事物類別的一張櫻桃圖片時, AI 智慧體能夠提問「它是什麼?」,並且只需要被教會一次「這是櫻桃。」,在面對新的一張櫻桃圖像的時候,也能正確回答圖片當中是櫻桃。

百度的下一步目標是進一步增加該語言學習任務的複雜性和多樣性,以及研究該方法在其他相關任務上的應用和普遍性。該教學環境在百度自己的開源引擎 XWorld 模擬環境上運行,模型訓練則在 PaddlePaddle 深度學習平台上完成的。更多細節請查看此篇 ACL 2018 的接收論文

留言

延伸閱讀