MIT 人工智慧實驗室最新研究:AI 系統不僅可以識別假新聞,還能辨別個人偏見

MIT 人工智慧實驗室最新研究:AI 系統不僅可以識別假新聞,還能辨別個人偏見
▲數不勝數的假新聞在網路上流竄。(圖/取自 Pixabay)

【原文:《 MIT 人工智慧實驗室最新研究成果: AI 系統不僅可以識別假新聞,還能辨別個人偏見》,智慧機器人網編輯整理】

圖、文/雷鋒網

網路時代,假新聞鋪天蓋地,而且極具誤導性,臉書 Facebook 一度深陷假新聞泥淖,不但被控影響了美國總統大選結果,甚至引發了德國政府的巨額罰金。

甚至連以公信力著稱的 BBC 也難以倖免,比如 BBC 北安普頓分站的推特帳號就曾發過這樣一條消息:Breaking News: President Trump is injured in arm by gunfire #Inauguration.(勁爆消息:美國總統川普在就職典禮後遭遇槍擊,手臂受傷。)



至於大陸的假新聞,也是花樣百出,甚至微信對話也能偽造,PS技術出神入化,比如一度引爆網路熱議的這個截圖:




AI系統:建立多維度向量進行資料檢測

10 月 4 日,麻省理工學院電腦科學與人工智慧實驗室(CSAIL)在其官網發佈了一則新聞,宣稱該實驗室與卡達計算研究所( Qatar Computing Research Institute )的研究人員合作,已經研究出一種可以鑒別資訊來源準確性和個人政治偏見的 AI 系統,該研究成果將於本月底在比利時布魯塞爾召開的 2018 自然語言處理經驗方法會議( EMNLP )上正式公佈。

研究人員用這個 AI 系統創建了一個包含 1000 多個新聞源的開來源資料集,這些新聞源被標注了「真實性」和「偏見」分數。據稱,這是類似資料集中收錄新聞源數量最多的資料集。

研究人員寫道:「打擊『假新聞』的一種(有希望的)方法是關注消息來源。」「雖然『假新聞』(帖子)主要在社交媒體上傳播,但他們仍然有最初來源,即某個網站,因此,如果一個網站曾經發佈過假新聞,很有可能未來還會發佈。」

AI 系統的新穎之處在於它對所評估的媒介有廣泛的語境理解,沒有單獨從新聞文章中提取特徵值(機器學習模型所訓練的變數),而是兼顧了維基百科、社交媒體,甚至根據 url 和 web 流量資料的結構來確定可信度。

該系統支援向量( SVM )訓練來評估事實性和偏差,真實性分為:低、中、高;政治傾向分為:極左、左、中偏左、中偏右、右、極右。

根據該團隊所述,系統只需檢測 150 篇文章就可以確定一個新的原始程式碼是否可靠。它在檢測一個新聞來源是否具有高、低或中等程度的「真實性」方面的準確率為 65%,在檢測其政治傾向是左傾、右傾還是中立方面的準確率為 70% 。





在上圖顯示的文章中,AI 系統對文章的文案和標題進行了六個維度的測試,不僅分析了文章的結構、情感、參與度(在本例中,分析了股票數量、反應和 Facebook 上的評論),還分析了主題、複雜性、偏見和道德觀念,並計算了每個特徵值的得分,然後對一組文章的得分進行平均。



維基百科和 Twitter 也被加入了 AI 系統的預測模型。正如研究者們所言,維基百科頁面的缺失也許說明了一個網站是不可信的,或者網頁上可能會提到這個問題的政治傾向是諷刺的或者明顯是左傾的。此外,他們還指出,沒有經過驗證的 Twitter 帳戶,或者使用新創建的沒有明確標注的帳戶發佈的消息,不太可能是真的。

該模型的最後兩個向量是 URL 結構和 web 流量,可以檢測試圖模仿可信新聞來源的 url(例如,「foxnews.co」),參考的是一個網站的 Alexa 排名,該排名根據網站總流覽量進行計算。

該團隊在 MBFC(Media Bias/Fact Check )網站的 1,066 個新聞源上對此 AI 系統進行了訓練。他們用收集的準確性和偏見資料手工標注網站資訊,為了生成上述資料庫,研究人員在每個網站上發佈了 10-100 篇文章(總計 94,814 篇)。

正如研究人員在他們的報告中煞費苦心的介紹所示,並不是每一個特徵值都能有效預測事實準確性或政治偏見。例如,一些沒有維基百科頁面或建立 Twitter 檔案的網站有可能發佈的資訊是公正可信的,在 Alexa 排名靠前的新聞來源並不總是比流量較少的新聞源更公正或更真實。

研究人員有一個有趣的發現:來自虛假新聞網站的文章更有可能使用誇張和情緒化的語言,左傾媒體更有可能提到「公平」和「互惠」。與此同時,擁有較長的維基百科頁面的出版物通常更可信,那些包含少量特殊字元和複雜子目錄的 url 也是如此。

未來,該團隊打算探索該 AI 系統是否能適應其他語言(它目前只接受過英語訓練),以及是否能被訓練來檢測特定區域的偏見。他們還計畫推出一款 App,可以通過「跨越政治光譜」的文章自動回復新聞。

該論文的第一作者、博士後助理拉米•巴厘(Ramy Baly)表示:「如果一個網站以前發佈過假新聞,他們很可能會再次發佈。」「通過自動抓取這些網站的資料,我們希望我們的系統能夠説明找出哪些網站可能首先這麼做。」

當然,他們並不是唯一試圖通過人工智慧打擊假新聞傳播的機構。

總部位於新德里的初創公司 MetaFact 利用 NLP 演算法來標記新聞報導和社交媒體帖子中的錯誤資訊和偏見;SAAS 平臺 AdVerify.ai 於去年推出 beta 版,可以分析錯誤資訊、惡意軟體和其他有問題的內容,並可以交叉引用一個定期更新的資料庫,其中包含數千條虛假和合法的新聞。

前文中也提到過,Facebook 一度深陷假新聞的泥淖,已經開始嘗試使用「識別虛假新聞」的人工智慧工具,並於近期收購了總部位於倫敦的初創公司 Bloomsbury AI,以幫助其鑒別消除假新聞。

假新聞會被消除嗎?

然而,一些專家並不相信人工智慧可以勝任這項任務。卡內基梅隆大學機器人研究所(Carnegie Mellon University Robotics Institute)的科學家迪恩波默洛(Dean Pomerleau)在接受外媒《 the Verge 》採訪時表示,人工智慧缺乏對語言的微妙理解,而這種理解是識別謊言和虛假陳述所必需的。

「我們最初的目標是建立一個系統來回答『這是假新聞,是或不是?』」他說,「但我們很快意識到,機器學習無法勝任這項任務。」但是,人類事實查核者做的不一定比 AI 更好。今年, Google 暫停了「事實核查」( Fact Check )這一標籤,該標籤曾位於 Google 新聞報導欄,此前保守派媒體也曾指責 Google 對他們表現出了偏見。

不過,無論最終鑒別假新聞和個人偏見的解決方案是 AI 系統還是人工,抑或兩者兼而有之,假新聞被徹底消除的那一天都不會立刻到來。據諮詢公司 Gartner 預測,到 2022 年,如果目前的趨勢不變,大多數發達國家的人看到的虛假資訊將會多於真實資訊。

熱門標籤

留言

延伸閱讀