我在新加坡尋找「紅燈區」 AI 老司機翻了個白眼

我在新加坡尋找「紅燈區」 AI 老司機翻了個白眼
▲AI 老司機翻了個白眼。(圖/翻攝自雷鋒網)

【原文:《我在新加坡尋找「紅燈區」 AI 老司機翻了個白眼》,作者:李勤,智慧機器人網編輯整理】

文、圖/雷鋒網

這是一個真實的故事。前幾天,我和一群小夥伴在新加坡參加了一場神秘的黑客大會,具體是什麼大會,以後再說。我先說說你們感興趣的「尋找紅燈區事件」。

我們本來純潔地打算尋找吃榴槤的聖地,不料女導遊神秘兮兮地介紹,新加坡有個地區叫芽籠,是個開展合法羞羞服務的區域,就在你們吃榴槤的地方附近哦。

蛤?貴坡還有這麼不符合我們社會主義核心價值觀的地方?

車上的小夥伴頓時來了興緻,強烈要求司機載着我們在芽籠區域晃蕩一圈。而且,一位男同學提出了一個相當正經的問題:聽說提供這些服務的場所就隱藏在大街小巷裡,我們怎麼區別什麼樣的場所是紅燈區?迷路怎麼辦?

女導遊羞澀地朝着一個方向指過去:你們看,新加坡的這些街巷分成了單雙號,在這個區域,單號街道都是正經吃喝的地方,一般紅燈區隱藏在雙號街道里哦。

【 圖片來源:新加坡眼  所有者:新加坡眼 】

為了再一次教我們辨別什麼是提供特殊服務的小店,導遊指出,一般在這些場所外面,會掛上兩個紅燈籠,這些燈籠會在夜晚點亮。

可是,這輛大巴轉了許久,我們還是沒有看到紅燈籠,不禁失望至極,導遊安慰我們:對了,有些場所不掛燈籠,但有 bling bling 的霓虹燈,你們如果在這個區域的雙號街巷看到閃爍的五顏六色,那就八九不離十了!

我之所以想起尋找紅燈區事件,是因為1月16日,我參加了阿里安全部的一次年度媒體溝通會,AI 鑒黃被作為一個典型的安全 AI 應用案例推出。我才發現,相較於肉身尋找紅燈區,AI 早就在鑒定黃賭毒上一路狂奔了。

但是,厲害如 AI 唐馬儒,竟然也面臨著安全風險。

本文作者:雷鋒網網絡安全專欄作者,李勤,微信:qinqin0511

攻擊者 VS AI老司機

我們來看看,發生了什麼。

阿里目前有三大戰略領域:傳統電商、數字化娛樂和新零售,這三個領域都涉及到網絡安全,比如,原創內容保護、內容治理和網絡黑灰產對抗。

以內容治理為例,由於淘寶體量巨大以及內容生態越來越繁榮,淘寶的短視頻每天的觀看量差不多能達到 20 億次,這就衍生了一個問題:如何讓內容合法合規?

阿里安全部圖靈實驗室高級算法專家威視(花名)告訴我,在過去一年網信辦接到的各種違規信息舉報中,超過 70% 的舉報涉及色情低俗,這意味着,色情低俗風險確實是各種內容面臨的合規風險中佔比最大的一種,所以,在巨大的信息中,運用 AI 尋找黃色內容,規避內容風險成了一個強需求。

現在出現了一類不正經的算法工程師,他們被稱為「調包俠」,雖然他們可能並不理解 AI 技術底層如何實現,但特別擅長調包——調用別人的開源代碼,將一些非法信息灌進去,訓練出一個特殊模型。這導致了另一個問題——安全研究員辛辛苦苦訓練出的 AI 唐馬儒竟然可能叛變,就像被人塞了小紅包,對黃色內容睜一眼閉一眼。

【 圖片來源:pconline  所有者:pconline 】

更讓人擔憂的是,還有更多安全對抗在發生。

第一回合:沒用上 AI 技術,違規信息對抗在不同媒體間轉移。

以商品信息為例,一開始,色情低俗信息,直接寫在商品標題裡面,比如:「看爽片XXX」,立馬能找到不可描述的東東。

安全技術專家像打地鼠一樣,敲掉了標題里的色情低俗。現在一搜「看爽片」「爽片」,出來的分別是這樣的商品:

【 雷鋒網註:僅為搜索結果示例】

攻擊者馬上把違規信息轉移到了商品的主圖、副圖中。由於色情圖片具有較強的視覺可分性,圖片的鑒黃比較容易開展,攻擊者發現自己被攔住之後,開始做拼接圖,把違規信息拼在一個正常背景中,或者通過翻拍逃避檢測。

甚至,當他們發現,算法對彩色圖片的識別效果好,攻擊者就用黑白圖片,後來,整張圖片容易被識別,就變成局部暴露,比如,衣服裹得嚴嚴實實的,只漏出關鍵的一點點。

或者,用美圖工具把常規照片轉換成鉛筆畫、蠟筆風格,甚至素描,當安全技術專家把這些問題解決了,攻擊者又想了一個新辦法——在圖片里寫字,開始時,違規文字是正常的印刷體,被識別後,壞人開始用斜體、花體字;又被識別出來后,攻擊者乾脆用手寫,還故意寫得很潦草,不斷考驗識別算法和人類的想象力。

當圖片的鑒黃做得差不多時,違規信息轉戰到了視頻、直播里,用音頻來做。當違規音頻也被幹掉時,攻擊者更狡猾了,他們把信息拆解開,在圖片、文本、語音中分散放置,變成一個典型的多模態問題,這時需要綜合各方信息進行判斷。

第二回合:高端對抗,壞人掌握了AI 技術。

這種攻擊者不僅是調包俠,還懂得了AI技術底層的一些特點。他能進行什麼騷操作?

曾有一篇經典論文指出,本來模型識別一張圖片,正常的輸出結果是一隻大熊貓,但是壞人經過一些簡單運算,比如像素級別的操作,得到一張新圖片,人眼看上去還是一隻大熊貓,但是欺騙了識別模型,被模型判斷為一隻長臂猿。

壞人是如何做到的?

第一種情況,攻擊者知道鑒黃的算法、模型和網絡結構。

威視將這種情況稱為「白盒攻擊」,這種攻擊並不複雜和困難,只要花的時間足夠長,耐心嘗試密碼,攻擊者總可以打開盒子。

第二種情況,算法使用的模型是不公開的。

在這種黑盒攻擊下,攻擊者不斷用不同圖片調用公開的算法接口,分析返回的結果,不斷嘗試驗證哪些方法可以讓AI唐馬儒輸出的結果含糊不清,直到嘗試出來某一種修改能夠攻破威視等人建立的模型。

威視說,黑盒攻擊比白盒攻擊成本高很多,這就是閉源模型好處。事實上,沒有什麼模型是不可被攻破的,只是攻擊成本的高低。安全技術專家要做的,就是不斷提高攻擊門檻。

除了面對攻擊者的威脅,AI 鑒定內容風險時還面臨天然阻礙:

一是大海撈針,違規信息可能佔比不到千分之一,違規樣本和正常樣本數量呈現出極度的不均衡的態勢。

一是新增風險,安全場景面臨的新風險往往「臨時爆發」,誰能想到,直播主進行吃播時也可能涉黃。。。emmm,比如吃香蕉、喝酸奶等。

新風險下的新方法

對AI 唐馬儒而言,深度學習算法強依賴高質量的樣本,樣本的質量越高,數量越多,鑒定效果就越好。

威視介紹,為此,他們提出了「小樣本學習(few-shot learning)」這樣的技術。這個方法主要解決兩個問題:第一,訓練中出現從來沒有見過的新類別,每個類別又只有很少的樣本;第二,訓練新樣本后,不能遺忘以前的知識,不能改變已有的模型。

針對上述問題,很多人想到用finetune(微調)的方式解決,也就是在已有模型基礎上,用新類別的樣本做微調訓練。但是,已有的模型依賴很大的樣本量訓練,比如,需要1000萬個訓練樣本。這時用幾十個、一百個樣本訓練新類別,基本改變不了網絡。而且,這種訓練還會遺忘以前的知識。

威視告訴我:「發現這條走不通后,我們考察了很多新方法,比如,度量學習(metric learning),學習類和類之間的度量,把不同的類間的距離儘可能地拉大,縮小同類之間的距離,用模式識別的話,就是增大了類間的方差,減少了類內的方差。」

基於度量學習的思路,他們嘗試了很多方法,比如,孿生網絡 (Siamese Neural Networks)、匹配網絡 (matching networks)、原型網絡 (Prototypical Networks)等。

這些方法的核心思想是,把樣本看作一個點,再來度量不同樣本在空間中的分佈,利用算法合適地調整分佈,讓新的類別在原來的樣本空間里找到合適的位置,區別原有的類別。

後來,他們還發現了基於圖網絡(graph neural network)的方法,這种放在在度量學習的基礎上展開,圖網絡把樣本不僅看成一個點,它認為,樣本和樣本之間是有關係的,用點和點之間的邊來表達,有點有邊就構成一張圖。度量學習只學習了點的信息,圖網絡既學習了點的信息,也學習了邊的信息,這樣就構成了網絡的學習,實際效果優於度量學習。

還有一種「元學習meta learning」方法,利用以往的知識經驗指導新任務的學習。AI算法不是從0開始構建自己的知識體系,而是在已有的知識體系之上,快速學習新技能。

威視等人設計了一種新方法,元學習中融合了度量學習的方法,用構成每個類的標籤樣本的的原型來表徵類,進而通過相似度分類(KNN Classification)進行識別。他們在多個數據集上做了驗證,結果表明,該方法比基線有不錯的提升。

這種新方法被應用在阿里雲內容安全的產品中,阿里安全部提供了一個已有模型及訓練方法,第一線的運營人員發現可定義的新風險時,他們用幾十個或者上百個樣本,在頁面上點鼠標,上傳並標註樣本,這個模型就可以進行一次學習。學習之後,模型對沒有學習過樣本提出結論,這時運營人員需要標註算法的結果,判斷哪個做對了,哪個做錯了。大概重複兩到三輪,模型基本可用了。

這種方法可以讓AI應對大部分新增的風險,而且降低了對樣本的依賴性,縮短了響應的時間 。以前,安全人員需要收集信息,打標,訓練模型進行測試,周期比較長的。現在,這些事情都交給了第一線的業務人員,他們可以自主進行幾輪迭代和部署,模型可能在幾個小時內就能上線,防範新增的風險。 

安全 AI 的想像

AI 唐馬儒要想比真的唐馬儒更厲害,還需要發揮一些想象力。

在阿里安全圖靈實驗室的實踐中,安全人員發現,AI 模型擅長在一些「老司機心知肚明的情況下」處理視覺可分性的任務,比如出現某種明顯標誌,或者出現了某種動作和場景,但在業務的審核標準里,很多時候連人都需要「腦補」,AI 就面臨更艱巨的任務了,比如,在色情低俗的場景下,照片里並沒有呈現完整的違規場景,AI表示無能為力,但人卻可以想象畫面之外發生了什麼。

【 滑雪勝地,圖片來源:百家號  所有者:Strange咖 】

即使 AI 唐馬儒成了業務相當熟練的老司機,他可能也會忙到吐血,因為新風險實在太多了!

面對不同風險點,難道要每一種都做出來一個模型嗎?威視希望,設計多任務網絡,模型不僅可以判斷色情低俗風險,同時可以判斷廣告,還可以找人臉,多任務合併到一個網絡中。對於計算成本,現在有一種趨勢是,業界開始做專門的AI芯片,大幅度提升計算效率,降低成本。

當然,這些僅僅只是一類案例。說了這麼多,到底什麼是「安全AI」?為什麼在大家都提AI、AI安全時,阿里安全要「別出心裁」地來這麼一出,並告訴大家,阿里安全要「ALL IN 安全AI」?

阿里安全研究員陸全稱:「我們阿里安全有這樣一個場景,把 AI 在安全場合進行打磨。其實我們通過 AI 應用在安全去保護AI,通過這樣一個不斷迭代的過程,把這兩個東西形成一個整體。這個整體叫做『安全AI』,它可以自我進化。」

進化的結果是,他們想培養出一種「人」,「他」是天生就是很好的拳擊手,具備高靈活性,非常強壯,還要有高對抗性,最後反哺通用的AI,對整個AI領域提供幫助,促進人工智能的發展。

雖然結尾如此有雄心壯志 ,機智如你,可能想知道一個問題:你們到底有沒有找到紅燈區?

A.找什麼找,吃貓山王才是正經事。

B.晚上一波人在一個地方偶遇,啊呸,你們在想什麼?

C.人不如 AI 老司機,唐馬儒別哭,起來再戰。

【 圖片來源:haoqilu  所有者:haoqilu 】

致謝:該文得到了阿里安全圖靈實驗室高級算法專家華棠、覺奧以及阿里安全資深技術專家鐵花的幫助。

本文作者:雷鋒網網絡安全專欄作者,李勤,微信:qinqin0511

熱門標籤

留言

延伸閱讀