在一個完美的世界里,眼見即為現實。如果是這樣的話,人工智能的操作就簡單多了。只可惜,世界并不總是完美的。如何讓算法避免對抗性輸入(adversarial inputs)的干擾從而提高魯棒性便成為人工智能領域的一大難題。
以自動駕駛汽車的防撞系統為例。如果車載攝像頭的視覺輸入信號準確無誤、完全可信的話,人工智能系統便可將信號直接對應到決策中,進而用右轉、左轉或直行的方法避開路上的行人。
但如果車載攝像頭因故障產生了像素上的偏差,那又會怎樣呢?事實是,如果人工智能系統盲目地相信了所謂的 “對抗性輸入”,那它可能會作出不必要且危險的決策。
日前,麻省理工學院航天控制實驗室(Aerospace Controls Laboratory)的研究人員開發了一種新的深度學習算法,通過在輸入中建立合理 “懷疑” 來幫助計算機適應真實的、不完美的世界。這篇以 “Certifiable Robustness to Adversarial State Uncertainty in Deep Reinforcement Learning” 為題的論文于近日發表于 IEEE 的 Transactions on Neural Networks and Learning Systems 上。
圖片來源:IEEE
以該團隊將強化學習算法與深度神經網絡相結合,建立了名為 “深度強化學習在對抗性輸入下可驗證的魯棒性”(Certified Adversarial Robustness for Deep Reinforcement Learning,CARRL)。
研究人員在幾個場景中測試了這種方法,包括模擬自動駕駛防撞測試和乒乓球電腦游戲(Pong。他們發現在面對不確定的對抗性輸入時,CARRL 比其他的機器學習技術表現更好,它能避免更多碰撞,且贏得了更多的 Pong 游戲。
本文主要作者,麻省理工學院航空航天實驗室博士后邁克爾 (Michael Everett) 在接受 TechExplore 采訪時表示:“ 也許很多人認為對抗性是指別人在惡意侵入你的電腦。但可能僅僅是因為你的傳感器不太好,或者測量結果不準。這是經常發生的情況。我們的方法有助于將這種缺陷考慮進來,并做出安全的決定。在任何涉及安全的關鍵領域,這都是一個需要考慮的重大問題?!?/p>
現實中的可能性
為了使人工智能系統對對抗性輸入產生魯棒性,研究人員嘗試給監督學習算法提供防御機制。傳統上來說,神經網絡被會將特定輸入與相關的標簽或決策關聯。例如,如果給一個神經網絡輸入了數千張被標記為貓的圖像,那么這個神經網絡應該可以將一張新圖像正確地標記為一只貓。
在魯棒性較高的人工智能系統中,人們可以用略微改變的圖像對監督學習算法進行測試。但是,窮盡所有的細微改變在計算上幾乎是不可能的,并且在即將碰撞等時間緊迫的條件下,算法也很難成功地做出反應。因此,如果算法不具有較好的魯棒性的話,現有的方法不能識別正確的標簽,或者采取正確行動。
論文作者之一 Bj rn Lütjens 說:“為了在涉及安全的關鍵場景中使用神經網絡,我們必須研究如何在最壞的現實情況下做出實時決策?!?/p>
圖片來源:WAYMO
最好的獎勵
為了解決以上問題,該團隊開始探索機器學習的另一種算法 --- 強化學習。與監督學習不同,強化學習不需要通過標簽將輸入與輸出相關聯,而是通過嘗試找到規律,根據結果得到獎勵從而強化特定行動。這種方法通常用于訓練計算機下棋等游戲。
強化學習主要應用于假設輸入為真的情況。邁克爾和他的同事們說,他們是在強化學習中給不確定的對抗性輸入帶來 “可驗證的魯棒性” 的第一人。
他們所采用的 CARRL 方法利用現有的深度強化學習算法來訓練深度 Q 網絡(DQN),并最終將輸入與 Q 值或獎勵水平相關聯。
如果將一個有單個圓點的圖像作為為輸入對象 ,CARRL 可以考慮到對抗性的影響。換句話說,CARRL 可以考慮到圓點可能實際所在的整個區域。根據麻省理工學院 (MIT) Tsui-Wei "Lily" Weng 開發的一項技術,該區域內圓點的每一個可能位置都會通過 DQN 進行反饋,以找到最糟糕的情況下產生最優獎勵的決策。
充滿對抗的世界
在一個名叫 “乒乓球” (Pong) 的測試中,兩名玩家在屏幕兩側操作球拍來回傳球。而研究人員引入了一個 “對抗性因素”,將球拉得比實際位置略低。
邁克爾說:“如果我們知道一個測量結果不完全可信,而且球可能在某個區域內的任何地方,那么我們的方法就會告訴計算機,它應該把球拍放在那個區域的中間,以確保我們即使在最壞的情況下也能擊中球?!?/p>
該方法在避免碰撞的測試中也同樣穩健。在防撞測試中,研究小組模擬了藍色和橙色的計算機(自動駕駛系統),它們試圖在不發生碰撞的情況下交換位置。由于團隊擾亂了橙色計算機對藍色計算機的觀察位置,CARRL 便引導橙色計算機繞過另一個計算機,達到了更大的安全距離。
確實有一段時間,CARRL 變得過于保守,導致橙色計算機認為藍色計算機在其附近的任何地方。之后它甚至完全避開了它的目的地。邁克爾說,這種極端的保守行為是有用的,因為研究人員可以將其作為一個極限來調整算法的魯棒性。例如,算法可能會小小地繞開不確定區域,但仍然到達目的地獲得較高回報。
邁克爾說,除了克服不完美的傳感器外,CARRL 可能是幫助機器人安全應對變化莫測的現實世界的開始:“人們可能充滿敵意。比如走在機器人前面擋住它的傳感器,或者并非出于好意對它們做出一些舉動?!薄皺C器人怎么可能想到人們想要做的所有事情,并試圖規避呢?我們想要防御什么樣的對抗模式?這是我們正在考慮的事情。”