每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜

登錄注冊
新聞 資訊 金融 知識 財經 理財 科技 金融 經濟 產品 系統 連接 科技 聚焦
首頁 > 金融 > > 正文

如何對抗不完美世界?最新算法幫助AI建立合理懷疑

2021-03-10 13:16:28來源:互聯網

在一個完美的世界里,眼見即為現實。如果是這樣的話,人工智能的操作就簡單多了。只可惜,世界并不總是完美的。如何讓算法避免對抗性輸入(adversarial inputs)的干擾從而提高魯棒性便成為人工智能領域的一大難題。

以自動駕駛汽車的防撞系統為例。如果車載攝像頭的視覺輸入信號準確無誤、完全可信的話,人工智能系統便可將信號直接對應到決策中,進而用右轉、左轉或直行的方法避開路上的行人。

但如果車載攝像頭因故障產生了像素上的偏差,那又會怎樣呢?事實是,如果人工智能系統盲目地相信了所謂的 “對抗性輸入”,那它可能會作出不必要且危險的決策。

日前,麻省理工學院航天控制實驗室(Aerospace Controls Laboratory)的研究人員開發了一種新的深度學習算法,通過在輸入中建立合理 “懷疑” 來幫助計算機適應真實的、不完美的世界。這篇以 “Certifiable Robustness to Adversarial State Uncertainty in Deep Reinforcement Learning” 為題的論文于近日發表于 IEEE 的 Transactions on Neural Networks and Learning Systems 上。

圖片來源:IEEE

以該團隊將強化學習算法與深度神經網絡相結合,建立了名為 “深度強化學習在對抗性輸入下可驗證的魯棒性”(Certified Adversarial Robustness for Deep Reinforcement Learning,CARRL)。

研究人員在幾個場景中測試了這種方法,包括模擬自動駕駛防撞測試和乒乓球電腦游戲(Pong。他們發現在面對不確定的對抗性輸入時,CARRL 比其他的機器學習技術表現更好,它能避免更多碰撞,且贏得了更多的 Pong 游戲。

本文主要作者,麻省理工學院航空航天實驗室博士后邁克爾 (Michael Everett) 在接受 TechExplore 采訪時表示:“ 也許很多人認為對抗性是指別人在惡意侵入你的電腦。但可能僅僅是因為你的傳感器不太好,或者測量結果不準。這是經常發生的情況。我們的方法有助于將這種缺陷考慮進來,并做出安全的決定。在任何涉及安全的關鍵領域,這都是一個需要考慮的重大問題?!?/p>

現實中的可能性

為了使人工智能系統對對抗性輸入產生魯棒性,研究人員嘗試給監督學習算法提供防御機制。傳統上來說,神經網絡被會將特定輸入與相關的標簽或決策關聯。例如,如果給一個神經網絡輸入了數千張被標記為貓的圖像,那么這個神經網絡應該可以將一張新圖像正確地標記為一只貓。

在魯棒性較高的人工智能系統中,人們可以用略微改變的圖像對監督學習算法進行測試。但是,窮盡所有的細微改變在計算上幾乎是不可能的,并且在即將碰撞等時間緊迫的條件下,算法也很難成功地做出反應。因此,如果算法不具有較好的魯棒性的話,現有的方法不能識別正確的標簽,或者采取正確行動。

論文作者之一 Bj rn Lütjens 說:“為了在涉及安全的關鍵場景中使用神經網絡,我們必須研究如何在最壞的現實情況下做出實時決策?!?/p>

圖片來源:WAYMO

最好的獎勵

為了解決以上問題,該團隊開始探索機器學習的另一種算法 --- 強化學習。與監督學習不同,強化學習不需要通過標簽將輸入與輸出相關聯,而是通過嘗試找到規律,根據結果得到獎勵從而強化特定行動。這種方法通常用于訓練計算機下棋等游戲。

強化學習主要應用于假設輸入為真的情況。邁克爾和他的同事們說,他們是在強化學習中給不確定的對抗性輸入帶來 “可驗證的魯棒性” 的第一人。

他們所采用的 CARRL 方法利用現有的深度強化學習算法來訓練深度 Q 網絡(DQN),并最終將輸入與 Q 值或獎勵水平相關聯。

如果將一個有單個圓點的圖像作為為輸入對象 ,CARRL 可以考慮到對抗性的影響。換句話說,CARRL 可以考慮到圓點可能實際所在的整個區域。根據麻省理工學院 (MIT) Tsui-Wei "Lily" Weng 開發的一項技術,該區域內圓點的每一個可能位置都會通過 DQN 進行反饋,以找到最糟糕的情況下產生最優獎勵的決策。

充滿對抗的世界

在一個名叫 “乒乓球” (Pong) 的測試中,兩名玩家在屏幕兩側操作球拍來回傳球。而研究人員引入了一個 “對抗性因素”,將球拉得比實際位置略低。

邁克爾說:“如果我們知道一個測量結果不完全可信,而且球可能在某個區域內的任何地方,那么我們的方法就會告訴計算機,它應該把球拍放在那個區域的中間,以確保我們即使在最壞的情況下也能擊中球?!?/p>

該方法在避免碰撞的測試中也同樣穩健。在防撞測試中,研究小組模擬了藍色和橙色的計算機(自動駕駛系統),它們試圖在不發生碰撞的情況下交換位置。由于團隊擾亂了橙色計算機對藍色計算機的觀察位置,CARRL 便引導橙色計算機繞過另一個計算機,達到了更大的安全距離。

確實有一段時間,CARRL 變得過于保守,導致橙色計算機認為藍色計算機在其附近的任何地方。之后它甚至完全避開了它的目的地。邁克爾說,這種極端的保守行為是有用的,因為研究人員可以將其作為一個極限來調整算法的魯棒性。例如,算法可能會小小地繞開不確定區域,但仍然到達目的地獲得較高回報。

邁克爾說,除了克服不完美的傳感器外,CARRL 可能是幫助機器人安全應對變化莫測的現實世界的開始:“人們可能充滿敵意。比如走在機器人前面擋住它的傳感器,或者并非出于好意對它們做出一些舉動?!薄皺C器人怎么可能想到人們想要做的所有事情,并試圖規避呢?我們想要防御什么樣的對抗模式?這是我們正在考慮的事情。”

關鍵詞: 如何 對抗 完美 世界

熱點
39熱文一周熱點
主站蜘蛛池模板: 平山县| 廉江市| 保德县| 全南县| 南陵县| 禹城市| 惠来县| 花垣县| 临沧市| 巩留县| 芜湖市| 荔波县| 年辖:市辖区| 类乌齐县| 镇雄县| 紫阳县| 马尔康县| 化德县| 宁河县| 博罗县| 瑞金市| 新源县| 福安市| 唐海县| 获嘉县| 类乌齐县| 贡山| 定陶县| 师宗县| 改则县| 沿河| 赤城县| 历史| 垦利县| 泰和县| 永新县| 含山县| 鲁山县| 项城市| 舒城县| 闽侯县|