麻省理工學院和微軟研究人員開發的新型模型可以識別出一些實例,這些實例中的自治系統是從與實際情況不符的訓練示例中“學習”的。工程師可以使用該模型來提高人工智能係統的安全性,例如無人駕駛汽車和自動機器人。
例如,為無人駕駛汽車提供動力的AI系統在虛擬仿真中接受了廣泛的培訓,可以為道路上幾乎所有事件做好準備。但是有時汽車在現實世界中會發生意外錯誤,因為發生的事件應該(但不應該)改變汽車的行為。
考慮一種未經訓練的無人駕駛汽車,更重要的是它沒有必要的傳感器,以區分截然不同的場景,例如大型白色汽車和道路上紅色閃爍的救護車。如果汽車在高速公路上行駛,並且救護車在警笛上晃動,則汽車可能不知道減速並駛過,因為它沒有感覺到這輛救護車與白色大車不同。
在兩篇論文中-在去年的自治代理和Multiagent Systems會議以及leo娛樂城即將召開的人工智能促進協會會議—研究人員描述了一種模型,該模型使用人工輸入來發現這些訓練“盲點”。
與傳統方法一樣,研究人員通過仿真來放置AI系統iwin娛樂城 訓練。但隨後,人們會密切監視系統在現實世界中的行為,並在系統運行時提供反饋娛樂城註冊送現金系統犯了或將要犯任何錯誤。然後,研究人員將訓練數據與人類反饋數據相結九牛娛樂合,並使用機器學習技術來生成一個模型,該模型可精確定位系統最可能需要有關如何正確操作的更多信息的情況。
研究人員使用電子遊戲驗證了他們的方法,模擬的人糾正了屏幕上角色的學習路徑。但是下一步是將模型與具有人工反饋的自動駕駛汽車和機器人的傳統培訓和測試方法結合起來。
“該模型可以幫助自治系統更好地了解未知信息,”計算機科學與人工智能實驗室的研究生第一作者Ramya Ramakrishnan說。 “很多時候,當部署這些系統時,它們訓練有素的模擬與實際設置不符,並且可能會犯錯誤,例如發生事故。我們的想法是讓人類以一種安全的方式彌合模擬與現實世界之間的鴻溝,從而我們可以減少其中的一些錯誤。”
這兩篇論文的共同作者是:航空航天學系副教授,CSAIL互動機器人小組負責人朱麗莎(Julie Shah);以及來自Microsoft Research的Ece Kamar,Debadeepta Dey和Eric Horvitz。 Besmira Nushi是即將發表的論文的另一位合著者。
取得反饋
一些傳統的培訓方法確實會在實際測試運行期間提供人工反饋,但只會更新系統的操作。這些方法無法識別盲點,這對於現實世界中的安全執行可能很有用。
研究人員的方法首先是使AI系統經過仿真培訓,然後將產生一個“策略”,該策略實質上將每種情況映射到電競運彩分析在仿真中可以採取的最佳措施。然後,該系統將被部署在實際環境中,在此環境中,人們會在系統動作無法接受的區域提供錯誤信號。
人類可以以多種方式提供數據,例如通過“演示”和“更正”。在演示中,人類在現實世界中的行為,而係統會觀察並比較人類的行為與在這種情況下的行為。例如,對於無人駕駛汽車,如果計劃的行為偏離了人類的行為,則當系統產生信號時,人們會手動控制汽車。與人類行為的匹配和不匹配為系統可能在可接受或不可接受的行為提供了嘈雜的指示。
或者,人類可以提供更正,並由人類監視系統在現實世界中的行為。當自動駕駛汽車按照計劃路線行駛時,人可以坐在駕駛員座位上。如果汽車的動作正確,那麼人類什麼也不會做。但是,如果汽車的操作不正確,則人類可能會抓住方向盤,這會發出信號,表明系統在這種特定情況下的行為並非不可接受。
一旦收集了來自人類的反饋數據,該系統就實質上具有情況列表,並且對於每種情況,都有多個標籤表示其行為是可接受的還是不可接受的。單個情況可以接收許多不同的信號,因為系統將許多情況視為相同。例如,無人駕駛汽車可能已經在大型汽車旁邊巡航了許多次而沒有減速和駛過。但是,僅在一種情況下,一輛看上去與系統完全相同的救護車就會駛過。自動駕駛汽車不會停車,並且會收到反饋信號,表明系統採取了不可接受的措施。
“到那時,該系統已經收到來自人的多個矛盾信號:有些人旁邊有一輛大汽車,而且運轉良好,而在同一確切位置有一輛救護車,但這並不好。 該系統略作記錄,指出它做錯了什麼,但不知道為什麼。” Ramakrishnan說。 “由於代理商收到了所有這些矛盾的信號,下一步是收集信息以詢問,‘在收到這些混合信號的情況下,我怎麼可能犯錯?”
智能聚合
最終目標是將這些模糊的情況標記為盲點。但這不僅僅只是計算每種情況下可接受和不可接受的行動。例如,如果系統在急救情況下執行十分正確的操作(十分之九),則只需簡單的多數表決就可以將該情況標記為安全。
Ramakrishnan說:“但是,由於不可接受的行為比可接受的行為少得多,因此系統最終將學會預測所有情況都是安全的,這可能是極其危險的。”
為此,研究人員使用了Dawid-Skene算法,這是一種機器學習方法,通常用於眾包以處理標籤噪聲。該算法將一系列情況作為輸入,每種情況都有一組嘈雜的“可接受”和“不可接受”標籤。然後,它匯總所有數據,並使用一些概率計算來識別預測盲點標籤中的模式和預測安全情況的模式。使用該信息,它為每種情況輸出一個匯總的“安全”或“盲點”標籤,以及其在該標籤中的置信度。值得注意的是,該算法可以學習一種情況,例如在90%的時間裡它可以執行可接受的情況,這種情況仍然模棱兩可,值得“盲點”。
最後,該算法生成了一種“熱圖”,其中將系統原始訓練中的每種情況分配為系統盲點的概率從高到低。
“當系統部署到現九牛娛樂實世界中時,它可以使用這種學習的模型來更加謹慎地採取行動 新球網娛樂城聰明地如果學習到的模型預測狀態很有可能是一個盲點,那麼系統可以向人類查詢可接受的動作,從而可以更安全地執行。” Ramakrishnan說。
本文已從麻省理工學院提供的材料中重新發布。注意:墊子發發網erial的長度和內容可能已被編輯。有關更多信息,請聯繫引用的來源。
了解更多:http://interactive.mit.edu/discovering-blind-spots-reinforcement-learning