麻省理工學院 | 一種有遠見的機器學習方法
指南者留學 2022-11-24 23:42:34 閱讀量:1188
<p>想象兩支球隊在足球場擺好架勢。玩家可以為了達成一個目標而合作,也可以與其他利益沖突的玩家競爭。游戲就是這么玩的。</p> <p>&nbsp;</p> <p>創(chuàng)造能夠像人類一樣學習競爭和合作的人工智能代理仍然是一個棘手的問題。一個關鍵的挑戰(zhàn)是,當人工智能智能體同時學習時,如何使它們能夠預測其他智能體的未來行為。</p> <p>&nbsp;</p> <p>由于這一問題的復雜性,目前的方法往往是短視的;代理只能猜測隊友或競爭者接下來的幾個動作,這導致了長期的糟糕表現(xiàn)。</p> <p>&nbsp;</p> <p>來自麻省理工學院、MIT- ibm沃森人工智能實驗室和其他地方的研究人員開發(fā)了一種新的方法,使人工智能代理具有遠見。</p> <p>&nbsp;</p> <p>他們的機器學習框架使合作或競爭的AI代理能夠在時間接近無窮大時考慮其他代理將做什么,而不僅僅是考慮接下來的幾個步驟。然后,代理相應地調(diào)整自己的行為,以影響其他代理的未來行為,并達到一個最佳的、長期的解決方案。</p> <p>&nbsp;</p> <p>這一框架可以被一組自動駕駛無人機用來在茂密的森林中尋找走失的徒步旅行者,也可以被自動駕駛汽車用來通過預測在繁忙的高速公路上行駛的其他車輛的未來動向來努力保證乘客的安全。</p> <p>&nbsp;</p> <p>&ldquo;當人工智能代理在合作或競爭時,最重要的是它們的行為何時在未來的某個時刻趨于一致。在這個過程中有很多短暫的行為,從長遠來看并沒有太大影響。達到這種聚合行為是我們真正關心的,我們現(xiàn)在有一個數(shù)學方法來實現(xiàn)它,&rdquo;麻省理工學院信息和決策系統(tǒng)實驗室(LIDS)的研究生Dong-Ki Kim說,他是描述該框架的一篇論文的主要作者。</p> <p>&nbsp;</p> <p>資深作者喬納森&middot;p&middot;豪,理查德&middot;c&middot;麥克勞林航空航天教授,麻省理工學院- ibm沃森人工智能實驗室成員。共同作者包括來自麻省理工-IBM沃森人工智能實驗室、IBM研究中心、米拉-魁北克人工智能研究所和牛津大學的其他人。這項研究將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表。</p> <p>&nbsp;</p> <p>代理越多,問題就越多</p> <p>&nbsp;</p> <p>研究人員專注于一個被稱為多主體強化學習的問題。強化學習是一種機器學習形式,AI代理通過試錯進行學習。研究人員對幫助其實現(xiàn)目標的&ldquo;良好&rdquo;行為給予獎勵。代理會調(diào)整自己的行為以最大化獎勵,直到最終成為某項任務的專家。</p> <p>&nbsp;</p> <p>但當許多合作或競爭主體同時學習時,事情就會變得越來越復雜。隨著代理考慮其他代理的更多未來步驟,以及它們自己的行為如何影響其他代理,這個問題很快就需要太多的計算能力來有效解決。這就是為什么其他方法只關注短期。</p> <p>&nbsp;</p> <p>&ldquo;人工智能確實想要考慮游戲的結局,但他們不知道游戲什么時候結束。他們需要思考如何不斷調(diào)整自己的行為,以便在未來的某個遙遠時刻贏得勝利。我們的論文實質上提出了一個新的目標,使人工智能能夠思考無限,&rdquo;金說。</p> <p>&nbsp;</p> <p>但由于不可能在算法中插入無窮大,研究人員設計了他們的系統(tǒng),讓代理關注未來的一個點,在這個點上,它們的行為將與其他代理的行為收斂,這被稱為平衡。一個平衡點決定了智能體的長期性能,在多智能體的情況下可以存在多個平衡。因此,一個有效的agent會積極地影響其他agent的未來行為,使它們從agent的角度達到一個理想的平衡。如果所有的因素相互影響,它們就會趨同于一個研究人員稱之為&ldquo;主動平衡&rdquo;的一般概念。</p> <p>&nbsp;</p> <p>他們開發(fā)的機器學習框架被稱為FURTHER(代表&ldquo;充分加強主動影響與平均獎勵&rdquo;),使代理能夠學習如何在與其他代理交互時調(diào)整自己的行為,以實現(xiàn)這種主動平衡。</p> <p>&nbsp;</p> <p>FURTHER使用兩個機器學習模塊來實現(xiàn)這一點。第一個是推理模塊,它使一個代理能夠猜測其他代理的未來行為和它們使用的學習算法,僅基于它們之前的行為。</p> <p>&nbsp;</p> <p>這些信息被輸入到強化學習模塊中,代理使用該模塊來調(diào)整其行為并影響其他代理,使其獲得的獎勵最大化。</p> <p>&nbsp;</p> <p>&ldquo;挑戰(zhàn)在于思考無限。我們必須使用許多不同的數(shù)學工具來實現(xiàn)這一點,并做一些假設以使其在實踐中工作,&rdquo;Kim說。</p> <p>贏得長期的勝利</p> <p>&nbsp;</p> <p>他們在幾個不同的場景中,用其他多智能體強化學習框架測試了他們的方法,包括一對機器人進行相撲式的比賽,以及兩個25智能體團隊之間的戰(zhàn)斗。在這兩種情況下,使用FURTHER的AI代理更容易贏得游戲。</p> <p>&nbsp;</p> <p>由于他們的方法是分散的,這意味著代理獨立學習贏得游戲,它也比其他需要中央計算機來控制代理的方法更具可擴展性,Kim解釋道。</p> <p>&nbsp;</p> <p>研究人員使用游戲來測試他們的方法,但FURTHER可以用來解決任何類型的多主體問題。例如,當許多相互作用的主體的行為和利益隨時間而變化時,經(jīng)濟學家可以應用它來尋求制定合理的政策。</p> <p>&nbsp;</p> <p>經(jīng)濟學是金特別感興趣的一門學科。他還希望更深入地挖掘主動均衡的概念,并繼續(xù)加強FURTHER框架。</p> <p>&nbsp;</p> <p>這項研究的部分資金來自麻省理工學院- ibm沃森人工智能實驗室。</p> <p>&nbsp;</p> <blockquote> <p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學態(tài)度觀點。</p> </blockquote>
預約咨詢
預約咨詢
猜你喜歡
公眾號
掃一掃立即關注
微信咨詢
掃一掃立即咨詢
App下載
下載指南者留學App
在線客服
電話咨詢
400-183-1832
回到頂部
預約咨詢
現(xiàn)在來設置你的賬號吧
只需要花不到一分鐘,之后便可以獲得更精準的推薦~
1
留學意向
2
基本意向
3
詳細背景
4
了解途徑
1.1 您期望申請學歷是
1.2 您期待的留學地區(qū)是多選
2.1 您的身份狀態(tài)是
2.2 您的目前學歷是
3.1 您的本科學校是
大陸本科
海外本科
3.2 您的學校名稱是
沒有查詢到相關的學校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關的專業(yè)
查詢中...
4. 您從哪里了解到指南者留學網(wǎng)站的
* 0/20
取消