麻省理工學(xué)院 | 確保人工智能以適當(dāng)?shù)暮闷嫘墓ぷ?
指南者留學(xué)
2022-11-15 14:18:07
閱讀量:1204
<p><img src="https://info.compassedu.hk/sucai/content/1668493307016/1668493307016.png" width="808" height="539" /></p>
<p>這是一個和時間一樣古老的困境。周五晚上到了,你正試著選一家餐廳吃晚餐。你是去你最喜歡的酒吧,還是去一家新的餐館,希望能發(fā)現(xiàn)一些更好的東西?有可能,但這種好奇心也有風(fēng)險:如果你嘗試新的選擇,食物可能會更糟糕。另一方面,如果你堅(jiān)持你所知道的行之有效的方法,你就不會走出自己狹窄的道路。</p>
<p> </p>
<p>好奇心驅(qū)使人工智能去探索世界,現(xiàn)在有無限的用例——自主導(dǎo)航、機(jī)器人決策、優(yōu)化健康結(jié)果等等。在某些情況下,機(jī)器使用“強(qiáng)化學(xué)習(xí)”來完成一個目標(biāo),即AI代理迭代地從良好行為的獎勵和不良行為的懲罰中學(xué)習(xí)。就像人類在選擇餐廳時所面臨的困境一樣,這些代理也在努力平衡花在發(fā)現(xiàn)更好的行動(探索)和花在過去導(dǎo)致高回報的行動(開發(fā))上的時間。太多的好奇心會分散代理做出好的決策的注意力,而太少的好奇心則意味著代理永遠(yuǎn)不會發(fā)現(xiàn)好的決策。</p>
<p> </p>
<p>為了讓人工智能代理具備適當(dāng)?shù)暮闷嫘模槭±砉W(xué)院(MIT)不可思議人工智能實(shí)驗(yàn)室(impossible AI Laboratory)和計算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員創(chuàng)建了一種算法,克服了人工智能過于“好奇”和被給定任務(wù)分心的問題。當(dāng)需要的時候,他們的算法會自動增加好奇心,而如果代理從環(huán)境得到足夠的監(jiān)督,知道該做什么,就會抑制好奇心。</p>
<p> </p>
<p>在對60多款電子游戲進(jìn)行測試后,該算法能夠成功地完成困難和簡單的探索任務(wù),而之前的算法只能單獨(dú)解決一個困難或簡單的領(lǐng)域。通過這種方法,人工智能代理使用更少的數(shù)據(jù)來學(xué)習(xí)決策規(guī)則,使激勵最大化。</p>
<p> </p>
<p>“如果你很好地掌握了探索和利用之間的平衡,你就能更快地學(xué)會正確的決策規(guī)則——如果你做得不夠好,就需要大量的數(shù)據(jù),這可能意味著次優(yōu)的醫(yī)療,網(wǎng)站的利潤更低,以及機(jī)器人不會學(xué)習(xí)做正確的事情,”麻省理工學(xué)院電子工程和計算機(jī)科學(xué)(EECS)助理教授Pulkit Agrawal說,他是不可可能人工智能實(shí)驗(yàn)室的主任,也是監(jiān)督該研究的CSAIL下屬機(jī)構(gòu)。“想象一下,一個網(wǎng)站試圖找出其內(nèi)容的設(shè)計或布局,以最大化銷售。如果勘探開發(fā)做得不好,收斂到正確的網(wǎng)站設(shè)計或正確的網(wǎng)站布局將需要很長時間,這意味著利潤的損失?;蛘咴谛l(wèi)生保健環(huán)境中,比如Covid-19,可能需要做出一系列決定來治療患者,如果你想使用決策算法,它們需要快速有效地學(xué)習(xí)——你不想在治療大量患者時得到一個次優(yōu)解決方案。我們希望這項(xiàng)工作能應(yīng)用于現(xiàn)實(shí)世界中類似的問題。”</p>
<p> </p>
<p>很難囊括好奇心心理基礎(chǔ)的細(xì)微差別;挑戰(zhàn)尋求行為的潛在神經(jīng)關(guān)聯(lián)是一個知之甚少的現(xiàn)象。對這種行為進(jìn)行分類的嘗試跨越了多個研究,這些研究深入研究了我們的沖動、剝奪敏感性、社交和壓力耐受力。</p>
<p> </p>
<p>在強(qiáng)化學(xué)習(xí)中,這一過程在情感上被“修剪”,剝離到最基本的部分,但在技術(shù)方面很復(fù)雜。從本質(zhì)上說,代理應(yīng)該只在沒有足夠的監(jiān)督來嘗試不同的事物時才感到好奇,如果有監(jiān)督,它必須調(diào)整好奇心并降低好奇心。</p>
<p> </p>
<p>因?yàn)榇蟛糠钟螒蚨际窃谄婊铆h(huán)境中奔跑,尋找獎勵并執(zhí)行一系列行動以實(shí)現(xiàn)某些目標(biāo)的小代理,所以這似乎是研究人員算法的邏輯試驗(yàn)臺。在實(shí)驗(yàn)中,研究人員將《馬里奧賽車》和《蒙特祖瑪?shù)膹?fù)仇》這類游戲分為兩類:一類是監(jiān)管較少的游戲,這意味著代理人的指導(dǎo)較少,被認(rèn)為是“難”探索游戲;另一類是監(jiān)管較密集的游戲,被認(rèn)為是“容易”探索游戲。</p>
<p> </p>
<p>假設(shè)在《馬里奧賽車》中,你只移除所有獎勵,所以你不知道敵人何時會消滅你。當(dāng)你收集硬幣或跳過管道時,你不會得到任何獎勵。代理最終只會被告知它做得有多好。這將是一個監(jiān)管稀疏的例子。在這種情況下,激發(fā)好奇心的算法表現(xiàn)得非常好。</p>
<p> </p>
<p>但是現(xiàn)在,假設(shè)代理被提供了嚴(yán)格的監(jiān)督——跳過管道、收集硬幣和消滅敵人的獎勵。在這里,一個沒有好奇心的算法表現(xiàn)得非常好,因?yàn)樗?jīng)常得到獎勵。但如果你采用同樣使用好奇心的算法,它會學(xué)習(xí)得很慢。這是因?yàn)楹闷娴拇砜赡軙L試以不同的方式快速奔跑,四處跳舞,去到游戲屏幕的每個部分——這些事情很有趣,但無助于代理在游戲中取得成功。然而,該團(tuán)隊(duì)的算法始終表現(xiàn)良好,不管它在什么環(huán)境中。</p>
<p> </p>
<p>未來的工作可能涉及到多年來讓心理學(xué)家既高興又困擾的探索:好奇心的合適度量標(biāo)準(zhǔn)——沒有人真正知道用數(shù)學(xué)定義好奇心的正確方法。</p>
<p> </p>
<p>“在一個新問題上獲得一致的良好表現(xiàn)是極具挑戰(zhàn)性的——因此,通過改進(jìn)探索算法,我們可以節(jié)省您為您感興趣的問題調(diào)優(yōu)算法的精力,”EECS博士生、CSAIL會員張衛(wèi)紅(音譯)說,他與Eric Chen ' 20,孟' 21共同撰寫了一篇關(guān)于這項(xiàng)工作的新論文。“我們需要好奇心來解決極具挑戰(zhàn)性的問題,但在某些問題上,好奇心會影響表現(xiàn)。我們提出了一種算法,消除了調(diào)整勘探和開發(fā)平衡的負(fù)擔(dān)。以前要花一周時間才能成功解決的問題,有了這個新算法,我們可以在幾個小時內(nèi)得到滿意的結(jié)果。”</p>
<p>“當(dāng)前人工智能和認(rèn)知科學(xué)面臨的最大挑戰(zhàn)之一是如何平衡探索和利用——搜索信息與搜索獎勵。加州大學(xué)伯克利分校(University of California at Berkeley)的心理學(xué)教授兼哲學(xué)副教授艾莉森·戈普尼克(Alison Gopnik)指出,“孩子們可以無縫地做到這一點(diǎn),但在計算上存在挑戰(zhàn)。”她沒有參與該項(xiàng)目。“這篇論文使用了令人印象深刻的新技術(shù)來自動完成這一任務(wù),設(shè)計了一個可以系統(tǒng)地平衡對世界的好奇心和對獎勵的渴望的代理,(因此)向讓人工智能代理(幾乎)像孩子一樣聰明又邁進(jìn)了一步。”</p>
<p> </p>
<p>“像好奇心這樣的內(nèi)在獎勵是引導(dǎo)代理發(fā)現(xiàn)有用的多樣化行為的基礎(chǔ),但這不應(yīng)該以完成給定任務(wù)為代價。這是人工智能中的一個重要問題,這篇論文提供了一種平衡這種權(quán)衡的方法,”卡內(nèi)基梅隆大學(xué)的助理教授迪帕克·帕塔克補(bǔ)充說,他也沒有參與這項(xiàng)工作。“看到這種方法如何從游戲擴(kuò)展到現(xiàn)實(shí)世界的機(jī)器人代理將是很有趣的。”</p>
<p> </p>
<p>陳、洪和阿格拉瓦爾與阿爾托大學(xué)助理教授、達(dá)姆施塔特大學(xué)智能自主系統(tǒng)小組研究負(fù)責(zé)人Joni Pajarinen共同撰寫了這篇論文。該研究部分得到了MIT-IBM沃森人工智能實(shí)驗(yàn)室、DARPA機(jī)器常識項(xiàng)目、美國空軍研究實(shí)驗(yàn)室和美國空軍人工智能加速器的陸軍研究室的支持。該論文將在神經(jīng)信息與處理系統(tǒng)(NeurIPS) 2022上發(fā)表。</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點(diǎn)。</p>
</blockquote>