麻省理工學(xué)院 | 繁忙的圖形處理器:采樣和流水線方法加速了大型圖形的深度學(xué)習(xí)
指南者留學(xué) 2022-11-30 08:27:25 閱讀量:1210
<p>圖是一種由邊連接的節(jié)點(diǎn)組成的潛在的廣泛網(wǎng)絡(luò),可以用來表達(dá)和查詢數(shù)據(jù)之間的關(guān)系,如社會關(guān)系、金融交易、交通、能源網(wǎng)格和分子相互作用。隨著研究人員收集更多的數(shù)據(jù)并構(gòu)建這些圖形圖像,研究人員將需要更快、更有效的方法,以及更強(qiáng)的計(jì)算能力,以圖神經(jīng)網(wǎng)絡(luò)(GNN)的方式對它們進(jìn)行深度學(xué)習(xí)。</p> <p>&nbsp;</p> <p>現(xiàn)在,麻省理工學(xué)院和IBM研究院的研究人員開發(fā)了一種名為SALIENT(采樣、切片和數(shù)據(jù)移動)的新方法,通過解決計(jì)算中的三個(gè)關(guān)鍵瓶頸來提高訓(xùn)練和推理性能。這大大減少了大型數(shù)據(jù)集上gnn的運(yùn)行時(shí)間,例如,包含1億個(gè)節(jié)點(diǎn)和10億個(gè)邊。此外,該團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)計(jì)算能力從1個(gè)圖形處理單元(gpu)增加到16個(gè)時(shí),該技術(shù)的擴(kuò)展性很好。這項(xiàng)工作在第五屆機(jī)器學(xué)習(xí)和系統(tǒng)會議上發(fā)表。</p> <p>&nbsp;</p> <p>&ldquo;我們開始關(guān)注當(dāng)前系統(tǒng)在將最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)用于圖形到真正大的數(shù)據(jù)集時(shí)所面臨的挑戰(zhàn)。事實(shí)證明,還有很多工作要做,因?yàn)樵S多現(xiàn)有的系統(tǒng)主要在適合GPU內(nèi)存的較小數(shù)據(jù)集上取得了良好的性能,&rdquo;該研究的第一作者、麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的博士后蒂姆&middot;卡勒說。</p> <p>&nbsp;</p> <p>專家們所說的龐大數(shù)據(jù)集,指的是整個(gè)比特幣網(wǎng)絡(luò)的規(guī)模,其中的某些模式和數(shù)據(jù)關(guān)系可能闡明趨勢或欺詐行為。&ldquo;區(qū)塊鏈上有近10億比特幣交易,如果我們想要識別這樣一個(gè)聯(lián)合網(wǎng)絡(luò)中的非法活動,那么我們就要面對這樣一個(gè)規(guī)模的圖表,&rdquo;IBM研究院和MIT-IBM沃森人工智能實(shí)驗(yàn)室的高級研究科學(xué)家和經(jīng)理、合著者陳杰(Jie Chen)說。&ldquo;我們希望建立一個(gè)能夠處理這種圖形的系統(tǒng),并允許處理盡可能高效,因?yàn)槲覀兠刻於枷M闲聰?shù)據(jù)生成的速度。&rdquo;</p> <p>&nbsp;</p> <p>Kaler和Chen的合著者包括Jump Trading的Nickolas Stathas孟'21,他開發(fā)了SALIENT作為其研究生工作的一部分;前MIT- ibm沃森人工智能實(shí)驗(yàn)室實(shí)習(xí)生、MIT研究生Anne Ouyang;麻省理工學(xué)院CSAIL博士后Alexandros-Stavros Iliopoulos;MIT CSAIL研究科學(xué)家Tao B. Schardl;以及麻省理工學(xué)院埃德溫&middot;西布里&middot;韋伯斯特電氣工程教授、MIT- ibm沃森人工智能實(shí)驗(yàn)室研究員查爾斯&middot;e&middot;雷瑟森。</p> <p>&nbsp;</p> <p>對于這個(gè)問題,該團(tuán)隊(duì)采取了一種系統(tǒng)導(dǎo)向的方法來開發(fā)他們的方法:SALIENT, Kaler說。為了做到這一點(diǎn),研究人員實(shí)現(xiàn)了他們認(rèn)為重要的基本優(yōu)化組件,這些組件適合現(xiàn)有的機(jī)器學(xué)習(xí)框架,如PyTorch幾何和深度圖庫(DGL),它們是用于構(gòu)建機(jī)器學(xué)習(xí)模型的接口。斯塔薩斯說,這個(gè)過程就像更換引擎來制造更快的汽車。他們的方法設(shè)計(jì)適合現(xiàn)有的GNN架構(gòu),因此領(lǐng)域?qū)<铱梢暂p松地將這項(xiàng)工作應(yīng)用到他們的特定領(lǐng)域,以加快模型訓(xùn)練,并在推斷過程中更快地梳理出見解。該團(tuán)隊(duì)確定,訣竅是讓所有硬件(CPU、數(shù)據(jù)鏈和GPU)始終處于忙碌狀態(tài):當(dāng)CPU采樣圖并準(zhǔn)備小批量數(shù)據(jù),然后通過數(shù)據(jù)鏈傳輸時(shí),更關(guān)鍵的GPU正在工作,以訓(xùn)練機(jī)器學(xué)習(xí)模型或進(jìn)行推斷。</p> <p>&nbsp;</p> <p>研究人員首先分析了gnn常用的機(jī)器學(xué)習(xí)庫(PyTorch Geometric)的性能,該庫顯示出可用GPU資源的利用率低得驚人。通過簡單的優(yōu)化,研究人員將GPU利用率從10%提高到30%,相對于公共基準(zhǔn)測試代碼,性能提高了1.4到2倍。這種快速基線代碼可以在50.4秒內(nèi)通過算法(一個(gè)歷元)對大型訓(xùn)練數(shù)據(jù)集執(zhí)行一次完整的遍歷。</p> <p>&nbsp;</p> <p>為了進(jìn)一步提高性能,研究人員開始研究發(fā)生在數(shù)據(jù)管道開始的瓶頸:圖采樣和小批準(zhǔn)備的算法。與其他神經(jīng)網(wǎng)絡(luò)不同,gnn執(zhí)行鄰域聚合操作,它使用圖中其他鄰近節(jié)點(diǎn)的信息計(jì)算關(guān)于一個(gè)節(jié)點(diǎn)的信息&mdash;&mdash;例如,在社交網(wǎng)絡(luò)圖中,用戶的朋友的朋友的信息。隨著GNN層數(shù)的增加,網(wǎng)絡(luò)中獲取信息的節(jié)點(diǎn)數(shù)量可能會激增,超過計(jì)算機(jī)的極限。鄰域抽樣算法通過選擇更小的隨機(jī)節(jié)點(diǎn)子集來進(jìn)行收集;然而,研究人員發(fā)現(xiàn),目前的實(shí)現(xiàn)速度太慢,無法跟上現(xiàn)代gpu的處理速度。作為回應(yīng),他們確定了數(shù)據(jù)結(jié)構(gòu)、算法優(yōu)化等的組合,從而提高了采樣速度,最終將采樣操作提高了約三倍,將每個(gè)周期的運(yùn)行時(shí)間從50.4秒提高到34.6秒。他們還發(fā)現(xiàn),在推斷過程中,以適當(dāng)?shù)念l率進(jìn)行采樣,可以提高整體能源效率和性能,該團(tuán)隊(duì)指出,這一點(diǎn)在文獻(xiàn)中被忽略了。</p> <p>&nbsp;</p> <p>在以前的系統(tǒng)中,這個(gè)抽樣步驟是一種多進(jìn)程方法,這會在進(jìn)程之間產(chǎn)生額外的數(shù)據(jù)和不必要的數(shù)據(jù)移動。研究人員通過創(chuàng)建一個(gè)具有輕量級線程的單一進(jìn)程,將數(shù)據(jù)保存在共享內(nèi)存中,從而使他們的SALIENT方法更加靈活。此外,顯著利用了現(xiàn)代處理器的緩存,Stathas說,并行特征切片,從CPU核心緩存的共享內(nèi)存中感興趣的節(jié)點(diǎn)及其周圍的鄰居和邊緣提取相關(guān)信息。這再次將整個(gè)周期運(yùn)行時(shí)間從34.6秒減少到27.8秒。</p> <p>&nbsp;</p> <p>研究人員解決的最后一個(gè)瓶頸是使用預(yù)取步驟在CPU和GPU之間流水線小批數(shù)據(jù)傳輸,這將在需要數(shù)據(jù)之前準(zhǔn)備數(shù)據(jù)。該團(tuán)隊(duì)計(jì)算出,這將最大化數(shù)據(jù)鏈的帶寬使用,并使該方法達(dá)到完美利用;然而,他們只看到了大約90%。他們在一個(gè)流行的PyTorch庫中發(fā)現(xiàn)并修復(fù)了一個(gè)導(dǎo)致CPU和GPU之間不必要的往返通信的性能bug。修復(fù)了這個(gè)bug后,團(tuán)隊(duì)使用SALIENT實(shí)現(xiàn)了16.5秒的周期運(yùn)行時(shí)間。</p> <p>&nbsp;</p> <p>卡勒說:&ldquo;我認(rèn)為,我們的研究表明,細(xì)節(jié)決定成敗。&rdquo;&ldquo;當(dāng)你在訓(xùn)練一個(gè)圖神經(jīng)網(wǎng)絡(luò)時(shí)密切關(guān)注影響性能的細(xì)節(jié),你可以解決大量的性能問題。在我們的解決方案中,我們最終完全被GPU計(jì)算所困,而這正是這種系統(tǒng)的理想目標(biāo)。&rdquo;</p> <p>&nbsp;</p> <p>在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集ogbn-arxiv、ogbn-products和ogbn-papers100M上評估了SALIENT的速度,以及在多機(jī)設(shè)置下,使用不同級別的fanout (CPU將為GPU準(zhǔn)備的數(shù)據(jù)量),并跨越多個(gè)架構(gòu),包括最新的最先進(jìn)的架構(gòu)GraphSAGE-RI。在每一個(gè)設(shè)置中,SALIENT都優(yōu)于PyTorch Geometric,最顯著的是在大型ogbn-papers100M數(shù)據(jù)集上,包含1億個(gè)節(jié)點(diǎn)和超過10億個(gè)邊。這里,它在一個(gè)GPU上運(yùn)行的速度是最初為這項(xiàng)工作創(chuàng)建的優(yōu)化基線的三倍;在配備16個(gè)gpu的情況下,SALIENT的速度增加了8倍。</p> <p>&nbsp;</p> <p>雖然其他系統(tǒng)的硬件和實(shí)驗(yàn)設(shè)置略有不同,所以并不總是直接的比較,但SALIENT仍然優(yōu)于它們。在達(dá)到類似精度的系統(tǒng)中,代表性的性能數(shù)字包括使用一個(gè)GPU和32個(gè)cpu用時(shí)99秒,使用1536個(gè)cpu用時(shí)13秒。相比之下,使用1個(gè)GPU和20個(gè)cpu時(shí),SALIENT的運(yùn)行時(shí)間為16.5秒,而使用16個(gè)GPU和320個(gè)cpu時(shí)僅為2秒。Kaler說:&ldquo;如果你看看之前工作報(bào)告的底線數(shù)字,我們的16個(gè)GPU運(yùn)行時(shí)間(2秒)比之前報(bào)告的其他數(shù)據(jù)快了一個(gè)數(shù)量級。&rdquo;研究人員將他們的性能改進(jìn)部分歸因于他們在轉(zhuǎn)移到分布式設(shè)置之前針對單個(gè)機(jī)器優(yōu)化代碼的方法。斯塔薩斯說,這里的教訓(xùn)是,對于你的錢來說,&ldquo;在你開始擴(kuò)展到多臺計(jì)算機(jī)之前,更有意義的是有效地使用你的硬件,并將其發(fā)揮到極致&rdquo;,這可以在成本和碳排放方面提供顯著的節(jié)省,這可以與模型訓(xùn)練相結(jié)合。</p> <p>&nbsp;</p> <p>這種新的能力現(xiàn)在將允許研究人員處理和深入挖掘越來越大的圖表。例如,前面提到的比特幣網(wǎng)絡(luò)包含10萬個(gè)節(jié)點(diǎn);SALIENT系統(tǒng)能夠處理1000倍(或3個(gè)數(shù)量級)大的圖形。</p> <p>&nbsp;</p> <p>Chen說:&ldquo;未來,我們不僅要在現(xiàn)有的算法上運(yùn)行這個(gè)圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng),我們已經(jīng)實(shí)現(xiàn)了分類或預(yù)測每個(gè)節(jié)點(diǎn)的屬性,我們還想做更深入的任務(wù),比如識別圖中的常見模式(子圖模式),(這)實(shí)際上可能對指示金融犯罪很有趣。&rdquo;&ldquo;我們還想在圖中識別相似的節(jié)點(diǎn),這些節(jié)點(diǎn)在某種意義上可能對應(yīng)于金融犯罪中的同一壞人。這些任務(wù)將需要開發(fā)額外的算法,可能還需要神經(jīng)網(wǎng)絡(luò)架構(gòu)。&rdquo;</p> <p>&nbsp;</p> <p>這項(xiàng)研究得到了麻省理工學(xué)院- ibm沃森人工智能實(shí)驗(yàn)室的支持,部分得到了美國空軍研究實(shí)驗(yàn)室和美國空軍人工智能加速器的支持。</p> <p>&nbsp;</p> <blockquote> <p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點(diǎn)。</p> </blockquote>
預(yù)約咨詢
預(yù)約咨詢
猜你喜歡
關(guān)于我們
指南者留學(xué)是提供留學(xué)申請、背景提升、語言培訓(xùn)等產(chǎn)品的教育科技公司,已為數(shù)千名同學(xué)拿到海外TOP100名校錄取。率先采用專業(yè)導(dǎo)師+申請透明+申請失敗退全款的方式,從制度上保證客戶了解申請材料并掌握申請動態(tài),進(jìn)而確保擁有好的服務(wù)體驗(yàn)。
公司地址
北京
上海
廣州
南京
香港
廈門
常州
北京公司
地址:北京市海淀區(qū)丹棱街6號丹棱SOHO大廈11層1105-1106室
電話:010-62568280
上海公司
地址:上海市黃浦區(qū)西藏中路18號港陸廣場1504室
電話:021-52550609
廣州公司
地址:廣州市天河區(qū)林和西9號耀中廣場B座3807室
電話:020-85162035
南京公司
南大校區(qū)服務(wù)中心
地址:江蘇省南京市玄武區(qū)洪武北路16號匯金大廈13樓
電話:025-86755442
地址:江蘇省南京市棲霞區(qū)仙林大道168號南大和園商業(yè)街165棟15室
香港公司
地址:中國香港特別行政區(qū)尖沙咀么地道62號永安廣場9樓915室
電話:00852-53453856
廈門公司
地址:福建省廈門市思明區(qū)演武西路188號世茂海峽大廈B座908室
電話:0592-5181167
常州公司
地址:江蘇省常州市天寧區(qū)關(guān)河?xùn)|路66號九洲環(huán)宇大廈C座4樓
電話:0519-85600327
聯(lián)系我們

咨詢熱線:400-183-1832

咨詢郵箱:admin@compassedu.hk

公司電話:010-62568280

服務(wù)品質(zhì)監(jiān)督熱線:400-780-7810

指南者留學(xué)-公眾號
關(guān)注指南者留學(xué)公眾號
指南者留學(xué)-小紅書
指南者留學(xué)-視頻公眾號
指南者留學(xué)視頻公眾號
指南者留學(xué)-抖音
指南者留學(xué)抖音
指南者留學(xué)-小程序
指南者留學(xué)微信小程序
指南者留學(xué)-嗶哩嗶哩 指南者留學(xué)-知乎 指南者留學(xué)-微博
指南者留學(xué)-App
下載指南者留學(xué)App
公眾號
掃一掃立即關(guān)注
微信咨詢
掃一掃立即咨詢
App下載
下載指南者留學(xué)App
在線客服
電話咨詢
400-183-1832
回到頂部
預(yù)約咨詢
現(xiàn)在來設(shè)置你的賬號吧
只需要花不到一分鐘,之后便可以獲得更精準(zhǔn)的推薦~
1
留學(xué)意向
2
基本意向
3
詳細(xì)背景
4
了解途徑
1.1 您期望申請學(xué)歷是
1.2 您期待的留學(xué)地區(qū)是多選
* 0/20
沒有查詢到相關(guān)的地區(qū)
查詢中...
已選(0/5):
2.1 您的身份狀態(tài)是
2.2 您的目前學(xué)歷是
3.1 您的本科學(xué)校是
大陸本科
海外本科
3.2 您的學(xué)校名稱是
沒有查詢到相關(guān)的學(xué)校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關(guān)的專業(yè)
查詢中...
4. 您從哪里了解到指南者留學(xué)網(wǎng)站的
* 0/20
取消