麻省理工學院 | 一條通往更好的計算機視覺的更簡單的途徑
指南者留學
2022-11-24 23:46:25
閱讀量:1204
<p>在機器學習模型能夠完成一項任務(wù)之前,例如在醫(yī)學圖像中識別癌癥,該模型必須經(jīng)過訓(xùn)練。訓(xùn)練圖像分類模型通常涉及向模型展示聚集在一個龐大數(shù)據(jù)集中的數(shù)百萬例圖像。</p>
<p> </p>
<p>然而,使用真實的圖像數(shù)據(jù)可能會引發(fā)實際和倫理方面的擔憂:這些圖像可能會違反版權(quán)法,侵犯人們的隱私,或?qū)μ囟ǚN族或民族群體有偏見。為了避免這些陷阱,研究人員可以使用圖像生成程序為模型訓(xùn)練創(chuàng)建合成數(shù)據(jù)。但這些技術(shù)是有限的,因為通常需要專業(yè)知識手工設(shè)計一個圖像生成程序,可以創(chuàng)建有效的訓(xùn)練數(shù)據(jù)。</p>
<p> </p>
<p>來自麻省理工學院、MIT- ibm沃森人工智能實驗室和其他地方的研究人員采取了不同的方法。他們沒有為特定的訓(xùn)練任務(wù)設(shè)計定制的圖像生成程序,而是從互聯(lián)網(wǎng)上收集了21,000個公開可用的程序數(shù)據(jù)集。然后,他們使用大量的基本圖像生成程序來訓(xùn)練計算機視覺模型。</p>
<p> </p>
<p>這些程序產(chǎn)生各種各樣的圖像,顯示簡單的顏色和紋理。研究人員沒有策劃或修改這些程序,每個程序只包含幾行代碼。</p>
<p> </p>
<p>與其他經(jīng)過綜合訓(xùn)練的模型相比,他們用這個大型程序集訓(xùn)練的模型對圖像的分類更加準確。雖然他們的模型表現(xiàn)不如那些用真實數(shù)據(jù)訓(xùn)練的模型,但研究人員表明,增加數(shù)據(jù)集中圖像程序的數(shù)量也會提高模型的性能,揭示了一條獲得更高精度的路徑。</p>
<p> </p>
<p>“事實證明,使用大量未經(jīng)策劃的程序?qū)嶋H上比使用一小組人們需要操縱的程序要好。數(shù)據(jù)很重要,但我們已經(jīng)證明,在沒有真實數(shù)據(jù)的情況下,你可以走得很遠,”在計算機科學和人工智能實驗室(CSAIL)工作的電氣工程和計算機科學(EECS)研究生Manel Baradad說,他是描述該技術(shù)的論文的主要作者。</p>
<p> </p>
<p>合著者包括中國國際工程學院EECS系研究生王通洲;MIT-IBM沃森人工智能實驗室首席科學家兼經(jīng)理Rogerio Feris;Antonio Torralba,電氣工程和計算機科學德爾塔電子教授,CSAIL成員;資深作者菲利普·伊索拉(Phillip Isola), EECS和CSAIL的副教授;以及摩根大通銀行和Xyla, Inc.的其他人。這項研究將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表。</p>
<p> </p>
<p>反思pretraining</p>
<p> </p>
<p>機器學習模型通常是預(yù)先訓(xùn)練的,這意味著它們首先在一個數(shù)據(jù)集上訓(xùn)練,以幫助它們構(gòu)建可以用于處理不同任務(wù)的參數(shù)。x射線分類模型可以先使用大量合成生成的圖像數(shù)據(jù)集進行預(yù)訓(xùn)練,然后再使用小得多的真實x射線數(shù)據(jù)集進行實際任務(wù)訓(xùn)練。</p>
<p>這些研究人員先前表明,他們可以使用少量的圖像生成程序為模型預(yù)訓(xùn)練創(chuàng)建合成數(shù)據(jù),但這些程序需要精心設(shè)計,以便合成圖像與真實圖像的某些屬性匹配。這使得這項技術(shù)難以擴大規(guī)模。</p>
<p> </p>
<p>在新的工作中,他們使用了大量的非策劃圖像生成程序的數(shù)據(jù)集。</p>
<p> </p>
<p>他們從網(wǎng)上收集了21000個圖像生成程序。所有的程序都是用一種簡單的編程語言編寫的,只包含一些代碼片段,因此它們可以快速生成圖像。</p>
<p> </p>
<p>“這些程序是由世界各地的開發(fā)人員設(shè)計的,以產(chǎn)生具有我們感興趣的一些屬性的圖像。它們產(chǎn)生的圖像看起來有點像抽象藝術(shù),”巴拉達德解釋道。</p>
<p> </p>
<p>這些簡單的程序運行速度非???,以至于研究人員不需要提前生成圖像來訓(xùn)練模型。研究人員發(fā)現(xiàn),他們可以同時生成圖像和訓(xùn)練模型,從而簡化了過程。</p>
<p> </p>
<p>他們使用大量的圖像生成程序數(shù)據(jù)集,對計算機視覺模型進行有監(jiān)督和無監(jiān)督圖像分類任務(wù)的預(yù)訓(xùn)練。在監(jiān)督學習中,對圖像數(shù)據(jù)進行標記,而在無監(jiān)督學習中,模型學習對沒有標記的圖像進行分類。</p>
<p> </p>
<p>提高準確性</p>
<p> </p>
<p>當他們將預(yù)先訓(xùn)練的模型與使用合成數(shù)據(jù)預(yù)先訓(xùn)練的最先進的計算機視覺模型進行比較時,他們的模型更準確,這意味著他們更經(jīng)常地將圖像放入正確的類別。雖然準確性水平仍然低于用真實數(shù)據(jù)訓(xùn)練的模型,但他們的技術(shù)將用真實數(shù)據(jù)訓(xùn)練的模型與用合成數(shù)據(jù)訓(xùn)練的模型之間的性能差距縮小了38%。</p>
<p> </p>
<p>“重要的是,我們發(fā)現(xiàn),對于收集的程序數(shù)量,性能呈對數(shù)增長。我們不會使性能飽和,所以如果我們收集更多的程序,模型的性能會更好。因此,我們有辦法擴展我們的方法,”Manel說。</p>
<p> </p>
<p>研究人員還使用每個單獨的圖像生成程序進行預(yù)訓(xùn)練,以努力發(fā)現(xiàn)有助于模型準確性的因素。他們發(fā)現(xiàn),當一個程序生成更多樣化的圖像集時,該模型表現(xiàn)得更好。他們還發(fā)現(xiàn),彩色圖像和充滿整個畫布的場景往往最能提高模型的性能。</p>
<p> </p>
<p>現(xiàn)在,他們已經(jīng)證明了這種預(yù)訓(xùn)練方法的成功,研究人員希望將他們的技術(shù)擴展到其他類型的數(shù)據(jù),如包括文本和圖像的多模態(tài)數(shù)據(jù)。他們還想繼續(xù)探索提高圖像分類性能的方法。</p>
<p> </p>
<p>“與根據(jù)真實數(shù)據(jù)訓(xùn)練的模型相比,仍有差距要縮小。這為我們的研究指明了方向,我們希望其他人也能效仿。”</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學態(tài)度觀點。</p>
</blockquote>