您現(xiàn)在的位置是:首頁 >要聞 > 2020-11-29 08:35:44 來源:
為機(jī)器學(xué)習(xí)啟用更公平的數(shù)據(jù)集群
CSE研究人員最近發(fā)表的研究可以使訓(xùn)練機(jī)器學(xué)習(xí)(ML)模型更公平,更快速。Mosharaf Chowdhury教授和美國石溪大學(xué)的一個(gè)團(tuán)隊(duì)通過使用一種名為AlloX的工具,開發(fā)了一種新的方式來公平地調(diào)度數(shù)據(jù)中心中的大量ML作業(yè),這些數(shù)據(jù)中心使用多種不同類型的計(jì)算硬件,例如CPU,GPU和專用加速器。隨著這些所謂的異構(gòu)集群逐漸成為常態(tài),像AlloX這樣的公平調(diào)度系統(tǒng)將成為其高效運(yùn)營所必需的。
該項(xiàng)目是Chowdhury實(shí)驗(yàn)室的新步驟,該實(shí)驗(yàn)室最近發(fā)布了許多工具,旨在加快ML模型的訓(xùn)練和測試過程。他們過去的項(xiàng)目Tiresias和Salus加速了多種規(guī)模的GPU資源共享:既在單個(gè)GPU(Salus)內(nèi),又在群集中的多個(gè)GPU(Tiresias)之間。
但是,AlloX解決了異構(gòu)集群,該集群帶來了一個(gè)新問題:不同的硬件最適合不同類型的計(jì)算任務(wù)。盡管期望與數(shù)據(jù)集群的工作總是有差異,但是對(duì)于給定的工作,哪種硬件最合適也有所不同。
多種不同類型的硬件可能能夠運(yùn)行一個(gè)給定的模型,但是根據(jù)其計(jì)算特性,每個(gè)模型可以具有截然不同的速度。如果需要大量的順序執(zhí)行,那么GPU不太適合,但是如果它嚴(yán)重依賴矩陣乘法,則CPU不能很好地工作。隨著新加速器的不斷開發(fā),不同的通用操作總是在尋找更好的選擇來快速執(zhí)行。
Chowdhury說:“每個(gè)工作負(fù)載都有其獨(dú)特的特性,可以使獨(dú)特的加速器發(fā)光。這就是為什么架構(gòu)研究人員正在構(gòu)建如此多的新加速器的原因。”
這種不匹配的硬件提出了數(shù)據(jù)集群公平性問題的新方面。在工作量持續(xù)不斷的情況下,調(diào)度程序不僅必須尋找最佳的平均運(yùn)行時(shí)間來保持中心運(yùn)行,而且還必須尋找不會(huì)隨意拖延某些工作以追求整體性能的計(jì)劃。按照Chowdhury的說法,計(jì)算能力的分布可為不同的個(gè)人用戶帶來廣泛不同的性能結(jié)果。
他說:“如果集群不公平,那么某些人將受到太多懲罰,他們的計(jì)算時(shí)間將任意增加。”