日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁(yè) >人工智能 > 2022-08-25 17:08:22 來(lái)源:

        超級(jí)計(jì)算中心數(shù)據(jù)集旨在加速人工智能研究以優(yōu)化高性能計(jì)算系統(tǒng)

        導(dǎo)讀 當(dāng)麻省理工學(xué)院林肯實(shí)驗(yàn)室超級(jí)計(jì)算中心 (LLSC) 在 2019 年推出其 TX-GAIA 超級(jí)計(jì)算機(jī)時(shí),它為麻省理工學(xué)院社區(qū)提供了一個(gè)強(qiáng)大的新資

        當(dāng)麻省理工學(xué)院林肯實(shí)驗(yàn)室超級(jí)計(jì)算中心 (LLSC) 在 2019 年推出其 TX-GAIA 超級(jí)計(jì)算機(jī)時(shí),它為麻省理工學(xué)院社區(qū)提供了一個(gè)強(qiáng)大的新資源,可以將人工智能應(yīng)用于他們的研究。麻省理工學(xué)院的任何人都可以向該系統(tǒng)提交工作,該系統(tǒng)每秒進(jìn)行數(shù)萬(wàn)億次操作,以訓(xùn)練用于各種應(yīng)用的模型,例如在醫(yī)學(xué)圖像中發(fā)現(xiàn)腫瘤、發(fā)現(xiàn)新藥或模擬氣候效應(yīng)。但這種強(qiáng)大的力量帶來(lái)了以可持續(xù)方式管理和運(yùn)營(yíng)它的重大責(zé)任——團(tuán)隊(duì)正在尋找改進(jìn)的方法。

        “我們擁有這些強(qiáng)大的計(jì)算工具,可以讓研究人員建立復(fù)雜的模型來(lái)解決問(wèn)題,但它們本質(zhì)上可以用作黑匣子。在那里迷失的是我們是否真的盡可能有效地使用硬件,”Siddharth Samsi 說(shuō),LLSC 的研究科學(xué)家。

        為了深入了解這一挑戰(zhàn),LLSC 在過(guò)去一年中一直在收集有關(guān) TX-GAIA 使用情況的詳細(xì)數(shù)據(jù)。在超過(guò)一百萬(wàn)個(gè)用戶工作之后,該團(tuán)隊(duì)已將數(shù)據(jù)集開(kāi)源發(fā)布給計(jì)算社區(qū)。

        他們的目標(biāo)是使計(jì)算機(jī)科學(xué)家和數(shù)據(jù)中心運(yùn)營(yíng)商能夠更好地了解數(shù)據(jù)中心優(yōu)化的途徑——隨著處理需求的不斷增長(zhǎng),這是一項(xiàng)重要的任務(wù)。他們還看到了在數(shù)據(jù)中心本身利用人工智能的潛力,通過(guò)使用數(shù)據(jù)開(kāi)發(fā)模型來(lái)預(yù)測(cè)故障點(diǎn)、優(yōu)化作業(yè)調(diào)度和提高能源效率。雖然云提供商正在積極優(yōu)化他們的數(shù)據(jù)中心,但他們通常不會(huì)將他們的數(shù)據(jù)或模型提供給更廣泛的高性能計(jì)算 (HPC) 社區(qū)來(lái)利用。該數(shù)據(jù)集和相關(guān)代碼的發(fā)布旨在填補(bǔ)這一空間。

        LLSC 的高級(jí)研究員 Vijay Gadepally 表示:“數(shù)據(jù)中心正在發(fā)生變化。我們的硬件平臺(tái)呈爆炸式增長(zhǎng),工作負(fù)載的類型在不斷發(fā)展,使用數(shù)據(jù)中心的人員類型也在發(fā)生變化。” “到目前為止,還沒(méi)有一種很好的方法來(lái)分析對(duì)數(shù)據(jù)中心的影響。我們認(rèn)為這項(xiàng)研究和數(shù)據(jù)集是朝著提出一種有原則的方法來(lái)理解這些變量如何相互作用然后應(yīng)用人工智能邁出的一大步以獲得見(jiàn)解和改進(jìn)。”

        描述數(shù)據(jù)集和潛在應(yīng)用的論文已被許多場(chǎng)所接受,包括 IEEE 高性能計(jì)算機(jī)體系結(jié)構(gòu)國(guó)際研討會(huì)、IEEE 國(guó)際并行和分布式處理研討會(huì)、計(jì)算協(xié)會(huì)北美分會(huì)年會(huì)語(yǔ)言學(xué)、IEEE 高性能和嵌入式計(jì)算會(huì)議以及高性能計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和分析國(guó)際會(huì)議。

        在全球 TOP500 超級(jí)計(jì)算機(jī)中,TX-GAIA 結(jié)合了傳統(tǒng)計(jì)算硬件(中央處理器或 CPU)與近 900 個(gè)圖形處理單元(GPU)加速器。這些 NVIDIA GPU 專門(mén)用于深度學(xué)習(xí),這是一種引發(fā)語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)的 AI。

        數(shù)據(jù)集按作業(yè)涵蓋 CPU、GPU 和內(nèi)存使用情況;調(diào)度日志;和物理監(jiān)測(cè)數(shù)據(jù)。與谷歌和微軟等類似的數(shù)據(jù)集相比,LLSC 數(shù)據(jù)集提供了“標(biāo)記數(shù)據(jù)、各種已知的 AI 工作負(fù)載以及與以前的數(shù)據(jù)集相比更詳細(xì)的時(shí)間序列數(shù)據(jù)。據(jù)我們所知,它是最全面和最全面的數(shù)據(jù)集之一??捎玫募?xì)粒度數(shù)據(jù)集,”Gadepally 說(shuō)。

        值得注意的是,該團(tuán)隊(duì)以前所未有的詳細(xì)程度收集了時(shí)間序列數(shù)據(jù):每個(gè) GPU 上的時(shí)間間隔為 100 毫秒,每個(gè) CPU 上的時(shí)間間隔為 10 秒,因?yàn)闄C(jī)器處理了 3,000 多個(gè)已知的深度學(xué)習(xí)作業(yè)。首要目標(biāo)之一是使用這個(gè)標(biāo)記的數(shù)據(jù)集來(lái)描述不同類型的深度學(xué)習(xí)作業(yè)在系統(tǒng)上的工作負(fù)載。例如,此過(guò)程將提取特征,這些特征揭示了硬件處理自然語(yǔ)言模型與圖像分類或材料設(shè)計(jì)模型的差異。

        該團(tuán)隊(duì)現(xiàn)在發(fā)起了麻省理工學(xué)院數(shù)據(jù)中心挑戰(zhàn)賽來(lái)推動(dòng)這項(xiàng)研究。該挑戰(zhàn)邀請(qǐng)研究人員使用 AI 技術(shù)以 95% 的準(zhǔn)確率識(shí)別正在運(yùn)行的工作類型,使用他們標(biāo)記的時(shí)間序列數(shù)據(jù)作為基本事實(shí)。

        這種洞察力可以使數(shù)據(jù)中心更好地匹配用戶的工作請(qǐng)求和最適合它的硬件,從而潛在地節(jié)省能源并提高系統(tǒng)性能。對(duì)工作負(fù)載進(jìn)行分類還可以讓操作員快速注意到硬件故障、低效數(shù)據(jù)訪問(wèn)模式或未經(jīng)授權(quán)的使用導(dǎo)致的差異。

        選擇太多

        今天,LLSC 提供的工具可以讓用戶提交他們的工作并選擇他們想要使用的處理器,“但是這對(duì)用戶來(lái)說(shuō)是很多猜測(cè),”Samsi 說(shuō)。“有人可能想使用最新的 GPU,但他們的計(jì)算實(shí)際上并不需要它,他們可以在 CPU 或低功率機(jī)器上獲得同樣令人印象深刻的結(jié)果。”

        東北大學(xué)的 Devesh Tiwari 教授正在與 LLSC 團(tuán)隊(duì)合作,開(kāi)發(fā)可幫助用戶將其工作負(fù)載與適當(dāng)硬件相匹配的技術(shù)。Tiwari 解釋說(shuō),不同類型的 AI 加速器、GPU 和 CPU 的出現(xiàn)讓用戶面臨太多選擇。如果沒(méi)有正確的工具來(lái)利用這種異質(zhì)性,他們就會(huì)錯(cuò)過(guò)好處:更好的性能、更低的成本和更高的生產(chǎn)力。

        “我們正在解決這個(gè)能力差距——提高用戶的工作效率,幫助用戶更好更快地進(jìn)行科學(xué)研究,而不必?fù)?dān)心管理異構(gòu)硬件,”Tiwari 說(shuō)。“我的博士生李寶林正在構(gòu)建新的功能和工具,以幫助 HPC 用戶利用基于貝葉斯優(yōu)化和其他基于學(xué)習(xí)的優(yōu)化方法的技術(shù),在沒(méi)有用戶干預(yù)的情況下接近最優(yōu)地利用異質(zhì)性。但是,這只是開(kāi)始。我們正在研究以一種原則性的方法在我們的數(shù)據(jù)中心中引入異構(gòu)性,以幫助我們的用戶自主且經(jīng)濟(jì)高效地實(shí)現(xiàn)異構(gòu)性的最大優(yōu)勢(shì)。”

        工作負(fù)載分類是通過(guò)數(shù)據(jù)中心挑戰(zhàn)提出的許多問(wèn)題中的第一個(gè)。其他包括開(kāi)發(fā)人工智能技術(shù)來(lái)預(yù)測(cè)工作失敗、節(jié)約能源或創(chuàng)建提高數(shù)據(jù)中心冷卻效率的工作調(diào)度方法。

        節(jié)能減排

        為了調(diào)動(dòng)對(duì)綠色計(jì)算的研究,該團(tuán)隊(duì)還計(jì)劃發(fā)布 TX-GAIA 操作的環(huán)境數(shù)據(jù)集,其中包含機(jī)架溫度、功耗和其他相關(guān)數(shù)據(jù)。

        據(jù)研究人員稱,存在巨大的機(jī)會(huì)來(lái)提高用于人工智能處理的 HPC 系統(tǒng)的電源效率。例如,LLSC 最近的工作確定了簡(jiǎn)單的硬件調(diào)整,例如限制單個(gè) GPU 可以消耗的電量,可以將訓(xùn)練 AI 模型的能源成本降低 20%,而計(jì)算時(shí)間只會(huì)適度增加。“這種減少轉(zhuǎn)化為大約一整周的家庭能源,僅增加三個(gè)小時(shí)的時(shí)間,”Gadepally 說(shuō)。

        他們還一直在開(kāi)發(fā)預(yù)測(cè)模型準(zhǔn)確性的技術(shù),以便用戶可以快速終止不太可能產(chǎn)生有意義結(jié)果的實(shí)驗(yàn)??,從而節(jié)省能源。數(shù)據(jù)中心挑戰(zhàn)賽將共享相關(guān)數(shù)據(jù),使研究人員能夠探索其他節(jié)能機(jī)會(huì)。

        該團(tuán)隊(duì)希望從這項(xiàng)研究中吸取的經(jīng)驗(yàn)教訓(xùn)可以應(yīng)用于美國(guó)國(guó)防部運(yùn)營(yíng)的數(shù)千個(gè)數(shù)據(jù)中心。

        其他合作者包括麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 的研究人員。Charles Leiserson 教授的 Supertech 研究小組正在研究并行計(jì)算的性能增強(qiáng)技術(shù),研究科學(xué)家 Neil Thompson 正在設(shè)計(jì)研究如何推動(dòng)數(shù)據(jù)中心用戶轉(zhuǎn)向氣候友好型行為。

        作為 IEEE 國(guó)際并行和分布式處理研討會(huì)的一部分,Samsi 在去年春天的首屆 AI 數(shù)據(jù)中心優(yōu)化 (ADOPT'22) 研討會(huì)上介紹了這項(xiàng)工作。該研討會(huì)正式向 HPC 社區(qū)介紹了他們的數(shù)據(jù)中心挑戰(zhàn)。

        “我們希望這項(xiàng)研究能夠讓我們和其他運(yùn)行超級(jí)計(jì)算中心的人能夠更好地響應(yīng)用戶需求,同時(shí)降低中心級(jí)別的能源消耗,”Samsi 說(shuō)。

        最新文章