日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >每日動態(tài) > 2024-06-06 17:05:04 來源:

        馬毅教授CRATE-α模型首次證實白盒Transformer可擴展性

        導讀 站長之家(ChinaZ.com)6月6日 消息:馬毅教授團隊最近取得了顯著的研究成果,他們開發(fā)的CRATE-α模型首次證實了白盒Transformer架構的可擴...

        站長之家(ChinaZ.com)6月6日 消息:馬毅教授團隊最近取得了顯著的研究成果,他們開發(fā)的CRATE-α模型首次證實了白盒Transformer架構的可擴展性。這一進展對于自然語言處理(NLP)、圖像處理和視覺計算領域的深度表征學習具有重要意義。

        盡管Transformer架構及其變體在AI領域取得了巨大成功,但它們大多基于經(jīng)驗設計,缺乏嚴格的數(shù)學解釋。CRATE模型通過數(shù)學推導得到每一層,提供了更好的可解釋性。不過,CRATE的應用規(guī)模之前相對有限,與Vision Transformer的參數(shù)量相比有較大差距。

        為了解決這一問題,研究團隊提出了CRATE-α,它對稀疏編碼塊進行了策略性但最小化的修改,并設計了輕量級的訓練方法,有效提高了CRATE的可擴展性。實驗結果顯示,CRATE-α的性能隨著模型尺寸和訓練數(shù)據(jù)集的增大而持續(xù)提升。在ImageNet分類任務上,CRATE-α-B和CRATE-α-L的準確率顯著提高,同時保持了CRATE模型的可解釋性。

        研究人員使用了ImageNet-21K和ImageNet-1K數(shù)據(jù)集進行訓練和微調,證明了CRATE-α在不同像素塊大小下的性能。此外,他們還采用了多模態(tài)數(shù)據(jù)集DataComp1B,包含14億圖文對,通過對比學習的方法訓練CRATE-α,并使用優(yōu)化的CLIPA協(xié)議減少計算資源消耗。

        CRATE-α模型的可擴展性通過在ImageNet-1K數(shù)據(jù)集上的零樣本學習評估得到了證明,這為衡量模型的泛化能力提供了重要指標。研究人員還發(fā)現(xiàn)了節(jié)省計算資源的擴展策略,通過調整預訓練階段的圖像token序列長度,在減少計算資源消耗的同時,保持了模型性能。

        CRATE-α的語義可解釋性也得到了提升,使用MaskCut評估模型捕獲的豐富語義信息,CRATE-α在目標檢測和分割方面比現(xiàn)有模型有所提高。這些研究成果不僅推動了Transformer模型的發(fā)展,也為未來的研究和應用開辟了新的道路。

        論文:https://arxiv.org/pdf/2405.20299

        項目地址:https://rayjryang.github.io/CRATE-alpha/