日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >人工智能 > 2021-06-02 20:05:56 來源:

        Google開源MT5 這是一種多語言模型經(jīng)過101種語言的培訓(xùn)

        導(dǎo)讀 不甘示弱通過的Facebook和微軟本星期,他們兩人在十月下旬詳細(xì)尖端機(jī)器學(xué)習(xí)語言算法,谷歌開源了一個名為模型MT5,公司宣稱實(shí)現(xiàn)了國家的先

        不甘示弱通過的Facebook和微軟本星期,他們兩人在十月下旬詳細(xì)尖端機(jī)器學(xué)習(xí)語言算法,谷歌開源了一個名為模型MT5,公司宣稱實(shí)現(xiàn)了國家的先進(jìn)成果在一系列英語自然處理任務(wù)。MT5是Google T5模型的多語言變體,已在涵蓋101種語言的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,包含3億至130億個參數(shù)(模型內(nèi)部用于進(jìn)行預(yù)測的變量),表面上具有足夠的能力來學(xué)習(xí)100多種語言而不會產(chǎn)生重大影響“干擾”效應(yīng)。

        多語言AI模型設(shè)計(jì)的目標(biāo)是建立一個可以理解世界7,000多種語言的模型。多語言AI模型在相似語言之間共享信息,這有益于資源貧乏的語言,并允許零鏡頭語言處理或模型未見過的語言處理。隨著模型尺寸的增加,它們需要較大的數(shù)據(jù)集,這些數(shù)據(jù)集可能很費(fèi)力且難以創(chuàng)建,這導(dǎo)致研究人員將重點(diǎn)放在網(wǎng)絡(luò)抓取的內(nèi)容上。

        MT5在MC4(C4的子集)上接受了培訓(xùn),MC4是從公共Common Crawl存儲庫中提取的約750GB英語文字的集合。(Common Crawl包含數(shù)十億個從Internet抓取的網(wǎng)頁。)雖然C4數(shù)據(jù)集被明確設(shè)計(jì)為僅英語,但MC4覆蓋了Common Crawl迄今為止發(fā)布的71個月度所有月度刮擦中的107種語言,具有10,000個或更多的網(wǎng)頁。

        有證據(jù)表明,語言模型會放大他們所訓(xùn)練的數(shù)據(jù)集中存在的偏見。盡管一些研究人員聲稱目前沒有任何機(jī)器學(xué)習(xí)技術(shù)可以充分防止有害輸出,但Google研究人員試圖通過對MC4文檔中的行進(jìn)行重復(fù)數(shù)據(jù)刪除和過濾包含不良詞的頁面來減輕MT5中的偏差。他們還使用工具檢測了每個頁面的主要語言,并刪除了置信度低于70%的頁面。

        谷歌表示,最大的MT5模型(具有130億個參數(shù))超過了2020年10月所測試的所有基準(zhǔn)測試。其中包括Xtreme多語言基準(zhǔn)測試的五項(xiàng)任務(wù);XNLI涵蓋任務(wù)涵蓋14種語言;XQuAD,MLQA和TyDi QA閱讀理解基準(zhǔn)分別使用10、7和11種語言;以及具有7種語言的PAWS-X復(fù)述識別數(shù)據(jù)集。

        當(dāng)然,基準(zhǔn)是否充分反映模型的真實(shí)性能是一個爭論的話題。一些研究表明,開放域問答模型(理論上可以用新穎答案回答新穎問題的模型)通常只是根據(jù)數(shù)據(jù)集簡單地記住在訓(xùn)練數(shù)據(jù)中找到的答案。但是Google研究人員斷言MT5是邁向功能強(qiáng)大的模型的一步,這些功能不需要具有挑戰(zhàn)性的建模技術(shù)。

        “總體而言,我們的研究結(jié)果突出了模型能力在跨語言表示學(xué)習(xí)中的重要性,并建議通過(依靠)……過濾,并行數(shù)據(jù)或中間任務(wù)來擴(kuò)展簡單的預(yù)訓(xùn)練方法可能是一種可行的選擇。”在描述MT5的論文中寫道。“我們證明了T5配方可直接適用于多種語言環(huán)境,并在各種基準(zhǔn)測試中均表現(xiàn)出色。”