日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

<blockquote id="utafg"><th id="utafg"></th></blockquote>

<div id="utafg"></div>

<blockquote id="utafg"><th id="utafg"></th></blockquote>

<menuitem id="utafg"></menuitem>

您現(xiàn)在的位置是：首頁 >每日動(dòng)態(tài) > 2024-06-15 09:20:01 來源：

大模型理解復(fù)雜表格，字節(jié)&amp;中科大出手了

導(dǎo)讀只要一個(gè)大模型，就能解決打工人遇到的表格難題!字節(jié)聯(lián)手中科大推出了一款統(tǒng)一表格理解大模型，可以以用戶友好的方式解決多種表格理解任務(wù)...

只要一個(gè)大模型，就能解決打工人遇到的表格難題!

字節(jié)聯(lián)手中科大推出了一款統(tǒng)一表格理解大模型，可以以用戶友好的方式解決多種表格理解任務(wù)。

同時(shí)提出的還有一套開源測(cè)試基準(zhǔn)，可以更好地評(píng)估模型在表格理解任務(wù)上的表現(xiàn)。

該模型名為TabPedia，利用多模態(tài)大模型，將不同處理表格任務(wù)的專有模型進(jìn)行了整合。

在這之前，不同的任務(wù)都有獨(dú)立的模型和解決方案，單是找到適合的模型就是已經(jīng)很讓人頭疼。

而TabPedia通過概念協(xié)同（Concept Synergy）機(jī)制來實(shí)現(xiàn)多個(gè)任務(wù)、多種源信息的整合協(xié)作，打工人再也不用為找模型而煩惱了。

那么，這款新模型都能實(shí)現(xiàn)怎樣的效果呢?

無需裁剪識(shí)別多表格結(jié)構(gòu)

首先來看，在測(cè)試數(shù)據(jù)集上，TabPedia可以在不借助后處理算法的條件下，精準(zhǔn)識(shí)別表格位置并直接生成無重疊的檢測(cè)框。

在判斷出表格位置的基礎(chǔ)之上，對(duì)于表格結(jié)構(gòu)識(shí)別任務(wù)，TabPedia可以繼續(xù)生成一系列連續(xù)的表格結(jié)構(gòu)元素以及相應(yīng)的檢測(cè)框。

不僅判斷準(zhǔn)確，還有效地解決了標(biāo)記語言（HTML或者M(jìn)arkdown）處理空間坐標(biāo)的不足和非法語法潛在造成解析錯(cuò)誤的弊端。

而且不再需要將表格從圖片中手動(dòng)裁剪，研究者們借助大模型的理解能力，讓模型可以直接在原始文檔圖像中實(shí)現(xiàn)多表格實(shí)例的表格結(jié)構(gòu)識(shí)別。

值得一提的是，此類任務(wù)是由TabPedia團(tuán)隊(duì)的作者首次提出的。

當(dāng)然，只識(shí)別表格的位置和結(jié)構(gòu)是遠(yuǎn)遠(yuǎn)不夠的，而對(duì)于表格問答任務(wù)，TabPedia不僅可以給出正確的答案，同時(shí)還能基于表格的內(nèi)容給出相應(yīng)的理由。

實(shí)戰(zhàn)方面，面對(duì)多種不同的開放場(chǎng)景，TabPedia同樣表現(xiàn)優(yōu)異。

比如在論文中的表格檢測(cè)任務(wù)當(dāng)中，TabPedia可以準(zhǔn)確地檢測(cè)出圖像中的所有表格實(shí)例。

對(duì)于表格結(jié)構(gòu)識(shí)別能力，研究者們隨機(jī)選取了不同論文中的表格圖像，對(duì)于包含密集文本信息的表格結(jié)構(gòu)，依然預(yù)測(cè)出準(zhǔn)確的結(jié)構(gòu)信息。

而在問答任務(wù)上，TabPedia仍然可以像在數(shù)據(jù)集測(cè)試中一樣，根據(jù)表格內(nèi)容和表格結(jié)構(gòu)信息，做出合理且正確的回答。

此外，為了更好地評(píng)估各種模型在現(xiàn)實(shí)世界表格圖像上的TQA性能，作者還構(gòu)建了一個(gè)復(fù)雜的TQA數(shù)據(jù)集（ComTQA）。

與現(xiàn)有的基準(zhǔn)WTQ和TabFact相比，ComTQA具有更具挑戰(zhàn)性的問題，例如多個(gè)答案、數(shù)學(xué)計(jì)算和邏輯推理。

通過專家標(biāo)注，作者們從大約1.5k張圖像中注釋了約9k個(gè)高質(zhì)量的表格問答對(duì)。該數(shù)據(jù)集的標(biāo)注目前已經(jīng)在Huggingface開源。

那么，TabPedia具體是如何實(shí)現(xiàn)的呢?

高低分辨率分別訓(xùn)練

如下圖所示，TabPedia包含兩個(gè)視覺編碼器以及各自的映射層，一個(gè)分詞器以及大語言模型。

在預(yù)訓(xùn)練階段，TabPedia主要學(xué)習(xí)如何對(duì)齊視覺表征和語言模型的輸入空間;在微調(diào)階段，TabPedia進(jìn)一步專注于視覺表格理解。

其中，高分辨率視覺編碼器用于2560x1920的高分辨文檔圖像，可以提供豐富的細(xì)粒度視覺信息;

低分辨率視覺編碼器為了保持整圖的結(jié)構(gòu)信息，編碼224x224的低分辨圖像。

為了更好地讓語言模型理解視覺信息，該工作沿襲了主流多模態(tài)大模型的對(duì)齊策略，設(shè)計(jì)了兩個(gè)簡(jiǎn)單的映射層。

對(duì)于高分辨率支路的映射層，TabPedia采用2D的卷積層來聚合近鄰的視覺特征，同時(shí)有效地緩解視覺token數(shù)量冗余的現(xiàn)狀。

給定大量的視覺tokens以及文本指令的嵌入特征，TabPedia采用Vicuna-7B作為語言模型生成回答。

考慮到表格感知和理解任務(wù)之間的差異，TabPedia引入了Meditative Tokens M 來實(shí)現(xiàn)概念協(xié)同機(jī)制，它可以自適應(yīng)地激活不同區(qū)域的視覺tokens，并理解特定任務(wù)問題的意圖。

整體的輸入序列為 X = [Q;; V_l ;; V_h，; M]，其中，和都是可學(xué)習(xí)的特殊token，分別代表視覺tokens的開始、結(jié)束，以及區(qū)分不同分辨率的視覺tokens。

由于TabPedia和其它LLMs一樣執(zhí)行next token預(yù)測(cè)，因此僅需要簡(jiǎn)單的交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)來優(yōu)化整個(gè)框架。

通過預(yù)訓(xùn)練，TabPedia能夠很好地理解各種文檔圖像的文本和結(jié)構(gòu)，但無法根據(jù)指示執(zhí)行不同的表格理解任務(wù)。

為了增強(qiáng)模型的指令跟隨能力，該工作首先構(gòu)建了一個(gè)用于視覺表格理解的大規(guī)模數(shù)據(jù)集。

基于該數(shù)據(jù)集，研究者引入了四個(gè)與表格相關(guān)的任務(wù)，即表格檢測(cè)，表格結(jié)構(gòu)識(shí)別，表格查詢以及表格問答，來同步執(zhí)行感知和理解任務(wù)。

在該階段，LLM也參與訓(xùn)練微調(diào)，進(jìn)一步增強(qiáng)大模型的指令跟隨和視覺信息抓取的能力。

開源數(shù)據(jù)集與合成數(shù)據(jù)共同訓(xùn)練

數(shù)據(jù)方面，TabPedia的全部數(shù)據(jù)來源于五個(gè)公開的表格數(shù)據(jù)集，包括PubTab1M、FinTabNet、 PubTabNet、WikiTableQuestions（WTQ）和TabFact，具體的數(shù)據(jù)使用情況如下圖所示:

同時(shí)，對(duì)于不同任務(wù)的指令設(shè)計(jì)，作者也給出了對(duì)應(yīng)的示例以便模型更好地理解。

其中最值得注意的是，表格檢測(cè)和表格結(jié)構(gòu)識(shí)別的任務(wù)擺脫了之前繁瑣的后處理的弊端，TabPedia直接可以預(yù)測(cè)無重疊的檢測(cè)框，高效率地輸出用戶需要的答案。

除此之外，研究者們進(jìn)一步借助大模型的理解能力，克服之前工作需要將表格從原文檔中裁剪出來做結(jié)構(gòu)識(shí)別的流程，直接在原文檔圖像中實(shí)現(xiàn)多表格實(shí)例的表格結(jié)構(gòu)識(shí)別。

該任務(wù)為利用大語言模型實(shí)現(xiàn)更復(fù)雜的表格理解奠定了強(qiáng)有力的基礎(chǔ)。

對(duì)于表格問答任務(wù)，現(xiàn)有的數(shù)據(jù)絕大多數(shù)是基于文本的表格中生成的，僅在背景顏色和字體大小存在變化，導(dǎo)致在現(xiàn)實(shí)世界的表格中泛化能力較差。此外，TQA數(shù)據(jù)的量級(jí)遠(yuǎn)遠(yuǎn)落后于其他任務(wù)。

為了克服這些障礙，研究者們利用開源多模態(tài)大模型，基于FinTabNet和PubTab1M中部分圖像數(shù)據(jù)生成了大量的TQA數(shù)據(jù)。

另外作者表示，盡管TabPedia已經(jīng)在視覺表格理解展現(xiàn)出強(qiáng)大的能力，仍然有很多未解決的挑戰(zhàn)激發(fā)研究者更深入的探索:

對(duì)于扭曲表格無法準(zhǔn)確的理解和識(shí)別。該能力不足一方面源于訓(xùn)練數(shù)據(jù)的不足，另一方面是對(duì)于表格結(jié)構(gòu)的表示采用了規(guī)則的矩形框。

目前的表格問答仍需要table-centic圖像，如何將其遷移到在原始文檔圖像直接問答也是一項(xiàng)挑戰(zhàn)性的工作。

增加表格單元格內(nèi)容識(shí)別可以提升模型對(duì)于表格內(nèi)容的理解以及細(xì)粒度信息的抓取能力。

總體來說，視覺表格理解任務(wù)依然有很多技術(shù)難點(diǎn)等待攻克。TabPedia初步探究了多模態(tài)大模型的表格理解能力，作者希望能對(duì)大家的研究有所幫助。

論文地址:

https://arxiv.org/abs/2406.01326

ComTQA數(shù)據(jù)集:

https://huggingface.co/datasets/ByteDance/ComTQA

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

標(biāo)簽：

上一篇:可口可樂可能重返俄羅斯市場(chǎng)：已提交注冊(cè)多個(gè)商標(biāo)申請(qǐng)

下一篇:最后一頁

猜你喜歡

凱美瑞國(guó)產(chǎn)強(qiáng)敵！2024款紅旗H6上市：17.98萬元起

一加Ace 3 Pro包裝盒泄露：全球首發(fā)寧德新能源6100mAh超大電池

純電續(xù)航最長(zhǎng)的混動(dòng)SUV！嵐圖FREE 318上市：21.99萬起

世界級(jí)重大考古發(fā)現(xiàn)：南海兩艘古代沉船揭開神秘面紗

姜萍數(shù)學(xué)老師：青出于藍(lán)勝于藍(lán)

專訪榮耀趙明：榮耀做小折應(yīng)該是“水到渠成之作”

一加Ace 3 Pro下周預(yù)熱！萬元內(nèi)最強(qiáng)質(zhì)感性能機(jī)

蘋果首次讓iOS關(guān)機(jī)流程變得簡(jiǎn)單起來！

最新文章

大模型理解復(fù)雜表格，字節(jié)&中科大出手了

優(yōu)維國(guó)際持續(xù)了多久（優(yōu)維國(guó)際）

聯(lián)組詞2個(gè)字的詞（聯(lián)組詞）

wilson是什么牌子中文名（wilson是什么牌子）

可口可樂可能重返俄羅斯市場(chǎng)：已提交注冊(cè)多個(gè)商標(biāo)申請(qǐng)

手機(jī)免密支付 1歲娃誤點(diǎn)120杯檸檬水引熱議網(wǎng)友力挺蜜雪冰城

AI視頻新霸主誕生！Dream Machine官宣免費(fèi)用，電影級(jí)大片全網(wǎng)玩瘋

最便宜的方程豹全新SUPER 3量產(chǎn)版實(shí)車曝光：三種風(fēng)格

鞋的部首怎么讀拼音（鞋的部首）

股票注冊(cè)制是怎么回事（股票注冊(cè)制）

有關(guān)諧音的歇后語有哪些（有關(guān)諧音的歇后語）

山東省招生辦電話2023（山東省招生辦電話）

香椿醬好吃嗎（香椿醬）

富士xs10怎么樣（富士x10怎么樣）

點(diǎn)擊排行

熱門推薦

<nav id="81em6"></nav>

<style id="81em6"></style>