日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

<blockquote id="utafg"><th id="utafg"></th></blockquote>

<div id="utafg"></div>

<blockquote id="utafg"><th id="utafg"></th></blockquote>

<menuitem id="utafg"></menuitem>

您現(xiàn)在的位置是：首頁 >每日動態(tài) > 2024-06-13 14:15:06 來源：

國產(chǎn)模型人均「第一」太假？字節(jié)扣子模型廣場競技，全民投票！

導(dǎo)讀【新智元導(dǎo)讀】每家國產(chǎn)大模型都說自己是第一，該信誰的?最近，字節(jié)推出了扣子模型廣場，全體國產(chǎn)LLM開啟大混戰(zhàn)!你一票，我一票，誰是第一...

【新智元導(dǎo)讀】每家國產(chǎn)大模型都說自己是第一，該信誰的?最近，字節(jié)推出了扣子模型廣場，全體國產(chǎn)LLM開啟大混戰(zhàn)!你一票，我一票，誰是第一，大眾說了算。投票連小朋友都能參與，模型生態(tài)從此徹底從黑盒到白盒。

只有打開黑盒，大模型應(yīng)用生態(tài)才能從玄學(xué)變科學(xué)。

從厲害到能用，關(guān)鍵一步是確定性

在過去的半年里，筆者在北京拜訪了一百多位人工智能應(yīng)用開發(fā)者，其中最年長的是80多歲的張老。

張老是一位中美混血的華僑，在人工智能這個詞誕生的第一屆達(dá)特茅斯會議召開時，他已經(jīng)成年，并且從事著與編碼相關(guān)的工作，甚至還在卡片上打孔進(jìn)行過編程，后來又在IBM從事研發(fā)工作。

可以說，張老一生都是人工智能的忠實(shí)擁躉。在這一輪大模型爆發(fā)的時候，他表現(xiàn)得非常激動，盡管已經(jīng)退休很多年，但仍然充滿熱情地在扣子上開發(fā)Bot，之前不僅使用過GPTs，還對工作流了如指掌。

張老在談?wù)摤F(xiàn)在大模型的發(fā)展時，一方面給予了高度贊揚(yáng)，另一方面也表達(dá)了擔(dān)憂。

他告訴筆者:「別看輿論上很熱鬧，似乎一下子出現(xiàn)了很多發(fā)明，但實(shí)際上真正能被使用的東西很少。」他認(rèn)為，真正的新發(fā)明必須能夠提供新的服務(wù)，并舉例將大模型與計(jì)算機(jī)的發(fā)展進(jìn)行了類比。

在他年輕的時候，IBM和惠普等公司生產(chǎn)的產(chǎn)品只能說是接近計(jì)算機(jī)的計(jì)算器。而當(dāng)時，一位名叫王安的華人制造出了現(xiàn)代意義上的第一臺移動電腦Wang2200。

Wang2200不僅與IBM、惠普的機(jī)器一樣支持Basic語言和磁芯存儲（順便說一句，磁芯存儲也是王安發(fā)明的），而且在計(jì)算功能之外還能進(jìn)行數(shù)據(jù)處理和文字處理，甚至還配備了CRT顯示器，運(yùn)行著他自己發(fā)明的文字處理系統(tǒng)WPS。

他本人也因此入選美國發(fā)明家名人堂，與特斯拉、愛迪生等人齊名。在這臺移動電腦發(fā)布兩年多后，微軟和蘋果才相繼成立，并且深受其影響。

然而，Wang2200的發(fā)明雖然具有進(jìn)步意義，但也存在嚴(yán)重的缺陷:

其一，它的穩(wěn)定性較差，由于設(shè)計(jì)過于超前，其性能甚至不如當(dāng)時的計(jì)算器;

其二，它是一個黑盒子，雖然機(jī)器本身很好，但與主流的IBM路線不兼容。

工程師們不愿意使用這種結(jié)果不確定的機(jī)器。因此，盡管IBM落后一年才推出5100，但卻獲得了市場的普遍認(rèn)可，被認(rèn)為是PC機(jī)的開端。

在張老看來，不穩(wěn)定和黑盒子這兩個問題，也是大模型生態(tài)發(fā)展面臨的兩大挑戰(zhàn)。

筆者非常認(rèn)同他的觀點(diǎn)，并且在后來對應(yīng)用創(chuàng)業(yè)者的拜訪中，更加深刻地驗(yàn)證了這一點(diǎn)。

大模型生態(tài)的兩大挑戰(zhàn)

首先，大模型生態(tài)的發(fā)展過于超前，一誕生就被說得無所不能，但產(chǎn)出結(jié)果的穩(wěn)定性仍然存在問題。

包括OpenAI在內(nèi)的各家模型都存在幻覺問題，許多微調(diào)垂類微調(diào)模型在實(shí)際應(yīng)用中的表現(xiàn)甚至不如知識圖譜。

這一點(diǎn)在各家SaaS廠商接入大模型時表現(xiàn)得尤為明顯。有多少SaaS接入大模型后發(fā)現(xiàn)實(shí)際效果并不理想，下面的人面對不穩(wěn)定的結(jié)果，根本不敢依賴它來產(chǎn)生結(jié)果。

網(wǎng)上常說的AI寫簡歷、寫日報(bào)、寫周報(bào)，在現(xiàn)實(shí)中有幾個人真的敢依靠AI來寫呢?輸入信息給AI的時間早就足夠自己寫完報(bào)告了。

其次，黑盒子問題更加嚴(yán)重。

一位應(yīng)用創(chuàng)業(yè)者曾經(jīng)告訴筆者，如果他描述的問題在大模型中沒有得到很好的解決，他的下意識動作就是把問題需求描述得更加詳細(xì)。但事實(shí)上，他寫的prompt（提示）越多，得到的結(jié)果只會越混亂。

在現(xiàn)實(shí)中，大多數(shù)對話式大模型產(chǎn)品都需要非常好的prompt工程能力才能使用，而且prompt過程本身就非常復(fù)雜。這與使用AI來降低成本、提高效率的初衷背道而馳。

一位在中關(guān)村從事AI資源管理系統(tǒng)的創(chuàng)業(yè)者對筆者說，他在調(diào)用大模型API時，最關(guān)心的就是能否給用戶一個穩(wěn)定的結(jié)果。他現(xiàn)在拓展新客戶非常困難，只有一些小公司愿意免費(fèi)嘗試，因?yàn)榇罂蛻舳己軗?dān)心模型給出的數(shù)據(jù)不準(zhǔn)確，在關(guān)鍵時刻還得重新編寫。

另一位從事AI運(yùn)營系統(tǒng)的創(chuàng)業(yè)者則更加苦惱，因?yàn)樗峁┙o付費(fèi)客戶的小紅書文案有時好有時壞，總是出現(xiàn)幻覺表述，他們的創(chuàng)業(yè)團(tuán)隊(duì)為了挽回客戶，經(jīng)常要手動幫客戶改稿到半夜。

在B端市場，有趣并不重要，有用才是關(guān)鍵。如何提高輸出質(zhì)量的確定性，對于創(chuàng)業(yè)者和開發(fā)者來說具有極其重要的價(jià)值。

手搓Bot，扣子AI工作坊可能會讓大家看到更多真實(shí)場景

大眾市場不在乎你是否是人工智能，也不在乎你是否是高科技產(chǎn)品，他們只關(guān)心你能否解決他們的生活和工作問題。

因此，大模型生態(tài)要想被市場廣泛接受，就必須做到兩件事:一是極大地降低使用門檻，二是極大地提高確定性。

只有做到這兩點(diǎn)，大模型生態(tài)才能真正融入大眾的工作和生活。

在上述兩件事中，第一件事，即降低使用門檻，目前各家大模型廠商都已經(jīng)意識到了，并且主流的解決辦法是采用Agent路線。

這里的Agent需要解釋一下，目前百度的詞條翻譯是通用人工智能，這過于科幻，與當(dāng)前的現(xiàn)狀不符。

網(wǎng)上還有另一個被廣泛使用的說法是「智能體」，這個說法雖然正確且理想，但筆者覺得不夠形象，圈內(nèi)人想吐槽它叫「智障體」，圈外讀者甚至不知道它是什么意思。聽說有Saas廠商將其翻譯成「AI員工」，只能說他們想多了。

這里想說一個不太準(zhǔn)確但肯定能讓大家一眼就明白的詞——「人設(shè)」。無論以后基礎(chǔ)模型如何發(fā)展，Agent目前的狀態(tài)就是這樣。

舉個例子，筆者曾經(jīng)按照prompt教程，設(shè)計(jì)了一個哈佛大學(xué)教授的Agent來協(xié)助日常工作。然而，它除了能用哈佛精英的口吻與我說話之外，其他事情都做不好，文章等等也寫得很糟糕。

這樣說大家應(yīng)該能理解「人設(shè)」和「智能體」的區(qū)別了吧。而且與上文一致，你寫的prompt越詳細(xì)，Agent就越模糊，輸出的結(jié)果也就越混亂。

那么有沒有解決辦法呢?目前，在國內(nèi)平臺中，筆者只看到扣子注意到了第二件事——極大地提高確定性。

扣子智能體開發(fā)平臺

扣子現(xiàn)在給自己的定位是新一代一站式AI Bot開發(fā)平臺，由此可以看出他們對Bot的重視程度。

為了方便大家區(qū)分Agent和Bot，這里還是要做一下翻譯，網(wǎng)絡(luò)直翻是「機(jī)器人」。

這里可能還是不好理解，舉一個實(shí)際運(yùn)行的例子——根據(jù)抖音熱點(diǎn)內(nèi)容創(chuàng)作微信公眾號文章。

如果我們給創(chuàng)作大師Agent寫prompt，可能會這樣寫:「你是一個熱文創(chuàng)作大師。請根據(jù)今天的抖音熱點(diǎn)內(nèi)容XXX，寫一篇微信公眾號文章?！?/p>

如果在扣子平臺使用Bot來做這件事，我們輸入的提示詞可能是一樣的，但它可以進(jìn)行更復(fù)雜的任務(wù)執(zhí)行，包括檢索、提綱、修改、查詢數(shù)據(jù)庫、核定、提升文學(xué)性等預(yù)動作，然后再輸出給你。而且，這些預(yù)設(shè)的工作流、技能、插件、數(shù)據(jù)庫、長期記憶都是你可以設(shè)計(jì)的。

不出意外的話，后者輸出的文字會比前者好很多。因?yàn)檫@個Bot是根據(jù)你的需求量身定制的，它可以存儲你日常的數(shù)據(jù)庫，你真的可以放心地讓它幫你寫日報(bào)、周報(bào)、簡歷，在寫長文字時，甚至在細(xì)節(jié)上的它表現(xiàn)比你還好。

Bot和Agent有什么區(qū)別?

Bot和Agent并不是兩種路線，一些預(yù)設(shè)簡單的Bot甚至就是Agent的套殼，它們最大的區(qū)別在于確定性更強(qiáng)。

目前，扣子上最受好評的部分是工作流，其生態(tài)玩得非常溜，不久前甚至上線了工作流商店。在開發(fā)者中已經(jīng)有了新的說法——當(dāng)prompt越多Agent越模糊時，workflow（工作流）越細(xì)致Bot越精準(zhǔn)好用。

為了方便普通讀者理解，這里也要對Bot做一個不準(zhǔn)確的解讀——「手搓小程序」。因?yàn)橛脩魧懥薆ot并不是用完就結(jié)束了，而是可以繼續(xù)分發(fā)到微信、飛書、抖音等多個渠道給別人使用，真的和小程序差不多。

為什么說是「手搓」呢?因?yàn)榭圩诱娴陌选感〕绦颉沟木帉戦T檻降低了太多，哪怕是完全不懂編程的小學(xué)生也能像玩拼圖一樣拼出來。

近期，扣子與Intel聯(lián)合推出了主題為Bot征集活動的扣子AI工作坊（Coze AI Factory），涵蓋了圖文創(chuàng)作、實(shí)用工具、互動創(chuàng)意三大賽道。

在抖音快速發(fā)展的過程中，「降低兩個門檻」起到了重要作用，一是降低創(chuàng)作門檻，二是降低分發(fā)門檻。

扣子的發(fā)展也是如此，現(xiàn)在他們把「小程序」的開發(fā)門檻降到如此之低，下一步就是大規(guī)模分發(fā)。

在大模型應(yīng)用的發(fā)展過程中，扣子正在吸引越來越多的普通人進(jìn)入創(chuàng)作領(lǐng)域，讓開發(fā)者生態(tài)變成大眾創(chuàng)新的生態(tài)。

最低門檻的比賽，最能認(rèn)清生態(tài)的時候

在扣子AI工作坊活動開展的同時，扣子模型廣場也正式推出。

什么是扣子模型廣場?

從字面上看，這是一個擁有眾多模型的地方?？圩与m然是字節(jié)跳動的平臺，但并沒有限制Bot只能使用豆包大模型，而是支持Bot接入國內(nèi)眾多主流大語言模型，如通義千問-Max、智譜GLM-4、MiniMax6.5s、Moonshot128k、Baichuan4等。

為什么要這樣做呢?

現(xiàn)在看來，主要原因是扣子希望構(gòu)建的Bot生態(tài)是一個場景豐富的超級生態(tài)，無論是醫(yī)療、金融、汽車、美容、交通等公共領(lǐng)域，還是圍棋、電競、情感、消費(fèi)、營養(yǎng)等個人領(lǐng)域，所有賽道的人都能在上面開發(fā)出符合自己需求的Bot。目前國內(nèi)模型的技術(shù)路線尚未統(tǒng)一，服務(wù)能力也各有優(yōu)劣，扣子必須為開發(fā)者開發(fā)更好的Bot爭取空間。

但在具體開發(fā)過程中，對于到底該選擇哪家模型，開發(fā)者該如何進(jìn)行比較和選擇呢?

對此，扣子在模型廣場提供了模型對戰(zhàn)功能。所謂對戰(zhàn)功能，就是指用戶可以通過與兩個隱藏了模型的Bot實(shí)時對話（注意，這里Bot相同，只是模型不同），然后根據(jù)模型的回答進(jìn)行投票，投票結(jié)束后系統(tǒng)才會揭示具體的模型。

在具體操作過程中，用戶的使用體驗(yàn)大致如下:

模型對戰(zhàn)

在扣子上，這個模型對戰(zhàn)功能還提供了三種模式:

其一，是指定Bot對戰(zhàn)。

用戶可以指定一個Bot進(jìn)行不同模型的對戰(zhàn)，操作非常簡單，這非常適合開發(fā)者測試自己的Bot，最大的好處是可以讓開發(fā)者決定自己的Bot以后調(diào)用誰家的模型。

指定Bot對戰(zhàn)

其二，是隨機(jī)Bot對戰(zhàn)。

過程與前面基本相同，唯一的區(qū)別是用戶不需要指定模型，系統(tǒng)會隨機(jī)分配模型供你對戰(zhàn)使用。這對普通用戶來說非常有價(jià)值，他不僅可以比較模型的能力，還可以感受扣子上許多有趣Bot的能力。

隨機(jī)Bot對戰(zhàn)

其三，是純模型對戰(zhàn)。

這個過程與前面仍然相同，只是用戶不再測試Bot，而是測試評價(jià)模型本身。大模型技術(shù)仍在高速發(fā)展，技術(shù)路線也沒有完全統(tǒng)一，好壞優(yōu)劣一直難以評判，各家都在不斷自稱某項(xiàng)第一。

純模型對戰(zhàn)

前文說大模型Agent輸出結(jié)果是黑盒狀態(tài)，其實(shí)各家大模型能力評測也是黑盒狀態(tài)，開發(fā)者在選擇時非常缺乏測評尺度。因此，Bot的效果好壞很大程度上受到開發(fā)者個人審美偏好的影響。

但是要想讓大模型應(yīng)用生態(tài)繁榮起來，這種黑盒必須變成直觀可見的白盒。

對于開發(fā)者來說，扣子模型廣場的對戰(zhàn)功能無疑是最直觀的比較工具，為他們節(jié)省了不少投入。

在此之前，開發(fā)者在選擇模型時，肯定會進(jìn)行比較和衡量，也少不了找群體做雙盲測試，但這既浪費(fèi)金錢和人力，又麻煩，最關(guān)鍵的是難以控制變量。

各家模型都在不斷變化，每隔一段時間整個賽道都會發(fā)生變化，如果沒有這樣的工具，開發(fā)者將會在評測上浪費(fèi)大量時間，而現(xiàn)在時間恰恰是最寶貴的。

對于大模型廠商來說，如此直接的對比，如此公開的投票，確實(shí)是一種巨大的鞭策。

在過去的一年里，許多大模型廠商都用盡各種話術(shù)來夸耀自己的XXX項(xiàng)第一，以及在哪些測試中獲得了多高的評分。

但隨著大量的模型們開始針對測試題庫進(jìn)行訓(xùn)練優(yōu)化，這種評比早已不客觀。不過，仍有不少模型沉浸在這種虛幻的排名中。

然而，只有通過實(shí)際對比，才能知道誰才是真正的強(qiáng)者。

對于生態(tài)來說，扣子模型廣場提供了一種最低門檻、最低成本的模型PK方式，即使是小朋友也能參與投票，這一下子將整個模型生態(tài)的判斷標(biāo)準(zhǔn)拉到了與大眾標(biāo)準(zhǔn)相同的水平。

當(dāng)開發(fā)者們?yōu)檫x擇大模型而茫然時，大眾的選擇、普通人的感受可以成為大模型優(yōu)劣的最佳標(biāo)尺。

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標(biāo)簽：

上一篇:360新品發(fā)布會“被盜圖人”喊話周鴻祎：要求公開道歉賠償1元RMB

下一篇:最后一頁

猜你喜歡

小米字節(jié)聯(lián)手！小愛同學(xué)接入豆包大模型：手機(jī)、SU7已搭載

奔馳、寶馬、大眾等品牌發(fā)聲：反對歐盟向中國電車加征關(guān)稅

Win11畫圖AI最低要求40 TOPS：還必須登錄微軟帳戶

護(hù)士被患者持刀傷害警方已經(jīng)介入處理此事

韓國沒有了五花肉自由單人份價(jià)格首次超過2萬韓元

衛(wèi)生堪憂！印度貧民窟上百人共用1個廁所容易發(fā)生病毒傳播

銀行取款需派出所同意原來是這樣的

女子炫了一斤楊梅被送進(jìn)ICU 醫(yī)生發(fā)布緊急提醒！

最新文章

國產(chǎn)模型人均「第一」太假？字節(jié)扣子模型廣場競技，全民投票！

喇叭溝門原始森林住宿（喇叭溝門原始森林）

夜店是什么游戲（夜店是什么）

f9公差范圍是多少（f9）

貝多芬的故事簡短（貝多芬的小故事50字）

魔道廣播劇第二季云盤資源（魔道廣播劇第二季網(wǎng)盤）

360新品發(fā)布會“被盜圖人”喊話周鴻祎：要求公開道歉賠償1元RMB

孩子光腳被地面燙到兩輪變四驅(qū)：家人趕來迅速解救

董明珠：優(yōu)秀的企業(yè)要承擔(dān)稅收義務(wù) 希望提高個稅標(biāo)準(zhǔn)拉升幸福感

到底多熱！北方多地午后地表溫度超70℃ 高溫持續(xù)到19日：空氣吸一口都燙肺

農(nóng)村自建房過戶給子女要交稅嗎（農(nóng)村自建房過戶給子女）

6年級方程計(jì)算題100道解答（六年級方程計(jì)算題30道）

e0級環(huán)保板材什么意思（e0）

微星ge60有幾個型號（微星ge60）

用戶名密碼行不通：微軟Outlook徹底棄用密碼驗(yàn)證！

馬斯克500億美元天價(jià)薪酬方案通過：90%的散戶股東大力支持

點(diǎn)擊排行

熱門推薦

<sub id="fmbxu"><tr id="fmbxu"></tr></sub>