您現(xiàn)在的位置是:首頁 >每日動態(tài) > 2024-06-13 14:15:06 來源:
國產(chǎn)模型人均「第一」太假?字節(jié)扣子模型廣場競技,全民投票!
【新智元導(dǎo)讀】每家國產(chǎn)大模型都說自己是第一,該信誰的?最近,字節(jié)推出了扣子模型廣場,全體國產(chǎn)LLM開啟大混戰(zhàn)!你一票,我一票,誰是第一,大眾說了算。投票連小朋友都能參與,模型生態(tài)從此徹底從黑盒到白盒。
只有打開黑盒,大模型應(yīng)用生態(tài)才能從玄學(xué)變科學(xué)。
從厲害到能用,關(guān)鍵一步是確定性
在過去的半年里,筆者在北京拜訪了一百多位人工智能應(yīng)用開發(fā)者,其中最年長的是80多歲的張老。
張老是一位中美混血的華僑,在人工智能這個詞誕生的第一屆達(dá)特茅斯會議召開時,他已經(jīng)成年,并且從事著與編碼相關(guān)的工作,甚至還在卡片上打孔進(jìn)行過編程,后來又在IBM從事研發(fā)工作。
可以說,張老一生都是人工智能的忠實(shí)擁躉。在這一輪大模型爆發(fā)的時候,他表現(xiàn)得非常激動,盡管已經(jīng)退休很多年,但仍然充滿熱情地在扣子上開發(fā)Bot,之前不僅使用過GPTs,還對工作流了如指掌。
張老在談?wù)摤F(xiàn)在大模型的發(fā)展時,一方面給予了高度贊揚(yáng),另一方面也表達(dá)了擔(dān)憂。
他告訴筆者:「別看輿論上很熱鬧,似乎一下子出現(xiàn)了很多發(fā)明,但實(shí)際上真正能被使用的東西很少。」他認(rèn)為,真正的新發(fā)明必須能夠提供新的服務(wù),并舉例將大模型與計(jì)算機(jī)的發(fā)展進(jìn)行了類比。
在他年輕的時候,IBM和惠普等公司生產(chǎn)的產(chǎn)品只能說是接近計(jì)算機(jī)的計(jì)算器。而當(dāng)時,一位名叫王安的華人制造出了現(xiàn)代意義上的第一臺移動電腦Wang2200。
Wang2200不僅與IBM、惠普的機(jī)器一樣支持Basic語言和磁芯存儲(順便說一句,磁芯存儲也是王安發(fā)明的),而且在計(jì)算功能之外還能進(jìn)行數(shù)據(jù)處理和文字處理,甚至還配備了CRT顯示器,運(yùn)行著他自己發(fā)明的文字處理系統(tǒng)WPS。
他本人也因此入選美國發(fā)明家名人堂,與特斯拉、愛迪生等人齊名。在這臺移動電腦發(fā)布兩年多后,微軟和蘋果才相繼成立,并且深受其影響。
然而,Wang2200的發(fā)明雖然具有進(jìn)步意義,但也存在嚴(yán)重的缺陷:
其一,它的穩(wěn)定性較差,由于設(shè)計(jì)過于超前,其性能甚至不如當(dāng)時的計(jì)算器;
其二,它是一個黑盒子,雖然機(jī)器本身很好,但與主流的IBM路線不兼容。
工程師們不愿意使用這種結(jié)果不確定的機(jī)器。因此,盡管IBM落后一年才推出5100,但卻獲得了市場的普遍認(rèn)可,被認(rèn)為是PC機(jī)的開端。
在張老看來,不穩(wěn)定和黑盒子這兩個問題,也是大模型生態(tài)發(fā)展面臨的兩大挑戰(zhàn)。
筆者非常認(rèn)同他的觀點(diǎn),并且在后來對應(yīng)用創(chuàng)業(yè)者的拜訪中,更加深刻地驗(yàn)證了這一點(diǎn)。
大模型生態(tài)的兩大挑戰(zhàn)首先,大模型生態(tài)的發(fā)展過于超前,一誕生就被說得無所不能,但產(chǎn)出結(jié)果的穩(wěn)定性仍然存在問題。
包括OpenAI在內(nèi)的各家模型都存在幻覺問題,許多微調(diào)垂類微調(diào)模型在實(shí)際應(yīng)用中的表現(xiàn)甚至不如知識圖譜。
這一點(diǎn)在各家SaaS廠商接入大模型時表現(xiàn)得尤為明顯。有多少SaaS接入大模型后發(fā)現(xiàn)實(shí)際效果并不理想,下面的人面對不穩(wěn)定的結(jié)果,根本不敢依賴它來產(chǎn)生結(jié)果。
網(wǎng)上常說的AI寫簡歷、寫日報(bào)、寫周報(bào),在現(xiàn)實(shí)中有幾個人真的敢依靠AI來寫呢?輸入信息給AI的時間早就足夠自己寫完報(bào)告了。
其次,黑盒子問題更加嚴(yán)重。
一位應(yīng)用創(chuàng)業(yè)者曾經(jīng)告訴筆者,如果他描述的問題在大模型中沒有得到很好的解決,他的下意識動作就是把問題需求描述得更加詳細(xì)。但事實(shí)上,他寫的prompt(提示)越多,得到的結(jié)果只會越混亂。
在現(xiàn)實(shí)中,大多數(shù)對話式大模型產(chǎn)品都需要非常好的prompt工程能力才能使用,而且prompt過程本身就非常復(fù)雜。這與使用AI來降低成本、提高效率的初衷背道而馳。
一位在中關(guān)村從事AI資源管理系統(tǒng)的創(chuàng)業(yè)者對筆者說,他在調(diào)用大模型API時,最關(guān)心的就是能否給用戶一個穩(wěn)定的結(jié)果。他現(xiàn)在拓展新客戶非常困難,只有一些小公司愿意免費(fèi)嘗試,因?yàn)榇罂蛻舳己軗?dān)心模型給出的數(shù)據(jù)不準(zhǔn)確,在關(guān)鍵時刻還得重新編寫。
另一位從事AI運(yùn)營系統(tǒng)的創(chuàng)業(yè)者則更加苦惱,因?yàn)樗峁┙o付費(fèi)客戶的小紅書文案有時好有時壞,總是出現(xiàn)幻覺表述,他們的創(chuàng)業(yè)團(tuán)隊(duì)為了挽回客戶,經(jīng)常要手動幫客戶改稿到半夜。
在B端市場,有趣并不重要,有用才是關(guān)鍵。如何提高輸出質(zhì)量的確定性,對于創(chuàng)業(yè)者和開發(fā)者來說具有極其重要的價(jià)值。
手搓Bot,扣子AI工作坊可能會讓大家看到更多真實(shí)場景
大眾市場不在乎你是否是人工智能,也不在乎你是否是高科技產(chǎn)品,他們只關(guān)心你能否解決他們的生活和工作問題。
因此,大模型生態(tài)要想被市場廣泛接受,就必須做到兩件事:一是極大地降低使用門檻,二是極大地提高確定性。
只有做到這兩點(diǎn),大模型生態(tài)才能真正融入大眾的工作和生活。
在上述兩件事中,第一件事,即降低使用門檻,目前各家大模型廠商都已經(jīng)意識到了,并且主流的解決辦法是采用Agent路線。
這里的Agent需要解釋一下,目前百度的詞條翻譯是通用人工智能,這過于科幻,與當(dāng)前的現(xiàn)狀不符。
網(wǎng)上還有另一個被廣泛使用的說法是「智能體」,這個說法雖然正確且理想,但筆者覺得不夠形象,圈內(nèi)人想吐槽它叫「智障體」,圈外讀者甚至不知道它是什么意思。聽說有Saas廠商將其翻譯成「AI員工」,只能說他們想多了。
這里想說一個不太準(zhǔn)確但肯定能讓大家一眼就明白的詞——「人設(shè)」。無論以后基礎(chǔ)模型如何發(fā)展,Agent目前的狀態(tài)就是這樣。
舉個例子,筆者曾經(jīng)按照prompt教程,設(shè)計(jì)了一個哈佛大學(xué)教授的Agent來協(xié)助日常工作。然而,它除了能用哈佛精英的口吻與我說話之外,其他事情都做不好,文章等等也寫得很糟糕。
這樣說大家應(yīng)該能理解「人設(shè)」和「智能體」的區(qū)別了吧。而且與上文一致,你寫的prompt越詳細(xì),Agent就越模糊,輸出的結(jié)果也就越混亂。
那么有沒有解決辦法呢?目前,在國內(nèi)平臺中,筆者只看到扣子注意到了第二件事——極大地提高確定性。
扣子智能體開發(fā)平臺
扣子現(xiàn)在給自己的定位是新一代一站式AI Bot開發(fā)平臺,由此可以看出他們對Bot的重視程度。
為了方便大家區(qū)分Agent和Bot,這里還是要做一下翻譯,網(wǎng)絡(luò)直翻是「機(jī)器人」。
這里可能還是不好理解,舉一個實(shí)際運(yùn)行的例子——根據(jù)抖音熱點(diǎn)內(nèi)容創(chuàng)作微信公眾號文章。
如果我們給創(chuàng)作大師Agent寫prompt,可能會這樣寫:「你是一個熱文創(chuàng)作大師。請根據(jù)今天的抖音熱點(diǎn)內(nèi)容XXX,寫一篇微信公眾號文章?!?/p>
如果在扣子平臺使用Bot來做這件事,我們輸入的提示詞可能是一樣的,但它可以進(jìn)行更復(fù)雜的任務(wù)執(zhí)行,包括檢索、提綱、修改、查詢數(shù)據(jù)庫、核定、提升文學(xué)性等預(yù)動作,然后再輸出給你。而且,這些預(yù)設(shè)的工作流、技能、插件、數(shù)據(jù)庫、長期記憶都是你可以設(shè)計(jì)的。
不出意外的話,后者輸出的文字會比前者好很多。因?yàn)檫@個Bot是根據(jù)你的需求量身定制的,它可以存儲你日常的數(shù)據(jù)庫,你真的可以放心地讓它幫你寫日報(bào)、周報(bào)、簡歷,在寫長文字時,甚至在細(xì)節(jié)上的它表現(xiàn)比你還好。
Bot和Agent有什么區(qū)別?Bot和Agent并不是兩種路線,一些預(yù)設(shè)簡單的Bot甚至就是Agent的套殼,它們最大的區(qū)別在于確定性更強(qiáng)。
目前,扣子上最受好評的部分是工作流,其生態(tài)玩得非常溜,不久前甚至上線了工作流商店。在開發(fā)者中已經(jīng)有了新的說法——當(dāng)prompt越多Agent越模糊時,workflow(工作流)越細(xì)致Bot越精準(zhǔn)好用。
為了方便普通讀者理解,這里也要對Bot做一個不準(zhǔn)確的解讀——「手搓小程序」。因?yàn)橛脩魧懥薆ot并不是用完就結(jié)束了,而是可以繼續(xù)分發(fā)到微信、飛書、抖音等多個渠道給別人使用,真的和小程序差不多。
為什么說是「手搓」呢?因?yàn)榭圩诱娴陌选感〕绦颉沟木帉戦T檻降低了太多,哪怕是完全不懂編程的小學(xué)生也能像玩拼圖一樣拼出來。
近期,扣子與Intel聯(lián)合推出了主題為Bot征集活動的扣子AI工作坊(Coze AI Factory),涵蓋了圖文創(chuàng)作、實(shí)用工具、互動創(chuàng)意三大賽道。
在抖音快速發(fā)展的過程中,「降低兩個門檻」起到了重要作用,一是降低創(chuàng)作門檻,二是降低分發(fā)門檻。
扣子的發(fā)展也是如此,現(xiàn)在他們把「小程序」的開發(fā)門檻降到如此之低,下一步就是大規(guī)模分發(fā)。
在大模型應(yīng)用的發(fā)展過程中,扣子正在吸引越來越多的普通人進(jìn)入創(chuàng)作領(lǐng)域,讓開發(fā)者生態(tài)變成大眾創(chuàng)新的生態(tài)。
最低門檻的比賽,最能認(rèn)清生態(tài)的時候
在扣子AI工作坊活動開展的同時,扣子模型廣場也正式推出。
什么是扣子模型廣場?
從字面上看,這是一個擁有眾多模型的地方??圩与m然是字節(jié)跳動的平臺,但并沒有限制Bot只能使用豆包大模型,而是支持Bot接入國內(nèi)眾多主流大語言模型,如通義千問-Max、智譜GLM-4、MiniMax6.5s、Moonshot128k、Baichuan4等。
為什么要這樣做呢?
現(xiàn)在看來,主要原因是扣子希望構(gòu)建的Bot生態(tài)是一個場景豐富的超級生態(tài),無論是醫(yī)療、金融、汽車、美容、交通等公共領(lǐng)域,還是圍棋、電競、情感、消費(fèi)、營養(yǎng)等個人領(lǐng)域,所有賽道的人都能在上面開發(fā)出符合自己需求的Bot。目前國內(nèi)模型的技術(shù)路線尚未統(tǒng)一,服務(wù)能力也各有優(yōu)劣,扣子必須為開發(fā)者開發(fā)更好的Bot爭取空間。
但在具體開發(fā)過程中,對于到底該選擇哪家模型,開發(fā)者該如何進(jìn)行比較和選擇呢?
對此,扣子在模型廣場提供了模型對戰(zhàn)功能。所謂對戰(zhàn)功能,就是指用戶可以通過與兩個隱藏了模型的Bot實(shí)時對話(注意,這里Bot相同,只是模型不同),然后根據(jù)模型的回答進(jìn)行投票,投票結(jié)束后系統(tǒng)才會揭示具體的模型。
在具體操作過程中,用戶的使用體驗(yàn)大致如下:
模型對戰(zhàn)在扣子上,這個模型對戰(zhàn)功能還提供了三種模式:
其一,是指定Bot對戰(zhàn)。
用戶可以指定一個Bot進(jìn)行不同模型的對戰(zhàn),操作非常簡單,這非常適合開發(fā)者測試自己的Bot,最大的好處是可以讓開發(fā)者決定自己的Bot以后調(diào)用誰家的模型。
指定Bot對戰(zhàn)
其二,是隨機(jī)Bot對戰(zhàn)。
過程與前面基本相同,唯一的區(qū)別是用戶不需要指定模型,系統(tǒng)會隨機(jī)分配模型供你對戰(zhàn)使用。這對普通用戶來說非常有價(jià)值,他不僅可以比較模型的能力,還可以感受扣子上許多有趣Bot的能力。
隨機(jī)Bot對戰(zhàn)
其三,是純模型對戰(zhàn)。
這個過程與前面仍然相同,只是用戶不再測試Bot,而是測試評價(jià)模型本身。大模型技術(shù)仍在高速發(fā)展,技術(shù)路線也沒有完全統(tǒng)一,好壞優(yōu)劣一直難以評判,各家都在不斷自稱某項(xiàng)第一。
純模型對戰(zhàn)
前文說大模型Agent輸出結(jié)果是黑盒狀態(tài),其實(shí)各家大模型能力評測也是黑盒狀態(tài),開發(fā)者在選擇時非常缺乏測評尺度。因此,Bot的效果好壞很大程度上受到開發(fā)者個人審美偏好的影響。
但是要想讓大模型應(yīng)用生態(tài)繁榮起來,這種黑盒必須變成直觀可見的白盒。
對于開發(fā)者來說,扣子模型廣場的對戰(zhàn)功能無疑是最直觀的比較工具,為他們節(jié)省了不少投入。
在此之前,開發(fā)者在選擇模型時,肯定會進(jìn)行比較和衡量,也少不了找群體做雙盲測試,但這既浪費(fèi)金錢和人力,又麻煩,最關(guān)鍵的是難以控制變量。
各家模型都在不斷變化,每隔一段時間整個賽道都會發(fā)生變化,如果沒有這樣的工具,開發(fā)者將會在評測上浪費(fèi)大量時間,而現(xiàn)在時間恰恰是最寶貴的。
對于大模型廠商來說,如此直接的對比,如此公開的投票,確實(shí)是一種巨大的鞭策。
在過去的一年里,許多大模型廠商都用盡各種話術(shù)來夸耀自己的XXX項(xiàng)第一,以及在哪些測試中獲得了多高的評分。
但隨著大量的模型們開始針對測試題庫進(jìn)行訓(xùn)練優(yōu)化,這種評比早已不客觀。不過,仍有不少模型沉浸在這種虛幻的排名中。
然而,只有通過實(shí)際對比,才能知道誰才是真正的強(qiáng)者。
對于生態(tài)來說,扣子模型廣場提供了一種最低門檻、最低成本的模型PK方式,即使是小朋友也能參與投票,這一下子將整個模型生態(tài)的判斷標(biāo)準(zhǔn)拉到了與大眾標(biāo)準(zhǔn)相同的水平。
當(dāng)開發(fā)者們?yōu)檫x擇大模型而茫然時,大眾的選擇、普通人的感受可以成為大模型優(yōu)劣的最佳標(biāo)尺。