日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >每日動態(tài) > 2024-06-13 14:15:06 來源:

        國產(chǎn)模型人均「第一」太假?字節(jié)扣子模型廣場競技,全民投票!

        導(dǎo)讀 【新智元導(dǎo)讀】每家國產(chǎn)大模型都說自己是第一,該信誰的?最近,字節(jié)推出了扣子模型廣場,全體國產(chǎn)LLM開啟大混戰(zhàn)!你一票,我一票,誰是第一...

        【新智元導(dǎo)讀】每家國產(chǎn)大模型都說自己是第一,該信誰的?最近,字節(jié)推出了扣子模型廣場,全體國產(chǎn)LLM開啟大混戰(zhàn)!你一票,我一票,誰是第一,大眾說了算。投票連小朋友都能參與,模型生態(tài)從此徹底從黑盒到白盒。

        只有打開黑盒,大模型應(yīng)用生態(tài)才能從玄學(xué)變科學(xué)。

        從厲害到能用,關(guān)鍵一步是確定性

        在過去的半年里,筆者在北京拜訪了一百多位人工智能應(yīng)用開發(fā)者,其中最年長的是80多歲的張老。

        張老是一位中美混血的華僑,在人工智能這個詞誕生的第一屆達(dá)特茅斯會議召開時,他已經(jīng)成年,并且從事著與編碼相關(guān)的工作,甚至還在卡片上打孔進(jìn)行過編程,后來又在IBM從事研發(fā)工作。

        可以說,張老一生都是人工智能的忠實(shí)擁躉。在這一輪大模型爆發(fā)的時候,他表現(xiàn)得非常激動,盡管已經(jīng)退休很多年,但仍然充滿熱情地在扣子上開發(fā)Bot,之前不僅使用過GPTs,還對工作流了如指掌。

        張老在談?wù)摤F(xiàn)在大模型的發(fā)展時,一方面給予了高度贊揚(yáng),另一方面也表達(dá)了擔(dān)憂。

        他告訴筆者:「別看輿論上很熱鬧,似乎一下子出現(xiàn)了很多發(fā)明,但實(shí)際上真正能被使用的東西很少。」他認(rèn)為,真正的新發(fā)明必須能夠提供新的服務(wù),并舉例將大模型與計(jì)算機(jī)的發(fā)展進(jìn)行了類比。

        在他年輕的時候,IBM和惠普等公司生產(chǎn)的產(chǎn)品只能說是接近計(jì)算機(jī)的計(jì)算器。而當(dāng)時,一位名叫王安的華人制造出了現(xiàn)代意義上的第一臺移動電腦Wang2200。

        Wang2200不僅與IBM、惠普的機(jī)器一樣支持Basic語言和磁芯存儲(順便說一句,磁芯存儲也是王安發(fā)明的),而且在計(jì)算功能之外還能進(jìn)行數(shù)據(jù)處理和文字處理,甚至還配備了CRT顯示器,運(yùn)行著他自己發(fā)明的文字處理系統(tǒng)WPS。

        他本人也因此入選美國發(fā)明家名人堂,與特斯拉、愛迪生等人齊名。在這臺移動電腦發(fā)布兩年多后,微軟和蘋果才相繼成立,并且深受其影響。

        然而,Wang2200的發(fā)明雖然具有進(jìn)步意義,但也存在嚴(yán)重的缺陷:

        其一,它的穩(wěn)定性較差,由于設(shè)計(jì)過于超前,其性能甚至不如當(dāng)時的計(jì)算器;

        其二,它是一個黑盒子,雖然機(jī)器本身很好,但與主流的IBM路線不兼容。

        工程師們不愿意使用這種結(jié)果不確定的機(jī)器。因此,盡管IBM落后一年才推出5100,但卻獲得了市場的普遍認(rèn)可,被認(rèn)為是PC機(jī)的開端。

        在張老看來,不穩(wěn)定和黑盒子這兩個問題,也是大模型生態(tài)發(fā)展面臨的兩大挑戰(zhàn)。

        筆者非常認(rèn)同他的觀點(diǎn),并且在后來對應(yīng)用創(chuàng)業(yè)者的拜訪中,更加深刻地驗(yàn)證了這一點(diǎn)。

        大模型生態(tài)的兩大挑戰(zhàn)

        首先,大模型生態(tài)的發(fā)展過于超前,一誕生就被說得無所不能,但產(chǎn)出結(jié)果的穩(wěn)定性仍然存在問題。

        包括OpenAI在內(nèi)的各家模型都存在幻覺問題,許多微調(diào)垂類微調(diào)模型在實(shí)際應(yīng)用中的表現(xiàn)甚至不如知識圖譜。

        這一點(diǎn)在各家SaaS廠商接入大模型時表現(xiàn)得尤為明顯。有多少SaaS接入大模型后發(fā)現(xiàn)實(shí)際效果并不理想,下面的人面對不穩(wěn)定的結(jié)果,根本不敢依賴它來產(chǎn)生結(jié)果。

        網(wǎng)上常說的AI寫簡歷、寫日報(bào)、寫周報(bào),在現(xiàn)實(shí)中有幾個人真的敢依靠AI來寫呢?輸入信息給AI的時間早就足夠自己寫完報(bào)告了。

        其次,黑盒子問題更加嚴(yán)重。

        一位應(yīng)用創(chuàng)業(yè)者曾經(jīng)告訴筆者,如果他描述的問題在大模型中沒有得到很好的解決,他的下意識動作就是把問題需求描述得更加詳細(xì)。但事實(shí)上,他寫的prompt(提示)越多,得到的結(jié)果只會越混亂。

        在現(xiàn)實(shí)中,大多數(shù)對話式大模型產(chǎn)品都需要非常好的prompt工程能力才能使用,而且prompt過程本身就非常復(fù)雜。這與使用AI來降低成本、提高效率的初衷背道而馳。

        一位在中關(guān)村從事AI資源管理系統(tǒng)的創(chuàng)業(yè)者對筆者說,他在調(diào)用大模型API時,最關(guān)心的就是能否給用戶一個穩(wěn)定的結(jié)果。他現(xiàn)在拓展新客戶非常困難,只有一些小公司愿意免費(fèi)嘗試,因?yàn)榇罂蛻舳己軗?dān)心模型給出的數(shù)據(jù)不準(zhǔn)確,在關(guān)鍵時刻還得重新編寫。

        另一位從事AI運(yùn)營系統(tǒng)的創(chuàng)業(yè)者則更加苦惱,因?yàn)樗峁┙o付費(fèi)客戶的小紅書文案有時好有時壞,總是出現(xiàn)幻覺表述,他們的創(chuàng)業(yè)團(tuán)隊(duì)為了挽回客戶,經(jīng)常要手動幫客戶改稿到半夜。

        在B端市場,有趣并不重要,有用才是關(guān)鍵。如何提高輸出質(zhì)量的確定性,對于創(chuàng)業(yè)者和開發(fā)者來說具有極其重要的價(jià)值。

        手搓Bot,扣子AI工作坊可能會讓大家看到更多真實(shí)場景

        大眾市場不在乎你是否是人工智能,也不在乎你是否是高科技產(chǎn)品,他們只關(guān)心你能否解決他們的生活和工作問題。

        因此,大模型生態(tài)要想被市場廣泛接受,就必須做到兩件事:一是極大地降低使用門檻,二是極大地提高確定性。

        只有做到這兩點(diǎn),大模型生態(tài)才能真正融入大眾的工作和生活。

        在上述兩件事中,第一件事,即降低使用門檻,目前各家大模型廠商都已經(jīng)意識到了,并且主流的解決辦法是采用Agent路線。

        這里的Agent需要解釋一下,目前百度的詞條翻譯是通用人工智能,這過于科幻,與當(dāng)前的現(xiàn)狀不符。

        網(wǎng)上還有另一個被廣泛使用的說法是「智能體」,這個說法雖然正確且理想,但筆者覺得不夠形象,圈內(nèi)人想吐槽它叫「智障體」,圈外讀者甚至不知道它是什么意思。聽說有Saas廠商將其翻譯成「AI員工」,只能說他們想多了。

        這里想說一個不太準(zhǔn)確但肯定能讓大家一眼就明白的詞——「人設(shè)」。無論以后基礎(chǔ)模型如何發(fā)展,Agent目前的狀態(tài)就是這樣。

        舉個例子,筆者曾經(jīng)按照prompt教程,設(shè)計(jì)了一個哈佛大學(xué)教授的Agent來協(xié)助日常工作。然而,它除了能用哈佛精英的口吻與我說話之外,其他事情都做不好,文章等等也寫得很糟糕。

        這樣說大家應(yīng)該能理解「人設(shè)」和「智能體」的區(qū)別了吧。而且與上文一致,你寫的prompt越詳細(xì),Agent就越模糊,輸出的結(jié)果也就越混亂。

        那么有沒有解決辦法呢?目前,在國內(nèi)平臺中,筆者只看到扣子注意到了第二件事——極大地提高確定性。

        扣子智能體開發(fā)平臺

        扣子現(xiàn)在給自己的定位是新一代一站式AI Bot開發(fā)平臺,由此可以看出他們對Bot的重視程度。

        為了方便大家區(qū)分Agent和Bot,這里還是要做一下翻譯,網(wǎng)絡(luò)直翻是「機(jī)器人」。

        這里可能還是不好理解,舉一個實(shí)際運(yùn)行的例子——根據(jù)抖音熱點(diǎn)內(nèi)容創(chuàng)作微信公眾號文章。

        如果我們給創(chuàng)作大師Agent寫prompt,可能會這樣寫:「你是一個熱文創(chuàng)作大師。請根據(jù)今天的抖音熱點(diǎn)內(nèi)容XXX,寫一篇微信公眾號文章?!?/p>

        如果在扣子平臺使用Bot來做這件事,我們輸入的提示詞可能是一樣的,但它可以進(jìn)行更復(fù)雜的任務(wù)執(zhí)行,包括檢索、提綱、修改、查詢數(shù)據(jù)庫、核定、提升文學(xué)性等預(yù)動作,然后再輸出給你。而且,這些預(yù)設(shè)的工作流、技能、插件、數(shù)據(jù)庫、長期記憶都是你可以設(shè)計(jì)的。

        不出意外的話,后者輸出的文字會比前者好很多。因?yàn)檫@個Bot是根據(jù)你的需求量身定制的,它可以存儲你日常的數(shù)據(jù)庫,你真的可以放心地讓它幫你寫日報(bào)、周報(bào)、簡歷,在寫長文字時,甚至在細(xì)節(jié)上的它表現(xiàn)比你還好。

        Bot和Agent有什么區(qū)別?

        Bot和Agent并不是兩種路線,一些預(yù)設(shè)簡單的Bot甚至就是Agent的套殼,它們最大的區(qū)別在于確定性更強(qiáng)。

        目前,扣子上最受好評的部分是工作流,其生態(tài)玩得非常溜,不久前甚至上線了工作流商店。在開發(fā)者中已經(jīng)有了新的說法——當(dāng)prompt越多Agent越模糊時,workflow(工作流)越細(xì)致Bot越精準(zhǔn)好用。

        為了方便普通讀者理解,這里也要對Bot做一個不準(zhǔn)確的解讀——「手搓小程序」。因?yàn)橛脩魧懥薆ot并不是用完就結(jié)束了,而是可以繼續(xù)分發(fā)到微信、飛書、抖音等多個渠道給別人使用,真的和小程序差不多。

        為什么說是「手搓」呢?因?yàn)榭圩诱娴陌选感〕绦颉沟木帉戦T檻降低了太多,哪怕是完全不懂編程的小學(xué)生也能像玩拼圖一樣拼出來。

        近期,扣子與Intel聯(lián)合推出了主題為Bot征集活動的扣子AI工作坊(Coze AI Factory),涵蓋了圖文創(chuàng)作、實(shí)用工具、互動創(chuàng)意三大賽道。

        在抖音快速發(fā)展的過程中,「降低兩個門檻」起到了重要作用,一是降低創(chuàng)作門檻,二是降低分發(fā)門檻。

        扣子的發(fā)展也是如此,現(xiàn)在他們把「小程序」的開發(fā)門檻降到如此之低,下一步就是大規(guī)模分發(fā)。

        在大模型應(yīng)用的發(fā)展過程中,扣子正在吸引越來越多的普通人進(jìn)入創(chuàng)作領(lǐng)域,讓開發(fā)者生態(tài)變成大眾創(chuàng)新的生態(tài)。

        最低門檻的比賽,最能認(rèn)清生態(tài)的時候

        在扣子AI工作坊活動開展的同時,扣子模型廣場也正式推出。

        什么是扣子模型廣場?

        從字面上看,這是一個擁有眾多模型的地方??圩与m然是字節(jié)跳動的平臺,但并沒有限制Bot只能使用豆包大模型,而是支持Bot接入國內(nèi)眾多主流大語言模型,如通義千問-Max、智譜GLM-4、MiniMax6.5s、Moonshot128k、Baichuan4等。

        為什么要這樣做呢?

        現(xiàn)在看來,主要原因是扣子希望構(gòu)建的Bot生態(tài)是一個場景豐富的超級生態(tài),無論是醫(yī)療、金融、汽車、美容、交通等公共領(lǐng)域,還是圍棋、電競、情感、消費(fèi)、營養(yǎng)等個人領(lǐng)域,所有賽道的人都能在上面開發(fā)出符合自己需求的Bot。目前國內(nèi)模型的技術(shù)路線尚未統(tǒng)一,服務(wù)能力也各有優(yōu)劣,扣子必須為開發(fā)者開發(fā)更好的Bot爭取空間。

        但在具體開發(fā)過程中,對于到底該選擇哪家模型,開發(fā)者該如何進(jìn)行比較和選擇呢?

        對此,扣子在模型廣場提供了模型對戰(zhàn)功能。所謂對戰(zhàn)功能,就是指用戶可以通過與兩個隱藏了模型的Bot實(shí)時對話(注意,這里Bot相同,只是模型不同),然后根據(jù)模型的回答進(jìn)行投票,投票結(jié)束后系統(tǒng)才會揭示具體的模型。

        在具體操作過程中,用戶的使用體驗(yàn)大致如下:

        模型對戰(zhàn)

        在扣子上,這個模型對戰(zhàn)功能還提供了三種模式:

        其一,是指定Bot對戰(zhàn)。

        用戶可以指定一個Bot進(jìn)行不同模型的對戰(zhàn),操作非常簡單,這非常適合開發(fā)者測試自己的Bot,最大的好處是可以讓開發(fā)者決定自己的Bot以后調(diào)用誰家的模型。

        指定Bot對戰(zhàn)

        其二,是隨機(jī)Bot對戰(zhàn)。

        過程與前面基本相同,唯一的區(qū)別是用戶不需要指定模型,系統(tǒng)會隨機(jī)分配模型供你對戰(zhàn)使用。這對普通用戶來說非常有價(jià)值,他不僅可以比較模型的能力,還可以感受扣子上許多有趣Bot的能力。

        隨機(jī)Bot對戰(zhàn)

        其三,是純模型對戰(zhàn)。

        這個過程與前面仍然相同,只是用戶不再測試Bot,而是測試評價(jià)模型本身。大模型技術(shù)仍在高速發(fā)展,技術(shù)路線也沒有完全統(tǒng)一,好壞優(yōu)劣一直難以評判,各家都在不斷自稱某項(xiàng)第一。

        純模型對戰(zhàn)

        前文說大模型Agent輸出結(jié)果是黑盒狀態(tài),其實(shí)各家大模型能力評測也是黑盒狀態(tài),開發(fā)者在選擇時非常缺乏測評尺度。因此,Bot的效果好壞很大程度上受到開發(fā)者個人審美偏好的影響。

        但是要想讓大模型應(yīng)用生態(tài)繁榮起來,這種黑盒必須變成直觀可見的白盒。

        對于開發(fā)者來說,扣子模型廣場的對戰(zhàn)功能無疑是最直觀的比較工具,為他們節(jié)省了不少投入。

        在此之前,開發(fā)者在選擇模型時,肯定會進(jìn)行比較和衡量,也少不了找群體做雙盲測試,但這既浪費(fèi)金錢和人力,又麻煩,最關(guān)鍵的是難以控制變量。

        各家模型都在不斷變化,每隔一段時間整個賽道都會發(fā)生變化,如果沒有這樣的工具,開發(fā)者將會在評測上浪費(fèi)大量時間,而現(xiàn)在時間恰恰是最寶貴的。

        對于大模型廠商來說,如此直接的對比,如此公開的投票,確實(shí)是一種巨大的鞭策。

        在過去的一年里,許多大模型廠商都用盡各種話術(shù)來夸耀自己的XXX項(xiàng)第一,以及在哪些測試中獲得了多高的評分。

        但隨著大量的模型們開始針對測試題庫進(jìn)行訓(xùn)練優(yōu)化,這種評比早已不客觀。不過,仍有不少模型沉浸在這種虛幻的排名中。

        然而,只有通過實(shí)際對比,才能知道誰才是真正的強(qiáng)者。

        對于生態(tài)來說,扣子模型廣場提供了一種最低門檻、最低成本的模型PK方式,即使是小朋友也能參與投票,這一下子將整個模型生態(tài)的判斷標(biāo)準(zhǔn)拉到了與大眾標(biāo)準(zhǔn)相同的水平。

        當(dāng)開發(fā)者們?yōu)檫x擇大模型而茫然時,大眾的選擇、普通人的感受可以成為大模型優(yōu)劣的最佳標(biāo)尺。