清華大學(xué)東門(mén)外不遠(yuǎn)的搜狐網(wǎng)絡(luò)大廈,曾是搜狗的辦公室,在今年大模型創(chuàng)業(yè)熱潮中,王慧文成立的光年之外就在這里辦公;而原搜狗CEO王小川,則將百川智能的創(chuàng)業(yè)地選在了與其一路之隔的賽爾大廈。站在這里,甚至可以看清對(duì)樓窗邊的辦公環(huán)境。
不到一年時(shí)間,大模型創(chuàng)業(yè)已經(jīng)幾近紅海。隔著馬路的另一面,光年之外創(chuàng)始人王慧文因健康問(wèn)題離崗?fù)顺?#xff0c;將創(chuàng)立不到半年的公司賣(mài)給美團(tuán),引起了外界對(duì)于創(chuàng)業(yè)者心理健康的關(guān)注。
8月8日下午,在賽爾大廈17層的一間會(huì)議室里,當(dāng)王小川被問(wèn)及此事以及“大模型創(chuàng)業(yè)壓力大不大”時(shí),他對(duì)第一財(cái)經(jīng)等媒體說(shuō):“我聽(tīng)說(shuō)慧文是特別負(fù)責(zé)任的。他是國(guó)內(nèi)幾個(gè)主流做大模型里唯一一個(gè)沒(méi)有強(qiáng)勢(shì)的技術(shù)背景的,對(duì)他的挑戰(zhàn)比其他家要大。工作中要做大量的技術(shù)決策、招什么人、走什么技術(shù)路線圖、需要多少計(jì)算資源……一定會(huì)面臨非常多的決策壓力?!?/span>
王小川說(shuō),“不是做大模型壓力大,是沒(méi)有技術(shù)背景做決策壓力會(huì)大很多,但是技術(shù)足夠的話(huà),其實(shí)挺愉悅的,我們的進(jìn)度是在一個(gè)快樂(lè)的狀態(tài)?!?/span>
搜索雖晚,但趕上AI好時(shí)候
從今年4月下場(chǎng)殺入大模型到現(xiàn)在,王小川說(shuō),比當(dāng)年搜索引擎時(shí)候的成就感更大。
過(guò)去,搜狗想從搜索轉(zhuǎn)問(wèn)答,搜索輸入法想做續(xù)寫(xiě),盡管當(dāng)時(shí)搜狗已經(jīng)做了百億的參數(shù)模型,把全身武藝都用上了,但始終不能有效地把搜索變成問(wèn)答,實(shí)現(xiàn)不了今天大模型才能達(dá)到的效果。他說(shuō),今天有了大模型的加持,在搜索增強(qiáng)方面將大有可為。
而對(duì)于加入如火如荼的“百模大戰(zhàn)”,他回應(yīng):確實(shí)每個(gè)有技術(shù)理想的企業(yè)都想下場(chǎng)去試一下。
ChatGPT火了,有朋友對(duì)王小川說(shuō),“你特別適合做大模型”,因?yàn)檫@正好需要用到過(guò)去搜索、輸入法等相關(guān)的AI能力。他說(shuō)當(dāng)時(shí)回想了一下,自己干了20年搜索,從來(lái)沒(méi)人說(shuō):“小川,你適合做搜索?!?/span>
當(dāng)年王小川創(chuàng)立搜狗做搜索,比百度晚了四年,因此在行業(yè)里一直處于跟隨的位置,做創(chuàng)新突破特別難,現(xiàn)在趕上了信息時(shí)代走向智能時(shí)代,大家站在同一個(gè)起跑線上,新的機(jī)會(huì)來(lái)了。
王小川說(shuō),其實(shí)自己也有壓力,尤其在一開(kāi)始,要抵制動(dòng)作走形的地方。比如有投資人說(shuō),搜索公司不適合做大模型,因?yàn)楣雀枰矝](méi)干成,做搜索的人可能已經(jīng)“腦子銹了”、思維固化了,再去做大模型可能是個(gè)減分項(xiàng)。還有人認(rèn)為在新公司里有“老搜狗人”的加入,不夠開(kāi)放,建議他要多招90、95后海歸回來(lái)的“小鮮肉”。這些壓力其實(shí)不是來(lái)自?xún)?nèi)生,而是市場(chǎng)審美理念的不同。
他說(shuō),搜索這個(gè)模式存在太久了,以至于大家慢慢忘了搜索本身也是AI,且搜索和輸入法本身就是把語(yǔ)言AI用到極致。百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬對(duì)記者舉例,做大模型的第一個(gè)環(huán)節(jié)是數(shù)據(jù)從哪來(lái),中文互聯(lián)網(wǎng)網(wǎng)頁(yè)中的數(shù)據(jù)高達(dá)萬(wàn)億、百億量級(jí),搜狗此前的數(shù)據(jù)積累,能讓他們知道哪里有好的數(shù)據(jù),并且將這些數(shù)據(jù)進(jìn)行收集、處理、識(shí)別,在這一領(lǐng)域,百川智能目前的團(tuán)隊(duì)有較強(qiáng)的技術(shù)積累和方法論。此外從人才來(lái)看,搜狗原有團(tuán)隊(duì)有著較強(qiáng)的戰(zhàn)斗力,搜狗原COO茹立云、原CMO洪濤相繼加入進(jìn)來(lái),以及有更多年輕人才的加入,形成了目前百川智能的人才梯隊(duì)。
從4月宣布下場(chǎng)做大模型后,百川智能動(dòng)作迅速。6月發(fā)布70億參數(shù)開(kāi)源大模型Baichuan-7B,7月發(fā)布130億參數(shù)開(kāi)源大模型Baichuan-13B。
這兩款大模型引擎,并沒(méi)有立刻商業(yè)化,王小川說(shuō)首先是填補(bǔ)空白,展現(xiàn)自家的技術(shù)實(shí)力,相信伴隨著開(kāi)源后不斷的技術(shù)迭代,商業(yè)模式水到渠成。他透露,目前有150余家企業(yè)申請(qǐng)使用百川智能大模型。
“誰(shuí)是最好的大模型”還沒(méi)結(jié)論
在發(fā)布兩款開(kāi)源大模型后,今日王小川發(fā)布了百川智能新模型Baichuan-53B,不同的是,這一次是參數(shù)規(guī)模更大(530億)的閉源大模型。
在王小川的電腦頁(yè)面上,向百川大模型提問(wèn)的對(duì)話(huà)一幕幕閃過(guò),比如“以古龍的風(fēng)格寫(xiě)個(gè)朋友圈”、“羅剎海市的歌詞是什么”、“300P算力相當(dāng)于多少?gòu)圓100”、“講講卡夫卡的名作《城堡》”等等。他說(shuō),這次大模型的文科能力更好,比如在理解古詩(shī)、生成有個(gè)性化風(fēng)格的文章等方面。
目前的大模型有以O(shè)penAI GPT-4為代表的閉源大模型和以Meta Llma2為代表的開(kāi)源大模型兩股力量。后者正在快速地拉攏“朋友圈”,對(duì)前者形成有力沖擊。
談到最近熱議的開(kāi)源與閉源之爭(zhēng)時(shí),王小川說(shuō),開(kāi)源確實(shí)容易“建立人品”,“朋友多多的”,讓大家迅速了解和評(píng)測(cè);同時(shí)開(kāi)源也是為商業(yè)化做準(zhǔn)備,如果大家用起來(lái)覺(jué)得不錯(cuò),當(dāng)需要更好的服務(wù)和更大的參數(shù)時(shí),可以探索進(jìn)一步的商業(yè)化路徑。
但是他認(rèn)為,開(kāi)源和閉源并不像手機(jī)中iOS或者安卓操作系統(tǒng)只能二選一,從tob角度,開(kāi)源閉源其實(shí)都需要。他預(yù)計(jì)未來(lái)80%的企業(yè)會(huì)用到開(kāi)源的大模型,因?yàn)殚]源沒(méi)有辦法對(duì)產(chǎn)品做更好的適配,或者成本特別高,閉源可以給剩下的 20%提供服務(wù)。二者不是競(jìng)爭(zhēng)關(guān)系,而是在不同產(chǎn)品中互補(bǔ)的關(guān)系。
王小川還提到,在6月發(fā)布第二款大模型后第二天就飛去硅谷。第一個(gè)收獲是對(duì)齊認(rèn)知,交流技術(shù)思路,到底走開(kāi)源還是閉源……第二個(gè)收獲是美國(guó)做技術(shù)很牛,但是應(yīng)用能力可能有短板。
他說(shuō),在硅谷和 OpenAI 交流時(shí),他們講理想時(shí)滿(mǎn)眼放光,走得非常遠(yuǎn),比如他們現(xiàn)在做 GPT-4 需要 2 萬(wàn)多張卡做計(jì)算,國(guó)內(nèi)都沒(méi)見(jiàn)過(guò)這么大的規(guī)模。對(duì)方還很自豪地說(shuō)正在設(shè)計(jì)把 1000 萬(wàn)顆 GPU 連在一塊做計(jì)算模型?!耙烙ミ_(dá)一年才生產(chǎn)100萬(wàn)顆?!倍谠趺慈プ鰬?yīng)用、做產(chǎn)品上,這可能是OpenAI的短板。
這讓王小川意識(shí)到,光跟著OpenAI走是不夠的,理想上確實(shí)拼不過(guò),但是在落地上,更有底氣了。他說(shuō)在去硅谷之前自己認(rèn)為,是“在理想上比OpenAI慢半步,在落地上比OpenAI快半步”。從硅谷回來(lái)之后改成了:“在理想上比OpenAI一半步,在落地上快三步?!?/span>
而在對(duì)比中美大模型時(shí),王小川還提到,美國(guó)閉源大模型的頭部格局幾乎已經(jīng)定,比如OpenAI、Anthropic的Claude,Google也拿到門(mén)票,已經(jīng)沒(méi)有太多懸念,投資人也不會(huì)再投。
但中國(guó)的情況不一樣,面對(duì)轟轟烈烈的“百模大戰(zhàn)”,王小川認(rèn)為,錢(qián)是重要的是,最終決定的力量還是人和團(tuán)隊(duì)、組織能力。大廠錢(qián)多、人多、算力多,但組織效率通常不一定夠好,創(chuàng)業(yè)公司的組織效率可能好、也可能不好?!爸袊?guó)誰(shuí)做了最好的大模型,還沒(méi)有結(jié)論,大家都在爭(zhēng)取機(jī)會(huì),而且不一定落在大廠里?!?/span>
相關(guān)稿件