在追求構(gòu)建更強大AI的道路上,各大公司如OpenAI和Google突然遭遇了一個未曾預(yù)料的挑戰(zhàn)——互聯(lián)網(wǎng)似乎變得「太小」了。這背後,是因為這些公司開發(fā)的AI系統(tǒng)日益強大,對資訊的渴求也愈發(fā)旺盛。然而,隨著數(shù)據(jù)所有者開始限制AI公司對其數(shù)據(jù)的訪問,互聯(lián)網(wǎng)上的優(yōu)質(zhì)公共數(shù)據(jù)池變得愈發(fā)稀缺。
華爾街日報近日撰文表示,一些企業(yè)高管和研究人員憂心忡忡地表示,高質(zhì)量文本數(shù)據(jù)的需求可能在兩年內(nèi)超過供應(yīng)量,這無疑會拖慢AI發(fā)展的步伐。面對這一困境,AI公司們開始四處尋找尚未開發(fā)的資訊源,並重新考慮如何更有效地訓(xùn)練這些系統(tǒng)。據(jù)知情人士透露,OpenAI——這位ChatGPT的締造者,甚至已經(jīng)考慮將YouTube視頻中的對話內(nèi)容轉(zhuǎn)化為文本,用以此為基礎(chǔ)訓(xùn)練其下一代模型GPT-5。
然而,一些公司試圖通過使用AI生成的數(shù)據(jù)(也稱合成數(shù)據(jù))作為訓(xùn)練材料來解決問題。但多位研究人員表示,這種方法可能帶來嚴(yán)重的故障和不確定性。這些嘗試大多在秘密中進行,因為企業(yè)高管認(rèn)為,誰先找到解決方案,誰就可能獲得競爭優(yōu)勢。
AI研究員Ari Morcos直言不諱地指出,數(shù)據(jù)短缺已成為一個亟待解決的前沿性研究問題。而數(shù)據(jù)短缺只是AI發(fā)展面臨的眾多挑戰(zhàn)之一。大型語言模型,如ChatGPT、Google的Gemini等背後運行的大型語言模型所需的晶片也很稀缺。此外,行業(yè)領(lǐng)導(dǎo)者還擔(dān)憂數(shù)據(jù)中心及其所需電力的不足。
AI語言模型主要依賴從互聯(lián)網(wǎng)上獲取的文本進行訓(xùn)練,這些文本包括科學(xué)研究、新聞報道和維基百科(Wikipedia)條目等。這些材料被分解為詞元(token),即模型學(xué)習(xí)構(gòu)建類似人類表達的單詞和部分單詞。通常,AI模型訓(xùn)練的數(shù)據(jù)越多,其能力就越強。OpenAI就是憑藉這種策略,成為了全球知名的AI公司。
儘管OpenAI沒有透露其目前最先進的語言模型GPT-4的詳細訓(xùn)練材料,但據(jù)估計,GPT-4的訓(xùn)練素材已經(jīng)多達12兆個詞元。研究人員預(yù)測,按照當(dāng)前的增長軌跡,像GPT-5這樣的AI系統(tǒng)將需要60兆到100兆個詞元的數(shù)據(jù)。然而,即使利用所有可用的高質(zhì)量語言和圖像數(shù)據(jù),仍可能存在至少10兆到20兆個詞元的缺口,如何彌補這一缺口仍是未知數(shù)。
值得注意的是,網(wǎng)上大部分?jǐn)?shù)據(jù)對AI訓(xùn)練並無實際用處,因為它們可能存在句子殘缺、無法增進模型知識等問題。業(yè)內(nèi)人士估計,互聯(lián)網(wǎng)上的數(shù)據(jù)只有一小部分對AI訓(xùn)練有用,甚至可能僅為非營利組織Common Crawl收集資訊的十分之一。
與此同時,社交媒體平臺、新聞出版商等出於公平補償?shù)瓤剂?,開始限制AI公司對其數(shù)據(jù)的訪問。公眾對於交出私人對話數(shù)據(jù)(如通過iMessage進行聊天)以幫助訓(xùn)練AI模型也持謹(jǐn)慎態(tài)度。儘管如此,Meta Platforms的朱克伯格(Mark Zuckerberg)仍強調(diào)自家平臺在數(shù)據(jù)獲取上的優(yōu)勢,認(rèn)為這將是其AI業(yè)務(wù)發(fā)展的一大助力。然而,這些數(shù)據(jù)中究竟有多少能被視為高質(zhì)量數(shù)據(jù),目前仍是一個未知數(shù)。
目前,包括OpenAI的合作夥伴微軟(Microsoft)在內(nèi)的一些科技公司,正致力於開發(fā)規(guī)模遠小於GPT-4,但專注於實現(xiàn)特定目標(biāo)的小型語言模型。
OpenAI的行政總裁阿爾特曼(Sam Altman)已透露,該公司正在研究訓(xùn)練未來模型的新方法。據(jù)知情人士透露,OpenAI還討論過建立一個數(shù)據(jù)市場,在這個市場中,OpenAI能夠制定一種機制來評估每個數(shù)據(jù)點對最終訓(xùn)練模型的貢獻程度,並向數(shù)據(jù)提供者支付報酬。
Google內(nèi)部也在探討類似的思路。然而,迄今為止,研究人員在構(gòu)建這樣的系統(tǒng)時仍面臨諸多挑戰(zhàn),尚未找到有效的突破口。
同時,OpenAI還在努力搜集可用的信息。知情人士稱,公司高層已探討利用自動語音識別工具Whisper在互聯(lián)網(wǎng)上轉(zhuǎn)錄高質(zhì)量視頻和音頻素材的可能性。其中一些將通過公開的YouTube影片來實現(xiàn),這些影片中的一部分已經(jīng)被用來訓(xùn)練GPT-4。
OpenAI的一位發(fā)言人表示:「我們的數(shù)據(jù)集是獨一無二的,經(jīng)過精心整理,以幫助我們的模型更好地領(lǐng)悟世界?!顾€說,OpenAI的工具會從公開可用的內(nèi)容中提取信息,並通過合作夥伴關(guān)係獲取非公開數(shù)據(jù)。
另外,一些公司也在嘗試自行製作數(shù)據(jù)。然而,輸入本身由AI生成的模型文本,被認(rèn)為是近親繁殖的計算機科學(xué)版本。此類模型往往會出現(xiàn)胡編亂造的現(xiàn)象,一些研究人員稱之為「模型崩潰」。
許多研究數(shù)據(jù)問題的專家對最終找到解決方案持樂觀態(tài)度。有專家將其比作「石油峰值」的概念,即曾有人擔(dān)心石油生產(chǎn)可能會達到頂峰,從而引發(fā)經(jīng)濟崩潰。然而,隨著新技術(shù)的出現(xiàn),如本世紀(jì)初的壓裂技術(shù),這種擔(dān)憂最終被證明是不準(zhǔn)確的。專家認(rèn)為,AI領(lǐng)域也可能出現(xiàn)類似的發(fā)展,其最大的不確定性在於,人類不知道將會出現(xiàn)怎樣的技術(shù)突破。(香港商報網(wǎng)綜合 記者徐樂釗)
頂圖來源:路透社