Galaxy Research:Decentralization人工智能訓(xùn)練架構(gòu)、機(jī)遇與挑戰(zhàn)
作者:LucasTcheyan、ArjunYenamandra,來源:GalaxyResearch,編譯:金色財(cái)經(jīng)簡(jiǎn)介
去年,GalaxyResearch發(fā)表了首篇關(guān)于Crypto與人工智能交叉領(lǐng)域的文章。文章探討了Crypto無需信任和無需許可的基礎(chǔ)設(shè)施如何成為人工智能創(chuàng)新的基礎(chǔ)。其中包括:為應(yīng)對(duì)圖形處理器(GPU)短缺而興起的處理能力(或稱計(jì)算)去中心化市場(chǎng)的出現(xiàn);零知識(shí)機(jī)器學(xué)習(xí)(zkML)早期在可驗(yàn)證的鏈上推理方面的應(yīng)用;以及自主人工智能代理簡(jiǎn)化復(fù)雜交互并使用Crypto作為原生交換媒介的潛力。
當(dāng)時(shí),許多此類舉措尚處于萌芽階段,只是一些引人注目的概念驗(yàn)證,暗示著其相比中心化方案具有實(shí)際優(yōu)勢(shì),但規(guī)模尚未擴(kuò)大到足以重塑人工智能格局。然而,自那以后的一年里,去中心化人工智能在實(shí)現(xiàn)方面取得了有意義的進(jìn)展。為了抓住這一勢(shì)頭并發(fā)掘最具前景的進(jìn)展,GalaxyResearch將在未來一年發(fā)布一系列文章,深入探討加密+人工智能前沿領(lǐng)域的特定垂直領(lǐng)域。
本文首發(fā)于去中心化訓(xùn)練,重點(diǎn)介紹致力于在全球范圍內(nèi)實(shí)現(xiàn)基礎(chǔ)模型無許可訓(xùn)練的項(xiàng)目。這些項(xiàng)目的動(dòng)機(jī)是雙重的。從實(shí)踐角度來看,他們認(rèn)識(shí)到全球大量閑置的GPU可以用于模型訓(xùn)練,從而為世界各地的AI工程師提供原本難以承受的訓(xùn)練流程,并使開源AI開發(fā)成為現(xiàn)實(shí)。從理念角度來看,這些團(tuán)隊(duì)的動(dòng)機(jī)在于領(lǐng)先的中心化AI實(shí)驗(yàn)室對(duì)我們這個(gè)時(shí)代最重要的技術(shù)革命之一的嚴(yán)格控制,以及創(chuàng)造開放替代方案的迫切需求。
更廣泛地講,對(duì)于加密領(lǐng)域而言,實(shí)現(xiàn)基礎(chǔ)模型的去中心化訓(xùn)練和后續(xù)訓(xùn)練,是構(gòu)建完全鏈上AI堆棧的關(guān)鍵一步,該堆棧無需許可,且在每一層均可訪問。GPU市場(chǎng)可以接入模型,提供訓(xùn)練和推理所需的硬件。zkML提供商可用于驗(yàn)證模型輸出并保護(hù)隱私。AI代理可以作為可組合的構(gòu)建塊,將模型、數(shù)據(jù)源和協(xié)議組合成更高階的應(yīng)用程序。
本報(bào)告探討了去中心化人工智能協(xié)議的底層架構(gòu)、其旨在解決的技術(shù)問題以及去中心化訓(xùn)練的前景。Crypto與人工智能的底層前提與一年前相比保持不變。Crypto為人工智能提供了一個(gè)無需許可、無需信任且可組合的價(jià)值轉(zhuǎn)移結(jié)算層。現(xiàn)在的挑戰(zhàn)是證明去中心化方法能夠比中心化方法帶來實(shí)際優(yōu)勢(shì)。 模型訓(xùn)練基礎(chǔ)
在深入了解去中心化訓(xùn)練的最新進(jìn)展之前,有必要先對(duì)大型語言模型(LLM)及其底層架構(gòu)有一個(gè)基本的了解。這將有助于讀者理解這些項(xiàng)目的工作原理,以及它們?cè)噲D解決的主要問題。 Transformer
大型語言模型(LLM)(例如ChatGPT)由一種稱為Transformer的架構(gòu)提供支持。Transformer最早在2017年谷歌的一篇論文中提出,是人工智能開發(fā)領(lǐng)域最重要的創(chuàng)新之一。簡(jiǎn)而言之,Transformer會(huì)提取數(shù)據(jù)(稱為token),并應(yīng)用各種機(jī)制來學(xué)習(xí)這些token之間的關(guān)系。
詞條之間的關(guān)系使用權(quán)重進(jìn)行建模。權(quán)重可以被認(rèn)為是構(gòu)成模型的數(shù)百萬到數(shù)萬億個(gè)旋鈕,它們不斷被調(diào)整,直到能夠一致地預(yù)測(cè)序列中的下一個(gè)詞條。訓(xùn)練完成后,模型基本上可以捕捉人類語言背后的模式和含義。
Transformer訓(xùn)練的關(guān)鍵組成部分包括:
前向傳遞:在訓(xùn)練過程的第一步,Transformer會(huì)從更大的數(shù)據(jù)集中輸入一批token。基于這些輸入,模型會(huì)嘗試預(yù)測(cè)下一個(gè)token應(yīng)該是什么。在訓(xùn)練開始時(shí),模型的權(quán)重是隨機(jī)的。
損失計(jì)算:前向傳播預(yù)測(cè)隨后會(huì)用于計(jì)算損失分?jǐn)?shù),該分?jǐn)?shù)衡量這些預(yù)測(cè)與輸入模型的原始數(shù)據(jù)批次中實(shí)際標(biāo)記的差距。換句話說,模型在前向傳播過程中產(chǎn)生的預(yù)測(cè)與用于訓(xùn)練它的更大數(shù)據(jù)集中的實(shí)際標(biāo)記相比如何?在訓(xùn)練過程中,目標(biāo)是降低這個(gè)損失分?jǐn)?shù),以提高模型的準(zhǔn)確性。
反向傳播:然后使用損失分?jǐn)?shù)計(jì)算每個(gè)權(quán)重的梯度。這些梯度告訴模型如何在下一次前向傳播之前調(diào)整權(quán)重以減少損失。
Optimizer更新:Optimizer算法讀取這些梯度并調(diào)整每個(gè)權(quán)重以減少損失。
重復(fù):重復(fù)上述步驟,直到所有數(shù)據(jù)都已消耗并且模型開始達(dá)到收斂-換句話說,當(dāng)進(jìn)一步的優(yōu)化不再產(chǎn)生顯著的損失減少或性能改進(jìn)時(shí)。 訓(xùn)練(預(yù)訓(xùn)練和后訓(xùn)練)
完整的模型訓(xùn)練過程包含兩個(gè)獨(dú)立的步驟:預(yù)訓(xùn)練和后訓(xùn)練。上述步驟是預(yù)訓(xùn)練過程的核心組成部分。完成后,它們會(huì)生成一個(gè)預(yù)先訓(xùn)練的基礎(chǔ)模型,通常稱為基礎(chǔ)模型。
然而,模型在預(yù)訓(xùn)練后通常需要進(jìn)一步改進(jìn),這被稱為后訓(xùn)練。后訓(xùn)練用于以各種方式進(jìn)一步改進(jìn)基礎(chǔ)模型,包括提高其準(zhǔn)確性或針對(duì)特定用例(例如翻譯或醫(yī)學(xué)診斷)進(jìn)行定制。
后訓(xùn)練是讓大型語言模型(LLM)成為如今強(qiáng)大工具的關(guān)鍵一步。后訓(xùn)練有幾種不同的方法。其中最流行的兩種是:
監(jiān)督微調(diào)(SFT): SFT與上述預(yù)訓(xùn)練過程非常相似。主要區(qū)別在于,基礎(chǔ)模型基于更精心策劃的數(shù)據(jù)集或提示和答案進(jìn)行訓(xùn)練,因此它可以學(xué)習(xí)遵循特定指令或?qū)W⒂谀硞(gè)領(lǐng)域。
強(qiáng)化學(xué)習(xí)(RL): RL并非通過輸入新數(shù)據(jù)來改進(jìn)模型,而是通過對(duì)模型的輸出進(jìn)行獎(jiǎng)勵(lì)評(píng)分,并讓模型更新權(quán)重以最大化該獎(jiǎng)勵(lì)。最近,推理模型(下文將介紹)已使用RL來改進(jìn)其輸出。近年來,隨著預(yù)訓(xùn)練擴(kuò)展問題不斷涌現(xiàn),在訓(xùn)練后使用RL和推理模型取得了重大進(jìn)展,因?yàn)樗鼰o需額外數(shù)據(jù)或大量計(jì)算即可顯著提升模型性能。
具體來說,RL后訓(xùn)練非常適合解決分散訓(xùn)練中面臨的障礙(如下所述)。這是因?yàn)樵赗L中大多數(shù)時(shí)間,模型使用前向傳遞(模型進(jìn)行預(yù)測(cè)但尚未改變自身)生成大量輸出。這些前向傳遞不需要機(jī)器之間的協(xié)調(diào)或通信,并且可以異步完成。它們也是可并行的,這意味著它們可以分解為可在多個(gè)GPU上同時(shí)執(zhí)行的獨(dú)立子任務(wù)。這是因?yàn)槊總(gè)rollout都可以獨(dú)立計(jì)算,只需添加計(jì)算即可通過訓(xùn)練運(yùn)行來擴(kuò)大吞吐量。只有在選出最佳答案后,模型才會(huì)更新其內(nèi)部權(quán)重,從而降低機(jī)器需要同步的頻率。
模型訓(xùn)練完成后,使用它來生成輸出的過程稱為推理。與需要調(diào)整數(shù)百萬甚至數(shù)十億個(gè)權(quán)重的訓(xùn)練不同,推理會(huì)保持這些權(quán)重不變,并簡(jiǎn)單地將它們應(yīng)用于新的輸入。對(duì)于大型語言模型(LLM)來說,推理意味著獲取一個(gè)提示,將其運(yùn)行到模型的各個(gè)層,并一步一步地預(yù)測(cè)最可能的下一個(gè)標(biāo)記。由于推理不需要反向傳播(根據(jù)模型的誤差調(diào)整權(quán)重的過程)或權(quán)重更新,因此它在計(jì)算方面的要求遠(yuǎn)低于訓(xùn)練,但由于現(xiàn)代模型的規(guī)模龐大,它仍然是資源密集型的。
簡(jiǎn)而言之:推理是聊天機(jī)器人、代碼助手和翻譯工具等應(yīng)用程序的驅(qū)動(dòng)力。在這個(gè)階段,模型將其“學(xué)到的知識(shí)”付諸實(shí)踐。 訓(xùn)練開銷
促進(jìn)上述訓(xùn)練過程需要資源密集型,并且需要高度專業(yè)化的軟件和硬件才能大規(guī)模運(yùn)行。世界領(lǐng)先的人工智能實(shí)驗(yàn)室的投入已達(dá)到前所未有的水平,從數(shù)億美元到數(shù)十億美元不等。OpenAI首席執(zhí)行官SamAltman表示,GPT-4的訓(xùn)練成本超過1億美元,而Anthropic首席執(zhí)行官DarioAmodei則表示,超過10億美元的訓(xùn)練項(xiàng)目已在進(jìn)行中。
這些成本的很大一部分來自GPU。像NVIDIA的H100或B200這樣的頂級(jí)GPU,單價(jià)高達(dá)3萬美元,據(jù)報(bào)道,OpenAI計(jì)劃到2025年底部署超過一百萬個(gè)GPU。然而,僅有GPU的強(qiáng)大功能是不夠的。這些系統(tǒng)必須部署在配備超高速通信基礎(chǔ)設(shè)施的高性能數(shù)據(jù)中心。NVIDIANVLink等技術(shù)支持服務(wù)器內(nèi)GPU之間的快速數(shù)據(jù)交換,而InfiniBand則連接服務(wù)器集群,使它們能夠作為單一、統(tǒng)一的計(jì)算結(jié)構(gòu)運(yùn)行。
背景
NousResearch成立于2022年,是一家開源AI研究機(jī)構(gòu)。該團(tuán)隊(duì)最初是一個(gè)由開源AI研究人員和開發(fā)者組成的非正式團(tuán)體,致力于解決開源AI代碼的局限性。其使命是“創(chuàng)造并提供最佳的開源模型”。
團(tuán)隊(duì)很早就將去中心化訓(xùn)練視為主要障礙。具體來說,他們意識(shí)到,GPU的訪問以及協(xié)調(diào)GPU之間通信的工具主要是為了迎合大型中心化AI公司而開發(fā)的,這使得資源受限的組織幾乎沒有空間參與到有意義的開發(fā)中。例如,NVIDIA最新的BlackwellGPU(例如B200)可以使用NVLink交換系統(tǒng)以高達(dá)每秒1.8TB的速度相互通信。這可與主流互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的總帶寬相媲美,并且只有在中心化、數(shù)據(jù)中心規(guī)模的部署中才能實(shí)現(xiàn)。因此,小型或分布式網(wǎng)絡(luò)幾乎不可能在不重新思考通信策略的情況下達(dá)到大型AI實(shí)驗(yàn)室的性能。
在著手解決去中心化訓(xùn)練問題之前,Nous已經(jīng)為人工智能領(lǐng)域做出了重大貢獻(xiàn)。2023年8月,Nous發(fā)表了《YaRN:大型語言模型的高效上下文窗口擴(kuò)展》。這篇論文解決了一個(gè)簡(jiǎn)單但重要的問題:大多數(shù)人工智能模型一次只能記住和處理固定數(shù)量的文本(即它們的“上下文窗口”)。例如,一個(gè)以2,000字為限制進(jìn)行訓(xùn)練的模型,如果輸入的文檔更長,很快就會(huì)開始忘記或丟失信息。YaRN引入了一種進(jìn)一步擴(kuò)展此限制的方法,而無需從頭開始重新訓(xùn)練模型。它調(diào)整了模型跟蹤單詞位置的方式(就像書中的書簽一樣),這樣即使文本長達(dá)數(shù)萬字,它仍然可以跟蹤信息流。該方法允許模型處理最多128,000個(gè)標(biāo)記的序列——大約相當(dāng)于馬克·吐溫的《哈克貝利·費(fèi)恩歷險(xiǎn)記》的長度——同時(shí)使用的計(jì)算能力和訓(xùn)練數(shù)據(jù)比舊方法少得多。簡(jiǎn)而言之,YaRN使AI模型能夠一次性“閱讀”并理解更長的文檔、對(duì)話或數(shù)據(jù)集。這是AI能力擴(kuò)展的一大進(jìn)步,并已被包括OpenAI和中國的Deepseek在內(nèi)的更廣泛的研究社區(qū)所采用。
DeMo和DisTro
2024年3月,Nous發(fā)表了一項(xiàng)分布式訓(xùn)練領(lǐng)域的突破性成果,名為“DecoupledMomentumOptimization”(DeMo)。DeMo由Nous研究人員BowenPeng和JeffreyQuesnelle與DiederikP.Kingma(OpenAI聯(lián)合創(chuàng)始人兼AdamW優(yōu)化器發(fā)明者)合作開發(fā)。它是Nous去中心化訓(xùn)練棧的主要構(gòu)建模塊,通過減少GPU之間交換的數(shù)據(jù)量,降低了分布式數(shù)據(jù)并行模型訓(xùn)練設(shè)置中的通信開銷。在數(shù)據(jù)并行訓(xùn)練中,每個(gè)節(jié)點(diǎn)都保存模型權(quán)重的完整副本,但數(shù)據(jù)集會(huì)被拆分成由不同節(jié)點(diǎn)處理的塊。
AdamW是模型訓(xùn)練中最常用的優(yōu)化器之一。AdamW的一個(gè)關(guān)鍵功能是平滑所謂的動(dòng)量(momentum),即模型權(quán)重過去變化的運(yùn)行平均值。本質(zhì)上,AdamW有助于消除數(shù)據(jù)并行訓(xùn)練過程中引入的噪聲,從而提高訓(xùn)練效率。NousResearch基于AdamW和DeMo創(chuàng)建了一個(gè)全新的優(yōu)化器,將動(dòng)量拆分為本地部分和跨不同訓(xùn)練器的共享部分。這通過限制節(jié)點(diǎn)之間必須共享的數(shù)據(jù)量,減少了節(jié)點(diǎn)之間所需的通信量。
DeMO選擇性地關(guān)注每個(gè)GPU迭代過程中變化最快的參數(shù)。其邏輯很簡(jiǎn)單:變化較大的參數(shù)對(duì)學(xué)習(xí)至關(guān)重要,應(yīng)該在優(yōu)先級(jí)更高的工作器之間同步。同時(shí),變化較慢的參數(shù)可以暫時(shí)滯后,而不會(huì)顯著影響收斂。實(shí)際上,這可以過濾掉噪聲更新,同時(shí)保留最有意義的更新。Nous還采用了壓縮技術(shù),包括一種類似于JPEG壓縮圖像的離散余弦變換(DCT)方法,以進(jìn)一步減少發(fā)送的數(shù)據(jù)量。通過僅同步最重要的更新,DeMO將通信開銷降低了10倍到1,000倍(具體取決于模型大小)。
2024年6月,Nous團(tuán)隊(duì)推出了他們的第二項(xiàng)重大創(chuàng)新,即DistributedTrainingOptimizer(DisTro)。DeMo提供了核心的優(yōu)化器創(chuàng)新,而DisTro則將其整合到一個(gè)更廣泛的優(yōu)化器框架中,該框架進(jìn)一步壓縮了GPU之間共享的信息,并解決了GPU同步、容錯(cuò)和負(fù)載平衡等問題。2024年12月,Nous利用DisTro在類似LlaMA的架構(gòu)上訓(xùn)練了一個(gè)包含150億個(gè)參數(shù)的模型,證明了該方法的可行性。
Psyche
今年五月,Nous發(fā)布了Psyche,這是一個(gè)用于協(xié)調(diào)去中心化訓(xùn)練的框架,在DeMO和DisTro優(yōu)化器架構(gòu)上進(jìn)行了進(jìn)一步的創(chuàng)新。Psyche的主要技術(shù)升級(jí)包括:通過允許GPU在開始下一步訓(xùn)練時(shí)發(fā)送模型更新,改進(jìn)了異步訓(xùn)練。這最大限度地減少了空閑時(shí)間,并使GPU的利用率更接近集中式、緊密耦合的系統(tǒng)。Psyche還進(jìn)一步改進(jìn)了DisTro引入的壓縮技術(shù),將通信負(fù)載進(jìn)一步縮小了3倍。
Psyche可以通過完全鏈上(通過Solana)或鏈下設(shè)置實(shí)現(xiàn)。它包含三個(gè)主要參與者:協(xié)調(diào)器、客戶端和數(shù)據(jù)提供者。協(xié)調(diào)器存儲(chǔ)所有必要的信息以促進(jìn)訓(xùn)練運(yùn)行,包括模型的最新狀態(tài)、參與的客戶端以及數(shù)據(jù)分配和輸出驗(yàn)證。客戶端是實(shí)際的GPU提供者,在訓(xùn)練運(yùn)行期間執(zhí)行訓(xùn)練任務(wù)。除了模型訓(xùn)練之外,它們還參與見證過程(如下所述)。數(shù)據(jù)提供者(客戶端可以自行存儲(chǔ))提供訓(xùn)練所需的數(shù)據(jù)。
2025年5月,NousResearch啟動(dòng)了迄今為止規(guī)模最大的訓(xùn)練運(yùn)行:Consilience,這是一個(gè)擁有400億個(gè)參數(shù)的Transformer,正在Psyche去中心化訓(xùn)練網(wǎng)絡(luò)中對(duì)約20萬億個(gè)token進(jìn)行預(yù)訓(xùn)練。訓(xùn)練仍在進(jìn)行中。到目前為止,運(yùn)行基本平穩(wěn),但出現(xiàn)了一些損失峰值,表明優(yōu)化軌跡短暫偏離了收斂。為此,團(tuán)隊(duì)回滾到最后一個(gè)健康檢查點(diǎn),并使用OLMo的Skip-Step保護(hù)措施對(duì)優(yōu)化器進(jìn)行封裝,該保護(hù)措施會(huì)自動(dòng)跳過任何損失或梯度范數(shù)與均值相差幾個(gè)標(biāo)準(zhǔn)差的更新,從而降低未來出現(xiàn)損失峰值的風(fēng)險(xiǎn)。
Solana的角色
雖然Psyche可以在鏈下環(huán)境中運(yùn)行,但它旨在在SolanaBlockchain上使用。Solana充當(dāng)訓(xùn)練網(wǎng)絡(luò)的信任和問責(zé)層,在鏈上記錄客戶承諾、見證人證明和訓(xùn)練元數(shù)據(jù)。這為每一輪訓(xùn)練創(chuàng)建了不可篡改的審計(jì)跟蹤,從而能夠透明地驗(yàn)證誰做出了貢獻(xiàn)、完成了哪些工作以及是否通過了驗(yàn)證。
Nous還計(jì)劃使用Solana來促進(jìn)訓(xùn)練獎(jiǎng)勵(lì)的分配。盡管該項(xiàng)目尚未發(fā)布正式的Tokens經(jīng)濟(jì)學(xué),但Psyche的文檔概述了一個(gè)系統(tǒng),其中協(xié)調(diào)員將跟蹤客戶的計(jì)算貢獻(xiàn)并根據(jù)已驗(yàn)證的工作分配積分。然后,這些積分可以通過充當(dāng)鏈上托管的財(cái)務(wù)智能合約兌換成Tokens。完成有效訓(xùn)練步驟的客戶可以根據(jù)其貢獻(xiàn)直接從該合約中領(lǐng)取獎(jiǎng)勵(lì)。Psyche尚未在訓(xùn)練運(yùn)行中使用獎(jiǎng)勵(lì)機(jī)制,但一旦正式啟動(dòng),該系統(tǒng)預(yù)計(jì)將在Nous加密Tokens的分配中發(fā)揮核心作用。
Hermes模型系列
除了這些研究貢獻(xiàn)外,Nous還憑借其Hermes系列指令調(diào)優(yōu)的大型語言模型(LLM),確立了其領(lǐng)先的開源模型開發(fā)者地位。2024年8月,該團(tuán)隊(duì)推出了Hermes-3,這是一套基于Llama3.1進(jìn)行微調(diào)的全參數(shù)模型套件,在公開排行榜上取得了頗具競(jìng)爭(zhēng)力的成績(jī),盡管規(guī)模相對(duì)較小,卻足以與規(guī)模更大的專有模型相媲美。
最近,Nous在2025年8月發(fā)布了Hermes-4模型系列,這是迄今為止最先進(jìn)的模型系列。Hermes-4專注于提升模型的逐步推理能力,同時(shí)在常規(guī)指令執(zhí)行方面也表現(xiàn)出色。它在數(shù)學(xué)、編程、理解和常識(shí)測(cè)試中均表現(xiàn)出色。團(tuán)隊(duì)秉承Nous的開源使命,公開發(fā)布了所有Hermes-4模型權(quán)重,供所有人使用和構(gòu)建。此外,Nous還發(fā)布了一個(gè)名為NousChat的模型無障礙界面,并在發(fā)布后的第一周內(nèi)免費(fèi)開放。
Hermes模型的發(fā)布不僅鞏固了Nous作為模型構(gòu)建組織的信譽(yù),也為其更廣泛的研究議程提供了實(shí)踐驗(yàn)證。Hermes的每一次發(fā)布都證明了尖端能力可以在開放環(huán)境中實(shí)現(xiàn),為團(tuán)隊(duì)的去中心化訓(xùn)練突破(DeMo、DisTrO和Psyche)奠定了基礎(chǔ),并最終促成了雄心勃勃的Consilience40B運(yùn)行。
Atropos
如上所述,由于推理模型的進(jìn)步以及預(yù)訓(xùn)練的擴(kuò)展限制,強(qiáng)化學(xué)習(xí)在后訓(xùn)練中發(fā)揮著越來越重要的作用。Atropos是Nous在去中心化環(huán)境下針對(duì)強(qiáng)化學(xué)習(xí)的解決方案。它是一個(gè)適用于LLM的即插即用模塊化強(qiáng)化學(xué)習(xí)框架,可適應(yīng)不同的推理后端、訓(xùn)練方法、數(shù)據(jù)集和強(qiáng)化學(xué)習(xí)環(huán)境。
當(dāng)使用大量GPU以去中心化的方式進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練時(shí),模型在訓(xùn)練過程中生成的即時(shí)輸出將具有不同的完成時(shí)間。Atropos充當(dāng)一個(gè)rollout處理器,即一個(gè)中央?yún)f(xié)調(diào)器,用于協(xié)調(diào)跨設(shè)備的任務(wù)生成和完成,從而實(shí)現(xiàn)異步強(qiáng)化學(xué)習(xí)訓(xùn)練。
Atropos的初始版本于4月發(fā)布,但目前僅包含一個(gè)協(xié)調(diào)強(qiáng)化學(xué)習(xí)任務(wù)的環(huán)境框架。Nous計(jì)劃在未來幾個(gè)月內(nèi)發(fā)布補(bǔ)充的訓(xùn)練和推理框架。 PrimeIntellect
背景
PrimeIntellect成立于2024年,致力于構(gòu)建大規(guī)模去中心化AI開發(fā)基礎(chǔ)設(shè)施。該團(tuán)隊(duì)由VincentWeisser和JohannesHagemann共同創(chuàng)立,最初專注于整合來自中心化和去中心化提供商的計(jì)算資源,以支持高級(jí)AI模型的協(xié)作式分布式訓(xùn)練。PrimeIntellect的使命是實(shí)現(xiàn)AI開發(fā)的民主化,使全球的研究人員和開發(fā)者能夠訪問可擴(kuò)展的計(jì)算資源,并共同擁有開放式AI創(chuàng)新。
OpenDiLoCo、INTELLECT-1和PRIME
2024年7月,PrimeIntellect發(fā)布了OpenDiLoCo,這是谷歌DeepMind為數(shù)據(jù)并行訓(xùn)練開發(fā)的低通信模型訓(xùn)練方法DiLoCo的開源版本。谷歌基于以下觀點(diǎn)開發(fā)了該模型:“在現(xiàn)代規(guī)模下,通過標(biāo)準(zhǔn)反向傳播進(jìn)行訓(xùn)練帶來了前所未有的工程和基礎(chǔ)設(shè)施挑戰(zhàn)……難以協(xié)調(diào)和緊密同步大量加速器。”雖然這種說法側(cè)重于大規(guī)模訓(xùn)練的實(shí)用性,而非開源開發(fā)的精神,但它默認(rèn)了長期集中式訓(xùn)練的局限性以及對(duì)分布式替代方案的需求。
DiLoCo減少了GPU之間在訓(xùn)練模型時(shí)共享信息的頻率和數(shù)量。在集中式設(shè)置下,GPU會(huì)在訓(xùn)練的每個(gè)步驟后彼此共享所有更新后的梯度。而在DiLoCo中,更新梯度的共享頻率較低,以減少通信開銷。這創(chuàng)建了一個(gè)雙重優(yōu)化架構(gòu):各個(gè)GPU(或GPU集群)運(yùn)行內(nèi)部?jī)?yōu)化,在每一步后更新自身模型的權(quán)重;以及外部?jī)?yōu)化,內(nèi)部?jī)?yōu)化在GPU之間共享,然后所有GPU都會(huì)根據(jù)所做的更改進(jìn)行更新。
OpenDiLoCo在其初始版本中展示了90%至95%的GPU利用率,這意味著盡管分布在兩大洲和三個(gè)國家,但幾乎沒有任何機(jī)器處于閑置狀態(tài)。OpenDiLoCo能夠重現(xiàn)相當(dāng)?shù)挠?xùn)練結(jié)果和性能,而通信量卻減少了500倍(如下圖紫色線追趕藍(lán)色線所示)。
訓(xùn)練步驟中的活躍訓(xùn)練節(jié)點(diǎn),展示了訓(xùn)練架構(gòu)處理動(dòng)態(tài)節(jié)點(diǎn)參與的能力
INTELLECT-1是對(duì)PrimeIntellect去中心化訓(xùn)練方法的重要驗(yàn)證,并獲得了杰克·克拉克(Anthropic聯(lián)合創(chuàng)始人)等人工智能思想領(lǐng)袖的稱贊,被認(rèn)為是去中心化訓(xùn)練的可行示范。
Protocol
今年2月,PrimeIntellect在其堆棧上又增添了一層,推出了Protocol。Protocol將PrimeIntellect的所有訓(xùn)練工具連接在一起,創(chuàng)建一個(gè)用于去中心化模型訓(xùn)練的點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)。其中包括:
計(jì)算交換GPU以促進(jìn)訓(xùn)練運(yùn)行。
PRIME訓(xùn)練框架減少了通信開銷并提高了容錯(cuò)能力。
一個(gè)名為GENESYS的開源庫,用于RL微調(diào)中有用的合成數(shù)據(jù)生成和驗(yàn)證。
一種名為TOPLOC的輕量級(jí)驗(yàn)證系統(tǒng),用于驗(yàn)證模型執(zhí)行和參與節(jié)點(diǎn)的輸出。
Protocol 扮演的角色與Nous的Psyche類似,有四個(gè)主要參與者:
Workers:一種軟件,使用戶能夠貢獻(xiàn)他們的計(jì)算資源用于訓(xùn)練或其他PrimeIntellectAI相關(guān)產(chǎn)品。
驗(yàn)證者:驗(yàn)證計(jì)算貢獻(xiàn)并防止惡意行為。PrimeIntellect正在努力將最先進(jìn)的推理驗(yàn)證算法TOPLOC應(yīng)用于去中心化訓(xùn)練。
編排器:計(jì)算池創(chuàng)建者管理工作器的一種方式。它的作用與Nous的編排器類似。
智能合約:追蹤計(jì)算資源提供者,削減惡意參與者的質(zhì)押,并自主支付獎(jiǎng)勵(lì)。目前,PrimeIntellect已在EthereumL2Base的Sepolia測(cè)試網(wǎng)上運(yùn)行,但PrimeIntellect已表示最終計(jì)劃遷移到自己的Blockchain上。
對(duì)于INTELLECT-2,貢獻(xiàn)者還需要質(zhì)押測(cè)試網(wǎng)加密Tokens才能參與訓(xùn)練運(yùn)行。如果他們貢獻(xiàn)了有效的工作,將自動(dòng)獲得獎(jiǎng)勵(lì)。如果沒有,他們的質(zhì)押可能會(huì)被削減。雖然此次測(cè)試運(yùn)行期間沒有涉及任何實(shí)際資金,但這凸顯了一些加密經(jīng)濟(jì)實(shí)驗(yàn)的初步形式。該領(lǐng)域還需要進(jìn)行更多的實(shí)驗(yàn),我們預(yù)計(jì)加密經(jīng)濟(jì)在安全性和激勵(lì)機(jī)制方面的應(yīng)用將有進(jìn)一步的改變。除了INTELLECT-2之外,PrimeIntellect還在繼續(xù)開展本報(bào)告未涵蓋的幾項(xiàng)重要計(jì)劃,包括:
SYNTHETIC-2,用于生成和驗(yàn)證推理任務(wù)的下一代框架;
PrimeCollectiveCommunicationsLibrary,它實(shí)現(xiàn)了高效、容錯(cuò)的集體通信操作(例如通過IP進(jìn)行縮減),并提供共享狀態(tài)同步機(jī)制以保持對(duì)等點(diǎn)同步,并允許在訓(xùn)練期間的任何時(shí)候動(dòng)態(tài)加入和離開對(duì)等點(diǎn),以及自動(dòng)帶寬感知拓?fù)鋬?yōu)化;
持續(xù)增強(qiáng)TOPLOC的功能,以實(shí)現(xiàn)可擴(kuò)展、低成本的推理證明,從而驗(yàn)證模型輸出;
基于INTELLECT2和SYNTHETIC1的經(jīng)驗(yàn)教訓(xùn),對(duì)PrimeIntellect協(xié)議和加密經(jīng)濟(jì)層進(jìn)行改進(jìn) PluralisResearch
亞歷山大·朗(AlexanderLong)是一位澳大利亞機(jī)器學(xué)習(xí)研究員,擁有新南威爾士大學(xué)的博士學(xué)位。他認(rèn)為開源模型訓(xùn)練過度依賴領(lǐng)先的人工智能實(shí)驗(yàn)室為其他人提供基礎(chǔ)模型進(jìn)行訓(xùn)練。2023年4月,他創(chuàng)立了PluralisResearch,旨在開辟一條不同的道路。
PluralisResearch采用一種名為“協(xié)議學(xué)習(xí)”的方法來解決去中心化訓(xùn)練問題,該方法被描述為“低帶寬、異構(gòu)多參與者、模型并行的訓(xùn)練和推理”。Pluralis的一個(gè)主要顯著特征是其經(jīng)濟(jì)模型,該模型為訓(xùn)練模型的貢獻(xiàn)者提供類似股權(quán)的收益,以激勵(lì)計(jì)算貢獻(xiàn)并吸引頂級(jí)開源軟件研究人員。該經(jīng)濟(jì)模型以“不可提取性”的核心屬性為前提:即沒有任何一個(gè)參與者能夠獲得完整的權(quán)重集,而這又與訓(xùn)練方法和模型并行性的使用息息相關(guān)。
模型并行性
Pluralis的訓(xùn)練架構(gòu)利用了模型并行性,這與NousResearch和PrimeIntellect在初始訓(xùn)練運(yùn)行中實(shí)施的數(shù)據(jù)并行方法不同。隨著模型規(guī)模的增長,即使是H100機(jī)架(最先進(jìn)的GPU配置之一)也難以承載完整的模型。模型并行性通過將單個(gè)模型的各個(gè)組件拆分到多個(gè)GPU上,為這一問題提供了一種解決方案。
模型并行化主要有三種方法。
流水線并行:模型的各層被劃分到不同的GPU上。訓(xùn)練過程中,每個(gè)小批量數(shù)據(jù)都像流水線一樣流經(jīng)這些GPU。
張量(層內(nèi))并行性:不是為每個(gè)GPU提供整個(gè)層,而是將每個(gè)層內(nèi)的繁重?cái)?shù)學(xué)運(yùn)算分開,以便多個(gè)GPU可以同時(shí)共享單個(gè)層的工作。
混合并行:在實(shí)踐中,大型模型會(huì)混合使用各種方法,同時(shí)使用管道和張量并行,通常還會(huì)結(jié)合數(shù)據(jù)并行。
模型并行性是分布式訓(xùn)練的一個(gè)重要進(jìn)步,因?yàn)樗试S訓(xùn)練前沿規(guī)模的模型,使較低層級(jí)的硬件能夠參與,并確保沒有任何一個(gè)參與者可以訪問全套模型權(quán)重。
ProtocolLearning和ProtocolModels
協(xié)議學(xué)習(xí)(ProtocolLearning)是Pluralis在去中心化訓(xùn)練環(huán)境中用于模型所有權(quán)和貨幣化的框架。Pluralis強(qiáng)調(diào)了構(gòu)成協(xié)議學(xué)習(xí)框架的三個(gè)關(guān)鍵原則——去中心化、激勵(lì)和去信任化。
Pluralis與其他項(xiàng)目的主要區(qū)別在于其對(duì)模型所有權(quán)的關(guān)注。鑒于模型的價(jià)值主要源于其權(quán)重,協(xié)議模型(ProtocolModels)嘗試對(duì)模型的權(quán)重進(jìn)行拆分,使模型訓(xùn)練過程中的任何單個(gè)參與者都無法擁有全部權(quán)重。最終,這將賦予訓(xùn)練模型的每個(gè)貢獻(xiàn)者一定的所有權(quán),從而分享模型產(chǎn)生的收益。
Templar迄今已啟動(dòng)三輪訓(xùn)練:TemplarI、TemplarII和TemplarIII。TemplarI是一個(gè)包含12億個(gè)參數(shù)的模型,在全球部署了近200塊GPU。TemplarII正在進(jìn)行中,正在訓(xùn)練一個(gè)包含80億個(gè)參數(shù)的模型,并計(jì)劃很快啟動(dòng)更大規(guī)模的訓(xùn)練。Templar現(xiàn)階段專注于訓(xùn)練參數(shù)較小的模型,這是經(jīng)過深思熟慮的選擇,旨在確保去中心化訓(xùn)練架構(gòu)的升級(jí)(如上所述)在擴(kuò)展到更大模型規(guī)模之前能夠有效發(fā)揮作用。從優(yōu)化策略和調(diào)度到研究迭代和激勵(lì)機(jī)制,在參數(shù)較小的80億個(gè)模型上驗(yàn)證這些想法,使團(tuán)隊(duì)能夠快速且經(jīng)濟(jì)高效地進(jìn)行迭代。繼近期取得進(jìn)展并正式發(fā)布訓(xùn)練架構(gòu)后,團(tuán)隊(duì)于9月推出了TemplarIII,這是一個(gè)包含700億個(gè)參數(shù)的模型,也是迄今為止去中心化領(lǐng)域規(guī)模最大的預(yù)訓(xùn)練運(yùn)行。
TAO和激勵(lì)機(jī)制
Templar的一個(gè)關(guān)鍵特色是其與TAO綁定的激勵(lì)模型。獎(jiǎng)勵(lì)根據(jù)模型訓(xùn)練的技能加權(quán)貢獻(xiàn)進(jìn)行分配。大多數(shù)協(xié)議(例如Pluralis、Nous、PrimeIntellect)都已構(gòu)建了許可運(yùn)行或原型,而Templar則完全在Bittensor的實(shí)時(shí)網(wǎng)絡(luò)上運(yùn)行。這使得Templar成為唯一一個(gè)已將實(shí)時(shí)、無需許可的經(jīng)濟(jì)層集成到其去中心化訓(xùn)練框架中的協(xié)議。這種實(shí)時(shí)的生產(chǎn)部署使Templar能夠在實(shí)時(shí)訓(xùn)練運(yùn)行場(chǎng)景中迭代其基礎(chǔ)設(shè)施。
每個(gè)Bittensor子網(wǎng)都使用其自己的“alpha”Tokens運(yùn)行,該Tokens充當(dāng)獎(jiǎng)勵(lì)機(jī)制和子網(wǎng)感知價(jià)值的市場(chǎng)信號(hào)。Templar的alphaTokens稱為gamma。alphaTokens不能在外部市場(chǎng)上自由交易;它們只能通過其子網(wǎng)專用的流動(dòng)性池,使用自動(dòng)做市商(AMM)兌換TAO。用戶可以質(zhì)押TAO來獲得gamma,也可以將gamma贖回為TAO,但不能直接將gamma兌換成其他子網(wǎng)的alphaTokens。Bittensor的動(dòng)態(tài)TAO(dTAO)系統(tǒng)使用alphaTokens的市場(chǎng)價(jià)格來確定子網(wǎng)之間的發(fā)行分配。當(dāng)gamma的價(jià)格相對(duì)于其他alphaTokens上漲時(shí),這表明市場(chǎng)對(duì)Templar去中心化訓(xùn)練能力的信心增強(qiáng),從而導(dǎo)致子網(wǎng)的TAO發(fā)行量增加。截至9月初,Templar的每日發(fā)行量約占TAO發(fā)行量的4%,在TAO網(wǎng)絡(luò)的128個(gè)子網(wǎng)中排名前六。
子網(wǎng)的發(fā)行機(jī)制具體如下:在每個(gè)12秒的區(qū)塊中,Bittensor鏈會(huì)根據(jù)子網(wǎng)alphaTokens相對(duì)于其他子網(wǎng)的價(jià)格比例,向其流動(dòng)性池發(fā)行TAO和alphaTokens。每個(gè)區(qū)塊最多向子網(wǎng)發(fā)行一個(gè)完整的alphaTokens(初始發(fā)行率,可能會(huì)減半),用于激勵(lì)子網(wǎng)貢獻(xiàn)者,其中41%分配給礦工,41%分配給驗(yàn)證者(及其質(zhì)押者),18%分配給子網(wǎng)所有者。
這種激勵(lì)機(jī)制通過將經(jīng)濟(jì)獎(jiǎng)勵(lì)與參與者提供的價(jià)值掛鉤,推動(dòng)對(duì)Bittensor網(wǎng)絡(luò)的貢獻(xiàn)。礦工有動(dòng)力提供高質(zhì)量的AI輸出,例如模型訓(xùn)練或推理任務(wù),從而獲得驗(yàn)證者更高的評(píng)分,從而獲得更大的產(chǎn)出份額。驗(yàn)證者(及其質(zhì)押者)因準(zhǔn)確評(píng)估和維護(hù)網(wǎng)絡(luò)完整性而獲得獎(jiǎng)勵(lì)。
AlphaTokens的市場(chǎng)估值由質(zhì)押活動(dòng)決定,確保表現(xiàn)出更高實(shí)用性的子網(wǎng)能夠吸引更多TAO的流入和發(fā)行,從而營造一個(gè)鼓勵(lì)創(chuàng)新、專業(yè)化和持續(xù)發(fā)展的競(jìng)爭(zhēng)環(huán)境。子網(wǎng)所有者將獲得一定比例的獎(jiǎng)勵(lì),從而受到激勵(lì)去設(shè)計(jì)有效的機(jī)制并吸引貢獻(xiàn)者,最終構(gòu)建一個(gè)無需許可的去中心化AI生態(tài)系統(tǒng),讓全球參與共同促進(jìn)集體智慧的進(jìn)步。
該機(jī)制還引入了新的激勵(lì)挑戰(zhàn),例如保持驗(yàn)證者的誠實(shí)、抵御女巫攻擊以及減少串謀。Bittensor子網(wǎng)經(jīng)常受到驗(yàn)證者或礦工與子網(wǎng)創(chuàng)建者之間貓鼠游戲的困擾,前者試圖玩弄系統(tǒng),后者試圖阻撓他們。從長遠(yuǎn)來看,隨著子網(wǎng)所有者學(xué)會(huì)如何智勝惡意行為者,這些斗爭(zhēng)應(yīng)該會(huì)使該系統(tǒng)成為最強(qiáng)大的系統(tǒng)之一。 Gensyn
Gensyn于2022年2月發(fā)布了其首篇精簡(jiǎn)版白皮書,闡述了去中心化訓(xùn)練的框架(Gensyn是我們?nèi)ツ晔灼P(guān)于理解加密技術(shù)與人工智能交集的文章中唯一涵蓋的去中心化訓(xùn)練協(xié)議)。當(dāng)時(shí),該協(xié)議主要側(cè)重于AI相關(guān)工作負(fù)載的驗(yàn)證,允許用戶向網(wǎng)絡(luò)提交訓(xùn)練請(qǐng)求,由計(jì)算提供商處理,并確保這些請(qǐng)求按承諾執(zhí)行。
最初的愿景還強(qiáng)調(diào)了加速應(yīng)用機(jī)器學(xué)習(xí)(ML)研究的必要性。2023年,Gensyn在此愿景的基礎(chǔ)上,明確提出了在全球范圍內(nèi)獲取機(jī)器學(xué)習(xí)計(jì)算資源的更廣泛需求,以服務(wù)于特定AI應(yīng)用。Gensyn引入了GHOSTLY原則作為此類協(xié)議必須滿足的框架:通用性、異構(gòu)性、開銷、可擴(kuò)展性、去信任性和延遲。Gensyn一直專注于構(gòu)建計(jì)算基礎(chǔ)設(shè)施,此次合作標(biāo)志著其正式擴(kuò)展至計(jì)算之外的其他關(guān)鍵資源。
Gensyn的核心將其訓(xùn)練技術(shù)棧分為四個(gè)不同的部分——執(zhí)行、驗(yàn)證、通信和協(xié)調(diào)。執(zhí)行部分負(fù)責(zé)處理世界上任何能夠執(zhí)行機(jī)器學(xué)習(xí)操作的設(shè)備上的操作。通信和協(xié)調(diào)部分使設(shè)備能夠以標(biāo)準(zhǔn)化的方式相互發(fā)送信息。驗(yàn)證部分則確保所有操作無需信任即可進(jìn)行計(jì)算。
執(zhí)行—RLSwarm
Gensyn在這個(gè)堆棧中的第一個(gè)實(shí)現(xiàn)是一個(gè)名為RLSwarm的訓(xùn)練系統(tǒng),這是一種用于訓(xùn)練后強(qiáng)化學(xué)習(xí)的分散協(xié)調(diào)機(jī)制。
RLSwarm旨在允許多個(gè)計(jì)算提供商在無需許可、信任最小化的環(huán)境中參與單個(gè)模型的訓(xùn)練。該協(xié)議基于一個(gè)三步循環(huán):回答、評(píng)審和解決。首先,每個(gè)參與者根據(jù)提示生成模型輸出(答案)。然后,其他參與者使用共享獎(jiǎng)勵(lì)函數(shù)評(píng)估該輸出并提交反饋(評(píng)審)。最后,這些評(píng)審將用于選出最佳答案,并將其納入模型的下一個(gè)版本(解決)。整個(gè)過程以點(diǎn)對(duì)點(diǎn)的方式進(jìn)行,無需依賴中央服務(wù)器或可信機(jī)構(gòu)。
Verde驗(yàn)證協(xié)議架構(gòu)
今年8月,Gensyn發(fā)布了Judge,這是一個(gè)可驗(yàn)證的AI評(píng)估系統(tǒng),包含兩個(gè)核心組件:Verde和可復(fù)現(xiàn)的運(yùn)行時(shí),后者可保證跨硬件的逐位相同結(jié)果。為了展示它,Gensyn推出了一款“漸進(jìn)式揭示游戲”,其中AI模型在信息揭示的過程中對(duì)復(fù)雜問題的答案進(jìn)行押注,Judge會(huì)確定性地驗(yàn)證結(jié)果,并對(duì)準(zhǔn)確的早期預(yù)測(cè)進(jìn)行獎(jiǎng)勵(lì)。
Judge意義重大,因?yàn)樗鉀Q了AI/ML中的信任和可擴(kuò)展性問題。它能夠?qū)崿F(xiàn)可靠的模型比較,在高風(fēng)險(xiǎn)環(huán)境下提升透明度,并通過允許獨(dú)立驗(yàn)證來降低偏見或操縱的風(fēng)險(xiǎn)。除了推理任務(wù)之外,Judge還可以支持其他用例,例如去中心化爭(zhēng)議解決和預(yù)測(cè)市場(chǎng),這與Gensyn構(gòu)建可信分布式AI計(jì)算基礎(chǔ)設(shè)施的使命相契合。最終,像Judge這樣的工具可以增強(qiáng)可重復(fù)性和可問責(zé)性,這在AI日益成為社會(huì)核心的時(shí)代至關(guān)重要。
溝通與協(xié)調(diào):Skip-Pipe和多元化專家集成
Skip-Pipe是Gensyn針對(duì)單個(gè)巨型模型在多臺(tái)機(jī)器上進(jìn)行切片時(shí)出現(xiàn)的帶寬瓶頸問題而提出的解決方案。如前所述,傳統(tǒng)的流水線訓(xùn)練強(qiáng)制每個(gè)微批次按順序遍歷所有層,因此任何速度較慢的節(jié)點(diǎn)都會(huì)導(dǎo)致流水線停滯。Skip-Pipe的調(diào)度程序可以動(dòng)態(tài)跳過或重新排序可能造成延遲的層,從而將迭代時(shí)間縮短高達(dá)55%,并且即使一半節(jié)點(diǎn)發(fā)生故障也能保持可用性。通過減少節(jié)點(diǎn)間流量并允許根據(jù)需要?jiǎng)h除層,它使訓(xùn)練器能夠?qū)⒎浅4蟮哪P蛿U(kuò)展到地理位置分散、帶寬較低的GPU上。
多樣化專家集成解決了另一個(gè)協(xié)調(diào)難題:如何構(gòu)建一個(gè)強(qiáng)大的“混合專家”系統(tǒng),避免持續(xù)的串?dāng)_。Gensyn的異構(gòu)領(lǐng)域?qū)<壹?HDEE)完全獨(dú)立地訓(xùn)練每個(gè)專家模型,并僅在最后進(jìn)行合并。出乎意料的是,在相同的總體計(jì)算預(yù)算下,最終集成在21個(gè)測(cè)試領(lǐng)域中的20個(gè)領(lǐng)域中超越了統(tǒng)一的基準(zhǔn)。由于訓(xùn)練期間機(jī)器之間沒有梯度或激活函數(shù)的流動(dòng),因此任何空閑的GPU都可以貢獻(xiàn)計(jì)算能力。
Skip-Pipe和HDEE共同為Gensyn提供了高效的通信方案。該協(xié)議可以在必要時(shí)在單個(gè)模型內(nèi)進(jìn)行分片,或者在獨(dú)立性成本更低的情況下并行訓(xùn)練多個(gè)小型專家,并且無需像傳統(tǒng)方式那樣對(duì)完美、低延遲的網(wǎng)絡(luò)進(jìn)行操作。
測(cè)試網(wǎng)
三月份,Gensyn在一個(gè)定制的Ethereumrollup上部署了測(cè)試網(wǎng)。團(tuán)隊(duì)計(jì)劃逐步更新測(cè)試網(wǎng)。目前,用戶可以參與Gensyn的三項(xiàng)產(chǎn)品:RLSwarm、BlockAssist和Judge。如上所述,RLSwarm允許用戶參與RL訓(xùn)練后流程。八月,團(tuán)隊(duì)推出了BlockAssist,“這是輔助學(xué)習(xí)的第一個(gè)大規(guī)模演示,它是一種直接從人類行為中訓(xùn)練代理的方法,無需手動(dòng)標(biāo)記或RLHF”。用戶可以下載Minecraft,并使用BlockAssist來訓(xùn)練Minecraft模型,從而暢玩游戲。
其他值得關(guān)注的項(xiàng)目
以上章節(jié)概述了為實(shí)現(xiàn)去中心化訓(xùn)練而實(shí)施的主流架構(gòu)。然而,新的項(xiàng)目也層出不窮。以下是去中心化訓(xùn)練領(lǐng)域的一些新項(xiàng)目:
Fortytwo: Fortytwo構(gòu)建于MonadBlockchain之上,專注于群體推理(SLM),其中多個(gè)小型語言模型(SLM)在節(jié)點(diǎn)網(wǎng)絡(luò)中協(xié)作處理查詢并生成同行評(píng)審的輸出,從而提高準(zhǔn)確性和效率。該系統(tǒng)利用閑置筆記本電腦等消費(fèi)級(jí)硬件,無需像集中式AI那樣使用昂貴的GPU集群。該架構(gòu)包含去中心化的推理執(zhí)行和訓(xùn)練功能,例如為專用模型生成合成數(shù)據(jù)集。該項(xiàng)目已在Monad開發(fā)網(wǎng)絡(luò)上線。
Ambient: Ambient是即將上線的“有用工作量證明”Layer -1Blockchain,旨在為鏈上始終在線、自主運(yùn)行的AI代理提供支持,使其能夠在無需中心化監(jiān)管的無許可生態(tài)系統(tǒng)中持續(xù)執(zhí)行任務(wù)、學(xué)習(xí)和演進(jìn)。它將采用單一開源模型,該模型由網(wǎng)絡(luò)礦工協(xié)作訓(xùn)練和改進(jìn),貢獻(xiàn)者將因其在訓(xùn)練、構(gòu)建和使用AI模型方面的貢獻(xiàn)而獲得獎(jiǎng)勵(lì)。雖然Ambient強(qiáng)調(diào)去中心化推理,尤其是在代理方面,但網(wǎng)絡(luò)上的礦工也將負(fù)責(zé)持續(xù)更新支撐網(wǎng)絡(luò)的基礎(chǔ)模型。Ambient采用了一種新穎的p roof- o f-logits機(jī)制(在該系統(tǒng)中,驗(yàn)證者可以通過檢查礦工的原始輸出值(稱為logits)來驗(yàn)證其是否正確運(yùn)行了模型計(jì)算)。該項(xiàng)目基于Solana的一個(gè)分叉構(gòu)建,尚未正式上線。
FlowerLabs: FlowerLabs正在開發(fā)一個(gè)用于聯(lián)邦學(xué)習(xí)的開源框架Flower,該框架支持跨去中心化數(shù)據(jù)源進(jìn)行協(xié)作式AI模型訓(xùn)練,無需共享原始數(shù)據(jù),從而在聚合模型更新的同時(shí)保護(hù)隱私。Flower的成立旨在解決數(shù)據(jù)集中化問題,它允許機(jī)構(gòu)和個(gè)人使用本地?cái)?shù)據(jù)(例如醫(yī)療保健或金融領(lǐng)域)訓(xùn)練模型,同時(shí)通過安全的參數(shù)共享為全球改進(jìn)做出貢獻(xiàn)。與強(qiáng)調(diào)Tokens獎(jiǎng)勵(lì)和可驗(yàn)證計(jì)算的加密原生協(xié)議不同,F(xiàn)lower優(yōu)先考慮在實(shí)際應(yīng)用中保護(hù)隱私的協(xié)作,使其成為無需Blockchain的受監(jiān)管行業(yè)的理想之選。
Macrocosmos: Macrocosmos在Bittensor網(wǎng)絡(luò)上運(yùn)行,正在開發(fā)涵蓋五個(gè)子網(wǎng)的完整AI模型創(chuàng)建流程,這些子網(wǎng)專注于預(yù)訓(xùn)練、微調(diào)、數(shù)據(jù)收集和去中心化科學(xué)。它引入了激勵(lì)編排訓(xùn)練架構(gòu)(IOTA)框架,用于在異構(gòu)、不可靠且無需許可的硬件上對(duì)大型語言模型進(jìn)行預(yù)訓(xùn)練,并已啟動(dòng)超過10億次參數(shù)訓(xùn)練,并計(jì)劃很快擴(kuò)展到更大的參數(shù)模型。
Flock.io:Flock是一個(gè)去中心化的AI訓(xùn)練生態(tài)系統(tǒng),將聯(lián)邦學(xué)習(xí)與Blockchain基礎(chǔ)設(shè)施相結(jié)合,從而在一個(gè)模塊化、Tokens激勵(lì)的網(wǎng)絡(luò)中實(shí)現(xiàn)隱私保護(hù)的協(xié)作模型開發(fā)。參與者可以貢獻(xiàn)模型、數(shù)據(jù)或計(jì)算資源,并獲得與其貢獻(xiàn)成比例的鏈上獎(jiǎng)勵(lì)。為了保護(hù)數(shù)據(jù)隱私,該協(xié)議采用了聯(lián)邦學(xué)習(xí)。這使得參與者能夠使用未與他人共享的本地?cái)?shù)據(jù)來訓(xùn)練全局模型。雖然這種設(shè)置需要額外的驗(yàn)證步驟,以防止無關(guān)數(shù)據(jù)(通常稱為數(shù)據(jù)中毒)進(jìn)入模型訓(xùn)練,但它對(duì)于醫(yī)療保健應(yīng)用等用例來說是一個(gè)有效的推廣方案,在這些應(yīng)用中,多個(gè)醫(yī)療保健提供者可以在不泄露高度敏感的醫(yī)療數(shù)據(jù)的情況下訓(xùn)練全局模型。 前景與風(fēng)險(xiǎn)
在過去的兩年里,去中心化訓(xùn)練已經(jīng)從一個(gè)有趣的概念轉(zhuǎn)變?yōu)橐粋(gè)在實(shí)際環(huán)境中運(yùn)行的有效網(wǎng)絡(luò)。雖然這些項(xiàng)目距離預(yù)期的最終狀態(tài)還很遠(yuǎn),但在實(shí)現(xiàn)去中心化訓(xùn)練的道路上,它們正在取得有意義的進(jìn)展。回顧現(xiàn)有的去中心化訓(xùn)練格局,一些趨勢(shì)開始顯現(xiàn):
實(shí)時(shí)概念驗(yàn)證已不再是空想。在過去一年中,Nous的Consilience和PrimeIntellect的INTELLECT-2等早期驗(yàn)證已進(jìn)入生產(chǎn)規(guī)模運(yùn)行。OpenDiLoCo和ProtocolModels等突破性進(jìn)展正在分布式網(wǎng)絡(luò)上實(shí)現(xiàn)高性能AI,促進(jìn)經(jīng)濟(jì)高效、彈性且透明的模型開發(fā)。這些網(wǎng)絡(luò)正在協(xié)調(diào)數(shù)十個(gè)甚至數(shù)百個(gè)GPU,實(shí)時(shí)預(yù)訓(xùn)練和微調(diào)中型模型,證明了去中心化訓(xùn)練可以超越封閉式演示和臨時(shí)黑客馬拉松。雖然這些網(wǎng)絡(luò)仍非無需許可的網(wǎng)絡(luò),但Templar在這方面脫穎而出;它的成功強(qiáng)化了這樣一種觀點(diǎn):去中心化訓(xùn)練正在從簡(jiǎn)單地證明底層技術(shù)有效,發(fā)展到能夠擴(kuò)展以匹配中心化模型的性能,并吸引大規(guī)模生產(chǎn)基礎(chǔ)模型所需的GPU資源。
模型規(guī)模不斷擴(kuò)大,但差距依然存在。從2024年到2025年,去中心化項(xiàng)目的參數(shù)模型數(shù)量從個(gè)位數(shù)躍升至300億至400億。然而,領(lǐng)先的人工智能實(shí)驗(yàn)室已經(jīng)發(fā)布了數(shù)萬億參數(shù)的系統(tǒng),并憑借其垂直整合的數(shù)據(jù)中心和最先進(jìn)的硬件持續(xù)快速創(chuàng)新。去中心化訓(xùn)練能夠利用來自世界各地的訓(xùn)練硬件,彌補(bǔ)這一差距,尤其是在中心化訓(xùn)練方法因需要越來越多的超大規(guī)模數(shù)據(jù)中心而面臨越來越大的限制的情況下。但縮小這一差距將取決于高效通信的優(yōu)化器和梯度壓縮方面的進(jìn)一步突破,以實(shí)現(xiàn)全球規(guī)模,以及不可操縱的激勵(lì)和驗(yàn)證層。
訓(xùn)練后工作流程正日益成為關(guān)注的領(lǐng)域。監(jiān)督式微調(diào)、RLHF和特定領(lǐng)域強(qiáng)化學(xué)習(xí)所需的同步帶寬遠(yuǎn)低于全面的預(yù)訓(xùn)練。PRIME-RL和RLSwarm等框架已在不穩(wěn)定的消費(fèi)級(jí)節(jié)點(diǎn)上運(yùn)行,讓貢獻(xiàn)者能夠利用閑置的周期獲利,同時(shí)項(xiàng)目也能快速將定制模型商業(yè)化。鑒于RL非常適合去中心化訓(xùn)練,它作為去中心化訓(xùn)練項(xiàng)目關(guān)注領(lǐng)域的重要性可能會(huì)日益凸顯。這使得去中心化訓(xùn)練有可能率先在RL訓(xùn)練中找到規(guī)模化的產(chǎn)品市場(chǎng)契合點(diǎn),越來越多的團(tuán)隊(duì)推出RL專用訓(xùn)練框架就證明了這一點(diǎn)。
激勵(lì)和驗(yàn)證機(jī)制落后于技術(shù)創(chuàng)新。激勵(lì)和驗(yàn)證機(jī)制仍然落后于技術(shù)創(chuàng)新。只有少數(shù)網(wǎng)絡(luò),尤其是Templar,提供實(shí)時(shí)Tokens獎(jiǎng)勵(lì)和鏈上罰沒機(jī)制,從而有效地遏制不良行為,并已在實(shí)際環(huán)境中進(jìn)行測(cè)試。盡管其他項(xiàng)目正在試驗(yàn)聲譽(yù)評(píng)分、證人證明或訓(xùn)練證明方案,但這些系統(tǒng)仍未經(jīng)驗(yàn)證。即使技術(shù)障礙得以克服,治理也將帶來同樣艱巨的挑戰(zhàn),因?yàn)槿ブ行幕W(wǎng)絡(luò)必須找到制定規(guī)則、執(zhí)行規(guī)則和解決爭(zhēng)議的方法,而不會(huì)重復(fù)加密DAO中出現(xiàn)的低效現(xiàn)象。解決技術(shù)障礙只是第一步;長期生存能力取決于將其與可靠的驗(yàn)證機(jī)制、有效的治理機(jī)制以及引人注目的貨幣化/所有權(quán)結(jié)構(gòu)相結(jié)合,以確保人們對(duì)所開展工作的信任,并吸引擴(kuò)大規(guī)模所需的人才和資源。
堆棧正在融合成端到端的流水線。如今,大多數(shù)領(lǐng)先的團(tuán)隊(duì)都將帶寬感知優(yōu)化器(DeMo、DisTrO)、去中心化計(jì)算交換(PrimeCompute、Basilica)和鏈上協(xié)調(diào)層(Psyche、PM、PRIME)結(jié)合在一起。最終形成了一個(gè)模塊化的開放流水線,它反映了中心化實(shí)驗(yàn)室從數(shù)據(jù)到部署的工作流程,只是沒有單一的控制點(diǎn)。即使項(xiàng)目沒有直接集成自己的解決方案,或者即使集成了,它們也可以接入其他專注于去中心化訓(xùn)練所需垂直領(lǐng)域的加密項(xiàng)目,例如數(shù)據(jù)供應(yīng)協(xié)議、GPU和推理市場(chǎng)以及去中心化存儲(chǔ)主干網(wǎng)。這種周邊基礎(chǔ)設(shè)施為去中心化訓(xùn)練項(xiàng)目提供了即插即用的組件,可以進(jìn)一步利用這些組件來增強(qiáng)其產(chǎn)品,并更好地與中心化同行競(jìng)爭(zhēng)。 風(fēng)險(xiǎn)
硬件和軟件優(yōu)化是一個(gè)不斷變化的目標(biāo)——中央實(shí)驗(yàn)室也在不斷拓展這一領(lǐng)域。Nvidia的BlackwellB200芯片剛剛公布,在MLPerf基準(zhǔn)測(cè)試中,無論是4050億個(gè)參數(shù)的預(yù)訓(xùn)練還是700億個(gè)LoRA微調(diào),其訓(xùn)練吞吐量都比上一代快了2.2到2.6倍,為巨頭們大幅降低了時(shí)間和能源成本。在軟件方面,PyTorch3.0和TensorFlow4.0引入了編譯器級(jí)圖融合和動(dòng)態(tài)形狀內(nèi)核,從而在同一塊芯片上進(jìn)一步提升性能。隨著硬件和軟件優(yōu)化的改進(jìn),或新的訓(xùn)練架構(gòu)的出現(xiàn),去中心化訓(xùn)練網(wǎng)絡(luò)也必須跟上步伐,不斷更新其堆棧,以適應(yīng)最快、最先進(jìn)的訓(xùn)練方法,從而吸引人才并激勵(lì)有意義的模型開發(fā)。這將要求團(tuán)隊(duì)開發(fā)出能夠確保持續(xù)高性能的軟件(無論底層硬件如何),以及使這些網(wǎng)絡(luò)能夠適應(yīng)底層訓(xùn)練架構(gòu)變化的軟件堆棧。
現(xiàn)有企業(yè)開源模型,模糊了去中心化和中心化訓(xùn)練之間的界限。中心化人工智能實(shí)驗(yàn)室大多保持模型封閉,這進(jìn)一步證明了去中心化訓(xùn)練是保證開放性、透明度和社區(qū)治理的一種方式。盡管最近發(fā)布的DeepSeek、GPT開源版本和Llama等項(xiàng)目表明了其向更高開放性的轉(zhuǎn)變,但在競(jìng)爭(zhēng)、監(jiān)管和安全擔(dān)憂日益加劇的背景下,這種趨勢(shì)能否持續(xù)尚不明朗。即使權(quán)重被公開,它們?nèi)匀环从沉嗽紝?shí)驗(yàn)室的價(jià)值觀和選擇——獨(dú)立訓(xùn)練的能力對(duì)于適應(yīng)性、與不同優(yōu)先事項(xiàng)的協(xié)調(diào)以及確保訪問不受少數(shù)現(xiàn)有企業(yè)的限制至關(guān)重要。
人才招聘依然困難重重。許多團(tuán)隊(duì)都告訴我們這一點(diǎn)。雖然加入去中心化訓(xùn)練項(xiàng)目的人才質(zhì)量有所提升,但他們?nèi)狈︻I(lǐng)先人工智能實(shí)驗(yàn)室那樣的雄厚資源(例如,OpenAI最近為每位員工提供數(shù)百萬美元的“特別獎(jiǎng)勵(lì)”,或者M(jìn)eta為挖角研究人員而提供的2.5億美元報(bào)價(jià))。目前,去中心化項(xiàng)目吸引的是那些重視開放性和獨(dú)立性的使命驅(qū)動(dòng)型研究人員,同時(shí)也能從更廣泛的全球人才庫和充滿活力的開源社區(qū)中汲取人才。然而,為了在規(guī)模上競(jìng)爭(zhēng),他們必須通過訓(xùn)練出與現(xiàn)有企業(yè)相當(dāng)?shù)哪P停⑼晟萍?lì)和貨幣化機(jī)制來證明自己,從而為貢獻(xiàn)者創(chuàng)造有意義的收益。雖然無需許可的網(wǎng)絡(luò)和加密經(jīng)濟(jì)激勵(lì)措施提供了獨(dú)特的價(jià)值,但無法獲得分銷并建立可持續(xù)的收入來源可能會(huì)阻礙該領(lǐng)域的長期增長。
監(jiān)管阻力確實(shí)存在,尤其對(duì)于未經(jīng)審查的模型而言。去中心化訓(xùn)練面臨著獨(dú)特的監(jiān)管挑戰(zhàn):從設(shè)計(jì)上來說,任何人都可以訓(xùn)練任何類型的模型。這種開放性固然是優(yōu)勢(shì),但也引發(fā)了安全隱患,尤其是在生物安全、虛假信息或其他敏感領(lǐng)域?yàn)E用方面。歐盟和美國的政策制定者已發(fā)出信號(hào),表示將加強(qiáng)審查:歐盟《人工智能法案》對(duì)高風(fēng)險(xiǎn)的基礎(chǔ)模型規(guī)定了額外義務(wù),而美國機(jī)構(gòu)正在考慮對(duì)開放系統(tǒng)進(jìn)行限制,并可能采取出口式管控措施。單單涉及將去中心化模型用于有害目的的事件,就可能引發(fā)全面的監(jiān)管,從而威脅到無需許可的訓(xùn)練的根本原則。
分發(fā)和貨幣化:分發(fā)仍然是一項(xiàng)重大挑戰(zhàn)。包括OpenAI、Anthropic和Google在內(nèi)的領(lǐng)先實(shí)驗(yàn)室,通過品牌知名度、企業(yè)合同、云平臺(tái)集成以及直接接觸消費(fèi)者,擁有巨大的分發(fā)優(yōu)勢(shì)。相比之下,去中心化訓(xùn)練項(xiàng)目缺乏這些內(nèi)置渠道,必須付出更多努力才能讓模型被采用、獲得信任并嵌入到實(shí)際工作流程中。鑒于Crypto在加密應(yīng)用之外的整合仍處于萌芽階段(盡管這種情況正在迅速改變),這可能會(huì)更具挑戰(zhàn)性。一個(gè)非常重要且尚未解決的問題是,誰將真正使用這些去中心化訓(xùn)練模型。高質(zhì)量的開源模型已經(jīng)存在,一旦新的先進(jìn)模型發(fā)布,其他人提取或調(diào)整它們并不特別困難。隨著時(shí)間的推移,去中心化訓(xùn)練項(xiàng)目的開源性質(zhì)應(yīng)該會(huì)產(chǎn)生網(wǎng)絡(luò)效應(yīng),從而解決分發(fā)問題。然而,即使他們能夠解決分發(fā)問題,團(tuán)隊(duì)也將面臨產(chǎn)品貨幣化的挑戰(zhàn)。目前,Pluralis的項(xiàng)目經(jīng)理似乎最直接地應(yīng)對(duì)這些貨幣化挑戰(zhàn)。這不僅僅是一個(gè)加密xAI問題,而是一個(gè)更廣泛的加密問題,凸顯了未來的挑戰(zhàn)。 結(jié)論
去中心化訓(xùn)練已迅速從一個(gè)抽象概念演變?yōu)閰f(xié)調(diào)全球?qū)嶋H訓(xùn)練運(yùn)行的有效網(wǎng)絡(luò)。過去一年,包括Nous、PrimeIntellect、Pluralis、Templar和Gensyn在內(nèi)的項(xiàng)目已經(jīng)證明,將去中心化GPU連接在一起、高效壓縮通信,甚至開始在實(shí)際環(huán)境中試驗(yàn)激勵(lì)機(jī)制是可能的。這些早期演示證明了去中心化訓(xùn)練可以超越理論,盡管在前沿規(guī)模上與中心化實(shí)驗(yàn)室競(jìng)爭(zhēng)的道路仍然艱難。
即使去中心化項(xiàng)目最終訓(xùn)練出的基礎(chǔ)模型足以與當(dāng)今領(lǐng)先的人工智能實(shí)驗(yàn)室相媲美,它們也面臨著最嚴(yán)峻的考驗(yàn):證明其在理念訴求之外的現(xiàn)實(shí)優(yōu)勢(shì)。這些優(yōu)勢(shì)可能通過卓越的架構(gòu)或獎(jiǎng)勵(lì)貢獻(xiàn)者的全新所有權(quán)和貨幣化方案內(nèi)生顯現(xiàn)。或者,如果中心化現(xiàn)有參與者試圖通過保持權(quán)重封閉或注入不受歡迎的對(duì)齊偏差來扼殺創(chuàng)新,這些優(yōu)勢(shì)也可能外生顯現(xiàn)。
除了技術(shù)進(jìn)步之外,人們對(duì)該領(lǐng)域的態(tài)度也開始轉(zhuǎn)變。一位創(chuàng)始人這樣描述過去一年主要人工智能會(huì)議上人們情緒的變化:一年前,人們對(duì)去中心化訓(xùn)練幾乎沒有興趣,尤其是與Crypto結(jié)合使用時(shí);六個(gè)月前,與會(huì)者開始認(rèn)識(shí)到潛在的問題,但對(duì)大規(guī)模實(shí)施的可行性表示懷疑;而近幾個(gè)月來,人們?cè)絹碓秸J(rèn)識(shí)到,持續(xù)的進(jìn)步可以使可擴(kuò)展的去中心化訓(xùn)練成為可能。這種觀念的演變表明,不僅在技術(shù)領(lǐng)域,而且在合法性方面,去中心化訓(xùn)練的勢(shì)頭也在增強(qiáng)。
風(fēng)險(xiǎn)是真實(shí)存在的:現(xiàn)有企業(yè)仍保持著硬件、人才和分銷優(yōu)勢(shì);監(jiān)管審查迫在眉睫;激勵(lì)和治理機(jī)制仍未得到大規(guī)模檢驗(yàn)。然而,其優(yōu)勢(shì)也同樣引人注目。去中心化訓(xùn)練不僅代表著一種替代的技術(shù)架構(gòu),更代表著一種構(gòu)建人工智能的根本性理念:無需許可、全球所有,并與多元化社區(qū)而非少數(shù)幾家公司保持一致。即使只有一個(gè)項(xiàng)目能夠證明開放性能夠轉(zhuǎn)化為更快的迭代、新穎的架構(gòu)或更具包容性的治理,這也將標(biāo)志著Crypto和人工智能的突破性時(shí)刻。未來的道路漫長,但成功的核心要素如今已牢牢掌握。