版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
淺談ChatGPT技術(shù)背后的超算ChatGPT能成為如今火遍全球的頂流模型,少不了背后超強(qiáng)的算力。
數(shù)據(jù)顯示,ChatGPT的總算力消耗約為3640PF-days(即假如每秒計(jì)算一千萬億次,需要計(jì)算3640天)。
那么,作為依托的那臺(tái)微軟專為OpenAI打造的超級(jí)計(jì)算機(jī),又是如何誕生的呢?
周一,微軟在官博上連發(fā)兩文,親自解密這臺(tái)超級(jí)昂貴的超級(jí)計(jì)算機(jī),以及Azure的重磅升級(jí)——加入成千上萬張英偉達(dá)最強(qiáng)的H100顯卡以及更快的InfiniBand網(wǎng)絡(luò)互連技術(shù)。
基于此,微軟也官宣了最新的NDH100v5虛擬機(jī),具體規(guī)格如下:
8個(gè)NVIDIAH100TensorCoreGPU通過下一代NVSwitch和NVLink4.0互聯(lián)每個(gè)GPU有400Gb/s的NVIDIAQuantum-2CX7InfiniBand,每個(gè)虛擬機(jī)有3.2Tb/s的無阻塞胖樹型網(wǎng)絡(luò)NVSwitch和NVLink4.0在每個(gè)虛擬機(jī)的8個(gè)本地GPU之間具有3.6TB/s的雙向帶寬第四代英特爾至強(qiáng)可擴(kuò)展處理器PCIEGen5到GPU互連,每個(gè)GPU有64GB/s帶寬16通道4800MHzDDR5DIMM數(shù)億美元撐起來的算力大約五年前,OpenAI向微軟提出了一個(gè)大膽的想法——建立一個(gè)可以永遠(yuǎn)改變?nèi)藱C(jī)交互方式的人工智能系統(tǒng)。
當(dāng)時(shí),沒人能想到,這將意味著AI可以用純語言創(chuàng)造出人類所描述的任何圖片,人類可以用聊天機(jī)器人來寫詩、寫歌詞、寫論文、寫郵件、寫菜單……
為了建立這個(gè)系統(tǒng),OpenAI需要很多算力——可以真正支撐起超大規(guī)模計(jì)算的那種。
但問題是,微軟能做到嗎?
畢竟,當(dāng)時(shí)既沒有能滿足OpenAI需要的硬件,也無法確定在Azure云服務(wù)中構(gòu)建這樣龐大的超級(jí)計(jì)算機(jī)會(huì)不會(huì)直接把系統(tǒng)搞崩。
隨后,微軟便開啟了一段艱難的摸索。
為了構(gòu)建支持OpenAI項(xiàng)目的超級(jí)計(jì)算機(jī),它斥資數(shù)億美元,在Azure云計(jì)算平臺(tái)上將幾萬個(gè)NvidiaA100芯片連接在一起,并改造了服務(wù)器機(jī)架。
此外,為了給OpenAI量身打造這個(gè)超算平臺(tái),微軟十分盡心,一直在密切關(guān)注著OpenAI的需求,隨時(shí)了解他們?cè)谟?xùn)練AI時(shí)最關(guān)鍵的需要。
這么一個(gè)大工程,成本究竟是多少呢?微軟負(fù)責(zé)云計(jì)算和人工智能的執(zhí)行副總裁ScottGuthrie不愿透露具體數(shù)目,但他表示,「可能不止」幾億美元。
OpenAI出的難題微軟負(fù)責(zé)戰(zhàn)略合作伙伴關(guān)系的高管PhilWaymouth指出,OpenAI訓(xùn)練模型所需要的云計(jì)算基礎(chǔ)設(shè)施規(guī)模,是業(yè)內(nèi)前所未有的。
呈指數(shù)級(jí)增長的網(wǎng)絡(luò)GPU集群規(guī)模,超過了業(yè)內(nèi)任何人試圖構(gòu)建的程度。
微軟之所以下定決心與OpenAI合作,是因?yàn)閳?jiān)信,這種前所未有的基礎(chǔ)設(shè)施規(guī)模將改變歷史,造出全新的AI,和全新的編程平臺(tái),為客戶提供切實(shí)符合他們利益的產(chǎn)品和服務(wù)。
現(xiàn)在看來,這幾億美元顯然沒白花——寶押對(duì)了。
在這臺(tái)超算上,OpenAI能夠訓(xùn)練的模型越來越強(qiáng)大,并且解鎖了AI工具令人驚嘆的功能,幾乎開啟人類第四次工業(yè)革命的ChatGPT,由此誕生。
非常滿意的微軟,在1月初又向OpenAI狂砸100億美元。
可以說,微軟突破AI超算界限的雄心,已經(jīng)得到了回報(bào)。而這背后體現(xiàn)的,是從實(shí)驗(yàn)室研究,到AI產(chǎn)業(yè)化的轉(zhuǎn)變。
目前,微軟的辦公軟件帝國已經(jīng)初具規(guī)模。
ChatGPT版必應(yīng),可以幫我們搜索假期安排;VivaSales中的聊天機(jī)器人可以幫營銷人員寫郵件;GitHubCopilot可以幫開發(fā)者續(xù)寫代碼;AzureOpenAI服務(wù)可以讓我們?cè)L問OpenAI的大語言模型,還能訪問Azure的企業(yè)級(jí)功能。
和英偉達(dá)聯(lián)手其實(shí),在去年11月,微軟就曾官宣,要與Nvidia聯(lián)手構(gòu)建「世界上最強(qiáng)大的AI超級(jí)計(jì)算機(jī)之一」,來處理訓(xùn)練和擴(kuò)展AI所需的巨大計(jì)算負(fù)載。
這臺(tái)超級(jí)計(jì)算機(jī)基于微軟的Azure云基礎(chǔ)設(shè)施,使用了數(shù)以萬計(jì)個(gè)NvidiaH100和A100TensorCoreGPU,及其Quantum-2InfiniBand網(wǎng)絡(luò)平臺(tái)。
Nvidia在一份聲明中表示,這臺(tái)超級(jí)計(jì)算機(jī)可用于研究和加速DALL-E和StableDiffusion等生成式AI模型。
隨著AI研究人員開始使用更強(qiáng)大的GPU來處理更復(fù)雜的AI工作負(fù)載,他們看到了AI模型更大的潛力,這些模型可以很好地理解細(xì)微差別,從而能夠同時(shí)處理許多不同的語言任務(wù)。
簡單來說,模型越大,你擁有的數(shù)據(jù)越多,你能訓(xùn)練的時(shí)間越長,模型的準(zhǔn)確性就越好。
但是這些更大的模型很快就會(huì)到達(dá)現(xiàn)有計(jì)算資源的邊界。而微軟明白,OpenAI需要的超級(jí)計(jì)算機(jī)是什么樣子,需要多大的規(guī)模。
這顯然不是說,單純地購買一大堆GPU并將它們連接在一起之后,就可以開始協(xié)同工作的東西。
微軟Azure高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人NidhiChappell表示:「我們需要讓更大的模型訓(xùn)練更長的時(shí)間,這意味著你不僅需要擁有最大的基礎(chǔ)設(shè)施,你還必須讓它長期可靠地運(yùn)行?!?/p>
Azure全球基礎(chǔ)設(shè)施總監(jiān)AlistairSpeirs表示,微軟必須確保它能夠冷卻所有這些機(jī)器和芯片。比如,在較涼爽的氣候下使用外部空氣,在炎熱的氣候下使用高科技蒸發(fā)冷卻器等。
此外,由于所有的機(jī)器都是同時(shí)啟動(dòng)的,所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時(shí)打開微波爐、烤面包機(jī)和吸塵器時(shí)可能會(huì)發(fā)生的情況,只不過是數(shù)據(jù)中心的版本。
大規(guī)模AI訓(xùn)練完成這些突破,關(guān)鍵在哪里?
難題就是,如何構(gòu)建、操作和維護(hù)數(shù)萬個(gè)在高吞吐量、低延遲InfiniBand網(wǎng)絡(luò)上互連的共置GPU。
這個(gè)規(guī)模,已經(jīng)遠(yuǎn)遠(yuǎn)超出了GPU和網(wǎng)絡(luò)設(shè)備供應(yīng)商測試的范圍,完全是一片未知的領(lǐng)域。沒有任何人知道,在這種規(guī)模下,硬件會(huì)不會(huì)崩。
微軟Azure高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人NidhiChappell解釋道,在LLM的訓(xùn)練過程中,涉及到的大規(guī)模計(jì)算通常會(huì)被劃分到一個(gè)集群中的數(shù)千個(gè)GPU上。
在被稱為allreduce的階段,GPU之間會(huì)互相交換它們所做工作的信息。此時(shí)就需要通過InfiniBand網(wǎng)絡(luò)進(jìn)行加速,從而讓GPU在下一塊計(jì)算開始之前完成。
NidhiChappell表示,由于這些工作跨越了數(shù)千個(gè)GPU,因此除了要確?;A(chǔ)設(shè)施的可靠外,還需要大量很多系統(tǒng)級(jí)優(yōu)化才能實(shí)現(xiàn)最佳的性能,而這是經(jīng)過許多代人的經(jīng)驗(yàn)總結(jié)出來的。
所謂系統(tǒng)級(jí)優(yōu)化,其中就包括能夠有效利用GPU和網(wǎng)絡(luò)設(shè)備的軟件。
在過去的幾年里,微軟已經(jīng)開發(fā)出了這種技術(shù),在使訓(xùn)練具有幾十萬億個(gè)參數(shù)的模型的能力得到增長的同時(shí),降低了訓(xùn)練和在生產(chǎn)中提供這些模型的資源要求和時(shí)間。
Waymouth指出,微軟和合作伙伴也一直在逐步增加GPU集群的容量,發(fā)展InfiniBand網(wǎng)絡(luò),看看他們能在多大程度上推動(dòng)保持GPU集群運(yùn)行所需的數(shù)據(jù)中心基礎(chǔ)設(shè)施,包括冷卻系統(tǒng)、不間斷電源系統(tǒng)和備用發(fā)電機(jī)。
微軟AI平臺(tái)公司副總裁EricBoyd表示,這種為大型語言模型訓(xùn)練和下一波AI創(chuàng)新而優(yōu)化的超算能力,已經(jīng)可以在Azure云服務(wù)中直接獲得。
并且微軟通過與OpenAI的合作,積累了大量經(jīng)驗(yàn),當(dāng)其他合作方找來、想要同樣的基礎(chǔ)設(shè)施時(shí),微軟也可以提供。
現(xiàn)在,微軟的Azure數(shù)據(jù)中心已經(jīng)覆蓋了全球60多個(gè)地區(qū)。
全新虛擬機(jī):NDH100v5在上面這個(gè)基礎(chǔ)架構(gòu)上,微軟一直在繼續(xù)改進(jìn)。
今天,微軟就官宣了全新的可大規(guī)模擴(kuò)展虛擬機(jī),這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 病床呼救器課題研究報(bào)告
- 班線長培訓(xùn)課程設(shè)計(jì)
- 班級(jí)管理隱形課程設(shè)計(jì)
- 班級(jí)活動(dòng)課程設(shè)計(jì)
- 班會(huì)主要活動(dòng)課程設(shè)計(jì)
- 玻璃溫室大棚工程方案
- 玻璃杯運(yùn)輸包裝課程設(shè)計(jì)
- 猜紙牌c 課程設(shè)計(jì)
- 愛綠護(hù)綠課程設(shè)計(jì)
- 愛護(hù)樹木項(xiàng)目課程設(shè)計(jì)
- 《耳穴療法治療失眠》課件
- 詢盤分析及回復(fù)
- 氯化工藝安全培訓(xùn)課件
- 指導(dǎo)巡察工作精細(xì)科學(xué)
- 企業(yè)法律知識(shí)培訓(xùn)消費(fèi)者權(quán)益保護(hù)實(shí)務(wù)
- 快樂讀書吧-讀后分享課:《十萬個(gè)為什么》教學(xué)案列
- 2024年 貴州茅臺(tái)酒股份有限公司招聘筆試參考題庫含答案解析
- 河上建壩糾紛可行性方案
- 第五單元學(xué)雷鋒在行動(dòng)(教案)全國通用五年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)
- 2024年華融實(shí)業(yè)投資管理有限公司招聘筆試參考題庫含答案解析
- 2024年1月普通高等學(xué)校招生全國統(tǒng)一考試適應(yīng)性測試(九省聯(lián)考)歷史試題(適用地區(qū):貴州)含解析
評(píng)論
0/150
提交評(píng)論