華為-邁向智能世界2024:數(shù)據(jù)存儲(chǔ)白皮書(shū)_第1頁(yè)
華為-邁向智能世界2024:數(shù)據(jù)存儲(chǔ)白皮書(shū)_第2頁(yè)
華為-邁向智能世界2024:數(shù)據(jù)存儲(chǔ)白皮書(shū)_第3頁(yè)
華為-邁向智能世界2024:數(shù)據(jù)存儲(chǔ)白皮書(shū)_第4頁(yè)
華為-邁向智能世界2024:數(shù)據(jù)存儲(chǔ)白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩120頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

HUAWEI邁向智能世界白皮書(shū)2024構(gòu)建萬(wàn)物互聯(lián)的智能世界人類出現(xiàn)在地球上,已有數(shù)十萬(wàn)年的歷史,但人類文明真正的高速發(fā)展時(shí)期也僅僅是最近幾千學(xué)習(xí)、演進(jìn)、發(fā)展,直接促進(jìn)了人類社會(huì)文明的高速發(fā)展。值得一提的是,以前在中世紀(jì)歐洲采用羊皮進(jìn)行重要文字的記錄,當(dāng)時(shí)一本書(shū)上千頁(yè),需要數(shù)百?gòu)堁蚱?lái)制作,是十分復(fù)雜和昂貴的,不在人們發(fā)明以數(shù)字化形式保存和傳播信息后,人類進(jìn)入數(shù)字時(shí)代,而數(shù)字化形式的信息則被稱為數(shù)據(jù)。因?yàn)閿?shù)據(jù)可以被高效處理,這促進(jìn)了數(shù)據(jù)爆發(fā)式增長(zhǎng)。而數(shù)據(jù)存儲(chǔ)作為保存數(shù)據(jù)的載體,如同新時(shí)代的“紙張”,開(kāi)始加速人類文明的躍遷。我們是新時(shí)代的數(shù)據(jù)存儲(chǔ)締造者、完善者、創(chuàng)缺數(shù)據(jù),不AI。伴隨著AI大模型持續(xù)成熟并走向多模態(tài),數(shù)據(jù)逐漸成為AI的關(guān)鍵,因?yàn)锳I是以電腦模擬人腦的思考方式、從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、總結(jié)知識(shí),再將這些知識(shí)融入不同的業(yè)務(wù)場(chǎng)景,生成業(yè)務(wù)咨詢師、編程機(jī)器人、智能客服等,讓它們擁有自主學(xué)習(xí)的大腦并實(shí)現(xiàn)自我進(jìn)化。廣泛服務(wù)于金融、運(yùn)營(yíng)商、政務(wù)、制造、電力、能源、醫(yī)療、科研教育、交通等多個(gè)行業(yè),在全球擁有超過(guò)26,000家客戶。通過(guò)與業(yè)界專家、客戶和伙伴深入交流,我們編寫了《邁向智能世界白皮書(shū)2024-數(shù)據(jù)存儲(chǔ)篇》白皮書(shū)報(bào)告,結(jié)合數(shù)字化、智能化,展望數(shù)據(jù)存儲(chǔ)在各行業(yè)中的發(fā)展趨勢(shì)和挑戰(zhàn),并提供行動(dòng)建議。我相信這是一次有意義的探索,將凝聚更多的產(chǎn)業(yè)力量共同推進(jìn)數(shù)據(jù)過(guò)去三十年,新技術(shù)、新應(yīng)用不斷涌現(xiàn),產(chǎn)生了海量數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)為這些數(shù)據(jù)提供了一個(gè)溫馨的“家”,幫助這些新技術(shù)、新應(yīng)用持續(xù)成長(zhǎng)。華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線愿與社會(huì)各界更加緊密攜手努力,匯聚產(chǎn)業(yè)力量,為更多新技術(shù)、新應(yīng)CONTENTS0101一1.1金融1.2運(yùn)營(yíng)商1.3政務(wù)1.4制造1.5電力1.6科研教育1.7醫(yī)療1.8行業(yè)數(shù)智化:數(shù)據(jù)是關(guān)鍵ONTENTS0202二二2.1數(shù)據(jù)覺(jué)醒:充分發(fā)揮歷史數(shù)據(jù)價(jià)值2.2數(shù)據(jù)生成與合成:讓數(shù)據(jù)為數(shù)智化而生2.3數(shù)據(jù)效率:以高效數(shù)據(jù)訪問(wèn)使能高效數(shù)據(jù)處理,加速行業(yè)數(shù)智化33353903三3.1基于存算分離架構(gòu)的AI-Ready數(shù)據(jù)基礎(chǔ)設(shè)施3.2全閃存助力高效數(shù)據(jù)處理3.3存儲(chǔ)內(nèi)生安全成為基本需求3.4AI數(shù)據(jù)湖使能數(shù)據(jù)可視可管可用3.5訓(xùn)/推一體機(jī)加速AI大模型落地行業(yè)應(yīng)用42495254規(guī)模定律(ScalingLaw)揭示了AI人工智能在當(dāng)前深度學(xué)習(xí)算法框架下,算力和數(shù)據(jù)之間走向千行萬(wàn)業(yè)并得以應(yīng)用,從辦公輔助逐漸走向生產(chǎn)決策,從降低成本逐步走向增加效率,從管理當(dāng)下逐漸走向預(yù)測(cè)未來(lái),從高容錯(cuò)場(chǎng)景逐漸走向低容錯(cuò)場(chǎng)景,不斷引發(fā)各行各業(yè)智能化轉(zhuǎn)型和業(yè)務(wù)變革。在這個(gè)過(guò)程中,人們逐漸發(fā)現(xiàn),進(jìn)一步深化并加速業(yè)務(wù)數(shù)字化轉(zhuǎn)型、以產(chǎn)生數(shù)量更多、類型更豐富的高價(jià)值數(shù)據(jù),其重要性對(duì)于AI而言,不亞于喚醒歷史沉睡數(shù)據(jù)。數(shù)字化和智能化以數(shù)據(jù)為紐帶,相互促進(jìn)、加速和融合,逐漸走向兩者相結(jié)合的數(shù)智化,這對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施提出了新的更1AI大模型走向多模態(tài),算力集群規(guī)模和數(shù)據(jù)規(guī)模持續(xù)增長(zhǎng),只有算力和存力協(xié)同演進(jìn)、算存2在AI大模型訓(xùn)練階段,伴隨AI算力集群規(guī)模增長(zhǎng),相鄰訓(xùn)練中斷的間隔時(shí)間越來(lái)越短,這帶來(lái)了更加頻繁的Checkpoint存檔,也帶來(lái)能以快速完成Checkpoint的保存于加載。與3智能化升級(jí)過(guò)程中,一方面加速了數(shù)字化轉(zhuǎn)型,產(chǎn)生更多高價(jià)值業(yè)務(wù)數(shù)據(jù),另一方面降低了4伴隨AI算力集群規(guī)模增長(zhǎng),對(duì)海量多源異構(gòu)數(shù)據(jù)的高效管理逐漸成為AI賽道的關(guān)鍵競(jìng)爭(zhēng)5千行萬(wàn)業(yè)在嘗試將AI落地到行業(yè)應(yīng)用的過(guò)程中,發(fā)現(xiàn)面臨基礎(chǔ)設(shè)施部署、大模型選擇、二次訓(xùn)練和監(jiān)督微調(diào)等方面的困難。復(fù)用基礎(chǔ)設(shè)施廠商4面向以AI大模型為代表的企業(yè)智能化新應(yīng)用,新的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)也正在逐漸形成。為了1重視存算分離架構(gòu)的靈活性和獨(dú)立擴(kuò)展,利用存算分離架構(gòu)有效簡(jiǎn)化智算集群管理、讓計(jì)算和存儲(chǔ)分別按需擴(kuò)展;關(guān)注橫向擴(kuò)展、性能線增、多協(xié)議互通等數(shù)智化2全閃存是數(shù)智化時(shí)代提升數(shù)據(jù)處理效率、滿足業(yè)務(wù)需求的最優(yōu)解,同時(shí)滿足不斷增長(zhǎng)的數(shù)字化轉(zhuǎn)型和日益深化的智能化變革;與此同時(shí),配合向量RAG、長(zhǎng)上下文記憶存儲(chǔ)等3不管是產(chǎn)生了更多數(shù)據(jù)的數(shù)字化,還是持續(xù)成長(zhǎng)的智能化,均需要構(gòu)建防治結(jié)合數(shù)據(jù)安5針對(duì)AI大模型在行業(yè)場(chǎng)景的落地,用好訓(xùn)/01隨著AI大模型能力和性能持續(xù)提升,AI正逐漸由大模型中心訓(xùn)練走向行業(yè)應(yīng)用,引發(fā)各行各業(yè)智在AI大模型時(shí)代,算力、算法、數(shù)據(jù)構(gòu)成了大模型訓(xùn)練三要素。規(guī)模定律(ScalingLaw)在規(guī)模定律的驅(qū)動(dòng)下,人們一邊不斷構(gòu)建更大規(guī)模的算力集群,一邊竭盡所能獲取更多的原始數(shù)據(jù)和訓(xùn)練數(shù)據(jù),在實(shí)現(xiàn)了由單模態(tài)大模型向多模態(tài)大模型演進(jìn)的同時(shí),也在一些面向消費(fèi)者的業(yè)相比大模型訓(xùn)練和AI應(yīng)用于消費(fèi)者,行業(yè)用戶則更加關(guān)注AI大模型如何服務(wù)于業(yè)務(wù)、如何改善內(nèi)部運(yùn)營(yíng)、如何增強(qiáng)競(jìng)爭(zhēng)力。部分行業(yè)用戶已在某些場(chǎng)景中找到AI的切入點(diǎn),例如呼叫中心智能客服、醫(yī)院診療助手、在線情景式教育、廣告文案輔助生成、工業(yè)生產(chǎn)質(zhì)檢、復(fù)雜網(wǎng)絡(luò)智能運(yùn)維AI在行業(yè)的落地離不開(kāi)高質(zhì)量行業(yè)數(shù)據(jù)。一方面,行業(yè)和場(chǎng)景模型需要使用一定規(guī)基礎(chǔ)大模型進(jìn)行二次訓(xùn)練和監(jiān)督微調(diào),進(jìn)而得到一個(gè)面向特定行業(yè)的垂直模型;另一方面,在推理階段用于消除幻覺(jué)的知識(shí)庫(kù),同樣需要依賴高質(zhì)量的可以看到,不管是基礎(chǔ)大模型的訓(xùn)練,還是大模型在行業(yè)的應(yīng)用落地,都離不開(kāi)大規(guī)模高質(zhì)量1.1金融金融行業(yè)在數(shù)字化時(shí)代領(lǐng)航,開(kāi)創(chuàng)了金融行業(yè)在數(shù)字化時(shí)代領(lǐng)航,開(kāi)創(chuàng)了FinTech。今天,AI大模型與金融行業(yè)融合,在數(shù)字化所積累的海量數(shù)據(jù)資產(chǎn)基礎(chǔ)上,金融行業(yè)具備在數(shù)智化時(shí)代繼續(xù)領(lǐng)航的先發(fā)優(yōu)勢(shì)。以銀在從辦公助手、智能填單等辦公輔助逐步走向遠(yuǎn)程銀行、信貸風(fēng)控助手等生產(chǎn)場(chǎng)景。從1.1.1降本到增效:從辦公輔助走向業(yè)務(wù)決策金融機(jī)構(gòu)一直是率先將新興的IT技術(shù)應(yīng)用于業(yè)務(wù)場(chǎng)景的行業(yè)。目前,領(lǐng)先金入人工智能(AI)技術(shù),尤其是大模型技術(shù)的研發(fā)和布局,使能業(yè)務(wù)運(yùn)營(yíng)、產(chǎn)品戶服務(wù)等業(yè)務(wù)領(lǐng)域,從而提升金融服務(wù)的智能化。根據(jù)IDC相關(guān)報(bào)告,90%的銀行已經(jīng)開(kāi)始探索1在智能營(yíng)銷場(chǎng)景,通過(guò)AI技術(shù)分析大量的用戶數(shù)據(jù),并基于客戶需求和偏好提供個(gè)性化的金融服務(wù)。這不僅提升了用戶體驗(yàn),同時(shí)增強(qiáng)了客戶粘性。如,交通銀行利用AI技術(shù)挖掘客戶興趣偏好,用大模型強(qiáng)化業(yè)務(wù)端留客能力,各類理財(cái)模型策略累計(jì)觸客成交量近4千億元,較傳統(tǒng)江蘇農(nóng)行和中國(guó)工商銀行分別推出了類ChatGPT的大模型應(yīng)用ChatABC和基于昇騰AI的金融行業(yè)通用模型,用于智能化地推薦理財(cái)產(chǎn)品。上海浦發(fā)銀行則利用多模態(tài)人機(jī)交互、知識(shí)圖3在信貸審批的風(fēng)控場(chǎng)景,AI幫助簡(jiǎn)化和優(yōu)化了從信貸決策到量化交易和金融風(fēng)險(xiǎn)管理的流程,亞太區(qū)域某頭部銀行通過(guò)AI技術(shù)實(shí)現(xiàn)了用戶信貸申請(qǐng)過(guò)程從原來(lái)的數(shù)天縮短到只需一分鐘完成4智能客服在金融服務(wù)中有著顯著的應(yīng)用。以招商銀行信用卡公司為例,通過(guò)智能客服每天為客戶提供超過(guò)200萬(wàn)以上的在線人機(jī)交互,并能夠解決99%的用戶問(wèn)題。智能客服不僅能提升1.1.2完善多源多元海量數(shù)據(jù)管理,加強(qiáng)數(shù)據(jù)安全合規(guī)建設(shè)在人工智能應(yīng)用逐步普及的過(guò)程中,金融機(jī)構(gòu)在數(shù)據(jù)架構(gòu)、數(shù)據(jù)安全和業(yè)務(wù)連續(xù)性等方面面臨級(jí)別。以中國(guó)為例,根據(jù)北京金融信息化研究所(FITI)2023年發(fā)布的最新報(bào)告,目前金融機(jī)構(gòu)的數(shù)據(jù)量普遍達(dá)到PB級(jí),其中大型金融機(jī)構(gòu)的數(shù)據(jù)量超過(guò)100PB,并且未來(lái)五年預(yù)計(jì)年均增幅將達(dá)到24.33%。此外,國(guó)有大型銀行的核心業(yè)務(wù)系統(tǒng)存儲(chǔ)規(guī)模也已達(dá)到百PB級(jí),票據(jù)影像等非高效率的訪問(wèn),進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化,是金融機(jī)構(gòu)必須考慮的問(wèn)題,例如,針對(duì)海量的數(shù)據(jù)0圖片,視頻,音頻,以及互聯(lián)網(wǎng)日志等各類金融數(shù)據(jù),不但數(shù)據(jù)格式陳舊復(fù)雜,而且分散在不同的業(yè)務(wù)領(lǐng)域,甚至不同的地域。比如大小機(jī)核心系統(tǒng)的數(shù)據(jù)格式無(wú)法直接與開(kāi)放平臺(tái)的信用卡系統(tǒng)的數(shù)據(jù)格式進(jìn)行數(shù)據(jù)交換;信貸業(yè)務(wù),財(cái)富管理業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)之間很難實(shí)現(xiàn)用戶信息共享。將這如中國(guó)某頭部銀行一直將數(shù)據(jù)視為基礎(chǔ)要素和戰(zhàn)略資源,在建立大數(shù)據(jù)資源管理系統(tǒng)方面,面臨有財(cái)富管理業(yè)務(wù)互聯(lián)網(wǎng)金融3、最后,金融行業(yè)數(shù)據(jù)處理,還必須滿足行業(yè)監(jiān)管和風(fēng)險(xiǎn)控制的合規(guī)要求。利用AI技術(shù)進(jìn)行個(gè)性化推薦和精準(zhǔn)廣告投放的精準(zhǔn)營(yíng)銷場(chǎng)景,對(duì)數(shù)據(jù)管理和隱私保護(hù)的挑戰(zhàn)進(jìn)一步增大,進(jìn)而促進(jìn)金融合規(guī)監(jiān)管的要求提升。同時(shí),人工智能應(yīng)用增加了金融機(jī)構(gòu)數(shù)據(jù)泄露的風(fēng)險(xiǎn)。2024年5月,美國(guó)某知名銀行遭LockBit勒索軟件攻擊,導(dǎo)致約上百萬(wàn)名客戶數(shù)據(jù)被盜。2024年6月,中國(guó)國(guó)因此,以容災(zāi)為基本手段的數(shù)據(jù)物理安全,和以備份為基本手段的數(shù)據(jù)邏輯安全保障等多重手段在18,00016,00014,00012,00010,0008,0006,0004,0002,0000Thenumberofcyberincidents,especiallyofamaliciousnature,hasincreasedsharplyoverthepasttwodecades...1.GlobalNumberofCyberIncidents,2004-23Nonmalicious:othersMalicious:othersData:unintentionaldisclosurePhishing,spoo?ng,andsocialengineeringNetwork/websitedisruptionCyberextortionData:maliciousbreachCyberattacksaccordingtoClSSM(rightscale) 3,000 2,400 1,800 1,200 6002004050607080910111213141516171819202122230200405060708091011121314151617181920212223如上圖所示,國(guó)際貨幣基金組織IMF發(fā)布的《Glo因此,金融機(jī)構(gòu)擁抱AI新技術(shù)應(yīng)用,重塑服務(wù)模式,喚醒數(shù)據(jù)價(jià)值的同時(shí),要關(guān)注AI1.2運(yùn)營(yíng)商“從電信企業(yè)向科技企業(yè)轉(zhuǎn)型”已成為全球大部分“從電信企業(yè)向科技企業(yè)轉(zhuǎn)型”已成為全球大部分成式AI走深向?qū)?,電信運(yùn)營(yíng)商作為通信基礎(chǔ)設(shè)施的建設(shè)者和運(yùn)營(yíng)者,擁有先天的資源優(yōu)勢(shì)、數(shù)據(jù)優(yōu)勢(shì)、行業(yè)使能經(jīng)驗(yàn)優(yōu)勢(shì),既為AI的發(fā)展提供基礎(chǔ)設(shè)施支撐,又將會(huì)是AI應(yīng)用落地的1.2.1開(kāi)發(fā)到應(yīng)用:蓄力大模型訓(xùn)推,對(duì)內(nèi)運(yùn)營(yíng)增效,對(duì)外賦能千行萬(wàn)業(yè)當(dāng)前全球運(yùn)營(yíng)商形成三波AI陣營(yíng),第一波智能化先鋒正在構(gòu)建“終端設(shè)備、智算資源、模型應(yīng)用”的全棧AI能力,如韓國(guó)SKT、中國(guó)移動(dòng)等;第二波運(yùn)營(yíng)商積極布局行業(yè)大模型,如新加坡電信Singtel、德國(guó)電信、阿聯(lián)酋e&等合資成立全球電信AI聯(lián)盟(GlobalTelcoAIAlliance,GTAA),以專門開(kāi)發(fā)及推出多語(yǔ)言的電信語(yǔ)言大模型服務(wù)話務(wù)中心和智慧運(yùn)營(yíng);第三波務(wù)實(shí)型運(yùn)營(yíng)商關(guān)注AI帶來(lái)的實(shí)際價(jià)值,嘗試借助第三方合作伙伴的AI能力實(shí)現(xiàn)降本增效,如Orange、未來(lái)兩到三年,運(yùn)營(yíng)商的大部分應(yīng)用和業(yè)務(wù)都將被AI重塑。據(jù)Valuates預(yù)測(cè),2027年全球電信AI市場(chǎng)規(guī)模將增長(zhǎng)到150億美元,近三年年均復(fù)合增長(zhǎng)率42.6%。生成式AI主要通過(guò)兩個(gè)1、AI應(yīng)用與運(yùn)營(yíng)商現(xiàn)有業(yè)務(wù)結(jié)合,實(shí)現(xiàn)業(yè)務(wù)效率提升利用人工智能的分析、策略優(yōu)化與預(yù)測(cè)等能力來(lái)賦能網(wǎng)元、網(wǎng)絡(luò)等業(yè)務(wù)系統(tǒng),有助于提升電信網(wǎng)絡(luò)的智能規(guī)建、運(yùn)維、管控能力,并最終實(shí)現(xiàn)L4/L5級(jí)網(wǎng)絡(luò)自動(dòng)駕駛。如:韓國(guó)KT的AI語(yǔ)音機(jī)器人具備實(shí)時(shí)自動(dòng)總結(jié)等功能,將客戶請(qǐng)求的時(shí)間從20秒減少到了5秒。中國(guó)移動(dòng)反詐騙系統(tǒng)2、對(duì)外賦能產(chǎn)學(xué)研用,推動(dòng)智能升級(jí)另一方面,運(yùn)營(yíng)商可以將大模型能力外溢至行業(yè)客戶,面向政務(wù)、教育、醫(yī)療等推出行業(yè)大模型新應(yīng)用。如:中國(guó)移動(dòng)九天政務(wù)大模型為甘肅打造智慧政務(wù)助手,構(gòu)建20萬(wàn)實(shí)體和1000萬(wàn)業(yè)務(wù)關(guān)1.2.2盤活海量數(shù)據(jù),助力高效訓(xùn)練,使能大模型行業(yè)落地運(yùn)營(yíng)商要抓住大模型的發(fā)展機(jī)遇,需要構(gòu)建AI-Ready的基礎(chǔ)設(shè)施,AI-Ready的前提是Data-Ready。與此同時(shí),AI集群規(guī)模不斷擴(kuò)大,現(xiàn)在已經(jīng)已邁入萬(wàn)卡時(shí)代,大投入能否帶來(lái)顯在數(shù)字化、智能化的趨勢(shì)下,數(shù)據(jù)已經(jīng)成為繼土地、勞動(dòng)力、資本、技術(shù)之后的“第五大生產(chǎn)要素”,是驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)深化發(fā)展的核心動(dòng)力。特別是隨著生成式AI大爆發(fā),AI大模型賦予了數(shù)據(jù)新的生命力,數(shù)據(jù)蘊(yùn)含的價(jià)值進(jìn)一步涌現(xiàn),沒(méi)有充足、優(yōu)質(zhì)的數(shù)據(jù),大模型的學(xué)習(xí)能力將大打折億用戶和全國(guó)“4+N+31+X”數(shù)據(jù)中心等各類數(shù)據(jù),當(dāng)前核心數(shù)據(jù)規(guī)模已達(dá)650PB,每日還會(huì)新為大模型注入源源不斷的數(shù)據(jù)“燃料”,才能實(shí)現(xiàn)L4級(jí)網(wǎng)絡(luò)自動(dòng)駕駛要求的智能基站節(jié)能、智能天線權(quán)值優(yōu)化、投訴智能管理、網(wǎng)絡(luò)費(fèi)用稽核等能力,并給出科學(xué)的“規(guī)、建、維、優(yōu)、營(yíng)”的策AI集群是成本和能耗的吞金獸,如GPT-3單次訓(xùn)練的電力消耗相當(dāng)于500噸二氧化碳排放當(dāng)量,相當(dāng)于300個(gè)家庭一年的用電量,而Sora的單次訓(xùn)練消耗是GPT3的1000倍。AI集群算力”到“挖潛力”,科學(xué)規(guī)劃智算底座,比如:合理配置存儲(chǔ)集群性能,選擇高性能、高可靠的此外,生成式AI的商業(yè)正循環(huán)很重要的場(chǎng)景在邊緣應(yīng)用,尤其在ToB政企市場(chǎng)有大量AI應(yīng)用市場(chǎng)前景,如醫(yī)療自助問(wèn)診、制造工業(yè)質(zhì)檢、金融智能客服、政務(wù)辦事助手等,這些場(chǎng)景迫切需要“私域知識(shí)庫(kù)+訓(xùn)練/推理GPU+檢索增強(qiáng)生成RAG+場(chǎng)景化大模型”這樣的一體營(yíng)商需要考慮采用一站式的訓(xùn)/推超融合一體機(jī)快速推出產(chǎn)品,實(shí)現(xiàn)大模型的商業(yè)兌現(xiàn),打通大模型應(yīng)用落地“最后一公里”。如中國(guó)移動(dòng)九天超融合信創(chuàng)一體機(jī),為行業(yè)用戶提供了開(kāi)箱即用的大1.3政務(wù)在政務(wù)領(lǐng)域,人們正在探索通過(guò)人工智能應(yīng)用于出入境管理、稅收監(jiān)管、政務(wù)問(wèn)答等公在政務(wù)領(lǐng)域,人們正在探索通過(guò)人工智能應(yīng)用于出入境管理、稅收監(jiān)管、政務(wù)問(wèn)答等公共服務(wù)領(lǐng)域,提高公共服務(wù)組織的管理效能與風(fēng)險(xiǎn)分人工智能嵌入公共服務(wù)治理也面臨著實(shí)時(shí)數(shù)據(jù)待共享、歷史數(shù)據(jù)待激活、敏感數(shù)據(jù)待保1.3.1服務(wù)到治理:優(yōu)化公共辦事服務(wù)效率,增強(qiáng)公共業(yè)務(wù)治理能力牛津智庫(kù)OxfordInsights發(fā)布的2023年政府人工智慧完備指數(shù)(GovernmentArtificialIntelligenceReadinessIndex2023),報(bào)告對(duì)全球國(guó)家和地區(qū)政府對(duì)運(yùn)用人工智能提供公共服務(wù)的準(zhǔn)備程度做出評(píng)估,涵蓋愿景、治理與道德、數(shù)字能力等10個(gè)維度42個(gè)指標(biāo)。其中,數(shù)據(jù)是政務(wù)領(lǐng)域人工智能演進(jìn)的關(guān)鍵推動(dòng)因素,最常見(jiàn)的是語(yǔ)言類數(shù)據(jù)總量是圖片類數(shù)據(jù)總量的8倍,而當(dāng)前數(shù)據(jù)還主要用于客服系統(tǒng)、審批系統(tǒng)、分析決策輔助,并且高收入國(guó)家和低收入國(guó)家之間在數(shù)據(jù)收集、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全方面的差距尤為明顯,這反映了全球數(shù)字鴻溝的存在。美國(guó)在政務(wù)領(lǐng)域的人工智能應(yīng)用的得分排名第一,其次為新加坡和英國(guó),中國(guó)排名第十六。世界各國(guó)紛紛搶抓人工智能發(fā)展的重大機(jī)遇,并積極應(yīng)對(duì)人工智能部署于公共服務(wù)中所遇到的政策、社會(huì)、經(jīng)濟(jì)、技機(jī)適應(yīng)性數(shù)字容量治理與道德愿景數(shù)據(jù)代表性數(shù)據(jù)適應(yīng)性基礎(chǔ)設(shè)施數(shù)據(jù)和基礎(chǔ)設(shè)施人力資本創(chuàng)新能力技術(shù)部門政府機(jī)適應(yīng)性數(shù)字容量治理與道德愿景數(shù)據(jù)代表性數(shù)據(jù)適應(yīng)性基礎(chǔ)設(shè)施數(shù)據(jù)和基礎(chǔ)設(shè)施人力資本創(chuàng)新能力技術(shù)部門政府構(gòu)尺寸人工智能能夠快速處理和分析大量出入境數(shù)據(jù),實(shí)現(xiàn)自動(dòng)化身份驗(yàn)證、智能風(fēng)險(xiǎn)評(píng)估和實(shí)時(shí)數(shù)威脅,幫助管理部門提前采取措施。這種智能化的管理方式不僅提高了工作效率,還增強(qiáng)了安全性2、稅務(wù)系統(tǒng)可以升稅務(wù)管理的效率和準(zhǔn)確性。通過(guò)AI技術(shù),稅務(wù)部門可以實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)處理、智能化在的稅務(wù)風(fēng)險(xiǎn),幫助稅務(wù)人員提前采取措施。例如,通過(guò)比較房地產(chǎn)公司的交易數(shù)據(jù)和實(shí)際稅務(wù)申報(bào)數(shù)據(jù),并結(jié)合建筑行業(yè)的標(biāo)準(zhǔn)成本數(shù)據(jù)(水泥、鋼筋等基礎(chǔ)材料),快速的評(píng)估出稅收漏報(bào)的可3、政務(wù)問(wèn)答各業(yè)務(wù)部門對(duì)于政策的傳播、規(guī)則的遵從,以及具體案例的咨詢,都存在著大量的問(wèn)詢工作。通過(guò)自然語(yǔ)言處理(NLP)和機(jī)器學(xué)習(xí)技術(shù),AI可以快速理解并回答市民的各種政務(wù)問(wèn)題,提供隨時(shí)為市民提供政策解讀、辦事指南和常見(jiàn)問(wèn)題解答。這種智能化的問(wèn)答系統(tǒng)不僅減少了人工客服1.3.2共建跨部門數(shù)據(jù)流動(dòng),保護(hù)敏感數(shù)據(jù),助力政通人和人工智能在公共服務(wù)治理中的應(yīng)用,雖然能夠顯著提升效率和服務(wù)質(zhì)量,但也面臨著諸多風(fēng)險(xiǎn)歷史數(shù)據(jù)的激活和利用需要克服數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)量龐大等問(wèn)題。最為關(guān)鍵的是,敏感數(shù)據(jù)的保護(hù)必須得到高度重視,采用加密技術(shù)和權(quán)限管理措以中國(guó)社會(huì)信用體系建設(shè)為例,通過(guò)數(shù)據(jù)共享和信息交換,促進(jìn)社會(huì)誠(chéng)信建設(shè)以及對(duì)政府各部稅務(wù)記錄,環(huán)保檢測(cè)情況等信息,及時(shí)發(fā)現(xiàn)異常行為并發(fā)出預(yù)警;針對(duì)個(gè)人,個(gè)性化還款計(jì)劃:AI增加信用等級(jí),這些AI應(yīng)用不僅提高了社會(huì)信用體系的效率和正性。因此數(shù)據(jù)共享和信息交換對(duì)于AI非常重要,而數(shù)據(jù)共享2、歷史數(shù)據(jù)待激活全球多國(guó)政務(wù)機(jī)構(gòu)持續(xù)探索基于歷史數(shù)據(jù)提升服務(wù)能力,以稅務(wù)為代表的部委正在積極激活稅經(jīng)濟(jì)發(fā)展水平和稅收基礎(chǔ)不同,AI可以分析同一政策在不同地區(qū)的效果,的區(qū)域稅收政策。評(píng)估政策效果——通過(guò)分析過(guò)去5年的稅收數(shù)據(jù),AI可以評(píng)估某一稅收政策實(shí)施前后的稅收收入變化。某一減稅政策是否真正促進(jìn)了經(jīng)濟(jì)增長(zhǎng),增加了稅收收入,還是導(dǎo)致了稅預(yù)測(cè)未來(lái)幾年內(nèi)該稅收優(yōu)惠政策給特定行業(yè)帶來(lái)的投資影響和發(fā)展變化。AI乎了我們的想象,這對(duì)數(shù)據(jù)存儲(chǔ)的讀取速度提出了極高的要求。為了滿足AI模型的快速訓(xùn)練和實(shí)時(shí)推理,存儲(chǔ)系統(tǒng)必須具備超高的讀取速度,以便迅速訪問(wèn)和處理海量數(shù)據(jù)。這不僅要求硬件層面的高性能存儲(chǔ)設(shè)備,如NVMeSSD,還需要優(yōu)化的數(shù)據(jù)管理和緩存策略,以確保數(shù)據(jù)能夠以最快3、敏感數(shù)據(jù)待保護(hù)公共服務(wù)領(lǐng)域涉及到大量的關(guān)鍵敏感數(shù)據(jù),例如出入境管理涉及到敏感數(shù)據(jù)包括個(gè)人身份信息地點(diǎn)、航班信息)、簽證信息等。AI技術(shù)雖然提升了數(shù)據(jù)處理和分析的效率,但和濫用的潛在風(fēng)險(xiǎn),特別是在跨境數(shù)據(jù)傳輸過(guò)程中,敏感信息可能會(huì)被不法分子利用。因此建立公共數(shù)據(jù)管理制度和技術(shù)手段必不可少,而作為數(shù)據(jù)安全的最后一道防線,數(shù)據(jù)存儲(chǔ)起著至關(guān)重要的作用。數(shù)據(jù)加密——所有存儲(chǔ)的數(shù)據(jù)必須進(jìn)行加密處理,以防止未經(jīng)授權(quán)的訪問(wèn)和數(shù)據(jù)泄露。訪問(wèn)控制——嚴(yán)格控制對(duì)數(shù)據(jù)的訪問(wèn)權(quán)限,確保只有經(jīng)過(guò)授權(quán)的人員才能訪問(wèn)敏感數(shù)據(jù)。數(shù)據(jù)備份——定期進(jìn)行數(shù)據(jù)備份,確保在數(shù)據(jù)丟失或損壞時(shí)能夠及時(shí)恢復(fù)。日志記錄——記錄所有對(duì)數(shù)據(jù)的訪問(wèn)和操作日志,以便在發(fā)生安全事件時(shí)進(jìn)行追蹤和審計(jì)。數(shù)據(jù)隔離——將敏感數(shù)據(jù)與其他數(shù)據(jù)隔離存儲(chǔ),減少數(shù)據(jù)泄露的風(fēng)險(xiǎn)。1.4制造AIAI在智能制造領(lǐng)域提升生產(chǎn)效率和產(chǎn)品質(zhì)量,應(yīng)用于CAD設(shè)計(jì)、需求預(yù)測(cè)、智能排產(chǎn)、預(yù)測(cè)性維護(hù)和決策支持。與此同時(shí),數(shù)據(jù)收集與分析中的數(shù)據(jù)量激增、歷史數(shù)據(jù)匯聚、數(shù)據(jù)1.4.1局部到全程:覆蓋設(shè)計(jì)、生產(chǎn)、經(jīng)營(yíng)、售后,助力端到端增效隨著科技的飛速發(fā)展,人工智能技術(shù)在制造業(yè)中的應(yīng)用已經(jīng)從基礎(chǔ)的售后機(jī)器人擴(kuò)展到整個(gè)生1、AI輔助進(jìn)行CAD設(shè)計(jì)對(duì)于大多數(shù)制造企業(yè)而言,計(jì)算機(jī)輔助設(shè)計(jì)(CAD)技術(shù)被仿真越精準(zhǔn),后續(xù)在生產(chǎn)階段才能更快速投產(chǎn)并快速出貨。在AI時(shí)代以前,CAD設(shè)計(jì)只能依賴有經(jīng)驗(yàn)的員工進(jìn)行產(chǎn)品設(shè)計(jì),而后進(jìn)行評(píng)審和檢驗(yàn),耗時(shí)耗力且有可能出現(xiàn)錯(cuò)誤的變化,在設(shè)計(jì)階段可以通過(guò)AI來(lái)輔助自動(dòng)生成CAD系統(tǒng)設(shè)計(jì)方案,也可以根據(jù)歷史最佳實(shí)踐設(shè)計(jì)流程自動(dòng)化實(shí)施智能設(shè)計(jì)方案設(shè)計(jì)靈感與創(chuàng)意生成設(shè)計(jì)流程自動(dòng)化實(shí)施智能設(shè)計(jì)方案1111通過(guò)與CAD等設(shè)計(jì)軟件的集12222222、AI支持需求預(yù)測(cè)與智能排產(chǎn)對(duì)于大部分制造企業(yè)而言,在一年中有銷售高峰和冷淡期,而銷售的潮汐關(guān)聯(lián)著采購(gòu)、生產(chǎn)、倉(cāng)儲(chǔ)、供應(yīng)等多個(gè)部門的工作。以往只能通過(guò)銷售預(yù)測(cè)來(lái)進(jìn)行排單,預(yù)測(cè)的準(zhǔn)確性直接影響著整個(gè)產(chǎn)線。進(jìn)入AI時(shí)代后,通過(guò)分析銷售歷史數(shù)據(jù)、供應(yīng)鏈狀態(tài)和市場(chǎng)價(jià)格等因素,AI可以預(yù)測(cè)產(chǎn)品降低生產(chǎn)和物流成本,減少生產(chǎn)延誤和物料浪費(fèi)。某大型半導(dǎo)體顯示屏制造企業(yè),分析了歷史生產(chǎn)數(shù)據(jù),并采集分析了整個(gè)制造過(guò)程中的設(shè)備數(shù)據(jù)、環(huán)境數(shù)據(jù)、產(chǎn)品數(shù)據(jù),進(jìn)而運(yùn)用AI技術(shù)對(duì)整個(gè)制造過(guò)程進(jìn)行智能化改造,實(shí)現(xiàn)了制造過(guò)程的自動(dòng)化和智能化,其生產(chǎn)效率和產(chǎn)品質(zhì)量得到了顯著3、AI在生產(chǎn)過(guò)程中做預(yù)測(cè)性維護(hù)生產(chǎn)過(guò)程中的設(shè)備不可避免的會(huì)出現(xiàn)故障甚至停機(jī),動(dòng)輒小時(shí)級(jí)的維修嚴(yán)重影響產(chǎn)品的生產(chǎn)進(jìn)度,尤其在交單高峰期的停機(jī)甚至?xí)绊懙焦拘抛u(yù)。以往只能通過(guò)有經(jīng)驗(yàn)的老師傅多班24小時(shí)巡檢保障,費(fèi)人費(fèi)時(shí)費(fèi)力還沒(méi)法完全避免設(shè)備故障。被動(dòng)響應(yīng)到主動(dòng)維護(hù)一直是設(shè)備運(yùn)維的進(jìn)階,AI可以通過(guò)實(shí)時(shí)監(jiān)測(cè)設(shè)備運(yùn)行狀態(tài),預(yù)測(cè)潛在的故障并提前維護(hù),這樣可以減少設(shè)著降低維修成本;同時(shí)也可以利用機(jī)器算法優(yōu)化生產(chǎn)工藝,調(diào)整產(chǎn)品生產(chǎn)參數(shù),并利用AI系統(tǒng)自生產(chǎn)過(guò)程優(yōu)化生產(chǎn)過(guò)程優(yōu)化實(shí)時(shí)監(jiān)控預(yù)測(cè)性維護(hù)智能排產(chǎn)某跨國(guó)大型生產(chǎn)PLC(可編程邏輯控制器)的數(shù)字化工廠,通過(guò)整合和改造數(shù)據(jù)基礎(chǔ)設(shè)施,與PLM、MES、ERP等數(shù)字化系統(tǒng)和平臺(tái)無(wú)縫集成,并廣泛應(yīng)用IoT技術(shù)收集各類傳感器數(shù)據(jù)5000萬(wàn)條/天,約1TB/天并存儲(chǔ)。而后使用多種AI技術(shù),包括實(shí)時(shí)數(shù)據(jù)分析、機(jī)器視覺(jué)系統(tǒng)等對(duì)其中約數(shù)百GB數(shù)據(jù)進(jìn)行分析,包括生產(chǎn)過(guò)程監(jiān)控、產(chǎn)品質(zhì)量檢測(cè)、設(shè)備主動(dòng)維護(hù)等,不僅提高了生產(chǎn)效率和產(chǎn)品質(zhì)量,還實(shí)現(xiàn)了生產(chǎn)過(guò)程的透明化和可追溯性,該工廠的產(chǎn)品上市時(shí)間縮短了近20%,生產(chǎn)效率提高了13%,并且產(chǎn)品質(zhì)量也得到了顯著提升。4、AI在經(jīng)營(yíng)管理中支持決策制造企業(yè)先一步發(fā)布有競(jìng)爭(zhēng)力的產(chǎn)品,大概率可以快速贏得市場(chǎng),甚至在一定程度上影響著市場(chǎng)的走向。怎樣通過(guò)市場(chǎng)分析和經(jīng)營(yíng)管理進(jìn)行精準(zhǔn)的決策一直是企業(yè)高層思考的問(wèn)題?以往只能通但是缺乏數(shù)據(jù)支持和詳盡的決策流程,難以固化為標(biāo)準(zhǔn)決策機(jī)制。進(jìn)入AI時(shí)代,通過(guò)大數(shù)據(jù)分析人力、市場(chǎng)趨勢(shì)、消費(fèi)水平等多方面情況,為公司高層提供經(jīng)營(yíng)決策分析,有理有據(jù),全過(guò)程數(shù)據(jù)分析鏈條完整,并且可以根據(jù)各個(gè)流程的變化,快速分析決策,縮短決策過(guò)程的時(shí)間,而且決策流5、AI支持售后7*24咨詢服務(wù)智能聊天機(jī)器人在各個(gè)領(lǐng)域均有應(yīng)用,在制造企業(yè)也不例外,通過(guò)智能聊天機(jī)器人提供7*241.4.2喚醒歷史沉睡數(shù)據(jù),增強(qiáng)全流程生產(chǎn)效率AI在智能制造領(lǐng)域的應(yīng)用不僅是技術(shù)的革命,也是推動(dòng)制造業(yè)全面數(shù)字化轉(zhuǎn)型生產(chǎn)階段需求預(yù)測(cè)和智能排產(chǎn)以及設(shè)備維護(hù)和產(chǎn)品檢測(cè)、售后階段的智能機(jī)器人服務(wù)響應(yīng),均需要大量的數(shù)據(jù)支持AI在對(duì)應(yīng)階段的作用。而AI在使用數(shù)據(jù)進(jìn)行分析面臨的挑戰(zhàn)主要表現(xiàn)在以下幾個(gè)諸如在產(chǎn)品的生產(chǎn)測(cè)試過(guò)程中,實(shí)時(shí)數(shù)據(jù)收集與分析,是產(chǎn)品良率和設(shè)備長(zhǎng)時(shí)間正常運(yùn)行的保證。企業(yè)借助各類傳感器和物聯(lián)網(wǎng)設(shè)備,能夠?qū)崟r(shí)收集制造設(shè)備的運(yùn)行數(shù)據(jù),包括溫度、速度、壓除了制造設(shè)備的傳感器實(shí)時(shí)數(shù)據(jù)以外,還需要長(zhǎng)時(shí)間、高頻率的收集產(chǎn)品的質(zhì)檢數(shù)據(jù),包括產(chǎn)品質(zhì)檢過(guò)程中的圖片、音頻等。如果要AI分析的更加精準(zhǔn),收集這些數(shù)據(jù)的周期也會(huì)從以往的小時(shí)級(jí)收集的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),每天采集到的數(shù)據(jù)從MB到GB級(jí)甚至TB級(jí)增長(zhǎng)。某全球工程機(jī)械的領(lǐng)先企業(yè)通過(guò)56萬(wàn)+臺(tái)的物聯(lián)網(wǎng)設(shè)備一天收集的數(shù)據(jù)量就從原來(lái)的GB級(jí)到當(dāng)前的10TB級(jí)。收集數(shù)據(jù)的增多不僅僅是因?yàn)锳I可處理的數(shù)據(jù)量增多,從原來(lái)的MB到如今的GB級(jí),那么收集的數(shù)據(jù)量也需要數(shù)量級(jí)的增長(zhǎng);同時(shí)該企業(yè)也認(rèn)識(shí)到AI給制造行業(yè)帶來(lái)的巨大機(jī)會(huì),更多的數(shù)據(jù)意味著在今后的變局中擁有更多的“有效資產(chǎn)”,具備更牢靠的市場(chǎng)地位和強(qiáng)大的話語(yǔ)權(quán)。收集的數(shù)據(jù)量增加了1000倍以上,如何保障這些實(shí)時(shí)數(shù)據(jù)能夠快速存的下、用的好,就成為制造企業(yè)不對(duì)于一些大型企業(yè)而言,海量的歷史數(shù)據(jù)如何被激活價(jià)值,而不是機(jī)房里冷冰冰的機(jī)器,也是需要考慮的問(wèn)題。如何進(jìn)行降本增效一直是擺在制藥行業(yè)面前的主要難題。一家大型制藥企業(yè)也面臨同樣的挑戰(zhàn),怎樣在不增加過(guò)多質(zhì)檢人力、不增加產(chǎn)線設(shè)備的情況下提升產(chǎn)品良率,進(jìn)而增加盈利?多次探尋均無(wú)果的情況下他們盯上了已有的歷史記錄數(shù)據(jù)。通過(guò)對(duì)分布于多個(gè)地域的多種類型的歷史數(shù)據(jù)進(jìn)行多源匯聚的整合,并對(duì)生產(chǎn)過(guò)程中的生產(chǎn)工藝和設(shè)備運(yùn)行狀態(tài)進(jìn)行AI分析,識(shí)別出了9個(gè)關(guān)鍵生產(chǎn)工藝參數(shù),通過(guò)AI模擬實(shí)驗(yàn)對(duì)這些參數(shù)進(jìn)行優(yōu)化,最終將藥品產(chǎn)率提升了50%,良率也提升了3%,公司因此每年在單個(gè)藥物品種就增收500-1000萬(wàn)美元。諸如此類,通過(guò)深度學(xué)習(xí)算法,AI可以從海量歷史數(shù)據(jù)中識(shí)別出模式和異常,為生產(chǎn)科學(xué)依據(jù)。沉睡的歷史數(shù)據(jù)被喚醒,并再次得以分析使用。怎樣快速、簡(jiǎn)單、高效的匯聚多源的歷2、數(shù)據(jù)歸類與整理過(guò)程中的挑戰(zhàn)a)數(shù)據(jù)清理:要確保收集的數(shù)據(jù)能夠被AI使用和產(chǎn)生價(jià)值,務(wù)必要進(jìn)行數(shù)據(jù)清理,包括數(shù)據(jù)補(bǔ)充缺失值、清洗數(shù)據(jù)集格式、糾正數(shù)據(jù)的物理和邏輯錯(cuò)誤等。某電子制造集通過(guò)建立單獨(dú)AI工業(yè)數(shù)據(jù)空間,接入多個(gè)工業(yè)軟件系統(tǒng),對(duì)數(shù)據(jù)進(jìn)行匯聚、處理和交叉驗(yàn)證,保障數(shù)據(jù)和行為可信、可證,同時(shí)糾正數(shù)據(jù)的邏輯錯(cuò)誤,輸出正確的數(shù)據(jù)格式,進(jìn)而才使用這些數(shù)據(jù)進(jìn)行AI分析和使用,提升了排產(chǎn)效率。為了在數(shù)據(jù)清理時(shí)更加簡(jiǎn)單,清理的時(shí)候無(wú)需做太多的無(wú)用功,這就要求數(shù)據(jù)在采集到寫入的過(guò)程中安全可靠,避免無(wú)意義的數(shù)據(jù)丟失和邏輯錯(cuò)誤。怎樣保障收集寫入的數(shù)據(jù)安全可靠,不出現(xiàn)邏輯錯(cuò)誤,或者在出現(xiàn)邏輯錯(cuò)誤的時(shí)候能夠自動(dòng)修復(fù),就成為制造企業(yè)必須考慮的問(wèn)題。當(dāng)然,除了收集中的問(wèn)題,也需要考慮數(shù)據(jù)清理的時(shí)候可能會(huì)對(duì)原始數(shù)b)數(shù)據(jù)標(biāo)簽:經(jīng)過(guò)清理的數(shù)據(jù)只有打上數(shù)據(jù)標(biāo)簽,才能夠幫助AI在訓(xùn)練時(shí)清晰理解數(shù)據(jù)的上下文,從而做出準(zhǔn)確預(yù)測(cè),并且相關(guān)的數(shù)據(jù)在使用過(guò)程中也會(huì)有不同的標(biāo)簽,尤其是生產(chǎn)數(shù)據(jù)、設(shè)1.5電力電力系統(tǒng)作為保障國(guó)計(jì)民生和支撐經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵基礎(chǔ)設(shè)施,持續(xù)面臨電網(wǎng)規(guī)模擴(kuò)大、電力系統(tǒng)作為保障國(guó)計(jì)民生和支撐經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵基礎(chǔ)設(shè)施,持續(xù)面臨電網(wǎng)規(guī)模擴(kuò)大、負(fù)荷增長(zhǎng)等挑戰(zhàn)。利用AI輔助發(fā)電管理、輸配電網(wǎng)負(fù)荷預(yù)測(cè)、安全巡檢和隱患識(shí)別等,可1.5.1預(yù)測(cè)到協(xié)同:精準(zhǔn)的電力供需預(yù)測(cè),使能高效的發(fā)輸變配協(xié)同在新型電力系統(tǒng)的建設(shè)中,電力供需預(yù)測(cè)的精準(zhǔn)度和發(fā)輸變配的高效協(xié)同至關(guān)重要。通過(guò)引入人工智能技術(shù),電力企業(yè)可以實(shí)現(xiàn)對(duì)負(fù)荷動(dòng)態(tài)和電價(jià)變化的精準(zhǔn)預(yù)測(cè),從而更好地匹配供需兩側(cè)的需求。這種協(xié)同不僅提高了電力系統(tǒng)的整體效率,還為實(shí)現(xiàn)清潔低碳、安全充裕、經(jīng)濟(jì)高效的電力1、發(fā)電階段:AI建模優(yōu)化發(fā)電管理,減少停機(jī)概率,識(shí)別潛藏問(wèn)題在世界500強(qiáng)的電力公司中,90%已經(jīng)使用智能電力分析系統(tǒng),通過(guò)電機(jī)、太陽(yáng)能板等發(fā)電設(shè)備的健康狀態(tài)進(jìn)行實(shí)時(shí)診斷,從而優(yōu)先更換高風(fēng)險(xiǎn)零件,減少計(jì)劃外的停機(jī)時(shí)間。比如土耳其電力公司ENERJISA,通過(guò)AI分析即時(shí)掌握發(fā)電機(jī)組與輸配電路的運(yùn)作狀態(tài),降低了35%-45%設(shè)備停機(jī)的時(shí)間,確保發(fā)電量處于可控標(biāo)準(zhǔn)之內(nèi)。同時(shí),電力公司還會(huì)在發(fā)電機(jī)內(nèi)裝入loT感測(cè)器,使用AI分析感測(cè)器所收集的信息,實(shí)時(shí)監(jiān)控發(fā)電機(jī)的馬達(dá)及零件狀態(tài),提前找出潛在問(wèn)題。比算法)的異常檢測(cè)模型,描繪出正常狀態(tài)曲線,當(dāng)發(fā)動(dòng)機(jī)的實(shí)時(shí)狀態(tài)偏離正常狀態(tài)曲線,就會(huì)及早2、供電階段:AI分析精準(zhǔn)預(yù)測(cè)發(fā)電量和需求量,解決可再生能源的集成問(wèn)題,平衡供需過(guò)往使用燃煤、天然氣等一次性能源的發(fā)電方式,發(fā)電量較易估算。但再生能源由于影響的變量太多,以光電、風(fēng)電等為代表的再生能源發(fā)電量很難預(yù)估;且在預(yù)測(cè)用電需求中,也會(huì)因氣候異常和生活型態(tài)改變等影響,無(wú)法通過(guò)歷史用電資料精準(zhǔn)預(yù)測(cè)用電需求。比如澳洲能源公司RedEnergy,出現(xiàn)過(guò)因?yàn)橛秒娦枨箢A(yù)測(cè)模型精準(zhǔn)度較低,導(dǎo)致備轉(zhuǎn)電力容量不足,必須臨時(shí)向其他電力公司高價(jià)購(gòu)買電力,增加公司營(yíng)運(yùn)成本。通過(guò)改進(jìn)AI的預(yù)測(cè)模型后,RedEnergy的預(yù)測(cè)準(zhǔn)確率達(dá)到98%,并通過(guò)完善的事前規(guī)劃,以較低價(jià)格購(gòu)入電力,節(jié)省超百萬(wàn)美金3、用電階段:AI用戶分析找出異常數(shù)據(jù),排查竊電、篡改電表等異常數(shù)據(jù),減少損失,確保以往電力公司在偵測(cè)竊電中,只有在專家檢修或更換電表時(shí)才發(fā)現(xiàn)異常,或者有的電力公司會(huì)電力公司可通過(guò)AI進(jìn)行用戶分析,在既有業(yè)務(wù)規(guī)則、用戶有無(wú)篡改電表歷史行為的基礎(chǔ)上,結(jié)合竊電行為模式、用電量和用電目的之間的關(guān)聯(lián)性等分析模型,精準(zhǔn)地判斷出各個(gè)電表的竊電風(fēng)險(xiǎn),再交由相關(guān)人員做進(jìn)一步的調(diào)查,提高偵測(cè)率并省下偵測(cè)成本。比如,巴西第二大電力公司,通過(guò)1.5.2加強(qiáng)多維、高頻數(shù)據(jù)采集和安全留存,促進(jìn)更精準(zhǔn)電力供需預(yù)測(cè)通過(guò)多維度、高頻率的數(shù)據(jù)采集,電力系統(tǒng)能夠?qū)崟r(shí)監(jiān)測(cè)和分析各個(gè)環(huán)節(jié)的運(yùn)行狀態(tài)。這種數(shù)利用這些豐富的數(shù)據(jù),通過(guò)人工智能技術(shù),能夠幫助電力企業(yè)對(duì)發(fā)電、輸電、變電和配電各環(huán)節(jié)進(jìn)1、AI預(yù)測(cè)用戶用電量,增加數(shù)據(jù)采集量、提高數(shù)據(jù)采集頻率,以得到更精準(zhǔn)的預(yù)測(cè)當(dāng)采集的數(shù)據(jù)量不足、采集頻率過(guò)少會(huì)導(dǎo)致預(yù)測(cè)結(jié)果產(chǎn)生偏差,這使得電力行業(yè)不斷提升用戶側(cè)的監(jiān)控器的采集頻率以滿足AI分析模型預(yù)測(cè)的要求。比如,在IoT抄表場(chǎng)景中,最初的設(shè)計(jì)可通過(guò)按周/月收一次用來(lái)計(jì)費(fèi)來(lái)預(yù)測(cè)下月的使用電量,后續(xù)在AI預(yù)測(cè)模型的訓(xùn)練過(guò)程中,發(fā)現(xiàn)間隔更短的數(shù)據(jù)可以更加精準(zhǔn)的預(yù)測(cè)用戶使用量,從而提高到數(shù)分鐘一次,使得能夠更高效地預(yù)測(cè),滿足供需平衡。更大數(shù)據(jù)采集量、更頻繁的數(shù)據(jù)采集周期,給數(shù)據(jù)存儲(chǔ)設(shè)備帶來(lái)了更大容量和更高性能2、AI分析電力設(shè)備,擴(kuò)大數(shù)據(jù)采集維度、增加采集參數(shù),以提前檢修并減少停機(jī)概率在發(fā)電管理場(chǎng)景,電力行業(yè)通過(guò)AI分析發(fā)電機(jī)內(nèi)loT感測(cè)器收集的電氣元件信息,來(lái)提前找出潛在問(wèn)題,及時(shí)安排檢修。在最初的設(shè)計(jì)中,會(huì)收集發(fā)電機(jī)各元器件老化程度、故障零件數(shù)量和類型等來(lái)提前準(zhǔn)備替換的零件庫(kù)。隨著感測(cè)器收集的數(shù)據(jù)量增多,在AI訓(xùn)練中發(fā)現(xiàn)一些非強(qiáng)關(guān)聯(lián)3、電力安全:勒索攻擊不是會(huì)不會(huì)發(fā)生,而是什么時(shí)間發(fā)生電力作為涉及國(guó)計(jì)民生的行業(yè),一旦遭遇勒索攻擊可造成大量的業(yè)務(wù)停擺,且隨著電力行業(yè)的數(shù)字化建設(shè)深入,近年來(lái)已成為黑客的首要攻擊目開(kāi)了Solarman和Deye太陽(yáng)能管理平臺(tái)中的重大安全漏洞,可影響全球20%的光伏發(fā)電,涉及190新型的勒索攻擊不僅使用AI模型批量生成新的病毒樣本,并且潛伏周期更長(zhǎng),隱蔽性更高,可輕松繞過(guò)普通的病毒檢測(cè)庫(kù)。比如,非洲某大型電力公司,近年曾經(jīng)遭受勒索攻擊,并被要求支AI在電力行業(yè)可通過(guò)收集核心業(yè)務(wù)生產(chǎn)系統(tǒng)的正常行為,在數(shù)據(jù)存儲(chǔ)設(shè)備上建立AI偵測(cè)分析模型,判斷數(shù)據(jù)存儲(chǔ)側(cè)的異常行為(加密、刪除等)、以及短期內(nèi)的異常存儲(chǔ)容量變化,識(shí)別潛伏1.6科研教育教育科研行業(yè)正經(jīng)歷教育科研行業(yè)正經(jīng)歷AI帶來(lái)的深刻變革,智能化展現(xiàn)出巨大潛力,深刻改變了教學(xué)、研究與管理方式,同時(shí)也給教育科研的IT系統(tǒng)建設(shè)帶來(lái)了諸多機(jī)遇和挑戰(zhàn)。1.6.1教學(xué)到探索:個(gè)性化教學(xué),科研加速,AI反向賦智人類智能化在科研教育行業(yè)已經(jīng)涌現(xiàn)出一批新興場(chǎng)景的應(yīng)用,通過(guò)以AI大模型為代表的智能化技虛擬教室與虛擬實(shí)驗(yàn)室個(gè)性化教學(xué)設(shè)計(jì)自適應(yīng)學(xué)習(xí)路徑虛擬教室與虛擬實(shí)驗(yàn)室人工智能人工智能賦能教育教學(xué)各環(huán)節(jié)虛擬學(xué)習(xí)社區(qū)虛擬學(xué)習(xí)社區(qū)在線協(xié)同學(xué)習(xí)智能輔助教學(xué)工具建設(shè)實(shí)時(shí)學(xué)情檢測(cè)實(shí)時(shí)學(xué)情檢測(cè)智能分析決策多元化教學(xué)資源整合2、AI輔助科研AI大模型幫助研究人員快速篩選和分析大量文獻(xiàn),通過(guò)語(yǔ)義分析確定研究領(lǐng)域鍵概念。同時(shí)AIforScience(人工智能驅(qū)動(dòng)的科學(xué)研究)這一新興科學(xué)研究手段加速發(fā)展,它使用已知科學(xué)規(guī)律進(jìn)行建模,同時(shí)挖掘海量數(shù)據(jù)的規(guī)律,在計(jì)算機(jī)的強(qiáng)大算力的加持下,進(jìn)行科學(xué)問(wèn)教育科研智能化應(yīng)用一方面提升了科研教育工作的效率,另一方面通過(guò)數(shù)據(jù)的匯聚、分析和萃取,進(jìn)一步促進(jìn)了知識(shí)的傳承和共享。例如上海交大建設(shè)的“交我算蓋科研和教學(xué)服務(wù),需要對(duì)接AI、HPC等不同算力平臺(tái),面臨著數(shù)據(jù)訪問(wèn)協(xié)議多樣、數(shù)據(jù)訪問(wèn)效率低等問(wèn)題。因此,這套平臺(tái)需要建設(shè)統(tǒng)一的存儲(chǔ)底座、提供多協(xié)議互通等技術(shù)來(lái)滿足多樣化的應(yīng)1.6.2圍繞高性能、可靠安全的數(shù)據(jù)供應(yīng),構(gòu)筑反向賦智的基石教育科研智能化的特征主要體現(xiàn)在數(shù)據(jù)量的龐大、數(shù)據(jù)類型的多樣性以及數(shù)據(jù)更新與分析的實(shí)時(shí)性。例如,在個(gè)性化教學(xué)場(chǎng)景,智能捕捉、收集學(xué)生在上課過(guò)程中的表情、動(dòng)作、行為信息,將視頻、圖像、文本等多種類型的數(shù)據(jù)進(jìn)行綜合分析。這使得需要保存下來(lái)的數(shù)據(jù)量和復(fù)雜度都呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng),容量擴(kuò)展受限、機(jī)房空間受限、功耗受限成為讓數(shù)據(jù)“存不下”的關(guān)鍵痛點(diǎn);基于這些分析對(duì)學(xué)生的未來(lái)表現(xiàn)做精準(zhǔn)預(yù)測(cè),并通過(guò)該預(yù)測(cè),智能推送個(gè)性化學(xué)習(xí)方案及教學(xué)調(diào)整建議,這對(duì)多類型混合負(fù)載的海量數(shù)據(jù)處理實(shí)時(shí)性也提出了新的挑戰(zhàn),對(duì)視頻等大文件處理的高帶寬要求和AI訓(xùn)練、文本等小文件的高IOPS要求難以同時(shí)滿足,導(dǎo)致數(shù)據(jù)“用不好”。AI時(shí)代數(shù)據(jù)安全和隱私保護(hù)成為重要議題,特別是在涉及敏感的教育信息時(shí)數(shù)為重要。例如,科研機(jī)構(gòu)因?yàn)槠湄?cái)力雄厚,同時(shí)其科研項(xiàng)目往往擁有非常寶貴的數(shù)據(jù)、一些數(shù)據(jù)涉及尖端研究相關(guān)知識(shí)產(chǎn)權(quán),更容易成為黑客攻擊和勒索的對(duì)象。而教育科研機(jī)構(gòu)面向共享及公開(kāi)訪問(wèn)的網(wǎng)絡(luò)設(shè)計(jì),實(shí)驗(yàn)室、辦公甚至移動(dòng)設(shè)備等多設(shè)備、跨人群的廣泛接入更是為數(shù)據(jù)安全保護(hù)帶來(lái)教育科研領(lǐng)域數(shù)據(jù)存在資源彼此聯(lián)系、信息交織匯集、數(shù)據(jù)來(lái)源多樣、要素關(guān)系分散的特征,需要建立更完善的數(shù)據(jù)采集和管理系統(tǒng),實(shí)現(xiàn)全局的管理和高效的流動(dòng),以確保不同來(lái)源和類型的數(shù)據(jù)能夠被有效利用。隨著智能化應(yīng)用的增加,數(shù)據(jù)跨組織、跨地域、跨時(shí)間、跨領(lǐng)域的共享和協(xié)同需求將大幅增加,當(dāng)前IT系統(tǒng)的孤島為了應(yīng)對(duì)這些挑戰(zhàn),教育科研行業(yè)必須構(gòu)建更加高效、穩(wěn)定和可擴(kuò)展的數(shù)據(jù)基礎(chǔ)設(shè)施,包括高效的數(shù)據(jù)存儲(chǔ)解決方案、先進(jìn)的數(shù)據(jù)分析工具以及嚴(yán)格的數(shù)據(jù)管理政策。例如北京大學(xué)現(xiàn)代農(nóng)業(yè)研究院小麥抗病遺傳育種團(tuán)隊(duì),通過(guò)大數(shù)據(jù)與人工智能應(yīng)用對(duì)植物基因組進(jìn)行持續(xù)研究主栽小麥品種的韌性。但對(duì)作物基因組的研究分析過(guò)程極其復(fù)雜,海量數(shù)據(jù)的處理挑戰(zhàn)。首先,作物基因組研究中涉及到大量的基因組測(cè)序、表達(dá)譜測(cè)定、SNP分析等數(shù)據(jù)產(chǎn)生,需要充足容量、巨大吞吐量的數(shù)據(jù)底座支撐;其次,由于基因測(cè)序的整個(gè)過(guò)程會(huì)有持續(xù)化的碎片1.7醫(yī)療作為知識(shí)密集型行業(yè)的代表,作為知識(shí)密集型行業(yè)的代表,醫(yī)療行業(yè)相對(duì)更加容易獲益于生成式AI。人工智能正在為并保護(hù)病患隱私和醫(yī)療數(shù)據(jù)安全,成為醫(yī)療行業(yè)擁抱AI所必須面臨的挑1.7.1診療到預(yù)防:輔助提升診療效率,加速康復(fù)減少疾病AI給醫(yī)療行業(yè)帶來(lái)的變化更加顯著,從輔助診療、藥物研發(fā)到疾病預(yù)警等多個(gè)應(yīng)用場(chǎng)景,AI都發(fā)揮著重要作用。未來(lái),AI在醫(yī)療領(lǐng)域的發(fā)展趨勢(shì)將深遠(yuǎn)程醫(yī)療健康管理精準(zhǔn)醫(yī)療虛擬助理AI技術(shù)在基層衛(wèi)生健康服務(wù)中的應(yīng)用試點(diǎn)啟動(dòng)實(shí)施,形成了可復(fù)制使用的醫(yī)學(xué)助診療應(yīng)用系統(tǒng)。這些系統(tǒng)通過(guò)智能分診、AI輔助診療等方式,幫助醫(yī)生診療。例如,一款A(yù)I智能分割及規(guī)劃算法的設(shè)備適用于腦出血抽吸引流、顱內(nèi)活檢等臨床場(chǎng)景,2、藥物研發(fā)傳統(tǒng)的藥物創(chuàng)新研發(fā)遵循“倒摩爾定律”,AI技術(shù)通過(guò)數(shù)據(jù)和算法模物研發(fā)帶來(lái)革命性的變革。通過(guò)深度學(xué)習(xí)模型,可以更快速地分析分子結(jié)構(gòu),從而加速新藥少昂貴的實(shí)驗(yàn)需求。例如,有研究利用AI成功地識(shí)別出了一21天內(nèi)被發(fā)現(xiàn),并在46天內(nèi)完成了實(shí)驗(yàn)驗(yàn)證,這比傳統(tǒng)的藥物3、疾病預(yù)警AI與大數(shù)據(jù)模型的應(yīng)用使得疾病預(yù)警有了“工具”。通過(guò)分析國(guó)際衛(wèi)生部門各例如,AI可以“收集”眼科醫(yī)生無(wú)法識(shí)別的細(xì)微信息,通過(guò)大數(shù)據(jù)模型分1.7.2打通診療數(shù)據(jù)共享,保護(hù)數(shù)據(jù)安全,維護(hù)病患隱私隨著AI技術(shù)在醫(yī)療領(lǐng)域的廣泛應(yīng)用,在醫(yī)療行業(yè)的數(shù)據(jù)上也面臨著數(shù)據(jù)收集難、數(shù)據(jù)隱私和可靠的來(lái)源,從不可靠的來(lái)源收集數(shù)據(jù)可能會(huì)對(duì)AI訓(xùn)練的輸出產(chǎn)生不利影響。因此,為了獲得準(zhǔn)確的輸出,醫(yī)院必須從可靠的來(lái)源收集訓(xùn)練數(shù)據(jù),如從2、數(shù)據(jù)隱私和安全不僅涉及患者隱私,還具有特殊的敏感性和重要價(jià)值,一旦泄露,可能給患者帶來(lái)身心困擾和財(cái)產(chǎn)損失,甚至對(duì)社會(huì)穩(wěn)定和國(guó)家安全造成負(fù)面3、被勒索病毒攻擊標(biāo)的數(shù)據(jù)和行為模式,勒索軟件可以更有效地選擇目標(biāo),并制定更有針對(duì)性的攻擊策略。此外,AI可以使得勒索軟件在攻擊過(guò)程中更具自適應(yīng)性,能夠根據(jù)受害者的反應(yīng)來(lái)調(diào)整攻擊方式,增加攻擊成功的幾率。《2023年中國(guó)企業(yè)勒索病毒攻擊態(tài)勢(shì)分析報(bào)告》顯示,醫(yī)療行業(yè)已經(jīng)成為勒索病毒攻擊的重災(zāi)區(qū)。自2018年以來(lái),全球已發(fā)生500次公開(kāi)確認(rèn)的針對(duì)據(jù)第三方統(tǒng)計(jì)數(shù)據(jù)顯示,醫(yī)療行業(yè)連續(xù)12勒索病毒攻擊事件受害者行業(yè)分布21.4%17.5%14.6%9.7%5.8%5.3%4.4%3.4%3.4%3.4%2.9%教育培訓(xùn)交通運(yùn)輸能源工程制造醫(yī)療衛(wèi)生制造業(yè)生活服務(wù)IT信息技術(shù)教育培訓(xùn)交通運(yùn)輸能源工程制造事業(yè)單位為了有效解決面臨的諸多數(shù)據(jù)層面的挑戰(zhàn),醫(yī)療行業(yè)亟需采用專業(yè)數(shù)據(jù)存儲(chǔ)產(chǎn)品,通過(guò)專業(yè)的存儲(chǔ)內(nèi)生安全、容災(zāi)備份、安全可信數(shù)據(jù)流動(dòng)、防勒索保護(hù)技術(shù)等,讓數(shù)據(jù)存的下、存的放心、用1.8行業(yè)數(shù)智化:數(shù)據(jù)是關(guān)鍵今天,包括金融、運(yùn)營(yíng)商、政務(wù)、制造、電力等在內(nèi)的多個(gè)行業(yè),數(shù)字化和智能化都在不斷改數(shù)字化將人類社會(huì)生產(chǎn)和日常生活中所產(chǎn)生的信息轉(zhuǎn)變?yōu)閿?shù)字格式的數(shù)據(jù),極大地提高了信息記錄、處理和傳播效率。智能化,通過(guò)AI算力基于數(shù)字化所產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練和推理,最大程數(shù)字化為智能化提供必需的數(shù)據(jù);智能化通過(guò)釋放數(shù)據(jù)價(jià)值以牽引更多業(yè)務(wù)場(chǎng)景積極擁抱和擴(kuò)逐漸融合成為數(shù)智化。數(shù)智化是數(shù)字化被賦智后的自然延伸,它通過(guò)學(xué)習(xí)數(shù)據(jù)以產(chǎn)生智能,并將智能應(yīng)用于數(shù)字化,進(jìn)而推動(dòng)各行各業(yè)數(shù)字化向更高效、更智能的方向發(fā)展。隨著技術(shù)的不斷進(jìn)步,數(shù)智化產(chǎn)生更多數(shù)據(jù)智能化加速知識(shí)轉(zhuǎn)換數(shù)字化智能化加速知識(shí)轉(zhuǎn)換促進(jìn)更加廣泛和深入的數(shù)字化加速信息處理促進(jìn)更加廣泛和深入的數(shù)字化喚醒歷史數(shù)據(jù)數(shù)字化和智能化分別使用通用算力和智能算力對(duì)數(shù)據(jù)進(jìn)行處理、分析、價(jià)值創(chuàng)造。數(shù)據(jù)則是連接數(shù)字化和智能化的紐帶,是兩者融合成為數(shù)智300231數(shù)據(jù)的規(guī)模和質(zhì)量決定了AI智能的高度。以GPT為例:GPT-1采用了4.8GB原始數(shù)據(jù)進(jìn)行訓(xùn)練;GPT-2采用了40GB經(jīng)過(guò)人類過(guò)濾后的數(shù)據(jù)進(jìn)行訓(xùn)練;GPT-3采用了570GB數(shù)據(jù)進(jìn)行訓(xùn)練,而這570GB數(shù)據(jù)來(lái)自對(duì)45TB原始數(shù)據(jù)的過(guò)濾;ChatGPT/GPT-4在GPT-3訓(xùn)練數(shù)據(jù)基礎(chǔ)上,加入了高質(zhì)量的標(biāo)注。從GPT-1到GPT-4,模型架構(gòu)相似,而模型參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模和質(zhì)量不同,產(chǎn)生了不同的AI大模型訓(xùn)練結(jié)果。GPT的演進(jìn),用事實(shí)證明了許多AI學(xué)者千行萬(wàn)業(yè)在數(shù)智化的過(guò)程中,不管是對(duì)基礎(chǔ)大模型的二次訓(xùn)練和監(jiān)督微調(diào),還是在應(yīng)用推理階段,均離不開(kāi)大規(guī)模高質(zhì)量數(shù)據(jù)。在實(shí)踐中,大多數(shù)企業(yè)通過(guò)喚醒歷史數(shù)據(jù)、采集并保存更多生產(chǎn)在數(shù)據(jù)規(guī)模和質(zhì)量滿足企業(yè)數(shù)智化所需的同時(shí),數(shù)據(jù)效率同樣不可被忽略。數(shù)據(jù)效率從數(shù)據(jù)保存、訪問(wèn)、能耗和安全等維度,幫助企業(yè)用戶對(duì)數(shù)據(jù)進(jìn)行更多維度的審視,讓數(shù)據(jù)不僅供得上,還2.1數(shù)據(jù)覺(jué)醒:充分發(fā)揮歷史數(shù)據(jù)價(jià)值缺數(shù)據(jù),不AI。數(shù)據(jù)短缺成為制約大模型發(fā)展的瓶頸。當(dāng)前,大模型正在賦能千行百業(yè),但也面臨著海量、優(yōu)質(zhì)的行業(yè)數(shù)據(jù)集嚴(yán)重匱乏的挑戰(zhàn)。行業(yè)與此同時(shí),行業(yè)數(shù)據(jù)具有稀缺性的特點(diǎn),據(jù)智源研究院統(tǒng)計(jì),當(dāng)前已知的所有開(kāi)源行業(yè)文本類數(shù)據(jù)集僅有約1.2TB,遠(yuǎn)遠(yuǎn)無(wú)法滿足千行萬(wàn)業(yè)的模型需求。數(shù)據(jù)在人工智能(AI)領(lǐng)域中扮演著至關(guān)重要的角色,在訓(xùn)練模型階段,據(jù)來(lái)進(jìn)行訓(xùn)練。這些數(shù)據(jù)用于學(xué)習(xí)模式、預(yù)測(cè)結(jié)果和優(yōu)化性能。沒(méi)有足夠的數(shù)據(jù),模型的準(zhǔn)確性和1、數(shù)據(jù)驅(qū)動(dòng)決策:AI系統(tǒng)的決策基于數(shù)據(jù)。從金融預(yù)測(cè)到醫(yī)療診斷,數(shù)據(jù)支持著AI系統(tǒng)的2、迭代改進(jìn):數(shù)據(jù)允許AI系統(tǒng)不斷迭代和改進(jìn)。通過(guò)分析用戶反饋、監(jiān)控性能指標(biāo)和更新數(shù)3、個(gè)性化體驗(yàn):數(shù)據(jù)使得AI能夠?yàn)槊總€(gè)用戶提供個(gè)性化的體驗(yàn)。例如,推薦算法業(yè)務(wù)運(yùn)轉(zhuǎn)過(guò)程中,產(chǎn)生大量的數(shù)據(jù)。一部分?jǐn)?shù)據(jù)是熱數(shù)據(jù),被頻繁訪問(wèn),隨時(shí)可能被修改。另外一部分?jǐn)?shù)據(jù),則隨著時(shí)間的推理,熱度逐漸降低,雖然依然保存在主存儲(chǔ)中,但是幾乎不太可能被再次訪問(wèn),例如大量的醫(yī)療影像數(shù)據(jù),在病人痊愈后,相關(guān)影像數(shù)據(jù)可能就不再被訪問(wèn),進(jìn)入閑隨著人工智能大模型規(guī)模不斷擴(kuò)大,對(duì)訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級(jí)增長(zhǎng)。將業(yè)務(wù)閑置的數(shù)據(jù)納入342、喚醒歷史歸檔數(shù)據(jù)a)更豐富的訓(xùn)練數(shù)據(jù):歷史數(shù)據(jù)包含了過(guò)去的經(jīng)驗(yàn)、事件和知識(shí)。通過(guò)激活這些數(shù)據(jù),我們可以獲得更豐富、更多樣化的訓(xùn)練樣本,用于訓(xùn)練機(jī)器學(xué)習(xí)模型。這有助于提高模型的準(zhǔn)確性和泛化c)異常檢測(cè)和故障預(yù)測(cè):歷史數(shù)據(jù)中的異常情況和故障信維基百科當(dāng)前的內(nèi)容規(guī)模約為4.2億個(gè)單詞。根據(jù)ARKInvest的“BigIdeas2023”報(bào)告,在計(jì)算規(guī)模不斷下降的世界中,數(shù)據(jù)將成為人工智能發(fā)展的主要制約因素。隨著人工智能模型變得更加復(fù)雜,對(duì)多樣化、準(zhǔn)確和龐大數(shù)據(jù)集的需求將繼續(xù)增長(zhǎng)。在管理各種歷史數(shù)據(jù)、喚醒歷史從各種來(lái)源收集數(shù)據(jù)有助于確保人工智能模型在多樣化且具有代表性的樣本上進(jìn)行訓(xùn)練,從而減少偏差并提高其整體性能。對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的要求需要能夠存儲(chǔ)大規(guī)模的數(shù)據(jù)集,包括多樣化的來(lái)源;快速讀寫和檢索數(shù)據(jù),以滿足訓(xùn)練模型的需求;保護(hù)數(shù)據(jù)免受未經(jīng)授權(quán)的訪問(wèn)和損壞以及確訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)于人工智能模型的準(zhǔn)確性和有效性至關(guān)重要。應(yīng)優(yōu)先考慮數(shù)據(jù)清理、注釋和驗(yàn)證,以確保最高質(zhì)量的數(shù)據(jù)集。此外,加載了數(shù)據(jù)標(biāo)注,數(shù)據(jù)清洗等技術(shù)的數(shù)據(jù)基礎(chǔ)設(shè)施,可以幫助最大化可用訓(xùn)練數(shù)據(jù)的價(jià)值。同樣對(duì)于數(shù)據(jù)基礎(chǔ)設(shè)施的要求是,具備大容量以存儲(chǔ)高質(zhì)量的數(shù)據(jù)集,而最重要的是可以實(shí)現(xiàn)近存計(jì)算,構(gòu)建在隨著對(duì)訓(xùn)練數(shù)據(jù)的需求不斷增長(zhǎng),解決隱私問(wèn)題并確保數(shù)據(jù)收集和處理遵循道德準(zhǔn)則并遵守?cái)?shù)據(jù)保護(hù)法規(guī)至關(guān)重要。實(shí)施隱私計(jì)算等技術(shù)可以幫助保護(hù)個(gè)人隱私,同時(shí)仍然能為人工智能訓(xùn)練提2.2數(shù)據(jù)生成與合成:讓數(shù)據(jù)為數(shù)智化而生將海量歷史數(shù)據(jù)喚醒,利用這些歷史數(shù)據(jù)進(jìn)行AI大模型訓(xùn)練和推理,有效幫助了AI大模型高速發(fā)展。在AI發(fā)展過(guò)程中,人們逐漸意識(shí)這些海量歷史數(shù)據(jù)雖然對(duì)AI起到了不可替代的作用,但并非為AI而生,例如在數(shù)據(jù)采集頻度、數(shù)據(jù)格式、數(shù)據(jù)多樣性、數(shù)據(jù)留存等維度,均存在可以改伴隨著機(jī)器視覺(jué)大模型的成熟,人們可以利用AI對(duì)儲(chǔ)罐上的油斑進(jìn)行實(shí)時(shí)分析,以提前發(fā)現(xiàn)泄露隱患;但是,原有監(jiān)控系統(tǒng)僅僅保留最近30到90天的監(jiān)控?cái)?shù)據(jù),缺少歷史上泄露隱患暴露前的油斑視頻,也就讓AI訓(xùn)練缺少了相應(yīng)的數(shù)據(jù);另外,除了缺少歷史視頻數(shù)據(jù)外,老攝像頭的清晰可見(jiàn),在AI的驅(qū)動(dòng)下,人們不僅要思考如何利用好已有的歷史數(shù)據(jù),還應(yīng)該思考如何在既有數(shù)字化業(yè)務(wù)中改進(jìn)數(shù)據(jù)生成,通過(guò)提升數(shù)據(jù)另外,除了在現(xiàn)實(shí)業(yè)務(wù)中生成更多高質(zhì)量數(shù)據(jù)外,對(duì)于某些難以通過(guò)在實(shí)踐中獲取的數(shù)據(jù),也2.2.1數(shù)據(jù)生成一般來(lái)說(shuō),可以參考5F方法來(lái)思考如何生成并留存更多的高質(zhì)量數(shù)據(jù)供FieldprocessFormatFullprocess高質(zhì)量數(shù)據(jù)forAlFrequencyFuture365F方法是一個(gè)思考框架,幫助行業(yè)用戶從五個(gè)維度去思考如何生成、采集、留存更多高質(zhì)量1、Field,數(shù)據(jù)生成/采集的現(xiàn)場(chǎng)在AI大模型爆發(fā)之前,人們大多在這些不同的地點(diǎn),僅采集和記錄當(dāng)前可以被處理的數(shù)據(jù)。以智能電表為例,最開(kāi)始僅用于取代人力抄表,實(shí)現(xiàn)AMR(AutomaticMeterReading后來(lái)追加AMI(AdvancedMeteringInfrastructure以對(duì)用電情況進(jìn)行實(shí)時(shí)分析,支撐輸電、配電的高效運(yùn)作。實(shí)際上,現(xiàn)在已經(jīng)有部分電力公司在思考,利用智能電表搜集更多的環(huán)境數(shù)據(jù),如例如,某個(gè)區(qū)域A的平均氣溫在30度左右,但是濕度高達(dá)90%,而另外一個(gè)區(qū)域B的平均氣溫在35度左右,而濕度低于5%。雖然這些數(shù)據(jù)對(duì)于供電不直接相關(guān),但是電力公司可以基于這些信息做出預(yù)判:區(qū)域A住戶開(kāi)啟空調(diào)的概率高于區(qū)域B,進(jìn)而對(duì)不同區(qū)域的供電做2、Format,數(shù)據(jù)生成/采集的格式在過(guò)去大概率沒(méi)有被作為一個(gè)考量因素。今天,伴隨著AI逐漸走進(jìn)千行萬(wàn)業(yè),AI在數(shù)字化建設(shè)時(shí)數(shù)據(jù)格式,泛指信息以什么樣的方式被數(shù)字化。例如,一段音頻,WAV、FLAC、MP3等就是不同的格式;一張圖片,JPG、GIF、PNG等就是不同的格式。除了這里提到的編解碼格式外,3、Fullprocess,業(yè)務(wù)全流程數(shù)據(jù)現(xiàn)在的AI訓(xùn)練,主要還是在學(xué)習(xí)結(jié)果,尤其是正確的結(jié)果。而人類實(shí)際上的學(xué)習(xí)過(guò)程,不僅僅是通過(guò)學(xué)習(xí)正確的結(jié)果來(lái)獲取知識(shí),同樣也會(huì)通過(guò)學(xué)習(xí)錯(cuò)誤的結(jié)果、學(xué)習(xí)計(jì)算/推導(dǎo)過(guò)程來(lái)獲取的數(shù)字化進(jìn)程中。在AI時(shí)代,伴隨著上下文窗口的持續(xù)增大4、Frequency,數(shù)據(jù)生成/采集的頻率a.產(chǎn)生多少數(shù)據(jù),就記錄多少數(shù)據(jù),并匹配相應(yīng)的計(jì)算和網(wǎng)絡(luò)資源,對(duì)這些數(shù)據(jù)進(jìn)行處理。典型的b.對(duì)產(chǎn)生的數(shù)據(jù)進(jìn)行周期性采樣,并對(duì)采樣數(shù)據(jù)進(jìn)行保存。采即AI算力等待更多的高質(zhì)量數(shù)據(jù)輸入。人們應(yīng)該思考如何適度超前地提高數(shù)據(jù)收集頻率并將這些5、Future,面向未來(lái)的數(shù)據(jù)留存周期在AI大模型時(shí)代之前,數(shù)據(jù)被長(zhǎng)期留存,主要目的是作為存檔以備后續(xù)查閱?,F(xiàn)在,除了滿足法規(guī)遵從要求的最短留存時(shí)間外,數(shù)據(jù)需要被留存的時(shí)長(zhǎng),需要充分考慮AI的發(fā)展,提前對(duì)數(shù)但伴隨著AI大模型持續(xù)成熟,5年的出入境記錄數(shù)據(jù)可能會(huì)逐漸無(wú)法滿足AI大模型訓(xùn)練所需,該2.2.2數(shù)據(jù)合成數(shù)據(jù)合成是一種通過(guò)計(jì)算機(jī)算法或模擬生成人工數(shù)據(jù)的方式,它模仿真實(shí)世界數(shù)據(jù)的統(tǒng)計(jì)特性和特征,但并不包含、或僅包含一部分現(xiàn)實(shí)世界的真實(shí)數(shù)據(jù)。通過(guò)數(shù)據(jù)合成得到的數(shù)據(jù),被稱為合成數(shù)據(jù),可以用于多種目的,包括數(shù)據(jù)增強(qiáng)、數(shù)據(jù)隱私保護(hù)、以及在數(shù)據(jù)稀缺的情況下進(jìn)行模型訓(xùn)382、基于機(jī)器學(xué)習(xí)數(shù)據(jù)合成4、基于隨機(jī)算法數(shù)據(jù)合成3、基于生成式AI數(shù)據(jù)合成4、基于隨機(jī)算法數(shù)據(jù)合成合成數(shù)據(jù)的優(yōu)勢(shì)包括無(wú)限量生成數(shù)據(jù)的能力、隱私保護(hù)、減少偏差以及提高數(shù)據(jù)質(zhì)量。它允許組織在不違反隱私法規(guī)的情況下使用數(shù)據(jù),同時(shí)然而,合成數(shù)據(jù)也有其局限性,例如合成數(shù)據(jù)可能無(wú)法完全捕捉真實(shí)數(shù)據(jù)的復(fù)雜性和多樣性,只要正確認(rèn)識(shí)合成數(shù)據(jù)、合理利用合成數(shù)據(jù),那么合成數(shù)據(jù)是對(duì)在現(xiàn)實(shí)世界中獲取的真實(shí)原始數(shù)據(jù)的有益補(bǔ)充,可以解決數(shù)據(jù)稀缺和隱私保護(hù)等關(guān)鍵挑戰(zhàn),從而在AI研究和應(yīng)用開(kāi)發(fā)中發(fā)揮巨392.3數(shù)據(jù)效率:以高效數(shù)據(jù)訪問(wèn)使能高效數(shù)據(jù)處理,數(shù)智化時(shí)代,AI新質(zhì)生產(chǎn)力成為社會(huì)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)成為最以及斷點(diǎn)續(xù)訓(xùn)所需要的Checkpoint保存和加載,AI生產(chǎn)是關(guān)鍵。過(guò)去,主要是通過(guò)數(shù)據(jù)存儲(chǔ)的性能、容量及可靠性三個(gè)維度的優(yōu)化來(lái)不斷提升數(shù)據(jù)效率;面向未來(lái),數(shù)智時(shí)代的還需增加數(shù)據(jù)范式、綠色節(jié)能與數(shù)據(jù)編織三個(gè)新的維度提升,才能充分提升極致性能>10x性能提升,PB-level帶寬,億級(jí)IOPS數(shù)據(jù)編織全局?jǐn)?shù)據(jù)可視、可管、可用全局?jǐn)?shù)據(jù)可視、可管、可用10倍數(shù)據(jù)流動(dòng)Vector,Tensor,RAGVector,Tensor,RAGKV-Cache等AIAI時(shí)代存儲(chǔ)綠色節(jié)能高擴(kuò)展性橫向橫向EB級(jí)的容量擴(kuò)容,多GPU、DPU或NPU縱向擴(kuò)展>99.9999%>99.9999%可靠性>99.99%防勒索保護(hù)<1minckpT數(shù)據(jù)恢復(fù)數(shù)據(jù)源分散、歸集困難,數(shù)據(jù)頻繁搬遷,PB級(jí)數(shù)據(jù)預(yù)處理往往需要數(shù)天;在訓(xùn)練中,大量的小文件加載慢、使得GPU等待時(shí)間長(zhǎng),同時(shí)Checkpoint恢復(fù)時(shí)間長(zhǎng)導(dǎo)致GPU利用率低。因此為了提升AI訓(xùn)練集群的利用率和訓(xùn)練效率,減少算力等待時(shí)間,需要存儲(chǔ)具有更高的性能,未來(lái)需要超越傳統(tǒng)存儲(chǔ)10倍的性能,支持PB級(jí)帶寬以及億級(jí)IOPS,能夠讓海量數(shù)據(jù)的加載、Checkpoint的寫入更加迅速,同時(shí)還需要支持多數(shù)據(jù)協(xié)議的以減少數(shù)據(jù)的拷貝,從而才能極大提2、高擴(kuò)展性AI時(shí)代,數(shù)據(jù)成為企業(yè)日趨重要的價(jià)值資產(chǎn),數(shù)據(jù)的留存率越來(lái)越高。當(dāng)前企已從之前的數(shù)月上升到數(shù)十年,同時(shí)數(shù)據(jù)增速將會(huì)40量提出更高的要求,未來(lái)存儲(chǔ)集群需要能夠支持EB級(jí)容量的橫向擴(kuò)展,同時(shí)每個(gè)引擎需要支持多GPU、DPU或NPU縱向擴(kuò)展,以支持近存計(jì)算。3、數(shù)據(jù)韌性隨著數(shù)據(jù)價(jià)值的不斷提升,數(shù)據(jù)韌性及安全變得越來(lái)越重要,需要系列措施來(lái)保護(hù)數(shù)據(jù)的完整性和可用性。一方面體現(xiàn)在生產(chǎn)過(guò)程中的可靠性,數(shù)據(jù)不丟失、業(yè)務(wù)零中斷,通過(guò)架構(gòu)和技術(shù)創(chuàng)新,專業(yè)的存儲(chǔ)設(shè)備在架構(gòu)、節(jié)點(diǎn)冗余設(shè)計(jì)等方面的可靠性,能夠構(gòu)筑多級(jí)的安全可靠機(jī)制,實(shí)現(xiàn)99.9999%高可用性,不用再擔(dān)心因數(shù)據(jù)的問(wèn)題影響AI業(yè)務(wù)運(yùn)行;同時(shí)針對(duì)日益增加的數(shù)據(jù)勒索風(fēng)險(xiǎn),需要結(jié)合全面的動(dòng)態(tài)檢測(cè)、主動(dòng)防御、聯(lián)動(dòng)恢復(fù)機(jī)制,變靜態(tài)管理為動(dòng)態(tài)檢測(cè),變被動(dòng)響應(yīng)為聯(lián)防聯(lián)動(dòng),打造立體化的防勒索解決方案,4、數(shù)據(jù)編織數(shù)據(jù)資產(chǎn)能夠被高效利用的前提,是能否實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的可視、可管、可用。數(shù)據(jù)編織,就是跨廠家等復(fù)雜數(shù)據(jù)的全局可視、實(shí)時(shí)更新;其次是能夠?qū)崿F(xiàn)數(shù)據(jù)目錄的智能化,通過(guò)AI和自動(dòng)化技術(shù)實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)標(biāo)簽、聚合、檢索、呈現(xiàn),推進(jìn)數(shù)據(jù)按內(nèi)容、合規(guī)、熱度等維度的全自動(dòng)化分類分級(jí),并能夠根據(jù)數(shù)據(jù)的熱溫冷分析實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)流動(dòng),實(shí)現(xiàn)數(shù)據(jù)高效經(jīng)濟(jì)的儲(chǔ)存;同時(shí)能夠5、全新數(shù)據(jù)范式通過(guò)近存計(jì)算實(shí)現(xiàn)近數(shù)據(jù)預(yù)處理,讓數(shù)據(jù)在存儲(chǔ)完成部分過(guò)濾、歸一、轉(zhuǎn)碼與增強(qiáng)的數(shù)據(jù)準(zhǔn)備具備快速的張量數(shù)據(jù)檢索能力;通過(guò)內(nèi)嵌知識(shí)庫(kù),利用RAG技術(shù)消除AI大模型幻覺(jué)。另外,基6、綠色節(jié)能節(jié)能減排是社會(huì)持續(xù)發(fā)展的基礎(chǔ)。到2026年,全球數(shù)據(jù)中心的耗電量預(yù)計(jì)將達(dá)到2022年的儲(chǔ)作為AI數(shù)據(jù)的載體,隨著數(shù)據(jù)量的增加,需要更加綠色節(jié)能的數(shù)據(jù)存儲(chǔ)方案,單位數(shù)據(jù)存儲(chǔ)的能耗優(yōu)化改進(jìn)是產(chǎn)業(yè)發(fā)展的必然需求。通過(guò)存儲(chǔ)介質(zhì)應(yīng)用創(chuàng)新和整機(jī)硬件創(chuàng)新,實(shí)現(xiàn)小于1Watt/TB的存儲(chǔ)能效和1PB/U的存儲(chǔ)密度;同時(shí)結(jié)合介質(zhì)創(chuàng)新的大容量SSD盤,在節(jié)約空間、節(jié)省能03413.1基于存算分離架構(gòu)的AI-Ready數(shù)據(jù)基礎(chǔ)設(shè)施以存算分離架構(gòu)部署AI-Ready數(shù)據(jù)基礎(chǔ)設(shè)施,加速智能涌現(xiàn)數(shù)據(jù)存力逐漸成為AI持續(xù)高速增長(zhǎng)的關(guān)在此架構(gòu)下,靈活橫向擴(kuò)展、性能線性增長(zhǎng)、多協(xié)議互通等能3.1.1趨勢(shì)1、AI訓(xùn)練走向多模態(tài),數(shù)據(jù)規(guī)模持續(xù)增長(zhǎng)、類型日趨復(fù)雜伴隨著AI大模型從NLP走向多模態(tài),數(shù)據(jù)快速膨脹,帶來(lái)了數(shù)據(jù)量的爆炸和數(shù)據(jù)處理復(fù)雜度文本、圖像、音頻等;而到了多模態(tài)大模型時(shí)代,參數(shù)量規(guī)模已經(jīng)達(dá)到了萬(wàn)億到十萬(wàn)億級(jí)左右,訓(xùn)練數(shù)據(jù)追加視頻、3D、4D等等,每條訓(xùn)練數(shù)據(jù)有幾十GB。數(shù)據(jù)訪問(wèn)方式,數(shù)據(jù)歸集方式,數(shù)據(jù)sora訓(xùn)練數(shù)據(jù)量:1億分鐘視頻,100Ttokens數(shù)據(jù)獲取方式:多模態(tài)原始語(yǔ)料枯竭、需合成生成GPGPT4/Gemini1.0原始數(shù)據(jù)量:50-100PB每天數(shù)據(jù)處理量:~100TB模型規(guī)模:萬(wàn)億每天數(shù)據(jù)處理量:3TB模型規(guī)模:千億10000倍剪刀差數(shù)據(jù)膨脹>1000X盤古NLP原始數(shù)據(jù)量:380TBHi-Res:3D50+GB/object數(shù)據(jù)處理復(fù)雜度>10X小千億NLP模型萬(wàn)億多模態(tài)模型十萬(wàn)億多模態(tài)模型①①新訪問(wèn)方式②新數(shù)據(jù)歸集方式③新數(shù)據(jù)組織形式10ovector4243計(jì)計(jì)算處理流程數(shù)據(jù)存取流程2、伴隨AI算力集群規(guī)模越來(lái)越大,算力利用率持續(xù)降低模型推理模型訓(xùn)練小文件讀,寫數(shù)據(jù)獲取模型推理模型訓(xùn)練小文件讀,寫數(shù)據(jù)獲取三方收集、網(wǎng)絡(luò)爬取、邊緣匯聚…原始數(shù)據(jù)清洗、加工為可訓(xùn)練數(shù)據(jù)模型訓(xùn)練模型推理…數(shù)據(jù)清洗生成高質(zhì)量訓(xùn)練數(shù)據(jù)集模型訓(xùn)練模型推理…數(shù)據(jù)清洗生成高質(zhì)量訓(xùn)練數(shù)據(jù)集向量檢索向量檢索過(guò)程狀態(tài)高速保存海故過(guò)程狀態(tài)高速保存海故(帶寬型)((大量(帶寬型)((大量(())大小文件混合讀寫文本KB級(jí),圖片MB級(jí)型型))恢復(fù)高性能層大容量層多模態(tài)原始數(shù)據(jù)(PB級(jí))高質(zhì)量數(shù)據(jù)集索引數(shù)據(jù)訓(xùn)練數(shù)據(jù)向量數(shù)據(jù)庫(kù)生成文本圖像、文本、語(yǔ)音、代碼等海量原始數(shù)據(jù)加工后的高質(zhì)量數(shù)據(jù)集索引數(shù)據(jù)checkpoint周期性保存數(shù)據(jù)預(yù)處理中間階段的過(guò)程數(shù)據(jù)圖編譯高性能層大容量層多模態(tài)原始數(shù)據(jù)(PB級(jí))高質(zhì)量數(shù)據(jù)集索引數(shù)據(jù)訓(xùn)練數(shù)據(jù)向量數(shù)據(jù)庫(kù)生成文本圖像、文本、語(yǔ)音、代碼等海量原始數(shù)據(jù)加工后的高質(zhì)量數(shù)據(jù)集索引數(shù)據(jù)checkpoint周期性保存數(shù)據(jù)預(yù)處理中間階段的過(guò)程數(shù)據(jù)圖編譯小文件海量數(shù)據(jù)高效存儲(chǔ)訪問(wèn)checkpoint向量數(shù)據(jù)向量數(shù)據(jù)生成文本生成文本原始語(yǔ)料數(shù)據(jù)(EB/PB級(jí))預(yù)處理后訓(xùn)練數(shù)據(jù)(PB/TB級(jí))訓(xùn)練過(guò)程數(shù)據(jù)(TB級(jí))訓(xùn)練后的知識(shí)(TB級(jí))性能、容量可以按需擴(kuò)容階段一:數(shù)據(jù)獲取,將不同數(shù)據(jù)源的數(shù)據(jù)導(dǎo)入到存儲(chǔ)中(通常采用數(shù)據(jù)湖),通過(guò)Spark等分析軟件進(jìn)行數(shù)據(jù)收集、過(guò)濾、聚類和索引,用于以后的分析和處理。通常,這個(gè)階段需要EB/PB級(jí)的原始語(yǔ)料數(shù)據(jù),通過(guò)NAS、S3等不同的協(xié)議進(jìn)行訪問(wèn),涉及到KB級(jí)大小的文件、MB階段三:模型訓(xùn)練,通過(guò)AI訓(xùn)練集群進(jìn)行輪訓(xùn)(Epoch),并在每個(gè)epoch期間調(diào)整權(quán)重和偏置以優(yōu)化模型質(zhì)量,最終輸出能夠解決某類問(wèn)題的“模型數(shù)據(jù)庫(kù)”。這個(gè)階段,每次訓(xùn)練前,需要將海量的訓(xùn)練數(shù)據(jù)集加載到GPU內(nèi)存中,過(guò)程中需要周期性地將TB大小的Checkpoint文件保存到存儲(chǔ)中,故障時(shí)又需要從存儲(chǔ)中快速地加載Checkpoint進(jìn)行恢復(fù)。特別強(qiáng)調(diào)的是,這個(gè)過(guò)程對(duì)存儲(chǔ)的性能要求極高,而且是越快越好。Meta的Llama3大模型進(jìn)行訓(xùn)練的過(guò)程中,Meta動(dòng)用了1.6萬(wàn)塊GPU集群,該訓(xùn)練過(guò)程中遭遇了419次意外組件故障導(dǎo)致的訓(xùn)練中斷,平均每344年均集群業(yè)務(wù)中斷時(shí)間(小時(shí))5,00010,00018,000強(qiáng)一致高性能存儲(chǔ)本地盤容量型存儲(chǔ)以Checkpoint的讀寫為例:每個(gè)GPU訓(xùn)練過(guò)程中會(huì)同步寫一個(gè)Checkpoint分片,所有GPU產(chǎn)生的Checkpoint最終拼裝成一個(gè)完整的Checkpoint。任何一個(gè)分片錯(cuò)誤都將造成這個(gè)周如果這些Checkpoint分片保存在服務(wù)器本地盤中,那么所有節(jié)點(diǎn)會(huì)通過(guò)異步的方式同步至外置存節(jié)點(diǎn)#N節(jié)點(diǎn)#2節(jié)點(diǎn)#0節(jié)點(diǎn)隔離0T2#0T1#0T0#0T0#1T0#2T1#208…本地盤T2#2CKPTO節(jié)點(diǎn)節(jié)點(diǎn)#N節(jié)點(diǎn)#2節(jié)點(diǎn)#0節(jié)點(diǎn)隔離0T2#0T1#0T0#0T0#1T0#2T1#208…本地盤T2#2CKPTOT2#1T2#1T1#1T1#1T0#1T0#1異步異步異步對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)降級(jí)讀取CKPTOT0#1T0#2降級(jí)讀取CKPTO由于是異步同步機(jī)制,只能加載到數(shù)個(gè)周期以前的Checkpoint分片,造成這幾個(gè)周期的訓(xùn)練任務(wù)無(wú)效。另外,外置的對(duì)象存儲(chǔ)往往性能很差,加載時(shí)間很長(zhǎng),在這個(gè)加載過(guò)程中,整個(gè)訓(xùn)練任階段四:模型推理,用戶輸入查詢問(wèn)題時(shí),為了提升大模型推理的企業(yè)一般都會(huì)利用私域的知識(shí)對(duì)大模型進(jìn)行微調(diào),并通過(guò)檢索增強(qiáng)生成(RAG)技術(shù)提升回答問(wèn)453、幻覺(jué)普遍存在于AI推理過(guò)程中a)通用大模型的數(shù)據(jù)質(zhì)量不高,規(guī)模不夠大。如果使用不準(zhǔn)確或者錯(cuò)誤的數(shù)據(jù)進(jìn)行訓(xùn)練,大模型就會(huì)產(chǎn)生AI幻覺(jué)。大模型訓(xùn)練所使用的數(shù)據(jù)可能包含錯(cuò)誤信息,這些信息可能來(lái)源于數(shù)據(jù)收集過(guò)程中的錯(cuò)誤、數(shù)據(jù)處理階段的問(wèn)題,或者是歷史數(shù)據(jù)遺留問(wèn)題。不準(zhǔn)確的數(shù)據(jù)會(huì)直接影響模型那么這種不公平會(huì)在模型的推理結(jié)果中被放大,進(jìn)一步影響模型的公正性和普適性。例如,如果一個(gè)用于對(duì)象識(shí)別的模型主要是用淺色對(duì)象的數(shù)據(jù)訓(xùn)練的,它在深色對(duì)象上的識(shí)別效果可能會(huì)顯著下降。隨著時(shí)間推移,某些數(shù)據(jù)可能會(huì)失去現(xiàn)實(shí)意義,如果繼續(xù)使用這些過(guò)時(shí)數(shù)據(jù)訓(xùn)練模型,會(huì)導(dǎo)致模型無(wú)法適應(yīng)最新的應(yīng)用場(chǎng)景和需求變化。當(dāng)模型訓(xùn)練的數(shù)據(jù)規(guī)模不夠大時(shí),模型的泛化能力會(huì)受但在實(shí)際應(yīng)用或測(cè)試集上性能明顯下降。大規(guī)模數(shù)據(jù)集合應(yīng)涵蓋豐富的場(chǎng)景和多樣性,以確保模型具備廣泛的知識(shí)理解和處理能力。若數(shù)據(jù)規(guī)模雖大但多樣性不足,同樣會(huì)限制模型的應(yīng)用范圍和性b)通用大模型運(yùn)用于行業(yè)中進(jìn)行二次訓(xùn)練和微調(diào)時(shí),行業(yè)數(shù)據(jù)不夠多,數(shù)據(jù)質(zhì)量不高,規(guī)模也不夠大。當(dāng)行業(yè)數(shù)據(jù)量有限時(shí),通用大模型在進(jìn)行二次訓(xùn)練時(shí),模型容易在少量的訓(xùn)練數(shù)據(jù)上過(guò)度擬合,導(dǎo)致其在新的、未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)不佳,這種情況在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中十分常見(jiàn),這會(huì)導(dǎo)致模型的訓(xùn)練不具備足夠的代表性,從而在實(shí)際應(yīng)用中出現(xiàn)預(yù)測(cè)偏差。特定行業(yè)的數(shù)據(jù)分布可能存在明顯的長(zhǎng)尾效應(yīng),即大部分?jǐn)?shù)據(jù)集中在少數(shù)類別,而其他類別數(shù)據(jù)稀少,這會(huì)造成模型在也可能是標(biāo)注不一致,甚至是關(guān)鍵信息缺失,這都將影響模型的判斷準(zhǔn)確度,進(jìn)而影響最終的應(yīng)用c)推理缺少行業(yè)共識(shí)或者基礎(chǔ)知識(shí),缺少行業(yè)實(shí)時(shí)信息,時(shí)效性不夠。大模型如果缺乏對(duì)行業(yè)共識(shí)和基礎(chǔ)知識(shí)的理解,其推理過(guò)程可能無(wú)法深入到行業(yè)實(shí)際問(wèn)題的核心,導(dǎo)致分析結(jié)果停留在表面。在行業(yè)決策過(guò)程中,模型由于缺乏必要的行業(yè)背景知識(shí),可能無(wú)法提供有效的決策支持,影響決策的準(zhǔn)確性和可靠性。行業(yè)特有的模式和規(guī)律需要大量專業(yè)知識(shí)支撐才能識(shí)別和學(xué)習(xí),缺少這些知識(shí)的模型難以準(zhǔn)確把握行業(yè)特性。另一方面,行業(yè)實(shí)時(shí)信息是模型預(yù)測(cè)未來(lái)趨勢(shì)的重要依據(jù),對(duì)于模型的時(shí)效性至關(guān)重要,如金融市場(chǎng)的價(jià)格變動(dòng)、供應(yīng)鏈管理的庫(kù)存動(dòng)態(tài)等,缺乏實(shí)時(shí)信息將導(dǎo)致模型輸出463.1.2建議推理服務(wù)器預(yù)處理服務(wù)器在AI大模型的部署中,將算力和存力分開(kāi)部署的存算分離架構(gòu)顯得尤為重要。這種架構(gòu)不僅能夠有效地提升資源利用效率,還能為模型訓(xùn)練和推理提供強(qiáng)大的支持。存算分離使得計(jì)算和存儲(chǔ)資源可以獨(dú)立進(jìn)行橫向或縱向擴(kuò)展,根據(jù)實(shí)際需求增減資源,避免過(guò)度投資和資源浪費(fèi)。同時(shí),在現(xiàn)階段AI大模型發(fā)展中,改變粗放式堆算力模式,選擇高性能、高可靠的專業(yè)外置存儲(chǔ),合理配置存儲(chǔ)集群性能,從AI訓(xùn)練的全流程角度優(yōu)化,降低訓(xùn)練任務(wù)中斷,提升算力可用度。為了保障整個(gè)集群的負(fù)載均衡性,在需求高峰期,可以增加計(jì)算資源以處理更大的數(shù)據(jù)量,而無(wú)需擔(dān)心存儲(chǔ)瓶頸;反之,在數(shù)據(jù)密集型任務(wù)中,可以單獨(dú)增強(qiáng)存儲(chǔ)性能,提升整體處理速度。用戶可以根據(jù)不推理服務(wù)器預(yù)處理服務(wù)器訓(xùn)訓(xùn)t↓t↓t!高性能層存儲(chǔ)高性能層存儲(chǔ)大容量層存儲(chǔ)(原始數(shù)據(jù)、溫?cái)?shù)據(jù))另一方面,AI的發(fā)展也會(huì)伴隨著算力、算法和數(shù)據(jù)的不斷向前演源和存儲(chǔ)資源獨(dú)立進(jìn)行技術(shù)更新和升級(jí)。這意味著可以在不影響到另一方的情況下,采用最新的處理器或優(yōu)化算法提升計(jì)算性能,或者采用新的存儲(chǔ)技術(shù)提高數(shù)據(jù)讀取速度。在AI領(lǐng)域,模型和算法的迭代速度非常快。存算分離架構(gòu)可以快速適應(yīng)這些變化。例如,當(dāng)一個(gè)新的AI模型需要更多的計(jì)算資源時(shí),可以迅速增加GPU或TPU節(jié)點(diǎn),而無(wú)需擔(dān)心存儲(chǔ)瓶頸。由于計(jì)算和存儲(chǔ)資源是獨(dú)立的,因此更容易集成最新的技術(shù)進(jìn)展,如新型神經(jīng)網(wǎng)絡(luò)架構(gòu)或優(yōu)化算法,只需在相應(yīng)的計(jì)算或存儲(chǔ)層面進(jìn)行升級(jí)即可。存算分離架構(gòu)還支持多租戶環(huán)境,不同的用戶可以共享計(jì)算和存儲(chǔ)資源,同時(shí)又能保證資源之間的隔離和實(shí)驗(yàn)安全。數(shù)據(jù)存儲(chǔ)獨(dú)立于計(jì)算資源,可以更專注于數(shù)據(jù)的安全和傳統(tǒng)方案30%外置AI存儲(chǔ)集群60%數(shù)據(jù)加載數(shù)據(jù)加載周期性周期性CKPT保存(3)快速并發(fā)加載CKPT/訓(xùn)練數(shù)據(jù)集,小時(shí)級(jí)->秒級(jí)(2)CKPT(3)快速并發(fā)加載CKPT/訓(xùn)練數(shù)據(jù)集,小時(shí)級(jí)->秒級(jí)(2)CKPT讀寫保存,10分鐘->秒級(jí)局文件系統(tǒng),加速訓(xùn)練數(shù)據(jù)集加載30分鐘->1分鐘(4)對(duì)比本地盤/對(duì)象存儲(chǔ)等非專業(yè)AI存儲(chǔ)可靠性百倍提升472、數(shù)據(jù)基礎(chǔ)設(shè)施具備橫向擴(kuò)展能力,性能隨容量線性增長(zhǎng)圖像、音視頻等)。這種多模態(tài)甚至全模態(tài)的發(fā)展路徑將使得訓(xùn)練數(shù)據(jù)集的規(guī)模從TB級(jí)別上升至PB乃至EB級(jí)別。AI大模型的參數(shù)量也從千億級(jí)別向萬(wàn)億甚至十萬(wàn)億規(guī)模邁進(jìn)。這意味著所需要的計(jì)算資源和存儲(chǔ)資源將同步增加,存儲(chǔ)系統(tǒng)必須能夠適應(yīng)這一變化,提供足夠的容量以及與之匹配的性能。存儲(chǔ)需要支持EB級(jí)的容量擴(kuò)展,并且在容量擴(kuò)展的同時(shí)性能也要隨容量線性增長(zhǎng)。隨著模型復(fù)雜性的增加,數(shù)據(jù)存取和預(yù)處理的復(fù)雜度也在上升。存儲(chǔ)系統(tǒng)不僅要應(yīng)對(duì)大規(guī)模數(shù)據(jù)的高用于IO處理的加速。AI存儲(chǔ)系統(tǒng)應(yīng)該被設(shè)計(jì)為同時(shí)具備

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論