華為盤古大模型分析_第1頁
華為盤古大模型分析_第2頁
華為盤古大模型分析_第3頁
華為盤古大模型分析_第4頁
華為盤古大模型分析_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

華為盤古大模型分析一、盤古大模型簡介傳統(tǒng)封閉作坊式AI開發(fā)面臨AI算法“碎片化困境”隨著工業(yè)生產(chǎn)智能化需求不斷上升,大量傳統(tǒng)行業(yè)開始積累領域數(shù)據(jù),并尋求人工智能算法以解決生產(chǎn)和研發(fā)過程中遇到的重復而冗雜的問題。人工智能算法在落地的過程中,將會面對大量不同場景、不同需求的用戶,對算法的通用性提出很高要求。近年來,隨著國內(nèi)云計算市場增速明顯,企業(yè)上云明顯提速,客戶的需求逐步從“資源型需求”轉(zhuǎn)向“智能型需求”及“業(yè)務型需求”。龐大的業(yè)務數(shù)量和場景種類多樣性使得各行業(yè)各場景的云解決方案難度加大,單一的解決方案套路對于用戶定制化需求已不具備優(yōu)勢。預訓練大模型解決AI模型通用與泛化的問題預訓練大模型:收集大量圖像、文本等數(shù)據(jù),利用無監(jiān)督或者自監(jiān)督學習方法將數(shù)據(jù)中蘊含的知識提取出來,存儲在具有大量參數(shù)的神經(jīng)網(wǎng)絡模型中。遇到特定任務時,只需調(diào)用一個通用的流程,就能夠?qū)⒅R釋放出來,并且與行業(yè)經(jīng)驗結(jié)合,解決實際問題。預訓練大模型能夠解決在沒有基礎模型支撐的情況下,開發(fā)者們必須從頭開始完成收集數(shù)據(jù)、訓練模型、調(diào)試模型、優(yōu)化部署等一系列操作的問題;同時降低人工智能算法的開發(fā)成本,真正惠及細分行業(yè),尤其是中小型企業(yè)。上游(模型預訓練)和下游(模型微調(diào))兩個階段:上游階段主要收集大量數(shù)據(jù),并且訓練超大規(guī)模的神經(jīng)網(wǎng)絡,從而高效地存儲和理解這些數(shù)據(jù)。下游階段則在不同場景中,利用相對較少的數(shù)據(jù)量和計算量,對模型進行微調(diào),以達成特定的目的。盤古大模型:中國首個全棧自主的AI大模型華為云團隊于2020年立項AI大模型,并于2021年4月首次以“盤古預訓練大模型”(簡稱“盤古大模型”)的名稱對外發(fā)布。盤古大模型集成了華為云團隊在AI領域數(shù)十項研究成果,并且受益于華為的全棧式AI解決方案,與昇騰(Ascend)芯片、昇思(MindSpore)語言、ModelArts平臺深度結(jié)合。2023年7月7日,在2023華為開發(fā)者大會上,面向行業(yè)的盤古大模型3.0發(fā)布,是中國首個全棧自主的AI大模型,包括“5+N+X”三層架構,分別對應L0層的5個基礎大模型、L1層的N個行業(yè)通用大模型、以及L2層可以讓用戶自主訓練的更多細化場景模型。其采用完全的分層解耦設計,企業(yè)用戶可以基于自己的業(yè)務需要選擇適合的大模型開發(fā)、升級或精調(diào),從而適配千行百業(yè)多變的需求。二、L0基礎大模型盤古基礎大模型:提供滿足行業(yè)場景需要的上百種能力盤古大模型3.0的L0層由5個基礎大模型組成,包括盤古NLP(NaturalLanguageProcessing,自然語言處理)大模型、盤古CV(ComputerVision,計算機視覺)大模型、盤古多模態(tài)大模型、盤古預測大模型、盤古科學計算大模型等。盤古大模型L0層賦予上百種能力,涵蓋問答、生成、理解、代碼、視覺、預測、科學計算、高階等方面,覆蓋廣泛應用領域。盤古大模型3.0為客戶提供100億、380億、710億和1000億參數(shù)的系列化基礎大模型,能夠匹配客戶不同場景、不同時延、不同響應速度的行業(yè)多樣化需求。盤古NLP大模型:業(yè)界首個超千億參數(shù)的中文預訓練大模型盤古NLP大模型是業(yè)界首個超千億參數(shù)的中文預訓練大模型,利用大數(shù)據(jù)預訓練、對多源豐富知識相結(jié)合,并通過持續(xù)學習吸收海量文本數(shù)據(jù),不斷提升模型的效果。在實現(xiàn)行業(yè)知識檢索回答、文案生成、閱讀理解等基礎功能的同時,具備代碼生成、插件調(diào)用、模型調(diào)用等高階特性,在智能客服、創(chuàng)意營銷、會議助手、代碼助手、企業(yè)信息搜索等多個典型場景,提供AI技術支撐。盤古NLP大模型:語義模型在中文理解類榜單上獲得第一名數(shù)據(jù)收集:文本部分從互聯(lián)網(wǎng)公開爬取40TB原始網(wǎng)頁數(shù)據(jù),并且進行解析和清洗,最終得到約647GB文本數(shù)據(jù)(百科知識約270GB、新聞博客約200GB、文學作品約106GB、社交媒體約71GB)。語音部分從互聯(lián)網(wǎng)公開爬取超過7萬小時普通話音頻數(shù)據(jù),并將其轉(zhuǎn)換為音頻文件,共計約11TB;視頻來源包括新聞播報、影視劇、綜藝節(jié)目、動畫等。預訓練方法:語義部分使用基于Transformer結(jié)構的編碼-解碼器模型神經(jīng)網(wǎng)絡,編碼器負責文本理解,解碼器負責文本生成。語音部分用卷積與Transformer結(jié)合的網(wǎng)絡結(jié)構,底層用卷積神經(jīng)網(wǎng)絡提取局部信息,上層用Transformer網(wǎng)絡提取全局信息。模型效果:語義模型作為業(yè)界首個千億中文大模型,發(fā)布時(2021年5月)在中文理解類榜單CLUE上獲得第一名;生成類任務在NLPCC2018文本摘要任務上取得了業(yè)界最佳成績,超越第二名60%。語音模型是當前最大的中文語音模型之一,擁有超過4億參數(shù),在自有數(shù)據(jù)上相比于基線模型字符錯誤率相對降低10%。補充:“鵬程·盤古”大規(guī)模自回歸中文預訓練語言模型鵬程·盤古模型是以鵬城實驗室為首的聯(lián)合團隊在基于昇騰910芯片的E級智能算力平臺(鵬城云腦II)上訓練的全球首個全開源2000億參數(shù)的自回歸中文預訓練語言大模型。鵬程·盤古模型基于1.1TB高質(zhì)量中文訓練數(shù)據(jù),采用全場景人工智能計算框架MindSpore自動并行技術實現(xiàn)了五維并行訓練策略,從而可將訓練任務高效擴展到4096個處理器上。對比實驗表明,在少樣本或零樣本情況下,鵬程·盤古模型在多個中文自然語言理解或生成任務上都具有較優(yōu)的性能,例如鵬程·盤古2.6B模型在生成任務方面比CPM2.6B模型平均高出6個百分點。同時,實驗表明更大規(guī)模的預訓練模型的性能通常能在小樣本學習任務上取得提升,例如鵬程·盤古13B模型在16個下游任務中的表現(xiàn)比鵬程·盤古2.6B模型高出近3個百分點。在此基礎上,鵬程·盤古模型在大模型壓縮、提示微調(diào)學習、多任務學習以及持續(xù)學習等方面也取得了很好的應用效果。盤古CV大模型:助力圖像視頻分類檢測等視覺場景盤古CV大模型基于海量圖像、視頻數(shù)據(jù)和盤古獨特技術構筑的視覺基礎模型,賦能行業(yè)客戶利用少量場景數(shù)據(jù)對模型微調(diào)即可實現(xiàn)特定場景任務。在物體檢測、圖像分類、語義分割、萬物檢測、萬物分割等多個典型場景,提供AI技術支撐。盤古CV大模型:性能表現(xiàn)優(yōu)異,具備良好的泛化能力數(shù)據(jù)收集:通過多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴充、各搜索引擎關鍵字爬取、以圖搜圖、視頻圖像抽幀等,并通過原始數(shù)據(jù)篩選,最終保留超過10億張高質(zhì)量圖像數(shù)據(jù),占據(jù)約40TB空間。預訓練方法:計算機視覺領域最常見的卷積網(wǎng)絡和Transformer架構。利用自動機器學習算法,能夠支持并調(diào)用不同大小的神經(jīng)網(wǎng)絡,其中最大的計算模型具有接近30億參數(shù),最小的模型只有數(shù)十萬參數(shù),其大小相差超過1000倍,為適配不同的視覺任務提供了可能性。模型效果:盤古CV大模型在ImageNet數(shù)據(jù)集的線性分類評估上,首次達到了與全監(jiān)督相比擬的結(jié)果。在小樣本學習上表現(xiàn)優(yōu)異:使用ImageNet上1%和10%的標簽訓練,模型達到了66.7%和75.1%的分類精度,均顯著超越對比方法。以此方法為基礎設計了具有10億參數(shù)量的基礎模型,并在超過10億張無標注圖像組成的數(shù)據(jù)集上進行預訓練,所得到的模型在ImageNet上達到了88.7%的分類精度,而1%標簽的半監(jiān)督學習精度也達到83.0%。盤古多模態(tài)大模型:提供跨模態(tài)圖文理解與生成能力盤古多模態(tài)大模型融合語言和視覺跨模態(tài)信息,實現(xiàn)圖像生成、圖像理解、3D生成和視頻生成等應用,面向產(chǎn)業(yè)智能化轉(zhuǎn)型提供跨模態(tài)能力底座。在以文生圖、以圖生圖、圖像理解、圖像編輯、以文生3D、以圖生3D等多個典型場景,提供AI技術支撐。盤古多模態(tài)大模型:各項下游任務取得業(yè)界領先水平數(shù)據(jù)收集:從互聯(lián)網(wǎng)中爬取大量數(shù)據(jù)并進行過濾處理,最終得到約3.5億高質(zhì)量的圖文配對數(shù)據(jù),占據(jù)約60TB存儲空間。預訓練方法:主流的多模態(tài)大模型架構主要分為單塔架構和雙塔架構,模型采用雙塔結(jié)構,利用不同的神經(jīng)網(wǎng)絡完成不同模態(tài)的信息抽取,僅在最后一層做信息交互和融合,屬于信息后融合方案。模型效果:模型在多模態(tài)的各項下游任務,如跨模態(tài)檢索、圖像描述自動生成、視覺定位等任務上均取得了業(yè)界領先水平。采用LOUPE算法預訓練所得的模型,在跨模態(tài)檢索數(shù)據(jù)集Flicker30k以及MS-COCO上取得了當前業(yè)界最佳的圖文檢索精度,其中在MS-COCO的以文搜圖任務上超過業(yè)界標桿算法CLIP達12.3%。盤古預測大模型:統(tǒng)一大模型在通用數(shù)據(jù)域上的構造方案盤古預測大模型是面向結(jié)構化類數(shù)據(jù),基于10類2000個基模型空間,通過模型推薦、融合兩步優(yōu)化策略,構建圖網(wǎng)絡架構AI模型。在回歸預測、分類、異常檢測、時序預測、融合神經(jīng)網(wǎng)絡模型等多個典型場景,提供AI技術支撐。盤古科學計算大模型:以嵌入科學方程的深度神經(jīng)網(wǎng)絡解決科學問題盤古科學計算大模型是面向氣象、醫(yī)藥、水務、機械、航天航空等領域,采用AI數(shù)據(jù)建模和AI方程求解的方法;從海量的數(shù)據(jù)中提取出數(shù)理規(guī)律,使用神經(jīng)網(wǎng)絡編碼微分方程;使用AI模型更快更準的解決科學計算問題。在氣象預測、藥物分子等多個典型場景,提供AI技術支撐。盤古科學計算大模型:海浪預測任務預測平均誤差小于5cm數(shù)據(jù)收集:分為觀測數(shù)據(jù)和仿真數(shù)據(jù)兩類。觀測數(shù)據(jù)由觀測工具(如游標卡尺、雷達、傳感器等)產(chǎn)生,仿真數(shù)據(jù)由仿真算法(對應人類知識)產(chǎn)生,這兩類數(shù)據(jù)及其融合數(shù)據(jù)和機理知識均可以作為AI模型的學習對象。模型構建:以海浪預測任務為例,其目標為預測全球范圍內(nèi)海平面的實時浪高,輸入和輸出數(shù)據(jù)均為帶有時間戳的二維球面數(shù)據(jù),因此適合使用二維網(wǎng)絡模型。以進行全球范圍內(nèi)的氣象預測為例,輸入和輸出均為帶有時間戳的三維數(shù)據(jù)(包括高度),因此適合使用三維網(wǎng)絡模型。二維網(wǎng)絡和三維網(wǎng)絡均可使用卷積神經(jīng)網(wǎng)絡或者視覺Transformer作為骨干架構,配合大數(shù)據(jù)進行預訓練。模型效果:以海浪預測任務為例,通過爬取全球近10年的實時海浪高度數(shù)據(jù)進行訓練,模型在驗證集上預測的平均誤差小于5cm,與傳統(tǒng)預測方法相當,可以滿足實際應用需求。同時,AI算法的預測時間較傳統(tǒng)方法大幅減少,在單張華為昇騰芯片上,1s之內(nèi)即可得到全球海浪高度預測,1分鐘內(nèi)能夠完成超過100次海浪預測任務,推理效率較傳統(tǒng)方法提升了4-5個數(shù)量級。三、L1行業(yè)大模型與L2場景大模型盤古行業(yè)大模型與場景大模型:提供專屬行業(yè)與場景的大模型盤古大模型3.0的L1層由N個行業(yè)大模型組成,包括政務、金融、制造、藥物分子、礦山、鐵路、氣象等大模型。除提供以上使用行業(yè)公開數(shù)據(jù)訓練的行業(yè)通用大模型外,還可以基于客戶自有數(shù)據(jù),在L0和L1層上訓練專有大模型。L2層是為客戶提供的更多細化場景的場景大模型,如政務熱線、網(wǎng)點助手、供應鏈物流、先導藥物篩選、臺風路徑預測等,為客戶提供“開箱即用”的模型服務。盤古大模型采用完全的分層解耦設計,可以快速適配、快速滿足行業(yè)的多變需求。根據(jù)客戶不同的數(shù)據(jù)安全與合規(guī)訴求,盤古大模型還提供了公用云、大模型云專區(qū)、混合云多樣化的部署形態(tài)。盤古氣象大模型:Nature發(fā)文,精度與速度超越傳統(tǒng)數(shù)值預報2023年7月6日,國際頂級學術期刊《自然》(Nature)雜志正刊發(fā)表了華為云盤古大模型研發(fā)團隊研究成果——《三維神經(jīng)網(wǎng)絡用于精準中期全球天氣預報》(Accuratemedium-rangeglobalweatherforecastingwith3Dneuralnetworks),是近年來中國科技公司首篇作為唯一署名單位發(fā)表的《自然》正刊論文。論文提出了適應地球坐標系統(tǒng)的三維神經(jīng)網(wǎng)絡(3DEarth-SpecificTransformer)來處理復雜的不均勻3D氣象數(shù)據(jù),并且使用層次化時域聚合策略來減少預報迭代次數(shù),從而減少迭代誤差。華為云盤古氣象大模型是首個精度超過傳統(tǒng)數(shù)值預報方法的AI模型,速度相比傳統(tǒng)數(shù)值預報提速10000倍以上。通過在43年的全球天氣數(shù)據(jù)上訓練深度神經(jīng)網(wǎng)絡,盤古氣象大模型在精度和速度方面均超越傳統(tǒng)數(shù)值預測方法。盤古藥物分子大模型:開啟AI藥物研發(fā)新模式2021年9月23日,華為在全聯(lián)接大會2021上發(fā)布了華為云盤古藥物分子大模型。該模型由華為云深度聯(lián)合中國科學院上海藥物研究所共同訓練,是專門面向藥物研發(fā)領域推出的預訓練大模型,旨在幫助醫(yī)藥公司開啟AI輔助藥物研發(fā)的新模式。盤古藥物分子大模型首次采用“圖-序列不對稱條件變分自編碼器”架構,能夠自動找出化合物關鍵的分子特征指紋,極大地提升了下游任務的準確性。模型學習了市面上真實存在的17億個已知的藥物分子的化學結(jié)構進行預訓練,在化學無監(jiān)督學習模式下,實現(xiàn)結(jié)構重構率、合法性、唯一性等指標全面優(yōu)于現(xiàn)有方法。盤古藥物分子大模型提出了針對化合物表征學習的全新深度學習網(wǎng)絡架構,支持蛋白質(zhì)與化合物相互作用預測、86種分子屬性預測、分子生成、分子優(yōu)化等功能,生成了1億全新的小分子化合物數(shù)據(jù)庫,結(jié)構新穎性達到了99.68%,并且可以有效地生成理化性質(zhì)相似的新化合物,為發(fā)現(xiàn)新藥創(chuàng)造可能性。盤古政務大模型:賦能政務和城市數(shù)字化向智能化升級2023年9月20日,華為在全聯(lián)接大會2023上發(fā)起“華為盤古政務大模型聯(lián)合創(chuàng)新行動”,以“賦能政務和城市數(shù)字化向智能化升級”為共同目標,重點推進大模型在政務服務、政務辦公、城市治理等場景的聯(lián)合創(chuàng)新方案開發(fā),并推進各級地方政府的“十四五”規(guī)劃和數(shù)字政府、數(shù)字經(jīng)濟、數(shù)字社會建設規(guī)劃等實踐與落地。盤古政務大模型致力于打造城市AI算力基礎設施,賦能城市智能化升級,帶動數(shù)字經(jīng)濟快速增長,實現(xiàn)高效政務辦公,便捷政務服務,精準城市治理。華為聯(lián)合深圳市福田區(qū)政務局上線了基于盤古政務大模型的福田政務智慧助手小福。依托大模型建設輔助辦文、智能校對、自動生成摘要、輔助批示、智慧督辦等應用,助力政務數(shù)字化轉(zhuǎn)型;在城市數(shù)字化領域,利用視覺(CV)大模型提供城市事件智能發(fā)現(xiàn)能力,全

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論