預(yù)訓(xùn)練大模型白皮書-華為_第1頁(yè)
預(yù)訓(xùn)練大模型白皮書-華為_第2頁(yè)
預(yù)訓(xùn)練大模型白皮書-華為_第3頁(yè)
預(yù)訓(xùn)練大模型白皮書-華為_第4頁(yè)
預(yù)訓(xùn)練大模型白皮書-華為_第5頁(yè)
已閱讀5頁(yè),還剩108頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高文中國(guó)工程院院士鵬城實(shí)驗(yàn)室主任自1956年人工智能在達(dá)特茅斯會(huì)議上被提出,人工智能領(lǐng)域的學(xué)者一直致力于提21世紀(jì)初,隨著硬件性能的演進(jìn)和大數(shù)據(jù)的興起,情況發(fā)生了根本性的變化。2010年開始,深度學(xué)習(xí)以席卷之勢(shì),占領(lǐng)了人工智能的大部分領(lǐng)域,在許多公測(cè)的任務(wù),而這件事在20年前是幾乎無(wú)法想象的。從2018年的億級(jí)來(lái)到了2022年萬(wàn)億級(jí),幾乎每年都能看到數(shù)量級(jí)上的提升。件、框架、開發(fā)工具的支持。華為公司構(gòu)建了從昇騰+鯤鵬芯片到AI開發(fā)框架法和解決方案。截至2022年,盤古大模型已經(jīng)被應(yīng)用于十余個(gè)行業(yè)的百余個(gè)場(chǎng)景耗,降低人工智能開發(fā)的門檻和成本,這對(duì)踐行普惠AI,實(shí)現(xiàn)人工智能的泛化和規(guī)模復(fù)制,具有非常巨大古有盤古開天地,今有華為大模型。為解決人工智能算法落地的碎片化困境,預(yù)訓(xùn)練大模型應(yīng)運(yùn)而生。自華為云團(tuán)隊(duì)發(fā)布盤古預(yù)訓(xùn)練大模型以來(lái),形成了全棧式AI解決方案,在很多領(lǐng)域獲得了成功的應(yīng)用。相信《預(yù)訓(xùn)練大模型白皮書》將會(huì)引領(lǐng)大模型健康發(fā)展,為通用人工智能探索一條可能的新路徑。預(yù)訓(xùn)練大模型是當(dāng)前新一代人工智能領(lǐng)域最前沿的研究方向,正成為世界各科技強(qiáng)國(guó)競(jìng)爭(zhēng)的焦點(diǎn)。預(yù)訓(xùn)練大模型率先在自然語(yǔ)言處理領(lǐng)域取得突破性的進(jìn)展,并迅速拓展到涉及圖像、視展現(xiàn)了巨大的發(fā)展?jié)摿ΑHA為云發(fā)布《預(yù)訓(xùn)練大模型白皮書》,正逢其時(shí),必定對(duì)AI行業(yè)產(chǎn)生有價(jià)值的指導(dǎo)作用,也體現(xiàn)了作為一個(gè)科技大公司的擔(dān)當(dāng)精神。我相信,預(yù)訓(xùn)練大模型可望成為跨媒體智能的重要技術(shù)手段。預(yù)訓(xùn)練大模型被稱為人工智能應(yīng)用的基礎(chǔ)設(shè)施,它具有強(qiáng)大的知識(shí)建模、知識(shí)獲取和應(yīng)用泛化能力。華為云《預(yù)訓(xùn)練大模型白皮書》以華為云盤古大模型家族為代表,全面介紹了華為在大模型方面的系列創(chuàng)新性工作,包括視覺、語(yǔ)音語(yǔ)義、多模態(tài)、科學(xué)計(jì)算、圖網(wǎng)絡(luò)大模型,以及產(chǎn)業(yè)落地經(jīng)驗(yàn)和對(duì)未來(lái)發(fā)展的展望。這本白皮書會(huì)給學(xué)術(shù)界和產(chǎn)業(yè)界提供重要的啟發(fā)和借鑒。預(yù)訓(xùn)練大模型是人工智能領(lǐng)域的研究熱點(diǎn)和前沿技術(shù),近年來(lái)在自然語(yǔ)言處理、計(jì)算機(jī)視覺等方向取得了巨大成功。華為云團(tuán)隊(duì)撰寫的《預(yù)訓(xùn)練大模型白皮書》,將其在大模型研發(fā)和落地中的經(jīng)驗(yàn)總結(jié)出來(lái),分享給學(xué)術(shù)界和工業(yè)界,對(duì)推動(dòng)預(yù)訓(xùn)練大模型理論、方法、技術(shù)、應(yīng)用的發(fā)展具有重要意義。愛因斯坦說(shuō):這個(gè)宇宙最讓人難以理解的地方,就是它竟然是可以被理解的。斗轉(zhuǎn)星移,大數(shù)據(jù)和人工智能在21世紀(jì),為我們開啟了一個(gè)理解人類自身認(rèn)知的帷幕,逐步融入了我們的日常生活;也正是在這樣一種時(shí)代背景下,旨在建立一種通用智能的“大模型”應(yīng)運(yùn)而生。它寄望于“預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)”的方式,將知識(shí)存儲(chǔ)到大量參數(shù)中,擴(kuò)展模型的泛化能力。很大意義上,對(duì)大模型的落地部署,能夠超越產(chǎn)業(yè)和國(guó)家的界限,實(shí)現(xiàn)人類社會(huì)的福祉。華為公司的《預(yù)訓(xùn)練大模型白皮書》,我相信,能為我們建立普遍理性和平等的社會(huì),提供強(qiáng)大的力量。近年來(lái),以GPT-3、CLIP為代表的超大規(guī)模預(yù)訓(xùn)練模型被陸續(xù)提出,通過在海量數(shù)據(jù)上進(jìn)行自監(jiān)督學(xué)習(xí),有效提升了自然語(yǔ)言處理與計(jì)算機(jī)視覺領(lǐng)域多個(gè)下游任務(wù)的性能。華為云在預(yù)訓(xùn)練大模型領(lǐng)域有著深厚的技術(shù)積累,于2021年發(fā)布了“盤古”系列超大規(guī)模預(yù)訓(xùn)練模型,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。華為云《預(yù)訓(xùn)練大模型白皮書》總結(jié)了大模型的發(fā)展趨勢(shì)及其帶來(lái)的機(jī)遇,為未來(lái)研究提供了重要借鑒。讓預(yù)訓(xùn)練大模型成為AI的操作系統(tǒng)專家專家專家模型2專家專家專家模型3品專家專家專家近年來(lái),國(guó)內(nèi)的云計(jì)算市場(chǎng)增速明顯,企業(yè)上云明顯提速??蛻舻男枨笾鸩綇摹百Y源型需求”轉(zhuǎn)向“智能型需求”及“業(yè)務(wù)型需求”,意味著PaaS、SaaS等各行業(yè)各場(chǎng)景的云解決方案將受到更多關(guān)注。盡管該市場(chǎng)呈現(xiàn)出了廣闊的前景,業(yè)務(wù)的龐大數(shù)量和場(chǎng)景種類夸張的多樣性也意味著巨大的難度。隨著市場(chǎng)的成熟上升,“一招鮮吃遍天”的套路相對(duì)于針對(duì)用戶需求定制化的解決方案已不具優(yōu)勢(shì),意味著在細(xì)分領(lǐng)域深耕的中小型友商也具有瓜分市場(chǎng)的競(jìng)爭(zhēng)力。因此,如何在保證市場(chǎng)占有率并支撐如此大量的業(yè)務(wù)的情況下,控制資源和成本、保證交付效率和保證產(chǎn)品質(zhì)量是云廠商要解決的核心難題。另一方面,隨著工業(yè)生產(chǎn)越來(lái)越強(qiáng)調(diào)智能化,大量傳統(tǒng)行業(yè)開始積累領(lǐng)域數(shù)據(jù),并尋求人工智能算法以解決生產(chǎn)和研發(fā)過程中遇到的重復(fù)而冗雜的問題。這就意味著,人工智能算法在落地的過程中,將會(huì)面對(duì)大量不同場(chǎng)景、不同需求的用戶。這對(duì)算法的通用性提出了很高的要求。然而我們注意到,當(dāng)前業(yè)界大部分人工智能開發(fā)者,正在沿用傳統(tǒng)的“小作坊模式”,即針對(duì)每個(gè)場(chǎng)景,獨(dú)立地完成模型選擇、數(shù)據(jù)處理、模型優(yōu)化、模型迭代等一系列開發(fā)環(huán)節(jié)。由于無(wú)法積累通用知識(shí),同時(shí)不同領(lǐng)域的調(diào)試方法有所不同,這樣的開發(fā)模式往往比較低效。特別地,當(dāng)前人工智能領(lǐng)域存在大量專業(yè)水平不高的開發(fā)者,他們往往不能掌握規(guī)范的開發(fā)模式和高效的調(diào)優(yōu)技巧,從而使得模型的精度、性能、可擴(kuò)展性等指標(biāo)都不能達(dá)到令人滿意的水平。我們將上述問題,稱為人工智能算法落地的碎片化困境。超大的神經(jīng)網(wǎng)絡(luò)超大的神經(jīng)網(wǎng)絡(luò)強(qiáng)壯的網(wǎng)絡(luò)架構(gòu)優(yōu)秀的泛化能力大模型1p服場(chǎng)景1微調(diào)8部要場(chǎng)景3為了解決這個(gè)困境,預(yù)訓(xùn)練大模型應(yīng)運(yùn)而生。它收集大量圖像、文本等數(shù)據(jù),利用無(wú)監(jiān)督或者自監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)中蘊(yùn)含的知識(shí)提取出來(lái),存儲(chǔ)在具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中。遇到特定任務(wù)時(shí),只要調(diào)用一個(gè)通用的流程,就能夠?qū)⑦@些知識(shí)釋放出來(lái),并且與行業(yè)經(jīng)驗(yàn)結(jié)合,解決實(shí)際問題。近年來(lái),預(yù)訓(xùn)練大模型相關(guān)研究和應(yīng)用呈井噴態(tài)勢(shì),大有一統(tǒng)人工智能領(lǐng)域的趨勢(shì)。不過我們也應(yīng)該看到,預(yù)訓(xùn)練大模型距離規(guī)?;纳虡I(yè)應(yīng)用,還有很長(zhǎng)的路要走,這里不僅包含技術(shù)的演進(jìn),也包含商業(yè)模式的進(jìn)化。按照我們的設(shè)想,大模型是未來(lái)AI計(jì)算的“操作系統(tǒng)”,向下管理Al硬件,向上支撐AI算法,使得AI開發(fā)更加規(guī)范化、平民化。我們希望通過編寫《預(yù)訓(xùn)練大模型白皮書》,將我們團(tuán)隊(duì)在研究和落地中獲得的經(jīng)驗(yàn)總結(jié)下來(lái),更好地促進(jìn)行業(yè)的進(jìn)步。是AI發(fā)展的必然趨勢(shì)1.1人工智能發(fā)展史簡(jiǎn)介人工智能從1956年被正式提出以來(lái),經(jīng)歷了數(shù)十年的發(fā)展歷程。人工智能誕一般要求。在進(jìn)入21世紀(jì)依賴,在大數(shù)據(jù)和大算力的支持下,歸納統(tǒng)計(jì)方法逐漸占據(jù)了人工智能領(lǐng)域的主孕育期繁榮期1低谷期1繁榮期Ⅱ低谷期Ⅱ繁榮期Ⅲ1943-1956年1956-1974年1974-1980年1943-1956年1956-1974年1974-1980年如上圖所示,人工智能的主要發(fā)展階段如下:AlanM.Turing設(shè)想的驗(yàn)證靈測(cè)試)。同時(shí),1946年出以1956年達(dá)特茅斯會(huì)議為(如證明數(shù)學(xué)定理),而基年出現(xiàn)了專門用于模擬感圖靈獎(jiǎng)得主)和HerbertA.工智能將在20年內(nèi)獲得徹代人工智能算法的極限。1969年,MarvinL.Minsky人工神經(jīng)網(wǎng)絡(luò))方面的研1980-1987年1987-1993年1980-1987年1987-1993年隨著專家系統(tǒng)的出現(xiàn)和盛行,人工智能算法開始在1975年出現(xiàn)的MYCIN算液傳染病的診斷工作。同Rumelhart發(fā)明的反向傳播YannLeCun(2018年圖靈獎(jiǎng)得主)使用五層神經(jīng)網(wǎng)絡(luò)巨大成功并在20世紀(jì)90年代識(shí)別了美國(guó)超過10%的手寫支票。以DARPA為代表20世紀(jì)80年代后半段在人的表現(xiàn)也無(wú)法預(yù)測(cè)甚至控大的觀點(diǎn)包括DavidMarrA.Brooks提出的“模型可值得一提的是,深度學(xué)習(xí)并未解決人工智能的本質(zhì)問題。未來(lái),業(yè)界很可能還要經(jīng)歷數(shù)次低潮與革新,方能達(dá)成真正的通用人工智能。在此之前,雖然存在著關(guān)于強(qiáng)/弱人工智能的討論和對(duì)科技奇異點(diǎn)的擔(dān)憂,但業(yè)界的重心依然是人工智能算法的研發(fā)。1.2人工智能發(fā)展趨勢(shì)的總體研判有趣的是,有影響力的三大流派(邏輯演繹流派、歸納統(tǒng)計(jì)流派、類腦計(jì)算流派)值得強(qiáng)調(diào)的是,深度學(xué)習(xí)是時(shí)代的產(chǎn)物。如果沒有與大數(shù)據(jù)(存儲(chǔ)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的發(fā)展)和大算力(尤以GPU的飛速演進(jìn)為代表)的支持,深度學(xué)習(xí)就不可能在短短的3--5年間占領(lǐng)人工智能的大部分領(lǐng)域。而在下一個(gè)劃時(shí)代的計(jì)算模型在下一個(gè)劃時(shí)代的計(jì)算模型出現(xiàn)以前,大模型將是人工智能領(lǐng)域最有效的通用范式,并將產(chǎn)生巨大的商業(yè)價(jià)值本需要8塊GPU運(yùn)行5個(gè)小時(shí)、1名開發(fā)的支持下,只需1塊GPU運(yùn)行2個(gè)小時(shí),10%甚至1%。對(duì)大模型的研究,將有可能啟發(fā)下一個(gè)通用計(jì)算模型回顧歷史,2011年前后,正是傳統(tǒng)統(tǒng)計(jì)學(xué)即使在2021年,10億參數(shù)的計(jì)算機(jī)視覺模深度神經(jīng)網(wǎng)絡(luò)僅用6000萬(wàn)參數(shù),即徹底擊綜上所述,預(yù)訓(xùn)練大模型是現(xiàn)階段人工智能的集大成者,代表了統(tǒng)計(jì)學(xué)習(xí)流派的最高成就。在新一代技術(shù)未出現(xiàn)前,它將是人工智能研究和開發(fā)的最強(qiáng)武器。事實(shí)上,圍繞大模型的研發(fā)和落地,中美之間已經(jīng)展開了新一輪的競(jìng)爭(zhēng)。盤古(華為)NLP2CVE多模態(tài)&科學(xué)計(jì)算數(shù)據(jù):40TB文本(更新)悟道20(北京智源)NLP&多模態(tài)M6(阿里)多模態(tài)23盤古+工作流實(shí)現(xiàn)低算力,低門檻,邊學(xué)邊用的使用模式結(jié)合ModelArts和智能體工作流能力,實(shí)現(xiàn)輕量化交付借助華為已有行業(yè)基礎(chǔ),構(gòu)筑行業(yè)大模型稱《盤古大模型》)的名稱對(duì)外發(fā)布。盤古大模型集成了華為云團(tuán)隊(duì)在AI領(lǐng)域數(shù)十項(xiàng)研究成果,并且受益于華為的全棧式AI解決方案,與昇騰(Ascend)芯片、昇思(MindSpore)語(yǔ)言、Mod計(jì)算機(jī)視覺是研究計(jì)算機(jī)如何去“看”的學(xué)科。其中,較為典型的任務(wù)包括圖像割、物體追蹤、姿態(tài)估計(jì)等。下圖展示了圖像分類中最著名的ImageNet數(shù)據(jù)集(超過2萬(wàn)個(gè)物體類別)和MS-COCO數(shù)據(jù)集(包括檢測(cè)、分割等多種任務(wù))。detection,segmentation,poseestimati低頻區(qū)域(如天空)或者無(wú)明確語(yǔ)義的高頻(如隨機(jī)噪聲)在計(jì)算機(jī)中,視覺信號(hào)一般以“密集采樣強(qiáng)度”的方式存儲(chǔ):不同方向入射的光線在每個(gè)信道(如紅綠藍(lán))上的強(qiáng)度被記錄下來(lái),用于呈現(xiàn)圖像的基本內(nèi)容。圖像中的每個(gè)基本單元被稱為像素——很顯然,這些像素并不能代表基本的語(yǔ)義信息,因而圖像的基本存儲(chǔ)形態(tài)和人類能夠理解的語(yǔ)義之間,存在很大的差距。在學(xué)界,這種差距被稱為“語(yǔ)義鴻溝”,這也是幾乎所有計(jì)算機(jī)視覺研究所需要處理的核心問題。進(jìn)一步探究圖像的存儲(chǔ)形態(tài),我們會(huì)發(fā)現(xiàn)圖像信號(hào)的若干特點(diǎn):鑒于上述特點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型就成為了計(jì)算機(jī)視覺落地的最佳方案之一。預(yù)訓(xùn)練過程能夠一定程度上完成視覺信號(hào)的壓縮,深度神經(jīng)網(wǎng)絡(luò)能夠抽取層次化的視覺特征,而預(yù)訓(xùn)練結(jié)合微調(diào)的范式則能夠應(yīng)對(duì)豐富多變的域。以下,我們講述盤古視覺大模型的整體思路和技術(shù)方案。圖像是一種復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),包含豐富的語(yǔ)義信息。現(xiàn)如今,還沒有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學(xué)規(guī)律進(jìn)行準(zhǔn)確的描述,因而人們只能通過收集大量的數(shù)據(jù),來(lái)近似現(xiàn)實(shí)中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的ImageNet數(shù)據(jù)集是計(jì)算機(jī)視覺領(lǐng)域的重要里程碑,它使得訓(xùn)練、評(píng)估大規(guī)模圖像處理方法成為可能。隨著計(jì)算機(jī)視覺技術(shù)的進(jìn)步和更多應(yīng)用的出現(xiàn),ImageNet數(shù)據(jù)集的局限性逐漸顯現(xiàn)出來(lái),包括規(guī)模、復(fù)雜性等。為了解決這一問題,我們必須收集更大規(guī)模、更加復(fù)雜的圖像數(shù)據(jù),而這也是業(yè)界的一致趨勢(shì)。我們通過多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴(kuò)充、各搜索引擎關(guān)鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中,我們篩除了低分辨率、低曝、過曝、簡(jiǎn)單背景等低質(zhì)量圖像數(shù)據(jù),再通過已有預(yù)訓(xùn)練視覺模型進(jìn)行重復(fù)圖像的判斷和去除,最終保留超過10億張高質(zhì)量圖像數(shù)據(jù),占據(jù)約40TB空間。絡(luò),其中最大的計(jì)算模型具有接近30億參數(shù),最小的模型只有數(shù)十萬(wàn)參數(shù),其大小相差超過1000倍,為負(fù)樣本優(yōu)化的影響。我們采用的預(yù)訓(xùn)練算法(發(fā)表于TPAMI上)的簡(jiǎn)略示意圖如下所示:NPaUX十89p—上1%和10%的標(biāo)簽訓(xùn)練,我們的方法達(dá)到了66.7%和75.1%的分類精度,均顯著超基礎(chǔ)模型,并在超過10億張ImageNet上達(dá)到了88.7%的分類精度,而1%標(biāo)簽的半監(jiān)督學(xué)習(xí)精度也達(dá)到83.0%。同1Aircraft(飛行器)2CUB-200-2011(鳥類)3DTD(紋理)4EuroSAT(衛(wèi)星圖塊)5Flowers102(花)6Food101(食物)7Pets(動(dòng)物)8SUN397(場(chǎng)景)9StanfordCars(車)StanfordDogs(狗)1VOC(自然場(chǎng)景)2Comic(風(fēng)格變換)3Clipart(風(fēng)格變換)4Watercolor(風(fēng)格變換)5DeepLesion(醫(yī)療)6Dota2.0(遙感)7Kitti(自動(dòng)駕駛)8WiderFace(人臉)9LISA(紅綠燈)Kitchen(廚房場(chǎng)景)自然語(yǔ)言,是人類進(jìn)化過程中形成的一種高效的存儲(chǔ)和交換信息的載體。人們?cè)谑褂米匀徽Z(yǔ)言交流時(shí),既可以使用“聽說(shuō)”的方式,也可以使用“讀寫”的方式。這就意味著,對(duì)自然語(yǔ)言的理解和使用可以分為兩個(gè)部分,即對(duì)于文字和音頻的處理,合成為語(yǔ)音語(yǔ)義處理。在人工智能領(lǐng)域,這兩個(gè)子課題分別被稱為自然語(yǔ)言處理和語(yǔ)音處理。與計(jì)算機(jī)視覺類似,語(yǔ)音語(yǔ)義處理的目標(biāo),就是讓機(jī)器學(xué)會(huì)像人一樣理解并使用文字和聲音,與人類或者其他智能體交流。如圖所示,自然語(yǔ)言處理和語(yǔ)音處理都可以分為理解和生成兩個(gè)部分。其中,“理解”的目標(biāo)是讓機(jī)器理解人類語(yǔ)言背后的語(yǔ)義信息,“生成”的目標(biāo)讓機(jī)器使用人類語(yǔ)言表達(dá)自己的意圖。自然語(yǔ)言處理和語(yǔ)音處理的區(qū)別在于,前者主要處理文本信息,后者主要處理音頻信號(hào)。大部分情況下,文本和音頻信號(hào)具有很強(qiáng)的關(guān)聯(lián)性,但是某些情況下,它們也可以表達(dá)各自擅長(zhǎng),而另一種載體難以表達(dá)的事物(如音樂難以用文本準(zhǔn)確表達(dá)出來(lái))。大規(guī)模語(yǔ)言模型的障礙。2017年,基于自注意力的Transformer模塊被提出,它結(jié)合了已有方法的優(yōu)點(diǎn),的出現(xiàn)和自監(jiān)督學(xué)習(xí)方法的成型,業(yè)界在2018年迎來(lái)了大規(guī)模預(yù)訓(xùn)練模型BERT并就此進(jìn)入大模型時(shí)代。2.2.1數(shù)據(jù)收集與計(jì)算機(jī)視覺領(lǐng)域類似,自然語(yǔ)言處理和語(yǔ)音識(shí)別也建立在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上。所謂“讀書破萬(wàn)卷下筆如有神”,為了讓模型掌握強(qiáng)大的語(yǔ)言理解和生成能力,我們需要準(zhǔn)備海量的數(shù)據(jù)讓模型進(jìn)行學(xué)習(xí),覆蓋各個(gè)主題和領(lǐng)域。關(guān)于文本部分,我們從互聯(lián)網(wǎng)公開爬取了40TB原始網(wǎng)頁(yè)數(shù)據(jù),并且進(jìn)行解析和清洗。我們使用正則匹配等方式,過濾掉常見噪聲數(shù)據(jù),如網(wǎng)頁(yè)標(biāo)簽、特殊字符、錯(cuò)誤編碼等,并且使用哈希的方法對(duì)數(shù)據(jù)進(jìn)行去重,然后對(duì)數(shù)據(jù)的長(zhǎng)度進(jìn)行規(guī)范,舍棄太短的文章并切分太長(zhǎng)的文章,以確保輸入長(zhǎng)度在合理的范圍內(nèi)。最終,我們得到約647GB文本數(shù)據(jù),其組成如下圖所示。關(guān)于語(yǔ)音部分,我們從互聯(lián)網(wǎng)公開爬取了超過7萬(wàn)小時(shí)百科知識(shí)2.2.2預(yù)訓(xùn)練方法對(duì)于語(yǔ)義部分,我們使用的神經(jīng)網(wǎng)絡(luò)是基于Transformer結(jié)構(gòu)的編碼-解碼器模型。編碼器負(fù)責(zé)文本理解,使用雙向自注意力機(jī)制,讓每個(gè)詞充分“觀察”它兩邊的詞,以捕獲它在上下文中的語(yǔ)義信息。解碼器負(fù)責(zé)文本生成,使用單向自注意力機(jī)制,逐詞進(jìn)行生成,每個(gè)詞只能“看到”它前面的詞,根據(jù)上文的信息來(lái)預(yù)測(cè)下一個(gè)詞。7+/晉陪柔…陽(yáng)孟:聞繼甜不器后器毛我梨業(yè)條自的輿半器后排器垂斡旱量印回人丁鼾晉菇采X興半器5器臺(tái)霉斡旱量高霉導(dǎo)習(xí)岳亂多甜片卓擇F毀衛(wèi)市中Y霉T‘幽要兵對(duì)片南一其米4到量‘對(duì)片√—朝釋中縣母‘目G區(qū)點(diǎn)1X由革[¥單影增手難群影網(wǎng)louiojsueII由言T‘章焊魯準(zhǔn)群影網(wǎng)乏神案由言到‘焊褐網(wǎng)陽(yáng)導(dǎo)影JouJojsueI與唑案由革[!°器后影縣耳到條蛋手[J‘Y萊平×與器趣首‘得是量士FX°中示望YU44驟帝不母‘珍旱量目卵凹崇金陪省`濕丑X量`趣酐圓算`萊與酒鼻罷圖‘群除I岳王現(xiàn)土√001具群L事動(dòng)亞[?‘4卵要玉理業(yè)4草帽‘4得酐平封率要首毒尊L頭‘卿°米市應(yīng)a壁丁晉磁,球晉料目勒1毒斡‘V兵非采目的輿半,稱0414‘兵翠末土底霉鄭‘爆末工卵呈G一孝影唱‘目彰頭斗霉旱量E回中×堂丑唱‘目勒兵毒料旱量喜霸由單[J‘4弱趣X+手°4得9手唑4得趣F回毒斡T!Y1盤古的語(yǔ)義模型是業(yè)界首個(gè)干億中文大模型,發(fā)布時(shí)(2021年5月)在中文理解類榜單CLUE上獲得第一名。個(gè)任務(wù)。對(duì)于生成類任務(wù),我們?cè)贜LPCC2018文本摘要任務(wù)上取得了業(yè)界最佳成績(jī),超越第二名60%。由于多任務(wù)預(yù)訓(xùn)練,我們的模型具有強(qiáng)大的零樣本推理能力,相比于RoBERTa模型,零樣本推理準(zhǔn)確率提升超過50%。我們的語(yǔ)音模型是當(dāng)前最大的中文語(yǔ)音模型之一,擁有超過4億參數(shù),在自有數(shù)據(jù)上相比于基線模型字符錯(cuò)誤率相對(duì)降低10%。下圖展示了幾個(gè)典型的自然語(yǔ)言理解任務(wù),包括文本分類、閱讀理解、實(shí)體識(shí)別等。盤古大模型在基于提示的微調(diào)下,能夠輕松地在這些任務(wù)上取得很高的理解精度。閱讀理解任務(wù)輸出2.3多模態(tài)大模型要目標(biāo)就是處理和關(guān)聯(lián)多源異構(gòu)信息(如語(yǔ)音信息、文本信息、圖像信息、視頻信息等),通過設(shè)計(jì)相應(yīng)信視覺問答(通過圖像內(nèi)部所提供的信息對(duì)相關(guān)問題作答)、視覺定位(定位在一張圖像中一段話所描述的對(duì)應(yīng)區(qū)域),等。而使得計(jì)算機(jī)能夠處理完成多源異構(gòu)信息的交互與知識(shí)抽取。盤古大模型圍繞視覺(圖像)和語(yǔ)言(文本)2.3.1數(shù)據(jù)收集與視覺和語(yǔ)音語(yǔ)義大模型相同,多模態(tài)大模型必須在海量、高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練。我們采用了業(yè)界通用的做法,即從互聯(lián)網(wǎng)中爬取大量數(shù)據(jù),然后使用過濾算法消除其中不符合要求的部分,最終得到高質(zhì)量的圖文配對(duì)數(shù)據(jù),用于多模態(tài)大模型的預(yù)訓(xùn)練。具體地說(shuō),我們?cè)O(shè)定大量文本關(guān)鍵字,在搜索引擎上獲取排名靠前的圖像,并且將圖像對(duì)應(yīng)的文本(從元數(shù)據(jù)中獲得)存儲(chǔ)下來(lái),形成圖文配對(duì)數(shù)據(jù)池。去掉其中的重復(fù)數(shù)據(jù)后,我們進(jìn)一步篩除其中分辨率過低或者文本長(zhǎng)度過短的數(shù)據(jù),隨后利用已有的多模態(tài)預(yù)訓(xùn)練模型對(duì)這些配對(duì)的相似度進(jìn)行判斷,如果相似度太低,則將其文本描述丟棄并使用圖像自動(dòng)描述算法補(bǔ)充生成文本數(shù)據(jù)。經(jīng)過上述預(yù)處理過程,我們最終得到了約3.5億高質(zhì)量的圖文配對(duì)數(shù)據(jù),占據(jù)約60TB存儲(chǔ)空間。2.3.2預(yù)訓(xùn)練方法多模態(tài)大模型預(yù)訓(xùn)練的關(guān)鍵,在于不同模態(tài)數(shù)據(jù)的高效交互和融合。當(dāng)前主流的多模態(tài)大模型架構(gòu)主要分為單塔架構(gòu)和雙塔架構(gòu)。其中單塔架構(gòu)只利用一個(gè)深度神經(jīng)網(wǎng)絡(luò)(一般是Transformer)結(jié)構(gòu)來(lái)完成圖像和文本之間的交互融合,本質(zhì)上屬于信息前融合方案;而雙塔架構(gòu)利用不同的神經(jīng)網(wǎng)絡(luò)來(lái)完成不同模態(tài)的信息抽取,然后僅在最后一層做信息交互和融合,因而屬于信息后融合方案。此,盤古團(tuán)隊(duì)提出了自研算法LOUPE(發(fā)表于NeurIPS2022會(huì)議)。該算法利用博弈論相關(guān)思路將圖像中盤古多模態(tài)大模型在多模態(tài)的各項(xiàng)下游任務(wù),如跨模態(tài)檢索、圖像描述自動(dòng)生成、視覺上取得了當(dāng)前業(yè)界最佳的圖文檢索精度,其中在MS-COCO的以文搜圖任務(wù)上超過業(yè)界標(biāo)桿算法CLIP達(dá)拉格朗日航天航空N-S方程土木上述問題很有價(jià)值,卻也非常復(fù)雜。在人工智能之前,科學(xué)家們通常通過分方式提煉這些問題的內(nèi)在規(guī)律。這些傳統(tǒng)方隨著人工智能技術(shù)的飛速發(fā)展,業(yè)界涌現(xiàn)出了Al+科學(xué)計(jì)算類方法,即使用嵌入各類科學(xué)方程的深度神經(jīng)網(wǎng)絡(luò),從觀測(cè)數(shù)據(jù)和仿真數(shù)據(jù)中直接學(xué)習(xí)問題蘊(yùn)含的規(guī)律,AIAI模型從預(yù)訓(xùn)練大模型的角度看,科學(xué)計(jì)算大模型與前述大模型存在若干相似之處。它們都建立在大規(guī)模數(shù)據(jù)集上,都需要設(shè)計(jì)大參數(shù)量的神經(jīng)網(wǎng)絡(luò),都需要復(fù)雜的優(yōu)化過程,最后將知識(shí)存儲(chǔ)在網(wǎng)絡(luò)的參數(shù)之中。以下,我們簡(jiǎn)單描述科學(xué)計(jì)算的獨(dú)特之處。在Al+科學(xué)計(jì)算場(chǎng)景中,數(shù)據(jù)分為觀測(cè)數(shù)據(jù)和仿真數(shù)據(jù)兩類。其中觀測(cè)數(shù)據(jù)由觀測(cè)工具(如游標(biāo)卡尺,雷達(dá),傳感器等)產(chǎn)生,而仿真數(shù)據(jù)由仿真算法(對(duì)應(yīng)人類知識(shí))產(chǎn)生。這兩類數(shù)據(jù)及其融合數(shù)據(jù)和機(jī)理知識(shí),都可以作為AI模型的學(xué)習(xí)對(duì)象?!げ煌茖W(xué)計(jì)算場(chǎng)景的觀測(cè)數(shù)據(jù)往往相差巨大,觀測(cè)數(shù)據(jù)的收集往往需要特定領(lǐng)域的專業(yè)儀器與系統(tǒng)的實(shí)驗(yàn),例如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問題中蛋白質(zhì)結(jié)構(gòu)的測(cè)定需要依賴于X射線衍射方法與核磁共振法、短臨降雨預(yù)報(bào)問題中需要?dú)庀罄走_(dá)收集的雷達(dá)波反射率數(shù)據(jù)、植物表型分析問題中數(shù)據(jù)則來(lái)自于實(shí)驗(yàn)員的收集,等等。在一些科學(xué)計(jì)算場(chǎng)景中,觀測(cè)數(shù)據(jù)的數(shù)據(jù)量非常龐大,例如氣象數(shù)據(jù)中的全球氣象站歷史數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和雷達(dá)回波數(shù)據(jù)。也有一些場(chǎng)景中,觀測(cè)數(shù)據(jù)量相對(duì)較少,例如結(jié)構(gòu)應(yīng)力分析力傳感器收集的數(shù)據(jù)?!し抡鏀?shù)據(jù)來(lái)自于數(shù)值仿真算法的輸出,蘊(yùn)含著豐富的數(shù)學(xué)物理信息,同一個(gè)問題算力多少。相對(duì)于觀測(cè)數(shù)據(jù),仿真數(shù)據(jù)通常數(shù)據(jù)量更大(取決于仿真時(shí)使用的噪音數(shù)據(jù)結(jié)構(gòu)收集方式數(shù)據(jù)特點(diǎn)應(yīng)用級(jí)別大回波值中等中等空白區(qū)域短臨降雨級(jí)別中等定表型(如產(chǎn)量,較小高實(shí)驗(yàn)員手工收集或者高高,數(shù)據(jù)點(diǎn)較少型-基因型關(guān)系分析級(jí)別小固定詞表的大高由測(cè)定的推算出蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)級(jí)別l低由氣象仿真算法得到大中等由氣象仿真算法與觀測(cè)得到和實(shí)際場(chǎng)景觀測(cè)觀測(cè)數(shù)據(jù)的信息中長(zhǎng)期2.4.2模型構(gòu)建高度),則適合使用三維網(wǎng)絡(luò)模型。二維網(wǎng)絡(luò)和三維網(wǎng)絡(luò)均可以借鑒計(jì)算興償-票-1s之內(nèi)即可得到全球海浪高度預(yù)測(cè),1分鐘內(nèi)能夠完成超過100次海浪預(yù)測(cè)任務(wù),推理效率較傳統(tǒng)方法提升了4-5個(gè)數(shù)量級(jí)。使用AI算法,我們可以迅速得到不同可能的風(fēng)速條件下的海浪高度,從而進(jìn)行實(shí)時(shí)預(yù)2.5圖網(wǎng)絡(luò)大模型當(dāng)前,人工智能技術(shù)正在進(jìn)入干行百業(yè)。除了圖像、文本等常見數(shù)據(jù)形態(tài)外,還存在大量極度異質(zhì)化的數(shù)據(jù),如公司ERP數(shù)據(jù)(計(jì)劃、財(cái)務(wù)、銷售、采購(gòu))、分子基因、交通網(wǎng)絡(luò)、股票、點(diǎn)云,等。這些數(shù)據(jù)很難通過標(biāo)準(zhǔn)的卷積、Transformer等模塊進(jìn)行處理,因而需要適應(yīng)不同任務(wù)和不同模態(tài)的神經(jīng)網(wǎng)絡(luò),以達(dá)到量化的效果。我們以圖網(wǎng)絡(luò)的形式對(duì)通用數(shù)據(jù)進(jìn)行建模,以利用圖結(jié)構(gòu)來(lái)表達(dá)數(shù)據(jù)元素間的相關(guān)性。在上述背景下,盤古圖網(wǎng)絡(luò)大模型被設(shè)計(jì)出來(lái),它的目標(biāo)是統(tǒng)一大模型在通用數(shù)據(jù)域上的構(gòu)造方案,從而實(shí)現(xiàn)不同任務(wù)場(chǎng)景下端到端的大模型訓(xùn)練、優(yōu)化、微調(diào)和部署。盤古圖網(wǎng)絡(luò)大模型主要實(shí)現(xiàn)的目標(biāo)有:高泛化高可解釋性醫(yī)療、金融等)的需求終身學(xué)習(xí)終身學(xué)習(xí)高精度冷啟動(dòng)同時(shí),盤古圖網(wǎng)絡(luò)大模型還配備有其他適合部署的功能,如模型加密(使得模型在云、邊、端等不同場(chǎng)景下部署時(shí)收到產(chǎn)權(quán)保護(hù))和大規(guī)模數(shù)據(jù)訓(xùn)練(支持多節(jié)點(diǎn)并發(fā)訓(xùn)練),使得整套系統(tǒng)對(duì)實(shí)際應(yīng)用更加友好。盤古圖網(wǎng)絡(luò)大模型整體架構(gòu)如下圖所示:33基模型圖網(wǎng)絡(luò)數(shù)據(jù)動(dòng)使用超采樣的不同數(shù)據(jù)集來(lái)訓(xùn)練不同的基模型:在這個(gè)過程中,不同基模型的超參數(shù)通過AutoML的相關(guān)型,都不會(huì)對(duì)圖網(wǎng)絡(luò)的匯聚產(chǎn)生影響,因?yàn)閳D網(wǎng)絡(luò)本身對(duì)于輸入的基模型數(shù)量不敏感。GNNadd_base_algorithmModeloutput1ModBasemodelselection基模型選取通過BasicAlgorithm產(chǎn)生對(duì)應(yīng)算法池內(nèi)的對(duì)應(yīng)算法和搜索空間,之后使用H方便地加入其中,進(jìn)行圖網(wǎng)絡(luò)匯聚(例如圖1中的虛線的ModelOutput5),而不需要更改其他基模型、層古識(shí)別工作。龐大的檢車員數(shù)量造成每個(gè)路局的資金負(fù)擔(dān)。當(dāng)前,以人均年工資支出約為年在該領(lǐng)域的支出近10億元;同時(shí),車輛故障分析工作強(qiáng)度大、難度高,對(duì)車輛TFDS圖像自動(dòng)識(shí)別從2007年就開始嘗試采用圖像自動(dòng)識(shí)別技術(shù)進(jìn)行研究,當(dāng)時(shí)從故障部件的邊緣及灰度態(tài)非常明顯的故障進(jìn)行識(shí)別,如:截?cái)嗳T手把關(guān)閉故障,并采SVM(支持向量機(jī))技術(shù),識(shí)別率才達(dá)到部部件定位故障識(shí)別盤古行業(yè)預(yù)訓(xùn)練模型圖像圖像質(zhì)量評(píng)估部件定位部件定位異常整車綜合分析整車故障綜合分析基于盤古行業(yè)預(yù)訓(xùn)練模型的鐵路TFDS開發(fā)方案上圖展示了盤古視覺大模型在為TFDS定制的解決方案。依托于盤古行業(yè)預(yù)訓(xùn)練大模型,我們定制化地開發(fā)了整體解決方案,包括車型篩選、工位分類、配件篩選、圖像質(zhì)量評(píng)估、已與車型先驗(yàn)的模板匹配、多車級(jí)聯(lián)分析等模塊,其中盤古大模型核心解決方案包含以下組成部分:故障定位、識(shí)別故障定位、識(shí)別基于鐵路行業(yè)預(yù)訓(xùn)練大模型,結(jié)合目標(biāo)檢測(cè)、圖像識(shí)別框架,進(jìn)行部件定位、故障識(shí)別自動(dòng)增強(qiáng)和評(píng)估圖像進(jìn)行自動(dòng)評(píng)估,對(duì)正常圖像做進(jìn)一步故障識(shí)別,非正常圖像返回人工審核模板匹配根據(jù)已知的車型信息建立零部件的相對(duì)位置模板,預(yù)報(bào)部件位置異常(丟失、錯(cuò)位)行業(yè)預(yù)訓(xùn)練模型利用百萬(wàn)級(jí)無(wú)標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型車輛拆分根據(jù)整列車圖像,圖像基于盤古視覺大模型的整體解決方案,在5T檢測(cè)車間集中作業(yè)分析的14條線路進(jìn)行了驗(yàn)證。在2021年9月19日至2021年10月20日期間,由5T檢測(cè)車間動(dòng)態(tài)檢車員預(yù)報(bào)并經(jīng)組長(zhǎng)確認(rèn)為提報(bào)故障的數(shù)據(jù)樣本(故障圖片)共計(jì)32007張。在測(cè)試環(huán)境下,這些故障圖片與大量正常圖片混合,送入盤古大模型進(jìn)行判斷。如下表所示,實(shí)測(cè)結(jié)果表明,當(dāng)前盤古大模型的識(shí)別精度已經(jīng)超過人類檢測(cè)員水平。1業(yè)務(wù)場(chǎng)景挑戰(zhàn)業(yè)務(wù)場(chǎng)景挑戰(zhàn)在銀行、保險(xiǎn)的線上&線下網(wǎng)點(diǎn)銷售場(chǎng)景,借助銷售實(shí)時(shí)輔助系統(tǒng),提升人員產(chǎn)能10%~50%循環(huán)智能的解決方案和業(yè)務(wù)結(jié)果集集本產(chǎn)能高達(dá)50%,中級(jí)銷售產(chǎn)能創(chuàng)造性地基于過往溝通內(nèi)容與通過未成交名單意向排序和已國(guó)太平輕配籌依托于大模型的通用性和泛化性,我們可以將該系統(tǒng)遷移到各個(gè)行業(yè)中,性能保持穩(wěn)定。由于在預(yù)訓(xùn)練中學(xué)習(xí)過海量的百科類數(shù)據(jù),模型中存儲(chǔ)了大量通用知識(shí),可以針對(duì)特定問題生成合理的答案。型還具備聊天能力,可以生成合理的多輪對(duì)話回復(fù)。泛,多達(dá)300類;此外,大規(guī)模城市往往每天都面臨著大規(guī)模事件工單進(jìn)行分發(fā),因此事件工單的智能分事件工單的輸入信息,往往是網(wǎng)格員通過巡查上報(bào)(拍照+描述)或者市民通過隨手拍上報(bào)(圖片+文本描述)模型相較于小模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論