




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2024年生成式人工智能行業(yè)專題研究:海外大模型篇_生成式AI加速創(chuàng)新_行業(yè)迎歷史性機(jī)遇第一部分:生成式AI快速發(fā)展,技術(shù)奇點(diǎn)有望到來發(fā)展歷程:算法模型持續(xù)迭代,AI行業(yè)快速發(fā)展2014年,伊恩·古德費(fèi)洛(lanGoodfellow)提出的生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)成為早期最為著名的生成模型。GAN使用合作的零和博弈框架來學(xué)習(xí),被廣泛用于生成圖像、視頻、語音和三維物體模型。隨后,Transformer、基于流的生成模型(Flow-basedmodels)、擴(kuò)散模型(DiffusionModel)等深度學(xué)習(xí)的生成算法相繼涌現(xiàn)。Transformer模型是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,這一機(jī)制可按輸入數(shù)據(jù)各部分的重要性分配權(quán)重,可用于自然語言處理(NLP)、計算機(jī)視覺(CV)領(lǐng)域應(yīng)用,后來出現(xiàn)的BERT、GPT-3、laMDA等預(yù)訓(xùn)練模型都是基于Transformer模型建立的。預(yù)訓(xùn)練模型是為了完成特定任務(wù)基于大型數(shù)據(jù)集訓(xùn)練的深度學(xué)習(xí)模型,讓AI模型的開發(fā)從手工作坊走向工廠模式,加速AI技術(shù)落地。2017年,Google顛覆性地提出了基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Transformer架構(gòu),奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)。2018年,OpenAI和Google分別發(fā)布了GPT-1與BERT大模型,意味著預(yù)訓(xùn)練大模型成為自然語言處理領(lǐng)域的主流。隨著人工智能技術(shù)的不斷發(fā)展,其應(yīng)用場景日益豐富,各行各業(yè)所匯聚的龐大數(shù)據(jù)資源為技術(shù)的實(shí)際應(yīng)用和持續(xù)完善提供了堅(jiān)實(shí)基礎(chǔ)。根據(jù)第三方咨詢機(jī)構(gòu)格物致勝的統(tǒng)計數(shù)據(jù),2022年中國人工智能市場規(guī)模達(dá)到2058億元,預(yù)計2023-2027年市場規(guī)模將保持28.2%的復(fù)合增長率,2027年中國人工智能市場規(guī)模將達(dá)到7119億元。根據(jù)statista的統(tǒng)計數(shù)據(jù),2023年全球人工智能市場規(guī)模達(dá)2079億美元,預(yù)計2030年將增至18475億美元。趨勢展望:從單一模態(tài)到多模態(tài),從AI邁向AGI多模態(tài)較單一模態(tài)更進(jìn)一步,已經(jīng)成為大模型主戰(zhàn)場。人類通過圖片、文字、語言等多種途徑來學(xué)習(xí)和理解,多模態(tài)技術(shù)也是通過整合多種模態(tài)、對齊不同模態(tài)之間的關(guān)系,使信息在模態(tài)之間傳遞。2023年以來,OpenAI發(fā)布的GPT-4V、Google發(fā)布的Gemini、Anthropic發(fā)布的Claude3均為多模態(tài)模型,展現(xiàn)出了出色的多模態(tài)理解及生成能力。未來,多模態(tài)有望實(shí)現(xiàn)anytoany模態(tài)的輸入和輸出,包括文本、圖像、音頻、視頻、3D模型等多種模態(tài)。多模態(tài)大型語言模型(MLLMs)的通用架構(gòu),由1)視覺編碼器(VisualEncoder)、2)語言模型(LanguageModel)和3)適配器模塊(AdapterModule)組成。1)負(fù)責(zé)處理和理解輸入的視覺信息,通常使用預(yù)訓(xùn)練的視覺模型,如VisionTransformer(ViT)或其他卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),來提取圖像特征;2)負(fù)責(zé)處理文本輸入,理解和生成自然語言,語言模型基于Transformer架構(gòu),如BERT或GPT系列模型;3)負(fù)責(zé)在視覺和語言模態(tài)之間建立聯(lián)系。第二部分:技術(shù)創(chuàng)新百花齊放,海外巨頭引領(lǐng)潮流OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGIOpenAI由SamAltman、ElonMusk等在2015年創(chuàng)辦,主旨是努力在安全的前提下創(chuàng)建通用人工智能(AGI)并讓全人類共同受益;2020年發(fā)布GPT-3模型,2022年11月發(fā)布GPT-3.5模型,能夠與人類進(jìn)行多輪連續(xù)的各種對話,給出較為合理的回答;2023年3月發(fā)布GPT-4模型;2024年2月發(fā)布AI視頻生成模型Sora,AI視頻生成領(lǐng)域迎來ChatGPT時刻。GPT-1通過無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)兩個步驟訓(xùn)練;GPT-2無需有監(jiān)督微調(diào),而是通過更大規(guī)模的模型參數(shù)和訓(xùn)練數(shù)據(jù)集進(jìn)行無監(jiān)督預(yù)訓(xùn)練,模型參數(shù)量達(dá)到15億;GPT-3的模型參數(shù)和數(shù)據(jù)集進(jìn)一步擴(kuò)大,模型參數(shù)量增加到1750億,上下文窗口寬度增加到2048個token。ChatGPT/GPT-3.5:2022年11月30日發(fā)布,在GPT-3的基礎(chǔ)上進(jìn)行有監(jiān)督微調(diào)(SupervisedFine-Tuning)、獎勵模型訓(xùn)練(RewardModeling)和來自人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLHF)。ChatGPT具有以下特征:主動承認(rèn)自身錯誤、質(zhì)疑不正確的問題、承認(rèn)自身的無知和對專業(yè)技術(shù)的不了解以及支持連續(xù)多輪對話,極大提升了對話交互模式下的用戶體驗(yàn)。2023年11月7日,OpenAI在開發(fā)者大會披露新版本具備:1)更長的上下文長度:支持128K上下文窗口,相當(dāng)于300頁文本;2)更便宜:新模型的價格是每千輸入token1美分,而每千輸出token3美分,輸入和輸出費(fèi)用分別降至GPT-4(8K)的1/3和1/2,總體使用上降價約2.75倍;3)更聰明:內(nèi)部知識庫更新至2023年4月,并支持上傳外部數(shù)據(jù)庫或文件;4)視聽多模態(tài):支持文生圖模型DALL·E3、文本轉(zhuǎn)語音模型TTS,未來還將支持自動語音識別模型Whisperv3;5)更快的速度:用戶每分鐘的Token速率限制將會翻倍,可通過API賬戶申請進(jìn)一步提速。Meta采取開源策略,發(fā)布多款重磅大模型2023年7月,Meta發(fā)布了開源大語言模型——LLaMA2。LLaMA2是在LLaMA1基礎(chǔ)之上構(gòu)建而成,訓(xùn)練數(shù)據(jù)比上一版本多出40%,擁有70億、130億和700億三種參數(shù),并且允許商業(yè)化。技術(shù)方面,該預(yù)訓(xùn)練模型接受了2萬億個標(biāo)記的訓(xùn)練,上下文長度是上一版本的兩倍,能處理更長的文本內(nèi)容;性能方面,LLaMA-13B在大多數(shù)基準(zhǔn)上超過了參數(shù)量達(dá)1750億的GPT-3。2023年4月,MetaAI在官網(wǎng)發(fā)布了基礎(chǔ)模型SegmentAnythingModel(SAM)并開源。SAM已在1100萬張圖片和11億個掩碼的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,具有超強(qiáng)的自動識別、切割功能。SAM能感知超出數(shù)據(jù)訓(xùn)練的對象和圖像,就算圖片不在SAM訓(xùn)練范圍內(nèi),它也能識別。這意味著,用戶無需再收集自己的細(xì)分?jǐn)?shù)據(jù),并為用例模型進(jìn)行微調(diào)。SAM可以集成在任何希望識別、切割對象的應(yīng)用中,在醫(yī)療、農(nóng)業(yè)、氣象、天文、媒體等主流行業(yè)擁有廣闊的應(yīng)用空間。2023年5月,Meta開源了多模態(tài)大模型ImageBind,可跨越圖像、視頻、音頻、深度、熱量和空間運(yùn)動6種模態(tài)進(jìn)行檢索。例如,輸入鴿子的圖片,外加一個摩托音頻,模型能夠檢索出一張摩托和鴿子的圖片。ImageBind模型把不同模態(tài)數(shù)據(jù)串聯(lián)在一個嵌入空間(EmbeddingSpace),從多維度理解世界,未來將引入更多模態(tài)增強(qiáng)對世界感知,比如如觸覺、語音、嗅覺和大腦fMRI信號。Anthropic與OpenAI一脈相承,發(fā)布Claude大模型Anthropic是一家人工智能創(chuàng)業(yè)公司,由OpenAI前研究副總裁達(dá)里奧·阿莫迪(DarioAmodei)、大語言模型GPT-3論文的第一作者湯姆·布朗(TomBrown)等人在2021年創(chuàng)立。2023年2月,獲得Google投資3億美元,Google持股10%;2023年3月,發(fā)布類似ChatGPT的大語言模型Claude;2023年7月,發(fā)布新一代Claude2模型;2024年3月,發(fā)布Claude3模型。2024年3月,Anthropic發(fā)布最新的多模態(tài)模型Claude3,該系列包含三個模型:Clau
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國古式桌子數(shù)據(jù)監(jiān)測研究報告
- 黑龍江省哈爾濱工大附中2024-2025學(xué)年九年級下學(xué)期化學(xué)寒假調(diào)研測試題(含答案)
- 2025年軍隊(duì)文職人員招聘之軍隊(duì)文職政治學(xué)練習(xí)題(一)及答案
- 2019-2025年消防設(shè)施操作員之消防設(shè)備中級技能通關(guān)提分題庫及完整答案
- 產(chǎn)品采購協(xié)議細(xì)節(jié)
- 房地產(chǎn)公司涉及的設(shè)計方面協(xié)議年
- 促銷活動效果分析統(tǒng)計表
- 慢病相關(guān)知識培訓(xùn)課件
- 人力資源招聘與員工離職統(tǒng)計表
- 河南省駐馬店上蔡縣2024-2025學(xué)年七年級上學(xué)期期末生物學(xué)試題(含答案)
- 中國稀土熱障涂層材料行業(yè)分類、市場運(yùn)行態(tài)勢及產(chǎn)業(yè)鏈全景圖譜分析報告
- 2025年九年級上冊道德與法治核心知識點(diǎn)梳理匯編
- 2024年河南省鄭州某中學(xué)小升初數(shù)學(xué)試卷(含答案)
- 2024 湖南省公務(wù)員考試真題及答案(A類、B類、行政執(zhí)法、綜合管理崗、省考)5套
- 七年級數(shù)學(xué)新北師大版(2024)下冊第一章《整式的乘除》單元檢測習(xí)題(含簡單答案)
- 2025年春新冀教版英語三年級下冊課件 2L1
- PowerPoint 2010 的基本操作課件
- 《英國小說家羅琳》課件
- (八省聯(lián)考)河南省2025年高考綜合改革適應(yīng)性演練 生物試卷合集(含答案逐題解析)
- 學(xué)校與家庭在學(xué)生心理健康中的協(xié)同作用
- 2025年江西江銅集團(tuán)招聘筆試參考題庫含答案解析
評論
0/150
提交評論