2024生成式人工智能專利態(tài)勢報告(中文版)_第1頁
2024生成式人工智能專利態(tài)勢報告(中文版)_第2頁
2024生成式人工智能專利態(tài)勢報告(中文版)_第3頁
2024生成式人工智能專利態(tài)勢報告(中文版)_第4頁
2024生成式人工智能專利態(tài)勢報告(中文版)_第5頁
已閱讀5頁,還剩155頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

本作品采用CreativeCommonsAttribution4.0International許可允許用戶復制、分發(fā)、改編、翻譯和公開出版本出版物,包括用于商業(yè)目的,而無需明確許可,條件是內(nèi)容附有WIPO為來源的確認,并明確指出是否對原始內(nèi)容進行了建議引用:世界知識產(chǎn)權組織(WIPO2024)。人工智能生成。專利景觀報告。日內(nèi)瓦:知識產(chǎn)權組織。/10.34667/tind.49740對于任何衍生作品,請附上以下免責聲明:當WIPO發(fā)布的內(nèi)容,如圖像、圖形、商標或標識,歸屬于第三方時,此類內(nèi)容的使用者應全權負責向權利持有人說明權利要查看本許可證的副本,請訪問/licenses/by/4.0因本協(xié)議引起的任何爭議,如不能友好解決,應根據(jù)當時有效的《聯(lián)合國國際貿(mào)易法委員會仲裁規(guī)則》進行仲裁雙方應受該仲裁結果做出的任何仲裁裁決的約束,作為該爭議的最終裁決本出版物中所使用的名稱和材料的編排方式并不意味著WIPO對任何國家、領土或地區(qū)或其當局的法律地位,或?qū)ζ溥吔缁蚪缇€的劃分本出版物無意反映成員國或WIPO秘書處的觀點提及具體的公司或制造商的產(chǎn)品并不意味著它們比未提及的其他類似性質(zhì)的公司或產(chǎn)品更受WIPO的認可或推薦版權?WIPO,20242024年首次出版WorldIntellectualPropertyOrganization34,chemindesColombettes,P.O.Box18CH-1211Geneva20,SwitzerlandISBN:978-92-805-3648-5(印刷體)ISBN:978-92-805-3649-2(在線)ISSN:2790-7007(印刷版)ISSN:2790-7015(在線)封面:蓋蒂圖片/JustSuper,Naeblys致謝5主要結論和見解7導言.13生成式人工智能本報告的動機1生成式人工智能:主要概念19背景和歷史淵源深度學習20區(qū)分性任務與生成性任務20GenAI有哪些模型22什么是GenAI模式?232GenAI的全球?qū)@脱芯咳虬l(fā)展頂級專利擁有者35發(fā)明人的主要地點40主要的申請管轄區(qū)433GenAI模型的專利趨勢全球發(fā)展頂級專利擁有者46發(fā)明人的主要地點4GenAI模式的專利趨勢全球發(fā)展頂級專利擁有者52發(fā)明人的主要地點55GenAI模型和GenAI模式之間的連接555GenAI應用的專利趨勢全球趨勢頂級專利擁有者59發(fā)明人的主要地點核心模型與應用程序之間的連接模式和應用程序之間的連接其他考慮使用GenAI67的擔憂GenAI69專利分析的局限性和未來71A.3模型、模式和應用之間的相互依賴性74A.7非專利中提及的挖掘軟件和數(shù)據(jù)集文學語料庫86A.8GenAI應用的描述/示例專利87參考文獻1054致謝這份關于生成型人工智能的專利形勢報告是在MarcoAlemán(知識產(chǎn)權和創(chuàng)新生態(tài)系統(tǒng)部門助理總干事)的指導下,在AlejandroRocaCampa?a(知識產(chǎn)權創(chuàng)新部高級主任)和AndrewCzajkowski(技術和創(chuàng)新支持司司長)的由ChristopherHarrison(技術與創(chuàng)新支持部知識產(chǎn)權分析科專利分析經(jīng)理)領導,并得到日本專利局提供的日本工業(yè)產(chǎn)權全球信托基金的慷慨資助。該報告由克里斯托弗·哈里森和拉克希米·蘇普里亞領導的項目小組編寫(專利分析官,知識產(chǎn)權分析科,技術和創(chuàng)新支持司),其中包括KaiGramke,JochenSpuck,KlausJank和MichaelFreunek(均來自EconSight),PatriceLopez(科學礦工)以及洪侃(技術和創(chuàng)新支助司知識產(chǎn)權分析科專利分析干事)、AleksandrBelianov和CraigDsouza(前青年專家,技術和創(chuàng)新支持司)。我們還要感謝UlrikeTill(知識產(chǎn)權和前沿技術部總監(jiān))審查報告并提供寶貴意見。最后,我們感謝CharlotteBeauchamp(出版物和設計科科長)領導的WIPO編輯和電子郵件:ip.analytics@5主要結論和見解2022年11月,OpenAI的ChatGPT聊天機器人發(fā)布,極大地提高了公眾對生成式AI(GenAI)的熱情。包括英偉達首席執(zhí)行官黃仁勛在內(nèi)的許多人都將其描述為GenAI的“iPhone時刻”。這是因為OpenAI平臺使所有用戶更容易訪問高級GenAI程序,特別是大型語言模型(LLM)。這些模型已經(jīng)達到了新的性能水平,展示了各種現(xiàn)實應用的潛力,引發(fā)了GenAI的研發(fā)浪潮和大型企業(yè)投資。這份WIPO專利形勢報告提供了對GenAI領域?qū)@顒雍涂茖W出版物的觀察,并以2019年WIPO人工智能技術趨勢出版物為基礎它旨在闡明當前的技術發(fā)展,其不斷變化的動態(tài)以及GenAI技術預計將被使用的應用。它還確定了主要的研究國家、公司和組織。自2017年以來,GenAI專利家族和科學出版物GenAI在過去幾年的崛起主要由三個因素驅(qū)動:更強大的計算機,大型數(shù)據(jù)集作為訓練數(shù)據(jù)源的可用性,以及改進的AI/機器學習算法。LLM中的Transformer架構等開發(fā)顯著推進了GenAI。這使得在許多不同領域開發(fā)復雜的應用程序成為可能。GenAI的技術進步反映在專利活動的急劇增加上。在過去的10年里,GenAI的專利家族數(shù)量從2014年的733個增加到2023年的14,000多個。自2017年推出Transformer以來,GenAI的專利數(shù)量增長了800%以上,而大語言模型背后的深度神經(jīng)網(wǎng)絡架構已成為GenAI的代名詞。同期,科學出版物的數(shù)量增加得更多,從2014年的116種增加到2023年的34,000多種。超過25%的GenAI專利和超過45%的GenAI科學論文僅在2023年發(fā)表。78個GenAI專利家族GenAI8個201420152016201720182019202020212022202315,00010,00050000500010,00015,00020,00025,00030,00035,000哪些組織在GenAI中擁有最多的專利?1.騰訊2.平安保險集團3.百度4.中國科學騰訊、平安保險集團和百度擁有最多的GenAI專利。騰訊計劃在微信等產(chǎn)品中加入GenAI功能,以改善用戶體驗。平安專注于GenAI模型用于承保和風險評估。百度是GenAI的早期參與者之一,最近推出了最新的基于LLM的AI聊天機器人ERNIE4.0。中國科學院(第四)是前十名排名中唯一的研究機構。阿里巴巴(第六)和字節(jié)跳動(第九)是前十名中的其他中國公司IBM(第五Alphabet/Google(第八)和微軟(第十)是GenAI專利方面排名靠前的美國公司IBM開發(fā)了一個GenAI平臺Watsonx,使公司能夠部署和定制LLM,重點關注數(shù)據(jù)安全和合規(guī)性。Alphabet/Google的人工智能部門DeepMind最近發(fā)布了最新的LLM模型專利格局報告Gemini,該模型正在逐步融入Alphabet/Google的產(chǎn)品和服務。微軟是GenAI的另一個關鍵參與者,也是OpenAI的投資者。OpenAI本身最近才提交了第一個GenAI專利。排在前10名之外的是大韓民國的電子企業(yè)集團三星電子(第七)。專利格局報告企業(yè)大學/研究機構9Adobe華為(中NTT騰訊控股Alphabet(美國)國)百度(中哪些機構發(fā)表了關于GenAI的最多科學出版物?中國科學院在科學出版物方面顯然處于領先地位,自2010年以來發(fā)表了1,100多篇清華大學和斯坦福大學分別以600多篇論文位居第二和第三。Alphabet/Google(第四)是前20名中唯一的公司(556篇科學出版物)。然而,當通過引用數(shù)量來衡量科學出版物的影響力時,公司占主導地位。Alphabet/Google是領先的機構,其他七家公司進入前20名。OpenAI的案例也值得注意。在我們的GenAI科學出版物語料庫中,該公司僅發(fā)表了48篇文章(就出版物數(shù)量而言,排名第325位),但這些出版物共收到其他科學出版物的11,816次引用(排名第13位哪些地方發(fā)明的GenAI技術最多?2.美國3.大韓民國5.印度6.聯(lián)合王國7.德國主要結論和見解根據(jù)專利上公布的發(fā)明人地址,2014年至2023自2017年以來,中國每年在該領域公布的專利數(shù)量超過其他所有國家的總和。主要結論和見解在2014年至2023年期間,美國擁有約6,300個專利家族,是GenAI專利申請的第二大亞洲國家韓國、日本和印度是GenAI的其他主要研究地點,都排在全球前5位(第三,第四和第五)。英國是歐洲領先的國家(全球第六同期公布了714項專利然而,德國緊隨其后(708個專利家族),近年來公布的GenAI專利數(shù)量超過英國。這些頂級發(fā)明家所在地占全球GenAI相關專利活動的大部分(94%)第美國大韓民國英國德國世界其他地區(qū)加拿大列法國哪個GenAI模型擁有最多的專利?近年來,已經(jīng)開發(fā)了許多GenAI程序或模型。最重要的GenAI模型包括:1.生成對抗網(wǎng)絡(GANs)2.變分自動編碼器3.基于解碼器的大型語言模型然而,并不是所有的GenAI專利都可以根據(jù)專利摘要、權利要求或標題中的可用信息分配給這三種特定的核心模型在這些GenAI模型中,大多數(shù)專利屬于GAN。在2014年至2023年期間,該模型類型的專利家族共有9,700個,僅2023年就公布了2,400個專利家族VAE和LLM是專利方面的第二大和第三大模式,2014年至2023年期間分別有約1,800和1,300個新專利系列專利格局報告在專利增長方面,GAN專利在過去十年中表現(xiàn)出最強勁的增長。不過,這一趨勢最近有所放緩。相比之下,擴散模型和LLM在過去三年中的增長率要高得多,擴散模型的專利家族數(shù)量從2020年的18個增加到2023年的441個,LLM從2020年的53個增加到2023年的881個。由ChatGPT等現(xiàn)代聊天機器人引起的GenAI熱潮顯然增加了對LLM的研究興趣。專利格局報告11GenAI專利中使用的主要數(shù)據(jù)類型是什么11主要的GenAI數(shù)據(jù)類型包括:–圖像–視頻–講話–聲音–音樂在不同的GenAI模式,或數(shù)據(jù)輸入和輸出的類型中,大多數(shù)專利屬于圖像/視頻類別。圖像/視頻數(shù)據(jù)對于GAN來說尤其重要。涉及文本和語音/聲音/音樂處理的專利是LLM的關鍵數(shù)據(jù)類型。剩下的模式:3D圖像模型,化學分子/基因/蛋白質(zhì)和代碼/軟件到目前為止專利要少得多。與GenAI核心模型相關的專利一樣,有些專利無法明確分配給特定的數(shù)據(jù)類型。此外,一些專利被分配給一種以上的模式,因為某些GenAI模型,如多模態(tài)大型語言模型(MLLM),克服了僅使用一種類型的數(shù)據(jù)輸入或輸出的限制GenAI專利GenAI專利的主要應用領域包括:1.軟件2.生命科學3.文件管理和出版4.業(yè)務解決方案5.業(yè)與制造6.運輸7.安全GenAI必將對許多行業(yè)產(chǎn)生重大影響,因為它將進入產(chǎn)品,服務和流程,成為內(nèi)容創(chuàng)建和生產(chǎn)力提高的技術推動者。例如,GenAI在生命科學(2014年至2023年期間有5,346個專利家族)和文檔管理和出版(4,976)方面擁有許多專利。在同一時期,GenAI專利的其他值得注意的申請從2,000件左右到5,000件左右不等,包括商業(yè)解決方案、工業(yè)和制造業(yè)、運輸、安全和電信。在生命科學領域,GenAI可以通過篩選和設計新藥配方和個性化藥物的分子來加快藥物開發(fā)。在文檔管理和發(fā)布方面,GenAI可以自動執(zhí)行任務,節(jié)省時間和金錢,并創(chuàng)建量身定制的營銷材料。在商業(yè)解決方案中,GenAI可用于客戶服務聊天機器人、零售輔助系統(tǒng)和員工知識檢索。在工業(yè)和在制造業(yè)中,GenAI實現(xiàn)了產(chǎn)品設計優(yōu)化和數(shù)字孿生編程等新功能。在交通領域,GenAI在自動駕駛和公共交通優(yōu)化方面發(fā)揮著至關重要的作用。主要結論和見解然而,許多專利族(2014年至2023年約有29,900個專利族)無法根據(jù)專利摘要、權利要求或標題分配給特定應用。這些專利被列入軟件/其他應用程序類別。主要結論和見解生成式AI近年來,人工智能技術在公眾和媒體的關注中急劇增加然而,AI并不是一個新的研究領域。美國和英國的科學家-包括理論數(shù)學家艾倫·圖靈-在20世紀30年代和40年代就已經(jīng)在研究機器學習,盡管人工智能這個術語直到20世紀50年代才流行起來(麥卡錫等2006年)。20世紀50年代和60年代,人們對許多人工智能領域的興趣激增,包括自然語言處理,機器學習和機器人技術。當時的一些科學家預測,在一代人的時間內(nèi),將存在一臺像人類一樣聰明的機器(Minsky1967)。事實證明,這些預測過于樂觀。由于當時計算能力和算法方法的限制,進展停滯不前。結果,研究資金枯竭,這導致了20世紀70年代的第一個在接下來的幾十年里,人工智能研究的高強度時期與低活動時期交替出現(xiàn)。很長一段時間以來,人工智能算法和軟件都是基于程序員指定的明確的邏輯規(guī)則和參數(shù)而開發(fā)的。即使是現(xiàn)在,許多人工智能應用程序也依賴于基于規(guī)則的決策:如果這樣,那么那樣。例如,虛擬助理(Siri,Alexa等)本質(zhì)上是指揮控制系統(tǒng)。他們只理解有限的問題和要求,無法適應新的情況。他們不能將他們的“知識”應用21世紀的AI現(xiàn)代人工智能熱潮始于21世紀初,此后一直處于上升軌道。如今,人工智能和機器學習被用于無數(shù)應用,包括搜索引擎、推薦系統(tǒng)、定向廣告、虛擬助手、自動駕駛汽車、自動語言翻譯、面部識別等等。AI的興起主要受以下因素驅(qū)動:更強大的計算機:1965年,GordonMoore觀察到計算機芯片上的晶體管數(shù)量大約每兩年翻一番,并預測這種情況將持續(xù)10年(Moore1965)。他的法律已經(jīng)適用了半個多世紀。這種指數(shù)增長轉化為越來越強大的人工智能系統(tǒng),通常具有人工智能特定的增強功大數(shù)據(jù):其次,數(shù)據(jù)的可用性也以同樣的指數(shù)級增長。這為人工智能算法提供了強大的訓練數(shù)據(jù)來源,并使其能夠用數(shù)十億張圖像或1000億個文本標記來訓練模型。1“人工智能”一詞132標記是在一組文本中發(fā)現(xiàn)的常見字符序列令牌化將文本分解為更小的部分,更容易的機器分析,幫助AI模型理解人類語言。1314更好的人工智能/機器學習算法:允許人工智能系統(tǒng)更好地使用數(shù)據(jù)和算法來學習人類行為方式的新方法,例如深度學習,已經(jīng)在圖像識別或自然語言處理等領域取得了突破(WIPO2019)。14用例子而不是規(guī)則學習現(xiàn)代人工智能的核心是機器學習,即計算機系統(tǒng)在沒有專門編程的情況下進行學習?,F(xiàn)代人工智能模型提供了輸入數(shù)據(jù)和期望結果的示例,使它們能夠構建可應用于全新的數(shù)據(jù)。機器學習擅長處理大量數(shù)據(jù)集并發(fā)現(xiàn)其中隱藏的模式。機器學習中一種強大的方法被稱為深度學習。它利用了稱為人工神經(jīng)網(wǎng)絡的復雜結構,松散地模仿人腦。這些網(wǎng)絡識別數(shù)據(jù)集中的模式他們獲得的數(shù)據(jù)越多,他們學習和表現(xiàn)就越好信息流經(jīng)多層相互連接的神經(jīng)元,在那里進行處理和評估。每一層細化信息,通過節(jié)點連接和加權。從本質(zhì)上講,人工智能通過不斷重新評估其知識,形成新的連接,并根據(jù)遇到的新數(shù)據(jù)對信息進行優(yōu)先級排序來學習。深度學習一詞指的是這些網(wǎng)絡可以利用的大量層。深度學習驅(qū)動的人工智能已經(jīng)取得了顯著的進步,特別是在圖像和語音識別等領域。然而,它的成功伴隨著一個缺點。雖然結果的準確性這種缺乏透明度的情況與舊的基于規(guī)則的系統(tǒng)形成鮮明對比?,F(xiàn)代生成AI(GenAIAI的下一個層次生成AI(GenAI)一直是一個活躍的研究領域。JosephWeizenbaum在20世紀60年代開發(fā)了第一個聊天機器人ELIZA(Weizenbaum1966)。然而,我們今天所知道的GenAI是由基于神經(jīng)網(wǎng)絡的深度學習的出現(xiàn)所預示的今天,GenAI是機器學習最強大的例子之一。與只能執(zhí)行單一任務的舊的基于規(guī)則的AI應用程序相比,現(xiàn)代的GenAI模型是在來自許多不同領域的數(shù)據(jù)上訓練的,在任務方面沒有任何限制因為訓練數(shù)據(jù)量如此之大-OpenAI的GPT-3是在超過45TB的壓縮文本數(shù)據(jù)上訓練的(Brownetal.2020年)-模型似乎在生產(chǎn)產(chǎn)出方面具有創(chuàng)造性。例如,傳統(tǒng)的聊天機器人遵循腳本響應,并依賴于預定義的規(guī)則與用戶交互,使其僅適用于特定任務。相比之下,ChatGPT或GoogleGemini等現(xiàn)代GenAI聊天機器人可以生成類似人類的文本,允許對話可以適應許多主題,而不限于預定的腳本。此外,這些現(xiàn)代聊天機器人不僅可以生成文本,還可以根據(jù)訓練數(shù)據(jù)集生成圖像、音樂和計算機代碼2022年ChatGPT的發(fā)布是GenAI2022年11月,OpenAI向公眾發(fā)布了ChatGPT(ChatGenerativePre-trainedTransformer極大地提高了公眾對GenAI的熱情在短短五天內(nèi)就有超過一百萬審計和咨詢公司德勤(Deloitte)發(fā)現(xiàn),在瑞士使用計算機工作的受訪者中,近61%ChatGPT的發(fā)布被許多人描述為GenAI(VentureBeat2023)的“iPhone時刻”,包括Nvidia首席執(zhí)行官黃仁勛。這在一定程度上是因為該平臺使用戶更容易訪問高級GenAI模型,特別是基于解碼器的大型語言模型。這些模型已經(jīng)證明了許多現(xiàn)實世界應用的潛力,并引發(fā)了一波研究和開發(fā)。許多公司都在大力投資GenAI,這些新型號的功能達到了新的層面。專利格局報告3有關不同現(xiàn)代GenAI模型的概述和描述,請參見下一章專利格局報告GenAI15的簡短時間軸·1957FrankRosenblatt介紹了感知器,神經(jīng)網(wǎng)絡的基本構建模塊(Rosenblatt1957)·19571972·Amari-Hopfield網(wǎng)絡使遞歸神經(jīng)網(wǎng)絡能夠?qū)W習,作為聯(lián)想記憶的一種形式(Amari1972,Hopfield1982)1997·發(fā)表了長短期記憶(LSTM)遞歸神經(jīng)網(wǎng)絡,它將成為2010年代最成功的深度學習架構之一(Hochreiter和Schmidhuber1997)。1990·馬爾可夫網(wǎng)絡和其他統(tǒng)計語言模型導致了有效的人工智能商業(yè)系統(tǒng),例如Google翻譯的第一個版本2013·變分自動編碼器(VAE),一種能夠從輸入圖像生成新的逼真圖像樣本的自動編碼器方法(Kingma和Welling2013)2014·描述了生成對抗網(wǎng)絡,這將導致圍繞真實感圖像的各種2016·DeepMind的WaveNet,一種用于真實人類語音的新型深度神經(jīng)網(wǎng)絡方法(vandenOordetal.(2016年)2017·谷歌研究院的一個團隊介紹了Transformer,這是大型語言模型背后的深度神經(jīng)網(wǎng)絡架構(Vaswanietal.2017年)。2018·GPT,OpenAI的第一個生成語言模型,1.2億個參數(shù)的Transformer(OpenAI2018)2019·GPT-2是一個包含15億個參數(shù)的Transformer模型,它以其生成連貫文本的能力給研究界留下了深刻的印象(OpenAI2019)2020·March-NeRF,一種用于生成3D場景的深度學習方法(Mildenhall等人,2020)2020·12月-GPT-3(Brownetal.2020年),OpenAILLM的新迭代達到1750億個參數(shù)2021·1月-由OpenAI開發(fā)的DALL-E,從自然語言文本提示中生成逼真的藝術圖像(OpenAI2021)2021·6月-GitHubCopilot,一個在編程代碼上進行大規(guī)模訓練的GPT-3變體(GitHub2021)2021·7月-來自DeepMind的AlphaFold2贏得了CASP14預測蛋白質(zhì)結構的比賽,其準確性可與昂貴的手動實驗技術相(Jumperetal.(2021年)2022·四月-穩(wěn)定擴散(Rombachetal.2021年)和MidJourney(Midjourney2022年)將GenAI民主化2022·11月-ChatGPT使所有人都可以訪問LLM,并成為最快獲得1億用戶的產(chǎn)品(OpenAI2022)2023·1月-MusicML從提示中生成歌曲(Agostinellietal.(2023年)2023·2月-谷歌推出其實驗性對話式人工智能服務Bard2023·三月-GPT-4.0可以處理圖像和比其前身(OpenAI2023)更多的文本2023·7月-Meta發(fā)布Llama2,一個開源的大型語言模型,可免費用于研究和商業(yè)用途2023·12月-AxelSpringer與OpenAI、《紐約時報》和微軟就侵犯版權2024·2月-OpenAI推出了Sora,這是一個LLM,可以從用戶提示中生成長達一分鐘的高視覺質(zhì)量視頻(Brooksetal.(2024年)·20244月-Meta推出Llama3,預訓練超過15萬億令牌,是GPT-3的50倍,是Llama2的7倍·2024資料來源:知識產(chǎn)權組織16本報告16本W(wǎng)IPO專利格局報告提供了對GenAI領域?qū)@顒雍涂茖W出版物的觀察。該分析基于2019年WIPO人工智能技術趨勢出版物(WIPO2019)。預計GenAI將在各種現(xiàn)實應用和行業(yè)中發(fā)揮越來越重要的作用。因此,重要的是要了解GenAI領域的技術趨勢,以適應商業(yè)和知識產(chǎn)權(IP)戰(zhàn)略。本報告的目的是闡明當前的技術發(fā)展,其不斷變化的動態(tài)以及GenAI技術預計將被使用的應用。它還確定了關鍵的研究地點,公司和組織。由于GenAI可以用于許多不同的應用,我們使用多角度的視角來深入了解。特別是,分析是基于圖1所示的三個不同的視角。分析是從三個方面進行的:使用的計算機程序或模型;輸入和輸出的類型或模式;以及GenAI的應用。圖1分析型號Modes應用生成對抗網(wǎng)絡圖像、視頻(GANs)軟件和其他應用程序物理科學/工程大語言-其他模式模型(LLM大語言-生命科學娛樂文本變式文本Autoencoder文件管理/出版政府電腦語音、聲音、音樂商業(yè)解決方案藝術與人文3D圖像擴散模型工業(yè)/制造網(wǎng)絡/智慧城市其他GenAl型號分子、基因、蛋白質(zhì)交通能源管理代碼安全制圖工業(yè)產(chǎn)權、法律、社會行為科學個人設備農(nóng)業(yè)銀行/金融軍事教育資料來源:知識產(chǎn)權組織,EconSight。第一個視角涵蓋了GenAI模型。與GenAI相關的專利申請被分析并分配給不同類型的GenAI模型(自回歸模型,擴散模型,生成對抗網(wǎng)絡(GAN)、大型語言模型(LLM)、變分自編碼器(VAE)和其他GenAI模型)。專利格局報告第二個視角展示了GenAI的不同模式。術語“模式”描述了使用的輸入類型或模式以及這些GenAI模型產(chǎn)生的輸出類型。根據(jù)專利標題和摘要中的關鍵詞,所有專利都被分配到相應的模式:圖像/視頻,文本,語音/聲音/音樂,3D圖像模型,分子/基因/蛋白質(zhì),軟件/代碼和其他模式。專利格局報告第三個視角分析了現(xiàn)代GenAI技術的不同應用?,F(xiàn)實世界中的應用有很多,從農(nóng)業(yè)到生命科學,再到交通運輸?shù)鹊取?生成式AI:主要概念本章概述了GenAI的主要技術原理,包括其起源和一些歷史背景。深度神經(jīng)網(wǎng)絡通??梢赃m應判別或生成任務,這導致了各種類型的GenAI模型的開發(fā),這些模型可以支持不同類型的輸入和輸出數(shù)據(jù)(模式)。背景和歷史淵源本章總結了GenAI的主要技術原理,包括一些歷史背景。GenAI目前更多地是以描述性的方式定義的,而不是精確的技術特征。經(jīng)濟合作與發(fā)展組織(OECD)將GenAI定義為“一種可以創(chuàng)建內(nèi)容的技術,包括文本,圖像,音頻,或視頻,當用戶提示時”(Lorenzetal.2023年)。這里的“文本”對應于文本指令,通常由人類用戶產(chǎn)生,可選地與一些給定數(shù)據(jù)組合。雖然沒有提到,但預計生成的內(nèi)容是新的,有意義的和人性化的。在最近的AI法案中,歐盟將GenAI定義為一種基礎模型(歐盟委員會,歐洲議會2023)?;A模型對應于通用人工智能模型在大型和多樣化的數(shù)據(jù)集上訓練,以便更容易地用于許多不同的任務。GenAI系統(tǒng)是基礎模型的一個特定子集,“專門用于生成具有不同自主性水平的內(nèi)容,如復雜的文本,圖像,音頻或視頻?!斑@一定義強調(diào),新內(nèi)容是基于現(xiàn)有的大型訓練數(shù)據(jù)集生成的,提出了各種問題和偏見,尤其是人工智能法案。從普通用戶的角度來看,一個關鍵的方面是,與傳統(tǒng)的“監(jiān)督”機器學習模型不同,這些模型需要大量特定于任務的注釋訓練數(shù)據(jù),這些模型只需編寫自然語言提示即可生成新內(nèi)容。因此,使用基于這些模型的GenAI工具不需要技術技能。這是第一次,現(xiàn)代尖端的人工智能可以直接向公眾開放。這種可訪問性使GenAI工具在過去兩年中得以廣泛傳播。例如,在2022年,像穩(wěn)定擴散(Rombachetal.2021)和Midjourney(Midjourney2022)在社交媒體上吸引了大量關注,并在流行文化中民主化了GenAI(Midjourney2022)。用于會話系統(tǒng)的ChatGPT成為最快達到1億用戶的產(chǎn)品(OpenAI2022)。在專業(yè)方面,GitHubCopilot(GitHub2021)將GenAI錨定在軟件開發(fā)中:根據(jù)最近的GitHub調(diào)查(GitHub2023b),92%的美國開發(fā)人員已經(jīng)在使用AI編碼工具導致GenAI的發(fā)展是機器學習和神經(jīng)網(wǎng)絡領域長期而穩(wěn)定的進步。Amari-Hopfield網(wǎng)絡(Amari1972,Hopfield1982),一種具有聯(lián)想記憶的神經(jīng)網(wǎng)絡,以及長短期記憶(LSTM)遞歸神經(jīng)網(wǎng)絡(Hochreiter和Schmidhuber1997),通常被認為是GenAI開發(fā)的Amari-Hopfield網(wǎng)絡演示了如何網(wǎng)絡可以存儲和檢索模式,類似于人類的記憶過程。LSTM1920遞歸神經(jīng)網(wǎng)絡通過引入一種捕獲和學習復雜序列模式的機制來擴展這一點,克服了傳統(tǒng)遞歸網(wǎng)絡在處理長距離依賴關系方面的局限性。20然而,早期有效的GenAI不是基于神經(jīng)網(wǎng)絡,而是基于概率圖形模型,如馬爾可夫網(wǎng)絡,它學習基于圖形表示的狀態(tài)轉換,而不是使用生物啟發(fā)的結構。這些統(tǒng)計語言模型在20世紀90年代已經(jīng)導致了實際的商業(yè)應用。語言模型的目標是預測下一個“標記”,例如一個單詞,給定一系列觀察到的標記。反復應用,可以生成模仿人類語言這種用于生成序列(如單詞序列)的迭代方法是所謂的自回歸模型的特征,并且可以被視為自動完成函數(shù)。成功的早期應用包括機器翻譯,例如2000年代部署的Google統(tǒng)計機器翻譯,以及語音和文本生成。深度學習在2010年代,神經(jīng)網(wǎng)絡成為深度學習AI的主導方法。雖然神經(jīng)網(wǎng)絡自20世紀50年代以來就廣為人知(Rosenblatt1957),但直到20世紀90年代,這些模型只能使用非常有限數(shù)量的神經(jīng)元和層-例如所謂的多層感知器(MLP)。深度學習是30年來增加(“深化”)神經(jīng)網(wǎng)絡層數(shù)的累積進展的結果。使用傳統(tǒng)的機器學習技術,隨著訓練數(shù)據(jù)量的增加,性能可以迅速達到平臺。因此,添加更多的數(shù)據(jù)在一段時間后變得無用。深度學習的一個關鍵特性是,性能隨著訓練數(shù)據(jù)的增加而不斷提高。換句話說,我們向深度神經(jīng)網(wǎng)絡(DNN)提供的數(shù)據(jù)越多,深度神經(jīng)網(wǎng)絡的性能就越好。這些模型的性能取決于計算機的容量和用于訓練的數(shù)據(jù)量深度學習可以超越任何其他機器學習方法,只要大量數(shù)據(jù)和計算資源可用?!禬IPO人工智能技術趨勢》的主要發(fā)現(xiàn)之一是,深度學習是2010年代末人工智能領域迄今為止規(guī)模最大、增長最快的技術,無論是專利還是非專利文獻(WIPO2019)。深度學習的進展導致了所謂的生成任務的突破性結果。區(qū)分性任務與生成性任務深度神經(jīng)網(wǎng)絡通??梢赃m應兩種不同類型的任務:–辨別性任務涉及對輸入數(shù)據(jù)的決策,例如分類、識別文本中的名稱或分割圖像。判別模型是經(jīng)過調(diào)整和訓練以將輸入數(shù)據(jù)分為這些不同類別的模型。–生成任務涉及在給定一些輸入數(shù)據(jù)的情況下創(chuàng)建新的數(shù)據(jù)樣本生成模型是經(jīng)過調(diào)整和訓練以創(chuàng)建此類新數(shù)據(jù)的模型。它們通常用于翻譯文本、生成圖像、總結文本或回答問題。圖和圖3展示了這些基本類型的機器學習任務。判別模型擅長分類,但不能生成新數(shù)專利格局報告據(jù)。相比之下,生成模型也可以處理區(qū)分性任務,但準確率低于區(qū)分性模型。生成模型具有更多的參數(shù),計算成本更高,并且通常需要比判別模型更多的訓練數(shù)據(jù)。專利格局報告11該模型必須學習如何區(qū)分兩個類:繪畫蒙娜其他繪畫。對于這種模型,學習過程集中在區(qū)分類的標準上。因此,作為繪畫特征的空間,模型集中于表示兩類繪畫之間的邊界。圖2用于分類圖像是否是蒙娜麗莎繪畫的判別任務資料來源:WIPO,來自維基共享資源的公共領域繪畫。對于生成任務,模型必須學習每幅畫作的全局方面,以便能夠生成連貫的新畫作。對于這種模型,學習的重點是在表現(xiàn)繪畫的全球分布特征上。這兩個生成的圖像是使用原始的穩(wěn)定擴散模型生成的。圖3生成新繪畫樣本的生成任務生成式AI生成式AI:主要概念資料來源:知識產(chǎn)權組織,公共領域下來自維基共享資源的繪畫圖片。22存在哪些GenAI模型?22憑借其表示和學習復雜數(shù)據(jù)模式并對其進行擴展的能力,深度學習似乎非常適合數(shù)據(jù)生成,但也適合對不同類型的數(shù)據(jù)進行建模。近年來,它使各種類型的GenAI模型的開發(fā)成為可能。其中最重要的是生成對抗網(wǎng)絡(GAN),基于解碼器的大型語言模型(LLM),變分自編碼器(VAE)和擴散模型。生成對抗網(wǎng)絡生成對抗網(wǎng)絡(GAN)是Goodfellowetal.(2014)于2014年引入的一種用于任務生成的深度學習模型。一個GAN由兩部分組成,一個生成器和一個轉換器。生成器是生成輸出圖像的神經(jīng)網(wǎng)絡,神經(jīng)網(wǎng)絡評估生成器生成的圖像的真實性。因此,生成過程是這兩個部分之間的競爭。生成器試圖提高其輸出以誤導鑒別器,鑒別器試圖提高其區(qū)分真實圖像與生成圖像的能力,以避免被生成器誤導。因此,生成器將最大限度地提高其生成逼真圖像的能力如今,GAN用于許多涉及圖像的任務,例如生成和增強照片級真實感圖像。大型語言模型大型語言模型(LLM)是ChatGPT或Bard等現(xiàn)代會話系統(tǒng)(聊天機器人)的基礎。這些模型在大型數(shù)據(jù)集上進行訓練,以學習數(shù)據(jù)中的模式和結構,使它們能夠生成連貫且與上下文相關的新內(nèi)容。GenAI中的LLM專注于通過預測下一個統(tǒng)計上最有可能的單詞來生成類似人類的文本,并用于各種自然語言處理任務,包括文本完成,語言翻譯,摘要等。LLM的訓練過程涉及對大量文本數(shù)據(jù)進行預訓練,允許模型學習語言的統(tǒng)計特性和語言細微差別。為了實現(xiàn)這一目標,大多數(shù)LLM使用transformer,這是一種專門為自然語言處理(NLP)任務設計的神經(jīng)網(wǎng)絡架構,于2017年首次引入(Vaswaniet2017)。Transformers允許研究人員訓練越來越大的模型,而無需事先標記所有數(shù)據(jù)。它們基于自我注意的概念,這意味著它們可以同時關注文本的不同部分這使他們能夠捕獲文本中的長期依賴關系,這對于理解和措辭復雜的語言非常重要。因此,基于LLM的聊天機器人能夠生成連貫和上下文相關的文本。一旦經(jīng)過訓練,這些模型可以針對特定任務進行微調(diào),或者直接用于生成不同的、適合上下文的文本。近年來,多模態(tài)大語言模型(MLLM)逐漸取代傳統(tǒng)的LLM。MLLM正在克服純文本輸入的局限性,可以從多種方式獲取知識(可變)自動編碼器自動編碼器模型基于三個部分:編碼器、編碼器和解碼器。編碼器是一個神經(jīng)網(wǎng)絡,它學習如何將輸入數(shù)據(jù)編碼和壓縮成一個中間表示,即代碼,它基本上是一個數(shù)字序列然后,代碼由解碼器是另一個神經(jīng)網(wǎng)絡,它已經(jīng)學會了如何將數(shù)據(jù)轉換和重建除了數(shù)據(jù)壓縮之外,自動編碼器的目標是學習如何表示某些數(shù)據(jù)的性質(zhì),因此對這種內(nèi)部表示的微小修改仍然可以重新構建為新的有意義的輸出。自動編碼器在今天的GenAI中很常見。大量的變體引入了多種改進,例如2013年發(fā)布的流行的變分自動編碼器(VAEKingmaandWelling2013專利格局報告用于生成復雜多樣的圖像樣本。專利格局報告原始的Transformer模型(Vaswanietal.2017)也是編碼器-解碼器架構。它已被修改為創(chuàng)建用于文本生成的大型語言模型,11OpenAIGPT模型家族中的解碼器部分。換句話說,現(xiàn)代LLM是23基于解碼器的大型語言模型。自回歸模型自回歸模型(英語:Autoregressivemodel)是一類概率模型,它通過對給定序列中先前觀測值的每個觀測值的條件概率進行建模來描述觀測值序列的概率分布。換句話說,自回歸模型通過考慮先前的值來預測序列中的下一個值在GenAI的背景下,自回歸模型通常用于生成新的數(shù)據(jù)樣本。在數(shù)據(jù)集上訓練模型,然后使用該數(shù)據(jù)集通過基于先前生成的元素一次預測一個元素來生成新的這使得自回歸模型適用于語言生成、圖像合成和其他生成任務。GenAI中的自回歸模型的示例包括自回歸移動平均(ARMA)模型、自回歸積分移動平均(ARIMA)模型和PixelCNN模型。用于圖像生成。自回歸模型在應用于自然語言處理任務(例如,大多數(shù)現(xiàn)代LLM,如GPT-3或GPT-4是自回歸的)和圖像生成任務(如PixelCNN)時特別成功。擴散模型擴散模型的靈感來自于擴散的概念,擴散在物理學中用于模擬一組粒子在兩個不同物理區(qū)域中的運動。用于圖像生成的擴散模型涉及神經(jīng)網(wǎng)絡來預測和去除給定噪聲圖像中的噪聲。生成過程相當于首先將隨機噪聲(隨機像素)應用于圖像,然后迭代地使用神經(jīng)網(wǎng)絡來去除噪聲。隨著噪聲逐漸被去除,一個新的和有意義的圖像被構建,由額外的機器學習機制控制,如圖4所示。擴散模型近年來取得了相當大的進展,現(xiàn)在對于文本到圖像的生成非常成功,例如穩(wěn)定擴散(Rombachetal.2021)和DALL-E模型系列(OpenAI2021)。在提示“acatreadingapatent”的情況下,圖4穩(wěn)定擴散去噪過程資料來源:知識產(chǎn)權組織什么是GenAI模式?生成式AI模型對于各種應用程序都非常有效,甚至可以挑戰(zhàn)人類創(chuàng)造力的某些方面。成熟的模型支持不同類型的輸入和輸出數(shù)據(jù)(模式),并且不限于文本和圖像,這使得GenAI可能與許多經(jīng)濟領域相關。圖像、視頻生成式AI:主要概念生成式AI:主要概念像,增強或修改輸入圖像的風格。為了學習像素之間的模式和關系,GenAI模型在大型圖像和視頻數(shù)據(jù)集上進行訓練,但也與文本相結合。例如,擴散模型可以從簡短的文本描述中生成令人印象深刻的高分辨率圖像,如Stable[24]擴散,2022年發(fā)布(Rombachetal.2021)。另一方面,OpenAI的CLIP(對比圖像預訓[24練)等模型在2021年(Radfordetal.2021年)或2022年更大的DeepMind的Flamingo(Alayracetal.2022)用于例如從圖像或從視頻生成字幕。圖5進一步說明了Flamingo在通過分析圖像,F(xiàn)lamingo模型可以生成文本,如圖所示,根據(jù)圖像為問題提供答案。圖5DeepMind的Flamingo模型結合了資料來源:WIPO,基于摘錄(Alayracetal.2022)。所有視頻均在CCBY-ND2.0下授權。文本OpenAI在2018年發(fā)布了GPT(生成式預訓練)模型(OpenAI2018),更重要的是在2019年發(fā)布了GPT-2(OpenAI2019),加速了GenAI的發(fā)展這些LLM依賴于文本作為主要的數(shù)據(jù)模式。當前基于文本的方法的核心技術是使用之前提到的稱為Transformer(Vaswanietal.2017)的深度學習架構,該架構能夠從大量未標記的文本中保持學習能力,隨著參數(shù)的數(shù)量擴展到數(shù)十億個參數(shù)。模型中的層增加。這種模型可以以可靠的方式解決各種各樣的任務,例如自動摘要,機器翻譯,論文生成,釋義或?qū)懽黠L格增強。2022年11月,ChatGPT向公眾展示了基于LLM的聊天機器人的新功能(OpenAI2022)?;谖谋镜腖LM從非常大量的文本中學習當他們保持學習能力時,他們不僅學習一般的語言,而且還學習如何生成關于各種事實的文本關于世界上的實體和事件。ChatGPT利用這一屬性,通過人工訓練器驗證的連續(xù)提示和回復來進一步訓練LLM。因此,LLM被進一步訓練(微調(diào))用于會話使用,在現(xiàn)有能力的基礎上實現(xiàn)流暢和多功能的對話,以生成人類語言文本。用戶可以與系統(tǒng)發(fā)起任何類型的對話,系統(tǒng)以類似人類的方式進行響應,包括后續(xù)查詢和重新表述以及事實信息,其方式比通常的聊天機器人更具說服力。專利格局報告從那時起,出現(xiàn)了大量相互競爭的產(chǎn)品,包括更好地控制所傳達信息的可靠性和改進對話的技術。特別地,檢索增強生成(RAG)是一種廣泛使用的技術,其將所提供的信息與初步請求的結果一起限制到一個或多個搜索引擎。更昂貴的是,額外的微調(diào)是修改LLM本身以進一步專門化或改進回復選擇的另一種方式。專利格局報告語音、聲音、音樂252016年,DeepMind推出了WaveNet,這是一種能夠生成音頻波形的深度神經(jīng)網(wǎng)絡(vandenOordetal.2016)。WaveNet是真實人類語音生成模型的一個里程碑,但更廣泛地說,它適用于任何類型的音頻。以前的文本到語音系統(tǒng)主要是基于連接相對較大的聲音片段,如音素,一起形成單詞和句子。這種方法需要來自同一說話者的大量語音記錄,通常具有不自然的音調(diào)和節(jié)奏。相反,WaveNet在非常低的水平上學習波形如何隨時間變化,一次一個樣本地重新創(chuàng)建語音,每秒生成16,000個樣本。除了更自然的聲音,只需要幾分鐘的真實錄音就可以模仿一個特定的聲音。同樣的生成方法也可以用于其他形式的音頻,比如音樂。MusicML是由Google研究人員訓練的280,000小時的音樂,是這種生成系統(tǒng)從文本提示生成整首歌曲的最新例子(Agostinellietal.2023年)。代碼2021年,主要的開源軟件平臺GitHub和OpenAI發(fā)布了一款面向開發(fā)者的編程助手,名為Copilot(GitHub2021),基于GPT-3的修改版LLM接受英語語言和GitHub公司托管的大量公共軟件代碼庫的培訓。助手可以基于描述編程問題的某種自然語言來執(zhí)行代碼生成。它可以提供代碼完成,例如在集成開發(fā)環(huán)境中提供實時建議。它還具有注釋和解釋現(xiàn)有或生成的代碼的能力。這樣的工具表明,GenAI有可能改變許多職業(yè)的工作方法,并有望提高生產(chǎn)力。分子基因蛋白質(zhì)一些GenAI模型是在化學分子、基因和蛋白質(zhì)的大型數(shù)據(jù)集上訓練的。這使他們能夠產(chǎn)生具有所需特性的新化學分子,基因和蛋白質(zhì)結構。GenAI模型還可用于設計新藥和療法,并提高化學和生物過程的效率。2021年,DeepMind了解蛋白質(zhì)的穩(wěn)定3D結構對于理解其生物學功能是必要的。然而,“蛋白質(zhì)折疊問題”非常具有挑戰(zhàn)性。根據(jù)幾十年的實驗,我們只知道大約17萬種蛋白質(zhì)的結構,而所有生命形式中現(xiàn)有的蛋白質(zhì)估計超過2億種在CASP競賽中自動生成可靠的蛋白質(zhì)結構是一個關鍵的科學里程碑,這一結果對藥物發(fā)現(xiàn)具有重要意義。3D圖像模型GenAI鮮為人知的應用涉及從不完整的輸入(例如一些2D圖像)重建3D場景的能力NeuralRadianceField(NeRF)于2020年推出,是一種快速的深度學習方法,可以對場景進行幾何建模,以及對新視圖進行照片級真實感渲染(Mildenhalletal.2020)。這種GenAI技術已經(jīng)普及到了大眾。GoogleImmersiveView將于2023年在某些城市逐步部署,它使用NeRF將2D街道圖片轉換為3D表示(Tong2023),參見圖6。應用于醫(yī)學成像,例如,它允許從幾個或一個單一視圖的X射線生成3D計算機斷層掃描(CT)掃描,減少電離輻射的暴露。在機器人技術中,這些技術可以幫助機器人與環(huán)境互動,提高感知能力1生成式AI:主要概念透明和自反的對象(Corona-Figueroaetal.20221生成式AI:主要概念專利格局報告26專利格局報告基于神經(jīng)輻射場(NeRF從一組2D圖片生成3D模型。然后,可以使用例如與附加信息層相結合的不同照明條件來動態(tài)呈現(xiàn)新視圖。圖6GoogleImmersiveView針對不同城市地標的屏幕截圖,如2023年6月在Google地圖中發(fā)布的來源:GoogleImmersiveView。合成數(shù)據(jù)正變得越來越重要合成數(shù)據(jù)是計算機模擬或算法生成的帶注釋的信息作為真實世界數(shù)據(jù)的替代品。它通常試圖重現(xiàn)現(xiàn)有數(shù)據(jù)的特征和屬性,或基于現(xiàn)有知識生成數(shù)據(jù)(Deng2023)。它可以采用所有不同類型的真實世界數(shù)據(jù)的形式。例如,合成數(shù)據(jù)可以是用于生成物體或場景的逼真圖像,以訓練自動駕駛車輛。這有助于目標檢測和圖像分類等任務。由于合成數(shù)據(jù),可以快速創(chuàng)建和測試數(shù)百萬種不同的場景,克服物理測試的局限性。一般來說,當數(shù)據(jù)不存在、不完整或不夠準確時,合成數(shù)據(jù)對于訓練AI模型非常有用。合成數(shù)據(jù)的開發(fā)是可能的,這個過程叫做標簽有效學習。標記數(shù)據(jù)是訓練許多AI模型的重要步驟。傳統(tǒng)上,標記數(shù)據(jù)涉及使用所需這是一個耗時且昂貴的過程,尤其是對于大型數(shù)據(jù)集。GenAI模型可以通過創(chuàng)建逼真的合成數(shù)據(jù)(圖像,文本等)來降低標簽成本。通過生成額外的標記數(shù)據(jù)點來增強現(xiàn)有的訓練數(shù)據(jù),或者通過學習數(shù)據(jù)的內(nèi)部表示,使其更容易用更少的標記數(shù)據(jù)來訓練AI模型。研究公司Gartner預計,到2030年,合成數(shù)據(jù)將成為GenAI的主要數(shù)據(jù)類型,因為它具有許多優(yōu)勢(Ramos和Subramanyam2021),見圖7。合成數(shù)據(jù)可以通過避免冗長的數(shù)據(jù)采集程序來快速開發(fā)GenAI模型。雖然今天的重點是可用的真實數(shù)據(jù),但未來人工生成的數(shù)據(jù)可能會占主導地位。圖7合成數(shù)據(jù)對GenAI可能變得越來越重要合成數(shù)據(jù)–合成數(shù)據(jù)–自動生成的數(shù)據(jù)–由簡單規(guī)則、統(tǒng)計建模、模擬等技術真實數(shù)據(jù)–通過直接測量–受制于成本、物流、隱私等原因資料來源:WIPO,改編自Gartner(RamosandSubramanyam2021)。11GenAI27的數(shù)據(jù)集數(shù)據(jù)可用性的增加一直是GenAI發(fā)展的一個主要因素。許多數(shù)據(jù)集已被開發(fā)和組裝用于GenAI目的。然而,由于與公共數(shù)據(jù)集有關的平臺和服務高度分散,跟蹤與數(shù)據(jù)有關的活動很復雜。截至2023年11月,全球研究數(shù)據(jù)庫注冊中心Re3data報告了全球3,160個不同的研究數(shù)據(jù)庫(Re3data2023)。通過這些平臺提供的大部分數(shù)據(jù)都是以開放獲取的方式分發(fā)的,通常是在知識共享許可下,來自各種公共機構:研究機構、公共管理機構、博物館、檔案館等。GenAI模型使用的實際訓練數(shù)據(jù)目前記錄得很少。我們依靠對GenAI語料庫的開放獲取子集(共75,870篇文章中的34,183篇)進行文本挖掘分析,以捕獲實際使用的數(shù)據(jù)集。通過這種方法,我們總共獲得了978,297個數(shù)據(jù)集提及(方法見附錄A.1)。排名靠前的數(shù)據(jù)集都是基于圖像的,還有一些基于文本的數(shù)據(jù)集,比如維基百科和PubMed。數(shù)據(jù)集名稱引用文件提及總數(shù)主要方式1ImageNet2,7416,823圖像2MNIST2,5339,292圖像3CIFAR-102,1607,744圖像4CelebA1,7055,713圖像5Coco1,1413,390圖像6維基百科6622,599文本7FFHQ數(shù)據(jù)集5961,983圖像8時尚達人5201,375圖像9CelebAHQ4741,081圖像SVHN3981,414圖像PubMed3931,144文本GSM8K3501,704文本CIFAR-100338849圖像HumanEval3221,269文本萊恩314731圖像CUB數(shù)據(jù)集3121,118圖像LSUN310608圖像CommonCrawl290546文本城市景觀272974圖像20MMLU270746文本資料來源:知識產(chǎn)權組織。表1顯示,引用最多的數(shù)據(jù)集似乎是圖像理解數(shù)據(jù)集,如ImageNet,MNIST,CIFAR等,生成式AI:主要概念它們通常用于訓練和評估GenAI模型,特別是GAN模型。第一個基于文本的數(shù)據(jù)集是維基百科和PubMed。HumanEval是第一個特定于文本和LLM的數(shù)據(jù)集:它是生成式AI:主要概念(GitHub2021)等代碼生成系統(tǒng)的評估基準。從頭開始訓練GenAI模型的兩個主要數(shù)據(jù)源是LAION(位置15)和CommonCrawl(位置18)。CommonCrawl是一個抓取網(wǎng)絡28并免費向公眾提供其數(shù)據(jù)集(CommonCrawl2023)。他們的數(shù)據(jù)集包括以網(wǎng)站樣本的形式從美國發(fā)布的合理使用聲明的版權作品。大多數(shù)LLM使用CommonCrawl數(shù)據(jù)進行訓練。28LAION(Large-scaleArtificialIntelligenceOpenNetwork,大規(guī)模人工智能開放網(wǎng)絡)是一個非營利性組織,提供與圖像相關的大型數(shù)據(jù)集(圖像-文本對LAION2023)。這些數(shù)據(jù)集支持大多數(shù)GenAI文本到圖像模型,如穩(wěn)定擴散。為了減輕版權和GDPR問題,數(shù)據(jù)集不包括圖像,但包含引用圖像的URL(網(wǎng)址)。專有模式與開放模式GenAI作為內(nèi)容創(chuàng)建和生產(chǎn)力提高的技術推動者,必將對許多行業(yè)產(chǎn)生重大影響。為了實現(xiàn)GenAI的實際使用,兩種類型的模型正在出現(xiàn),專有模型和免費提供的開放模型:–第一類包括OpenAI的GPT3和4或Alphabet/Google的BARD聊天機器人。這些模型背后的公司允許開發(fā)人員和個人付費訪問他們的API。這些型號配備了專業(yè)支持、文檔和大型計算基礎設施,確保了高水平的可靠性和性能。–開放模型,通常被稱為開放數(shù)據(jù)或開放源代碼模型,免費提供給公眾,任何人都可以使用,修改和分發(fā)它們,可能會有一些限制(例如商業(yè)應用)。開放模型受益于開發(fā)人員、研究人員和用戶的社區(qū)以及透明度,因為運行模型的代碼通常可供審查。開放模型的例子是Meta然而,今天只有少數(shù)模型,如GPT-NeoX(EleutherAI)和OLMo(AllenInstituteforAI)可以被認為是完全開放的,釋放模型和訓練數(shù)據(jù),以及用于訓練和運行模型的代碼,沒有使用限制。開放獲取GenAI模型HuggingFace商業(yè)平臺是目前最受歡迎和最知名的公開共享開放訪問機器學習模型的服務(HuggingFace2023),不限于數(shù)據(jù)和模型類型。在編寫本報告時,在共享模型的數(shù)量和多功能性方面沒有可比的替代方案。HuggingFace上的主要模型是基于文本的,只有圖像的輸入和生成模型仍然是非常小的一部分。圖8按擁抱面部生成數(shù)據(jù)類型劃分的GenAI模型分布文本(78%文本(78%)百分專利格局報告專利格局報告Ima多式聯(lián)運(15%)Ima(6%)注:多模式意味著輸入的數(shù)據(jù)類型與生成的數(shù)據(jù)類型不同。資料來源:WIPO,基于HuggingFace的數(shù)據(jù),2024年1月。資料來源:WIPO,基于HuggingFace的數(shù)據(jù),2024年1月。11截至2024年1月20日,HuggingFace擁有477,329個機器學習模型,其中106,430個29(22.3%)可以被認為是GenAI模型??梢愿鶕?jù)輸入和生成數(shù)據(jù)的類型對不同的模型進行細分(有關詳細信息,請參見下一章關于數(shù)據(jù)類型的信息)。圖8顯示,文本生成模型在很大程度上占主導地位,這可能與過去兩年會話系統(tǒng)的興起有關。大多數(shù)基于圖像的模型表現(xiàn)為多模態(tài),使用文本提示作為輸入或生成圖像標題,而不是執(zhí)行圖像到圖像的生成。GenAI軟件由于軟件出版渠道的多樣性、開發(fā)環(huán)境的多樣性、現(xiàn)代軟件工程的分散性以及缺乏中央元數(shù)據(jù)索引,軟件的生產(chǎn)很難跟蹤然而,主要的開源開發(fā)平臺GitHub提供了一個很好的代理,可以捕獲大量的活動,一個地方據(jù)報道,它擁有2.84億個公共存儲庫,是開源協(xié)作開發(fā)的參考(GitHub2023c)。當核心技術創(chuàng)新很早就以開源軟件和開放獲取模式的形式提供時,與直接內(nèi)部研究相比,大型組織可以以有限的風險和投資受益。即使沒有軟件IP,擁有最大數(shù)據(jù)集和計算能力的組織也可以利用這些優(yōu)勢開發(fā)領先的人工智能系統(tǒng)。使用與附錄和GitHub公共API(GitHub2023a)中描述的搜索詞類似的搜索詞,我們按月份展示了最近的公共代碼存儲庫創(chuàng)建,與GenAI術語相關的元數(shù)據(jù),如圖9所示。我們在2022年底ChatGPT發(fā)布時觀察到創(chuàng)作的繁榮,顯示出最近對該領域開源開發(fā)的巨大興趣。然后,存儲庫創(chuàng)建的數(shù)量會下降,因為活動可能會自然地發(fā)展到改進和支持這些創(chuàng)建的存儲庫。這些數(shù)字表明,我們?nèi)匀惶幱谧罱鼘enAI的研發(fā)興趣的浪潮中2022年底ChatGPT的發(fā)布導致了公共代碼存儲庫創(chuàng)建的熱潮。圖9與GenAI相關的GitHub存儲庫(按月劃分不含分叉202224,00022,00020,00018,00016,00014,00012,000ChatGPT發(fā)布創(chuàng)建的儲存ChatGPT發(fā)布創(chuàng)建的儲存庫8,0006,0004,0002,0000Jan四月七月十月一月4月7月10月202320222023資料來源:WIPO,基于GitHub數(shù)據(jù),2024年1月。生成式AI中最具影響力的軟件生成式AI:主要概念表2列出了機器學習GitHub存儲庫中產(chǎn)生的分叉總數(shù)(2023年12月6日的開源開發(fā)中的分支是現(xiàn)有存儲庫的副本雖然所有這些都與GenAI相關,但八分之三是GenAI特有的(ChatGPT-Next-Web,AutoGPT和生成式AI:主要概念1然而,生成的代碼可能并不總是能夠歸屬于輸入代碼,這意味著更廣泛的IP問題。8個存儲庫與機器學習相關,其中3個特定于GenAI(以橙色突出顯示)。表2機器學習相關的GitHub存儲庫在前100個存儲庫中的排名(按分叉機器學習全球GitHub排名(按數(shù)量)數(shù)量數(shù)量叉叉項目名稱叉明星出版商15TensorFlow89,193179,236谷歌215OpenCV55,76072,799社區(qū)33ChatGPT-Next-ChatGPT-Next-Web46,87946,87952,75052,750社區(qū)422模型46,22676,275社區(qū)5AutoGPT37,701154,414社區(qū)676scikit-learn24,93556,610社區(qū)788變壓器23,246116,502HuggingFace8穩(wěn)定擴散網(wǎng)絡22,463112,329社區(qū)資料來源:WIPO,基于GitHub數(shù)據(jù),2024年1月。然而,將我們的影響研究僅限于開源軟件是不完整的??茖W出版物中提到的軟件提供了GenAI中實際影響力軟件的更全面的圖片我們對GenAI科學出版物語料庫(一組75,870篇科學文章)的開放獲取子集(34,183篇PDF文章)進行了文本挖掘分析,并提取了789,218個軟件提及。有關方法載于附錄專利格局報告A.1.表3列出了20個被引用最多的GenAI軟件。OpenAI的ChatGPT在引用文檔方面是被引用最多的軟件,也被廣泛討論,提及次數(shù)超過10萬次。如果我們忽略開發(fā)框架和實用程序,只關注特定于GenAI的軟件(表3中的粗體),那么前20名中大約一半的高引用軟件都是專有軟件,并且都來自OpenAI(ChatGPT,GPT,Codex)。專利格局報告11在科學出版物中提到的主要軟件是ChatGPT,其他31個GenAI專用軟件以橙色突出顯示表3GenAI語料庫開放獲取子集中提到的前20個軟件(共34,183個成功下載的PDF)軟件名稱引用文件提及總數(shù)1ChatGPTChatGPT4,783137,8222PyTorch3,8325,5663TensorFlow1,6272,6024CycleGAN1,07712,6555AlphaFold1,00513,5286GPT85918,3708scikit-learn8531,1879MATLAB7301,49210AdamW649891StyleGAN3,31012Keras583878pix2pix5181,11714Huggingface50793615GitHub5062,23516MechanicalTurk45171417Linux396624食典3803,868StarGAN3772,71620Windows377564資料來源:知識產(chǎn)權組織。生成式生成式AI:主要概念2GenAI的全球?qū)@陙?,深度學習技術的進步和計算能力的提高刺激了GenAI對專利和科學出版物的分析表明,GenAI正在全球范圍內(nèi)蓬勃發(fā)展,本章重點介紹了GenAI的頂級專利所有者、主要發(fā)明人所在地以及GenAI專利保護正在尋求的地方全球發(fā)展以下章節(jié)概述了GenAI領域的專利活動以及科學出版物的發(fā)展。對于專利,根據(jù)IFIClaims專利數(shù)據(jù)庫中的專利數(shù)據(jù),識別并分析了與GenAI相關的所有專利家族出版物(詳細方法見附錄A.1)。專利族是指涵蓋相同或相似技術內(nèi)容的專利申請的集合。同樣的發(fā)明)。我們使用專利家族來計算發(fā)明,而不是使用相應的同一主題,并在不同的司法管轄區(qū)提交。對于科學出版物的分析,我們使用TheLens(Cambia2024)作為文獻分析工具,該工具廣泛覆蓋了科學出版物(主要檢索查詢見附錄A.6近年來,深度學習技術的進步和計算能力的提高刺激了GenAI的發(fā)展。GenAI的重大進展反映在該領域?qū)@顒拥募眲≡黾由?。在過去10年中,GenAI模型中已公布的專利家族數(shù)量從2014年的不到800個增加到2023年的14,000多個。從2017年開始,專利活動大幅增加,此后平均每年增長約45%。這與2017年變壓器的推出不謀而合。總的來說,專利檢索確定了2014年至2023年期間GenAI領域發(fā)表的54,358個專利家族。截至2023年底,該專利數(shù)據(jù)集中約有89%(48,398個專利家族)33在2017年推出Transformer模型后,專利和科學出版物都大幅增加,其中科學出在版物在2022年ChatGPT發(fā)布后出現(xiàn)爆炸式增長。圖10GenAI的全球?qū)@盗泻涂茖W出版物的發(fā)展,201430,00025,00020,00015,00010,0005,000發(fā)布ChatGPTTransformer型號2014201520162017201820192020202120222023GenAI專利家族資料來源:WIPO,基于EconSight/IFIClaims的專利數(shù)據(jù),2024年4月,以及TheLens的出版物數(shù)據(jù),2024年1月同期,科學出版物的數(shù)量增長更快,從2014年的100種左右增加到2023年的34,000多種。特別是在2023年,科學出版物的數(shù)量大幅增加。很可能在2022年發(fā)布非常成功和流行的GenAI模型和工具(ChatGPT,StableDiffusion,LlaMA等)。引發(fā)了GenAI研究的新最近的許多研究似乎都集中在減少大型生成模型的大小,更好地控制生成過程以及探索各種應用和領域。2023年專利家族出版物也有所增加,但沒有科學出版物那么多。但可以預期,2024年和2025年專利族的出版將出現(xiàn)類似的加速,因為新專利的申請和出版之間通常有18個月的滯后(WIPO2021)。GenAI仍然是AI中相對較小的一部分,但正變得越來越重要。將GenAI專利家族出版物的發(fā)展與自2014年以來所有AI專利家族出版物的發(fā)展進行比較時,很明顯,GenAI仍然只是所有AI研究活動中相對較小的一部分2023年,GenAI專利家族共有14,080篇出版物,而AI專利家族出版物總數(shù)接近230,000篇。然而,自2017年以來,我們可以看到GenAI在所有AI專利中的份額一直在增加(從2017年的4.2%增加到2023年的6.1%圖11)。專利格局報告鑒于自2022年11月ChatGPT推出以來,公眾對GenAI的興趣大幅增加鑒于上述新專利的申請和公布之間存在時間差,從2024年起,GenAI研究活動的增加可能會在專利數(shù)據(jù)中變得更加明顯。專利格局報告22GenAI專利出版物在所有AI專利中的份額略有上升35自2017年以來,從4.2%增加到2023年的6.1%,未來可能會進一步增加。百分之AI百分GenAIAI資料來源:WIPO,基于EconSight/IFIClaims的專利數(shù)據(jù),2024年4月。頂級專利擁有者中國公司騰訊、平安保險集團和百度在過去10年中發(fā)布了最多的GenAI專利系列(圖12)。騰訊推出了基于LLM“渾源”的AI聊天機器人,該機器人支持圖像創(chuàng)建、文案撰寫和文本識別等應用(騰訊2023)。公司利用“渾源”為微信等旗艦產(chǎn)品增加AI能力,提升用戶體驗。平安保險的人工智能計劃重點關注用于承保和風險評估的GenAI模型(MarketsandMarkets2023)。百度是GenAI領域最早的參與者之一,最近發(fā)布了最新的基于LLM的AI聊天機器人,ERNIE4.0。百度還為IT、交通或能源等行業(yè)開發(fā)了多個LLMGenAI的全球?qū)@脱芯浚═riolo和PereraGenAI的全球?qū)@脱芯縖36]雖然大公司是最大的專利擁有者,但中國科學院作為一個研究機構排在第四位,[36高于IBM(研究機構以粗體顯示)。圖122014騰訊控股(中國)平安保險集團(中國)百度(中中國科學院(中國)IBM(美國)阿里巴巴集團(中國)三星電子(韓國)Alphabet(美國)字節(jié)跳動(中國)微軟(美國)步步高電子(中國)網(wǎng)易(中國)NTT(日本)華為(中國)清華大學(中國)浙江大學(中國)中國移動(中國)國家電網(wǎng)(中國)Adobe(美國)索尼集團(日本)2014電話真:+86-020-888888881,2001,4001,6001,800兩千注:GenAI中已發(fā)布的專利家族。資料來源:WIPO,基于EconSight/IFIClaims的專利數(shù)據(jù),2024年4月。中國科學院(第四),清華大學(第15)和浙江大學(第16)是前20名中唯一的研究機構阿里巴巴集團(第六)、字節(jié)跳動(第九)、步步高電子(第11)、網(wǎng)易(第12)、華為(第14)、中國移動(第17)和國家電網(wǎng)(第18)是前20名中的其他中國公司IBM(第五)、Alphabet/Google(第八)、微軟(第十)和Adobe(第十九)是GenAI專利家族中排名靠前的美國IBM開發(fā)了一個GenAI平臺Watsonx,使公司能夠使用和定制LLM,重點關注數(shù)據(jù)安全和合規(guī)性,因為公司可以構建基于自己數(shù)據(jù)的AI模型(StackOverflow2023)。Alphabet集成到谷歌的搜索引擎、廣告產(chǎn)品、Chrome瀏覽器和其他產(chǎn)品中(Pichai和Hassabis2023)。微軟是GenAI的主要參與者,不僅通過其對OpenAI的大量投資,還通過其他研究活動。例如,微軟排在前20名之外的還有電子集團三星電子(第7位大韓民國)、日本公司NTT(第13專利格局報告位)和索尼集團(第20位)。三星最近宣布開發(fā)SamsungGauss,這是一種GenAI模型,可以撰寫電子郵件,總結文檔和翻譯文本,該公司計劃將其集成到其手機和智能家電中(Yoon2023)。專利格局報告2237OpenAI有專利嗎37由于ChatGPT的成功,OpenAI在公眾眼中已經(jīng)成為GenAI的代名詞。然而,OpenAI似乎直到2023年初才為其研究活動申請任何專利。對此的一個解釋可能是OpenAI的非營利起源。最初,OpenAI是作為一個非營利組織成立的,鼓勵其研究人員以“最有可能造福人類的方式”發(fā)布和分享他們的工作,“作為一個整體”(Brockmann和Sutskever2015)。OpenAI最初將其技術的重要部分開源。該公司后來從非營利模式轉變?yōu)椤胺忭敗睜I利模式(OpenAI拆分為非營利OpenAI,Inc和營利子公司OpenAIGlobal,LLC,微軟是主要投資者之一)。另一種解釋可能是OpenAI選擇以商業(yè)秘密的形式保留其知識產(chǎn)權。OpenAI似乎首先用商業(yè)機密保護其部分技術(Keseris和Kovarik2023)。然而,OpenAI在2024年第一季度公布了六項美國專利(三項已授權,三項待批準),這些專利于2023年初提交,表明知識產(chǎn)權戰(zhàn)略的變化和專利組合的創(chuàng)建。正如這份專利格局報告所顯示的那樣,在過去十年中,大多數(shù)大型科技公司都提交了許多GenAI專利,以保護未來的收入免受許可證指控的影響。因此,OpenAI仔細觀察全球研究機構的研究活動可以發(fā)現(xiàn),中國科學院擁有迄今為止最廣泛的專利活動。自2014年以來,這家中國機構已經(jīng)公布了600多個專利家族,幾乎是排名第二和第三的清華大學和浙江大學的兩倍。中國科學院于2023年夏天推出了最新的LLM模型總的來說,前10名中有8家,前20名中有9家是中國的研究機構GenAI的全球?qū)@脱芯砍袊髮W外,前20名中還有4所美國大學(加利福尼亞大學、西北大學、斯坦福大學、亞利桑那州立大學)、3所韓國研究機構(韓國科學技術研究院、韓國科學技術高等研究院、首爾國立大學)、3所日本研究機構(國立信息通信技術研究所、東京大學、大坂大學)和1所瑞士大學(蘇黎世Eidgen?ssischeTechnischeHochschule圖GenAI的全球

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論