AIGC行業(yè)深度報告新一輪內(nèi)容生產(chǎn)力革命的起點_第1頁
AIGC行業(yè)深度報告新一輪內(nèi)容生產(chǎn)力革命的起點_第2頁
AIGC行業(yè)深度報告新一輪內(nèi)容生產(chǎn)力革命的起點_第3頁
AIGC行業(yè)深度報告新一輪內(nèi)容生產(chǎn)力革命的起點_第4頁
AIGC行業(yè)深度報告新一輪內(nèi)容生產(chǎn)力革命的起點_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

AIGC行業(yè)深度報告-新一輪內(nèi)容生產(chǎn)力革命的起點AIGC破圈元年AIGC連續(xù)破圈:AI繪畫/ChatGPT相繼破圈AI繪畫作品獲獎。2022年8月,在美國科羅拉多州舉辦的新興數(shù)字藝術(shù)家競賽中,《太空歌劇院》獲得“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎。參賽者沒有繪畫基礎(chǔ),利用AI工具Midjourney創(chuàng)作。

ChatGPT于2022年11月30日推出,5天后用戶破百萬,兩個月后月活用戶突破1億,成為史上用戶增長速度最快的消費級應(yīng)用程序。風投及產(chǎn)業(yè)資本涌入AIGC。2021年開始,風投對AIGC的投資金額金額出現(xiàn)爆發(fā)式增長,2022年超20億美元。主打AI生成文字的Jasper.ai于2022年10月完成1.25億美元A輪融資,估值達15億美元。AI視覺藝術(shù)創(chuàng)業(yè)公司Stability.ai獲1.01億美元種子輪融資,投后估值達10億美元。

據(jù)美國財經(jīng)媒體Semafor報道,微軟預計向ChatGPT的開發(fā)者OpenAI投資100億美元,OpenAI投后估值將高達290億美元。AIGC定義:新的內(nèi)容生成方式、基于人工智能的技術(shù)集合AIGC(AIGeneratedContent)即利用人工智能技術(shù)自動生成內(nèi)容,受制于AI技術(shù)成熟度,目前AI仍為內(nèi)容制作的輔助型角色(AIUGC),待技術(shù)突破,AI可真正作為內(nèi)容創(chuàng)作者(AIGC)。AIGC是技術(shù)集合,基于生成對抗網(wǎng)絡(luò)GAN、大型預訓練模型等人工智能技術(shù),通過已有數(shù)據(jù)尋找規(guī)律,并通過適當?shù)姆夯芰ι上嚓P(guān)內(nèi)容的技術(shù)集合。

相關(guān)叫法:合成式媒體(SyntheticMedia),即基于AI生成的文字、圖像、音頻等;Gartner提出的生成式AI(GenerativeAI),即由人工智能自動生成新的編程、內(nèi)容或商業(yè)活動,讓文字、音樂、圖像、視頻、場景等都可由AI算法自動生成。從PGC到UGC,從UGC到AIGC。Web1.0時代“只讀”模式催生出“PGC”;Web2.0時代,社交媒體興起,人與人通過網(wǎng)絡(luò)交互,催生出以用戶生產(chǎn)和分享內(nèi)容的“UGC”模式;Web3.0時代,內(nèi)容消費需求進一步增長,個性化需求凸顯,“AIGC”將成為重要的新內(nèi)容生成方式。AIGC為何爆發(fā)?數(shù)據(jù)、算法、算力共振AIGC發(fā)展核心三要素:數(shù)據(jù)、算力、算法。算法持續(xù)迭代。2017年推出的Transformer架構(gòu)的并行訓練優(yōu)勢奠定了大模型訓練的基礎(chǔ),GPT為代表的預訓練模型,通過使用無標注數(shù)據(jù)預訓練及微調(diào),緩解了標注數(shù)據(jù)不足的問題,并不斷提升參數(shù)量級及模型通用性,ChatGPT在此基礎(chǔ)上加入了利用人類反饋強化學習的訓練方法。擴散模型取代GAN成為圖像生成領(lǐng)域的主流模型,CLIP模型推動跨模態(tài)生成技術(shù)的發(fā)展。模型商業(yè)化及開源釋放創(chuàng)造力。GPT3的商業(yè)化及CLIP及StableDiffusion模型的開源推動文本生成、文生圖產(chǎn)品化浪潮。AIGC算法發(fā)展歷程:谷歌持續(xù)重注AIGC研究2023年2月2日,谷歌研究院等提出了一種視頻生成新模型——

Dreamix,受到了AI作圖UniTune的啟發(fā),將文本條件視頻擴散模型

(videodiffusionmodel,VDM)應(yīng)用于視頻編輯。核心是通過兩種主要思路使文本條件VDM保持對輸入視頻的高保真度:(1)不使用純噪聲作為模型初始化,而是使用原始視頻的降級版本,通過縮小尺寸和添加噪聲僅保留低時空信息;(2)通過微調(diào)原始視頻上的生成模型來進一步提升對原始視頻保真度。微調(diào)確保模型了解原始視頻的高分辨率屬性,對輸入視頻的簡單微調(diào)會促成相對較低的運動可編輯性,這是因為模型學會了更傾向于原始運動而不是遵循文本prompt。AIGC市場空間:從決策走向創(chuàng)造推動內(nèi)容生產(chǎn)向高效率和更富創(chuàng)造力方向發(fā)展,與多產(chǎn)業(yè)融合。不僅是降本增效,更是個性化內(nèi)容生成。AI不僅能夠以優(yōu)于人類的制造能力和知識水平承擔信息挖掘、素材調(diào)用、復刻編輯等基礎(chǔ)性機械勞動,從技術(shù)層面實現(xiàn)以低邊際成本、高效率的方式滿足海量個性化需求。根據(jù)Sequoiacap,近年來AI模型在手寫、語音和圖像識別、閱讀理解和語言理解方面的表現(xiàn)逐漸超過了人類的基準水平。而且AI讓所有人都能夠成為“藝術(shù)家”,可無時無刻生成更有創(chuàng)造力、更個性化的內(nèi)容。

通過支持AI生成式內(nèi)容與其他產(chǎn)業(yè)的多維互動、融合滲透從而孕育新業(yè)態(tài)新模式,為各行各業(yè)創(chuàng)造新的商業(yè)模式,提供價值增長新動能。商業(yè)模式:按調(diào)用量收費、SaaS訂閱收費、增值服務(wù)、解決方案等AIGC的潛在客戶主要包括2B端內(nèi)容生產(chǎn)公司和2C端用戶:

2B:在PGC領(lǐng)域?qū)崿F(xiàn)內(nèi)容創(chuàng)作高效化,提高PGC活躍度和靈活性。AIGC能夠克服人力不足,降低內(nèi)容生產(chǎn)成本??蛻糁饕獮橘Y訊媒體、音樂流媒體、游戲公司、視頻平臺、影視制作公司等,如協(xié)助影視公司制作電影/劇集視頻片段。2C:在UGC領(lǐng)域?qū)崿F(xiàn)內(nèi)容創(chuàng)作低門檻和較高專業(yè)度,擴充UGC人群。AIGC能夠激發(fā)C端用戶靈感,且不需要用戶具有極強的專業(yè)知識,每個人都可以成為創(chuàng)作者。客戶主要為畫家、寫手、歌手等,如協(xié)助音樂小白創(chuàng)作專屬于個人的歌曲。

國內(nèi)AIGC商業(yè)模式尚未成型。以寫作機器人、自動配音等場景為例,大部分產(chǎn)品仍處在免費試用的“流量吸引+平臺改良”階段。此外,部分公司將AIGC用于協(xié)助自身原有商業(yè)體系,如騰訊開發(fā)的AIBot應(yīng)用于騰訊游戲中,阿里的智能語音服務(wù)主要應(yīng)用于微信,字節(jié)跳動則主要基于短視頻場景研究AI賦能。AIGC應(yīng)用場景文本生成:基于NLP技術(shù),受益于預訓練語言模型突破發(fā)展自然語言處理技術(shù)(NLP)是文本生成的基礎(chǔ)。NLP探索計算機和人類(自然)語言之間相互作用,研究實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。最早的自然語言處理研究工作是機器翻譯,后逐漸向文本摘要、分類、校對、信息抽取、語音合成、語音識別等方面深入。

從基于規(guī)則的經(jīng)驗主義到基于統(tǒng)計的理性主義,再到基于深度學習的方法,NLP在70年歷程中逐漸發(fā)展進步。受益于預訓練語言模型的突破發(fā)展,Transformer等底層架構(gòu)不斷精進,NLP取得跨越式提升。文本生成:已實現(xiàn)大范圍的商業(yè)落地文本生成是AIGC實現(xiàn)商業(yè)落地最早的技術(shù)之一,技術(shù)發(fā)展顯著提高了對于上下文的理解與承接能力、對常識性知識的嵌入能力、中長篇幅生成能力、生成內(nèi)容的內(nèi)在邏輯性等,文本生成迎來質(zhì)的飛躍。現(xiàn)有的落地場景主要集中在應(yīng)用型文本生成、創(chuàng)作型文本生成,重點關(guān)注閑聊型交互文本生成。音頻生成:TTS場景基本成熟,樂曲創(chuàng)作有發(fā)展?jié)摿σ纛l生成主要應(yīng)用于流行歌曲、樂曲、有聲書的內(nèi)容創(chuàng)作,以及視頻、游戲、影視等領(lǐng)域的配樂創(chuàng)作,目前在眾多場景已獲初步發(fā)展,在部分場景已廣泛應(yīng)用、趨于成熟。現(xiàn)有的落地場景集中在TTS、語音克隆、樂曲/歌曲生成。索尼計算機科學實驗室(CSL)在2021年9月宣布發(fā)布一款AI輔助音樂制作應(yīng)用程序FlowMachinesMobile(FMMobile),已登陸蘋果AppStore,可以用于iPad。FMMobile利用AI人工智能技術(shù)輔助音樂制作,能夠根據(jù)創(chuàng)作者選擇的風格提示旋律、和弦和貝斯線,生成音樂。

2021年,喜馬拉雅用TTS技術(shù)完美還原單田芳聲音,并首次將單田芳的AI合成音應(yīng)用于風格各異的書籍,用單式評書腔調(diào),全新演繹聽眾耳熟能詳?shù)慕?jīng)典之作。喜馬拉雅上已有80多部運用還原自單田芳先生聲音制作的專輯。圖像生成:從GAN到擴散模型,圖像生成技術(shù)迭代發(fā)展2014年生成式對抗網(wǎng)絡(luò)(GenerativeAdversarialNets,GAN)的提出標志著圖像生成進入快速發(fā)展期。GAN由生成器和判別器兩個神經(jīng)網(wǎng)絡(luò)組成,其中生成器通過輸入數(shù)據(jù)試圖產(chǎn)生欺騙判別器的真實樣本,而判別器試圖區(qū)分真實樣本和生成樣本。對抗博弈下不斷提高性能,達到納什平衡后生成器可以實現(xiàn)以假亂真的輸出。

GAN不需要蒙特卡洛估計來訓練網(wǎng)絡(luò),G的調(diào)整更新不直接來自數(shù)據(jù)樣本,而使用來自D的反向傳播,能夠更快產(chǎn)生樣本。但可解釋性差且較難訓練,容易產(chǎn)生隨機圖像,且圖像同質(zhì)化嚴重、分辨率較低。針對這些,CGAN、StyleGAN被提出來解決難訓練和分辨率低的問題。

雖然近年來GAN在神經(jīng)網(wǎng)絡(luò)架構(gòu)、損失函數(shù)設(shè)計、模型訓練穩(wěn)定性、模型崩潰問題上取得了突破,提升了最終圖像的特定細節(jié)、內(nèi)在邏輯、生成速度等,但要在實際中大規(guī)模運用還需要解決相應(yīng)問題。視頻生成:與圖像生成類似,大量應(yīng)用集中在視頻屬性編輯視頻生成原理與圖像類似,主流模型為GAN、VAE、Flow-based模型,近年來擴散模型也逐漸應(yīng)用到視頻生成中。

2019年,DeepMind提出了DVD-GAN模型(DualVideoDiscriminatorGAN),加入了空間判別器D-S和時間判別器D-T。GAN在視頻生成中的重大突破是一組由50萬段10秒高分辨率YouTube視頻剪輯匯編成的數(shù)據(jù)集訓練,能夠生成具備時間一致性的高分辨率(256x256像素)視頻。

視頻生成應(yīng)用場景主要集中在視頻屬性編輯、視頻自動剪輯、視頻部分編輯,前者已有大量應(yīng)用落地,后兩者還處于技術(shù)嘗試階段。視頻編輯比圖像更具挑戰(zhàn)性,需要合成新動作,不僅是修改外觀,還要保持時間一致性。跨模態(tài)生成:“CLIP+其他模型”成為通用的做法跨模態(tài)定義:跨模態(tài)生成,指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài),同時保持模態(tài)間語義一致性。主要集中在文字生成圖片、文字生成視頻及圖片生成文字。Transformer架構(gòu)的跨界應(yīng)用成為跨模態(tài)重要開端之一。多模態(tài)訓練普遍需要匹配視覺的區(qū)域特征和文本特征序列,形成Transformer架構(gòu)擅長處理的一維長序列,與Transformer的內(nèi)部技術(shù)架構(gòu)相符合。此外Transformer架構(gòu)還具有更高的計算效率和可擴展性,為訓練大型跨模態(tài)模型奠定了基礎(chǔ)。CLIP(ContrastiveLanguage-ImagePre-training,可對比語言-圖像預訓練算法)成為圖文跨模態(tài)重要節(jié)點。

2021年,OpenAI發(fā)布了CLIP,是一種經(jīng)典的文圖跨模態(tài)檢索模型,在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練,具有很強的文圖跨模態(tài)表征學習能力。CLIP模型包含圖像和文本的Encoder兩部分,用于對圖像和文本分別進行特征抽取。“CLIP+其他模型”在跨模態(tài)生成領(lǐng)域成為較通用的做法,如DiscoDiffusion,其原理為CLIP模型持續(xù)計算Diffusion模型隨機生成噪聲與文本表征的相似度,持續(xù)迭代修改,直至生成可達到要求的圖像。產(chǎn)業(yè)鏈及相關(guān)公司百度:“創(chuàng)作者AI助理團”助力AIGC智能創(chuàng)作2022年9月,萬象·百度移動生態(tài)大會召開,百度發(fā)布多項AIGC應(yīng)用內(nèi)容生產(chǎn)領(lǐng)域的技術(shù)和產(chǎn)品,尤其是“創(chuàng)作者AI助理團”和“百度APP數(shù)字人計劃”的發(fā)布,助力內(nèi)容創(chuàng)作駛進AIGC元年。百度百家號攜手澎湃新聞、新京報等數(shù)十家權(quán)威媒體成立“AIGC媒體聯(lián)盟”,推動AI普惠和賦能媒體行業(yè),加速內(nèi)容生產(chǎn)的智能化。騰訊:“AI+游戲/數(shù)字人”多場景綜合布局AIGC騰訊AILab的基礎(chǔ)研究方向包括計算機視覺、語音技術(shù)、自然語言處理和機器學習,應(yīng)用探索結(jié)合了騰訊場景與業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論