AI繪畫行業(yè)專題研究技術與應用雙突破-生產(chǎn)力變革在即_第1頁
AI繪畫行業(yè)專題研究技術與應用雙突破-生產(chǎn)力變革在即_第2頁
AI繪畫行業(yè)專題研究技術與應用雙突破-生產(chǎn)力變革在即_第3頁
AI繪畫行業(yè)專題研究技術與應用雙突破-生產(chǎn)力變革在即_第4頁
AI繪畫行業(yè)專題研究技術與應用雙突破-生產(chǎn)力變革在即_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

AI繪畫行業(yè)專題研究技術與應用雙突破_生產(chǎn)力變革在即(報告出品方/作者:浙商證券,謝晨、姚逸云)1發(fā)展進入快車道,迎來轉變?yōu)樯a(chǎn)力的拐點1.1AI繪畫是AIGC重要的應用分支AIGC既是一種內容分類方式,又是一種內容生產(chǎn)方式,還是用于內容自動化生成的一類技術集合。AIGC全稱為Al-GeneratedContent,指基于生成對抗網(wǎng)絡GAN、大型預訓練模型等人工智能技術,通過已有數(shù)據(jù)尋找規(guī)律,并通過適當?shù)姆夯芰ι上嚓P內容的生產(chǎn)方式。作為全新的內容生產(chǎn)方式,AIGC潛力無限,而我們當前處于向AIGC進發(fā)的過渡階段。根據(jù)a16z,內容生態(tài)的發(fā)展則可分為四個階段:專家生成內容(ProfessionallyGeneratedContent,PGC)、用戶生成內容(User-GeneratedContent,UGC)、AI輔助生產(chǎn)內容(AI-assistedGeneratedContent)及AI生成內容(AI-GeneratedContent,AIGC)。目前我們仍處于一、二階段為主,第三階段為輔的境況。按照模態(tài)對AIGC進行劃分最為常見。AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態(tài)生成,其中跨模態(tài)生成需要重點關注。事實上,人工通用智能(ArtificialGeneralIntelligence,AGI)概念的出現(xiàn)反映出許多人工智能業(yè)界人士認為,在未來,基礎的人工智能模型將是跨模態(tài)的,這意味著相同的模型將被用于生成不同體裁的內容,包括但不限于文本、圖像、視頻等等。AI繪畫是AIGC重要的應用分支。AI繪畫工具中,用戶通過輸入不同的詞匯,例如不同的藝術家風格、構圖、色彩、透視方法以及修飾詞,就能得到相對應的畫作。目前相關生成工具已相對成熟,易用性較好,生成結果直觀、易傳播,部分成果在效率和質量上有不錯的表現(xiàn),切實觸動了廣大內容生產(chǎn)和消費者,進入主流視野。1.2今年起AIGC發(fā)展按下加速鍵PGC和UGC的發(fā)展曾為我們帶來內容生產(chǎn)和消費的空前繁榮,AIGC的興起是生產(chǎn)力革新的成果,亦是孕育自廣大消費者的實際需要,具有廣闊的想象空間和重要意義。從供給側角度來看,AIGC的興起源于深度學習技術的快速突破。在人工智能發(fā)展初期,相關算法多基于預先定義的規(guī)則或者模板,AI在創(chuàng)造力層面進展緩慢,更多地在替代人類從事可重復性高的“dirtywork”。近年來,深度學習算法快速迭代,神經(jīng)網(wǎng)絡的規(guī)模呈指數(shù)級增長,技術強大到可以執(zhí)行非模板化的工作,更加貼近AI所指代的智能化概念。從需求側角度來看,日益增長的數(shù)字內容供給需求驅動著AIGC蓬勃發(fā)展。傳統(tǒng)內容生產(chǎn)手段受限于人力有限的制造能力,在絕對產(chǎn)能、產(chǎn)能與質量的協(xié)調關系上愈發(fā)吃力。AIGC依托其技術屬性,可襄助內容生產(chǎn)以更加具有絕對效率和性價比的方式進行,更好地滿足市場需要。我們將AIGC的發(fā)展分為四個階段:1.早期萌芽時期:此階段AIGC僅限于小范圍實驗。80年代中期,IBM基于隱形馬爾科夫鏈模型(HiddenMarkovModel,HMM)創(chuàng)造了語音控制打字“坦戈拉(Tangora)”。雖然對AIGC進行了一些初步嘗試,但受限各種因素,實際產(chǎn)出效果還遠遠算不上是智能創(chuàng)作內容的程度。2.沉淀積累時期:AIGC從實驗性向實用性逐漸轉變。軟件上,2006年,深度學習算法取得重大突破;硬件上,圖形處理器(GraphicsProcessingUnit,GPU)、張量處理器(TensorProcessingUnit,TPU)等算力設備性能不斷提升;數(shù)據(jù)上,互聯(lián)網(wǎng)使用數(shù)據(jù)規(guī)??焖倥蛎洸楦黝惾斯ぶ悄芩惴ㄌ峁┝撕A坑柧殧?shù)據(jù),使人工智能發(fā)展取得了顯著的進步。2007年,紐約大學人工智能研究員羅斯古德溫裝配的人工智能系統(tǒng)通過對公路旅行中的一切所見所聞進行記錄和感知,撰寫出世界第一部完全由人工智能創(chuàng)作的小說。2012年,微軟公開展示了一個全自動同聲傳譯系統(tǒng),基于深層神經(jīng)網(wǎng)絡(DeepNeuralNetwork,DNN)可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。3.快速發(fā)展時期:眾多關鍵模型就位規(guī)模化基礎已具備。2017年,AI圖像生成、自動生成唇形視頻、圖像高清化、圖像編輯、圖像風格遷移、wavnet語音合成等技術快速發(fā)展。2018年,預訓練語言模型出現(xiàn),降低了標注需求和成本。2019年,隨著以生成式對抗網(wǎng)絡(GenerativeAdversarialNetwork,GAN)逐漸成熟,AIGC技術研究迎來關鍵拐點,DeepMind發(fā)布了DVD-GAN模型用以生成連續(xù)視頻,在草地、廣場等明確場景下表現(xiàn)突出。2020年,自監(jiān)督學習成為業(yè)界主流,模型體量和復雜度不斷提升,其中OpenAI發(fā)布的CPT3極具代表性。2021年,MAE的出現(xiàn)使得視覺可以用NLP自然語言同樣的架構訓練預訓練模型,疊加多模態(tài)多任務領域發(fā)展,文本圖像對齊的研究爆發(fā)。4.起飛破圈時期:AIGC概念伴隨AI繪畫應用出圈。2022年,技術上,擴散生成模型得到廣泛研究與應用,文本生成圖像模型可準確把握文本信息進行創(chuàng)作。商業(yè)化基礎已初步具備,國內外互聯(lián)網(wǎng)巨頭和獨角獸紛紛下場。OpenAI更新了DALL-E-2,可創(chuàng)作出相應極高質量的卡通、寫實,抽象等風格的繪畫作品。把AIGC創(chuàng)作最終推向平民化的是Stability.ai推出的StableDiffusion,個人電腦即可驅動,且?guī)讉€月內產(chǎn)出效果具有直觀的改善。AI繪畫迅速在微博、小紅書等多平臺上,內容創(chuàng)作者、技術研究者、投資人等各圈層里形成了聲勢。1.3技術轉化為生產(chǎn)力的契機產(chǎn)生2022年被稱為AIGC元年,這一年AIGC取得了里程碑式的成績,引發(fā)了市場廣泛熱烈的興趣,我們認為主要因素是:包含擴散模型在內的關鍵技術取得突破,技術可用性顯著提高,產(chǎn)出效率不斷提高,產(chǎn)出效果出現(xiàn)分水嶺,技術轉化為生產(chǎn)力的契機產(chǎn)生。2021年之前,AIGC生成的主要還是文字,而新一代模型可以處理的模態(tài)大為豐富且可支持跨模態(tài)產(chǎn)出,可支持AI插畫,文字生成配套營銷視頻等常見應用場景;通過國內外科技公司的應用轉化,技術進入民用領域,引起了廣大行業(yè)從業(yè)者、文娛愛好者和投資人的關注?!爸悄軋D文轉視頻”和AI作畫成功破圈,相關應用迭代速度呈現(xiàn)指數(shù)級爆發(fā)。以AI作畫工具為例,水平上限有長足進步,雖發(fā)揮并不穩(wěn)定,但結果輸出極快,可量變引起質變,彌補其在創(chuàng)意、想象等方面的不足,滿足一般市場需求。2關鍵技術取得突破,圖像生成效果效率均顯著提升2.1GAN+CLIP解決跨模態(tài)問題2.1.1生成式對抗網(wǎng)絡GAN—圖像到圖像的生成GAN(GenerativeAdversarialNets,生成式對抗網(wǎng)絡)在2014年提出后,是生成器和判別器的一代代博弈。生成器通過輸入數(shù)據(jù)生成圖像,并將其混入原始數(shù)據(jù)中送交判別器區(qū)分。判別器依據(jù)二分類網(wǎng)絡,將生成器生成圖像作為負樣本,真實圖像作為正樣本。雙方的訓練過程交替進行,對抗的過程使得生成器生成的圖像越來越逼真,判別器的分辨能力也越來越強。GAN有三個不足:1.GAN對輸出結果的控制力較弱,容易產(chǎn)生隨機圖像。對此,CGAN通過把無監(jiān)督的GAN變成半監(jiān)督或者有監(jiān)督的模型,為訓練加上目標,而DCGAN通過縮小CNN在監(jiān)督學習與無監(jiān)督學習之間的差距使得訓練過程更加穩(wěn)定和可控。2.GAN生成的圖像分辨率較低,對此,PGGAN逐漸的向生成器和判別器網(wǎng)絡中添加層,以此增加生成圖片的空間分辨率,StyleGAN則能夠生成極其逼真的圖像數(shù)據(jù)并且做到了高層特征可控;3.由于GAN需要用判別器來判斷生產(chǎn)的圖像是否與其他圖像屬于同一類別,這就導致生成的圖像是對現(xiàn)有作品的模仿和微調,不能通過文字提示生成新圖像,因此CLIP被引入。2.1.2可對比語言-圖像預訓練算法CLIP—文字到圖像生成CLIP(ContrastiveLanguage-ImagePre-training)是OpenAI在2021年提出的多模態(tài)預訓練的算法,建于NLP(NaturalLanguageProcessing,自然語言理解)和CV(ComputerVision,計算機視覺)相結合的基礎上。算法使用已經(jīng)標注好的“文字-圖像”數(shù)據(jù)對訓練。一邊對文字進行模型訓練,一邊對圖像進行模型訓練,不斷調整參數(shù),使得輸出的文字特征集和圖像特征集相匹配。CLIP方法具有結構簡單,訓練速度快,效果好等諸多優(yōu)良特性。CLIP具有非常好的遷移學習能力,預訓練好的模型可以在任意一個視覺分類數(shù)據(jù)集上取得不錯的效果。而且算法是Zero-Shoot的,即不需要再去新數(shù)據(jù)集上做訓練,就能得到不錯的結果?,F(xiàn)被廣泛應用的StyleCLIP融合了StyleGAN和CLIP雙方的特性。之前的StyleGAN的語義控制發(fā)現(xiàn)方法會涉及手動檢查、大量帶注釋的數(shù)據(jù)、或者需要預訓練的分類器,且只能按照預設的語義方向操作圖像,嚴重限制了用戶的創(chuàng)造力和想象力,若需要添加一個未映射的方向,需要大量的手工工作或大量的注釋數(shù)據(jù)。StyleCLIP支持普通用戶基于文本的直觀語義圖像操作,也不限于預設的操作方向。2.2深度學習助力AI畫技進步AI繪畫的實際操作大體可以分為四個步驟:加噪點、去噪點、復原圖片和作畫。其中,加噪點即添加高斯噪聲或者關鍵詞,通過固定公式來實現(xiàn),這方面,快速更新迭代的MIM方法表現(xiàn)出彩。去噪點即仿生物視覺神經(jīng)網(wǎng)絡在去噪過程中開展學習(透視、顏色等),目前Transformer正取代CNN卷積神經(jīng)網(wǎng)絡成為主流方法。而在復原圖片和作畫方面,AI的“畫技”主要由擴散模型DiffusionModel和神經(jīng)輻射場模型NeRF決定。2.2.1圖像掩碼建模MIM—高效簡潔的預訓練方法MIM(MaskedImageModeling,圖像掩碼建模)是一種自監(jiān)督表征學習算法。它的主要思路是,對輸入圖像進行分塊和隨機掩碼操作,然后對掩碼區(qū)域做一些預測,進而猜測全圖。掩碼信號建模在多個模型中應用發(fā)展,例如OpenAI的iGPT模型(通過馬賽克進行信號的遮蔽和轉換)、ViT模型等?;贛IM的模型在不同類型和復雜程度的廣泛視覺任務上實現(xiàn)了非常高的微調精度,使得AI作畫從生成不完整圖像進步到可成完整圖像的跨越。MIM在語義較弱的幾何/運動任務或細粒度分類任務中的表現(xiàn)明顯優(yōu)于有監(jiān)督模型;對于有監(jiān)督模型擅長的任務(語義覆蓋較好的語義理解任務),MIM模型仍然可以取得極具競爭力的遷移性能。目前較受認可的MAE模型產(chǎn)自何愷明對MIM的優(yōu)化。MIM在預訓練圖像編碼器的時候,太關注細節(jié)損失了高維抽象能力。MAE的非對稱編碼器-解碼器結構,使模型分工明確,編碼器負責抽取高維表示,解碼器則負責細粒度還原;MAE同時對輸入圖像進行高比例遮蔽。將以上兩種設計結合,結果用來訓練大模型:訓練速度提升三倍以上,同時保持高準確率,具備很好的泛化能力。MAE廣泛應用于人臉識別等多個領域。例如,F(xiàn)aceMAE作為隱私保護人臉識別范式,同時考慮了人臉隱私和識別性能,可以適配任何人臉數(shù)據(jù)集,以降低隱私泄露風險。由北京大學、香港大學研究者在2022年5月提出的CAE模型、微軟亞研院提出的SimMIM是對MAE方法的改進。CAE可以更多地挖掘編碼器的潛力;而SimMIM對MAE進行了化簡。它們學到的表征可以區(qū)分不同類別的物體,舉例來說,看到一只貓的頭部可以預測出它的身體部分,看到一小片天空可以預測出它的周圍大概率也是一片天空。2.2.2特征處理器Transformer—優(yōu)化的自然語言處理模型Transformer是當前綜合表現(xiàn)最優(yōu)的特征提取器。模型首創(chuàng)于2017年的Google論文《AttentionisAllYouNeed》。它的性能優(yōu)于傳統(tǒng)的RNN和CNN特征提取器。Transformer為視覺領域帶來了革新性的變化,它讓視覺領域中目標檢測、視頻分類、圖像分類和圖像生成等多個領域實現(xiàn)了長足的進步。2020年10月,谷歌提出了VisionTransformer(ViT),它是Transformer用于CV領域的杰出例子,它在大型數(shù)據(jù)集上表現(xiàn)處于領先地位。2021年1月,OpenAI用的DALLE和CLIP兩個模型都利用Transformer達到了較好效果,前者可以基于本文直接生成圖像,后者則能完成圖像與文本類別的匹配。Transformer的研究才剛剛起步,因此仍有很大研究和發(fā)展空間。在研究領域,CNN研究已趨向于成熟,考慮到模型成熟度和性價比,CNN在短期內仍不會被淘汰。1.現(xiàn)有的VisualTransformer參數(shù)量和計算量過大,內存占用量超過可承受范圍,效率方面還需要提升,亟需開發(fā)高效TransformerforCV。2.現(xiàn)有的VisualTransformer都還是將NLP中Transformer的結構套到視覺任務做了一些初步探索,未來針對CV的特性設計更適配視覺特性的Transformer將會帶來更好的性能提升。3.現(xiàn)有的VisualTransformer一般是一個模型做單個任務,近來有一些模型可以單模型做多任務,比如IPT,我們期待未來出現(xiàn)世界模型,處理全局任務。2.2.3擴散模型DiffusionModel—新一代圖像生成主流模型DiffusionModel代指擴散模型,擁有比GAN更優(yōu)的能力并快速崛起。相關研究最早可以追溯到2015年,奠基研究是2020年《DenoisingDiffusionProbabilisticModels》。2022年,借助AI繪畫應用,擴散模型在圖像生成領域展現(xiàn)卓越實力。擴散模型的工作原理,是通過連續(xù)添加高斯噪聲來破壞訓練數(shù)據(jù),然后通過反轉這個噪聲過程,來學習恢復數(shù)據(jù)。一幅畫當中,衣服的紋樣、樹葉、云彩等帶有很多細節(jié)紋理的地方,其實細節(jié)越多,越接近一個隨機的噪點。對于這些地方,也許只需要幾次高斯噪點的摻入(可理解為高斯模糊),就能破壞原來的紋樣,接近正態(tài)分布。訓練后,可以使用擴散模型將隨機采樣的噪聲傳入模型中,通過學習去噪過程來生成數(shù)據(jù)。都是給定噪聲xT生成圖片x0,相比GAN,Diffusion所需數(shù)據(jù)更少,生成效果更優(yōu)。擴散模型在計算機視覺、自然語言處理、波形信號處理、多模態(tài)學習、分子圖生成、時間序列以及對抗學習等七大應用方向中都有應用。在AI繪畫領域,除DiscoDiffusion,最先進的文本生成圖像系統(tǒng)OpenAI的DALLE2和Google的Imagen,都是基于擴散模型來完成的。擴散模型還在發(fā)展中,改進研究在采樣速度提升、最大似然增強和數(shù)據(jù)泛化增強等領域持續(xù)進步。2.2.4神經(jīng)輻射場NeRF—順應3D內容消費趨勢NeRF(neuralimplicitrepresentation,神經(jīng)隱式表示)利用深度學習完成了計算機圖形學中的3D渲染任務。這一技術從2019年開始興起,在2020年NeRF獲得ECCVbestpaper之后受到了廣大關注。NerF在很大程度上克服了樣本特征受限的問題。此前,2D到3D生成的領域也包含GAN方面的嘗試,比如英偉達20-21年推出的GANverse3D能夠自定義對象和交換背景。但由于GAN在對抗訓練中會受限于樣本特征,該模型當時僅適用于汽車、馬匹和鳥類。NeRF模型的基本原理是:將場景的體積表示優(yōu)化為向量融數(shù),該函數(shù)由位置和視圖方向組成的連續(xù)5D坐標定義。具體而言,是沿相機射線采樣5D坐標來合成圖像,將場景表示參數(shù)化為一個完全連接深度網(wǎng)絡(MLP),該網(wǎng)絡將通過5D坐標信息,輸出對應的顏色和體積密度值。NeRF對于虛擬人創(chuàng)建、3D訓練環(huán)境構建、增強現(xiàn)實、線上游戲及電影特效等都具有重要意義。自NeRF在ECCV2020提出后,NeRF模型也持續(xù)在生成范圍、生成效果、乃至于所需基礎數(shù)據(jù)上進行改進。例如陸續(xù)支持光影變化效果、動態(tài)NeRF,類實時生成,全場景NeRF、單張生成模型、3D幾何數(shù)據(jù)生成。在AI繪畫中,NeRF通過將場景表示為隱式的神經(jīng)輻射場,渲染時通過神經(jīng)網(wǎng)絡查詢位置上的場景信息生成新視角圖像。直觀來講,渲染就是用計算機模擬照相機拍照,它們的結果都是生成一張照片。NeRF將場景表示為空間中任何點的容積密度和顏色值,有了以NeRF形式存在的場景表示后,可以對該場景進行渲染,生成新視角的模擬圖片。NeRF使用經(jīng)典體積渲染(volumerendering)的原理,求解穿過場景的任何光線的顏色,從而渲染合成新的圖像。在NeRF之后,有人提出了GRAF,引入了GAN來實現(xiàn)神經(jīng)輻射場,并使用ConditionalGAN實現(xiàn)對渲染內容的可控性。在GRAF之后,GIRAFFE實現(xiàn)了構成。在NeRF、GRAF中,一個神經(jīng)輻射場表示一個場景。而在GIRAFFE中,一個神經(jīng)輻射場只表示一個物體(背景也算一個物體)。這樣做可以隨意組合不同場景的物體,可以改變同一場景中不同物體間的相對位置,渲染生成更多訓練數(shù)據(jù)中沒有的全新圖像。未來NeRF發(fā)展主要是基于NeRF問題的改進。NeRF的簡潔性具有優(yōu)勢,但也因此帶來一些問題:1.計算量大導致耗時長:NeRF生成圖像時,每個像素都需要近200次MLP深度模型的前向預測。盡管單次計算規(guī)模不大,但完成整幅圖像渲染的計算量還是很可觀的,NeRF針對每個場景進行訓練的耗時較長。對此,迭代過后的Depth-supervisedNeRF能夠實現(xiàn)更少的視角輸入和更快的訓練速度。2.只針對靜態(tài)場景:對于無法拓展到動態(tài)場景的問題,主要和單目視頻做結合,從單目視頻中學習場景的隱式表示。NeuralSceneFlowFields將動態(tài)場景建模為外觀、幾何體和三維場景運動的時變連續(xù)函數(shù)。該方法只需要一個已知攝像機姿勢的單目視頻作為輸入。3.泛化性差:NeRF無法直接擴展到?jīng)]有見過的場景,這顯然與人們追求泛化性的目標相違背。因此一些文章開始對NeRF進行泛化性的改進。GRF學習2D圖像中每個像素的局部特征,然后將這些特征投影到3D點,從而產(chǎn)生通用和豐富的點表示。與之類似的還有IBRnet、pixelNeRF等,比較核心的想法都是卷積與NeRF相結合。目前這種泛化都還不夠成熟,無法在復雜場景中取得理想效果。4.需要大量視角:盡管NeRF方法能夠實現(xiàn)出色的視角合成效果,但是它需要大量的(數(shù)百張)視角來進行訓練,這限制了它在現(xiàn)實中的應用。針對視角數(shù)量的改進,目前還局限在比較封閉的測試環(huán)境下,如合成物體或者單個物體。擴展其在實操中的可用性也是未來的一大方向。2.3大模型和人工通用智能指引發(fā)展方向我們觀察到,深度學習領域有兩大前進趨勢:大模型和人工通用智能。2.3.1大模型催生基石模型公司崛起深度學習領域,模型越大越好。在過去三年里,人工智能模型的規(guī)模已經(jīng)增長了萬倍以上。讓每家公司都進入大模型建設并不現(xiàn)實,我們認為市場將由少數(shù)具有先發(fā)和成本優(yōu)勢的供應商主導。OpenAI作為行業(yè)領先者,開發(fā)了GPT語言模型和DALL-E圖像生成模型,并不斷提升其模型復雜性和規(guī)模,OpenAI亦是大模型供應商的有力選手,而其他公司可以付費購買其更底層的API等服務。同時,大模型趨勢也將給云計算公司如Googe、亞馬遜,和GPU廠商如英偉達帶來機會。2.3.2人工通用智能不僅僅是想象AI技術被區(qū)分為弱人工智能、通用人工智能、超級人工智能三種模式。弱人工智能也被稱為狹義人工智能,是專攻某一領域的人工智能,例如在圍棋上大放異彩的AlphaGo都屬于弱人工智能。通用人工智能(ArtificialGeneralIntelligence,AGI)也叫強人工智能,或人類級人工智能,通用人工智能指的是一臺像人類一樣擁有全面智能的計算機,人類能解決的智力問題他都能解決。落到AIGC領域,人工智能模型將是多模態(tài)的,這意味著相同的模型將被用于文本、圖像、視頻等等。超級人工智能被定義為“在幾乎所有領域,包括科學創(chuàng)造力、一般智慧和社交技能,都比最優(yōu)秀的人類大腦聰明得多的智力。通用人工智能處理復雜情況的能力無比誘人,但實現(xiàn)難度極高,AIGC或為曙光。受困于技術、資源、應用方向等因素的局限,通用人工智能的發(fā)展在短期內較難突破。AIGC的興起,一方面可以給到一個相對特定的、具象范圍的AGI應用空間,降低難度,再舉一反三;另一方面,AIGC提供了AI廣泛施為的機會,無論是數(shù)據(jù)的大量生產(chǎn),還是眾多專業(yè)力量和資本的投入,都有利于推動技術向前演進。3商業(yè)化前景廣闊,B端和三維化或為突破口3.1應用迅速豐富,用戶接受度較高AI繪畫產(chǎn)品不斷豐富,體驗持續(xù)提升。近兩年,海外流行借助DiscoDiffusion、MidJourney等AI繪畫軟件來進行藝術創(chuàng)作,StableDiffusion各渠道累計日活用戶超過1000萬,面向消費者的DreamStudio則已獲得了超過150萬用戶。在國內,2022年是AI繪畫產(chǎn)品井噴之年,諸如文心一格、TIAMAT等產(chǎn)品均于今年上線,他們接受中文描述語輸入、更能理解中國文化審美和用戶需求,并主動利用小紅書、微博等平臺拓展影響力。AI作畫操作進過多次簡化,已經(jīng)大大降低了使用門檻,可支持文字成圖、圖像轉化、使用文字修飾圖像等。上圖以StableDiffusion為例,展示了較為通用的AI作畫流程:1)注冊discord賬號后登陸進Midjourney主頁。2)點擊進入隨意一個newbies新手社區(qū)。3)向機器人輸入“/image”命令,在prompt后輸入文字指令,完成后按enter。4)等待一分鐘即可得到AI作畫成品。用戶認知層面,已經(jīng)有相當一部分用戶認可AI繪畫對人類工作的助益。根據(jù)6pen的調研,有50%以上的用戶認為AI繪畫能替代一部分,甚至完全顛覆目前的工作方式。隨著更多人接受并參與進來,AI繪畫愛好者甚至已經(jīng)開始形成自有生態(tài),反哺AI繪畫的發(fā)展。他們組建了相關社群交流技術,將作畫過程戲稱為“魔法吟唱”。用戶在社群中分享輸入?yún)?shù)和輸出結果。3.2變現(xiàn)仍處于嘗試階段,B端或為切入點AI繪畫產(chǎn)品目前少有營收或實現(xiàn)盈利。根據(jù)南方財經(jīng),視覺中國官方披露,公司擁有AIGC技術儲備和素材資源,曾在元視覺藝術網(wǎng)發(fā)行過相關作品,相關作品確能產(chǎn)生營收,但占比極低,2022年上半年,元視覺藝術網(wǎng)一共創(chuàng)收約1500萬元。而StableDiffusion和Midjourney這兩家公司都還未實現(xiàn)盈利。究其原因,或有以下因素:AI繪畫商業(yè)化方面仍處于摸索階段,變現(xiàn)方式較為單一。用戶多為生成數(shù)量或者使用時間付費,常見付費方式為訂閱制或按次付費,以幾大主流AI作畫軟件的商業(yè)模式為例:StableDiffusion目前尚未形成明確的盈利模式,目前的收費方式是首次注冊DreamStudiobeta將獲得價值2英鎊的積分,大約相當于200次單張圖免費生成的額度。試用后,可以按10英鎊的增量購買額外的積分。但StabilityAI的CEO稱其未來商業(yè)模式類似紅帽和MongoDB,開源版本免費,通過商業(yè)版本盈利;Midjourney采用了訂閱制,新用戶可免費生成25張,之后對于個人用戶或公司年收入少于100萬美元的企業(yè)員工用戶,有兩個檔位的訂閱套餐,分別是:1)基本計劃每月花費10美元,200分鐘GPU時間(每次生成大約5美分);2)標準計劃每月花費30美元,15小時GPU時間(每次生成大約3美分)。而對于大公司客戶,單人一年收費約為600美元,生成的作品可以商用。對于普通C端用戶,應用場景商業(yè)化性價比較低,付費意愿有待提升。根據(jù)6pen的調研,60%的用戶從未在AI繪畫產(chǎn)品上有過付費行為,剩下40%的用戶中,付費超過100元占比僅10%。我們認為主要原因是:1.商業(yè)應用場景缺失:普通大眾使用AI繪畫進行創(chuàng)作后,若自用(如用做頭像)或者分享在社交媒體,免費軟件足夠嘗鮮。而若用于約稿等用途,產(chǎn)出的作品受到素材和技術的限制,為滿足客戶需求,仍需大量加工以得到成品,性價比較低?!短崭鑴≡骸愤@副作品在AI生成之后,設計師還進行了上千次的修改,花費了近80個小時才完成。雖有人在抖音上做壁紙?zhí)?,在閑魚上賣描述語,或將作品賣給包裝廠,但這些還未達到產(chǎn)業(yè)的高度,傳導鏈條也較長。2.當前AI繪畫平臺大多為輕量級的工具應用,能夠操作的玩法和賦能服務都比較有限。已有的賦能收費項目集中在付費提速或者增加清晰度方面,或類似PromptBase公司創(chuàng)立了一個DALL-E2、GPT-3提示詞在線交易平臺,允許用戶以1.99美元的價格買賣提示詞,此幾種主要在變相彌補現(xiàn)有產(chǎn)品在成像速度、質量和精確性上的局限。3.3三維化打開游戲、影視、VR等應用空間三維化是AIGC視覺發(fā)展的必然趨勢。從長遠趨勢來看,人們對于未來元宇宙的期待是三維化、AI化及開放式的,AIGC+3D內容是可見途徑。中短期維度上,AIGC+3D是豐富游戲、影視、VR等數(shù)字內容,降低其制作成本的有力工具。3D內容生產(chǎn)借助AI繪畫產(chǎn)品快速普及。我們看到,AIGC進入3D內容領域,有效降低了參與門檻,讓全民參與到3D內容創(chuàng)作和消費當中,在3D領域升起UGC的浪潮,我們認為這將大為豐富3D內容創(chuàng)作的有生力量,正如視頻拍攝和剪輯工具平民化推動視頻內容行業(yè)的繁榮,3D內容創(chuàng)作行業(yè)也將因此迎來全新發(fā)展契機。AI繪畫產(chǎn)品三維化方面,代表性的產(chǎn)品有DreamFusion、StableDiffusion、GET3D等,并已有多種場景應用實例,覆蓋多種應用場景的可能性:DreamFusion是Google的大型AI圖像模型Imagen與NeRF的3D功能相結合。DreamFusion訓練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型,整個過程既不需要3D訓練數(shù)據(jù),也無需修改圖像擴散模型,完全依賴預訓練擴散模型作為先驗。但使用該項目的GitHub頁面只允許從一系列預設文本提示中進行選擇生成3D模型,暫不不允許用戶輸入自己的文本描述,數(shù)字資產(chǎn)本身的分辨率也較低。DreamFusion的在線畫廊展示了一系列.glb格式的模型,適合在AR項目中使用,或者作為可以手動細化以用于更高細節(jié)工作的基礎網(wǎng)格。StableDiffusion原本是2D美術生成工具,通過和TouchDesigner可視化編程工具結合可創(chuàng)建VR場景,并且用機器學習算法為這些場景生成了文本查詢對象。目前,已經(jīng)成功地在虛擬現(xiàn)實中創(chuàng)建了成熟的場景,這些場景以60fps的速度實時渲染。已有諸多廠商在研究將AI創(chuàng)作的3D場景用于游戲生產(chǎn),如依賴程序生成的Roguelike游戲,開發(fā)者未來或許可利用AI制作的場景直接作為游戲關卡,大量節(jié)省游戲制作成本。GET3D是英偉達推出的模型,通過2D圖像訓練后,該模型可生成具有高保真紋理和復雜幾何細節(jié)的3D形狀。它生成的是顯式紋理3D網(wǎng)格,也就是說,它創(chuàng)建的形狀是三角形網(wǎng)格的形式,就像紙模型一樣,上面覆蓋著紋理材質。因此GET3D不僅可以生成多種多樣、高質量的模型,還可以將生成模型導入到游戲引擎、3D建模器和電影渲染器中,對它們進行編輯,并且將GET3D生成的模型導出到圖形應用程序后可以在模型所在的場景中移動或旋轉時應用逼真的照明效果?;贕ET3D已建成一個用照片自動生成三維模型的平臺。在實際應用過程中,文物研究人員借助攝影測量的方法實現(xiàn)文物三維

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論