計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:Sora劃時(shí)代,算力應(yīng)用加速_第1頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:Sora劃時(shí)代,算力應(yīng)用加速_第2頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:Sora劃時(shí)代,算力應(yīng)用加速_第3頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:Sora劃時(shí)代,算力應(yīng)用加速_第4頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:Sora劃時(shí)代,算力應(yīng)用加速_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

僅供機(jī)構(gòu)投資者使用證券研究報(bào)告|行業(yè)深度研究報(bào)告Sora劃時(shí)代:算力應(yīng)用再加速2024年2月19日核心邏輯

Sora:劃時(shí)代的文生視頻大模型

文本生成視頻:Sora能夠根據(jù)用戶提供的文本描述生成長(zhǎng)達(dá)60S的視頻。深化語(yǔ)言理解:利用GPT技術(shù)將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)轉(zhuǎn)譯,并將其發(fā)送到視頻模型。圖片生成能力:Sora可以根據(jù)用戶需求,生成可變大小的圖像,最高可達(dá)驚人的2048

×

2048分辨率。新的模擬能力:Sora具有3D一致性、較長(zhǎng)視頻的連貫性和對(duì)象持續(xù)性,能與世界互動(dòng),模擬數(shù)字世界。

多模態(tài)下游應(yīng)用百花齊放

多模態(tài)+視頻創(chuàng)作:提升創(chuàng)作者效率。除了Sora、Runway外,Lumiere能夠在單個(gè)過(guò)程中生成完整的視頻序列,而非簡(jiǎn)單組合靜態(tài)幀。這種技術(shù)能夠同時(shí)處理視頻的空間(即視頻中的對(duì)象)和時(shí)間(即視頻中的運(yùn)動(dòng))方面,為用戶帶來(lái)更加自然和流暢的運(yùn)動(dòng)感知體驗(yàn)。

多模態(tài)+自動(dòng)駕駛:徹底改變?nèi)塑嚱换?。商湯提出DriveMLM模型,可實(shí)現(xiàn)閉環(huán)測(cè)試中操控車輛,超過(guò)之前的端到端和基于規(guī)則的自動(dòng)駕駛系統(tǒng)方法。

多模態(tài)+廣告(電商):創(chuàng)造多樣化營(yíng)銷賣點(diǎn)。利用AI技術(shù)進(jìn)一步提升數(shù)字人的多樣性,比如人臉替換、背景替換、口音語(yǔ)音替換去適配我們的prompt,最后腳本、數(shù)字人臉替換、背景替換等,視頻壓制之后,就可以得到一個(gè)口播視頻;還可以幫助商業(yè)實(shí)現(xiàn)營(yíng)銷海報(bào)的生成。

多模態(tài)+教育:提升教學(xué)效率,加強(qiáng)人機(jī)互動(dòng)。Stable

Diffusion等圖像生成模型,可以依據(jù)教學(xué)需求輸入主體及其細(xì)節(jié)的文本描述,快速自動(dòng)生成多種風(fēng)格、高清逼真、蘊(yùn)含美感的美育類教學(xué)資源,所生成的教學(xué)資源既具備顯著的跨模態(tài)性,又具有新穎性與獨(dú)特性。

多模態(tài)+醫(yī)療:為臨床醫(yī)療任務(wù)提供更為智能、高效的解決方案。臨床醫(yī)療業(yè)務(wù)產(chǎn)生的大量數(shù)據(jù)以不同模態(tài)存儲(chǔ)于數(shù)據(jù)庫(kù)中,對(duì)它們整理、清洗后,再經(jīng)過(guò)預(yù)處理進(jìn)行多模態(tài)融合。多模態(tài)融合可以有機(jī)整合不同的信息,相比單模態(tài)信息更加全面。

多模態(tài)+安防:AI+安防加速演變。根據(jù)全球政企解決方案,目前在國(guó)內(nèi)“AI+安防”領(lǐng)域AI技術(shù)三個(gè)落地到產(chǎn)品端的應(yīng)用方向是:生物識(shí)別技術(shù)、視頻結(jié)構(gòu)化和物體識(shí)別系統(tǒng)。其中,生物識(shí)別技術(shù)應(yīng)用時(shí)間最早,涉及較為范圍廣,且為人像識(shí)別的入口技術(shù)。

受益標(biāo)的:多模態(tài)素材:萬(wàn)興科技、虹軟科技、超訊通信、佳都科技、平治信息、博匯科技、美圖公司;應(yīng)用:科大訊飛、大華股份、??低暋?rùn)達(dá)醫(yī)療、中科創(chuàng)達(dá)、千方科技、盛通股份;算力基礎(chǔ)設(shè)施:中科曙光、開普云、高新發(fā)展、網(wǎng)宿科技、神州數(shù)碼、拓維信息、海光信息、首都在線。

風(fēng)險(xiǎn)提示:1)政策落地不及預(yù)期;2)技術(shù)發(fā)展不及預(yù)期;3)經(jīng)濟(jì)發(fā)展不及預(yù)期。201Sora:劃時(shí)代的文生視頻大模型31.1Sora——?jiǎng)潟r(shí)代文生視頻大模型

Sora是由OpenAI發(fā)布的文生視頻大模型,此模型發(fā)布預(yù)示著大模型時(shí)代進(jìn)階。Sora能夠僅僅根據(jù)提示詞,生成60s的連貫視頻,遠(yuǎn)超行業(yè)目前大概只有平均“4s”的視頻生成長(zhǎng)度。Sora的出現(xiàn),預(yù)示著一個(gè)全新的視覺(jué)敘事時(shí)代的到來(lái),它能夠依據(jù)客戶的文本提示,將人們的想象力轉(zhuǎn)化為生動(dòng)的動(dòng)態(tài)畫面。Sora作為一款通用的視覺(jué)數(shù)據(jù)模型,其卓越之處在于能夠生成跨越不同持續(xù)時(shí)間、縱橫比和分辨率的視頻和圖像,甚至包括生成長(zhǎng)達(dá)一分鐘的高清視頻。

打造虛擬世界模擬器。Sora采用了Transformer架構(gòu),該架構(gòu)對(duì)視頻的時(shí)空序列包和圖像潛在編碼進(jìn)行操作。隨之誕生的最強(qiáng)大模型Sora,也就具備了生成一分鐘高質(zhì)量視頻的能力。擴(kuò)展視頻生成模型的規(guī)模,是構(gòu)建模擬物理世界通用模擬器的非常有希望的方向。文生視頻大模型Sora41.1

Sora——?jiǎng)潟r(shí)代文生視頻大模型

Sora將不同類型的視覺(jué)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,以便于對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練。

將可視數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)包(patchs),大語(yǔ)言模型通過(guò)token將各種形式的文本代碼、數(shù)學(xué)和自然語(yǔ)言統(tǒng)一起來(lái),而Sora則通過(guò)視覺(jué)包(patchs)實(shí)現(xiàn)了類似的效果。對(duì)于不同類型的視頻和圖像,包是一種高度可擴(kuò)展且有效的表示方式,對(duì)于訓(xùn)練生成模型具有重要意義。

從宏觀角度來(lái)看,首先將視頻壓縮到一個(gè)低維度的潛在空間:這是通過(guò)對(duì)視頻進(jìn)行時(shí)間和空間上的壓縮實(shí)現(xiàn)的。這個(gè)潛在空間可以看作是一個(gè)“時(shí)空包”的集合,從而將原始視頻轉(zhuǎn)化為這些包。OpenAI專門設(shè)計(jì)的解碼器模型,它可以將生成的潛在表示重新映射回像素空間資料:

Sora官網(wǎng),華西證券研究所51.1

Sora——?jiǎng)潟r(shí)代文生視頻大模型

視頻壓縮網(wǎng)絡(luò):Sora研究員專門訓(xùn)練了一個(gè)網(wǎng)絡(luò),專門負(fù)責(zé)降低視覺(jué)數(shù)據(jù)的維度。這個(gè)網(wǎng)絡(luò)接收原始視頻作為輸入,并輸出經(jīng)過(guò)壓縮的潛在表示。Sora模型就是在這個(gè)壓縮后的潛在空間中接受訓(xùn)練,并最終生成視頻。此外,研究員還設(shè)計(jì)了一個(gè)解碼器模型,它可以將生成的潛在表示重新映射回像素空間,從而生成可視的視頻或圖像。

時(shí)空包:當(dāng)給定一個(gè)壓縮后的輸入視頻時(shí),從中提取出一系列的時(shí)空包,這些包被用作轉(zhuǎn)換token。這一方案不僅適用于視頻,因?yàn)橐曨l本質(zhì)上就是由連續(xù)幀構(gòu)成的,所以圖像也可以看作是單幀的視頻。通過(guò)這種基于包的表示方式,Sora能夠跨越不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理階段,研究員只需在適當(dāng)大小的網(wǎng)格中安排隨機(jī)初始化的包,就可以控制生成視頻的大小和分辨率。Sora根據(jù)文字生成視頻資料:

Sora官網(wǎng),華西證券研究所61.1

Sora——?jiǎng)潟r(shí)代文生視頻大模型

用于視頻生成的縮放Transformers:Sora是一個(gè)擴(kuò)散模型,它接受輸入的噪聲包(以及如文本提示等條件性輸入信息),然后被訓(xùn)練去預(yù)測(cè)原始的“干凈”包。重要的是,Sora是一個(gè)基于擴(kuò)散的轉(zhuǎn)換器模型,這種模型已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)了顯著的擴(kuò)展性,包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)以及圖像生成等領(lǐng)域。擴(kuò)散轉(zhuǎn)換器在視頻生成領(lǐng)域同樣具有巨大的潛力,不同訓(xùn)練階段下,使用相同種子和輸入的視頻樣本對(duì)比,結(jié)果證明了隨著訓(xùn)練量的增加,樣本質(zhì)量有著明顯的提高。隨著訓(xùn)練量的增加,擴(kuò)散轉(zhuǎn)換器生成的樣本質(zhì)量有了明顯提高資料:

Sora官網(wǎng),華西證券研究所71.1

Sora——?jiǎng)潟r(shí)代文生視頻大模型

Sora依托Transformers架構(gòu)等技術(shù)手段,產(chǎn)品力全面碾壓Runway等文生視頻模型。

Sora是

將Latent

Diffusion

Model架構(gòu)

與Diffusion

Transformer

架構(gòu)

結(jié)合

,

但是

Runway

只用

了Latent

Diffusion

Model架

構(gòu)。由

于Transformer架構(gòu)強(qiáng)大的參數(shù)可拓展性,即隨著參數(shù)量的增加,Transformer

架構(gòu)的性能提升會(huì)更加明顯,DiT在LDM的基礎(chǔ)上,把模型從U-Net換成了Transformer,因而Sora比Runway具有更強(qiáng)大的性能。

憑借Transformer架構(gòu)可以隨意設(shè)置位置編碼,Sora可以接受任意分辨率和尺寸的素材,而Runway需要將素材裁剪至相同的大小。Sora引入GTP-4將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)字幕,然后發(fā)送到視頻模型,有助于Sora更好理解客戶需求;而Runway很難理解細(xì)微差別,堅(jiān)持提示中的特定描述而忽略其他描述。Sora依靠從頭訓(xùn)練了一套能直接壓縮視頻的自編碼器,Sora

的自編碼器不僅能在空間上壓縮圖像,還能在時(shí)間上壓縮視頻長(zhǎng)度,使時(shí)長(zhǎng)達(dá)到了一分鐘,而Runway時(shí)長(zhǎng)小于20秒。拼成“SORA”的逼真云的圖像主要視頻生成模型對(duì)比資料:

Sora官網(wǎng),36氪,澎湃新聞,同花順,華西證券研究所81.2

模型能力行業(yè)領(lǐng)先

Sora生成的視頻具有多樣化表現(xiàn)。

在原始視頻圖像數(shù)據(jù)直接訓(xùn)練:過(guò)去,圖像和視頻生成方法常常需要將視頻調(diào)整大小、裁剪或修剪至標(biāo)準(zhǔn)尺寸,如4秒、256x256分辨率的視頻。但Sora打破了這一常規(guī),它直接在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練,從而帶來(lái)了諸多優(yōu)勢(shì)。

采樣更靈活:Sora具備出色的采樣能力,無(wú)論是寬屏1920x1080p視頻、垂直1080x1920視頻,還是介于兩者之間的任何視頻尺寸,它都能輕松應(yīng)對(duì)。這意味著Sora可以為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。更令人驚嘆的是,即使在生成全分辨率內(nèi)容之前,Sora也能以較小的尺寸迅速創(chuàng)建內(nèi)容原型。而所有這一切,都得益于使用相同的模型。Sora可以為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容資料:

Sora官網(wǎng),華西證券研究所91.2模型能力行業(yè)領(lǐng)先

改進(jìn)構(gòu)圖與框架:實(shí)驗(yàn)結(jié)果顯示,在視頻的原始縱橫比上進(jìn)行訓(xùn)練,能夠顯著提升構(gòu)圖和框架的質(zhì)量。為了驗(yàn)證這一點(diǎn),將Sora與一個(gè)將所有訓(xùn)練視頻裁剪為方形的模型版本進(jìn)行了比較。結(jié)果發(fā)現(xiàn),在正方形裁剪上訓(xùn)練的模型有時(shí)會(huì)生成僅部分顯示主題的視頻。而Sora則能呈現(xiàn)出更加完美的幀,充分展現(xiàn)了其在視頻生成領(lǐng)域的卓越性能。將所有訓(xùn)練視頻裁剪為方形的模型相比(左),Sora能呈現(xiàn)出更加完美的幀資料:

Sora官網(wǎng),華西證券研究所101.2模型能力行業(yè)領(lǐng)先

Sora深化語(yǔ)言理解。

為了訓(xùn)練文本轉(zhuǎn)視頻生成系統(tǒng),需要大量帶有相應(yīng)文本字幕的視頻。為此,研究員借鑒了DALL·E3中的re-captioning技術(shù),并應(yīng)用于視頻領(lǐng)域。首先,研究員訓(xùn)練了一個(gè)高度描述性的轉(zhuǎn)譯員模型,然后使用它為訓(xùn)練集中的所有視頻生成文本轉(zhuǎn)譯。通過(guò)這種方式,研究員發(fā)現(xiàn)對(duì)高度描述性的視頻轉(zhuǎn)譯進(jìn)行訓(xùn)練,可以顯著提高文本保真度和視頻的整體質(zhì)量。與此同時(shí),與DALL·E3類似,研究員還利用GPT技術(shù)將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)轉(zhuǎn)譯,并將其發(fā)送到視頻模型。這一創(chuàng)新使得Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。Sora深化的語(yǔ)言理解能力111.2模型能力行業(yè)領(lǐng)先

Sora具有圖像和視頻的多樣化提示。它可以接受圖像或視頻等其他形式的輸入。這就讓Sora能夠完成一系列圖像和視頻編輯任務(wù),比如制作無(wú)縫循環(huán)視頻、給靜態(tài)圖片添加動(dòng)態(tài)、在時(shí)間線上擴(kuò)展視頻的長(zhǎng)度等等。

為DALL·E圖像賦予生命:Sora還能在提供圖像和提示作為輸入的情況下生成視頻。下面展示的示例視頻就是基于DALL·E

2和DALL·E

3的圖像生成的。這些示例不僅證明了Sora的強(qiáng)大功能,還展示了它在圖像和視頻編輯領(lǐng)域的無(wú)限潛力。一只戴著貝雷帽、穿著黑色高領(lǐng)毛衣的柴犬生成視頻資料:

Sora官網(wǎng),華西證券研究所121.2模型能力行業(yè)領(lǐng)先

視頻時(shí)間線的靈活擴(kuò)展:Sora不僅能生成視頻,還能將視頻沿時(shí)間線向前或向后擴(kuò)展。從同一個(gè)視頻片段開始,向時(shí)間線的過(guò)去延伸。盡管開頭各不相同,但最終都匯聚于同一個(gè)結(jié)尾。而通過(guò)這種方法,就能將視頻向兩個(gè)方向延伸,創(chuàng)造出一個(gè)無(wú)縫的循環(huán)視頻。Sora甚至可以創(chuàng)造出無(wú)限循環(huán)視頻資料:

Sora官網(wǎng),華西證券研究所131.2模型能力行業(yè)領(lǐng)先

視頻到視頻編輯:將一種名為SDEdit

32

的編輯基于文本提示的圖像和視頻的技術(shù)應(yīng)用于Sora,這項(xiàng)技術(shù)賦予了Sora轉(zhuǎn)換零拍攝輸入視頻風(fēng)格和環(huán)境的能力,為視頻編輯領(lǐng)域帶來(lái)了革命性的變革。

視頻的無(wú)縫連接:Sora還能在兩個(gè)截然不同的輸入視頻之間實(shí)現(xiàn)無(wú)縫過(guò)渡。通過(guò)逐漸插入技術(shù),我們能夠在具有完全不同主題和場(chǎng)景構(gòu)圖的視頻之間創(chuàng)建出流暢自然的過(guò)渡效果。Sora轉(zhuǎn)換零拍攝輸入視頻風(fēng)格和環(huán)境141.2模型能力行業(yè)領(lǐng)先

Sora具有圖片生成能力。

Sora的出色能力不止于數(shù)據(jù)處理和分析,它現(xiàn)在還能生成圖像。這一創(chuàng)新功能的實(shí)現(xiàn)得益于一種獨(dú)特的算法,該算法在一個(gè)精確的時(shí)間范圍內(nèi),巧妙地在空間網(wǎng)格中排列高斯噪聲補(bǔ)丁。

值得一提的是,Sora的圖像生成功能不僅限于特定大小的圖像。它可以根據(jù)用戶需求,生成可變大小的圖像,最高可達(dá)驚人的2048

×

2048分辨率。Sora生成的圖片資料:

Sora官網(wǎng),華西證券研究所151.2模型能力行業(yè)領(lǐng)先

Sora具有新的模擬能力。在大規(guī)模訓(xùn)練過(guò)程中,研究員發(fā)現(xiàn)視頻模型展現(xiàn)出了許多令人興奮的新能力。這些功能使得Sora能夠模擬現(xiàn)實(shí)世界中的人物、動(dòng)物和環(huán)境等某些方面。值得注意的是,這些屬性的出現(xiàn)并沒(méi)有依賴于任何明確的3D建模、物體識(shí)別等歸納偏差,而是純粹通過(guò)模型的尺度擴(kuò)展而自然涌現(xiàn)的。

3D一致性:Sora能夠生成帶有動(dòng)態(tài)攝像頭運(yùn)動(dòng)的視頻。隨著攝像頭的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中始終保持一致的運(yùn)動(dòng)規(guī)律。Sora的3D一致性:冬天的日本Sora的3D一致性:山間資料:

Sora官網(wǎng),華西證券研究所161.2模型能力行業(yè)領(lǐng)先

較長(zhǎng)視頻的連貫性和對(duì)象持久性:視頻生成領(lǐng)域面對(duì)的一個(gè)重要挑戰(zhàn)就是,在生成的較長(zhǎng)視頻中保持時(shí)空連貫性和一致性。Sora,雖然不總是,但經(jīng)常能夠有效地為短期和長(zhǎng)期物體間的依賴關(guān)系建模。例如,在生成的視頻中,人物、動(dòng)物和物體即使在被遮擋或離開畫面后,仍能被準(zhǔn)確地保存和呈現(xiàn)。同樣地,Sora能夠在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀的一致性。Sora制作出的窗臺(tái)上的斑點(diǎn)狗Sora制作出的街頭機(jī)器人資料:

Sora官網(wǎng),華西證券研究所171.2模型能力行業(yè)領(lǐng)先

與世界互動(dòng):Sora有時(shí)還能以簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為。例如,畫家可以在畫布上留下新的筆觸。隨著時(shí)間的推移,一個(gè)人吃漢堡時(shí)也能在上面留下咬痕。Sora制作出的畫家的筆觸Sora制作出的漢堡的咬痕資料:

Sora官網(wǎng),華西證券研究所181.2模型能力行業(yè)領(lǐng)先

模擬數(shù)字世界:Sora還能夠模擬人工過(guò)程,比如視頻游戲。它可以在高保真度渲染世界及其動(dòng)態(tài)的同時(shí),用基本策略控制《我的世界》中的玩家。這些功能都無(wú)需額外的訓(xùn)練數(shù)據(jù)或調(diào)整模型參數(shù),只需向Sora提示“我的世界”即可實(shí)現(xiàn)。這些新能力表明,視頻模型的持續(xù)擴(kuò)展為開發(fā)高性能的物理和數(shù)字世界模擬器提供了一條充滿希望的道路。通過(guò)模擬生活在這些世界中的物體、動(dòng)物和人等實(shí)體,我們可以更深入地理解現(xiàn)實(shí)世界的運(yùn)行規(guī)律,并開發(fā)出更加逼真、自然的視頻生成技術(shù)。Sora模擬“我的世界”資料:

Sora官網(wǎng),華西證券研究所191.3模型能力行業(yè)領(lǐng)先

Sora依舊有局限性,但未來(lái)可期。

盡管Sora在模擬能力方面已經(jīng)取得了顯著的進(jìn)展,但它目前仍然存在許多局限性。例如,它不能準(zhǔn)確地模擬許多基本相互作用的物理過(guò)程,如玻璃破碎等。此外,在某些交互場(chǎng)景中,比如吃東西時(shí),Sora并不能總是產(chǎn)生正確的對(duì)象狀態(tài)變化,包括在長(zhǎng)時(shí)間樣本中發(fā)展的不一致性或某些對(duì)象不受控的出現(xiàn)等。

我們相信隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,Sora所展現(xiàn)出的能力預(yù)示著視頻模型持續(xù)擴(kuò)展的巨大潛力。未來(lái),期待看到更加先進(jìn)的視頻生成技術(shù),能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界中的各種現(xiàn)象和行為,并為人們帶來(lái)更加逼真、自然的視覺(jué)體驗(yàn)。Sora依舊有局限性20多模態(tài)下游應(yīng)用百花齊放02212.1多模態(tài)+視頻創(chuàng)作:提升創(chuàng)作者效率

Lumiere

:Lumiere的核心功能之一是其支持文本到視頻和圖像到視頻的轉(zhuǎn)換能力。這得益于其采用的時(shí)空

U-Net

(STUNet)

架構(gòu),這一架構(gòu)的設(shè)計(jì)重點(diǎn)在于提高

AI

生成視頻中運(yùn)動(dòng)的真實(shí)感。Lumiere能夠在單個(gè)過(guò)程中生成完整的視頻序列,而非簡(jiǎn)單組合靜態(tài)幀。這種技術(shù)能夠同時(shí)處理視頻的空間(即視頻中的對(duì)象)和時(shí)間(即視頻中的運(yùn)動(dòng))方面,為用戶帶來(lái)更加自然和流暢的運(yùn)動(dòng)感知體驗(yàn)。

Bilibili:在生成式人工智能領(lǐng)域,大語(yǔ)言模型展現(xiàn)出不俗的實(shí)力,無(wú)論是撰寫文章、編寫代碼、還是開放式問(wèn)答,都展現(xiàn)出無(wú)限的潛力?;诖笳Z(yǔ)言模型強(qiáng)大的理解能力,通過(guò)將視頻字幕處理成格式化的文本,輸入給模型,讓它結(jié)合上下文語(yǔ)境,挑選出最精彩的部分。通過(guò)提示工程(Prompt

Engineering),大語(yǔ)言模型在視頻高能點(diǎn)的選取上也有很高的準(zhǔn)確度。嗶哩嗶哩還在積極探索相關(guān)技術(shù)在其他業(yè)務(wù)形態(tài)下的應(yīng)用場(chǎng)景,如:視頻章節(jié)拆分與直播帶貨大綱來(lái)提高創(chuàng)作者效率。Lumiere視頻設(shè)計(jì)Bilibili用戶提示微調(diào)(P-tuning)示意圖資料:

AI創(chuàng)業(yè)伙伴,

嗶哩嗶哩技術(shù),華西證券研究所222.2多模態(tài)+自動(dòng)駕駛:徹底改變?nèi)塑嚱换?/p>

LimSim++:

一個(gè)自動(dòng)駕駛中部署多模態(tài)LLMs的閉環(huán)平臺(tái)。LimSim++提供了一個(gè)包含道路拓?fù)洹?dòng)態(tài)交通流、導(dǎo)航、交通控制和其他基本信息的閉環(huán)系統(tǒng)。提示是(M)LLM支持的智體系統(tǒng)基礎(chǔ),它包含通過(guò)圖像或文本描述呈現(xiàn)的實(shí)時(shí)場(chǎng)景信息。LLM支持的智體系統(tǒng)具有信息處理、工具使用、策略制定和自我評(píng)估等功能。

V2VFormer++:首個(gè)多模態(tài)V2V框架。

對(duì)于每輛車,采用具有特定模態(tài)backbone的雙流網(wǎng)絡(luò)在

BEV

平面中進(jìn)行相機(jī)-LiDAR

特征提取(使用稀疏交叉注意

SCA

模塊進(jìn)行相機(jī)-視圖變換),并設(shè)計(jì)動(dòng)態(tài)通道融合(DCF)以實(shí)現(xiàn)精細(xì)

-

粒度像素點(diǎn)聚合。

給定多模態(tài)BEV圖,進(jìn)行數(shù)據(jù)壓縮和共享以生成一組在自車-坐標(biāo)處的特征圖Fcav。

隨后,提出了全局-局部transformer協(xié)同策略,用于相鄰

CAV

之間的通道語(yǔ)義探索和空間相關(guān)建模。

最后,將多車輛融合圖

Fjoint

輸入到預(yù)測(cè)頭中以進(jìn)行目標(biāo)分類和定位回歸。LimSim++的組件示意圖V2VFormer++架構(gòu)圖資料:

自動(dòng)駕駛之心,機(jī)器視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛,華西證券研究所232.2多模態(tài)+自動(dòng)駕駛:徹底改變?nèi)塑嚱换?/p>

商湯提出了DriveMLM模型,它和現(xiàn)有自動(dòng)駕駛系統(tǒng)行為規(guī)劃模塊中的決策狀態(tài)對(duì)齊,可實(shí)現(xiàn)閉環(huán)測(cè)試中操控車輛,超過(guò)之前的端到端和基于規(guī)則的自動(dòng)駕駛系統(tǒng)方法。

首先它將LLM的語(yǔ)言決策輸出,和成熟模塊化方案中規(guī)控部分的決策狀態(tài)對(duì)齊,由此LLM輸出的語(yǔ)言信號(hào)就可轉(zhuǎn)化為車輛控制信號(hào)。

其次,DriveMLM的MLLM

planner模塊,包含多模態(tài)分詞器(Multi-modal

tokenizer)和MLLM解碼器兩個(gè)部分。

前者負(fù)責(zé)將攝像頭、激光、用戶語(yǔ)言需求、交通規(guī)則等各種輸入轉(zhuǎn)化為統(tǒng)一的token

embedding;后者,即MLLM解碼器則基于這里生成的token,再生成圖片描述、駕駛決策和決策解釋等內(nèi)容。

在CARLA中廣泛使用的Town05Long基準(zhǔn)上,它的駕駛得分(Driving

Score)和路線完成度(Route

Completion)明顯比Apollo等非大模型方法都要高。DriveMLM框架和業(yè)內(nèi)的其他駕駛方法相比,DriveMLM實(shí)現(xiàn)了閉環(huán)測(cè)試的SOTA成績(jī)資料:

量子位,華西證券研究所242.3多模態(tài)+廣告(電商):創(chuàng)造多樣化營(yíng)銷賣點(diǎn)

利用AI技術(shù)進(jìn)一步提升數(shù)字人的多樣性,比如人臉替換、背景替換、口音語(yǔ)音替換去適配我們的prompt,最后腳本、數(shù)字人唇形替換、背景替換、人臉替換,視頻壓制之后,就可以得到一個(gè)口播視頻??蛻舻靡岳脭?shù)字人的方式去介紹產(chǎn)品對(duì)應(yīng)的一些營(yíng)銷賣點(diǎn)。這樣3分鐘即可做好一個(gè)數(shù)字人,極大地提升了廣告主做數(shù)字人的能力。

大模型還可以幫助商業(yè)實(shí)現(xiàn)營(yíng)銷海報(bào)的生成和商品背景的替換。通過(guò)大數(shù)據(jù)的訓(xùn)練之后,客戶還希望有一些特別個(gè)性化的東西,未來(lái)還需要加入一些微調(diào)的方式。復(fù)合模態(tài)的營(yíng)銷數(shù)字人視頻生成,

3分鐘創(chuàng)造

1個(gè)數(shù)字人營(yíng)銷海報(bào)圖生成,結(jié)合多模態(tài)表征的營(yíng)銷圖片生成資料:

DataFunTalk,華西證券研究所252.4多模態(tài)+教育:提升教學(xué)效率,加強(qiáng)人機(jī)互動(dòng)

教學(xué)資源自動(dòng)生成:在教學(xué)資源自動(dòng)生成方面,當(dāng)前通用領(lǐng)域的多模態(tài)大模型已展現(xiàn)出一定的能力。Stable

Diffusion等圖像生成模型,可以依據(jù)教學(xué)需求輸入主體及其細(xì)節(jié)的文本描述,快速自動(dòng)生成多種風(fēng)格、高清逼真、蘊(yùn)含美感的美育類教學(xué)資源,所生成的教學(xué)資源既具備顯著的跨模態(tài)性,又具有新穎性與獨(dú)特性。

人機(jī)協(xié)同過(guò)程支持:當(dāng)前通用領(lǐng)域的多模態(tài)大模型也已展現(xiàn)出良好的潛力。在知識(shí)問(wèn)答方面,百度提出的ERNIE大模型可以對(duì)領(lǐng)域?qū)嶓w知識(shí)與專業(yè)術(shù)語(yǔ)進(jìn)行知識(shí)增強(qiáng),并利用問(wèn)答匹配任務(wù)進(jìn)行模型訓(xùn)練,從而深入理解領(lǐng)域知識(shí)及其內(nèi)在聯(lián)系。

教師教學(xué)智能輔助:在利用大模型開展教師教學(xué)智能輔助方面,當(dāng)前工業(yè)界和學(xué)術(shù)界也已開始進(jìn)行積極的探索。好未來(lái)基于教師線上教學(xué)語(yǔ)音轉(zhuǎn)寫產(chǎn)生的約2000萬(wàn)條教育文本數(shù)據(jù),構(gòu)建了在線教學(xué)大模型TAL-EduBERT。教育領(lǐng)域大模型構(gòu)建及其多類型教育任務(wù)適配“多模態(tài)漢字學(xué)習(xí)系統(tǒng)”基本架構(gòu)資料:

電化教育研究,華西證券研究所262.5多模態(tài)+醫(yī)療:為臨床醫(yī)療任務(wù)提供更為智能、高效的解決方案

RadFM

具有巨大的臨床應(yīng)用意義:

支持三維數(shù)據(jù):在實(shí)際臨床環(huán)境中,CT

MRI

被廣泛使用,大多數(shù)疾病的診斷在很大程度上依賴于它們。RadFM

的模型設(shè)計(jì)能夠處理真實(shí)的臨床成像數(shù)據(jù)。

多圖像輸入:診斷通常需要輸入來(lái)自各種模態(tài)的多影像作為輸入,有時(shí)甚至需要?dú)v史放射圖像,因此支持多圖像輸入

RadFM

能夠很好的滿足此類臨床需求。

交錯(cuò)數(shù)據(jù)格式:在臨床實(shí)踐中,圖像分析通常需要了解患者的病史或背景。交錯(cuò)數(shù)據(jù)格式允許用戶自由輸入額外的圖像背景信息,確保模型能結(jié)合多源信息完成復(fù)雜的臨床決策任務(wù)。RadMD上模態(tài)、2D/3D、Anatomy分布展示RadFM模型架構(gòu)資料:

Sora官網(wǎng),華西證券研究所RadFM首先在大規(guī)模的數(shù)據(jù)集

MedMD上進(jìn)行

Pre-training然后在

RadMD上進(jìn)行領(lǐng)域適配。在模型架構(gòu)上,RadFM首次支持了

2D和

3D自由混合,文本和圖像自由混合的輸入形式。272.6多模態(tài)+安防:AI+安防加速演變

算法精確度和效果提升:例如,在視頻監(jiān)控場(chǎng)景中這些技術(shù)可以通過(guò)對(duì)圖像和聲音的分析,實(shí)現(xiàn)目標(biāo)行為識(shí)別和異常檢測(cè)等功能。

多模態(tài)算法融合應(yīng)用:在安防領(lǐng)域,多模態(tài)技術(shù)可以將圖像、語(yǔ)音和文本等數(shù)據(jù)進(jìn)行融合,從而實(shí)現(xiàn)更全面和準(zhǔn)確的情報(bào)分析和預(yù)警。

AI算法從邊緣智能向中心智能的傾斜:安防AI算法最開始是以中心智能算法處理為主,后來(lái)開始興起邊緣智能設(shè)備,把算法集成到終端;隨著大模型的推廣,中心智能的必要性將增加,AI的智能算法中心將起到新的核心作用。

算法自適應(yīng)學(xué)習(xí):在安防領(lǐng)域,這種技術(shù)可以通過(guò)對(duì)歷史數(shù)據(jù)的分析和學(xué)習(xí),實(shí)現(xiàn)對(duì)未知事件的快速響應(yīng)和處理。

智能決策支持:在安防領(lǐng)域,這種技術(shù)可以通過(guò)對(duì)事件的分類和預(yù)測(cè),實(shí)現(xiàn)智能化的決策支持和應(yīng)急響應(yīng)。

個(gè)性化服務(wù):在安防領(lǐng)域,這種技術(shù)可以為不同的客戶提供特定的安全方案和風(fēng)險(xiǎn)評(píng)估。AI與安防關(guān)系在安防行業(yè)應(yīng)用較多的兩類技術(shù)分別為識(shí)別技術(shù)和認(rèn)知技術(shù)資料:

Sora官網(wǎng),華西證券研究所28投資建議03293.

受益標(biāo)的PEPS代碼公司收盤價(jià)84.2015.0526.0927.664.9120.5715.154.4643.5517.5033.6552.799.59市值115.9589.88105.9343.59105.2928.708.612024E79.4415.4049.7035.7333.0412.7912.34-

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論