【量子位智庫】AI音樂應用產(chǎn)業(yè)報告_第1頁
【量子位智庫】AI音樂應用產(chǎn)業(yè)報告_第2頁
【量子位智庫】AI音樂應用產(chǎn)業(yè)報告_第3頁
【量子位智庫】AI音樂應用產(chǎn)業(yè)報告_第4頁
【量子位智庫】AI音樂應用產(chǎn)業(yè)報告_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

AI音樂應用產(chǎn)業(yè)報告2024.07量子位智庫QbitAI

Insights

分析師丁喬

dingqiao@02

產(chǎn)業(yè)篇01

技術(shù)篇04

產(chǎn)品案例目

錄03

展望篇核心結(jié)論u音樂符號模型打開AI音樂生成的大門,音頻模型找到AI落地音樂應用的方式u音頻路線成為研究熱點,為應用爆發(fā)奠定技術(shù)基礎u生成式AI改變音樂產(chǎn)業(yè),簡化音樂制作流程,提供音樂創(chuàng)作新思路u流媒體平臺或成為AI音樂商業(yè)化中最確定的一方,傳統(tǒng)的音樂工程在此輪變革中是受沖擊最大的一方u數(shù)據(jù)是技術(shù)迭代和商業(yè)化過程中最關(guān)鍵的一環(huán),生成音樂中對情感表達的把控是產(chǎn)品迭代的關(guān)鍵01技術(shù)篇?

谷歌Megenta項目音樂生成進入神經(jīng)網(wǎng)絡時代?

OpenAI發(fā)布JukeBox奠定了Transformer文生音樂

的基本架構(gòu);采用壓縮技術(shù)讓Jukebox能夠

處理更復雜的音樂,更好地理解音樂文本?

谷歌發(fā)布MusicLM2023年1月,谷歌發(fā)布MusicLM,搭

建在之前發(fā)布的語音模型AudioLM之

上?

Meta入局2023年6月,

Meta推出AudioCraft系列產(chǎn)品,包括負責生成音效的AudioGen,生成音樂的MusicGen以及一個全新的壓縮編碼方式Encodec?

Suno音樂生成領域的「集大成者」,實現(xiàn)AI生成完整歌曲;2024年3月發(fā)布V3模型?

Udio4月11

日,AI音樂生成工具

Udio完成測試,正式上線?

天工SkyMusic4月,昆侖萬維發(fā)布基于「天工

3.0」打造的「天工SkyMusic」

產(chǎn)品定義:AI音樂生成是指通過對大量音樂數(shù)據(jù)進行學習和分析,掌握音樂的基本規(guī)律和風格特征,從而創(chuàng)作出音樂片段或完整的音樂。發(fā)

展關(guān)

節(jié)

點AI音樂生成2023202420162020?

對生成的音樂作品進行評估,包括主觀評估

和客觀指標,如音樂理論的一致性和聽覺效

果的愉悅度;?

根據(jù)評估結(jié)果,模型會進一步的調(diào)整和優(yōu)化評估和優(yōu)化生成新的音樂訓練階段數(shù)據(jù)預處理數(shù)據(jù)收集特征提取生成不同類型的音樂?

包含人聲的完整歌曲?背景音樂……?

對收集到的音樂數(shù)據(jù)進行預處理,包括去噪、分割、

標準化等?

選擇合適的模型進行訓練?

模型通過不斷調(diào)整內(nèi)部參

數(shù)來最小化預測誤差?提取音樂數(shù)據(jù)里的特征,包括音高、音色、節(jié)奏、

動態(tài)變化等AI音樂生成的基本流程?音頻文件、MIDI序列、樂譜或其他音樂數(shù)據(jù)音樂符號模型打開AI音樂生成的大門,音頻模型找到AI落地音樂應用的方式符號模型的研究要早于音頻模型的研究,但符號模型生成的音樂在最終效果上存在明顯的機械、不自然特征,因此在應用側(cè)難以落地。而音頻路線在近兩年取得了突破性進展,生成的作品更加流暢自然。因此,這條路線成為目前業(yè)內(nèi)更受歡迎的一條路線。此外,音頻模型路線因其生成音樂的完整性更高,且能夠直接生成歌曲,對于用戶來說可以做到零門檻創(chuàng)作,在商業(yè)化上也更具潛力。?

原理直接用海量音頻數(shù)據(jù)訓練模型,使用深度神經(jīng)網(wǎng)絡和VAE或Transformer等方法,端到端直接生成音樂?

局限算力成本高昂;音頻生成的侵權(quán)風險相較于符號生成更大(后者學習樂理規(guī)則,前者直接模仿成品音樂)?

原理提取出音頻中的各類音樂信息,如歌詞、旋律、樂器等,并對這些信息進行標注,拆分成音樂的各個環(huán)節(jié)來生成詞、曲等?

局限生成的是音樂的不同部分而非成品音樂,需要通過傳統(tǒng)的音樂制作流程,將各部分融合起來,制作成音頻內(nèi)容?

可根據(jù)文本直接生成音頻?

樂譜生成,并且支持對已生成的

樂譜進行自動編輯操作?

案例:騰訊的「琴樂大模型」,同時支持文

本生成音樂,以及樂譜生成音頻+音樂符號協(xié)同生成音

型兩種技術(shù)路線音頻路線成為研究熱點,為應用爆發(fā)奠定技術(shù)基礎MusicLM在跨模態(tài)創(chuàng)作和個性化音樂生成上表現(xiàn)出色,而MusicGen則在音樂質(zhì)量和風格適應性方面具有優(yōu)勢。

MusicLM的出現(xiàn)標志著音樂生成技術(shù)向更高級別的藝術(shù)創(chuàng)作

和智能化方向發(fā)展,而MusicGen則代表了音樂生成技術(shù)在音樂制作和質(zhì)量方面的進一步提升。MusicGen同樣基于Transformer架構(gòu),但更側(cè)重于生成高質(zhì)量的音樂樣本。MusicGen能夠生成具有高度復雜性和多樣性的音樂作品,同時保持音

樂的結(jié)構(gòu)和風格一致性,生成的音樂聽起來更加自然。MusicLM是一個基于Transformer架構(gòu)的模型。MusicLM的一個顯著特點是能夠生成多音軌作品,生成的音樂更具藝術(shù)性

和個性化。結(jié)合了文本和音樂兩種模態(tài),能夠?qū)崿F(xiàn)跨模

態(tài)的創(chuàng)意表達模型能夠生成具有豐富和聲和旋律的音樂,接近專業(yè)音樂作品的水準通過文本描述,模型能夠更好地理解用戶的需求和創(chuàng)作意圖通過優(yōu)化模型結(jié)構(gòu)和訓練過程,

MusicGen能夠快速生成音樂,提高創(chuàng)作效率能夠?qū)W習和模仿各種音樂風格,從而生成符合特定風格的音樂作品模型能夠捕捉音樂序列中的長距離依賴關(guān)

系,生成連貫的音樂作品高效生成高質(zhì)量

音樂生成多模態(tài)能力風格適應性音頻模型的代表MetaMusicGen谷歌MusicLM長距離依

賴處理上下文理解02產(chǎn)業(yè)篇音樂制作流程簡化,提供創(chuàng)作新思路音樂產(chǎn)業(yè)的核心動力來自于創(chuàng)作部分,屬于音樂從0到1的階段;而音樂制作是音樂從1到100的過程,包含大量的音樂工程。音樂產(chǎn)業(yè)在進入工業(yè)化階段后,存在供過于求,創(chuàng)新力不足等問題。AI音樂生成的出現(xiàn),為音樂產(chǎn)業(yè)帶來新的創(chuàng)作思路,讓越來越多的人加入到音樂創(chuàng)作當中。此外,AI對于音樂產(chǎn)業(yè)的一大變革在于音樂流程的極大簡化。原先不同步驟的工序需要不同的人/團隊來完成。AI出現(xiàn)后,一個人可以完成所有工序。其中,生成式AI更多運用在創(chuàng)作部分,在制作和發(fā)行流程中,也會加入其他AI技術(shù)。本報告主要聚焦于生成式AI對音樂產(chǎn)業(yè)中部分環(huán)節(jié)的變革。由唱片公司代理,承包藝人的宣發(fā)工作藝人可以在流媒體平臺發(fā)布自己的專輯或單曲,平臺為用戶匹配適合的歌曲風

格,并提供個性化音樂推薦通過學習大量樂理知識來形成對音樂的理解,花費大量

時間來構(gòu)思和設計音樂結(jié)構(gòu)通過學習海量音樂數(shù)據(jù)來掌

握音樂的基本規(guī)律,并進行

創(chuàng)作音頻工程師、母帶工程師等對音樂進行處理作為自動化音頻處理工具,

保證音樂最終的質(zhì)量音樂制作?

錄音?剪輯?混聲?母帶處理?作詞?作曲?唱片發(fā)行音樂創(chuàng)作推廣發(fā)行AI改變音樂產(chǎn)業(yè)傳統(tǒng)方式AI編曲AI制作走向成熟,

AI創(chuàng)作處于發(fā)展上升期AI在音樂制作中的應用已經(jīng)相對成熟,在母帶處理、混音等工程含量較高的環(huán)節(jié)已經(jīng)的到很好的應用,如Landr通過AI進行母帶處理并由此形成穩(wěn)定的商業(yè)模式。然而,在音樂創(chuàng)作中,AI的應用處在早期階段。Suno屬于這個賽道上第一家出圈的公司。昆侖萬維、網(wǎng)易天音等是中國市場中的領先者。這份報告在產(chǎn)品側(cè)主要聚焦于生成式AI在音樂創(chuàng)作上的應用。選擇場景、心情、

環(huán)境等描述情感

/氛圍的關(guān)鍵詞,

或輸入創(chuàng)作靈感,

AI一鍵生成歌詞輸入提示詞生成音樂,

大致分為兩類:1)

一鍵生成完整音樂2)

一鍵生成完整音軌創(chuàng)作各種風格的

編曲,提供音樂

編排等建議根據(jù)用戶提供的參

數(shù)自動生成旋律、

和弦等在音樂創(chuàng)作中,AI不僅需要理解和模仿復雜的

音樂結(jié)構(gòu)、和聲、旋律、

節(jié)奏等元素,還需要讓

人聲和樂器完美結(jié)合根據(jù)創(chuàng)作者的要求,自動平衡軌道間的音量,調(diào)整均衡器設置自動檢測音樂特點,并自動應用適當?shù)哪笌幚硇Ч笌幚砘煲籼幚硪纛l信號處理音樂

創(chuàng)

作音樂

作AI音樂現(xiàn)狀自動去除音頻中的雜音、噪音,音頻壓縮等AI作曲AI作詞一鍵生成AI編曲注:未窮盡,重點展示關(guān)鍵工序/環(huán)節(jié)的AI應用無需音樂基礎需要音樂基礎具體體現(xiàn)AI音樂創(chuàng)作AI音樂制作SUNO

Ydiooo

j,a

udo

BGM貓Loudly?ai

masteringAI作詞AI作曲一鍵生成AI音樂產(chǎn)業(yè)圖譜音頻處理混音處理母帶處理本土產(chǎn)品產(chǎn)品是什么產(chǎn)品特點網(wǎng)易天音使用AI進行編曲、作詞或一鍵生成音樂支持一鍵生成、AI作曲/AI作詞天工SkyMusic一鍵生成音樂平臺作品的情感表達力豐富,人聲逼真海綿音樂字節(jié)跳動推出的免費AI音樂創(chuàng)作和分享

平臺音樂風格更符合國人喜好BGM貓靈動音推出的一鍵生成背景音樂產(chǎn)品音樂高能點可調(diào)節(jié)海外產(chǎn)品產(chǎn)品是什么產(chǎn)品特點Suno由AI驅(qū)動的音頻和音樂生成工具高品質(zhì)、多語言、完整性高的歌曲生成Udio由AI驅(qū)動的音樂創(chuàng)作和分享平臺在合成人聲中捕捉情感的能力StableAudioAI生成音樂平臺生成長度可調(diào)節(jié)CassetteAIAI驅(qū)動的音樂生成平臺一鍵生成完整音軌產(chǎn)品密集發(fā)布,初步實現(xiàn)「人人皆可創(chuàng)作」今年3月,Suno發(fā)布V3模型。用戶只需給出風格和主題詞,幾秒鐘便可以生成一首兩分鐘的原創(chuàng)歌曲。一個月后,另一款有相似功能的產(chǎn)品Udio也正式推向市場?!敢绘I生成」成為了AI音樂市場最熱的話題,中國市場中網(wǎng)易、昆侖萬維、騰訊等公司也推出了音樂生成產(chǎn)品。生成式AI在音樂領域,開啟了「人人皆可創(chuàng)作」的時代。產(chǎn)品的可觀表現(xiàn),也激發(fā)了資本對于生成式AI落地的信心。Suno在5月22日完成A輪1.25億美元融資,

Udio在4月正式上線之際也宣布完成1000萬美元的種子輪融資。Suno最新發(fā)布的V3.5,已經(jīng)能夠完成4分鐘的音樂創(chuàng)作,在歌曲的完整度和情感表現(xiàn)上,都較V3.0版本有所提升。在中文歌曲的呈現(xiàn)上,Suno等海外產(chǎn)品在人聲上會出現(xiàn)明顯的瑕疵(如聲音不夠穩(wěn)),而中國本土的音樂生成軟件不論是對中文歌的旋律、節(jié)奏等的把控,還是對歌詞的理解上,都有更好的表現(xiàn)力。也因此,本土產(chǎn)品在生成音樂的曲風上更加符合本土市場需求。一鍵生成類產(chǎn)品

一鍵生成類產(chǎn)品對音樂人群的作用專業(yè)人士的「降本增效」工具,愛好者的音樂入門產(chǎn)品對于非專業(yè)人士來說,AI生成音樂主要解決了缺乏樂理的難題。而對于專業(yè)人士來說,目前AI更多是在制作環(huán)節(jié)幫助音樂人更高效地完成工作。在產(chǎn)品提供的多種風格中進行選擇,只需要輸入合適的提示詞,就能夠生成音樂作品。即使用戶沒有樂理知識,只需對自己想要的音樂流派和風格有所了解,即可生成完整的音樂作品。音樂制作進入工業(yè)化階段后,在創(chuàng)新性上呈現(xiàn)乏力態(tài)勢,而生成式AI所帶來的不可預測性恰好為創(chuàng)作者提供了一個擺脫已有創(chuàng)作習慣的路徑,讓多樣化的音樂創(chuàng)作變得更有可能。相比于傳統(tǒng)的音樂制作流程,AI一鍵生成音樂的成本要低得多,并且在創(chuàng)作效率上也有大幅提高。對于專業(yè)的創(chuàng)作者來說,AI生成音樂盡管不會成為他們的最終作品,卻能夠生成全新的音樂結(jié)構(gòu),為創(chuàng)作者提供靈感的同時提升創(chuàng)作效率。?一鍵生成音樂作品提供多樣化的音樂表達?音樂制作的各個流程

都可以用AI來完成生成的音樂需要后期處理來提高其質(zhì)量,通過算法可自動優(yōu)化混音、母帶處理、聲音優(yōu)化等。這些工序往往涉及大量的重復性工作和對已有數(shù)據(jù)的處理,也可以由AI完成且成本更低。降低創(chuàng)作門檻音樂人無需掌握復雜的工程能力,也能高效完成自己的作品。提升創(chuàng)作效率提升制作效率AI非專業(yè)

用戶

專業(yè)

用戶

創(chuàng)意助理

?降低制作成本音頻工程師創(chuàng)意助理短劇市場將率先接受AI音樂成品,

電影市場中AI僅用于音樂生產(chǎn)的部分環(huán)節(jié)AI音樂在影視上的應用可大致分為兩個方向:電影配樂和短劇音樂。

電影配樂既是觀眾情緒的助推器,也是電影劇情的“提示詞”

,這意味著AI想要達到影視配樂的標準,需要對電影從整體和細節(jié)上都準確把握。目前,生成式AI類產(chǎn)品尚無法做到這點。在電影配樂環(huán)節(jié),生成式AI更多地是充當靈感激發(fā)和效率提升的作用,在創(chuàng)作環(huán)節(jié)還是由作曲家來把控。而在短劇領域,對于音樂的要求更簡單,更加注重音樂傳播度,音樂首先服務于傳播效果。因此,在音樂的選擇上也偏向于有記憶點,旋律簡單易于傳唱的類型。生成式AI已經(jīng)能夠很好地完成這種類型的音樂創(chuàng)作。正因為這樣的適配度,使得AI音樂率先落地在短劇領域。?

保持創(chuàng)作一致性電影配樂需要導演與作曲家在拍攝過程中保持充分溝通作曲家在拍攝過程中需要制作小樣(demo)給到導演。傳統(tǒng)的

方式是導演與作曲家溝通音樂訴求,由后者使用MIDI技術(shù)制作小

樣。由于MIDI制作需要耗費一定時間,因此難以快速呈現(xiàn)音樂與視覺同步后的效果。使用AI音樂工具,作曲家能夠根據(jù)導演訴求快速生成音樂小樣來做視聽同步測試,并及時調(diào)整,確保音樂跟電影在創(chuàng)作上的一致性。?

提升基礎工作的效率大型電影中的配樂通常涉及交響樂,由作曲家?guī)ьI團隊分工協(xié)作。AI音樂工具能夠完成一些基礎工作,如樂器的組合、和聲寫作。谷歌DeepMind研發(fā)的模型Lyria能夠?qū)⑤斎氲囊纛l轉(zhuǎn)化成不同風

格并加入伴奏,從而讓作曲家快速甄別出最適合演奏的樂器。?

供給端角度一部短劇的制作周期通常在幾周左右,意味著跟劇集相關(guān)的所有內(nèi)容都要在這個時間內(nèi)完成,包括音樂制作。此外,由于短劇通常以

小制作低成本的方式投入,可能沒有足夠的預算購買版權(quán)。因此,通過AI音樂平臺創(chuàng)作與劇情相匹配的歌曲也成為短劇的選擇。?市場需求側(cè)近兩年短劇市場呈井噴式增長,僅2023年前8月,全國備案拍攝的

微短劇有3574部。據(jù)機構(gòu)數(shù)據(jù)顯示,2023年國內(nèi)微短劇市場規(guī)模

373.9億元。短劇市場的繁榮,也將給AI音樂帶來更多市場空間。?

用戶需求側(cè)短劇的觀眾對于整體內(nèi)容水平的包容度更高,AI音樂已經(jīng)能夠達到

為短劇配樂的水平。應用場景-影視

短劇音樂電影配樂游戲主題曲角色定制歌曲多音軌音效難度逐漸增加單音軌音效AI音效制作較為成熟,配樂生成最先用在休閑類游戲音樂、音效、語言是游戲聲音設計中的三個基本元素。這份報告主要討論生成式AI對游戲中音樂和音效的影響。音效可簡單分為單音軌音效和多音軌音效,前者在生成上難度最低。在音樂生成上,主要有角色定制曲和游戲主題曲兩類,二者在音樂風格上有較大差異。游戲主題曲的商業(yè)價值和品牌影響力更高,其對音樂的要求更加嚴格,創(chuàng)作和制作過程也更加復雜,因此也是生成難度最高的。精品游戲中,配樂已經(jīng)成為穩(wěn)固世界觀、建立游戲與玩家之間紐帶的重要載體。游戲開發(fā)商會對配樂有非常高的要求,目前

AI尚且無法取代,僅局限于對創(chuàng)作者產(chǎn)生一定的靈感激發(fā)作用。

而對于休閑游戲,如消消樂這類低成本、輕敘事的游戲來說,對配樂沒有特別高的需求且更注重成本控制。在這個細分領域中,開發(fā)者通常會向商業(yè)曲庫購買音軌。有了AI音樂生成后,

游戲開發(fā)者可以通過更低廉的成本來完成配樂。音效合成通常是由調(diào)音師創(chuàng)作demo,時間長容易出現(xiàn)靈感枯竭的情況。通過AI生成音效,能夠為調(diào)音師提供不同

風格demo的形式,從而保持創(chuàng)作能力在線。AI音效生成目前在游戲領域已有一定應用,如OptimizerAI,

能夠根據(jù)提示詞生成適合多場景的音效。應用場景-游戲

音效生成配樂生成更具通用性,需要更復雜的音樂結(jié)構(gòu),以及

對游戲世界觀的理解和詮釋;通常會加入人

聲的部分,

在技術(shù)實現(xiàn)上最為復雜更加關(guān)注對角色特質(zhì)的捕捉和準確的音

樂表達,同時要與畫面和故事敘述相協(xié)

調(diào),需要考慮更多外部因素需要協(xié)調(diào)不同的聲音元素,確保最終效

果在節(jié)奏、音量、音色等方面保持一致,

從而增強玩家的沉浸感游戲中的音效多為單音軌音效,如一

陣風聲、

一聲槍響,

AI已經(jīng)能夠生成

非常逼真的流媒體平臺或成為商業(yè)化中最確定的一方,

傳統(tǒng)的音樂工程在此輪變革中是受沖擊最大的一方目前,AI生成音樂能夠觸達的是中低端音樂市場,也就是長尾部分。在這個市場中,平臺模式是最合適的商業(yè)化手段。這個階段,付費群體主要是C端用戶。個人創(chuàng)作者通過音樂生成軟件創(chuàng)作音樂,在網(wǎng)易云音樂、Spotify等平臺發(fā)布并收取版費。此外,生成式AI工具的出現(xiàn),為音樂產(chǎn)業(yè)帶來了新的生產(chǎn)工具,也因此為音樂產(chǎn)業(yè)帶來變化。首先,音樂生成軟件的出現(xiàn),將創(chuàng)作者的范圍進一步擴大。中低端音樂市場的競爭加劇,高端市場受到的沖擊較小。其次,音樂生成軟件極大便利了創(chuàng)作者的創(chuàng)作流程,處在中間環(huán)節(jié)的工程化部分的成本得到大幅下降,這部分的工作也將減少。最后,音樂生成軟件公司將會在軟件的基礎上,搭建音樂分享平臺,以此來保持網(wǎng)站的訪問量和使用量。

內(nèi)容生產(chǎn)方

相互影響支付費用內(nèi)容消費方支付費用生產(chǎn)工具AI音樂生成平臺用戶判斷?音樂喜好分析?

個性化需求分析版稅支付度上升AI音樂生成產(chǎn)品是一類新生產(chǎn)工具,能夠幫助創(chuàng)作者降

低創(chuàng)作成本,同時增加流媒體平臺的作品豐富度。此外,AI音樂生成產(chǎn)品如Suno為音樂市場帶來最大的變

化是將創(chuàng)作者擴大為大眾群體,實現(xiàn)人人皆可創(chuàng)作音樂。AI音樂生成平臺作為新生產(chǎn)工具應用聽眾選擇增加,并對

音樂進行鑒別并反饋創(chuàng)作門檻降低、生產(chǎn)成本減少創(chuàng)作者群

體擴大商業(yè)模式

音樂生成平臺和音樂發(fā)布平臺屬于兩個不同的平臺方。音樂生成平臺商通過會員制向創(chuàng)作者收取費用;創(chuàng)作者將生成好的音樂在流媒體平臺發(fā)布,可賺取版費。?

AI作詞/AI作曲?

AI一鍵生成音樂作品,

包含詞曲及MV?

AI后期編輯音樂發(fā)布平

臺內(nèi)容豐富樂發(fā)布平臺音?

為了捕捉到聲音的所有細節(jié),音頻通常以高采樣率進行錄制。高采樣

率導致音頻數(shù)據(jù)量巨大,增加超長序列建模難度。生成30s的音樂需要生成超過一百萬個采樣點,而在文生文大模型中,十萬個token的

上下文支持已經(jīng)屬于超長上下文的范疇?

音頻數(shù)據(jù)具有時間維度上的強關(guān)聯(lián),且難以用文字精準描述數(shù)據(jù)是技術(shù)迭代和商業(yè)化過程中最關(guān)鍵的一環(huán),情感把控是產(chǎn)品迭代的關(guān)鍵盡管音樂生成產(chǎn)品已經(jīng)有可觀的表現(xiàn),但仍然面臨各方挑戰(zhàn)。量子位智庫從技術(shù)、音樂屬性、商業(yè)三個層面對音樂生成類產(chǎn)品面臨的挑戰(zhàn)進行分析。音樂生成面臨的挑戰(zhàn)

?

生成的音樂不滿意只能重新生成。對于Suno這類一鍵生成音樂的產(chǎn)品來說,無法支持修改。而更專業(yè)的AI音樂生成工具,在操作性

上對非專業(yè)人士并不友好?

音樂是節(jié)奏、和聲、音色、歌詞的混合體,是一種綜合的復雜感覺,很難用文字精準描述,提示詞無法充分表達出創(chuàng)作者需要的情感/情緒技術(shù)層面商業(yè)層面音樂屬性層面?

人類的聽覺系統(tǒng)異常敏感,對細節(jié)要求很苛刻,一旦AI音樂作品中出現(xiàn)不和諧的音符或人聲,會影響整首歌的聽感?當有AI生成的音樂作品與現(xiàn)有作品相似時,難以界定AI的原創(chuàng)性以及作品的版權(quán)歸屬人類聽感精細化控制數(shù)據(jù)收集數(shù)據(jù)處理情感表達版權(quán)歸屬?高質(zhì)量音頻數(shù)據(jù)有限,導致生成音樂的品質(zhì)不穩(wěn)定03展望篇多模態(tài)音樂模型是未來音樂生成走向音樂高端市場的必要技術(shù)支撐。目前,音樂生成僅能夠滿足中低端音樂市場的部分需求,而這部分

市場通常是以量取勝。對于普通創(chuàng)作者來說,通過AI生成音樂賺錢往往是薄利多銷的手段。想要在高端市場中占有一定的份額,需要在生成音樂的質(zhì)量上做進一步提升。一方面,需要讓生成的音樂在局部修改后,還能夠保持整體的一致性。目前音樂生成的大部分產(chǎn)品不支持編輯功能,如果第一遍沒有達到效果,修改提示詞后生成的音樂同樣不可控。在B端場景中,如果客戶對生成作品有新的需求,無法在現(xiàn)有基礎上進

行更改,這也阻礙了音樂生成類產(chǎn)品在B端的發(fā)展。另一方面,音樂模型需要做到多模態(tài)理解,通過結(jié)合其他藝術(shù)形式,如文學(字)、視覺藝術(shù)等,進行多模態(tài)學習,從而更全面地理解

和表達情感。解決情感表達匱乏是音樂生成類產(chǎn)品商業(yè)化的關(guān)鍵,用戶增長依賴AI音樂的社交屬性目前,音樂生成產(chǎn)品在情感理解和表達上相對簡單,無法完成更高水準的音樂創(chuàng)作。一方面是當前的模型在情感的理解上有局限。未來,跨模態(tài)理解有望幫助AI模型更

好地理解人類情感。此外,AI音樂也將通過強社交屬性打開音樂市場,獲得更多受眾。AI音樂+社交的組合帶來“人人皆可創(chuàng)作”的效應,使其成為天然的社交高地。類比于短視頻時代的視頻創(chuàng)作,當創(chuàng)作門檻被拉低后,每個人都能夠成為創(chuàng)作者和分享者。創(chuàng)作平臺不僅承擔了發(fā)布渠道的功能,也衍生出分享和社交的功能。Suno創(chuàng)始人對于音樂生成的愿景是“讓音樂成為一種社交載體,所有人隨時隨地制作音樂并且分享出

來”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論