版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
電子行業(yè)分析研究一、ChatGPT浪潮之巔,AIGC大規(guī)模商業(yè)化時代來臨ChatGPT引爆AIGC奇點,日新月異百花齊放。ChatGPT是美國OpenAI公司于2022年11月30日發(fā)布的基于GPT-3.5大模型的聊天機器人程序,采用自然語言技術(shù),能完成撰寫郵件、代碼、翻譯等任務(wù),開啟“AI的iPhone時刻”。2023年1月末,ChatGPT的月活用戶突破1億,成為史上增長最快的消費者應(yīng)用。2月7日,谷歌發(fā)布對話型AI系統(tǒng)Bard迎戰(zhàn)ChatGPT。2月8日,微軟將ChatGPT接入Bing搜索。3月15日,OpenAI發(fā)布了GPT-4,支持多模態(tài)輸入。3月16日,微軟發(fā)布了植入GPT-4技術(shù)的Copilot,AI助力Office軟件生產(chǎn)力大提升。3月16日,百度發(fā)布了大模型文心一言,并啟動內(nèi)測。3月20日,阿里達摩院上線“文本生成視頻大模型”,目前僅支持英文輸入。2023年3月24日,OpenAI發(fā)布ChatGPTPlugin,支持第三方插件接入,并同時開源知識庫檢索插件源代碼,“AI的AppStore時刻”到來。3月27日,百度推出“文心千帆”大模型平臺,面向客戶提供企業(yè)級大語言模型服務(wù)。3月28日,騰訊AILab發(fā)布自研3D游戲場景自動生成解決方案,使用AIGC技術(shù)。ChatGPT引爆AIGC(生成式AI)奇點,AIGC技術(shù)賦能千行百業(yè),涌現(xiàn)了寫作助手、AI繪畫、對話機器人、數(shù)字人等爆款級應(yīng)用,支撐著傳媒、電商、娛樂、影視等領(lǐng)域的內(nèi)容需求。內(nèi)容生產(chǎn)進入AIGC時代,跨模態(tài)成為增長點。AIGC(AI-GeneratedContent,AI生成內(nèi)容),是指基于Diffusion模型(Diffusionmodel,擴散模型)、GAN模型(GenerativeAdversarialNets,生成式對抗網(wǎng)絡(luò))等人工智能技術(shù),通過已有數(shù)據(jù)尋找規(guī)律,并通過適當?shù)姆夯芰ι上嚓P(guān)內(nèi)容的技術(shù),既可以生成常見的圖像、文本、音頻等外顯性內(nèi)容,也可以生成策略、劇情、訓練數(shù)據(jù)等內(nèi)在邏輯內(nèi)容。內(nèi)容生產(chǎn)已經(jīng)從專業(yè)化的PGC到用戶生產(chǎn)的UGC,現(xiàn)在已經(jīng)進入AIGC時代。AIGC不僅意味著AI的角色開始從觀察、預(yù)測拓展為生成、決策,也意味著AIGC作為一種賦能技術(shù),借助其大模型的跨模態(tài)綜合能力和內(nèi)容生產(chǎn)力,將廣泛服務(wù)于各類終端行業(yè)。AIGC尚處于萌芽階段,有望成為未來關(guān)鍵技術(shù)推動力。AIGC從其數(shù)據(jù)中學習內(nèi)容或?qū)ο?,并運用數(shù)據(jù)生成全新、完全原創(chuàng)的實際工件,可用于多種活動,如創(chuàng)建軟件代碼、促進藥物研發(fā)和有針對性的營銷等。根據(jù)Gartner發(fā)布的《2022年新興技術(shù)成熟度》報告顯示,生成式AI仍處于技術(shù)萌芽期階段,離技術(shù)成熟還需要花費五到十年時間。在這一階段,生成式AI具有較大的發(fā)展?jié)摿Γ型蔀槲磥黻P(guān)鍵技術(shù)推動力。Gartner認為生成式人工智能為2022年重要戰(zhàn)略趨勢,是最引人注目和最強大的人工智能技術(shù)之一,到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%。技術(shù)場景細分多樣化,技術(shù)原理突破推動規(guī)?;瘧?yīng)用。AIGC應(yīng)用技術(shù)場景細分領(lǐng)域眾多,按照模態(tài)區(qū)分,可以分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態(tài)生成,多點開花。目前已經(jīng)有較為明確應(yīng)用的有結(jié)構(gòu)化文本寫作、輔助性文本寫作、作曲及編曲、圖像編輯、視頻屬性編輯等,非結(jié)構(gòu)化文本寫作、創(chuàng)意圖像及視頻生成、文本到圖像和視頻的跨模態(tài)生成預(yù)計會在未來1-2年內(nèi)實現(xiàn)規(guī)?;瘧?yīng)用。伴隨著有關(guān)底層技術(shù)原理的不斷突破和細化,AIGC將迎來快速發(fā)展和廣泛應(yīng)用。使用AIGC不僅可以實現(xiàn)降本增效,更能激發(fā)創(chuàng)意,提升內(nèi)容多樣性,降低制作成本。AIGC賦能千行百業(yè),未來需求樂觀可期。AIGC作為一種賦能型技術(shù),能在很多行業(yè)內(nèi)找到應(yīng)用場景的結(jié)合點。這臺“21世紀的珍妮紡紗機”基于其強大的內(nèi)容生產(chǎn)能力,將重塑幾乎所有行業(yè),帶領(lǐng)行業(yè)進入新時代。目前在繪畫、視頻制作、音樂、寫作、編程等眾多內(nèi)容生產(chǎn)行業(yè)中都有顯著的業(yè)務(wù)需求,在游戲、傳媒、電商、娛樂、教育、金融、醫(yī)療、藥研、工業(yè)等多個行業(yè)中都有望塑造更多應(yīng)用場景。1.AI+繪畫:以O(shè)penAI為代表的企業(yè)可以實現(xiàn)基于文字描述繪制出精美圖畫,渲染質(zhì)量和畫質(zhì)細節(jié)令人贊嘆。AI繪畫為用戶提供高自由度的表達途徑,彰顯了用戶的個性化需求,為其提供更強烈的沉浸感,使得繪畫藝術(shù)更加貼近大眾。2.AI+視頻制作:目前已經(jīng)可以利用AI將綠幕拍攝的真人動作視頻轉(zhuǎn)化為動畫風格,省去了復(fù)雜的動作捕捉和需要手繪調(diào)整的細節(jié),極大提高視頻制作效率。未來,視頻生成還將能夠完成人臉替換、人臉再現(xiàn)(人物表情或面部特征的改變)、人臉合成(構(gòu)建全新人物)甚至全身合成,虛擬環(huán)境合成等功能,值得期待。3.AI+音樂:主要有AI作曲和編曲兩個分支,AI作曲是以語言模型為中介,對音樂數(shù)據(jù)進行雙向轉(zhuǎn)化,提取節(jié)奏、音高、音長等信息,得到純音樂或主旋律;AI編曲是指利用AI生成不同樂器和弦,完成整體編配。目前已經(jīng)實現(xiàn)基于開頭旋律、音樂類型,圖片、文字描述、情緒類型等生成樂曲,提高了音樂的創(chuàng)作效率,豐富了音樂類型。4.AI+寫作:目前,AIGC已經(jīng)能較好應(yīng)對結(jié)構(gòu)化寫作,如客服類聊天問答、體育/金融新聞撰寫,NarrativeScience創(chuàng)始人預(yù)測,2030年時90%以上的新聞會由機器人問題。AI代替人進行文本寫作可以解放雙手,提高效率和正確性。5.AI+編程:使用ChatGPT4等工具可以用自然語言生成代碼、解決Bug,為程序員編碼大大降低了門檻,甚至一定程度上,還可以一鍵生成自己想要的代碼與網(wǎng)頁。6.AI+游戲:AIGC可以在其中扮演人工智能NPC,可以基于對話語義進行無限延展,并記住該對話,從而使被玩家改變的NPC在再次相遇時維持被改變的特性。長期來看,NPC的靈活自主將使其成為重要社交節(jié)點,有效擴充元宇宙內(nèi)部架構(gòu)。二、視覺:AIGC作為生產(chǎn)力工具賦能元宇宙,推動XR設(shè)備發(fā)展(一)AIGC賦能XR領(lǐng)域,驅(qū)動內(nèi)容端加速升級VR(VirtualReality,虛擬現(xiàn)實)是指利用VR設(shè)備模擬產(chǎn)生一個三維的虛擬空間,提供視覺、聽覺、觸覺等感官的模擬,讓使用者如同身臨其境。簡而言之,就是不依賴于使用者自身所處的環(huán)境,完全“無中生有”。AR(AugmentedReality,增強現(xiàn)實)是VR技術(shù)的延伸,能夠把計算機生成的虛擬信息(物體、圖片、視頻、聲音、系統(tǒng)提示信息等)疊加到使用者所在的真實場景中,并與人實現(xiàn)互動,但使用者能區(qū)分兩者區(qū)別。MR(MixedReality,混合現(xiàn)實)是VR向AR技術(shù)過渡的產(chǎn)物,將虛擬世界和真實世界合成一個無縫銜接的虛實融合世界,其中的物理實體和數(shù)字對象滿足真實的三維投影關(guān)系?;旌犀F(xiàn)實技術(shù)通過在現(xiàn)實環(huán)境中引入虛擬場景信息,在現(xiàn)實世界、虛擬世界和用戶之間搭起一個交互反饋的信息回路,以增強用戶體驗的真實感,具有真實性、實時互動性以及構(gòu)想性等特點。我們認為MR為元宇宙技術(shù)升級必經(jīng)路線,有望成為各科技巨頭積極布局的下一代技術(shù)。AIGC逐漸實現(xiàn)元宇宙的可擴展性潛力,低成本、高效率地滿足VR/AR用戶海量內(nèi)容需求。以AR/VR作為入口,元宇宙極大擴展了人類在虛擬世界的生存空間。但元宇宙中需要大量3D場景構(gòu)建,高保真3D模型單靠人工設(shè)計開發(fā)效率低、成本高。AIGC有望成為新的元宇宙內(nèi)容生成解決方案,利用AI方式生成3D場景將成為未來元宇宙滿足海量用戶不同需求的解決之道。具體而言,AIGC技術(shù)通過提供元宇宙環(huán)境生成的基礎(chǔ)設(shè)施、提供個性化內(nèi)容體驗和交互方式等,更好地滿足用戶需求。AIGC釋放開發(fā)人員生產(chǎn)力,為構(gòu)建沉浸式元宇宙空間環(huán)境提供核心基礎(chǔ)設(shè)施技術(shù)。元宇宙可以應(yīng)用在工作、會議、游戲以及生活社交等活動,因此需要在元宇宙空間中創(chuàng)建豐富的活動對象、建筑和活動環(huán)境。但是,在過去,為了構(gòu)建這些數(shù)字環(huán)境,需要開發(fā)團隊半手工地創(chuàng)建每一個部分,用鼠標拖動來放置。而現(xiàn)在AlGC通過實現(xiàn)創(chuàng)建逼真的3D虛擬空間環(huán)境、虛擬人物,并且效率和成本可以滿足大規(guī)模的元宇宙空間環(huán)境創(chuàng)建。例如在游戲場景中,未來游戲的劇情、角色、頭像、動作等數(shù)字原生基本元素都可以用AIGC進行生成,游戲世界地圖也能通過AIGC進一步延展,極大程度釋放開發(fā)人員生產(chǎn)力,用更少的時間編寫代碼,提升元宇宙建成速度。AIGC為元宇宙用戶提供個性化內(nèi)容體驗,吸引更多用戶進駐元宇宙。AIGC作為生產(chǎn)力工具,可以滿足和填充內(nèi)容匱乏的虛擬世界,同時賦予用戶更多的創(chuàng)作自由。例如,AIGC可以幫助用戶將手機拍攝的一系列照片生成可以使用的3D渲染圖,幫助用戶通過語音文字輸入來創(chuàng)建可修改的3D環(huán)境。采用這種創(chuàng)造內(nèi)容的方式,AIGC技術(shù)極大地提高元宇宙環(huán)境的創(chuàng)作自由,提升個性化體驗,未來的元宇宙體驗將不再完全由開發(fā)人員構(gòu)建,而是利用AIGC響應(yīng)用戶的輸入按需生成。AlGC在元宇宙用戶交互界面發(fā)揮作用。元宇宙中存在很多類似NPC的智能體為用戶提供交互服務(wù),這些智能體可以由AlGC生成并驅(qū)動。當用戶借助VR/AR設(shè)備進入虛擬空間時,ChatGPT可以作為語言模型集成到各種智能體中,充當元宇宙中的虛擬助手或伙伴,執(zhí)行“智能”動作和更為復(fù)雜的任務(wù)。2022年5月,Meta宣布“CAIRaoke計劃”,“CAIRaok計劃”所開發(fā)的模型,將允許用戶隨意地與購買的AI會話助手溝通,用戶可以向助手發(fā)出簡單的語音指令繼而創(chuàng)建所需的虛擬現(xiàn)實設(shè)置類型。XR市場規(guī)模年均復(fù)合增速為32.8%,AIGC應(yīng)用推動硬件端出貨量持續(xù)增長。根據(jù)IDC數(shù)據(jù),全球VR/AR市場規(guī)模將從2021年43.43億美元增長至2025年的361.12億美元,CAGR為69.8%。根據(jù)Omdia數(shù)據(jù),2023年近眼顯示面板出貨量有望達到2406萬臺,同比增長67.3%。隨著索尼PSVR2、蘋果MR、MetaQuest3、HTC新產(chǎn)品等主要產(chǎn)品的推出,以及AIGC未來在內(nèi)容端的持續(xù)賦能,XR產(chǎn)業(yè)有望迎來新一輪增長。(二)Pico背靠字節(jié)跳動,有望持續(xù)獲得AI技術(shù)加持字節(jié)跳動持續(xù)布局AI技術(shù),Pico作為主力終端產(chǎn)品有望充分受益。2021年P(guān)ico被字節(jié)跳動收購。作為國內(nèi)頂尖的互聯(lián)網(wǎng)企業(yè)之一,字節(jié)跳動2012年發(fā)布今日頭條,以人工智能推薦算法起家,AI底蘊深厚。2016年,字節(jié)跳動人工智能實驗室(AILab)成立,成立時聚集馬維英、李航、李磊等AI領(lǐng)域超級大牛,為平臺持續(xù)提供AI技術(shù)支持,研究領(lǐng)域涵蓋計算機視覺、自然語言處理、機器學習、語音音頻處理、數(shù)據(jù)知識挖掘、計算機圖像學等各個領(lǐng)域。此后在各個AI應(yīng)用領(lǐng)域,字節(jié)AI技術(shù)研發(fā)與應(yīng)用持續(xù)深化;2018年,字節(jié)跳動“端上智能計算機視覺算法平臺”項目獲得CCF科技進步卓越獎;2019年,字節(jié)推出頭條搜索使用機器學習根據(jù)用戶行為對搜索結(jié)果進行個性化設(shè)置、推出剪映利用人工智能賦能視頻剪輯自動化視頻編輯任務(wù)、收購AI游戲技術(shù)研發(fā)商深極智能,在搜索、視頻、游戲等不同方面深化人工智能算法應(yīng)用;2020年,字節(jié)推出重磅產(chǎn)品火山引擎,提供多個領(lǐng)域人工智能開發(fā)與運維等服務(wù),并推出切入AI教育硬件領(lǐng)域推出產(chǎn)品大力智能家教燈,通過AI攝像頭實現(xiàn)遠程作業(yè)輔導(dǎo);2021年,字節(jié)推出面向開發(fā)人員和企業(yè)的AI工具和服務(wù)BytePlus,并切入AI+醫(yī)療領(lǐng)域,旗下醫(yī)療品牌“小荷健康”研發(fā)了一款結(jié)腸鏡AI輔助診斷軟件,并與清華大學合作首次提出了神經(jīng)網(wǎng)絡(luò)配音器;2022年聯(lián)合南京大學、清華大學人工智能產(chǎn)業(yè)研究院提出AI藥物設(shè)計方法。在與VR相關(guān)的渲染技術(shù)、動作捕捉、圖像內(nèi)容生成等人工智能技術(shù)上,字節(jié)跳動具備強大技術(shù)積累,Pico作為字節(jié)跳動在VR/AR領(lǐng)域探索的主力產(chǎn)品,有望持續(xù)得到字節(jié)AI技術(shù)加持。Pico利用AI算法賦能虛擬場景生成,為內(nèi)容提供更強技術(shù)支持。2022年,Pico正式推出了官方MRC(MixedRealityCapture,混合現(xiàn)實錄制)。對比MetaQuest需要個人電腦以及綠幕背景,Pico利用深度學習摳圖模型,將人物從物理環(huán)境中摳出并且疊加到虛擬游戲空間中,配合無線投屏技術(shù)實現(xiàn)更低門檻、更高質(zhì)量的MR視頻制作。此外,在虛擬演出這一場景中,Pico也開發(fā)了針對VR場景的AI燈光變化系統(tǒng)、AI智能音頻分析系統(tǒng)等,在旗下VR音樂互動產(chǎn)品BIT-CLUB中運用,呈現(xiàn)超現(xiàn)實的VR電音現(xiàn)場,為用戶展現(xiàn)出更為極致的視覺體驗。Pico4新品全球發(fā)布,產(chǎn)品配置迭代升級。2022年9月22日,VR品牌Pico召開全球新品發(fā)布會,進軍歐美、日韓、東南亞市場,正式發(fā)布Pico4系列新品。2022年9月27日,VR品牌Pico于青島召開國內(nèi)新品發(fā)布會,公布新品國內(nèi)售價及開售渠道等相關(guān)信息,并且面向國內(nèi)推出的全新VR生態(tài)內(nèi)容。Pico4系列為Pico品牌旗下的全新一代VR一體機,在佩戴舒適度、視聽體驗,交互感知能力、內(nèi)容生態(tài)等方面帶來全面提升,為用戶呈現(xiàn)更為沉浸的VR使用體驗。本次共發(fā)布四種新品,其中,Pico4的8+128GB版售價2499元、8+256GB版售價2799元;Pico4Pro的8+512G版售價3799元,2022年12月開售;Pico體感追蹤器售價199元,2022年12月開售;Pico4定制近視鏡片售價為349元起。從硬件端來看,Pancake光學方案和彩色透視為Pico4主要亮點,Pico4Pro增加智能無級瞳距調(diào)節(jié)和面部追蹤功能。全新Pico4系列加速硬件端的迭代升級,其中,Pico4正面采用一體化的曲面鏡設(shè)計,頭顯最薄處只有35.8毫米,頭顯重量僅為295g。相比于上一代PicoNeo3,其體積減少43%、重量減少100克,單目2160×2160分辨率屏幕,綜合PPD達到20.6,相對于Neo3PPD19.6略有提升,F(xiàn)OV105度,支持電動瞳距(IPD)調(diào)節(jié);Pico4手柄采用寬頻線性馬達,提供更細膩觸感;Pico4Pro正面采用淺金色高亮曲面鏡,在Pico4配置基礎(chǔ)上增加三顆高動態(tài)傳感器,支持眼球追蹤、面部追蹤,實現(xiàn)智能無級瞳距調(diào)節(jié),并且可為Avatar模擬更豐富的面部表情。Pico4全系列相較之前產(chǎn)品增加彩色透視功能、IPD電動調(diào)節(jié)、手柄支持寬頻線性馬達、裸手交互等功能。其中,Pancake折疊光路方案替換此前的菲涅爾方案,當MTF值設(shè)定為0.6時,Pico4的光學清晰度比PicoNeo3提升接近86%;彩色透視功能基于一顆隱藏在黑色曲面鏡下1600萬像素的RGB攝像頭,通過算法進行3D環(huán)境建模,再疊加真實彩色畫面,實現(xiàn)虛擬世界與真實環(huán)境的無縫融合。從操作系統(tǒng)來看,Pico推出全新的PicoOS5.0操作系統(tǒng),重新定義所有的視覺元素和交互體驗。UI設(shè)計方面,風格輕松自然,全局導(dǎo)航設(shè)計使得用戶在任何VR應(yīng)用和場景中都可以輕松呼出個人中心、應(yīng)用列表、最近使用、設(shè)置界面等菜單,消息通知可全局生效。創(chuàng)新連接方面,全新的Avatar系統(tǒng)開放身材、發(fā)型、服裝等自定義選項,并提供豐富的素材庫,用戶可以按照自己的喜好定制專屬的虛擬形象。此外,Pico4推出MRC混合現(xiàn)實錄制功能,可以通過手機將真人和虛擬的畫面和場景自然融合,創(chuàng)作出MR視頻分享到其他平臺。從內(nèi)容端來看,Pico致力于為用戶打造國內(nèi)應(yīng)用最豐富、最優(yōu)質(zhì)的VR內(nèi)容平臺。運動健身方面,Pico推出集私教課程、節(jié)奏音游、瑜伽等運動于一身的健身大作《超燃一刻》、全新節(jié)奏音游《閃韻靈境》、VR搏擊應(yīng)用《萊美搏擊》、《多合一夏季運動VR》、《實況釣魚》等運動休閑類應(yīng)用,并與超級猩猩、帕梅拉合作打造專屬私教課程及塑形計劃。視頻方面,2022年P(guān)ico上線王晰、鄭鈞、汪峰等VR演唱會,首次實現(xiàn)8K、3D、多機位實時直播。影視方面,2022年上線科幻動畫大作《靈籠》、人文科教片《古籍尋游記》、自然探險片《跟著德爺闖東非》等。娛樂應(yīng)用方面,《劍與魔法》、《Espire1》、《Alvo》與Pico4同步上線,《戈恩》、《城市疊疊樂》等會在未來陸續(xù)上線。創(chuàng)作方面,Pico輕世界使用戶可以輕松創(chuàng)造出屬于自己的3D世界及專屬個人形象。(三)Meta在AI領(lǐng)域底蘊深厚,產(chǎn)品配置迭代升級Meta在AI領(lǐng)域研發(fā)底蘊深厚,具有世界級話語權(quán)。由于社交平臺在推薦算法、廣告、搜索排名、推薦以及用戶數(shù)據(jù)分析等方面的需要,Meta很早便開始布局人工智能技術(shù)。2013年4月成立人工智能研究機構(gòu)FAIR,F(xiàn)AIR主要成就包括發(fā)布開源機器學習框架PyTorch、自然語言處理模型PyText等等。同時,Meta在AI領(lǐng)域通過收購實現(xiàn)技術(shù)拓展。2016年Meta收購面部表情分析技術(shù)公司FacioMetrics以及聊天機器人開發(fā)工具的公司TugboatYards;2017年收購人工智能個人助理應(yīng)用Ozlo和神經(jīng)網(wǎng)絡(luò)初創(chuàng)公司Deeplearning.ai;2018年收購了開發(fā)用于理解和總結(jié)文本的自然語言處理技術(shù)英國初創(chuàng)公司BloomsburyAI:2019年收購開發(fā)大腦信號控制計算機技術(shù)的CTRLlabs、收購計算機視覺初創(chuàng)公司ScapeTechnologies;2020年收購利用人工智能和機器學習幫助企業(yè)管理客戶互動的公司Kustomer;2021年收購使用人工智能和機器學習創(chuàng)建交互式游戲體驗的公司Unit2Games、收購AI聲音識別公司AudioAnalytic。Meta在AI領(lǐng)域并購數(shù)量較多,持續(xù)在AI技術(shù)領(lǐng)域擴張,不斷汲取優(yōu)秀的技術(shù)人才。Meta持續(xù)探索AI技術(shù),布局AI+VR/AR全面覆蓋前沿功能。2021年末Meta將其AI團隊合并入負責開發(fā)AR/VR產(chǎn)品的RealityLabs部門,其AI研發(fā)團隊更加專注于元宇宙相關(guān)業(yè)務(wù)。Meta持續(xù)以AI算法賦能VR/AR設(shè)備,技術(shù)涵蓋平臺、芯片、圖像生成、圖像渲染、眼動追蹤、動作捕捉、視聽覺結(jié)合、虛擬背景處理、真實世界數(shù)據(jù)模擬、虛擬圖像生成等方面,全方位助力MetaQuest體驗不斷提升。MCC+MAV3D+BuliderBot,Meta加速實現(xiàn)虛擬現(xiàn)實“Chatgpt”。Meta的研究團隊結(jié)合視頻和3D生成模型的優(yōu)點,先后提出2D圖像轉(zhuǎn)換為3D模型的方法MCC與文本到4D(3D+時間)生成系統(tǒng)MAV3D(Make-A-Video3D)。MCC為多視圖壓縮編碼技術(shù),作為基于變壓器的編碼器-解碼器模型,可以從單個RGB-D圖像重建3D對象。MAV3D基于AIGC理念,是第一個基于文本描述產(chǎn)生3D動態(tài)場景的方法,可以為電玩游戲、視覺效果或AR/VR產(chǎn)生動畫3D資產(chǎn)。利用MCC技術(shù)和MAV3D技術(shù),Meta有望加速在VR設(shè)備中實現(xiàn)AIGC,提供個性化內(nèi)容體驗,并在虛擬環(huán)境中提供文本/語音信息的交互功能。進一步地,Meta正在測試AI驅(qū)動的BuilderBot程序,幫助用戶通過語音命令,在虛擬環(huán)境中讓AI一步步創(chuàng)建3D景觀,從而個性化地建造VR世界。QuestPro產(chǎn)品性能升級顯著,較Quest2性能和價格均提升。2022年10月12日,Meta在Connect大會中正式發(fā)布高端設(shè)備系列的第一款產(chǎn)品QuestPro,并于2022年10月25日以1499.99美金的價格發(fā)售,包括QuestPro頭顯、TouchPro控制器、觸控筆、部分擋光器和充電座。QuestPro較Quest2性能和價格均提升,定位更高端。采用Pancake光學模組取代菲涅爾透鏡,輕薄度、清晰度等均較Quest2有所提升。QuestPro的全新光學堆棧用Pancake光學模組取代了Quest2中的菲涅爾透鏡,將產(chǎn)品體積縮小了40%以上,同時使透鏡中心視圖的全局視覺清晰度提升了25%、外圍區(qū)域清晰度提升了50%。搭載兩塊使用MiniLED背光技術(shù)的2.48英寸高端LCD屏幕,單眼顯示分辨率達1820*1920px,每英寸像素數(shù)比上代產(chǎn)品Quest2提升了37%,每度像素數(shù)多10%,并提供1.3倍更大色域,畫面更為精細。MiniLED具有局部調(diào)光能力,使用專門的背光組建和相應(yīng)的軟件算法,獨立控制多達500個單獨LED區(qū)域,將顯示器對比度提升75%。視場角從Quest2的水平96度垂直96度提升至水平106度垂直96度,采用開放外圍視圖,令頭顯模式更自然。采用手動線性瞳距調(diào)節(jié),設(shè)置眼動追蹤傳感器。相比于Quest2采用固定三擋瞳距調(diào)節(jié)(58mm、63mm、68mm),QuestPro采用線性調(diào)節(jié)機構(gòu),通過滑軌和行星齒輪實現(xiàn)精確的雙目同步調(diào)節(jié)瞳距,調(diào)節(jié)范圍為55-75mm。同時配備眼動追蹤傳感器,頭顯可以自動測量用戶瞳距,便于用戶正確放置透鏡。QuestPro搭載全新第一代高通驍龍XR2+平臺,帶來更佳散熱表現(xiàn)和顯著性能保證,實現(xiàn)50%的續(xù)航提升和30%的散熱性能提升。相比XR2,XR2+提供兩倍的RAM(12GB)和更好的散熱解決方案支持,能夠以更高的速度運行而不過熱。驍龍XR2+平臺還引入了全新圖像處理管線,能夠?qū)崿F(xiàn)低于10毫秒的時延,可以支持更即時的VST體驗。該平臺支持并行感知技術(shù),包括頭部、手勢和手柄追蹤、3D重建以及低時延視頻透視,為更逼真的虛擬人物賦予細致入微的面部表情,為開啟卓越的全彩視頻透視MR體驗提供支持。除此之外,硬件端在手柄、承重、續(xù)航、面殼、聲學系統(tǒng)等方面還有提升。手柄方面,每個手柄都單獨內(nèi)置三個傳感器,采用攝像頭跟蹤,手柄不再受頭顯攝像頭限制,在任何位置都可以實現(xiàn)全方位360度跟蹤。承重方面,QuestPro產(chǎn)品重722克,相比503克的Quest2有所增加。QuestPro采用設(shè)計前端護額、將電池后置、增加承力拖與后枕等方式,對產(chǎn)品負重進行了分化,中移重心,進一步提高了佩戴舒適性;續(xù)航方面,QuestPro的續(xù)航時間只有1-2小時,相比續(xù)航時長為2-3小時的Quest2有所下降。QuestPro首次使用內(nèi)置充電底座,保證用戶可以在非使用時間保持頭顯充電;面殼方面,QuestPro面殼采用PC材料透明注塑工藝,面殼外延四周為格柵式設(shè)計,使得整個面殼和中框之間均分布有散熱孔,配合兩個散熱風扇,整體散熱效果較Quest2有較大提升。聲學系統(tǒng)方面,QuestPro音頻模組采用雙方形腔體喇叭設(shè)計,與Quest2相比,可以提供較沉的低音,頭顯噪音比Quest2減少10dB。(四)蘋果MR頭顯發(fā)布在即,產(chǎn)業(yè)鏈迎來成長機遇蘋果公司全方位應(yīng)用AI技術(shù),并購增強技術(shù)能力。蘋果公司在手機、家居、AR等多個板塊均應(yīng)用人工智能技術(shù)提供智能化用戶體驗。包括手機端上AI語音助手Siri幫助用戶完成語音控制、信息查詢和智能推薦等任務(wù)、智能家居產(chǎn)品HomeKit應(yīng)用了人工智能技術(shù)實現(xiàn)了家庭設(shè)備的互聯(lián)互通和智能控制、AR方面增強現(xiàn)實技術(shù)平臺ARKit,通過機器學習和計算機視覺技術(shù)實現(xiàn)了高質(zhì)量的增強現(xiàn)實體驗等。蘋果通過收購初創(chuàng)企業(yè)持續(xù)擴張AI技術(shù)能力,特別在面部識別、表情分析、動作捕捉處理、圖像視覺等涉及AI+MR應(yīng)用領(lǐng)域方面,利用并購持續(xù)增強技術(shù)能力。2010年,蘋果收購瑞典面部識別技術(shù)公司PolarRose,布局面部識別相關(guān)技術(shù)。2013年,蘋果收購PrimeSense公司,從布局實時3D運動捕捉相關(guān)技術(shù)。2015年,蘋果收購專門從事面部動畫和動作捕捉的Faceshift。2016年,蘋果收購研發(fā)面部表情分析工具的Emotient,該公司通過人工智能及機器學習技術(shù)來分析人類表情;2017年,蘋果收購從事面部識別技術(shù)的網(wǎng)絡(luò)安全和機器學習公司RealFace,該技術(shù)有可能用于未來的增強現(xiàn)實功能。2018年,蘋果收購瑞士公司Flashwell,從事AI圖像視覺研發(fā)。蘋果自2015年以來,已收購多家初創(chuàng)企業(yè),持續(xù)在AI領(lǐng)域擴張,不斷汲取優(yōu)秀的技術(shù)人才。AIGC技術(shù)疊加Siri語音助手,有望助力蘋果在頭顯中實現(xiàn)虛擬世界的ChatGPT。2022年蘋果首次展示了GAUDIAI用于沉浸式3D場景生成的神經(jīng)網(wǎng)絡(luò)AI系統(tǒng),可以根據(jù)文本提示創(chuàng)建3D場景,實現(xiàn)3D場景的AIGC。GAUDI模型通過三個專門的解碼器實現(xiàn)3D場景的AIGC:相機姿態(tài)解碼器對相機可能位置進行預(yù)測,并確保3D場景輸出的位置有效架構(gòu)的有效位置;場景解碼器負責形成3D的畫布來展示物體;輻射場解碼器負責渲染繪制后續(xù)圖像。憑借GAUDIAI系統(tǒng),蘋果正在為渲染3D對象和場景的生成式人工智能系統(tǒng)奠定基礎(chǔ),這一系統(tǒng)可能應(yīng)用于蘋果的XR頭顯中,實現(xiàn)3D內(nèi)容生成。進一步地,GAUDI模型有望與Siri結(jié)合實現(xiàn)低門檻的3D場景生成功能,據(jù)TheInformation報道,蘋果MR頭顯對話式系統(tǒng)與MetaBuilderBot類似,幫助用戶利用Siri語音助手,通過與Siri語音交互對虛擬動物設(shè)計、場景移動方式等描述以實現(xiàn)三維場景創(chuàng)建,此外系統(tǒng)還可以計算出物理空間中的障礙物,并為虛擬動物附加自然的物理交互。GAUDI與Siri的結(jié)合,有望幫助蘋果頭顯中實現(xiàn)虛擬世界的ChatGPT。蘋果MR頭顯產(chǎn)品發(fā)布在即,具備四大核心亮點。預(yù)計蘋果公司首次推出的MR設(shè)備將以專業(yè)人士和開發(fā)者為主要用戶,服務(wù)于高端市場。根據(jù)Metaverse元宇宙,蘋果MR頭顯具備四大亮點,包括一鍵切換VR/AR模式,可以使產(chǎn)品更好地與現(xiàn)實世界直接結(jié)合,為MR內(nèi)容交互提供更多的空間;眼動追蹤及手部追蹤功能,能夠更好地提升用戶體驗,突破交互方式;視頻會議功能,能在虛擬世界中逼真地渲染用戶的面部和全身,增強體驗感;外接生產(chǎn)力工具方面,蘋果MR頭顯能夠作為連接Mac的外部顯示器,并且用戶還能在戴上頭顯之后,使用觸控板或者鼠標、物理按鍵控制設(shè)備。根據(jù)蘋果官網(wǎng),年度全球開發(fā)者大會(WWDC)定檔于北京時間2023年6月6日至10日,旨在展示iOS、iPadOS、macOS、watchOS和tvOS的前沿創(chuàng)新。蘋果MR頭顯配置參數(shù)領(lǐng)先,有望成為新一代標志性產(chǎn)品。根據(jù)VR陀螺援引硅谷媒體TheInformation關(guān)于MR產(chǎn)品的報道:硬件方面,電池外置,通過磁性電源線與頭顯的頭帶連接,用戶可以自行更換電池以獲得更好的續(xù)航表現(xiàn);機身材質(zhì)為鋁、玻璃和碳纖維,可減小設(shè)備的尺寸和重量,出于審美原因考慮,頭顯的相機模塊很大程度上都被隱藏了;頭顯右側(cè)設(shè)有小表盤,可通過表盤實現(xiàn)虛擬世界和現(xiàn)實世界的快速切換;擁有面向消費者和開發(fā)者的不同材質(zhì)頭帶;采用MicroOLED屏幕,單眼分辨率達4K;每只眼睛都至少被一顆攝像頭追蹤,使Avatar能更好展現(xiàn)用戶真實表情。眼動追蹤功能還可用于實現(xiàn)注視點渲染,即僅對用戶注視區(qū)域進行全分辨率圖像渲染以節(jié)省電量;頭顯內(nèi)置10余顆攝像頭和傳感器,用于完成捕捉外部環(huán)境、面部表情、身體動作等,同時完成VST透視,定位等一系列工作;頭顯也將配備LiDAR掃描儀,用于對周圍環(huán)境進行掃描,描繪三維空間中周圍物體的表面細節(jié)與距離。MR頭顯不設(shè)3.5mm耳機接口,內(nèi)置H2芯片,可與第二代AirPodsPro和未來的AirPods耳機進行超低延遲連接;前設(shè)外向屏幕;可定制磁吸式屈光度調(diào)節(jié)鏡片并支持自動瞳距調(diào)節(jié);FOV為120°,超過MetaQuestPro的106°;內(nèi)置兩顆芯片,包括一顆主SOC(包括CPU、GPU和內(nèi)存),以及一顆專用的圖像信號處理器,兩者均采用5nm工藝打造;專用的ISP,將外部攝像頭捕捉到的扭曲圖像轉(zhuǎn)化為穩(wěn)定的視頻圖像,并具有低延遲性。主攻教育、健康、游戲、視聽四大應(yīng)用場景,AppleTV+團隊或成內(nèi)容研發(fā)主力。蘋果圍繞健康、教育、游戲、視聽四大場景對其MR內(nèi)容有所布局,例如開發(fā)有助于冥想和鍛煉的AR應(yīng)用程序,讓用戶在看書的過程中體驗到奇幻的環(huán)境與現(xiàn)實世界融為一體的感受,讓用戶處于沙漠或者太空場景中觀看視頻,創(chuàng)建底層引擎為MR游戲提供支持。根據(jù)Metaverse元宇宙,蘋果的內(nèi)容團隊由一個代號為Z50的團隊研發(fā),規(guī)模約為幾十人,該團隊成員多數(shù)都是來自視頻、游戲等領(lǐng)域,其主要任務(wù)為根據(jù)自身過去的流媒體服務(wù)AppleTV+中的經(jīng)驗,為MR頭顯打造內(nèi)容。彭博社記者MarkGurman報道,蘋果正在將自家常用的FaceTime、筆記等軟件移植到頭顯當中,另外它也可以充當Mac設(shè)備的“第二屏”。蘋果MR頭顯為光學產(chǎn)業(yè)下一代關(guān)鍵成長驅(qū)動,產(chǎn)業(yè)鏈相關(guān)公司有望持續(xù)受益。從蘋果MR頭顯設(shè)備結(jié)構(gòu)來看,該設(shè)備包含攝像頭模組、鏡頭、檢測設(shè)備、透鏡模組、PCB&FPC、視覺調(diào)焦模組、芯片、揚聲器、頭盔結(jié)構(gòu)件等多個零部件。蘋果MR產(chǎn)業(yè)鏈廠商將共同助力蘋果MR產(chǎn)品的生產(chǎn)組裝環(huán)節(jié),蘋果MR頭顯硬件參數(shù)的持續(xù)提升以及應(yīng)用場景的持續(xù)豐富有望帶動整個產(chǎn)業(yè)鏈加速擴展。三、聽覺:AIGC開啟聽覺盛宴,打開硬件成長空間(一)AIGC賦能音頻內(nèi)容,從語音生成到AI作曲應(yīng)用廣泛AIGC通過提取信息生成音頻,TTS領(lǐng)域應(yīng)用較為成熟。TTS即Text-to-speech,主要是基于AI的自然語言處理+語音合成技術(shù)把文字轉(zhuǎn)化為自然語音。TTS應(yīng)用較為成熟,國內(nèi)外眾多互聯(lián)網(wǎng)巨頭旗下產(chǎn)品均提供智能語音合成服務(wù),例如GoogleText-toSpeech、AmazonPolly、IBMWatsonText-to-Speech、喜馬拉雅、字節(jié)跳動剪映等等,廣泛應(yīng)用于客服、有聲讀物制作、語音播報、視頻配音等領(lǐng)域。TTS技術(shù)的突破點在于不斷結(jié)合文本信息,通過語音語調(diào)、語音情感等提升對文本的表現(xiàn)力,以及提升基于用戶的個性化能力,AI模型能力不斷提升使得TTS技術(shù)取得長足進步。此外,語音克隆本質(zhì)上是一種模仿目標聲音音色、語調(diào)、語音習慣的TTS,契合聲音IP化的潮流,目前也正在配音、虛擬人、地圖導(dǎo)航語音等方面得到廣泛應(yīng)用,例如喜馬拉雅運用TTS技術(shù)重現(xiàn)單田芳聲音版《毛氏三兄弟》;標貝科技旗下恐龍貝克APP采用AI語音合成技術(shù),通過為孩子復(fù)刻父母親聲音;與奧飛娛樂合作將超級飛俠樂迪/小愛的聲音定制成TTS聲音等等,極大程度豐富用戶體驗。AIGC簡化作曲編曲過程,主流平臺應(yīng)用成趨勢。隨著計算機技術(shù)的發(fā)展,在音樂創(chuàng)作領(lǐng)域,AI的應(yīng)用已經(jīng)逐漸成熟。AI能以語言模型作為中介,將語音描述的特性信息轉(zhuǎn)化為音樂數(shù)據(jù);也可以基于主旋律和用戶偏好生成不同類型的和弦以及模擬不同的樂器聲音,幫助創(chuàng)作者完成編曲。2017年,AmperMusic幫助美國歌手TarynSouthern完成了歷史上第一部由AI作曲的專輯《IAMAI》,作者將主打單曲《BreakFree》的一段旋律放入了AI音樂合成器AmperMusic中,利用程序自動添加和弦,生成副歌。2019AmperMusic于年推出首個人工智能作曲平臺AmperScoreTM,幫助使用者創(chuàng)作定制音樂,幫助視頻編輯者選擇音樂和編輯音樂的時間。目前,自動編曲功能已在國內(nèi)主流音樂平臺上線,QQ音樂成為Ampermusic的API合作伙伴,騰訊AILab推出AI虛擬偶像“艾靈”,結(jié)合用戶提供的關(guān)鍵詞生成歌詞并演唱;2022年1月網(wǎng)易推出首個人工智能音樂創(chuàng)作平臺網(wǎng)易天音;華為HMSCore音頻編輯服務(wù)與唱鴨音樂社區(qū)軟件基于華為獨創(chuàng)的AISinger模型,推出“AI創(chuàng)作歌姬”功能,用戶只需輸入歌詞、選擇喜歡的音樂風格,就會自動生成動聽的歌曲。(二)智能音箱著重交互與智能控制,AI推動各品牌產(chǎn)品創(chuàng)新升級智能音箱是家庭場景交互中心與IoT控制中心,智能化需求明確。智能音箱基于自然語言處理以及物聯(lián)網(wǎng)技術(shù),關(guān)鍵特性包括語音交互、內(nèi)容分享及智能家居控制。智能音箱應(yīng)用場景不斷增加,從最初的語音控制的音樂播放器,發(fā)展到家庭場景中僅有的人機交互電器之一,并在人工智能語音控制技術(shù)加持下進一步與其他智能家居互聯(lián),逐步成為智能家居設(shè)備控制中心。在交互中心層面,目前各品牌智能音箱已經(jīng)滿足基本交互需求,尤其是在講故事、家庭教育、播放音樂、簡單問答等方面具備較強能力,例如百度旗下的小度智能音箱內(nèi)置較為強大的家教功能,通過智能問答、智能日程設(shè)計、家教資源內(nèi)容輸出等方式參與家庭教育環(huán)節(jié)。在控制中心層面,目前主流智能音箱已經(jīng)能透過物聯(lián)網(wǎng)功能對家庭電器進行控制,例如天貓精靈能夠控制家庭情景中空調(diào)、燈光等各類電器,完成開關(guān)、調(diào)檔等功能。AI技術(shù)持續(xù)加持各品牌智能音箱交互與控制性能,提升用戶體驗。小度、天貓精靈、小愛同學等國內(nèi)主流智能音箱廠商持續(xù)在連續(xù)對話、眼神/童臉/手勢控制、全雙工免喚醒、DLNA投屏等方面運用AI黑科技持續(xù)拓展交互能力。語音交互上,智能音箱語音云端操作系統(tǒng)已經(jīng)較為成熟,例如科大訊飛旗下iFLYOS平臺能幫助智能音箱廠商自選喚醒詞、發(fā)音人、系統(tǒng)畫像等進行場景定制的語音交互引擎開發(fā),應(yīng)用在中興智能音箱等設(shè)備上;2020年小度智能音箱搭載了百度首款專門針對遠場語音交互研發(fā)的鴻鵠芯片,實現(xiàn)更高水平的語音交互??刂品绞缴?,以小度智能音箱為例,小度于2018年6月首次發(fā)布連續(xù)對話技術(shù),實現(xiàn)了人與智能音箱連續(xù)對話,改善人機交互中無法多輪對話、需要多次重復(fù)喚醒問題;2019年7月小度首發(fā)全雙工免喚醒能力,同時實現(xiàn)“一次喚醒,多輪交互”以及人機對話與人人對話互不干擾。2019年12月小度提出了兼具全雙工免喚醒、眼神喚醒、手勢控制在內(nèi)的多模態(tài)交互方式??傮w上,前沿人工智能技術(shù)的突飛猛進,幫助各品牌廠商智能音箱不斷實現(xiàn)交互與控制能力的提升。(三)AIGC應(yīng)用落地在即,打開音頻終端設(shè)備未來市場空間智能交互與家庭場景深度匹配,AIGC加持下智能音箱有望實現(xiàn)飛躍。當前的智能音箱的交互更類似于簡單的語音助手以及搜索引擎,能力受限,往往智能對于特定指令進行回應(yīng)。而未來,在生成式AI模型加持下,智能音箱能夠給出更加豐富、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電容測試儀課程設(shè)計
- 水墨游戲示范課程設(shè)計
- 2024年青海省建筑安全員A證考試題庫
- 2024年江蘇省安全員-B證考試題庫及答案
- 托班攀爬課程設(shè)計
- 2024年度代購業(yè)務(wù)合同模板3篇
- 2024天津市安全員-B證考試題庫附答案
- 移動和互聯(lián)網(wǎng)課程設(shè)計
- 幼兒啟蒙生活課程設(shè)計
- 消防車云梯課程設(shè)計
- 最新國家開放大學電大《工程數(shù)學》期末題庫及答案
- 《碗中日月》:作家丁立梅親自示范中考、高考真題作文60篇
- 警犬訓導(dǎo)專業(yè)士兵職業(yè)技能鑒定理論考試題庫(帶答案)
- 流行病學簡答題匯總含答案
- 海底噴流沉積型礦床-sedex
- 青島版二年級上冊數(shù)學知識點匯總
- 學校安保服務(wù)管理理念及服務(wù)內(nèi)容措施
- 基于BP神經(jīng)網(wǎng)絡(luò)的零售戶銷售假煙行為的預(yù)警模型
- 醫(yī)院感染監(jiān)測清單
- Q∕SY 05592-2019 油氣管道管體修復(fù)技術(shù)規(guī)范
- 復(fù)盤TJX看國內(nèi)折扣零售業(yè)發(fā)展機遇
評論
0/150
提交評論