華為云AI視頻技術(shù)白皮書(shū)_第1頁(yè)
華為云AI視頻技術(shù)白皮書(shū)_第2頁(yè)
華為云AI視頻技術(shù)白皮書(shū)_第3頁(yè)
華為云AI視頻技術(shù)白皮書(shū)_第4頁(yè)
華為云AI視頻技術(shù)白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

引言/01AI與視頻的碰撞/05發(fā)展趨勢(shì) 典型場(chǎng)景 AI視頻介紹/09參考架構(gòu) 行業(yè)視頻管理服務(wù)(IVM) 視頻智能分析服務(wù)盤(pán)古大模型 盤(pán)古視頻解譯大模型 AIAI視頻應(yīng)用案例/234.1華為門(mén)店 4.2物流 4.3鐵路 4.4礦山 4.5電力 展望未來(lái),從感知到生成/3101|01|引言引用攝像機(jī)拍攝,記錄并播放視頻可以回溯到19世紀(jì),大家公認(rèn)的第一部電影是法國(guó)影片《工廠(chǎng)的大門(mén)》,1895?盧米埃爾攝影。表現(xiàn)當(dāng)時(shí)法國(guó)里昂盧米埃爾工廠(chǎng)放工時(shí)的情景,片長(zhǎng)攝像技術(shù)應(yīng)用也從電影,廣播電視發(fā)展到生活中的方方面面,包括城市治理、安全防護(hù)、工業(yè)質(zhì)檢等等。每個(gè)城市,每個(gè)企業(yè)都有大量的攝像機(jī),不斷在記錄發(fā)生的一切。海量的視頻數(shù)據(jù),在方便大眾的生活的同時(shí),也帶來(lái)了很多管理上的困擾。數(shù)據(jù)如何有效存儲(chǔ),如何能夠感知并記錄關(guān)鍵事件,如何能夠?qū)⑵聊幻媲暗墓ぷ魅藛T解放出來(lái)或者減輕他們工作的強(qiáng)度,已經(jīng)成為視頻使用者最關(guān)心的問(wèn)題。與此同時(shí),AI技術(shù)雖然起步較晚,但隨著其快速的發(fā)展,已經(jīng)在諸多方面與視頻技術(shù)產(chǎn)生了深度的融合。|011950年,艾倫?圖靈(AlanTuring)在論文《計(jì)算機(jī)器與智能(ComputingMachineryandIntelligence)》中提出了著名的“圖靈測(cè)試”,給出了判定機(jī)器是否有“智能”的試驗(yàn)方法。1956年夏,麥卡錫、明斯基等科學(xué)家在美國(guó)達(dá)特茅斯學(xué)院開(kāi)會(huì)研討“如何用機(jī)器模擬人的智能”,首次提出“人工智能(Arti?cialIntelligence,簡(jiǎn)稱(chēng)AI)”這一概念,標(biāo)志著人工智能學(xué)科的誕生。專(zhuān)家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)到預(yù)訓(xùn)練大模型,一個(gè)又一個(gè)技術(shù)的突破,讓人類(lèi)看到了通用人工智能的希望。自然而然,用人工智能識(shí)別視頻數(shù)據(jù),甚至生成視頻數(shù)據(jù)成為了技術(shù)路線(xiàn)的必然選擇。華為公司在視頻技術(shù)和人工智能技術(shù)上都有深厚的積累和豐富的實(shí)踐,華為云AIAI和視頻技術(shù)相結(jié)合的優(yōu)秀典范。此篇《華為云AI視頻白皮書(shū)》,是我們團(tuán)隊(duì)研究和實(shí)踐經(jīng)驗(yàn)的總結(jié),希望能夠更好地促進(jìn)產(chǎn)業(yè)的發(fā)展,讓攝像機(jī)“看得懂、會(huì)說(shuō)話(huà)”。02|02|AIAI與視頻的碰撞AI技術(shù)雖然起步時(shí)間不同,但在發(fā)展中卻交相輝映,在最需要彼此的時(shí)候相遇。如下圖所示,人工智能和視頻編解碼,都經(jīng)歷了漫長(zhǎng)的摸索期,并先后21世紀(jì)取得突破式發(fā)展。深度學(xué)習(xí)將人工智能帶入千行百業(yè)的生產(chǎn)流程,H.264編碼技術(shù)將視頻業(yè)務(wù)帶入移動(dòng)互聯(lián)網(wǎng),成為每個(gè)消費(fèi)者日常的必需品。兩條平行發(fā)展的技術(shù)踩著同樣的步點(diǎn),在AI和視頻的結(jié)合是趨勢(shì)和必然,給所有人,所有行業(yè)無(wú)限的想象空間和發(fā)展?jié)摿?。兩個(gè)超萬(wàn)億產(chǎn)值的行業(yè)相乘,將帶來(lái)無(wú)法估量的產(chǎn)業(yè)價(jià)值。人工智能起步階段專(zhuān)家系統(tǒng)階段機(jī)器學(xué)習(xí)&深度學(xué)習(xí)階段大模型&通用人工智能起源AI誕生

符號(hào)主義和聯(lián)接主義接連出現(xiàn),機(jī)器學(xué)習(xí)理論和計(jì)算機(jī)視覺(jué)學(xué)科誕生

快速發(fā)展期工智能項(xiàng)目1980s

第三次興起2000年以后,數(shù)據(jù)的突破帶來(lái)深度學(xué)習(xí)的興起2007年,李飛飛構(gòu)建開(kāi)源ImageNet,世界最大的圖像識(shí)別數(shù)據(jù)集(2萬(wàn)多類(lèi)別)2006

Transformer出現(xiàn)Google提出Transformer替換CNN/RNN2017

ChatGPTOpenAI發(fā)布ChatGPT20231956

1960s

使用時(shí)間壓縮的幀間預(yù)測(cè)編碼第一次寒冬使用時(shí)間壓縮的幀間預(yù)測(cè)編碼

1993第二次寒冬AIAI|02算力不足以支撐發(fā)展維護(hù)復(fù)雜DCT圖像壓縮算法H.261H.263H.263+H.263++H.262/MPEG-2H.264/MPEG-4AVCH.265/HEVCH.266MPEG-4MPEG-4MPEG-1圖表1人工智能VS視頻編解碼發(fā)展歷史2.12.1發(fā)展趨勢(shì)趨勢(shì)1:視頻流云上集中管理大量的攝像機(jī)安裝完成后,面臨的問(wèn)題是如何集中式管理。攝像機(jī)分散在不同的地方,管理者需要在一個(gè)平臺(tái)上,跨區(qū)域、大范圍集中管理,通過(guò)完善的分權(quán)分域能力保護(hù)隱私安全。同時(shí),各攝像機(jī)采集的視頻需要集中存儲(chǔ),因?yàn)楸镜鼗稚⒋鎯?chǔ)會(huì)造成信息碎片化,無(wú)法形成多個(gè)視頻流之間的20232027年,視頻流上云和云存儲(chǔ)的年復(fù)合增長(zhǎng)率超過(guò)27%。在云化的趨勢(shì)下,視頻流云上管理、存儲(chǔ)越來(lái)越成為業(yè)界趨勢(shì),企業(yè)的主流選擇。趨勢(shì)2:用預(yù)訓(xùn)練的大模型生成場(chǎng)景模型AI技術(shù)中,處理視頻的相關(guān)技術(shù)一般被稱(chēng)為計(jì)算機(jī)視覺(jué)(ComputingVision)。計(jì)算機(jī)視覺(jué)是一種利用計(jì)算機(jī)和數(shù)學(xué)算法來(lái)模擬和自動(dòng)化人類(lèi)視覺(jué)的過(guò)程。它涉及到從數(shù)字圖像或視頻中提取信息,計(jì)算機(jī)視頻分析視頻流或者圖片時(shí)采用計(jì)算機(jī)視覺(jué)模型。計(jì)算機(jī)視覺(jué)模型是指使用深度學(xué)習(xí)技術(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,用于解決計(jì)算機(jī)視覺(jué)領(lǐng)域的各種問(wèn)題。這些模型通常由數(shù)百萬(wàn)或更多個(gè)參數(shù)組隨著大數(shù)據(jù)和AI算力的發(fā)展,模型參數(shù)越來(lái)越大,大模型應(yīng)運(yùn)而生。大模型指網(wǎng)絡(luò)規(guī)模巨大的深度學(xué)習(xí)模型,具體表現(xiàn)為模型的參數(shù)量規(guī)模較大,其規(guī)模通常在百億以上級(jí)別。研究發(fā)現(xiàn),模型的性能(指精度)通常與模型的參數(shù)規(guī)模息息相關(guān)。模型參數(shù)規(guī)模越大,模型的學(xué)習(xí)能力越強(qiáng),最終的精度也將更高,泛化性也越強(qiáng)。用大模型可以有效提升場(chǎng)景模型的準(zhǔn)確率和泛化性,加上預(yù)訓(xùn)練的海量數(shù)據(jù),用少量樣本,甚至零樣本就可以生成場(chǎng)景模型,解決視頻算法長(zhǎng)尾的問(wèn)題。趨勢(shì)3:用視頻解譯大模型理解視頻內(nèi)容視頻場(chǎng)景模型可以用確定的規(guī)則對(duì)視頻流進(jìn)行分析,識(shí)別關(guān)鍵事件,輔助人工進(jìn)行判別并給出決策建議。但現(xiàn)實(shí)世界紛繁復(fù)雜,花鳥(niǎo)魚(yú)蟲(chóng),春夏秋冬,都在表達(dá)著自己的個(gè)性和不同,規(guī)則是無(wú)法窮盡的,判別式算法不斷遇到新的需求和挑戰(zhàn)。如何能夠用泛化性強(qiáng)的模型理解視頻,并通過(guò)自然語(yǔ)言的方式進(jìn)行交互和報(bào)告,真正讓人類(lèi)從繁瑣、重復(fù)性的事務(wù)中脫離出來(lái)是行業(yè)內(nèi)普遍的需求。視頻解譯大模型融合了視覺(jué)大模型、多模態(tài)大模型、自然語(yǔ)言大模型多種模型,可以實(shí)現(xiàn)對(duì)視頻、圖片、聲音、文本多種模態(tài)組合分析,感知視頻流發(fā)生的各種事件,實(shí)現(xiàn)讓攝像機(jī)開(kāi)口說(shuō)話(huà),實(shí)現(xiàn)真正的智能分析、智能交互、智能決策。2.22.2典型場(chǎng)景城市日常管理在城市治理場(chǎng)景中,往往建設(shè)有龐大復(fù)雜的城市事件類(lèi)別體系,包含了繁多細(xì)碎的事項(xiàng)類(lèi)別,如垃圾暴露、道路破損、圍欄破損等等,一個(gè)城市一般有幾百種事件類(lèi)別。同時(shí),不同城市可能還有不同的標(biāo)準(zhǔn),可能某城市關(guān)注某一些特定事件類(lèi)別,另一個(gè)城市又關(guān)注另一些特定事件類(lèi)別。因此,城市政務(wù)場(chǎng)景面臨著眾多碎片化AI需求場(chǎng)景。城市事件的類(lèi)別數(shù)量眾多,同時(shí)絕大多數(shù)的城市事件又難以采集到大量數(shù)據(jù)來(lái)訓(xùn)練AI模型,這種問(wèn)題我們稱(chēng)為“碎片化長(zhǎng)尾需求場(chǎng)景”?!八槠L(zhǎng)尾需求”一直是AI開(kāi)發(fā)面臨的難題,傳統(tǒng)的AI開(kāi)發(fā)模式需要對(duì)每種目標(biāo)類(lèi)別單獨(dú)采集數(shù)據(jù)、訓(xùn)練模型,依賴(lài)專(zhuān)家經(jīng)驗(yàn)進(jìn)行算法參數(shù)調(diào)優(yōu),最后才能上線(xiàn)應(yīng)用,每種算法的開(kāi)發(fā)周期耗費(fèi)幾周至幾個(gè)月,低下的效率難以滿(mǎn)足當(dāng)前高速的城市建設(shè)發(fā)展。華為AI視頻方案,基于AI開(kāi)發(fā)工作流,將數(shù)據(jù)標(biāo)注、模型訓(xùn)練、部署上線(xiàn)等繁雜的流程固化為一個(gè)流水線(xiàn)的步驟,無(wú)需編寫(xiě)代碼,任何人只要有準(zhǔn)備數(shù)據(jù),都可以通過(guò)流水線(xiàn)交互步驟快速地完成一個(gè)AI應(yīng)用的開(kāi)發(fā)和上線(xiàn)。每個(gè)AI算法的開(kāi)發(fā)周期縮短至幾天便可完成。同時(shí)基于預(yù)訓(xùn)練CV大模型的能力,依托于海量的大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,即便只有少量樣本,也可以達(dá)到良好的模型泛化性和魯棒性,解決碎片化長(zhǎng)尾需求的問(wèn)題。由此可見(jiàn),AI視頻方案中的預(yù)訓(xùn)練CV大模型+AI開(kāi)發(fā)工作流,可以更好地契合城市治理的痛點(diǎn)需求,解決碎片化長(zhǎng)尾需求場(chǎng)景的問(wèn)題,更好地將AI落地到智慧城市的建設(shè)發(fā)展中。城市應(yīng)急處置在城市建設(shè)過(guò)程中,除了事先設(shè)定好的事件類(lèi)別,還經(jīng)常有突發(fā)性的臨時(shí)需求。比如突發(fā)暴雨,很多地方會(huì)臨時(shí)地希望檢測(cè)各地是否有積水內(nèi)澇的情況,以便及時(shí)預(yù)防與救援;或者某地突發(fā)交通事故,相關(guān)部門(mén)也想快速地排查周邊受影響交通擁堵的路段,以及時(shí)安排人力疏通車(chē)流。這些突發(fā)性的臨時(shí)需求,可能根據(jù)天氣、地點(diǎn)、時(shí)間等不同因素千變?nèi)f化,這在城市政務(wù)的場(chǎng)景十分常見(jiàn),也對(duì)于保障城市正常運(yùn)轉(zhuǎn)有著非常重要的作用。然而,這種臨時(shí)性的需求對(duì)于傳統(tǒng)AI開(kāi)發(fā)來(lái)說(shuō)是災(zāi)難性的。傳統(tǒng)的AI開(kāi)發(fā)需要對(duì)每種待識(shí)別的事件采集數(shù)據(jù)、訓(xùn)練模型,而訓(xùn)練出來(lái)的模型也僅能解決這一特定的任務(wù)。當(dāng)一個(gè)臨時(shí)性的AI需求來(lái)臨時(shí),既往訓(xùn)練出來(lái)的模型肯定是無(wú)法適應(yīng)這個(gè)新的任務(wù)的,那又要基于這個(gè)新的需求采集對(duì)應(yīng)數(shù)據(jù)、訓(xùn)練模型,這一流程走下來(lái)即便有AI開(kāi)發(fā)工作流支撐,少說(shuō)也要幾天的時(shí)間開(kāi)發(fā)上線(xiàn)。但是臨時(shí)性的需求往往是緊急的,比如對(duì)于積水內(nèi)澇的場(chǎng)景,時(shí)間就是生命,業(yè)務(wù)往往要求算法立刻就能發(fā)揮作用、識(shí)別事件。因此傳統(tǒng)的AI開(kāi)發(fā)模式面對(duì)這種緊急的臨時(shí)性需求就顯得捉襟見(jiàn)肘了。華為AI視頻方案,基于業(yè)界最新的多模態(tài)大模型技術(shù),構(gòu)建了開(kāi)放式的目標(biāo)檢測(cè)和分割模型。該算法模型基于海量數(shù)據(jù)預(yù)訓(xùn)練的大模型,具備通用的特征提取能力,同時(shí)內(nèi)嵌預(yù)言大模型,可以理解用戶(hù)輸入文本的語(yǔ)義信息。因此,該模型可以結(jié)合用戶(hù)輸入的任意文本信息,實(shí)現(xiàn)對(duì)應(yīng)物體的檢測(cè),即便這個(gè)物體之前沒(méi)有出現(xiàn)在模型的訓(xùn)練集里。這種特性非常符合城市治理里突發(fā)性的臨時(shí)需求場(chǎng)景。比如面對(duì)積水內(nèi)澇的場(chǎng)景,就不需要再針對(duì)積水事件重新訓(xùn)練一個(gè)模型,而是簡(jiǎn)單地輸入一個(gè)類(lèi)似“請(qǐng)問(wèn)畫(huà)面中是否有積水內(nèi)澇?”的語(yǔ)句,算法通過(guò)圖片和文本的語(yǔ)義理解,就可以識(shí)別出來(lái)畫(huà)面中是否有積水內(nèi)澇的事件了。這樣一來(lái),算法就不再局限于僅能識(shí)別特定范圍的一些事件,應(yīng)用的廣度被無(wú)限地拉大,也能更好地滿(mǎn)足城市政務(wù)場(chǎng)景中靈活變化的業(yè)務(wù)需求。更詳細(xì)的應(yīng)用場(chǎng)景請(qǐng)參考章節(jié)“4AI視頻應(yīng)用案例”03|03|AIAI視頻介紹AI視頻服務(wù)依托聯(lián)接、云、AI、計(jì)算等新一代ICT技術(shù)與知識(shí)創(chuàng)新融合,將感知、認(rèn)知、決策、行動(dòng)實(shí)現(xiàn)深度協(xié)同。其充分利用云計(jì)算能力,系統(tǒng)功能可靠、穩(wěn)定、完整。平臺(tái)設(shè)計(jì)秉承模塊化、框架化、集群化、服務(wù)化的設(shè)計(jì)理念,提供電信級(jí)系統(tǒng)可靠性、可擴(kuò)展性和可維護(hù)性,滿(mǎn)足不同場(chǎng)景對(duì)接整合、兼容應(yīng)用和可持續(xù)發(fā)展的需要。AI視頻服務(wù)是面向行業(yè)視頻場(chǎng)景的組合方案,參考華為公司架構(gòu),包括行業(yè)視頻管理(IVM),智能視頻分析服務(wù)(VIAS)CV大模型三個(gè)產(chǎn)品。可以提供一站式服務(wù),將視頻流從攝像機(jī)接如下圖所示,典型的組網(wǎng)分為接入層、網(wǎng)絡(luò)層、平臺(tái)層和應(yīng)用層。AI視頻服務(wù)屬于平臺(tái)層網(wǎng)元,和接入層、網(wǎng)絡(luò)層、應(yīng)用層設(shè)備互聯(lián)互動(dòng),相互配合,形成整體解決方案。云基礎(chǔ):計(jì)算云基礎(chǔ):計(jì)算/存儲(chǔ)(對(duì)象存儲(chǔ))/網(wǎng)絡(luò)/安全AI|03統(tǒng)一的標(biāo)準(zhǔn)接口統(tǒng)一的標(biāo)準(zhǔn)接口AI|03統(tǒng)一的標(biāo)準(zhǔn)接口統(tǒng)一的標(biāo)準(zhǔn)接口行業(yè)視頻管理(IVM)CV模型視頻傳輸視頻存儲(chǔ)視頻接入萬(wàn)物分割萬(wàn)物檢測(cè)基礎(chǔ)模型事件中心運(yùn)維中心算法中心視頻中心任務(wù)中心......智慧企業(yè)智能安防智慧園區(qū)智慧城市互聯(lián)網(wǎng)虛擬專(zhuān)用網(wǎng)視頻專(zhuān)網(wǎng)網(wǎng)絡(luò)層平臺(tái)層應(yīng)用場(chǎng)景終端接入層終端接入層

邊緣視頻設(shè)備(攝像頭、NVR)2AI邊緣視頻設(shè)備(攝像頭、NVR)

視頻流接入層主要設(shè)備為攝像機(jī)和NVR,負(fù)責(zé)采集視頻數(shù)據(jù),并通過(guò)標(biāo)準(zhǔn)協(xié)議注冊(cè)到平臺(tái)層,被平臺(tái)進(jìn)行管理;NVR可以實(shí)現(xiàn)對(duì)多個(gè)攝像機(jī)匯聚管理,并在本地存儲(chǔ)視頻。網(wǎng)絡(luò)層主要為網(wǎng)絡(luò)設(shè)備,負(fù)責(zé)通過(guò)IP協(xié)議,將攝像機(jī),NVR等邊緣設(shè)備接入到平臺(tái)層,同時(shí)負(fù)責(zé)包保障視頻流傳輸?shù)馁|(zhì)量,包括但不限于丟包,抖動(dòng),時(shí)延等等。平臺(tái)層的AI視頻服務(wù),采用云化架構(gòu),支持公有云,混合云等多種模式。AI視頻屬于SaaS服務(wù),依賴(lài)云平臺(tái)

虛擬機(jī),OBS存儲(chǔ),網(wǎng)絡(luò)傳輸?shù)饶芰?,完成?duì)攝像機(jī)設(shè)AI視頻提供對(duì)視頻流的分析能力,理解視頻流內(nèi)容、關(guān)鍵事件,并將相應(yīng)的結(jié)果推送給上層應(yīng)用系統(tǒng)。應(yīng)用層負(fù)責(zé)面向行業(yè),提供圖形化頁(yè)面和管理功能。不同行業(yè)有不同的應(yīng)用系統(tǒng),例如連鎖門(mén)店客流管理系統(tǒng)、智慧安防系統(tǒng)、智慧園區(qū)管理系統(tǒng)等等。華為云AI視頻服務(wù)和應(yīng)用層是松耦合關(guān)系,采用消息接口對(duì)接。業(yè)務(wù)需求部署攝像機(jī)(SDC/IPC)等端側(cè)設(shè)備后,首先需要集中管理功能,包括設(shè)備信息注冊(cè)、遠(yuǎn)程配置、分權(quán)分域等功能。同時(shí)還要能夠?qū)崿F(xiàn)基于互聯(lián)網(wǎng)任意時(shí)間、任意地點(diǎn)查看攝像機(jī)狀態(tài)、視頻流內(nèi)容。同時(shí),為了追溯、回溯,還要能夠?qū)崿F(xiàn)視頻流存儲(chǔ),將視頻流錄制下來(lái),長(zhǎng)時(shí)間安全保存。方案建議、網(wǎng)絡(luò)視頻錄像機(jī)、智能視頻存儲(chǔ)主要包括設(shè)備接入,視頻調(diào)閱,錄像管理等功能。設(shè)備接入行業(yè)視頻管理服務(wù)(IVM)支持國(guó)際標(biāo)準(zhǔn)協(xié)議接入攝像機(jī),

GB/T28181協(xié)議,同時(shí)還支持私有協(xié)議視頻調(diào)閱行業(yè)視頻管理服務(wù)具備為公眾及其他業(yè)務(wù)系統(tǒng)提供媒體流播放能力。媒體轉(zhuǎn)碼主要滿(mǎn)足互聯(lián)網(wǎng)web/H5技術(shù)和視頻系統(tǒng)媒體流之間的轉(zhuǎn)換適配需求,通過(guò)將碼流轉(zhuǎn)換為RTMP、HTTP-FLV、HLS等PC端可直接播放的視頻流,為業(yè)務(wù)集成和開(kāi)放提供快速的技術(shù)方案,同時(shí)提供基于視頻技術(shù)的富媒體應(yīng)用技術(shù)。支持遠(yuǎn)程查看前端攝像機(jī)的實(shí)時(shí)視頻,根據(jù)現(xiàn)場(chǎng)情況進(jìn)行事件預(yù)判,實(shí)現(xiàn)視頻實(shí)時(shí)瀏覽播放,實(shí)時(shí)播放時(shí)可顯示視頻相關(guān)信息,便于視頻流的狀態(tài)查詢(xún)和故障診斷。支持多布局能力,支持多個(gè)視頻點(diǎn)位同時(shí)進(jìn)行實(shí)況預(yù)覽;單擊攝像機(jī)開(kāi)啟視頻按照從左到右、從上到下的順序選擇播放窗口;如果當(dāng)前所有窗格已經(jīng)用完,可手動(dòng)增加另一個(gè)多窗格布局;系統(tǒng)客戶(hù)端支持同時(shí)播放多個(gè)前端設(shè)備的實(shí)時(shí)視頻。支持顯示當(dāng)前實(shí)況攝像頭的視頻信息,其中視頻信息包括:當(dāng)前碼率、平均碼率、編碼格式、分辨率等;支持聲音控制,例如靜音、取消靜音;支持以拖動(dòng)攝像頭的方式進(jìn)行播放和停止;支持單畫(huà)面停止播放,支持全部畫(huà)面停止。錄像管理行業(yè)視頻管理服務(wù)提供大容量的云端存儲(chǔ),通過(guò)互聯(lián)網(wǎng)實(shí)時(shí)將前端數(shù)據(jù)傳出至云端,依托于華為云OBS服務(wù),為客戶(hù)提供可靠的數(shù)據(jù)數(shù)據(jù)備份,幫助客戶(hù)實(shí)現(xiàn)更長(zhǎng)周期、更大容量、更高安全的云上數(shù)據(jù)管理。用戶(hù)可以在客戶(hù)端上回放錄像,也可以將系統(tǒng)錄像文件下載到本地,支持使用通用播放器進(jìn)行回放。用戶(hù)可進(jìn)

行事后錄像的檢索,通過(guò)錄像可查看之前發(fā)生的事件現(xiàn)場(chǎng)視頻,實(shí)現(xiàn)事后取證功能。同時(shí)支持查詢(xún)平臺(tái)錄像、前端錄像;支持自定義時(shí)間范圍進(jìn)行錄像查詢(xún);支持錄像查詢(xún)結(jié)果以進(jìn)度條方式展現(xiàn),進(jìn)度條可以前后拖動(dòng),支持精度縮放等功能。小結(jié)行業(yè)視頻管理服務(wù)(IVM)基于華為公有云,提供攝像機(jī)設(shè)備管理、接入、調(diào)閱、存儲(chǔ)等服務(wù)。主要功能服務(wù)方式如下,供項(xiàng)目參考。產(chǎn)品組合行業(yè)視頻管理服務(wù)視頻接入調(diào)閱帶寬視圖云存儲(chǔ)產(chǎn)品組合行業(yè)視頻管理服務(wù)視頻接入調(diào)閱帶寬視圖云存儲(chǔ)路/年年年應(yīng)用場(chǎng)景公有云必選公有云必選圖表3行業(yè)視頻管理(IVM)方案建議業(yè)務(wù)需求完成攝像機(jī)和行業(yè)視頻管理平臺(tái)建設(shè)后,實(shí)現(xiàn)了視頻流集中管理、集中存儲(chǔ)。如果僅僅依靠人工監(jiān)看的方式,必然消耗大量人力,識(shí)別準(zhǔn)確率依賴(lài)人員技能。如何實(shí)現(xiàn)視頻流的自動(dòng)分析、準(zhǔn)確識(shí)別關(guān)事件主動(dòng)上報(bào)成為普遍的業(yè)務(wù)需求?;谌斯ぶ悄艿囊曨l分析服務(wù),要能夠?yàn)樯蠈拥男袠I(yè)應(yīng)用提供AI能力,包括但不限于:?豐富的視頻分析算法,滿(mǎn)足復(fù)雜場(chǎng)景分析需求;?建設(shè)視頻統(tǒng)一分析平臺(tái),集中管理,充分盤(pán)活視頻資源;?算法統(tǒng)一管理,算法和算力解耦,多廠(chǎng)家算法共享算法倉(cāng),算力統(tǒng)一調(diào)度。方案建議視頻智能分析服務(wù)(VIAS)AI分析、事件感知等能力的一體化平臺(tái),實(shí)現(xiàn)智慧園區(qū)、城市治理、安全生產(chǎn)等場(chǎng)景的事件感知、分析和決策能力,助力業(yè)務(wù)閉環(huán)。視頻智能分析服務(wù)提供豐富的“開(kāi)箱即用”的算智慧園區(qū)等等,幫助千行百業(yè)快速使用成熟的人工智能技術(shù),提效降本。

主要包括分析服務(wù)、算法中心、視頻中心、任務(wù)中心、事件中心等功能。分析服務(wù)視頻分析服務(wù)是承載視頻AI算法的彈性計(jì)算引擎,提供視頻數(shù)據(jù)接入、分析及告警輸出的能力,可通過(guò)API支AIAI集成效率,助力其核心業(yè)務(wù)價(jià)值開(kāi)發(fā)。視頻分析能力主要基于如下技術(shù)構(gòu)建:物體檢測(cè)技術(shù)物體檢測(cè)是視覺(jué)感知的第一步,也是計(jì)算機(jī)視覺(jué)的一個(gè)重要分支。物體檢測(cè)的目標(biāo),就是用框去標(biāo)出物體的位置,并給出物體的類(lèi)別。在當(dāng)前視頻分析服務(wù)構(gòu)建的能力中,人或者車(chē)的檢測(cè)是第一步,也是最關(guān)鍵的一步。人與車(chē)目標(biāo)檢測(cè)的準(zhǔn)確率也會(huì)直接影響后續(xù)算法的效果,但由于目標(biāo)環(huán)境的多樣性復(fù)雜性,對(duì)于物體的檢測(cè),通通常會(huì)針對(duì)實(shí)際的應(yīng)用場(chǎng)景進(jìn)行定制化的訓(xùn)練,以此排除復(fù)雜的環(huán)境帶來(lái)的干擾。圖像分類(lèi)技術(shù)一張圖像中是否包含某種物體,對(duì)圖像進(jìn)行特征描述是物體分類(lèi)的主要研究?jī)?nèi)容。一般說(shuō)來(lái),物體分類(lèi)算法通過(guò)手工特征或者特征學(xué)習(xí)方法對(duì)整個(gè)圖像進(jìn)行全局描述,然后使用分類(lèi)器判斷是否存在某類(lèi)物體。圖像分類(lèi)的研究,通常衍生出來(lái)對(duì)特定目標(biāo)物體進(jìn)行檢測(cè)的能力,比如識(shí)別大貨車(chē)、公交車(chē)等特定的目標(biāo)。物體定位技術(shù)如果說(shuō)圖像識(shí)別解決的是what,那么物體定位解決的則是where的問(wèn)題。利用計(jì)算視覺(jué)技術(shù)找到圖像中某一目標(biāo)物體在圖像中的位置,即定位。對(duì)物體的定位,通常能衍生出很廣的應(yīng)用場(chǎng)景。比如在安防領(lǐng)域,判斷目標(biāo)物體的位置,可以進(jìn)行入侵檢測(cè)、徘徊檢測(cè)以及過(guò)線(xiàn)計(jì)數(shù)等等算法。AI分析能力,不但能保證AI算法的接入,還能保證第三方算法和行業(yè)共享算AI能力的穩(wěn)步提升。華為視頻分析算法,基于100+項(xiàng)目實(shí)踐經(jīng)驗(yàn)持續(xù)積累、優(yōu)化,已沉淀形成多種類(lèi)型的算法能力。算法中心算法中心提供多廠(chǎng)商、多框架、多功能的統(tǒng)一管理能力,支持用戶(hù)將導(dǎo)入的算法鏡像進(jìn)行統(tǒng)一管理,支持算法版本的全生命周期管理,為后續(xù)算法部署提供基礎(chǔ)管理能力。用戶(hù)可在該模塊查看已上線(xiàn)的算法能力,同時(shí)為三方開(kāi)發(fā)者提供賬號(hào)體系,開(kāi)發(fā)者可在該模塊發(fā)布新算法、更新算法版本。算法中心可跳轉(zhuǎn)算法商城,算法商城展示了可上線(xiàn)的算法能力清單,可根據(jù)用戶(hù)業(yè)務(wù)需求上線(xiàn)。視頻中心視頻中心提供視頻源數(shù)據(jù)接入管理能力,是算法的前置

實(shí)現(xiàn)視頻算法的整體功能性配置,構(gòu)建基于視頻數(shù)據(jù)的任務(wù)中心任務(wù)中心提供算法作業(yè)配置、算法作業(yè)管理能力,是算法的核心配置模塊,通過(guò)該模塊的配置,算法即可具備事件中心小結(jié)視頻智能分析服務(wù)(VIAS)基于華為公有云,提供視頻算法分析服務(wù)、算法管理、算力管理、任務(wù)管理、事件管理等。主要功能服務(wù)方式如下,供項(xiàng)目參考。產(chǎn)品組合視頻智能分析視頻分析服務(wù)產(chǎn)品組合視頻智能分析視頻分析服務(wù)路/年路/年應(yīng)用場(chǎng)景圖表4視頻智能分析服務(wù)方案建議CV業(yè)務(wù)需求隨著工業(yè)生產(chǎn)越來(lái)越強(qiáng)調(diào)智能化,大量傳統(tǒng)行業(yè)開(kāi)始積累領(lǐng)域數(shù)據(jù),并尋求人工智能算法以解決生產(chǎn)和研發(fā)過(guò)程中遇到的重復(fù)而冗雜的問(wèn)題。這就意味著,人工智能算法在落地的過(guò)程中,將會(huì)面對(duì)大量不同場(chǎng)景、不同需求的用戶(hù)。這對(duì)算法的通用性提出了很高的要求。然而我們注意到,當(dāng)前業(yè)界大部分人工智能開(kāi)發(fā)者,正在沿用傳統(tǒng)的“小作坊模式”,即針對(duì)每個(gè)場(chǎng)景,獨(dú)立地完成模型選擇、數(shù)據(jù)處理、模型優(yōu)化、模型迭代等一系列開(kāi)發(fā)環(huán)節(jié)。由于無(wú)法積累通用知識(shí),同時(shí)不同領(lǐng)域的調(diào)試方法有所不同,這樣的開(kāi)發(fā)模式往往比較低效。特別地,當(dāng)前人工智能領(lǐng)域存在大量專(zhuān)業(yè)水平不高的開(kāi)發(fā)者,他們往往不能掌握規(guī)范的開(kāi)發(fā)模式和高效的調(diào)優(yōu)技巧,從而使得模型的精度、性能、可擴(kuò)展性等指標(biāo)都不能達(dá)到令人滿(mǎn)意的水平。我們將上述問(wèn)題,稱(chēng)為人工智能算法落地的碎片化困境。

因此如何能夠類(lèi)似流水線(xiàn)的方式,用少量樣本,快速生成場(chǎng)景化模型,成為行業(yè)的迫切需求。方案建議華為盤(pán)古CV大模型瞄準(zhǔn)人工智能在工業(yè)場(chǎng)景應(yīng)用中的困境,創(chuàng)造性提出用經(jīng)過(guò)海量數(shù)據(jù)預(yù)訓(xùn)練的視覺(jué)大模型作為訓(xùn)練工作流,用類(lèi)似工業(yè)流水線(xiàn)的方式快速生成場(chǎng)景化模型。盤(pán)古CV大模型收集大量圖像數(shù)據(jù),以及圖像和文本對(duì)比數(shù)據(jù),利用無(wú)監(jiān)督或者自監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)中蘊(yùn)含的知識(shí)提取出來(lái),存儲(chǔ)在具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中。遇到特定任務(wù)時(shí),只要調(diào)用一個(gè)通用的流程,就能夠?qū)⑦@些知識(shí)釋放出來(lái),并且與行業(yè)經(jīng)驗(yàn)結(jié)合,解決實(shí)際問(wèn)題。超大的神經(jīng)網(wǎng)絡(luò) 強(qiáng)壯的網(wǎng)絡(luò)架構(gòu) 優(yōu)秀的泛化能力多模態(tài)大模型科學(xué)計(jì)算大模型多模態(tài)大模型科學(xué)計(jì)算大模型CV NLP型 大模型) (千億參數(shù)11流水線(xiàn)泛化復(fù)制22流水線(xiàn)預(yù)訓(xùn)練模型33華為云盤(pán)古大模型「AI工業(yè)化開(kāi)發(fā)」流水線(xiàn)預(yù)訓(xùn)練&部署迭代 模型泛化極大節(jié)省訓(xùn)練投入流水線(xiàn)工具集成訓(xùn)練更快效率提升10-100倍更佳模型性能圖表5盤(pán)古CV大模型工作流原理L2場(chǎng)景腰帶物體檢測(cè)流量檢測(cè)L2場(chǎng)景腰帶物體檢測(cè)流量檢測(cè)貨物檢測(cè)安全帽容器檢測(cè)...每個(gè)行業(yè)的模型開(kāi)發(fā)套件皮帶跑偏檢測(cè)違章停車(chē)高速列車(chē)故障檢測(cè)爬圍欄違章停車(chē)...L1行業(yè)大模型礦山城市治理鐵路工地港口...L0基礎(chǔ)大模型盤(pán)古CV模型|||||||姿勢(shì)估計(jì)亮點(diǎn)介紹行業(yè)特定模型少樣本實(shí)現(xiàn)高準(zhǔn)確率快速適配任務(wù)模型強(qiáng)大的預(yù)訓(xùn)練模型圖表6盤(pán)古CV大模型應(yīng)用場(chǎng)景和優(yōu)勢(shì)CV大模型通過(guò)自動(dòng)化模型抽取、參數(shù)自動(dòng)化調(diào)優(yōu)等模塊實(shí)現(xiàn)場(chǎng)景模型的訓(xùn)練和CV圖像分類(lèi)、異常檢測(cè)、目標(biāo)跟蹤、語(yǔ)義分割、實(shí)例分割CV大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實(shí)現(xiàn)數(shù)據(jù)標(biāo)注、模型開(kāi)發(fā)、推AICV大模型的企業(yè),AI能力。小樣本,結(jié)合數(shù)據(jù)檢索及數(shù)據(jù)增廣技術(shù),相對(duì)傳統(tǒng)訓(xùn)練方式,數(shù)據(jù)需求減少80%以上;高精度,受益于更好的語(yǔ)義對(duì)齊效果,在小樣本學(xué)習(xí)上表現(xiàn)優(yōu)異,顯著超越對(duì)比方法;

高效率,利用行業(yè)模型高效表征及數(shù)據(jù)篩選能力,數(shù)據(jù)處理效率提升5倍以上;CV大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實(shí)現(xiàn)數(shù)據(jù)標(biāo)注、模型開(kāi)發(fā)、推AICV大模型的企業(yè),AI能力。技術(shù)原理計(jì)算機(jī)視覺(jué)的主要目標(biāo),是設(shè)計(jì)出能夠識(shí)別視覺(jué)信號(hào),并且對(duì)其進(jìn)行各種處理和分析的程序。換句話(huà)說(shuō),計(jì)算機(jī)視覺(jué)是研究計(jì)算機(jī)如何去“看”的學(xué)科。其中,較為典型的任務(wù)包括圖像分類(lèi)、物體檢測(cè)、物體分割、物體追蹤、姿態(tài)估計(jì)等。下圖展示了圖像分類(lèi)中最著名的ImageNet數(shù)據(jù)集(超過(guò)2萬(wàn)個(gè)物體類(lèi)別)和MS-COCO數(shù)據(jù)集(包括檢測(cè)、分割等多種任務(wù))。 TheImageNetdataset~15Mimages,~21Kcategories,~1.5TB

TheMS-COCOdatasetdetection,segmentation,poseestimation,etc.圖表7測(cè)試數(shù)據(jù)集在計(jì)算機(jī)中,視覺(jué)信號(hào)一般以“密集采樣強(qiáng)度”的方式存儲(chǔ):不同方向入射的光線(xiàn)在每個(gè)信道(如紅綠藍(lán))上的強(qiáng)度被記錄下來(lái),用于呈現(xiàn)圖像的基本內(nèi)容。圖像中的每個(gè)基本單元被稱(chēng)為像素——很顯然,這些像素并不能代表基本的語(yǔ)義這也是幾乎所有計(jì)算機(jī)視覺(jué)研究所需要處理的核心問(wèn)題。進(jìn)一步探究圖像的存儲(chǔ)形態(tài),我們會(huì)發(fā)現(xiàn)圖像信號(hào)的若干特點(diǎn): 內(nèi)容較復(fù)雜 內(nèi)容較復(fù)雜 圖像信號(hào)的基本單位是像素,但是單個(gè)像素往往不能表達(dá)語(yǔ)義。圖像識(shí)別的任務(wù),就是構(gòu)建特定函數(shù),使得像素級(jí)輸入能夠產(chǎn)生語(yǔ)義級(jí)輸出。這種函數(shù)往往非常復(fù)雜,很難通過(guò)手工方式定義。 信息密度低 圖像信號(hào)能夠忠實(shí)地反映事物的客觀表征;然而其中相當(dāng)部分的數(shù)據(jù)被用于表達(dá)圖像中的低頻區(qū)域(如天空)或者無(wú)明確語(yǔ)義的高頻(如隨機(jī)噪聲)區(qū)域。這就導(dǎo)致了圖像信號(hào)的有效信息密度較低,特別是相比于文本信號(hào)而言。 域豐富多變 圖像信號(hào)受到域的影響較大,而且這種影響通常具有全局性質(zhì),難以和語(yǔ)義區(qū)分開(kāi)來(lái)。例如,同樣的語(yǔ)義內(nèi)容,在強(qiáng)度不同的光照下,就會(huì)體現(xiàn)出截然不同的表征。同時(shí),相同的姿態(tài)出現(xiàn),從而在像素上產(chǎn)生巨大差異,為視覺(jué)識(shí)別算法帶來(lái)困難。鑒于上述特點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型就成為了計(jì)算機(jī)視覺(jué)落地的最佳方案之一。預(yù)訓(xùn)練過(guò)程能夠一定程度上完成視覺(jué)信號(hào)的壓縮,深度神經(jīng)網(wǎng)絡(luò)能夠抽取層次化的視覺(jué)特征,而預(yù)訓(xùn)練結(jié)合微調(diào)的范式則能夠應(yīng)對(duì)豐富多變的域。數(shù)據(jù)收集圖像是一種復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),包含豐富的語(yǔ)義信息?,F(xiàn)如今,還沒(méi)有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學(xué)規(guī)律進(jìn)行準(zhǔn)確的描述,因而人們只能通過(guò)收集大量的數(shù)據(jù),來(lái)近似現(xiàn)實(shí)中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的ImageNet數(shù)據(jù)集是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要里程碑,它使

得訓(xùn)練、評(píng)估大規(guī)模圖像處理方法成為可能。隨著計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步和更多應(yīng)用的出現(xiàn),ImageNet數(shù)據(jù)集的局限性逐漸顯現(xiàn)出來(lái),包括規(guī)模、復(fù)雜性等。為了解決這一問(wèn)題,我們必須收集更大規(guī)模、更加復(fù)雜的圖像數(shù)據(jù),而這也是業(yè)界的一致趨勢(shì)。通過(guò)多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴(kuò)充、各搜索引擎關(guān)鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中,我們篩除了低分辨率、低曝、過(guò)曝、簡(jiǎn)單背景等低質(zhì)量圖像數(shù)據(jù),再通過(guò)已有預(yù)訓(xùn)練視覺(jué)模型進(jìn)行重復(fù)圖像的判斷和去除,最1040TB空間。10億+圖像數(shù)據(jù) 10億+圖像數(shù)據(jù)~40TB存儲(chǔ)空間覆蓋自動(dòng)駕駛,電力,鐵路,遙感等預(yù)訓(xùn)練方法我們使用的神經(jīng)網(wǎng)絡(luò)模型覆蓋了計(jì)算機(jī)視覺(jué)領(lǐng)域最為常見(jiàn)的卷積網(wǎng)絡(luò)和transformer架構(gòu),兩者既可以分開(kāi)使用,也可以按需結(jié)合以達(dá)到更好的效果。利用自動(dòng)機(jī)器學(xué)習(xí)算法,能夠支持并調(diào)用不同大小的神經(jīng)網(wǎng)絡(luò),其中最大的計(jì)算模型具有接近30億參數(shù),最小的模型只有數(shù)十萬(wàn)參數(shù),其大小相差超過(guò)1000倍,為適配不同的視覺(jué)任務(wù)提供了可能性。我們收集的訓(xùn)練數(shù)據(jù)大部分來(lái)自互聯(lián)網(wǎng),不僅具有相當(dāng)程度的噪聲,而且不包含準(zhǔn)確的語(yǔ)義標(biāo)簽。為了充分利用這些數(shù)據(jù),我們?cè)O(shè)計(jì)了自監(jiān)督學(xué)習(xí)方法,即通過(guò)某種或者某幾種代理任務(wù),教會(huì)模型如何理解視覺(jué)數(shù)據(jù),在沒(méi)有語(yǔ)義標(biāo)簽的情況下也能擬合復(fù)雜的數(shù)據(jù)分布。與此同時(shí),我們?cè)趯?duì)比學(xué)習(xí)的基礎(chǔ)上優(yōu)化了相關(guān)代理算法,業(yè)界首創(chuàng)在對(duì)比度自監(jiān)督學(xué)習(xí)中引入等級(jí)化語(yǔ)義相似度,即挑選那些距離相應(yīng)聚類(lèi)中心更近的最近鄰作為正樣本,并且在拉近語(yǔ)義相似樣本的時(shí)候引入了混合樣本增強(qiáng),以減少樣本選取過(guò)程中的噪聲影響。在此基礎(chǔ)上,我們拓展自監(jiān)督學(xué)習(xí)算法中正樣本的數(shù)目,使得正樣本集合能夠更加高效地被聚集,同時(shí)避免受到大量負(fù)樣本優(yōu)化的影響。我們采用的預(yù)訓(xùn)練算法(發(fā)表于TPAMI上)的簡(jiǎn)略示意圖如下所示:MixedSampleEncoderqBottleneckBottleneckMixedSampleEncoderqBottleneckBottleneckMixAnchorSampleBottleneckMLPMLPEncoderKBottleneckBottleneckPositiveSampleticchanrSemSea

(注:基于等級(jí)化語(yǔ)義聚集的對(duì)比度自監(jiān)督學(xué)習(xí))效果展示盤(pán)古視覺(jué)大模型在ImageNet數(shù)據(jù)集的線(xiàn)性分類(lèi)評(píng)估上,首次達(dá)到了與全監(jiān)督相比擬的結(jié)果。同時(shí),受益于更好的語(yǔ)義對(duì)齊效果,我們的方法在小樣本學(xué)習(xí)上表現(xiàn)優(yōu)異:使用ImageNet上1%和10%的標(biāo)簽訓(xùn)練,我們的方法達(dá)到了66.7%和75.1%的分類(lèi)精度,均顯著超

越對(duì)比方法。以此方法為基礎(chǔ),我們?cè)O(shè)計(jì)了具有10億參數(shù)量的基礎(chǔ)模型,并在超過(guò)10億張無(wú)標(biāo)注圖像組成的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。所得到的模型,在ImageNet上達(dá)到了88.7%的分類(lèi)精度,而1%標(biāo)簽的半監(jiān)督學(xué)習(xí)精度也達(dá)到83.0%。同時(shí),盤(pán)古大模型在超過(guò)20項(xiàng)下游任務(wù)上進(jìn)行了測(cè)試,展現(xiàn)出良好的泛化能力,如下表所示。數(shù)據(jù)集業(yè)界最佳模型盤(pán)古預(yù)訓(xùn)練模型1Aircraft(飛行器)90.4389.322CUB-200-2011(鳥(niǎo)類(lèi))86.9091.803DTD(紋理)80.0585.004EuroSAT(衛(wèi)星圖塊)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(動(dòng)物)95.2995.918SUN397(場(chǎng)景)71.5178.929StanfordCars(車(chē))92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.96圖表8盤(pán)古預(yù)訓(xùn)練模型分類(lèi)性能比較列表數(shù)據(jù)集業(yè)界最佳模型盤(pán)古預(yù)訓(xùn)練模型1VOC(自然場(chǎng)景)72.276.62Comic(風(fēng)格變換)35.638.03Clipart(風(fēng)格變換)57.561.04Watercolor(風(fēng)格變換)34.436.95DeepLesion(醫(yī)療)36.738.16Dota2.0(遙感)21.221.07Kitti(自動(dòng)駕駛)29.632.98WiderFace(人臉)35.336.39LISA(紅綠燈)43.542.710Kitchen(廚房場(chǎng)景)53.655.0average41.9643.85圖表9盤(pán)古預(yù)訓(xùn)練模型檢測(cè)性能比較列表3.5盤(pán)古視頻解譯大模型業(yè)務(wù)需求在特定場(chǎng)景分析基礎(chǔ)上,開(kāi)放式場(chǎng)景分析和識(shí)別需求越來(lái)越強(qiáng)烈,尤其是針對(duì)應(yīng)急事件的處理。包括但不限于以下需求:智能視頻檢索,通過(guò)自然語(yǔ)言對(duì)攝像機(jī),或者視頻存儲(chǔ)進(jìn)行開(kāi)放式檢索,如檢索發(fā)生在特定時(shí)間,地點(diǎn)的特殊事件;檢索多個(gè)線(xiàn)索關(guān)聯(lián)的場(chǎng)景等等;視覺(jué)標(biāo)簽庫(kù),通過(guò)對(duì)視覺(jué)數(shù)據(jù)進(jìn)行標(biāo)簽化處理,可以對(duì)所有視頻流的標(biāo)簽進(jìn)行精細(xì)化管理,提升全域攝像機(jī)標(biāo)

簽數(shù)據(jù)的準(zhǔn)確性和實(shí)用性,同時(shí)還可以動(dòng)態(tài)刷新,確保數(shù)據(jù)的實(shí)時(shí)性和有效性;關(guān)鍵幀定位,借助視頻向量化能力,可以實(shí)現(xiàn)對(duì)關(guān)心事件檢索時(shí),可以定位到攝像頭關(guān)鍵幀,并對(duì)關(guān)鍵幀前后視頻直接查看,提升問(wèn)題定位的效率;智能視頻摘要,借助大語(yǔ)言模型的能力,匯總攝像機(jī)關(guān)鍵標(biāo)簽,摘要文本數(shù)據(jù),生成一句話(huà)摘要或分析報(bào)告,將攝方案建議盤(pán)古視頻解譯大模型,是在視頻智能分析服務(wù)(VIAS)和盤(pán)古CV大模型基礎(chǔ)上,融合多模態(tài)大模型能力,進(jìn)一步延伸人工智能在視頻領(lǐng)域的應(yīng)用。此方案依托大模型的萬(wàn)物理解能力,實(shí)現(xiàn)視頻檢索、視頻標(biāo)簽、以及視頻摘要能力。將攝像機(jī)拍攝的畫(huà)面描述出來(lái),實(shí)現(xiàn)讓攝像機(jī)開(kāi)口說(shuō)話(huà)。場(chǎng)景應(yīng)用如上圖所示,此方案主要包括四個(gè)主要部分。中間核心為“盤(pán)古大模型重構(gòu)AI視頻服務(wù)交互”,CV大模型+多模態(tài)大模型雙輪驅(qū)動(dòng),開(kāi)放場(chǎng)景視覺(jué)分析,快速覆蓋場(chǎng)景應(yīng)用

數(shù)千個(gè)場(chǎng)景,并兼容專(zhuān)家模型支持專(zhuān)屬場(chǎng)景準(zhǔn)確識(shí)別。盤(pán)古大模型基礎(chǔ)上,用“Agent驅(qū)動(dòng)視覺(jué)感知”,作為視覺(jué)感知能力入口,通過(guò)可編排可組合可插拔特性,實(shí)現(xiàn)大語(yǔ)言模型對(duì)視覺(jué)感知能力的驅(qū)動(dòng)。最后向上,可以覆蓋海量“場(chǎng)景應(yīng)用”從視覺(jué)文本協(xié)向下重構(gòu)“攝像頭&標(biāo)簽資源”,構(gòu)建分層分類(lèi)視覺(jué)標(biāo)簽體系、動(dòng)態(tài)標(biāo)注,并實(shí)現(xiàn)視頻存儲(chǔ)資源的精細(xì)治理,釋放視頻數(shù)據(jù)資源價(jià)值。Agent驅(qū)動(dòng)視覺(jué)感知Agent驅(qū)動(dòng)視覺(jué)感知大模型驅(qū)動(dòng)視覺(jué)任務(wù)管理視覺(jué)場(chǎng)景智能問(wèn)數(shù)智能標(biāo)簽檢索智能視頻摘要標(biāo)簽指引的精細(xì)化存儲(chǔ)業(yè)務(wù)自適應(yīng)彈性調(diào)度多攝像頭聯(lián)動(dòng)分析視覺(jué)建議生成Agent平臺(tái)盤(pán)古Inside視覺(jué)算法AI視頻開(kāi)發(fā)平臺(tái)開(kāi)放視頻分析盤(pán)古LLM調(diào)度CV能力盤(pán)古大模型重構(gòu)AI視頻服務(wù)交互盤(pán)古盤(pán)古盤(pán)古大模型(Core)多模態(tài)|CV|NLP盤(pán)古AI盤(pán)古基礎(chǔ)標(biāo)簽基礎(chǔ)標(biāo)簽場(chǎng)所標(biāo)簽部件標(biāo)簽事件標(biāo)簽視頻存儲(chǔ)事件存儲(chǔ)視覺(jué)標(biāo)簽體系視覺(jué)存儲(chǔ)資源攝像頭&標(biāo)簽資源全域攝像頭接入多協(xié)議解析視覺(jué)接入資源圖表10視頻解譯大模型架構(gòu)圖AI視頻應(yīng)用案例則,華為率先將行業(yè)視頻管理服務(wù)BG1店都有若干攝像機(jī),對(duì)門(mén)店進(jìn)行管BG需10萬(wàn)路攝像機(jī)統(tǒng)一管理,統(tǒng)一調(diào)閱

攝像機(jī)統(tǒng)一管理視頻數(shù)據(jù)安全全國(guó)所有門(mén)店統(tǒng)一監(jiān)管外墻廣告清潔墻壁攝像機(jī)統(tǒng)一管理視頻數(shù)據(jù)安全全國(guó)所有門(mén)店統(tǒng)一監(jiān)管外墻廣告清潔墻壁員工著裝和行為店內(nèi)廣告商品和樣品放置店內(nèi)地板清潔店內(nèi)櫥窗品牌推廣04|04|AI圖表11華為門(mén)店關(guān)鍵需求AIAI|041AI1AI視頻云平臺(tái),監(jiān)控和檢查所有門(mén)店攝像頭華為云視頻存儲(chǔ)支持?jǐn)z像機(jī)遠(yuǎn)程升級(jí)和配置設(shè)備層華為云行業(yè)視頻管理華為云應(yīng)用層TOBe其他攝像頭華為SDC開(kāi)放接口云存儲(chǔ)設(shè)備接入統(tǒng)一巡檢平臺(tái)設(shè)備配置升級(jí)視頻點(diǎn)檢實(shí)況預(yù)覽華為云AI視頻解決方案在華為門(mén)店項(xiàng)目中,IVM實(shí)現(xiàn)接入多廠(chǎng)家攝像機(jī),充分保護(hù)前期攝像機(jī)建設(shè)成本,門(mén)店不需要任何物理改造,通過(guò)軟件適配實(shí)現(xiàn)統(tǒng)一管理。IVM利用云存儲(chǔ)可靠性高,永不丟失等能力,確保門(mén)店關(guān)鍵事件被記錄、可回溯;同時(shí)支持視頻水印,視頻加密,端到端可回溯等能力,確保視頻傳輸和存儲(chǔ)的安全,并不被盜取。同時(shí)IVM還提供完善的分權(quán)分域管理機(jī)制,隔離多級(jí)管理者,確保顧客隱私和數(shù)據(jù)安全。行業(yè)視頻管理服務(wù)已經(jīng)成為華為門(mén)店管理環(huán)節(jié)中不可或缺的組成部分,融入到華為終端銷(xiāo)售的管理體系中,為華為終端業(yè)務(wù)增長(zhǎng)保駕護(hù)航。圖表12IVM華為門(mén)店解決方案伴隨電子商務(wù)的蓬勃發(fā)展,物流是近些年發(fā)展快速的行業(yè),無(wú)論是營(yíng)業(yè)額還是覆蓋地區(qū)的數(shù)量都在快速增長(zhǎng)。物流行業(yè)屬于勞動(dòng)力密集型行業(yè),有大量分支機(jī)構(gòu)、倉(cāng)庫(kù),一般都采用攝像機(jī)方式進(jìn)行遠(yuǎn)程管理,確保安全,有序傳輸,既保證效率,又保證客戶(hù)端滿(mǎn)意度。因此物流行業(yè)普遍存在以下需求:?上千個(gè)分支機(jī)構(gòu),,超萬(wàn)路攝像機(jī)的集中管理?攝像機(jī)產(chǎn)生的視頻數(shù)據(jù),需要采用高安全的手段進(jìn)行存儲(chǔ)?物品傳遞過(guò)程中,要最大程度避免暴力分揀、錯(cuò)誤配送等問(wèn)題,亟需人工智能的方式進(jìn)行監(jiān)管,改善服務(wù)質(zhì)量華為云提供行業(yè)視頻管理服務(wù)(IVM)和視頻智能分析服務(wù)(VIAS),滿(mǎn)足以上需求。IVM基于華為公有云提供攝像機(jī)管理、視頻流傳輸和存儲(chǔ)功能。確保物流公司管理者在任何地方,都可以遠(yuǎn)程查看視頻畫(huà)面。VIAS提供AI分析算法,包括暴力分揀、吸煙檢測(cè)等,實(shí)時(shí)識(shí)別不符合工作規(guī)范要求的行為并上報(bào),對(duì)工作質(zhì)量進(jìn)行監(jiān)督,極大提升了物流行業(yè)的工作規(guī)范性和服務(wù)質(zhì)量。暴力分揀檢測(cè)吸煙檢測(cè)更多...暴力分揀檢測(cè)吸煙檢測(cè)更多...安全帽識(shí)別車(chē)輛裝載率檢測(cè)擁塞識(shí)別實(shí)況/告警視頻ONVIFONVIFONVIFONVIFONVIF互聯(lián)網(wǎng)互聯(lián)網(wǎng)互聯(lián)網(wǎng)視頻智能分析服務(wù)事件報(bào)警中心任務(wù)中心AI算法中心攝像機(jī)管理圖表13物流行業(yè)視頻接入分析系統(tǒng)架構(gòu)圖中國(guó)漫長(zhǎng)的鐵路線(xiàn)上運(yùn)行著近百萬(wàn)輛鐵路貨車(chē),安全運(yùn)行的重要性不言而喻。當(dāng)前,鐵路系統(tǒng)廣泛采用TFDS(TroubleofmovingFreightcarDetectionSystem,貨車(chē)運(yùn)行故障動(dòng)態(tài)圖像檢測(cè)系統(tǒng)就是利用部署在鐵軌旁的高速相機(jī)拍攝通過(guò)TFDS探測(cè)站的列車(chē)部件圖像,再由列檢員對(duì)這些圖像逐一分析,識(shí)別車(chē)輛故障隱患并預(yù)警處置。受制于技術(shù)發(fā)展,TFDS過(guò)去大多采用人工方式進(jìn)行故障識(shí)別。以鄭州北車(chē)輛段5T檢測(cè)車(chē)間為例,日均檢車(chē)4萬(wàn)余輛,識(shí)別圖片280萬(wàn)余張。列檢員每天需要檢查大量極其相似的圖片,并且需要在5秒左右的時(shí)間及時(shí)發(fā)現(xiàn)細(xì)微的差別,找出列車(chē)存在的故障。人工方式識(shí)別勞動(dòng)

2021年,國(guó)鐵集團(tuán)貨車(chē)事業(yè)部把TFDS故障圖像智能識(shí)別項(xiàng)目作為國(guó)鐵集團(tuán)第一批科研計(jì)劃“揭榜掛帥”課題,指定鄭州局集團(tuán)公司鄭州北車(chē)輛段5T檢測(cè)車(chē)間作為該項(xiàng)目的試點(diǎn)單位,與華為公司、慧鐵科技公司共同研究、聯(lián)手推進(jìn)。TFDSAI它能夠基于海量無(wú)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,還可以“邊用邊學(xué)”;具備小樣本學(xué)習(xí)和樣本生成能力,能夠生成大量訓(xùn)練樣本提升模型質(zhì)量。比如搖枕心盤(pán)脫出的故障,全國(guó)范圍內(nèi)只找到一張故障樣本,借助小樣本學(xué)習(xí),目前盤(pán)古大模型已經(jīng)能正確識(shí)別這個(gè)故障。下圖展示了盤(pán)古視覺(jué)大模型在為T(mén)FDS定制的解決方案。依托于盤(pán)古行業(yè)預(yù)訓(xùn)練大模型,定制化地開(kāi)發(fā)了整體解預(yù)報(bào)故障過(guò)曝、欠曝等質(zhì)量評(píng)估模型預(yù)報(bào)故障過(guò)曝、欠曝等質(zhì)量評(píng)估模型增強(qiáng)圖像算法識(shí)別圖像正常亮度特征提取圖像盤(pán)古行業(yè)預(yù)訓(xùn)練模型 語(yǔ)義相似樣本聚集 等級(jí)化語(yǔ)義聚集TFDS行業(yè)預(yù)訓(xùn)練圖像質(zhì)量評(píng)估部件定位模板匹配異常檢測(cè)故障識(shí)別整車(chē)綜合分析破損、裂縫局部故障檢測(cè)TFDS行業(yè)預(yù)訓(xùn)練圖像質(zhì)量評(píng)估部件定位模板匹配異常檢測(cè)故障識(shí)別整車(chē)綜合分析破損、裂縫局部故障檢測(cè)角度、尺寸等故障關(guān)鍵點(diǎn)檢測(cè)行業(yè)預(yù)訓(xùn)練故障識(shí)別故障識(shí)別部件丟失、錯(cuò)位、出現(xiàn)異常部件等形變、折斷、脫落等基于先驗(yàn)的模板匹配部件故障分類(lèi)部件位置信息行業(yè)預(yù)訓(xùn)練部件目標(biāo)檢測(cè)部件定位異常檢測(cè) 行業(yè)預(yù)訓(xùn)練 大面積地板破損、異物、形變整車(chē)故障綜合分析決方案,包括車(chē)型篩選、工位分類(lèi)、配件篩選、圖像質(zhì)量評(píng)估、已與車(chē)型先驗(yàn)的模板匹配、多車(chē)級(jí)聯(lián)分析等模塊,其中盤(pán)古大模型核心解決方案包含以下組成部分:車(chē)輛拆分根據(jù)整列車(chē)圖像,定位出每輛車(chē)的圖像行業(yè)預(yù)訓(xùn)練模型利用百萬(wàn)級(jí)無(wú)標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型自動(dòng)增強(qiáng)和評(píng)估車(chē)輛拆分根據(jù)整列車(chē)圖像,定位出每輛車(chē)的圖像行業(yè)預(yù)訓(xùn)練模型利用百萬(wàn)級(jí)無(wú)標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型自動(dòng)增強(qiáng)和評(píng)估圖像進(jìn)行自動(dòng)評(píng)估,對(duì)正常圖像做進(jìn)一步故障識(shí)別,非正常圖像返回人工審核模板匹配根據(jù)已知的車(chē)型信息建立零部件的相對(duì)位置模板,預(yù)報(bào)部件位置異常(丟失、錯(cuò)位)故障定位、識(shí)別基于鐵路行業(yè)預(yù)訓(xùn)練大模型,結(jié)合目標(biāo)檢測(cè)、圖像識(shí)別框架,進(jìn)行部件定位、故障識(shí)別基于盤(pán)古視覺(jué)大模型的整體解決方案,在5T檢測(cè)車(chē)間集中作業(yè)分析的14條線(xiàn)路進(jìn)行了驗(yàn)證。由5T檢測(cè)車(chē)間動(dòng)態(tài)檢車(chē)員預(yù)報(bào)并經(jīng)組長(zhǎng)確認(rèn)為提報(bào)故障的數(shù)據(jù)樣本(故障圖片)共計(jì)32007張。在測(cè)試環(huán)境下,這些故障圖片與大量正常圖片混合,送入盤(pán)古大模型進(jìn)行判斷。如下表所示,實(shí)測(cè)結(jié)果表明,當(dāng)前盤(pán)古大模型的識(shí)別精度已經(jīng)超過(guò)人類(lèi)檢測(cè)員水平。攔停準(zhǔn)確預(yù)測(cè)119攔停準(zhǔn)確預(yù)測(cè)119漏報(bào)1故障總數(shù)120識(shí)別率99.17%重點(diǎn)準(zhǔn)確預(yù)測(cè)28280漏報(bào)506故障總數(shù)28786識(shí)別率98.24%一般準(zhǔn)確預(yù)測(cè)3084漏報(bào)17故障總數(shù)3101識(shí)別率99.45%2022年12月,華為云盤(pán)古大模型加持的TFDS系統(tǒng)正式投入使用,可根據(jù)大量的數(shù)據(jù)樣本,自動(dòng)總結(jié)部件特征、自動(dòng)尋找故障規(guī)律,并在實(shí)際試用中持續(xù)改善分析效果,實(shí)現(xiàn)從整體到局部、再到故障細(xì)節(jié)特征的逐步精細(xì)識(shí)別。得益于一雙又快又準(zhǔn)的“盤(pán)古眼”,這套TFDS系統(tǒng)能精準(zhǔn)識(shí)別67430多種故障類(lèi)別,重大異常故障100%識(shí)別,綜合故障識(shí)別率達(dá)99.8%;原來(lái)人工需要識(shí)別4000張圖片,現(xiàn)在僅需要復(fù)檢170多張圖片,工人勞動(dòng)強(qiáng)度下降%,極大提升了檢測(cè)效率和故障識(shí)別率,提高了列車(chē)安全性。(簡(jiǎn)稱(chēng)山能集團(tuán)其中,煤炭產(chǎn)量位居全國(guó)煤炭行業(yè)第三位,礦井智能化生產(chǎn)水平居行業(yè)前列,9處礦井成為首批國(guó)家級(jí)智能化示范礦井。山能集團(tuán)依托盤(pán)古大模型建設(shè)了集團(tuán)人工智能訓(xùn)練中心,把盤(pán)古礦山大模型全面應(yīng)用到采、掘、機(jī)、運(yùn)、通、洗選等9大業(yè)務(wù)系統(tǒng),具備視覺(jué)大模型、預(yù)測(cè)大模型、自然語(yǔ)言大模型等三大能力,探索和發(fā)掘煤礦生產(chǎn)領(lǐng)域全場(chǎng)景的人工智能應(yīng)用,通過(guò)技術(shù)創(chuàng)新實(shí)現(xiàn)“人工智能大規(guī)模下礦”,讓員工遠(yuǎn)離井下作業(yè)環(huán)境,實(shí)現(xiàn)“高效、安全、可持續(xù)性”的生產(chǎn)運(yùn)營(yíng)管理。支持智能生產(chǎn)模式創(chuàng)新1)樣本訓(xùn)練效率高通過(guò)云邊協(xié)同方案,打通集團(tuán)中心云和礦山邊緣云數(shù)據(jù),低代碼小樣本訓(xùn)練,模型自動(dòng)優(yōu)化,邊用邊學(xué),能以更少的數(shù)據(jù)達(dá)到其他模型相同乃至更高的精度;通過(guò)云邊協(xié)同方案,在其AI標(biāo)桿興隆莊煤礦的一處訓(xùn)練,全集團(tuán)

共享,未來(lái)可復(fù)制到集團(tuán)其他70+礦井。海量吞吐信息處理利用無(wú)監(jiān)督訓(xùn)練策略對(duì)海量信息(圖片數(shù)量10億+,視頻信號(hào)>100TB)進(jìn)行歸納抽取訓(xùn)練得到的模型,具備強(qiáng)大視覺(jué)表征識(shí)別能力。模型移植能力大模型相比小模型有良好的泛化性能,在相似場(chǎng)景上訓(xùn)練的模型可遷移到未進(jìn)行訓(xùn)練的新場(chǎng)景上,并且可以快速地在新的礦井進(jìn)行部署和上線(xiàn)應(yīng)用,無(wú)需從零開(kāi)始大量重復(fù)訓(xùn)練。數(shù)據(jù)篩選效率高大模型具有在全新場(chǎng)景實(shí)現(xiàn)缺陷樣本高效篩選的能力,相對(duì)傳統(tǒng)小模型訓(xùn)練方式,可以節(jié)省85%的標(biāo)注人力。模型識(shí)別精度高基于“非正常即異常”識(shí)別原則,快速訓(xùn)練生產(chǎn)、安監(jiān)、決策的L2場(chǎng)景化模型,在同等少量樣本訓(xùn)練的情況下,大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論