華為云AI視頻技術(shù)白皮書 2024_第1頁
華為云AI視頻技術(shù)白皮書 2024_第2頁
華為云AI視頻技術(shù)白皮書 2024_第3頁
華為云AI視頻技術(shù)白皮書 2024_第4頁
華為云AI視頻技術(shù)白皮書 2024_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

HUAWEI華為云AI視頻技術(shù)白皮書華為云一切皆服務(wù)1232.1發(fā)展趨勢 05 073.1參考架構(gòu) 09 113.3視頻智能分析服務(wù)(VIAS) 133.4盤古CV大模型 15 21華為云AI視頻04044.1華為門店 23 254.3鐵路 26 28 30用攝像機拍攝,記錄并播放視頻可以回溯到19世紀(jì),大家公認(rèn)的第一部電影是法國影片《工廠的大門》,1895年由路易斯?盧米埃爾攝影。表現(xiàn)當(dāng)時法國里昂盧米埃爾工廠放工時的情景,片長直到電腦,手機等便攜終端內(nèi)置攝像頭,攝像已經(jīng)成為當(dāng)今社會人們記錄信息并傳播交流的最重要工具和手段,也是大眾百姓所需要和掌握的一項基本生活技能。攝像技術(shù)應(yīng)用也從電影,廣播電視發(fā)展到生活中的方方面面,包括城市治理、安全防護、工業(yè)質(zhì)檢等等。每個城市,每個企業(yè)都有大量的攝像機,不斷在記錄發(fā)生的一切。海量的視頻數(shù)據(jù),在方便大眾的生活的同時,也帶來了很多管理上的困擾。數(shù)據(jù)如何有效存儲,如何能夠感知并記錄關(guān)鍵事件,如何能夠?qū)⑵聊幻媲暗墓ぷ魅藛T解放出來或者減輕他們工作的強度,已經(jīng)成為視頻使用者最關(guān)心的問題。與此同時,AI技術(shù)雖然起步較晚,但隨著其快速的發(fā)展,已經(jīng)在諸多方面與視頻技術(shù)產(chǎn)生了深度的融合。01華為云AI視頻技術(shù)白皮書011950年,艾倫?圖靈(AlanTuring)在論文《計算機器與智能(ComputingMachineryandIntelligence)》中提出了著名的“圖靈測試”,給出了判定機器是否有“智能”的試驗方法。1956年夏,麥卡錫、明斯基等科學(xué)家在美國達特茅斯學(xué)院開會研討“如何用機器模擬人的智能”,首次提出“人工智能(Arti?cial專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、強化學(xué)習(xí)到預(yù)訓(xùn)練大模型,一個又一個技術(shù)的突破,讓人類看到了通用人工智能的希望。自然而然,用人工智能識別視頻數(shù)據(jù),甚至生成視頻數(shù)據(jù)成為了技術(shù)路線的必然選擇。華為公司在視頻技術(shù)和人工智能技術(shù)上都有深厚的積累和豐富的實踐,華為云AI視頻產(chǎn)品正是將AI和視頻技術(shù)相結(jié)合的優(yōu)秀典范。此篇《華為云AI視頻白皮書》,是我們團隊研究和實踐經(jīng)驗的總結(jié),希望能夠更好地促進產(chǎn)業(yè)的發(fā)展,讓攝像機“看得懂、會說話”。02華為云AI視頻技術(shù)白皮書02AI與視頻的碰撞沒有孤立的技術(shù),融合才能發(fā)展。視頻技術(shù)和AI技術(shù)雖然起步時間不同,但在發(fā)展中卻在最需要彼此的時候相遇。如下圖所示,人工智能和視頻編解碼,都經(jīng)歷了漫長的摸索期,并先后于21世紀(jì)取得突破式發(fā)展。深度學(xué)習(xí)將人工智能帶入千行百業(yè)的生產(chǎn)流程,H.264編碼技術(shù)將視頻業(yè)務(wù)帶入移動互聯(lián)網(wǎng),成為每個消費者日常的必需品。兩條平行發(fā)展的技術(shù)踩著同樣的步點,在所有行業(yè)無限的想象空間和發(fā)展?jié)摿?。兩個超萬億產(chǎn)值的行業(yè)相乘,將帶來無法估量的產(chǎn)業(yè)價值。03華為云AI視頻技術(shù)白皮書03TransformerTransformer出現(xiàn)Google提出Transformer替換CNN/RNNChatGPTOpenAI發(fā)布ChatGPT2007年,李飛飛構(gòu)建開源ImageNet,世界最大的圖像識別20231980s201720061980s20171960s19931960s1974–19801956算力不足以支撐發(fā)展算力不足以支撐發(fā)展使用時間壓縮的幀間預(yù)測編碼使用時間壓縮的幀間預(yù)測編碼DCT圖像壓縮算法H.261H.263H.263+H.263++H.262/H.262/MPEG-2H.264/MPEG-4AVCH.265/HEVCH.266MPEGMPEG-1MPEG-4圖表1人工智能VS視頻編解碼發(fā)展歷史04華為云AI視頻技術(shù)白皮書04大量的攝像機安裝完成后,面臨的問題是如何集中式管理。攝像機分散在不同的地方,管理者需要在一個平臺上,跨區(qū)域、大范圍集中管理,通過完善的分權(quán)分域能力保護隱私安全。同時,各攝像機采集的視頻需要集中存儲,因為本地化分散存儲會造成信息碎片化,無法形成多個視頻流之間的2023年到2027年,視頻流上云和云存儲的年復(fù)合增長率超過27%。在云化的趨勢下,視頻流云上管理、存儲越來越成為業(yè)界趨勢,企業(yè)的主流選擇。趨勢2:用預(yù)訓(xùn)練的大模型生成場景模型利用計算機和數(shù)學(xué)算法來模擬和自動化人類視覺的過程。它涉及到從數(shù)字圖像或視頻中提取信息,醫(yī)學(xué)影像分析、機器人視覺等。計算機視頻分析視頻流或者圖片時采用計算機視覺模型。計算機視覺模型是指使用深度學(xué)習(xí)技術(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,用于解決計算機視覺領(lǐng)域的各種問題。這些模型通常由數(shù)百萬或更多個參數(shù)組成,可以對圖像、視頻等視覺數(shù)據(jù)進行高級別的人臉識別等任務(wù)。05華為云AI視頻技術(shù)白皮書05隨著大數(shù)據(jù)和AI算力的發(fā)展,模型參數(shù)越來越大,大模型應(yīng)運而生。大模型指網(wǎng)絡(luò)規(guī)模巨大的深度學(xué)習(xí)模型,具體表現(xiàn)為模型的參數(shù)量規(guī)模較大,其規(guī)模通常在百億以上級別。研究發(fā)現(xiàn),模型的性能(指精度)通常與模型的參數(shù)規(guī)模息息相關(guān)。模型參數(shù)規(guī)模越大,模型的學(xué)習(xí)能力越強,最終的精度也將更高,泛化性也越強。用大模型可以有效提升場景模型的準(zhǔn)確率和泛化性,加上預(yù)訓(xùn)練的海量數(shù)據(jù),用少量樣本,甚至零樣本就可以生成場景模型,解決視頻算法長尾的問題。趨勢3:用視頻解譯大模型理解視頻內(nèi)容視頻場景模型可以用確定的規(guī)則對視頻流進行分析,識別關(guān)鍵事件,輔助人工進行判別并給出決策建議。但現(xiàn)實世界紛繁復(fù)雜,花鳥魚蟲,春夏秋冬,都在表達著自己的個性和不同,規(guī)則是無法窮盡的,判別式算法不斷遇到新的需求和挑戰(zhàn)。如何能夠用泛化性強的模型理解視頻,并通過自然語言的方式進行交互和報告,真正讓人類從繁瑣、重復(fù)性的事務(wù)中脫離出來是行業(yè)內(nèi)普遍的需求。視頻解譯大模型融合了視覺大模型、多模態(tài)大模型、自然語言大模型多種模型,可以實現(xiàn)對視頻、圖片、聲音、文本多種模態(tài)組合分析,感知視頻流發(fā)生的各種事件,實現(xiàn)讓攝像機開口說話,實現(xiàn)真正的智能分析、智能交互、智能決策。06華為云AI視頻技術(shù)白皮書06城市日常管理在城市治理場景中,往往建設(shè)有龐大復(fù)雜的城市事件類別體系,包含了繁多細碎的事項類別,如垃圾暴露、道路破損、圍欄破損等等,一個城市一般有幾百種事件類別。同時,不同城市可能還有不同的標(biāo)準(zhǔn),可能某城市關(guān)注某一些特定事件類別,另一個城市又關(guān)注另一些特定事件類別。因此,城市政務(wù)場景面臨著眾多碎片化AI需求場景。城市事件的類別數(shù)量眾多,同時絕大多數(shù)的城市事件又難以采集到大量數(shù)據(jù)來訓(xùn)練AI模型,這種問題我們稱為“碎片化長尾需求場景”?!八槠L尾需求”一直是AI開發(fā)面臨的難題,傳統(tǒng)的AI開發(fā)模式需要對每種目標(biāo)類別單獨采集數(shù)據(jù)、訓(xùn)練模型,依賴專家經(jīng)驗進行算法參數(shù)調(diào)優(yōu),最后才能上線應(yīng)用,每種算法的開發(fā)周期耗費幾周至幾個月,低下的效率難以滿足當(dāng)前高速的城市建設(shè)發(fā)展。華為AI視頻方案,基于AI開發(fā)工作流,將數(shù)據(jù)標(biāo)注、模型訓(xùn)練、部署上線等繁雜的流程固化為一個流水線的步驟,無需編寫代碼,任何人只要有準(zhǔn)備數(shù)據(jù),都可以通過流水線交互步驟快速地完成一個AI應(yīng)用的開發(fā)和上線。每個AI算法的開發(fā)周期縮短至幾天便可完成。同時基于預(yù)訓(xùn)練CV大模型的能力,依托于海量的大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,即便只有少量樣本,也可以達到良好的模型泛化性和魯棒性,解決碎片化長尾需求的解決碎片化長尾需求場景的問題,更好地將AI落地到智慧城市的建設(shè)發(fā)展中。07華為云AI視頻技術(shù)白皮書07城市應(yīng)急處置在城市建設(shè)過程中,除了事先設(shè)定好的事件類別,還經(jīng)常有突發(fā)性的臨時需求。比如突發(fā)暴雨,很多地方會臨時地希望檢測各地是否有積水內(nèi)澇的情況,以便及時預(yù)防與救援;或者某地突發(fā)交通事故,相關(guān)部門也想快速地排查周邊受影響交通擁堵的路段,以及時安排人力疏通車流。這些突發(fā)性的臨時需求,可能根據(jù)天氣、地點、時間等不同因素千變?nèi)f化,這在城市政務(wù)的場景十分常見,也對于保障城市正常運轉(zhuǎn)有著非常重要的作用。然而,這種臨時性的需求對于傳統(tǒng)AI開發(fā)來說是災(zāi)難性的。傳統(tǒng)的AI開發(fā)需要對每種待識別的事件采集數(shù)據(jù)、訓(xùn)練模型,而訓(xùn)練出來的模型也僅能解決這一特定的任務(wù)。當(dāng)一個臨時性的AI需求來臨時,既往訓(xùn)練出來的模型肯定是無法適應(yīng)這個新的任務(wù)的,那又要基于這個新的需求采集對應(yīng)數(shù)據(jù)、訓(xùn)練模型,這一流程走下來即便有AI開發(fā)工作流支撐,少說也要幾天的時間開發(fā)上線。但是臨時性的需求往往是緊急的,比如對于積水內(nèi)澇的場景,時間就是生命,業(yè)務(wù)往往要求算法立刻就能發(fā)揮作用、識別事件。因此傳統(tǒng)的AI開發(fā)模式面對這種緊急的臨時性需求就顯得捉襟見肘了。華為AI視頻方案,基于業(yè)界最新的多模態(tài)大模型技術(shù),構(gòu)建了開放式的目標(biāo)檢測和分割模型。該算法模型基于海量數(shù)據(jù)預(yù)訓(xùn)練的大模型,具備通用的特征提取能力,同時內(nèi)嵌預(yù)言大模型,可以理解用戶輸入文本的語義信息。因此,該模型可以結(jié)合用戶輸入的任意文本信息,實現(xiàn)對應(yīng)物體的檢測,即便這個物體之前沒有出現(xiàn)在模型的訓(xùn)練集里。這種特性非常符合城市治理里突發(fā)性的臨時需求場景。比如面對積水內(nèi)澇的場景,就不需要再針對積水事件重新訓(xùn)練一個模型,而是簡單地輸入一個類似“請問畫面中是否有積水內(nèi)澇?”的語句,算法通過圖片和文本的語義理解,就可以識別出來畫面中是否有積水內(nèi)澇的事件了。這樣一來,算法就不再局限于僅能識別特定范圍的一些事件,應(yīng)用的廣度被無限地拉大,也能更好地滿足城市政務(wù)場景中靈活變化的業(yè)務(wù)需求。更詳細的應(yīng)用場景請參考章節(jié)“4AI視頻應(yīng)用案例”08華為云AI視頻技術(shù)白皮書08AI視頻介紹AI視頻服務(wù)依托聯(lián)接、云、AI、計算等新一代ICT技術(shù)與知識創(chuàng)新融合,將感知、認(rèn)知、決策、行動實現(xiàn)深度協(xié)同。其充分利用云計算能力,系統(tǒng)功能可靠、穩(wěn)定、完整。平臺設(shè)計秉承模塊化、框架化、集群化、服務(wù)化的設(shè)計理念,提供電信級系統(tǒng)可靠性、可擴展性和可維護性,滿足不同場景對接整合、兼容應(yīng)用和可持續(xù)發(fā)展的需要。AI視頻服務(wù)是面向行業(yè)視頻場景的組合方案,參考華為公司架構(gòu),包括行業(yè)視頻管理(IVM),智能視頻分析服務(wù)(VIAS)和盤古CV大模型三個產(chǎn)品。可以提供一站式服務(wù),將視頻流從攝像機接并上報給上層應(yīng)用系統(tǒng)進行處理,實現(xiàn)用人工智能的方式,用攝像機感知萬物、掌控全局。如下圖所示,典型的組網(wǎng)分為接入層、網(wǎng)絡(luò)層、平臺層和應(yīng)用層。AI視頻服務(wù)屬于平臺層網(wǎng)元,和接入層、網(wǎng)絡(luò)層、應(yīng)用層設(shè)備互聯(lián)互動,相互配合,形成整體解決方案。09華為云AI視頻技術(shù)白皮書09視頻智能分析服務(wù)(視頻智能分析服務(wù)(VIAS)盤古CV模型行業(yè)視頻管理(IVM)圖表2AI視頻系統(tǒng)架構(gòu)圖10華為云AI視頻技術(shù)白皮書10接入層主要設(shè)備為攝像機和NVR,負責(zé)采集視頻數(shù)據(jù),并通過標(biāo)準(zhǔn)協(xié)議注冊到平臺層,被平臺進行管理;NVR可以實現(xiàn)對多個攝像機匯聚管理,并在本地存儲視頻。網(wǎng)絡(luò)層主要為網(wǎng)絡(luò)設(shè)備,負責(zé)通過IP協(xié)議,將攝像機,NVR等邊緣設(shè)備接入到平臺層,同時負責(zé)包保障視頻流傳輸?shù)馁|(zhì)量,包括但不限于丟包,抖動,時延等等。平臺層的AI視頻服務(wù),采用云化架構(gòu),支持公有云,混合云等多種模式。AI視頻屬于SaaS服務(wù),依賴云平臺虛擬機,OBS存儲,網(wǎng)絡(luò)傳輸?shù)饶芰Γ瓿蓪z像機設(shè)AI視頻提供對視頻流的分析能力,理解視頻流內(nèi)容、關(guān)鍵事件,并將相應(yīng)的結(jié)果推送給上層應(yīng)用系統(tǒng)。應(yīng)用層負責(zé)面向行業(yè),提供圖形化頁面和管理功能。不同行業(yè)有不同的應(yīng)用系統(tǒng),例如連鎖門店客流管理系統(tǒng)、智慧安防系統(tǒng)、智慧園區(qū)管理系統(tǒng)等等。華為云AI視頻服務(wù)和應(yīng)用層是松耦合關(guān)系,采用消息接口對接。部署攝像機(SDC/IPC)等端側(cè)設(shè)備后,首先需要集中管理功能,包括設(shè)備信息注冊、遠程配置、分權(quán)分域等功能。同時還要能夠?qū)崿F(xiàn)基于互聯(lián)網(wǎng)任意時間、任意地點還要能夠?qū)崿F(xiàn)視頻流存儲,將視頻流錄制下來,長時間依托于華為云基礎(chǔ)設(shè)施與音視頻領(lǐng)域技術(shù)優(yōu)勢,為攝像機頻傳輸及視頻存儲能力,適用于安全防范、生產(chǎn)管理、智慧運營等場景。行業(yè)視頻管理服務(wù)可以幫助企業(yè)快速完成也支持中國標(biāo)準(zhǔn)GB/T28181協(xié)議,同時還支持私有協(xié)議行業(yè)視頻管理服務(wù)具備為公眾及其他業(yè)務(wù)系統(tǒng)提供媒體流播放能力。媒體轉(zhuǎn)碼主要滿足互聯(lián)網(wǎng)web/H5技術(shù)和視頻系統(tǒng)媒體流之間的轉(zhuǎn)換適配需求,通過將碼流轉(zhuǎn)換為業(yè)務(wù)集成和開放提供快速的技術(shù)方案,同時提供基于視頻技術(shù)的富媒體應(yīng)用技術(shù)。支持遠程查看前端攝像機的實時視頻,根據(jù)現(xiàn)場情況進行事件預(yù)判,實現(xiàn)視頻實時瀏覽播放,實時播放時可顯示視頻相關(guān)信息,便于視頻流的狀態(tài)查詢和故障診斷。支持多布局能力,支持多個視頻點位同時進行實況預(yù)覽;單擊攝像機開啟視頻按照從左到右、從上到下的順序選擇播放窗口;如果當(dāng)前所有窗格已經(jīng)用完,可手動增加另一個多窗格布局;系統(tǒng)客戶端支持同時播放多個前端設(shè)備的實時視頻。支持顯示當(dāng)前實況攝像頭的視頻信息,其中視頻信息包括:當(dāng)前碼率、平均碼率、編碼格式、分辨率等;支持聲音控制,例如靜音、取消靜音;支持以拖動攝像頭的11華為云AI視頻技術(shù)白皮書11方式進行播放和停止;支持單畫面停止播放,支持全部行業(yè)視頻管理服務(wù)提供大容量的云端存儲,通過互聯(lián)網(wǎng)實時將前端數(shù)據(jù)傳出至云端,依托于華為云OBS服務(wù),為客戶提供可靠的數(shù)據(jù)數(shù)據(jù)備份,幫助客戶實現(xiàn)更長周期、更大容量、更高安全的云上數(shù)據(jù)管理。路/年路/年Mbps/年GB/年量綱行事后錄像的檢索,通過錄像可查看之前發(fā)生的事件現(xiàn)場視頻,實現(xiàn)事后取證功能。同時支持查詢平臺錄像、前端錄像;支持自定義時間范圍進行錄像查詢;支持錄像查詢結(jié)果以進度條方式展現(xiàn),進度條可以前后拖動,支持精度縮放等功能。行業(yè)視頻管理服務(wù)(IVM)基于華為公有云,提供攝像機設(shè)備管理、接入、調(diào)閱、存儲等服務(wù)。主要功能服務(wù)方式如下,供項目參考。圖表3行業(yè)視頻管理(IVM)方案建議12華為云AI視頻技術(shù)白皮書12完成攝像機和行業(yè)視頻管理平臺建設(shè)后,實現(xiàn)了視頻流集中管理、集中存儲。如果僅僅依靠人工監(jiān)看的方式,必然消耗大量人力,識別準(zhǔn)確率依賴人員技能。如何實現(xiàn)視頻流的自動分析、準(zhǔn)確識別關(guān)事件主動上報成為普遍的業(yè)務(wù)需求?;谌斯ぶ悄艿囊曨l分析服務(wù),要能夠為上層的行業(yè)應(yīng)用提供AI能力,包括但不限于:》豐富的視頻分析算法,滿足復(fù)雜場景分析需求;》建設(shè)視頻統(tǒng)一分析平臺,集中管理,充分盤活視頻》算法統(tǒng)一管理,算法和算力解耦,多廠家算法共享算法倉,算力統(tǒng)一調(diào)度。視頻智能分析服務(wù)(VIAS)是集成視頻AI分析、事件感知等能力的一體化平臺,實現(xiàn)智慧園區(qū)、城市治理、安全生產(chǎn)等場景的事件感知、分析和決策能力,助力業(yè)務(wù)閉環(huán)。視頻智能分析服務(wù)提供豐富的“開箱即用”的算智慧園區(qū)等等,幫助千行百業(yè)快速使用成熟的人工智能技術(shù),提效降本。主要包括分析服務(wù)、算法中心、視頻中心、任務(wù)中心、事件中心等功能。視頻分析服務(wù)是承載視頻AI算法的彈性計算引擎,提供視頻數(shù)據(jù)接入、分析及告警輸出的能力,可通過API支撐業(yè)務(wù)開發(fā)應(yīng)用,同時能夠幫助AI開發(fā)人員提升視頻AI集成效率,助力其核心業(yè)務(wù)價值開發(fā)。視頻分析能力主要基于如下技術(shù)構(gòu)建:1)物體檢測技術(shù)物體檢測是視覺感知的第一步,也是計算機視覺的一個重要分支。物體檢測的目標(biāo),就是用框去標(biāo)出物體的位置,并給出物體的類別。在當(dāng)前視頻分析服務(wù)構(gòu)建的能力中,人或者車的檢測是第一步,也是最關(guān)鍵的一步。人與車目標(biāo)檢測的準(zhǔn)確率也會直接影響后續(xù)算法的效果,但由于目標(biāo)環(huán)境的多樣性復(fù)雜性,對于物體的檢測,通常會受到不同環(huán)境的干擾。所以為了提高算法的通常會針對實際的應(yīng)用場景進行定制化的訓(xùn)練,以此排除復(fù)雜的環(huán)境帶來的干擾。2)圖像分類技術(shù)一張圖像中是否包含某種物體,對圖像進行特征描述是物體分類的主要研究內(nèi)容。一般說來,物體分類算法通過手工特征或者特征學(xué)習(xí)方法對整個圖像進行全局描述,然后使用分類器判斷是否存在某類物體。圖像分類的研究,通常衍生出來對特定目標(biāo)物體進行檢測的能力,比如識別大貨車、公交車等特定的目標(biāo)。3)物體定位技術(shù)如果說圖像識別解決的是what,那么物體定位解決的則是where的問題。利用計算視覺技術(shù)找到圖像中某一目標(biāo)物體在圖像中的位置,即定位。對物體的定位,通常能衍生出很廣的應(yīng)用場景。比如在安防領(lǐng)域,判斷目標(biāo)13華為云AI視頻技術(shù)白皮書13物體的位置,可以進行入侵檢測、徘徊檢測以及過線計數(shù)等等算法。交通、應(yīng)急管理等場景的視頻AI分析能力,不但能保證自研AI算法的接入,還能保證第三方算法和行業(yè)共享算法的對接,最終實現(xiàn)AI能力的穩(wěn)步提升。優(yōu)化,已沉淀形成多種類型的算法能力。算法中心提供多廠商、多框架、多功能的統(tǒng)一管支持用戶將導(dǎo)入的算法鏡像進行統(tǒng)一管理,支持算法版本的全生命周期管理,為后續(xù)算法部署提供基礎(chǔ)管理能力。用戶可在該模塊查看已上線的算法能力,同時為三方開發(fā)者提供賬號體系,開發(fā)者可在該模塊發(fā)布新算法、更新算法版本。算法中心可跳轉(zhuǎn)算法商城,算法商城展示了可上線的算法能力清單,可根據(jù)用戶業(yè)務(wù)需求上線。路路/年路/年量綱實現(xiàn)視頻算法的整體功能性配置,構(gòu)建基于視頻數(shù)據(jù)的攝像機分組管理等功能。任務(wù)中心提供算法作業(yè)配置、算法作業(yè)管理能力,是算法的核心配置模塊,通過該模塊的配置,算法即可具備公共模板、定時任務(wù)等功能。委辦單位可通過該模塊查看視頻分析的事件結(jié)果,同時支持將事件分析結(jié)果上報到現(xiàn)網(wǎng)業(yè)務(wù)系統(tǒng),及時發(fā)現(xiàn)事件并視頻智能分析服務(wù)(VIAS)基于華為公有云,提供視頻算法分析服務(wù)、算法管理、算力管理、任務(wù)管理、事件管理等。主要功能服務(wù)方式如下,供項目參考。圖表4視頻智能分析服務(wù)方案建議14華為云AI視頻技術(shù)白皮書14隨著工業(yè)生產(chǎn)越來越強調(diào)智能化,大量傳統(tǒng)行業(yè)開始積累領(lǐng)域數(shù)據(jù),并尋求人工智能算法以解決生產(chǎn)和研發(fā)過程中遇到的重復(fù)而冗雜的問題。這就意味著,人工智能算法在落地的過程中,將會面對大量不同場景、不同需求的用戶。這對算法的通用性提出了很高的要求。然而我們注意到,當(dāng)前業(yè)界大部分人工智能開發(fā)者,正在沿用傳統(tǒng)的“小作坊模式”,即針對每個場景,獨立地完成模型選擇、數(shù)據(jù)處理、模型優(yōu)化、模型迭代等一系列開發(fā)環(huán)節(jié)。由于無法積累通用知識,同時不同領(lǐng)域的調(diào)試方法有所不同,這樣的開發(fā)模式往往比較低效。特別地,當(dāng)前人工智能領(lǐng)域存在大量專業(yè)水平不高的開他們往往不能掌握規(guī)范的開發(fā)模式和高效的調(diào)優(yōu)技巧,從而使得模型的精度、性能、可擴展性等指標(biāo)都不能達到令人滿意的水平。我們將上述問題,稱為人工智能算法落地的碎片化困境。因此如何能夠類似流水線的方式,用少量樣本,快速生成場景化模型,成為行業(yè)的迫切需求。華為盤古CV大模型瞄準(zhǔn)人工智能在工業(yè)場景應(yīng)用中的困境,創(chuàng)造性提出用經(jīng)過海量數(shù)據(jù)預(yù)訓(xùn)練的視覺大模型作為訓(xùn)練工作流,用類似工業(yè)流水線的方式快速生成場景化模型。盤古CV大模型收集大量圖像數(shù)據(jù),以及圖像和文本對比數(shù)據(jù),利用無監(jiān)督或者自監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)中蘊含的知識提取出來,存儲在具有大量參數(shù)的神經(jīng)網(wǎng)就能夠?qū)⑦@些知識釋放出來,并且與行業(yè)經(jīng)驗結(jié)合,解決實際問題。超大的神經(jīng)網(wǎng)絡(luò)強壯的網(wǎng)絡(luò)架構(gòu)(千億參數(shù))(千億參數(shù))預(yù)訓(xùn)練微調(diào)&預(yù)訓(xùn)練微調(diào)&部署模型泛化極大節(jié)省訓(xùn)練投入圖表5盤古CV大模型工作流原理15華為云AI視頻技術(shù)白皮書15對于常見的視覺處理任務(wù),盤古CV大模型通過自動化模型抽取、參數(shù)自動化調(diào)優(yōu)等模塊實現(xiàn)場景模型的訓(xùn)練和圖像分類、異常檢測、目標(biāo)跟蹤、語義分割、實例分割等多條預(yù)訓(xùn)練工作流,可以全面覆蓋場景模型訓(xùn)成為行業(yè)首選。由于盤古CV大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實現(xiàn)數(shù)據(jù)標(biāo)注、模型開發(fā)、推小樣本,結(jié)合數(shù)據(jù)檢索及數(shù)據(jù)增廣技術(shù),相對傳統(tǒng)訓(xùn)練高精度,受益于更好的語義對齊效果,在小樣本學(xué)習(xí)上表現(xiàn)優(yōu)異,顯著超越對比方法;高效率,利用行業(yè)模型高效表征及數(shù)據(jù)篩選能力,數(shù)據(jù)由于盤古CV大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實現(xiàn)數(shù)據(jù)標(biāo)注、模型開發(fā)、推技術(shù)原理計算機視覺的主要目標(biāo),是設(shè)計出能夠識別視覺信號,并且對其進行各種處理和分析的程序。換句話說,計算機視覺是研究計算機如何去“看”的學(xué)科。其中,較為典型的任務(wù)包括圖像分類、物體檢測、物體分割、物體追蹤、姿態(tài)估計等。下圖展示了圖像分類中最著名的數(shù)據(jù)集(包括檢測、分割等多種任務(wù))。場景腰帶物體檢測流量檢測貨物檢測安全帽容器檢測每個行業(yè)的模型開發(fā)套件皮帶跑偏檢測違章停車高速列車故障檢測爬圍欄場景腰帶物體檢測流量檢測貨物檢測安全帽容器檢測每個行業(yè)的模型開發(fā)套件皮帶跑偏檢測違章停車高速列車故障檢測爬圍欄違章停車鐵路工地16華為云AI視頻技術(shù)白皮書16TheImageNetdataset~15Mimages,~21Kcategories,~1.5TBTheMS-COCOdatasetdetection,segmentation,poseestimation,etc.圖表7測試數(shù)據(jù)集在計算機中,視覺信號一般以“密集采樣強度”的方式存儲:不同方向入射的光線在每個信道(如紅綠藍)上的強度被記錄下來,用于呈現(xiàn)圖像的基本內(nèi)容。圖像中的每個基本單元被稱為像素——很顯然,這些像素并不能代表基本的語義這也是幾乎所有計算機視覺研究所需要處理的核心問題。進一步探究圖像的存儲形態(tài),我們會發(fā)現(xiàn)圖像信號的若干特點:信息密度低圖像信號能夠忠實地反映事物信息密度低圖像信號能夠忠實地反映事物的客觀表征;然而其中相當(dāng)部分的數(shù)據(jù)被用于表達圖像中的低頻區(qū)域(如天空)或者無明確語義的高頻(如隨機噪聲)區(qū)域。這就導(dǎo)致了圖像信號的有效信息密度較低,特別是相比于文本信號而言。域豐富多變圖像信號受到域的影響較大,而且這種影響通常具有全局性質(zhì),難以和語義區(qū)分開來。例如,同樣的語義內(nèi)容,在強度不同的光照下,就會體現(xiàn)出截然不同的表征。同時,相同的姿態(tài)出現(xiàn),從而在像素上產(chǎn)生巨大差異,為視覺識別算法帶圖像信號的基本單位是像素,但是單個像素往往不能表達語義。圖像識別的任務(wù),就是構(gòu)建特定函數(shù),使得像素級輸入能夠產(chǎn)生語義級輸出。這種函數(shù)往往非常復(fù)雜,很難通過手工方式定義。17華為云AI視頻技術(shù)白皮書17鑒于上述特點,基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型就成為了計算機視覺落地的最佳方案之一。預(yù)訓(xùn)練過程能夠一定程度上完成視覺信號的壓縮,深度神經(jīng)網(wǎng)絡(luò)能夠抽取層次化的視覺特征,而預(yù)訓(xùn)練結(jié)合微調(diào)的范式則能夠應(yīng)對豐富多變的域。數(shù)據(jù)收集圖像是一種復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),包含豐富的語義信息?,F(xiàn)如今,還沒有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學(xué)規(guī)律進行準(zhǔn)確的描述,因而人們只能通過收集大量的數(shù)據(jù),來近似現(xiàn)實中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的得訓(xùn)練、評估大規(guī)模圖像處理方法成為可能。隨著計算的局限性逐漸顯現(xiàn)出來,包括規(guī)模、復(fù)雜性等。為了解決這一問題,我們必須收集更大規(guī)模、更加復(fù)雜的圖像數(shù)據(jù),而這也是業(yè)界的一致趨勢。通過多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴充、各搜索引擎關(guān)鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中,我們篩除了低分辨率、低曝、過曝、簡單背景等低質(zhì)量圖像數(shù)據(jù),再通過已有預(yù)訓(xùn)練視覺模型進行重復(fù)圖像的判斷和去除,最~40TB存儲空間~40TB存儲空間10億+圖像數(shù)據(jù)鐵路,遙感等18華為云AI視頻技術(shù)白皮書18預(yù)訓(xùn)練方法我們使用的神經(jīng)網(wǎng)絡(luò)模型覆蓋了計算機視覺領(lǐng)域最為常也可以按需結(jié)合以達到更好的效果。利用自動機器學(xué)習(xí)算法,能夠支持并調(diào)用不同大小的神經(jīng)網(wǎng)絡(luò),其中最大的計算模型具有接近30億參數(shù),最小的模型只有數(shù)十萬參數(shù),其大小相差超過1000倍,為適配不同的視覺任務(wù)提供了可能性。我們收集的訓(xùn)練數(shù)據(jù)大部分來自互聯(lián)網(wǎng),不僅具有相當(dāng)程度的噪聲,而且不包含準(zhǔn)確的語義標(biāo)簽。為了充分利用這些數(shù)據(jù),我們設(shè)計了自監(jiān)督學(xué)習(xí)方法,即通過某種或者某幾種代理任務(wù),教會模型如何理解視覺數(shù)據(jù),在沒有語義標(biāo)簽的情況下也能擬合復(fù)雜的數(shù)據(jù)分布。與此同時,我們在對比學(xué)習(xí)的基礎(chǔ)上優(yōu)化了相關(guān)代理算法,業(yè)界首創(chuàng)在對比度自監(jiān)督學(xué)習(xí)中引入等級化語義相似度,即挑選那些距離相應(yīng)聚類中心更近的最近鄰作為正樣本,并且在拉近語義相似樣本的時候引入了混合樣本增強,以減少樣本選取過程中的噪聲影響。在此基礎(chǔ)上,我們拓展自監(jiān)督學(xué)習(xí)算法中正樣本的數(shù)目,使得正樣本集合能夠更加高效地被聚集,同時避免受到大量負樣本優(yōu)化的影響。我們采用的預(yù)訓(xùn)練算法(發(fā)表于TPAMI上)的t(xpMixedSamplet(xpMixedSampleAAAnchorSampleAnchorSamplePositiveSamplePositiveSamplepSemanticpSemanticSearchCandidatesinDatasetMLPMLPL=-(CE+CE(q,K))2pEncoderqEncoderKBottleneckBottleneckBottleneckBottleneckBottleneckMLPMLPL=-(CE+CE(q,K))2pEncoderqEncoderKBottleneckBottleneckBottleneckBottleneckBottleneckqaqpqkakpkakpkakp(注:基于等級化語義聚集的對比度自監(jiān)督學(xué)習(xí))19華為云AI視頻技術(shù)白皮書19效果展示同時,受益于更好的語義對齊效果,我們的方法在小樣本越對比方法。以此方法為基礎(chǔ),我們設(shè)計了具有10億參數(shù)量的基礎(chǔ)模型,并在超過10億張無標(biāo)注圖像組成的數(shù)到83.0%。同時,盤古大模型在超過20項下游任務(wù)上進數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型20華為云AI視頻技術(shù)白皮書20在特定場景分析基礎(chǔ)上,開放式場景分析和識別需求越來越強烈,尤其是針對應(yīng)急事件的處理。包括但不限于智能視頻檢索,通過自然語言對攝像機,或者視頻存儲進行開放式檢索,如檢索發(fā)生在特定時間,地點的特殊事件;檢索多個線索關(guān)聯(lián)的場景等等;視覺標(biāo)簽庫,通過對視覺數(shù)據(jù)進行標(biāo)簽化處理,可以對所有視頻流的標(biāo)簽進行精細化管理,提升全域攝像機標(biāo)簽數(shù)據(jù)的準(zhǔn)確性和實用性,同時還可以動態(tài)刷新,確保關(guān)鍵幀定位,借助視頻向量化能力,可以實現(xiàn)對關(guān)心事件檢索時,可以定位到攝像頭關(guān)鍵幀,并對關(guān)鍵幀前后視頻直接查看,提升問題定位的效率;智能視頻摘要,借助大語言模型的能力,匯總攝像機關(guān)鍵標(biāo)簽,摘要文本數(shù)據(jù),生成一句話摘要或分析報告,將攝21華為云AI視頻技術(shù)白皮書21盤古視頻解譯大模型,是在視頻智能分析服務(wù)(VIAS)和盤古CV大模型基礎(chǔ)上,融合多模態(tài)大模型能力,進一步延伸人工智能在視頻領(lǐng)域的應(yīng)用。此方案依托大模型的萬物理解能力,實現(xiàn)視頻檢索、視頻標(biāo)簽、以及視頻摘要能力。將攝像機拍攝的畫面描述出來,實現(xiàn)讓攝像機開口說話。如上圖所示,此方案主要包括四個主要部分。中間核心為“盤古大模型重構(gòu)AI視頻服務(wù)交互”,CV大模型+多模態(tài)大模型雙輪驅(qū)動,開放場景視覺分析,快速覆蓋數(shù)千個場景,并兼容專家模型支持專屬場景準(zhǔn)確識別。盤古大模型基礎(chǔ)上,用“Agent驅(qū)動視覺感知”,作為視覺感知能力入口,通過可編排可組合可插拔特性,實現(xiàn)大語言模型對視覺感知能力的驅(qū)動。最后向上,可以覆蓋海量“場景應(yīng)用”從視覺+文本協(xié)向下重構(gòu)“攝像頭&標(biāo)簽資源”,構(gòu)建分層分類視覺標(biāo)簽體系、動態(tài)標(biāo)注,并實現(xiàn)視頻存儲資源的精細治理,釋放視頻數(shù)據(jù)資源價值。場景應(yīng)用場景應(yīng)用大模型驅(qū)動視覺任務(wù)管理大模型驅(qū)動視覺任務(wù)管理視覺場景智能問數(shù)視覺場景智能問數(shù)智能標(biāo)簽檢索智能標(biāo)簽檢索智能視頻摘要智能視頻摘要標(biāo)簽指引的精細化存儲標(biāo)簽指引的精細化存儲業(yè)務(wù)自適應(yīng)彈性調(diào)度業(yè)務(wù)自適應(yīng)彈性調(diào)度多攝像頭聯(lián)動分析多攝像頭聯(lián)動分析視覺建議生成視覺建議生成AgentAgent驅(qū)動視覺感知AgentAgent平臺盤古盤古Inside視覺算法AIAI視頻開發(fā)平臺開放視頻分析開放視頻分析盤古盤古LLM調(diào)度CV能力AI視頻框架+盤古AI視頻框架+盤古端邊云協(xié)同+盤古視頻數(shù)據(jù)智能+盤古視頻任務(wù)管理+盤古盤古大模型重構(gòu)AI視頻服務(wù)交互攝像頭攝像頭&標(biāo)簽資源視覺接入資源視覺接入資源視覺存儲資源視覺存儲資源視覺標(biāo)簽體系視覺標(biāo)簽體系圖表10視頻解譯大模型架構(gòu)圖22華為云AI視頻技術(shù)白皮書22AI視頻應(yīng)用案例?全國所有門店統(tǒng)一監(jiān)管客戶需求和痛點?全國所有門店統(tǒng)一監(jiān)管客戶需求和痛點圖表11華為門店關(guān)鍵需求23華為云AI視頻技術(shù)白皮書23行業(yè)視頻管理服務(wù)(IVM行業(yè)視頻管理服務(wù)(IVM)完美滿足以上視頻調(diào)閱和視頻存儲,一個管理中心可以管理分布在全國的所有華為門店。在華為門店項目中,IVM實現(xiàn)接入多廠家攝像機,充分保護前期攝像機建設(shè)成本,門店不需要任何物理改造,通過軟件適配實現(xiàn)統(tǒng)一管理。IVM利用云存儲可靠性高,永不丟失等能力,確保門店關(guān)鍵事件被記錄、可回溯;同時支持視頻水印,視頻加密,端到端可回溯等能力,確保視頻傳輸和存儲的安全,并不被盜取。同時IVM還提供完善的分權(quán)分域管理機制,隔離多級管理者,確保顧客隱私和數(shù)據(jù)安全。行業(yè)視頻管理服務(wù)已經(jīng)成為華為門店管理環(huán)節(jié)中不可或缺的組成部分,融入到華為終端銷售的管理體系中,為華為終端業(yè)務(wù)增長保駕護航。華為云AI視頻解決方案TOBe?1個AI視頻云平臺,監(jiān)控和檢查所有門店攝像頭圖表12IVM華為門店解決方案24華為云AI視頻技術(shù)白皮書24伴隨電子商務(wù)的蓬勃發(fā)展,物流是近些年發(fā)展快速的行業(yè),無論是營業(yè)額還是覆蓋地區(qū)的數(shù)量都在快速增長。物流行業(yè)屬于勞動力密集型確保安全,有序傳輸,既保證效率,又保證客戶端滿意度。因此物流》上千個分支機構(gòu),,超萬路攝像機的集中管理》攝像機產(chǎn)生的視頻數(shù)據(jù),需要采用高安全的手段進行存儲》物品傳遞過程中,要最大程度避免暴力分揀、錯誤配送等問題,亟需人工智能的方式進行監(jiān)管,改善服務(wù)質(zhì)量滿足以上需求。IVM基于華為公有云提供攝像機管理、視頻流傳輸和VIAS提供AI分析算法,包括暴力分揀、吸煙檢測等,實時識別不符合工作規(guī)范要求的行為并上報,對工作質(zhì)量進行監(jiān)督,極大提升了物流行業(yè)的工作規(guī)范性和服務(wù)質(zhì)量。AIAI算法中心ONVIFONVIFONVIFONVIFONVIF圖表13物流行業(yè)視頻接入分析系統(tǒng)架構(gòu)圖25華為云AI視頻技術(shù)白皮書254.3鐵路中國漫長的鐵路線上運行著近百萬輛鐵路貨車,安全運行的重要性不言而喻。當(dāng)前,鐵路系統(tǒng)廣泛采用TFDS就是利用部署在鐵軌旁的高速相機拍攝通過TFDS探測站的列車部件圖像,再由列檢員對這些圖像逐一分析,識別車輛故障隱患并預(yù)警處置。TFDS行業(yè)預(yù)訓(xùn)練圖像質(zhì)量評估部件定位模板匹配故障識別異常檢測整車綜合分析受制于技術(shù)發(fā)展,TFDS過去大多采用人工方式進行故障識別。以鄭州北車輛段5T檢測車間為例,日均檢車4萬余輛,識別圖片280萬余張。列檢員每天需要檢查大量極其相似的圖片,并且需要在5秒左右的時間及時發(fā)現(xiàn)細微的差別,找出列車存在的故障。人工方式識別勞動造成誤判。TFDS行業(yè)預(yù)訓(xùn)練圖像質(zhì)量評估部件定位模板匹配故障識別異常檢測整車綜合分析2021年,國鐵集團貨車事業(yè)部把TFDS故障圖像智能識別項目作為國鐵集團第一批科研計劃“揭榜掛帥”課題,指定鄭州局集團公司鄭州北車輛段5T檢測車間作為該項目的試點單位,與華為公司、慧鐵科技公司共同研究、它能夠基于海量無標(biāo)注數(shù)據(jù)進行預(yù)訓(xùn)練,還可以“邊用邊學(xué)”;具備小樣本學(xué)習(xí)和樣本生成能力,能夠生成大量訓(xùn)練樣本提升模型質(zhì)量。比如搖枕心盤脫出的故障,全國范圍內(nèi)只找到一張故障樣本,借助小樣本學(xué)習(xí),目前盤古大模型已經(jīng)能正確識別這個故障。下圖展示了盤古視覺大模型在為TFDS定制的解決方案。依托于盤古行業(yè)預(yù)訓(xùn)練大模型,定制化地開發(fā)了整體解盤古行業(yè)預(yù)訓(xùn)練模型語義相似樣本聚集語義相似樣本聚集等級化語義聚集等級化語義聚集圖像質(zhì)量評估增強圖像增強圖像綜合判別 > 綜合判別 > > >圖像正常圖像正常算法識別預(yù)報故障過曝、欠曝等過曝、欠曝等部件定位故障識別部件目標(biāo)檢測故障識別行業(yè)預(yù)訓(xùn)練部件位置信息行業(yè)預(yù)訓(xùn)練部件位置信息部件丟失、錯位、出現(xiàn)異常部件等形變、折斷、脫落等角度、尺寸等故障破損、裂縫行業(yè)預(yù)訓(xùn)練行業(yè)預(yù)訓(xùn)練基于先驗的模板匹配部件故障分類關(guān)鍵點檢測局部故障檢測異常檢測行業(yè)預(yù)訓(xùn)練行業(yè)預(yù)訓(xùn)練大面積地板破損、異物、形變大面積地板破損、異物、形變整車故障綜合分析圖表14基于盤古行業(yè)預(yù)訓(xùn)練模型的鐵路TFDS開發(fā)方案26華為云AI視頻技術(shù)白皮書26決方案,包括車型篩選、工位分類、配件篩選、圖像質(zhì)量評估、已與車型先驗的模板匹配、多車級聯(lián)分析等模塊,其中盤古大模型核心解決方案包含以下組成部分:故障定位、識別故障定位、識別基于鐵路行業(yè)預(yù)訓(xùn)練大模型,結(jié)合目標(biāo)檢測、圖像識別框架,進行部件定位、故障識別自動增強和評估圖像進行自動評估,對正常圖像做進一步故障識別,非正常圖像返回人工審核模板匹配根據(jù)已知的車型信息建立零部件的相對位置模板,預(yù)報部件位置異常(丟失、錯位)行業(yè)預(yù)訓(xùn)練模型利用百萬級無標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型車輛拆分根據(jù)整列車圖像,定位出每輛車的基于盤古視覺大模型的整體解決方案,在5T檢測車間集中作業(yè)分析的14條線路進行了驗證。由5T檢測車間動態(tài)檢車員預(yù)報并經(jīng)組長確認(rèn)為提報故障的數(shù)據(jù)樣本(故障圖片)共計32007張。在測試環(huán)境下,這些故障圖片與大量正常圖片混合,送入盤古大模型進行判斷。如下表所示,實測結(jié)果表明,當(dāng)前盤古大模型的識別精度已經(jīng)超過人類檢測員水平。漏報1故障總數(shù)120識別率99.17%準(zhǔn)確預(yù)測119漏報1故障總數(shù)120識別率99.17%準(zhǔn)確預(yù)測119攔停漏報506故障總數(shù)28786識別率98.24%準(zhǔn)確預(yù)測28280漏報506故障總數(shù)28786識別率98.24%準(zhǔn)確預(yù)測28280準(zhǔn)確預(yù)測3084漏報17故障總數(shù)3101識別率99.45%準(zhǔn)確預(yù)測3084漏報17故障總數(shù)3101識別率99.45%一般2022年12月,華為云盤古大模型加持的TFDS系統(tǒng)正式投入使用,可根據(jù)大量的數(shù)據(jù)樣本,自動總結(jié)部件特征、自動尋找故障規(guī)律,并在實際試用中持續(xù)改善分析效果,實現(xiàn)從整體到局部、再到故障細節(jié)特征的逐步精細識別。得益于一雙又快又準(zhǔn)的“盤古眼”,這套TFDS系統(tǒng)能精準(zhǔn)識別67種貨車430多種故障類別,重大異常故障100%識別,綜合故障識別率達99.8%;原來人工需要識別4000張圖片,現(xiàn)在僅需要復(fù)檢170多張圖片,工人勞動強度下降95.75%,極大提升了檢測效率和故障識別率,提高了列車安全性。27華為云AI視頻技術(shù)白皮書27其中,煤炭產(chǎn)量位居全國煤炭行業(yè)第三位,礦井智能化生產(chǎn)水平居行業(yè)前列,9處礦井成為首批國家級智能化山能集團依托盤古大模型建設(shè)了集團人工智能訓(xùn)練中心,把盤古礦山大模型全面應(yīng)用到采、掘、機、運、通、洗選等9大業(yè)務(wù)系統(tǒng),具備視覺大模型、預(yù)測大模型、自然語言大模型等三大能力,探索和發(fā)掘煤礦生產(chǎn)領(lǐng)域全場景的人工智能應(yīng)用,通過技術(shù)創(chuàng)新實現(xiàn)“人工智能大規(guī)模下礦”,讓員工遠離井下作業(yè)環(huán)境,實現(xiàn)“高效、安全、可持續(xù)性”的生產(chǎn)運營管理。通過云邊協(xié)同方案,打通集團中心云和礦山邊緣低代碼小樣本訓(xùn)練,模型自動優(yōu)化,邊用邊學(xué),能以更少的數(shù)據(jù)達到其他模型相同乃至更高的精度;通過云邊協(xié)同方案,在其AI標(biāo)桿興隆莊煤礦的一處訓(xùn)練,全集團利用無監(jiān)督訓(xùn)練策略對海量信息(圖片數(shù)量10億+,視頻信號>100TB)進行歸納抽取訓(xùn)練得到的模型,具備強大視覺表征識別能力。大模型相比小模型有良好的泛化性能,在相似場景上訓(xùn)練的模型可遷移到未進行訓(xùn)練的新場景上,并且可以快速地在新的礦井進行部署和上線應(yīng)用,無需從零開始大量重復(fù)訓(xùn)練。大模型具有在全新場景實現(xiàn)缺陷樣本高效篩選的能力,相對傳統(tǒng)小模型訓(xùn)練方式,可以節(jié)省85%的標(biāo)注人力?;凇胺钦<串惓!弊R別原則,快速訓(xùn)練生產(chǎn)、安監(jiān)、決策的L2場景化模型,在同等少量樣本訓(xùn)練的情況下,大模型精度高出小模型10%。28華為云AI視頻技術(shù)白皮書28如在洗選煤和配煤場景中,相關(guān)生產(chǎn)工藝數(shù)據(jù)輸入因素關(guān)系復(fù)雜,無法完全憑人工經(jīng)驗來確定。大模型通過廠礦實際數(shù)據(jù)進行建模,協(xié)助解決相關(guān)參數(shù)準(zhǔn)確預(yù)測和控制的問題,平衡生產(chǎn)質(zhì)量與成本,提高生產(chǎn)效率和效益。在洗選煤參數(shù)優(yōu)化場景中,通過預(yù)測大模型構(gòu)建自主預(yù)測分選密度模型和產(chǎn)品灰分預(yù)測模型,進行旋流器/全流程控制參數(shù)優(yōu)化,根據(jù)系統(tǒng)觀測到的灰分比,快速自動調(diào)整懸浮液密度以及入口壓力等工作參數(shù),實現(xiàn)穩(wěn)定精煤灰分、提升精煤回收率0.1%~0.2%,每年多產(chǎn)出8000噸精煤。這個能力推廣到全國,可讓每個煤礦每年在焦化配煤優(yōu)化場景中,利用圖網(wǎng)絡(luò)技術(shù)訓(xùn)練配煤優(yōu)化模型,可幫助配煤師提升輸出配比效率,預(yù)計人工耗時通過盤古礦山大模型和AI應(yīng)用的視覺識別能力,原惡劣作業(yè)環(huán)境下每天巡檢改為每周巡檢一次,節(jié)省人力的同時,也改善了巡檢人員的作業(yè)環(huán)境。在興隆莊一期項目中,對于危險區(qū)域人員入侵識別等場景,大模型識別率達90%以上?;诖竽P退惴?,系統(tǒng)識別精度比傳統(tǒng)小模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論