人工智能行業(yè)CV領域市場分析_第1頁
人工智能行業(yè)CV領域市場分析_第2頁
人工智能行業(yè)CV領域市場分析_第3頁
人工智能行業(yè)CV領域市場分析_第4頁
人工智能行業(yè)CV領域市場分析_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能行業(yè)CV領域市場分析SAM模型:CV領域的ChatGPTSAM:“分割一切”的AI新模型2023年4月,Meta發(fā)布了全新的AI模型SegmentAnythingModel,即SAM。官網(wǎng)對該模型的描述為:“只需一次點擊,便可在任何圖像中分割出任何物體”。SegmentAnything文章指出,SAM建立了一個基礎圖像分割模型,并在一個巨大的數(shù)據(jù)集上進行訓練,從而試圖解決一系列下游任務,成為一種通用的模型。論文的關鍵詞包含了:prompt(基于提示學習)、task(下游任務)、zero-shot(零樣本)、data(豐富的數(shù)據(jù)集)。模型的核心要點為:(1)與ChatGPT的啟發(fā)思想一樣,采用Prompt-basedlearning的可提示學習范式,提高學習效率;(2)建立了迄今為止最大的分割數(shù)據(jù)集SegmentAnything1-Billion(SA-1B),含1100萬張圖像,超過10億個掩碼,比任何現(xiàn)有的分割數(shù)據(jù)集多400倍;(3)建立了通用的,全自動的分割模型,零樣本靈活轉化新任務,新領域,結果甚至優(yōu)于之前的監(jiān)督結果。Prompt:將ChatGPT的學習思維應用在CV領域SAM模型的學習訓練方式是prompt,來源于近年來突飛猛進的NLP下游任務的優(yōu)化過程。Prompt代表的prompt-basedlearning,即基于提示的學習,區(qū)別于傳統(tǒng)的監(jiān)督學習,被GPT-3團隊推進使用。SAM利用這種先進的技術路線,完成CV底層技術突破,并且具有廣泛的通用性和零樣本遷移的能力。為了較深刻了解prompt,本節(jié)對NLP、PLM及其他相關模型做簡單介紹。Prompt之前的模型在做什么自然語言處理(NLP,NatureLanguageProcessing)主要研究人和計算機的交互,其中預訓練語言模型(PLM,PretrainedLanguageModels)是較為前沿的NLP處理模型。根據(jù)學習范式和發(fā)展階段的不同,預訓練模型可以簡單劃分為四代:(1)基于特征的學習(Feature-based):第一代預訓練模型,根據(jù)“人的知識”設置規(guī)則來提取文本特征,以此來對文本進行編碼。代表模型是TF-DIF;(2)基于結構的學習(Architecture-based):第二代預訓練模型,開啟了NLP的深度學習應用。代表模型是W2V;一二代預訓練模型的共同點是模型的輸出會作為下游任務的輸入,但本身不做下游任務,之后的模型會將預訓練的結果和模型本身都投入到下游任務中。(3)基于下游微調(Fine-tuning):第三代預訓練模型,采用預訓練+下游微調的方式,代表模型是BERT和GPT。(4)基于提示的學習(Prompt-based):第四代預訓練模型,在三代模型BERT和GPT的基礎上做了進一步的改進。將輸入信息按照特定模板進行處理,把任務重構成一個更能夠充分利用預訓練語言模型處理的形式。代表模型是ChatGPT,gpt3.5,SAM。其中,三代和四代的核心都是先進行預訓練,再進行下游微調。簡單來說,預訓練模型是培養(yǎng)得到的“高中畢業(yè)生”,下游任務為“高校里的專業(yè)課程”,給這批“高中畢業(yè)生”再學習與未來應用領域相關的課程,將其培養(yǎng)成具備專業(yè)技能和知識的“大學生”,再應對專業(yè)崗位的要求。Prompt的優(yōu)勢:實現(xiàn)預訓練和下游任務的統(tǒng)一傳統(tǒng)、標準的PLM+finetuning范式(這里指三代模型)存在上下游差異大,應用不匹配的問題。預訓練階段采用的是自回歸、自編碼方式,而對下游微調來說,就需要大量的新數(shù)據(jù)來適應新形式。但是,如今的模型的參數(shù)量越來越大,企業(yè)部署起來成本極高,而為了每一種下游任務都要去專門微調一個模型,會造成資源的極大浪費。整體來說,這類模型的缺點在于:1.微調樣本需求量大;2.模型的專用性強,導致部署成本高。GPT-3團隊認為在閱讀大量無監(jiān)督文本后,語言模型可以“培養(yǎng)廣泛的技能和模式識別的能力”,并有效證明了在少樣本場景下,模型不需要更新任何參數(shù),就能夠實現(xiàn)不俗效果。在這個基礎上發(fā)展prompt的范式。預訓練+微調范式是通過大量訓練讓模型去適配下游任務。而Prompt是把下游任務統(tǒng)一成預訓練任務的形式,以特定的模板,將下游任務的數(shù)據(jù)組裝成自然語言形式,充分挖掘預訓練模型本身的能力。以情感分類任務為例,使用兩種預訓練模型進行處理,比如利用模型寫影評、書評、讀后感等。如果使用傳統(tǒng)Fine-tune,需要人力來準備一個微調數(shù)據(jù)集,里面必須包含各種對電影/書籍的評價,以及這些評價人工閱讀后的感受(是積極的還是消極的)。這個下游微調數(shù)據(jù)集必須足夠大,才能應對復雜的任務。微調數(shù)據(jù)集的大小可能遠超過了預訓練數(shù)據(jù)集,乃至失去了預訓練的意義;而prompt使用預訓練語言模型最擅長的完形填空模式等方式,讓模型根據(jù)輸入句,輸出對MASK位置單詞的預測,推測出評價用戶對這部作品究竟是持Positive(積極)還是Negative(消極)的態(tài)度。綜上,prompt范式的優(yōu)點在于:1.可以減少模型訓練的樣本量,在少樣本甚至零樣本的情況下進行訓練;2.提高通用性,在實際使用中降本增效。如今GPT-4等大模型,已不再完全開放全部的模型參數(shù),用戶都只能通過API接口使用模型進行預測,Prompt工程對下游任務的重要性已無需多言。ZSL:零樣本學習降本增效,提高模型泛化能力零樣本學習能力是什么零樣本學習(zero-shotlearning,ZSL)是機器學習的難題,其目標是模型對于從未見過樣本的“未知物體”也能進行識別和分類。ZSL在標記數(shù)據(jù)稀缺或獲取成本高的領域有許多潛在的應用。圖7描述了零樣本學習的經(jīng)典案例:認識斑馬。一個“兒童”在動物園里見過了馬、熊貓、獅子、老虎等動物,但是從未見過斑馬,通過老師的描述,該“兒童”了解到斑馬有四條腿、黑白相間的條紋,有尾巴。最終輕松地辨認出斑馬。模型也可以通過零樣本學習,從見過的類別(第一列)中提取特征(如:外形像馬、條紋、黑白),然后根據(jù)對未知類別特征的描述,識別未見過的類別。SAM的零樣本學習能力得到認可SAM正具備這樣一種零樣本分割能力,它可以從各種prompt輸入(包括點、方框和文本)中生成高質量的掩膜(Mask)。學術界有多篇論文探討了SAM的ZSL能力,如《SAM.MD:Zero-shotmedicalimagesegmentationcapabilitiesoftheSegmentAnythingModel》測試了SAM的ZSL效果,在圖像分割任務中輸入了部分點和框作為prompt提示,結果顯示:專家用戶可以通過SAM實現(xiàn)大部分場景下的快速半自動分割。雖然在實驗中SAM沒有表現(xiàn)出領先的全自動分割性能,但可成為推動臨床醫(yī)生半自動分割工具發(fā)展的潛在催化劑,預示了這類模型進一步適應復雜醫(yī)療領域的無限可能性??偟膩碚f,ZSL在沒有任何訓練數(shù)據(jù)的情況下,也可以完成一些任務。這種技術在大模型發(fā)展中具有重要意義。隨著大模型的發(fā)展,模型的參數(shù)數(shù)量和計算量不斷增加,需要更多的數(shù)據(jù)來訓練。但是數(shù)據(jù)收集和標注是非常耗時和昂貴的。ZSL技術可以減少對數(shù)據(jù)的依賴,從而降低了訓練成本。同時,ZSL技術還可以提高模型的泛化能力,使其能夠處理更多的任務。SA-1B:迄今為止最大的分割數(shù)據(jù)集,助力模型增效DataEngine:使用數(shù)據(jù)引擎生成掩碼SAM使用數(shù)據(jù)集進行訓練,標注者使用SAM交互式注釋圖像,反過來更新SAM;形成閉環(huán)成長,且收集新的分割掩碼比以前更快?;谶@種方法,SAM建立數(shù)據(jù)引擎,采用新穎的數(shù)據(jù)收集方法,將模型和標注人員結合起來,最大限度提高數(shù)據(jù)收集的效率和質量。一共分為3個階段:(1)模型輔助的手工注釋階段。在這個階段,標注人員使用SAM模型作為輔助工具,通過點擊、框選或輸入文本等方式來生成MASK,且模型根據(jù)標注人員的輸入實時更新MASK,并提供一些候選MASK供標注人員選擇和修改。這樣,標注人員可快速精確分割圖像中的對象,不需要手動繪制。這個階段的目標是收集高質量MASK用于訓練和改進SAM模型;(2)半自動階段。在這個階段,SAM模型已經(jīng)有了一定的分割能力,可以自動對圖像中的對象進行預測。但是由于模型還不夠完善,預測的MASK可能存在錯誤或者遺漏。標注人員的主要任務是收集更多的檢查和修正模型的預測結果,保證MASK的準確性和完整性。這個階段的目的是收集更多的掩碼,用于進一步提升SAM模型的性能和泛化能力。(3)全自動階段。這個階段SAM模型已經(jīng)達到了較高的水平,可以準確分割出圖形中的所有對象,不需要任何人工干預。因此,標注人員的工作就變成了確認和驗證模型輸出,保證沒有任何錯誤。這個階段的目標是利用SAM模型的自動化標注能力,快速擴充數(shù)據(jù)集的規(guī)模和覆蓋范圍。DataSet:使用數(shù)據(jù)引擎生成掩碼SAM團隊通過這種“模型輔助的手工注釋—半自動半注釋—模型全自動分割掩碼”的漸進式方式收集掩碼。最終成功地創(chuàng)建了規(guī)??涨?、質量優(yōu)良、多樣化豐富、隱私保護的圖像分割數(shù)據(jù)集SA-1B。該數(shù)據(jù)集:(1)包含了1100萬張多樣化、高清晰度、隱私保護的照片(明確為相機拍攝),照片由一家大型圖片公司提供并授權,在數(shù)據(jù)許可證允許的前提下,可用于計算機視覺研究;(2)包含11億個精細的分割Mask(掩碼),這些Mask是由Meta開發(fā)的數(shù)據(jù)引擎(DataEngine)自動生成的,展示了該引擎強大的自動化標注能力;(3)每張圖像的平均分辨率為1500×2250像素,每張圖像包含約100個Mask。(4)比現(xiàn)有的分割數(shù)據(jù)集多400多倍;比COCO完全手動的基于多邊形的掩碼標注快6.5倍,比以前最大的數(shù)據(jù)標注工作快2倍。這個數(shù)據(jù)集旨在訓練一個能夠從開放世界圖像中分割任何物體的通用模型。數(shù)據(jù)集不僅為SAM模型提供了強大的訓練基礎,也為圖像分割領域提供了一個新的研究資源和基準。此外,SAM的論文對數(shù)據(jù)集進行了RAI(responsibleAI,人工智能的責任性)分析,認為SA-1B的圖像相比之前的分割數(shù)據(jù)集具有更強的跨區(qū)域代表性,大部分國家的圖片都超過了1000張。SAM核心優(yōu)勢:減少訓練需求,提升分割性能SAM的核心愿景為:減少對于特定任務的專業(yè)建模知識要求,減少訓練計算需求,減少自己標注掩碼的需求,在“不會/少會、不標注/少標注、不訓練/少訓練”的情況下分割目標。SAM主要通過以下三種手段來逐步實現(xiàn)圖像領域的“通用分割大模型“,(1)數(shù)據(jù)的規(guī)模和質量。SAM通過使用零樣本遷移能力,在不同的數(shù)據(jù)源和任務上收集了大量的高質量的圖像分割數(shù)據(jù)(1100萬張圖像和11億個掩碼(Mask)),構建了SA-1B數(shù)據(jù)集,這是目前最大的圖像分割數(shù)據(jù)集,遠遠超過了之前的數(shù)據(jù)集。(2)模型的效率和靈活性。SAM主要借鑒了Transformer模型架構,采用注意力機制和卷積神經(jīng)網(wǎng)絡,實現(xiàn)了一個高效且可提示的圖像分割模型,可以處理任意大小和比例的圖像,并且可以根據(jù)不同的輸入提示生成不同的分割結果。(3)任務的泛化和遷移。SAM通過使用可提示分割任務(promptsegmenttasks),實現(xiàn)了一個可以零樣本遷移的圖像分割模型,可以適應新的圖像分布和任務,而無需額外的訓練數(shù)據(jù)或微調。這使得SAM可以在多個圖像分割任務上表現(xiàn)出色,甚至超過一些有監(jiān)督的模型。目前模型已經(jīng)實現(xiàn)的功能有:1)SAM已經(jīng)學會了物體的概念;2)可以為圖像或者視頻中的物體生成掩碼,甚至沒有見過;3)通用性很強;4)支持用戶使用各種交互性的方式來分割圖像和視頻,如全選分割自動識別圖像內所有物體、框選分割將用戶想選定的部分框選出來即可完成分割??偟膩碚f,SAM是一個具有劃時代意義的模型,它為圖像分割領域提供了一個新的范式和思路,也為計算機視覺領域的基礎模型研究提供了一個新的視角和方向?;赟AM二次創(chuàng)作,衍生模型提升性能自從SAM發(fā)布以來,已引起AI屆的廣泛關注和討論,產(chǎn)生了一批衍生模型和相關的應用。如SEEM模型,MedSAM模型等,可以應用在工程、醫(yī)學影像、遙感圖像和農(nóng)業(yè)等領域。SEEM:交互、語義更泛化,分割質量提升SEEM(Segmenteverythingeverywhereatonce)是研究者基于SAM提出的新的交互模型,利用SAM強大的零樣本泛化能力,實現(xiàn)對任意圖像中的所有物體進行分割。研究者提出了一種新的分割框架,將SAM與一個檢測器結合,通過給SAM提供檢測器輸出的邊界框作為輸入提示,從而生成對應物體的掩碼。SEEM能夠根據(jù)用戶給出的各種模態(tài)的輸入(包括文本、圖像、涂鴉等等),一次性分割圖像或視頻中的所有內容,并識別出物體類別。(1)論文已在多個公開數(shù)據(jù)集上進行實驗,在分割質量和效率上都優(yōu)于SAM;(2)SEEM是第一個不僅支持經(jīng)典分割任務,還支持各種用戶輸入類型的通用接口,包括文本、點、涂鴉、框和圖像,提供強大的組合功能。(3)能直接輸入?yún)⒖紙D像并指出參考區(qū)域,對其他圖像進行分割,找出與參考區(qū)域一致的物體。該性能具有分類識別特質;(4)視頻中的零樣本分割功能。使用第一幀以及用戶輸入的涂鴉等,在模糊或者劇烈變形的視頻中也可以準確分割參考對象。該功能可在道路場景、運動場景等應用中體現(xiàn)。MedSAM:提升感知力,應用醫(yī)學圖像分割醫(yī)學圖像由于多樣的成像模式、精細的解剖結構、不明確且復雜的邊界以及廣泛的物體尺度等,在圖像分割上具有較大的挑戰(zhàn)性。為了測評SAM對醫(yī)學影像分割的性能,深圳大學等多所高校聯(lián)合整理了一個迄今為止最大規(guī)模的醫(yī)學影像分割數(shù)據(jù)集COSMOS553K,并基于該數(shù)據(jù)集率先對SAM進行了全面、多角度、大規(guī)模的細致評估。評估結果顯示,盡管SAM有可能成為一個通用的醫(yī)學影像分割模型,但它在醫(yī)學影像分割任務中的表現(xiàn)目前還不穩(wěn)定,特別是全自動Everything的分割模式不適用于大多數(shù)醫(yī)學影像分割任務,在這種模式下,SAM對醫(yī)學分割目標的感知能力較差。因此,SAM在醫(yī)學影像分割的研究重點應該在如何有效地使用少量醫(yī)學影像來微調SAM以提高模型的可靠性,搭建屬于醫(yī)學影像的SegmentAnything模型。MedSAM為將SAM應用到醫(yī)學影像分割的研究,該研究提出了一種簡單的微調方法來適應SAM到通用的醫(yī)學影像分割任務,并在21個三維分割任務和9個二維分割任務上進行了全面的實驗,證明MedSAM分割效果優(yōu)于默認的SAM模型。SAM-Adapter:陰影檢測再升級,偽體分割更精準除了醫(yī)學影像分割難度較大之外,陰影檢測和偽裝物體分割任務對于SAM來說是比較困難的,因為它們涉及到一些細微的視覺線索和復雜的背景?!禨AMStrugglesinConcealedScenes--EmpiricalStudyon"SegmentAnything“》這篇技術報告選取了當前偽裝目標分割領域中三個常用的數(shù)據(jù)集合,在無提示的情況下測試了基于三種不同骨架的SAM模型的分割性能。結果顯示:1)在自然場景中,SAM模型分割隱蔽動物具有一定難度,且難以準確定位;2)在工業(yè)場景下,SAM仍然無法做到“分割一切”,比如難以區(qū)分缺陷區(qū)域和紋理背景之間的差異性。因此,解決SAM在某些分割任務中表現(xiàn)不佳的問題非常重要?!禨AMFailstoSegmentAnything?–SAM-Adapter:AdaptingSAMinFew-shotLearning》提出了一種基于少樣本學習的適配方法。該方法沒有對SAM網(wǎng)絡進行微調,而是提出了SAM-Adapter,它通過使用簡單而有效的適配器將特定領域的信息或視覺提示納入分割網(wǎng)絡,從而提高其在陰影檢測和偽裝物體分割等任務上的性能。SAM-Track:擴展SAM應用領域,增強視頻分割性能SAM模型展現(xiàn)了強大的圖像分割能力,但缺乏對視頻數(shù)據(jù)的支持。然而,浙江大學ReLER實驗室的科研人員最新開源的SAM-Track項目,提升了SAM的視頻分割能力,即:分割并跟蹤任何物體(Segment-and-trackanything)。SAM-Track在單卡上就能夠支持各種時空場景中的目標分割和跟蹤,包括街景、AR、細胞、動畫、航拍等多種場景,能夠同時追蹤超過200個物體,為用戶提供了強大的視頻編輯能力。SAM-Track擴展了SAM模型的應用領域,使其可以更好地應對視頻數(shù)據(jù)的挑戰(zhàn)。相比于傳統(tǒng)的視頻分割技術,SAM-Track具有更高的準確性和可靠性。它能夠自適應地識別不同場景下的物體,并進行快速而精確的分割和跟蹤。這讓用戶可以輕松地進行視頻編輯和后期制作,得到更加出色的視覺效果??傊?,SAM-Track是基于SAM的有意義的研究成果,為視頻分割和跟蹤領域的研究和應用提供了新的可能性。它的出現(xiàn)將會為視頻編輯、后期制作等領域帶來更多的機會和挑戰(zhàn)。SAM及衍生模型賦能多場景應用SAM模型是一種高效且準確的圖像分割模型,其應用能夠為計算機視覺相關的行業(yè)和賽道提供更快和更準確的圖像指示識別能力。根據(jù)應用難度的不同,可以將SAM的應用落地區(qū)分為以下三個方面:首先是工業(yè)機器視覺。在這個行業(yè)中,圖像識別與處理已經(jīng)得到了廣泛的應用。SAM模型的賦能可以帶來降本增效,可以大大縮短訓練時間和減少對數(shù)據(jù)的依賴。其次是AR/CR行業(yè)、自動駕駛、安防監(jiān)控等賽道,需要捕捉和分割動態(tài)圖像,基于3D重建等、對技術、算力的要求較高。且可能涉及數(shù)據(jù)、算法的倫理與隱私問題,應用落地需要一定時間;此外,SAM也有分割任務實現(xiàn)較為困難的場景,在這方面SAM衍生模型的發(fā)展突破,后續(xù)將能對遙感,醫(yī)學影像處理產(chǎn)業(yè)帶來巨大推推動。如:(1)醫(yī)學圖像具有多樣的模態(tài)、低對比度、噪聲干擾等特點。SAM可以通過簡單的微調來適應通用的醫(yī)學圖像分割,或通過輸入提示來實現(xiàn)特定醫(yī)學目標分割;(2)陰影檢測和偽裝物體分割任務涉及微小的視覺線索且背景復雜,對于SAM比較困難的。因此,SAM可以通過利用少量標注數(shù)據(jù),few-shot訓練一個適配器模塊,來調整其輸出,從而改善其分割效果,應用于遙感圖像、農(nóng)業(yè)等領域。最后,SAM還可以作為基礎模型,與其他模型或系統(tǒng)結合:例如SAM可以與一個分類器結合,實現(xiàn)對任意圖像中的所有物體進行檢測和識別;或者與一個生成器結合,實現(xiàn)對任意圖像中的任意物體進行編輯和轉換等。這種結合能夠提高圖像識別和分割的準確性和效率,為不同行業(yè)帶來更多應用場景?;?D重建,賦能AR、游戲在AR/VR領域,SAM模型可以基于3D重建技術,為用戶提供更加沉浸式的視覺體驗。通過該模型,用戶可以根據(jù)自己的目光選擇一個物體,并將其轉化為3D空間中的實體物體。具體來說,SAM模型結合了3D重建技術和圖像處理算法,能夠將2D圖像轉化為3D場景,從而實現(xiàn)對真實世界的還原和模擬。用戶可以通過AR或VR設備觀察和操控這些3D場景中的物件,享受高度沉浸式的互動體驗。此外,SAM模型還能夠通過深度學習算法,對用戶的視線和手勢進行識別和跟蹤,實現(xiàn)更加智能化的互動方式。例如,當用戶注視某個物體時,SAM可以自動聚焦并為其提供更加詳細的信息。同時,當用戶做出手勢操作時,SAM也能夠快速響應并實現(xiàn)對場景的調整和變化。總之,SAM模型基于3D重建技術的應用賦能了AR和游戲等領域,為用戶提供了更加沉浸式和智能化的虛擬體驗。隨著技術的不斷進步和應用場景的不斷擴展,SAM模型在未來將會有更加廣泛的應用前景。跟蹤運動物體,賦能安防監(jiān)控SAM是一種高效且準確的圖像分割模型,其能力在視頻和動態(tài)圖像分割方面得到了強化,并衍生出了SEEM和SAM-Track兩種應用。這些衍生模型充分借鑒了SAM的零樣本泛化能力,使得使用參考圖像及用戶輸入的涂鴉、文字等信息,在模糊或者劇烈變形的視頻中也可以準確地分割參考對象。如圖29所示,SEEM可以在跑酷、運動和游戲等視頻中準確分割指定對象。對于這些運動場景的視頻,傳統(tǒng)的圖像分割算法難以處理,因為場景中存在著復雜的背景和快速移動的目標物體。但是,SEEM模型不僅可以準確地識別參考對象,還可以消除背景干擾,從而提高分割的精度。該功能除了在運動場景中體現(xiàn)之外,還可賦能安防、視頻監(jiān)控等賽道。在這些領域中,需要實現(xiàn)對視頻中的物體進行精確分割,以便進行后續(xù)的識別和處理。SEEM和SAM-Track可以通過輸入提示準確判斷目標物體,并進行精確分割。這種分割功能可以為安防、視頻監(jiān)控等領域帶來更高效、準確和智能化的處理能力。綜上所述,SAM及其衍生的SEEM和SAM-Track模型具有強大的視頻和動態(tài)圖像分割功能,并能夠在運動場景、安防、視頻監(jiān)控等領域發(fā)揮重要作用。隨著技術的不斷進步和應用場景的擴展,這些模型在未來將會有更加廣泛的應用前景。解決長尾難題,賦能自動駕駛在自動駕駛領域中,技術上的長尾問題是當前自動駕駛商業(yè)化進程中的主要制約因素。雖然現(xiàn)有技術已經(jīng)實現(xiàn)了90%以上道路場景的自動駕駛,但由于路面環(huán)境和車輛行駛情況的不可預測性,剩下10%的長尾場景依然存在很大難度。這些長尾場景通常涉及到突發(fā)事件、復雜地形或氣候條件等極端情況,例如強烈的降雨、暴風雪、雷電等,這些情況會對自動駕駛系統(tǒng)的識別和決策能力產(chǎn)生很大挑戰(zhàn)。此外,在城市交通中,還有一些特殊情況需要考慮,如非機動車、行人和建筑物等存在的影響,這些都增加了自動駕駛系統(tǒng)的復雜度和難度。長尾場景如果不得到解決,自動駕駛就始終無法落地。為了解決長尾問題,自動駕駛技術需要集成更多的算法和傳感器,并通過數(shù)據(jù)采集和深度學習等手段提高系統(tǒng)的智能水平。例如,可以結合雷達、攝像頭、激光雷達等傳感器進行數(shù)據(jù)融合,提高目標物體的識別和跟蹤能力,同時可以通過深度學習算法實現(xiàn)對復雜場景的模擬和預測。此外,也可以引入人工智能技術,讓自動駕駛系統(tǒng)在長尾場景中不斷學習和優(yōu)化,以提高其適應性和泛化能力。在自動駕駛領域中,SAM可以用于對車輛行駛過程中的圖像進行分割,以標注出圖像中的不同物體和區(qū)域。自動駕駛系統(tǒng)需要實時地對路面情況進行感知,以便做出合適的決策。因此,對道路標記、車道線、行人、交通信號燈等物體和區(qū)域進行準確的標注非常重要。傳統(tǒng)的手動標注方法需要大量的時間和人力成本,而且容易出現(xiàn)誤差。使用SAM可以自動地進行圖像分割和物體識別,從而大大減少了標注的成本;與傳統(tǒng)的機器學習算法相比,SAM可以更好地處理復雜的場景和變化,具有更高的準確性和穩(wěn)定性。此外,SAM還可以與其他深度學習模型結合使用,例如目標檢測和路徑規(guī)劃等模型,從而幫助自動駕駛系統(tǒng)更加準確地感知和理解周圍環(huán)境,以實現(xiàn)安全、高效的自動駕駛。例如,在行人識別和車道線跟蹤中使用SAM可以幫助自動駕駛系統(tǒng)更好地預測行人和車輛運動軌跡,從而避免潛在的交通事故發(fā)生。總之,SAM是一項非常有用的技術,它可以大大減少標注成本,并提高標注的準確性和效率。在自動駕駛領域中,SAM的應用將會越來越廣泛,為自動駕駛技術的快速發(fā)展和商業(yè)化進程做出貢獻。提高分割性能,賦能遙感圖像遙感圖像是一種通過衛(wèi)星、飛機等遙測手段獲取地球表面信息的重要手段,具有多樣化、全覆蓋、高精度等特點,成為現(xiàn)代科技發(fā)展中不可或缺的一部分。它的應用領域十分廣泛,包括環(huán)境監(jiān)測、自然資源管理、城市規(guī)劃、災害預警等方面。遙感的數(shù)據(jù)類型分為很多種:包括光學遙感數(shù)據(jù)、光譜數(shù)據(jù)、SAR雷達數(shù)據(jù)、無人機數(shù)據(jù)等。遙感數(shù)據(jù)的處理一般分為2個部分:(1)首先是遙感地面處理系統(tǒng)接收來自天上的衛(wèi)星數(shù)據(jù),通過大氣校正、勻光勻色、裁剪分割等處理將原始的太空圖像變成可以進一步識別、處理的圖像;(2)在上述的基礎上,對遙感圖像進一步處理,包括圖像的解譯等,其中解譯主要完成對太空遙感圖像中具體物體的識別工作,此前主要是通過人工協(xié)助完成。遙感圖像因其多樣性、復雜性、數(shù)據(jù)量大等特點,在處理過程中存在很多挑戰(zhàn)和困難。其圖像處理經(jīng)歷了三個階段:(1)人工解譯階段,這個階段完全依賴標注人員進行圖像解釋,人工成本高且解譯成果轉化率低;(2)AI+遙感階段,這個階段AI技術已經(jīng)對遙感圖像處理有一定的幫助,通過AI模型以及算力的支持,有效緩解了圖像解譯的工作痛點,同時實現(xiàn)了人機協(xié)同。隨著遙感、測繪等對比觀測平臺及衛(wèi)星數(shù)量不斷增長,AI+遙感的結合為圖像解譯提供了更多可能性;(3)隨著大型神經(jīng)網(wǎng)絡模型的發(fā)布,遙感圖像的解譯工作有望進入到大模型階段。SAM大模型作為一種新興的圖像分割技術,為處理遙感圖像提供了全新的思路和方法。它基于深度學習算法,對遙感圖像進行統(tǒng)一的分割、識別、生成,大幅提升遙感解譯工作的效率;使用SAM模型進行遙感圖像分割,可以幫助用戶快速準確地生成高質量的地圖和三維模型,提高環(huán)境監(jiān)測和資源管理的效率和精度。此外,SAM模型還可以支持多源數(shù)據(jù)融合,將遙感圖像和其他數(shù)據(jù)結合起來,得到更全面、更精準的分析結果。遙感數(shù)據(jù)處理效率的提升也為下游的遙感應用爆發(fā)打下了良好的基礎。SAM大模型在處理陰影、掩體分割等難度較高的分割任務時仍然面臨著相當大的挑戰(zhàn),如在自然場景中很難準確分割出隱蔽動物的區(qū)域并進行定位。遙感圖像分割任務涉及一些微妙的視覺線索和復雜的背景,需要模型具有更高的感知力和識別能力,這導致SAM模型無法做到“分割一切”,尤其是在處理一些細節(jié)方面還需要進一步提高其性能。但是,可以通過不斷改進和優(yōu)化來提高其性能。例如,可通過引入更多的數(shù)據(jù)集進行訓練,或采用更加先進的神經(jīng)網(wǎng)絡架構來提升模型的感知力和識別精度,SAM的衍生模型SAM-adapter也可以通過增加適配器的方式解決SAM在某些分割任務中表現(xiàn)不佳的問題,以及下文介紹的RS-promter:在SAM發(fā)布之后,有專家團隊二次創(chuàng)作了基于SAM基礎模型的遙感圖像實例分割的promptlearning方法,這使得SAM能夠為遙感圖像生成語義可辨別的分割結果,該方法稱之為RSPrompter。它與原始的SAM不同,不需要手動制作prompt,RSPrompter的目標是自動生成prompt,以自動獲取語義實例級掩碼。此方法不僅適用于SAM,還可以擴展到其他基礎模型。從實現(xiàn)上,該團隊提出了兩種方案:基于預設錨點的RSPrompter-anchor和基于查詢與最優(yōu)傳輸匹配的RSPrompter-query。為驗證RSPrompter的效果進行了系列的實驗。這些實驗不僅證明了每個組件的有效性,還在三個公共遙感數(shù)據(jù)集上顯示出其對比其他先進實例分割技術以及基于SAM的方法都有優(yōu)越的性能。此外,大模型為遙感圖像領域的研究和應用帶來了新的驅動力和挑戰(zhàn)。大模型在基于SAR、光學、多光譜衛(wèi)星、無人機航拍等多模態(tài)時空遙感數(shù)據(jù)領域具有廣泛的應用,可以依托開源大模型基礎結構,面向遙感數(shù)據(jù)進行定制化模型研發(fā),實現(xiàn)一站式、全流程遙感大模型構建能力;其次,通過支持億級模型參數(shù)和標注數(shù)據(jù)量下降,大模型可以實現(xiàn)更高效、精準的遙感數(shù)據(jù)處理和分析,并賦能影像智能檢索與推送、地物智能提取采編、數(shù)字孿生產(chǎn)品線等領域;在未來還要將大模型訓練與小模型部署相結合,達到更好的落地應用??偟膩碚f,傳統(tǒng)的圖像處理方法在面對遙感影像處理的挑戰(zhàn)時,常常難以滿足實際需求,不能夠達到高精度和高效率的要求。因此,采用大型模型來處理遙感圖像已經(jīng)成為當前研究的一個重要方向。SAM模型賦能遙感圖像,具有重要的意義和應用價值。它為遙感圖像領域的研究和應用帶來了新的機會和挑戰(zhàn),也為人們更好地認識和利用地球資源提供了更好的技術支持。算力應用驅動,賦能機器視覺機器視覺的功能主要歸類為四種:識別、測量、定位、檢測。1)識別:基于目標物的特征進行甄別,例如外形、顏色、字符、條碼等,要求高速度和高準確度;2)測量:將圖像像素信息標定成常用的度量衡單位并在圖像中精確計算出目標物的幾何尺寸。復雜形態(tài)測量+高精度是機器視覺的優(yōu)勢領域;3)定位:獲取目標物體的二維或者三維位置信息。定位精度和速度是主要參考指標;4)檢測:一般指外觀檢測,內涵種類繁多。如產(chǎn)品裝配后的完整性檢測、外觀缺陷檢測(如是否有劃痕、凹凸不平等)。機器視覺是“智能制造之眼”,作為關鍵零部件廣泛應用于工業(yè)自動化領域。典型的機器視覺系統(tǒng)包括:光源及光源控制器、鏡頭、相機、視覺控制系統(tǒng)(視覺處理分析軟件及視覺控制器硬件)等,按照技術可分為基于硬件的成像技術和基于軟件的視覺分析技術。機器視覺發(fā)展受到四大核心驅動力的影響,包括成像、算法、算力和應用。在這四個方面,每個都對機器視覺的發(fā)展產(chǎn)生了不可或缺的推動作用:(1)應用驅動:傳統(tǒng)制造業(yè)逐步采納機器視覺技術,提高了其滲透率,同時新興行業(yè)的崛起增加了機器視覺需求。例如,在智能制造領域,機器視覺技術可以幫助企業(yè)實現(xiàn)自動化生產(chǎn),提高生產(chǎn)效率和產(chǎn)品質量;在智能醫(yī)療領域,機器視覺技術可以輔助醫(yī)生進行診斷和治療,提高醫(yī)療水平和治療效果。(2)算力/算法驅動:自21世紀起,CPU算力大幅增長,尤其是2016年后AI算法迅速進化,為機器視覺技術的發(fā)展帶來推動。高性能計算設備強化了其計算能力,使圖像處理更高效。AI算法進展,如深度學習,為機器視覺在圖像識別與分析上開創(chuàng)了更多可能。AI大模型的引入為機器視覺產(chǎn)業(yè)帶來了技術底層的重大突破。目前,機器視覺領域的先

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論