中國計算機和軟件行業(yè):小樣本學習類人智能算法的初級形態(tài)加速垂直場景下的AI普惠化_第1頁
中國計算機和軟件行業(yè):小樣本學習類人智能算法的初級形態(tài)加速垂直場景下的AI普惠化_第2頁
中國計算機和軟件行業(yè):小樣本學習類人智能算法的初級形態(tài)加速垂直場景下的AI普惠化_第3頁
中國計算機和軟件行業(yè):小樣本學習類人智能算法的初級形態(tài)加速垂直場景下的AI普惠化_第4頁
中國計算機和軟件行業(yè):小樣本學習類人智能算法的初級形態(tài)加速垂直場景下的AI普惠化_第5頁
已閱讀5頁,還剩64頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

aimer19Jan20238小樣本學習:類人智能算法的初級形態(tài),加速垂直場景下的AI普惠化Few-shotlearning:ThePrimaryFormofHuman-likeIntelligenceAlgorithms,AccelerateAIcenarios觀點聚焦InvestmentFocus稱康航天信息點軟件航天宏圖稅友股份大陸息概倫電子拉卡拉HAIChinaComputer&SoftwareMSCIChinaJan-22Apr-22Jul-22Oct-22Jan-23orts計算機行業(yè)跟蹤周報293期:各行業(yè)信息化持續(xù)推進(ComputerIndustryWeeklyReport(293):VariousIndustriesContinuetoPromoteInformatization)(9Jan2023)計算機行業(yè)2023年1月研究觀點:2022年全球軟件股行情回顧:全球軟件股股價回調(diào)的一年(ComputerIndustryJanuary2023ResearchOpinion:2022GlobalSoftwareStockMarketReview:AYearofGlobalSoftwareStockPricePullbacks)(3Jan2023)級mmmmmmmmmmmmmmmm級mmmmmmmmmmmmmmmm稱恒生電子用友網(wǎng)絡寶信軟件科大訊飛廣聯(lián)達中科創(chuàng)達國聯(lián)股份奇安信視源股份大華股份中科曙光浪潮信息啟明星辰四維圖新景嘉微(PleaseseeAPPENDIX1forEnglishsummary)學習的出現(xiàn)極大的推動了人工智能的研究進展,人類似乎找到了解決“抽象概念”的方法。人工智能借助深度學習的力量,已可以在多個應用場景落地,特別是互聯(lián)網(wǎng)領(lǐng)域。但就總體發(fā)展而言,目前的人工智能距離類人類智能還有很長的路要走。類人智能學習是AI界始終追逐的終極目標。類人智能的小樣本學習。如果用形象的比喻來說,深度學習(DL)是解決計算機“運籌帷幄”的問題(大量數(shù)據(jù)形成規(guī)律和抽象概念),而小樣本學習是解決計算機“照貓畫虎”的問題(少量數(shù)據(jù)形成決策)。深度學習更擅長分析規(guī)律和預測趨勢,而小樣本學習則具備舉一反三的能力。小樣本學習相當符合人類的思維推理模式,是實現(xiàn)類人人工智能的必由之路。小樣本研究領(lǐng)域的發(fā)展現(xiàn)狀。2011年至2015年,由于小樣本理論不完整,相關(guān)論文較少。自2015年以來,隨著深度學習的興起,小樣本學習進入深度學習階段,相關(guān)研究論文的數(shù)量呈線性大幅增長。國家間,在小樣本學習研究領(lǐng)域的競爭也十分激烈,美國和中國是最大的兩個研究產(chǎn)出國,而美國的私營部門在小樣本學習的投入領(lǐng)先于其他國家。小樣本學習可以解決AI商業(yè)落地難題。2015年是小樣本學習研究進展的分水嶺,開始真正進入深度學習階段,進而帶動AI產(chǎn)業(yè)的實質(zhì)性應用落地。小樣本學習算法的性價比最優(yōu),不需要大量數(shù)據(jù)的標注準備,極大降低了數(shù)據(jù)標注、算力以及AI交付的工程化成本,對AI應用普惠化起到了至關(guān)重要的作用。工業(yè)視覺檢測是小樣本學習的典型應用場景。小樣本學習相關(guān)的任務中,計算機視覺是最活躍的研究領(lǐng)域,而AI視覺檢測是小樣本學習在工業(yè)領(lǐng)域的突出應用。建議關(guān)注:作為小樣本學習領(lǐng)域的典型代表,我們建議重點關(guān)注:創(chuàng)新奇智(2121.HK),阿丘科技(未上市)。當下,小樣本學習領(lǐng)域已成為一個熱點和重點研究方向。AI的發(fā)展從來都是量變到質(zhì)變的不斷積累,比如深度學習框架的出現(xiàn)極大推進了人工智能的進展,又比如ChatGPT在NLP領(lǐng)域語義理解能力的實質(zhì)性突破。我們認為,小樣本學習這種類人智能算法在與深度學習的結(jié)合下,將在各個應用領(lǐng)域不斷創(chuàng)造實用價值。鑒于目前計算機視覺是小樣本學習最為活躍的領(lǐng)域且發(fā)展較成熟,應重點關(guān)注在計算機視覺方面有實際應用落地能力的公司。風險:小樣本學習的研究進展緩慢,實際應用落地進展不及預期。gccom219Jan20232計算機之父圖靈在1950年的論文中提出了圖靈試驗的設(shè)想,進行人機對話,這是人工智能的起端。如果從近半個多世紀的發(fā)展歷程來看,人工智能的研究其實并不順利,而一些歷史階段可以用十分緩慢來形容。自2006年以來,深度學習的出現(xiàn)使人類期望的人工智能變得不再遙不可及,人類似乎找到了解決“抽象概念”的方法。隨著Google、Facebook、Amazon等商業(yè)巨頭的加入,極大加速了深度學習的進程,在信息搜索、圖像識別、語音識別、氣候預測、地理數(shù)據(jù)等各個領(lǐng)域,尤其是toC的互聯(lián)網(wǎng)領(lǐng)域,深度學習已得到廣泛應用。但就目前的總體發(fā)展而言,深度學習雖然在商業(yè)人工智能領(lǐng)域取得了顯著的進步,但距離類人類智能還有很長的路要走。1.1深度學習2006年,機器學習領(lǐng)域的泰斗,加拿大多倫多大學的Hinton教授,在《Science》上的一篇著名論文開啟了深度學習的浪潮。谷歌的DeepMind就是深度學習(Deeplearning)和強化學習(Reinforcementlearning)的結(jié)合體。DeepMind開發(fā)的AlphaGo,通過將強化學習和深度卷積神經(jīng)網(wǎng)絡的有機結(jié)合,在圍棋領(lǐng)域已達到了超人類的水平。圍棋的大數(shù)據(jù)從2000年開始積累,人類在網(wǎng)上對弈的棋局,通過機器觀摩和訓練數(shù)以千萬計的棋譜,逐漸形成圍棋人工智能。深度學習是一種數(shù)據(jù)建模的隱含分布的多層表達機器學習算法。簡單來說,就是自動提取分類中所需要的多層次(高、低)的特征集。因此,深度學習能夠更好的表達數(shù)據(jù)的特征。同時,由于模型的層次、參數(shù)很多,深度學習能夠?qū)Υ笠?guī)模數(shù)據(jù)進行學習表達,比如在圖像、語音等特征不明顯的領(lǐng)域,可以在大規(guī)模訓練數(shù)據(jù)的基礎(chǔ)上取得很好的學習效果。深度強化學習也可以理解為是一個連續(xù)決策的過程,僅提供一個回報函數(shù)來決定當前狀態(tài)會產(chǎn)生什么樣的結(jié)果,從數(shù)學本質(zhì)上來說是一個馬爾科夫決策過程(MDP),即某一狀態(tài)信息包含了所有相關(guān)的歷史信息,只要當前狀態(tài)可知,所有的歷史信息都不再需要,當前狀態(tài)就可以決定未來,該狀態(tài)具有馬爾科夫性,該決策過程可稱為馬爾科夫決策過程。在強化學習中,馬爾科夫決策過程是對完整可觀測的環(huán)境進行描述,也就是說觀測到的狀態(tài)內(nèi)容完整地決定了決策所需要的特征。幾乎所有的強化學習問題都可以轉(zhuǎn)化為MDP問題,其最終目的是讓決策過程中整體的回報函數(shù)期望值最優(yōu)。深度學習可以借助類人腦網(wǎng)狀結(jié)構(gòu)的神經(jīng)網(wǎng)絡,解決很多實際問題。例如:圖像搜索,人臉識別,實時翻譯和語言識別等等。而強化學習則進一步推動深度學習,比如游戲,可以通過強化學習,自我競賽,實現(xiàn)自我進化。近幾年,大型語言模型取得了巨大進步。2019年,OpenAI的GPT2成為第一個擁有超過10億個參數(shù)Transformer模型(1.6萬億參數(shù))和北京智源研究院“悟道”(1.75萬億參數(shù))模型打破萬億參數(shù)規(guī)模。未來,大型語言模型的規(guī)模肯定還將繼續(xù)增長,比如:OpenAI的GPT4(ChatGPT是GPT3.5)。隨著算力和數(shù)據(jù)資源的增長,深度學習發(fā)展出“越大越好”的原則。于是,財力雄厚的AI大廠斥巨資研發(fā)超大模型,特別是在NLP領(lǐng)域。但是,構(gòu)建越來越大的模型也隨之帶來挑戰(zhàn),前Google大腦主導者和前百度首席AI科學家吳恩達提出了四大319Jan20233(1)數(shù)據(jù):大模型需要大數(shù)據(jù),但有時候高質(zhì)量的有效數(shù)據(jù)難以獲得,且成本高昂。行業(yè)越來越意識到數(shù)據(jù)質(zhì)量至關(guān)重要,但尚未就編譯大規(guī)模、高質(zhì)量數(shù)據(jù)集的有效方法達成共識。數(shù)據(jù)、算法、算力,被稱為AI的三駕馬車。其中,數(shù)據(jù)對于算法模型的效果至關(guān)重要:以深度學習為核心的AI,為了避免發(fā)生過擬合或欠擬合的情況,需要使用大量數(shù)據(jù)進行模型訓練,從而使模型達到最佳的擬合度。通過大量數(shù)據(jù)訓練的算法,從理論上來說沒有問題,但當AI走向落地場景,情況就變得復雜。機器訓練的高成本,目前已是業(yè)界共識,據(jù)公開信息的統(tǒng)計,在整個人工智能項目開發(fā)過程中80%的工作量都是準備訓練數(shù)據(jù)。除了模型訓練的高成本,找到大量可用于標注的訓練數(shù)據(jù)的成本也相當高。由于信息安全、工作量等原因,很多定制化的人工智能項目,往往難以獲得大量有效的標注數(shù)據(jù),很多垂直應用場景根本就不存在大量有效數(shù)據(jù),而沒有大量的數(shù)據(jù)就無法進行有效的機器學習。因此,降低數(shù)據(jù)準備對人工智能普惠化的商業(yè)落地至關(guān)重要。比如眾多的碎片化場景,采集到的數(shù)據(jù)是否有效,無效的數(shù)據(jù)會形成噪聲干擾,需要額外進行處理。沒有足夠量的數(shù)據(jù),就難以訓練出好的算法模型,解決各種垂直場景問題變得很困難。(2)速度:處理龐大的模型對硬件的要求越來越高。為了減少處理延遲,SwitchTransformer背后的Google團隊開發(fā)了一種方法,可以為每個Token處理選定模型層子集。模型預測速度比參數(shù)數(shù)量只有其1/30的模型快66%。微軟開發(fā)了DeepSpeed庫,可并行處理數(shù)據(jù)、單層和層組,并通過在CPU和GPU之間劃分任務來減少冗余(3)能源:訓練龐大的網(wǎng)絡會消耗大量的電能。2019年的一項研究發(fā)現(xiàn),在8個NvidiaP100GPU上訓練一個2億參數(shù)Transformer模型,幾乎和一輛普通汽車跑五年的碳排放量一樣多。開發(fā)新一代的AI芯片至關(guān)重要,如Cerebras的WSE-2和谷歌最新的TPU,可能有助于減少碳排放。(4)交付:龐大的模型集中部署可能會導致延遲,而小規(guī)模部署,能力又較弱。所以,2022年大語言模型仍然以千億參數(shù)模型為主,超過萬億的參數(shù)模型需要解決部署問題。1.2.類人智能學習深度學習確實對人工智能起到了巨大的推動作用,但同時,其也存在著天生的缺陷。一直以來,人工智能都依賴大量的數(shù)據(jù)進行模型訓練,但這帶來了過度收集個人數(shù)據(jù)、數(shù)據(jù)標注工作量大,數(shù)據(jù)領(lǐng)域存在“數(shù)據(jù)孤島”等問題。深度學習是基于大數(shù)據(jù),通過多層網(wǎng)絡實現(xiàn)對“抽象概念”的理解,數(shù)據(jù)越多其效果相應就越好。而對于人類來說,推理是一項天生技能,只需要從少量數(shù)據(jù)樣本中學習,利用特征+推理的方法往往就可以進行有效的判別,這就是人類舉一反三的能力,即便沒有過去的知識積累,專業(yè)知識欠缺,也有“照貓畫虎”的可能性。從這個角度來說,以深度學習為核心的人工智能還遠遠不及人類,人類面對陌生環(huán)境依然能夠通過學習做出適應變化。因此,“類人智能學習”首先要解決深度學習的這種弊端,即不依賴大數(shù)據(jù)也能進行自我學習。吳恩達認為:高質(zhì)量數(shù)據(jù)當然是越多越好,但是在農(nóng)業(yè)、制造、醫(yī)療等領(lǐng)域的諸多應用場景中,沒有大量數(shù)據(jù)可用,小數(shù)據(jù)學習方法論將成為AI的下一個發(fā)展趨勢。比如單樣本學習(One-shotLearning)、小樣本學習(Few-shotLearning)、自我監(jiān)督式學習(Self-supervisedLearning)、后設(shè)增強式學習(MetaRL)等。他在LandingAI的團隊,也有不少關(guān)于小數(shù)據(jù)的研究,包括正在研發(fā)的MetaRL農(nóng)業(yè)和制造業(yè)應用。另外,目前的AI已經(jīng)改變了軟件互聯(lián)網(wǎng)產(chǎn)業(yè),但應用于其他行業(yè)仍有許多工作要做。在消費互聯(lián)網(wǎng)中,一個單一的人工智能系統(tǒng)可以為數(shù)十億用戶提供服419Jan20234務,但在制造業(yè)中,每個制造工廠可能都需要自己的AI模型。小數(shù)據(jù)的人工智能是一項迅速崛起的技術(shù),它將是實現(xiàn)人工智能普惠化的關(guān)鍵。蒙特利爾大學教授,圖靈獎獲得者YoshuaBengio認為:在過去的幾十年里,人工智能取得了驚人的進步,但在商業(yè)方面,離人類智能還很遠。我們需要更好地理解這個差距,并設(shè)計出新一代的人工智能系統(tǒng)來彌補這個差距。我們工作旨在改進人與機器之間的交互,這種交互能夠以人類容易理解和接受的方式解釋他們正在做什么。因此,必須破解機器學習的“黑匣子”,將其改變?yōu)楦呓Y(jié)構(gòu)化,類似于人類有意識的方式來構(gòu)思和交流。這就像人類的直覺,人類可以做出涉及直覺的決定,它可能是一種高級推理,但就目前的機器學習狀態(tài),這種能力仍然遙不可及。MetaAI研究中心主任JoellePineau認為:元宇宙亟需小樣本學習和持續(xù)學習AI技術(shù),因為它將使人工智能能夠快速適應新任務,滿足快速迭代的新需求。例如來自O(shè)penAI和Meta、WebGPT和BlenderBot2.0的最新語言模型,它們可以在網(wǎng)上檢索對他們提出的問題的最新答案。目前大多數(shù)AI算法仍然專注于被動數(shù)據(jù),數(shù)據(jù)量相對較大、穩(wěn)定,同質(zhì)化嚴重,這種算法可能適用于互聯(lián)網(wǎng)時代的人工智能模型,但我們希望將人工智能的能力帶入元宇宙,就需要支持快速變化社交屬性的新算香港科技大學計算機科學及工程學系教授楊強曾強調(diào):擁有大數(shù)據(jù)的人是少數(shù),且數(shù)據(jù)標注成本巨大,這種情況下,擁有數(shù)據(jù)越多的人,就能做出越好的人工智能產(chǎn)品,能夠提供更好的服務,并持續(xù)吸引更多的用戶貢獻數(shù)據(jù)。如此循環(huán),會形成“數(shù)據(jù)寡頭“,進而成為”人工智能寡頭“。另外,從技術(shù)上來講,深度學習必須具備大數(shù)據(jù),而經(jīng)過學習訓練后的知識又很難遷移到新的領(lǐng)域,這將導致計算機的學習效率不高。小樣本學習提供了一種緩解問題的方案,可以讓創(chuàng)新型公司在數(shù)據(jù)較少的領(lǐng)域也能提供人工智能的創(chuàng)新服務。清華大學的鄧志東認為:深度卷積神經(jīng)網(wǎng)絡,嚴重依賴于大數(shù)據(jù)(必須是完備的大數(shù)據(jù),包括極端與緊急情況下的大數(shù)據(jù),否則就不能達到人類水平的泛化能力)。而人類則是可以進行推理的,只需要從小數(shù)據(jù)、小樣本中學習,然后用特征+推理的方法就可以進行可靠的判別,也就是人類具有舉一反三的能力。比如說辨別飛機。人工智能要識別出飛機,就必須對各種型號、各種位姿、各種光照、各種背景、各種遮擋等各種情況下全世界的所有飛機照片進行監(jiān)督訓練,才能依靠分級分層特征的自動提取精確地識別出飛機。但是對人類來說,只需要預先看少量的照片或?qū)嵨?,就可以很容易地推斷出其他飛機,并不需要太多數(shù)據(jù)。這就是人類獨有的能力,即基于特征提取+推理的小樣本、小數(shù)據(jù)的學習能力。(以上為公開信前述多位AI領(lǐng)域大咖在談到類人類智能和AI普惠化的主題時都提到了“小樣本學習”。“小樣本學習”其實并不是什么新概念,甚至比神經(jīng)網(wǎng)絡的出現(xiàn)還要早。比如:小樣本學習里的一種學習方法-貝葉斯學習(BayesianProgramLearning,BPL),是利用參數(shù)的先驗分布,由小樣本信息求得后驗分布,并計算出總體分布。這種方法使用概率表示所有形式的不確定性來實現(xiàn)學習和推理過程。BPL方法通過了視覺圖靈測試,可以觀察到每個訓練樣本的假設(shè)預測概率的增加或減少,其核心目的就是解決“一眼識別”的問題。小樣本學習的決策有可能是錯誤的,特別是在沒有形成先驗概率之前,學習方法的不斷優(yōu)化是解決目標數(shù)據(jù)集偏差的唯一途徑。劍橋大學教授ZoubinGhahramani認為BPL對人工智能、認知科學和機器學習是一個重大貢獻。而GeoffreyHinton肯定了BPL模型通過視覺圖靈測試的意義,并認為BPL這類小樣本學習方法改變了計算機不能從單一樣例中形成概念的傳統(tǒng)理念。CVPR會議是計算機視覺領(lǐng)域的頂級年度峰會,計算機視覺關(guān)注目標檢測與分類、遷移與小樣本學習和人體識別。在2020年的會議上公布的數(shù)據(jù)顯示:2020年519Jan20235所提交的論文中,與小樣本學習相關(guān)的目標檢測與識別相關(guān)的論文數(shù)量明顯多于其成果突顯。資料來源:德勤,GitHub,HTI1.3.小樣本學習可以解決AI商業(yè)落地難題根據(jù)2020年Gartner人工智能調(diào)查報告,只有53%的AI算法原型最終被落地部署,這些算法需要不斷迭代。2020年,工信部賽迪研究院副總工程師、人工智能產(chǎn)業(yè)創(chuàng)新聯(lián)盟秘書長安暉公布過一個數(shù)據(jù),全球近90%的人工智能公司仍處于虧損狀態(tài),中國AI產(chǎn)業(yè)鏈中90%以上的企業(yè)也處在虧損階段。使用小樣本學習可以在人工智能項目落地過程中徹底解決對大量訓練數(shù)據(jù)的依賴,而由于減少了數(shù)據(jù)標注的工作量,模型訓練的成本和周期也在降低。目前越來越多的主流人工智能公司開始對小樣本學習方向發(fā)力,比如1STEP.AI已經(jīng)可以在SMP小樣本學習的比賽中,對小于十個樣本的情況下,做到文本意圖識別83.4%的衡量一家人工智能公司是否具有落地能力,主要看這家公司是否滿足用戶需求、算法、算力和數(shù)據(jù)能否解決用戶的痛點。使用小樣本學習不僅能解決數(shù)據(jù)問題,同時可以降低訓練對算力的要求,人工智能公司可以把全部精力放在研究算法來解決用戶痛點上,簡化了人工智能落地的復雜度。目前,基于小數(shù)據(jù)算法應用于長尾的應用場景已是國內(nèi)平臺公司和創(chuàng)新型公司不斷深入的新興領(lǐng)域。比如:在城市治理方面,商湯在共享單車違停、亂丟垃圾檢測以及遛狗合規(guī)性洞察等小眾、長尾需求等方面的嘗試;早在2020年,商湯已開始聚焦長尾應用,在世界人工智能大會上商湯用了很大篇幅介紹其AI長尾應用。另一家典型的小數(shù)據(jù)算法公司創(chuàng)新奇智,近幾年在智能制造、AI質(zhì)檢等制造業(yè)領(lǐng)域,實現(xiàn)了AI場景化落地的突飛猛進。619Jan20236圖2:機器學習成本序列資料來源:JieboLuo,UniversityofRochester;HTI從上圖中可以看出,小樣本學習的性價比最優(yōu),是垂直領(lǐng)域AI商業(yè)落地的關(guān)鍵因素。(無監(jiān)督學習其實是一種數(shù)據(jù)挖掘統(tǒng)計分析方法,比如聚類算法。)1.4.深度學習與小樣本學習的核心區(qū)別如果用形象的比喻來說,深度學習(DL)是解決計算機“運籌帷幄”的問題(大數(shù)據(jù)形成規(guī)律和抽象概念),而小樣本學習是解決計算機“照貓畫虎”的問題(少量數(shù)據(jù)形成決策)。深度學習更擅長分析規(guī)律和預測趨勢,而小樣本學習則具備舉一反三的能力。清華大學的鄧志東認為基于大數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡雖然博大精深,但也有明顯的缺陷。首先,現(xiàn)在的深度卷積神經(jīng)網(wǎng)絡,只能夠做分割與識別,如果有垂直細分領(lǐng)域的完備大數(shù)據(jù)的話,它甚至可以達到或超越人類的水平。但它目前的語義理解能力有限(語義理解目前更多是在NLP領(lǐng)域),只是把對象看成是一個向量?!氨热缫粋€杯子,深度卷積神經(jīng)網(wǎng)絡目前無法實現(xiàn)語義的理解,它僅僅是把杯子看成是一個向量或一個符號,所以它沒有太大的感知可靠性。同樣的,現(xiàn)在的語音識別雖然已取得巨大進步,但還做不到人類的水平,原因是深度卷積神經(jīng)網(wǎng)絡還不具備類人的語義理解能力,它只能看清、聽清,還不能看懂、聽懂。(ChatGPT的出現(xiàn)有可能標志著機器學習在NLP領(lǐng)域的語義理解能力的突破)其次,還是眾所周知的數(shù)據(jù)來源問題。只要有完備的大數(shù)據(jù),弱人工智能在特定的應用場景有可能達到甚至超過人類的水平,但要取得完備的大數(shù)據(jù),對很多開放的應用場景,并不存在。這也大大制約了大數(shù)據(jù)人工智能的應用和相關(guān)行業(yè)的發(fā)展。另外,拿到大數(shù)據(jù)之后,還要對它進行清洗、脫敏和標注,這同時也是一項巨大的工程,并需要行業(yè)專家的高度參與。最后,深度卷積神經(jīng)網(wǎng)絡是一個全局逼近網(wǎng)絡。也就是說,當輸入任何一個樣本時,它的所有連接權(quán)都會通過反向傳播發(fā)生改變。換句話說,網(wǎng)絡任何一個連接權(quán)發(fā)生變化,都會造成模型的輸出發(fā)生變化。形象的比喻就是:結(jié)識新朋友,忘了老朋友。而人類不是這樣的,人類神經(jīng)元的突觸變化是局部的,不會因為感知一個新的樣本輸入,而改變對一個事物或目標的原有感覺。在這一點上,人類做到了結(jié)識新朋友,不忘老朋友。另外,深度卷積神經(jīng)網(wǎng)絡還有其他一些問題,比如黑箱問題。不管是連接權(quán)、網(wǎng)絡結(jié)構(gòu)、超參數(shù)等,物理意義不大,是不可解釋的。鄧志東提出,發(fā)展基于人類“特征提取+推理”的小樣本、小數(shù)據(jù)學習方法是AI真正實現(xiàn)類人化的關(guān)鍵環(huán)節(jié)。總結(jié):深度學習是機器學習發(fā)展中一個很重要的里程碑,在很多任務上深度學習都取得了巨大的成功。而小樣本學習擬合人類智能,在數(shù)據(jù)量較少而清晰的情況719Jan20237下,可以更好的發(fā)揮其特長。深度學習和小樣本學習在不同的任務上各有特點,類人智能學習和深度強化學習應該是一個融合的方向,因為這樣更符合人類學習和決策的過程,從而真正提升人工智能的整體水平。圖3:機器學習演進資料來源:WeiranHuang,華為諾亞方舟實驗室高級研究員;清華大學交叉信息研究院;HTIFewShotLearning,F(xiàn)SL)?首先來看機器學習的定義,根據(jù)香港科技大學和第四范式的研究人員在2020年發(fā)布的一篇論文,機器學習的定義是:一個計算機程序可以從經(jīng)驗E中學習一些類別的任務T以及由P來度量性能,通過度量P的任務T上來提高E。進一步,小樣本學習的定義:是指一種機器學習方法(由E、T和P規(guī)定),其中E只包含帶有監(jiān)督信息的有限樣例,而T是新的目標生成任務。簡單來說就是,一個任務(T)是在僅有少量樣本的情況下生成一個新特征樣本,計算機程序使用E進行學習,E包含帶有監(jiān)督信息和預訓練概念,比如部分先驗經(jīng)驗。這個新生成的特征樣本以視覺圖靈測試(P)的通過率進行評估辨別圖像是由人類還是機器生成的,以此判斷小樣本學習的擬人化特征的準確性。簡單來說,小樣本學習其實就是研究如何用較少的樣本數(shù)據(jù)訓練出一個性能較好的模型的方法論集合,是一種研究方向,廣義上包括多種學習方法。人類可以將其他領(lǐng)域所積累的知識應用到對新領(lǐng)域理解的過程中,在很少的樣本中獲得某個新領(lǐng)域的知識,這個過程比起機器學習需要依賴成千上萬的數(shù)據(jù)作為訓練數(shù)據(jù)來說快捷很多(當然如果完全從零開始學習一個新知識,學習速度也是緩慢的)。小樣本學習與人類學習新領(lǐng)域的方式相當接近。它細分了很多種方法,但都是通過對其他各個領(lǐng)域知識的積累,在新的領(lǐng)域中尋找與所積累的知識的共性,從而快速的對新領(lǐng)域知識進行學習。機器學習就是從數(shù)據(jù)中學習,從而使完成任務的表現(xiàn)越來越好。小樣本學習是具有有限監(jiān)督數(shù)據(jù)的機器學習。類似的,其他的機器學習定義也都是在機器學習定義的基礎(chǔ)上加上不同的限制條件衍生出來。例如,弱監(jiān)督學習是強調(diào)在不完整、不準確、有噪聲、數(shù)量少的數(shù)據(jù)上學習;又比如半監(jiān)督學習是強調(diào)在少量標注數(shù)據(jù)和大量非標注數(shù)據(jù)上學習,遷移學習是把充足數(shù)據(jù)上學習的知識遷移到數(shù)據(jù)匱乏的任總結(jié)來說,小樣本學習本質(zhì)上其實也是在追求未來的通用AGI。目前,機器學習是建立在統(tǒng)計相關(guān)性之上,需要大量數(shù)據(jù)才能學習到較為可靠的模型。人類的小樣本辨別屬性來源于認知,小樣本學習也許可以從根本入手,包括數(shù)據(jù)的結(jié)構(gòu)性&非結(jié)構(gòu)性、邏輯的因果性、視覺的不變性等。理想的學習,是希望能夠降低模型的期望風險。也就是在未來不管有什么樣的樣本,都能夠很好的預測出來。但模型的聯(lián)合分布,一般是未知的,所以需要預測估算。在機器學習里面一般是優(yōu)化經(jīng)驗風險,但公式里面的經(jīng)驗風險是通過訓練集里面有多少樣本來獲得的,如果訓練樣本只有很少的標注數(shù)據(jù),經(jīng)驗值E將很小,最終得出的結(jié)論可能相當不可靠。最小化的風險經(jīng)驗估值是小樣本學習的難點,需要探索各種小樣本學習算法加以解決,真正的類人小樣本學習能力,還需依靠整個AI領(lǐng)域的根本性突破。819Jan20238歷史演進根據(jù)一篇名為“LearningfromVeryFewSamples:ASurvey”的論文(作者:JiangLu,PinghuaGong,JiepingYe,Fellow,IEEE,JianweiZhang,Member,IEEE和ChangshuiZhang,Fellow,IEEE),我們對小樣本學習的演進過程進行總結(jié)。機器學習的一般機制是使用在先前準備的訓練樣本上學習的統(tǒng)計模型對未來數(shù)據(jù)進行預測。在大多數(shù)情況下,模型的泛化能力由足夠數(shù)量的訓練樣本保證。然而,在許多現(xiàn)實應用中,由于只允許訪問很少的可訓練數(shù)據(jù),比如識別幾種不常見的動物,而由于它們的稀有性,可能只有幾張帶注釋的圖片。這些需要從很少的例子中學習的問題首先引起了E.G.Miller等人的注意。2000年,他假設(shè)了數(shù)字變換的共享密度,并提出了一種聚類算法,使測試數(shù)字圖像與特定類別的聚類數(shù)字圖像相一致。此后,越來越多的人開始致力于FSL的研究。FSL研究的發(fā)展過程大致可分為兩個階段,非深度階段(2000年至2015年)和深度階段(2015年至現(xiàn)在)。分水嶺是G.Koch等人在2015年引入深度學習和FSL問題的首次結(jié)合。在此之前,針對FSL問題提出的所有解決方案都是基于非深度學習方法。大多數(shù)著名的早期非深層FSL方法都基于生成模型,尋求在給定監(jiān)督(比如一個類)的情況下估計聯(lián)合分布P(X;Y)或條件分布P(XjY),在相當少的觀察訓練樣本上,從貝葉斯決策的角度對測試樣本進行預測。基于生成模型的FSL方法中的幾個里程碑,包括E.G.Miller等人的聚類算法,L.FeiFei等人的變分貝葉斯框架(VBF)以及B.M.Lake等人的貝葉斯程序?qū)W習(BPL)。聚類算法是研究如何從很少的樣本中學習的最早創(chuàng)始人;VBF是闡明“one-shotlearning”這一術(shù)語的第一個論文;而BPL則是利用人類的合成能力,概念認知中的因果關(guān)系和想象。在非深度階L隨著深度學習的蓬勃發(fā)展,特別是CNN(卷積神經(jīng)網(wǎng)絡)在視覺任務上取得的巨大成功,許多FSL研究者開始將目光從非深度模型轉(zhuǎn)向深度模型。2015年,G.Koch等人率先將深度學習納入FSL問題的解決方案中,提出了基于孿生卷積網(wǎng)絡CNN(SiameseCNN),對成對的樣例進行無相關(guān)類別的相似性度量學習(Metriclearning),這標志著FSL新時代的開始,即深度階段。之后,F(xiàn)SL方法充分利用了深度神經(jīng)網(wǎng)絡在特征表示和端到端模型優(yōu)化方面的優(yōu)勢,從各個不同角度解決FSL問題,包括數(shù)據(jù)增強、度量學習和元學習等,將FSL研究推向快速發(fā)展的新時期。在深度階段盡管也提出過一些基于生成模型的方法,比如神經(jīng)統(tǒng)計學和順序生成模型,但基于分類模型的FSL方法主導了FSL研究的發(fā)展。近年來,涌現(xiàn)了大量基于元學習的FSL方法,如O.Vinyals等人的匹配網(wǎng)絡、C.Finn等人的MAML、S.Ravi和H.Larochelle的元學習LSTM、a.Santoro等人的MANN、T.Munkhdalai和H.Yu的MetaNet、J.Snell等人的原型網(wǎng)、F.Song和H.Li等人的LGMNets等等,元學習策略已成為FSL的主流。在這個時期,各種先進的FSL方法已被直接應用或改進,以解決計算機視覺、自然語言處理、音頻和語音、數(shù)據(jù)分析、機器人等領(lǐng)域的各種應用,而廣義FSL和多模態(tài)FSL也已經(jīng)出現(xiàn)。簡單來說,F(xiàn)SL的演變歷史見證了從非深度階段到深度階段的轉(zhuǎn)變,生成模型和分類模型之間主流方法的交替,以及經(jīng)典元學習思想的復興。目前,與FSL相關(guān)的研究成果經(jīng)常出現(xiàn)在許多頂會中,吸引了機器學習領(lǐng)域的廣泛關(guān)注。919Jan20239資料來源:論文“LearningfromVeryFewSamples:ASurvey”,HTI樣本學習方法研究根據(jù)一篇2022年5月發(fā)表的名為“AComprehensiveSurveyofFew-shotLearning:Evolution,Applications,Challenges,andOpportunities”的論文(以下簡稱“AComprehensiveSurvey”)(作者:YishengSong,TingWang,SubrotaKMondal,JyotiPrakashSahoo),F(xiàn)SL學習方法可大致分為單模態(tài)學習和多模態(tài)學習學習,單模態(tài)學習可以進一步分為數(shù)據(jù)增強、遷移學習和元學習,主要側(cè)重于將有限的信息轉(zhuǎn)換為更高級別的功能向量或元知識。多模式學習更接近人類智能的真實世界,依靠有限FSL的關(guān)鍵在于樣本有限不能反映實際的數(shù)據(jù)分布,需要生成基于特定概率模型的附加數(shù)據(jù)或者使用來自擴展數(shù)據(jù)的大量未標記數(shù)據(jù)來擴展輔助數(shù)據(jù)集。現(xiàn)有的工作重點是探索特征差異和特征提取,并通過人工制定的規(guī)則或自動學習的數(shù)據(jù)處理方式來實現(xiàn)FSL學習過程。整體分類法以金字塔的形式呈現(xiàn),底層代表了“云-邊緣-終端”的邊緣計算場景,在此基礎(chǔ)上,根據(jù)所需知識的整合程度,將FSL分為四個層次。次19Jan2023資料來源:論文“AComprehensiveSurvey”,HTI4.1數(shù)據(jù)增強在實際的FSL任務中,支持和查詢數(shù)據(jù)集通常由于隱私、收集成本和標簽成本而受到限制。為了解決這個問題,數(shù)據(jù)增強被認為是最直接的方法,以增加FSL中的樣本豐富度。然而,F(xiàn)SL數(shù)據(jù)增強的核心問題是增強的數(shù)據(jù)集如何評估真實數(shù)據(jù)的分布。基于數(shù)據(jù)增強技術(shù)是否可以重復用于其他任務中。FSL數(shù)據(jù)增強可分為人工制定規(guī)則和自動學習數(shù)據(jù)處理。4.1.1人工定制規(guī)則人工定制的規(guī)則需要專家的專業(yè)知識。具有代表性的成果是Bouthillier等人提出的在隨機矩形區(qū)域中隨機丟棄像素,來生成模擬噪聲的矩形塊。類似操作還包括FSL中的隨機擦除和填充等。然而,簡單地依靠單一樣本的簡單變換不能防止過擬合的風險。數(shù)據(jù)級增強數(shù)據(jù)級增強主要是對輸入數(shù)據(jù)的轉(zhuǎn)換,目的是通過對數(shù)據(jù)進行輕微的修改來擴大現(xiàn)有數(shù)據(jù),以實現(xiàn)模型輸入的多樣性。隨機擦除和隨機裁剪是經(jīng)典的算法,通過模擬不同缺損程度的圖像,從而提高模型的泛化性。這種方法往往需要大規(guī)模的數(shù)據(jù)集作為支持。在FSL中,要實現(xiàn)這一點并不容易。相反,CSEI不需要額外的數(shù)據(jù)集,具體的操作是擦除來自度量函數(shù)的支持集中的大部分區(qū)分區(qū)域,并使用恢復操作將其替換為圖像填充。FTT通過對一些瞬時轉(zhuǎn)換的屬性進行線性插值來豐富數(shù)據(jù)集,如不同的天氣和照明。ZChen等人提出了一種端到端分割圖像的方法,即使圖像經(jīng)歷各種扭曲,仍能保留重要的語義信息。圖像扭曲和GNN(圖形神經(jīng)網(wǎng)絡)之間最顯著的區(qū)別是,圖像扭曲只是將兩個圖像線性地縫合在一起。該方法能夠在不損19Jan2023失分類的情況下實現(xiàn)最大的變形。此外,通過使用現(xiàn)實世界中大量的未標記數(shù)據(jù)集進行補充,這也是一個數(shù)據(jù)增強的方向。最后,當源集和目標集都只有有限數(shù)量的樣本時,AdarGCN實現(xiàn)從互聯(lián)網(wǎng)資源中抓取數(shù)據(jù),并自動去除無關(guān)的噪聲,以實現(xiàn)可控的數(shù)據(jù)增強。綜上所述,數(shù)據(jù)級的數(shù)據(jù)增強側(cè)重于通過像素轉(zhuǎn)換和像素生成來增加樣本的數(shù)量。基于數(shù)據(jù)級的主要數(shù)據(jù)增強方法如下:圖6:數(shù)據(jù)級增強方法資料來源:論文“AComprehensiveSurvey”,HTI注:基于數(shù)據(jù)水平的FSL數(shù)據(jù)擴充主要包括互聯(lián)網(wǎng)數(shù)據(jù)采集、環(huán)境變異、差異遷移和隨機裁剪填充等。特征級增強在FSL中,特征級增強比數(shù)據(jù)級增強更有效。特征級增強主要是將像素信息映射到一個高維的潛在空間中。它比單純的原始像素攜帶更有效的信息。Gao等人首先探索了少樣本數(shù)據(jù)背后的潛在分布,并提出了一種對抗性協(xié)方差增強網(wǎng)絡來克服FSL的局限性。Chu等人試圖計算每個補丁的特征表示,而不是整個圖像。每個小補丁由RNN連接,圖像的特征進一步融合,該啟發(fā)式算法遠遠優(yōu)于簡單的注意力模型。Zhang等人從另一個角度解釋部分特征學習,提出使用預先訓練好的模型將視覺特征分解為三個部分,然后選擇原始、前景和背景圖像重新拼接成新的視覺特征。類似地,Laso探索了高維空間中不同數(shù)據(jù)集之間的特征差異,通過集合的交叉和互補來組合不同的標簽,可以使圖像在特征級別上同時包含來自多個類的關(guān)鍵信息。將這部分圖像作為支持集進行訓練,可以顯著提高小樣本的分類性能。圖7:基于特征層級的增強方法資料來源:論文“AComprehensiveSurvey”,HTI注:基于特征級的數(shù)據(jù)增強主要分為全局特征和局部特征。全局特征聚焦于整個圖像,包括前景和背景。而局部特征是有選擇性地關(guān)注于前景中的主題部分。19Jan20234.1.2自動學習數(shù)據(jù)處理2018年,隨著元學習的成熟,數(shù)據(jù)增強進入了自動增強的領(lǐng)域。通過元學習與其他數(shù)據(jù)增強方法的結(jié)合,出現(xiàn)了大量優(yōu)秀的研究成果。Hu等人受到DARTS算法的啟發(fā),將數(shù)據(jù)增強抽象為多個子策略,每個子策略根據(jù)不同的FSL任務有一定的選擇概率。除了基于概率的方法外,另一種方法是基于生成的方法。Li等人提出了對抗性特征虛擬網(wǎng)絡-AFHN。虛擬的多樣性和辨別特征是基于少量的標記樣本。Chen等人試圖訓練一個元學習learner,并生成一個網(wǎng)絡,通過融合一對圖像來端到端學習圖像之間的異同。MetaGAN在此基礎(chǔ)上引入了一個基于任務條件的對抗性生成器,幫助FSL任務在不同類之間形成可擴展的決策邊界。此外,探索支持數(shù)據(jù)集中類之間和類內(nèi)部的可遷移差異也有意義,而自動編碼器用于遷移學習的差異性判別,這與基于度量的視覺相似度計算不同。資料來源:論文“AComprehensiveSurvey”,HTI注:學習式數(shù)據(jù)處理的目的是在多個任務空間中學習一個策略生成器,從而自動匹配不同的任務。與人工定制規(guī)則相比,它最大的好處是可以被復用。為了最大限度地評估FSL任務中真實數(shù)據(jù)的分布,數(shù)據(jù)增強已經(jīng)從人工制定規(guī)則演進到自動學習的數(shù)據(jù)處理階段,分水嶺是2018年元學習的成熟。4.2遷移學習遷移學習是為特定的問題構(gòu)建了數(shù)據(jù)到標簽的映射,同樣是為了解決FSL中只有少數(shù)甚至沒有標記樣本的問題。通過特征重用來解決FSL數(shù)據(jù)缺失問題是遷移學習的核心思想。基本原理是在廣泛的數(shù)據(jù)集上進行預訓練,然后在有限的支持集上進行微調(diào)。當源域和目標域存在較大差距時,知識轉(zhuǎn)移的效率比較低,這種跨域設(shè)置為FSL帶來了新的挑戰(zhàn)。在FSL中,遷移學習可以大致分為預訓練階段和微調(diào)階段,被稱為基線階段(base-line)。19Jan2023遷移學習的預訓練和微調(diào)架構(gòu)資料來源:論文“AComprehensiveSurvey”,HTI4.2.1預訓練和微調(diào)在預訓練模型出現(xiàn)之前,自然語言處理領(lǐng)域進展緩慢。隨著計算能力的提高和預訓練模型的提出,2012年至2018年期間,在計算機視覺和自然語言處理領(lǐng)域出現(xiàn)了大量優(yōu)秀的研究成果,如MobileNet、ResNet、ELMO、GPT和BERT等等。如何利用優(yōu)秀的模型獲得特征將在很大程度上減輕FSL數(shù)據(jù)的壓力,特別是對于少樣本圖像分類。作為預訓練模型,需要使用外部大規(guī)模標簽數(shù)據(jù)集從類似的任務中提取先驗知識。最常見的做法是設(shè)計一個沒有分類器層的主干模型,其中包括卷積神經(jīng)網(wǎng)絡或自動編碼器。模型的輸入是一組圖像,輸出是嵌入在高維空間的特征向量。高維特征向量獲得了關(guān)于目標圖像的足夠的有效語義信息。預訓練后則是微調(diào),預訓練的大部分參數(shù)被凍結(jié),在測試階段只更新分類層參數(shù)。許多研究成果表明,與基線模型相比,微調(diào)可以將5way-1shot任務(5個類別,每個類別1個樣例)的準確率提高2%-7%。預訓練和微調(diào)有助于提高FSL的準確性,這些結(jié)論在自然語言處理中也很類似。微調(diào)可以嵌入到最先進的元學習或半監(jiān)督學習框架中,以優(yōu)化模型參數(shù),目前已被廣泛應用于植物病蟲害鑒定、道路檢測和自動問答等應用中。4.2.2跨域小樣本學習遷移學習還有一個跨域?qū)W習的問題。在許多實際應用中,為特定任務收集各種形式的數(shù)據(jù)集并不現(xiàn)實,在不同領(lǐng)域間FSL的適用性成為挑戰(zhàn)。長期以來,F(xiàn)SL常用的基準數(shù)據(jù)集存在標準化數(shù)據(jù)集結(jié)構(gòu)和自然場景相似性的問題,導致模型在標準數(shù)據(jù)集上表現(xiàn)良好,但在現(xiàn)實任務中效果很差。谷歌于2020年首次發(fā)布了FSL跨域數(shù)據(jù)集,其中有10個公開圖像數(shù)據(jù)集,包括ImageNet、CUB-200-2011等。但這些數(shù)據(jù)集仍然只專注于自然場景,無法被廣泛地視為跨領(lǐng)域的小樣本基準數(shù)據(jù)集,直到出現(xiàn)BSCD-FSL數(shù)據(jù)集。目前,跨域FSL側(cè)重于通過遷移學習來區(qū)分與領(lǐng)域無關(guān)的特征和領(lǐng)域自適應技術(shù)。領(lǐng)域自適應的目標是將知識從源域轉(zhuǎn)移到目標域,目標域的類別集相同,但與源域的數(shù)據(jù)分布不同。近年來,許多研究工作都使用自適應網(wǎng)絡將其特征與一個新的域校準,或從多個主干模型中選擇與域無關(guān)的特征。19Jan20234.3元學習元學習是推導出獨立于特定問題的任務到目標的模型映射。元學習從數(shù)據(jù)和任務的雙重采樣中學習歷史先驗知識,然后提取元知識以應用于未來的任務。元學習獨立于特定的問題,在任務空間中探索最優(yōu)的初始化參數(shù),拋棄了傳統(tǒng)監(jiān)督學習下與任務無關(guān)的特征表達。到目前為止,大多數(shù)元學習模型都采用傳統(tǒng)梯度下降的參數(shù)進行更新。當然,也有基于強化學習和度量方法的非梯度下降方法。在FSL中,元學習可以用于自動化模型參數(shù)學習、度量函數(shù)和信息傳遞。4.3.1模型參數(shù)學習大多數(shù)深度學習框架使用不同的參數(shù)初始化方法,比如均勻分布、正態(tài)分布等。這種隨機初始化的最大問題是很容易落入局部最優(yōu)。元學習的目標是訓練一個超參數(shù)生成器(超參數(shù)是在開始學習之前設(shè)置的參數(shù),而不是通過訓練得到的數(shù)據(jù)。通常情況下,需要對超參數(shù)進行優(yōu)化,以提高學習的性能和效果),經(jīng)典的方法是MAML、Reptile以及它們的派生變體。MAML通過計算每個任務的優(yōu)化方向來確定全局優(yōu)化方向。與MAML相比,Reptile可以一次更新更少的參數(shù)。元學習被證明比使用標準的FSL基準數(shù)據(jù)集的遷移學習表現(xiàn)得更好。然而,元學習對網(wǎng)絡結(jié)構(gòu)更為敏感,需要對超參數(shù)進行微調(diào)。目前,MAML已被廣泛應用于各種任務中,并產(chǎn)生了各種變體來解決各種問題。比如MAML++,F(xiàn)OMAML,Meta-SGD、TAML、iMAML、iTMAML等。學習優(yōu)化器是模型參數(shù)學習的另一個重要方向。LSTM作為基本優(yōu)化器,接受在t和t-1時間元網(wǎng)絡隱含狀態(tài)的差異,而原生網(wǎng)絡的輸出是對模型的權(quán)重和偏差的更新。2016年,Xu等人提出了BPTT監(jiān)督LSTM培訓,這是在有監(jiān)督學習的上下文中執(zhí)行的。在無監(jiān)督和主動學習的設(shè)置下,研究者致力于強化學習、貝葉斯推理和進化算法,試圖通過啟發(fā)式算法自動找到優(yōu)化策略。傳統(tǒng)的神經(jīng)架構(gòu)搜索(NAS)也結(jié)合了元學習的思想,并在FSL下對其進行了相應的調(diào)整。最近的大量研究表明,單樣本NAS和傳統(tǒng)NAS之間存在性能差異。單樣本NAS使用權(quán)重共享網(wǎng)絡只對超級網(wǎng)絡進行一次訓練,然后進行一輪推理以獲得準確的預測,大大減少了實驗所需的計算量。Zhao等人提出的基于小樣本NAS,其核心思想是將超級網(wǎng)絡劃分為多個子網(wǎng),以搜索空間的不同區(qū)域。隨著超級網(wǎng)絡數(shù)量的增加,小樣本NAS的精度可以大大提高。MetaNAS是另一種完全集成元學習和傳統(tǒng)NAS的方法。MetaNAS能夠在元學習的思想下實現(xiàn)更好的初始化參數(shù),更好的適應下游學習任務。4.3.2度量學習算法(MetricAlgorithm)度量學習不同于經(jīng)典的元學習,度量學習不再將模型劃分為訓練和測試階段。度量學習是基于一個原型網(wǎng)絡,經(jīng)過改進,獲得了分類任務基準數(shù)據(jù)集。Siamese神經(jīng)網(wǎng)絡是度量學習中一個相對較早的模型,可以簡單地看作是一個二元分類問題。模型的輸入由一組正負樣本對組成,模型需要在推理階段評估圖像的相似性。Tripleloss是在FSL度量學習中處理多對輸入的另一種方法。與Siamese神經(jīng)網(wǎng)絡相反,Tripleloss需要正樣本、負樣本和錨定樣本同時可用。與Siamese神經(jīng)網(wǎng)絡相比,原型網(wǎng)絡實現(xiàn)了分類的真正意義,最顯著的區(qū)別是,該模型允許使用更多的數(shù)據(jù)作為輸入,通過特征平均,找到最具代表性的樣本作為原型。然而,簡單的特征平均很容易受到噪聲的干擾。在此基礎(chǔ)上,許多研究已經(jīng)探索了如何使原型之間的距離越來越大,最具代表性的研究成果之一是提出正負邊緣(PositiveandNegativeMargins)的建議,它進一步減少了過擬合,增強了基于模型鑒別能力的泛化。19Jan2023圖10:一個典型的度量學習框架資料來源:論文“AComprehensiveSurvey”,HTI注:該框架對嵌入模型和原型模型進行端到端學習,利用學習到的嵌入特征計算查詢圖像與原型之間的距離,使不同類之間的距離更遠,使相同類之間的距離更近。匹配網(wǎng)絡(MatchingNetworks),是一個更通用的網(wǎng)絡框架,它將小樣本數(shù)據(jù)集和未標記數(shù)據(jù)映射到嵌入空間中的向量。匹配網(wǎng)絡結(jié)合了最近鄰算法(nearestneighbouralgorithm)的參數(shù)模型和非參數(shù)模型的最佳特征,通過學習嵌入表達來模擬樣本的距離分布。如何在有限的時間內(nèi)學習高質(zhì)量的嵌入表達,對于提高模型的精度具有重要意義。基于嵌入表達的處理在FSL中起著至關(guān)重要的作用。關(guān)系網(wǎng)絡(Relationalnetwork),與上述模型的不同之處在于,其相似性是通過神經(jīng)網(wǎng)絡計算的。與Siamese神經(jīng)網(wǎng)絡和原型網(wǎng)絡相比,關(guān)系網(wǎng)絡可以被視為提供了一個可學習的非線性分類器來確定關(guān)系。該分類器可以是一個預先訓練過的神經(jīng)網(wǎng)絡或嵌入式模塊的特征提取器。關(guān)系網(wǎng)絡最重要的貢獻是脫離了單一的線性度量函數(shù),并探索了使用另一種模型來產(chǎn)生相似性。4.4信息傳遞學習研究證明,圖神經(jīng)網(wǎng)絡(GNNs)近年來在基于關(guān)系的任務上表現(xiàn)良好,其基于類的信息傳輸可以很好地幫助FSL學習識別新的類,同時避免這些類被專有特性所主導。早期的圖神經(jīng)網(wǎng)絡通過在支持集和查詢集之間創(chuàng)建完整的連接來模擬不同節(jié)點之間的權(quán)值的傳播。節(jié)點可以用編碼或嵌入向量來表示,節(jié)點之間可以通過邊界來連接??紤]到圖神經(jīng)網(wǎng)絡算法的復雜性,目前大多數(shù)圖神經(jīng)網(wǎng)絡的層數(shù)都較淺。為了更好地適應FSL,圖神經(jīng)網(wǎng)絡用節(jié)點和邊界被單獨設(shè)計。下圖從探索小樣本分布的角度,展示了圖神經(jīng)網(wǎng)絡FSL的代表性算法。DPGN信息傳遞學習示意圖資料來源:論文“AComprehensiveSurvey”,HTI19Jan2023DPGN(DistributionPropagationGraphNetwork)關(guān)注GNN中樣本之間的關(guān)系和樣本分布之間的關(guān)系。其中,點圖用來描述樣本,分布圖用來描述分布。這兩個GNN通過傳遞信息,融合了樣例級和分布級的關(guān)系。另外,還有EGNN、Meta-GCN、GERN、HGNN和Frog-GNN等相關(guān)算法。目前,圖神經(jīng)網(wǎng)絡被廣泛應用于小樣本圖像分類、語義分割和實例分割等任務中。在FSL中,元學習主要探索從任務到目標模型的映射。它訓練了一個超調(diào)優(yōu)設(shè)備,當它根據(jù)不同的任務收斂時,可以給出一組很好的超參數(shù)。然而,元學習并不是普遍適用于所有情況。當前的元學習理念需要有足夠的歷史任務,如果在某些問題上沒有足夠的任務,元學習可能無法解決問題。同樣地,如果源和目標之間的域差距太大,結(jié)果也會變差。4.5多模態(tài)學習多模態(tài)是指不同類型的數(shù)據(jù)資源,比如文字、影像、音訊、影片等。在過去,AI模型幾乎只能處理單一模態(tài)任務,比如只限于文字或視覺。但2021年出現(xiàn)不少多AIOpenAICLIPDALLE能同時處理文字和影像,靠輸入文字就能產(chǎn)生圖片;還有DeepMind的PerceiverIO。雖然這些新的多模態(tài)系統(tǒng)大多處于實驗階段,但也已經(jīng)在實際應用中取得突破。例如開源社區(qū)將CLIP與生成對抗網(wǎng)絡(GAN)相結(jié)合,開發(fā)數(shù)字藝術(shù)作品。藝術(shù)家MartinO’Leary使用SamuelColeridge的史詩作品《忽必烈大汗》為輸入,生成了充滿迷幻色彩的“SinuousRills”。谷歌也表示,將為其搜索引擎添加多模態(tài)功能,它的多任務統(tǒng)一模型可以處理文本、音頻、圖像和視頻內(nèi)容,用戶可以通過75種語言中的任何一種語言使用。 (源自公開信息)到目前為止,F(xiàn)SL在單模領(lǐng)域已取得重大進展。在單模態(tài)學習中,模型主要負責將信息表示為特征向量,可以由計算機處理或進一步抽象為更高層次的語義向量。FSL中的多模態(tài)學習是指通過利用多種模態(tài)之間的互補性和消除模態(tài)之間的冗余來學習更好的特征表達。通過融合多模態(tài)信息,可以提高模型對小樣本數(shù)據(jù)的感知能力。下圖為多模態(tài)條件下FSL的主要路徑。多模態(tài)的FSL主要是解決如何在特征表達的條件下,通過融合、校準和翻譯來對其他模態(tài)信息進行建模,以彌補對有效信息本身的缺乏。資料來源:論文“AComprehensiveSurvey”,HTI19Jan2023多模態(tài)嵌入最近的研究表明,F(xiàn)SL對某些任務的視覺特征有明顯的局限性。語義空間作為輔助信息,可以為視覺特征提供有效的上下文,來幫助FSL。實驗表明,兩種或兩種以上模式的自適應組合比單模態(tài)FSL要好得多,通過整合多個視覺特征,為每個類別構(gòu)建了弱語義監(jiān)督。還有人使用變分自動編碼器(VAEs),基于潛在的視覺特征來建模語義特征,并通過添加類標簽、屬性和自然語言描述以及知識推理,進一步擴展了語義信息。通過嵌入損失函數(shù)(lossfunctions),將附加的語義信息與視覺特征校準,從而大大降低了知識遷移的成本。從圖像中生成語義信息使用多模態(tài)FSL的另一個相關(guān)領(lǐng)域是文本到圖像的生成。在小樣本視覺分類任務中,基于視覺和語義的方法,使用文本描述來生成額外的訓練圖像,具有很好的研究潛力。比如:(1)利用生成對抗網(wǎng)絡(GAN)作為數(shù)據(jù)生成器對模型進行訓練,基于語義信息生成相應的視覺特征,通過結(jié)合原始視覺特征獲得增強的視覺特征;(2)分別探索生成圖像和特征向量,在零樣本學習領(lǐng)域取得了進展,將文本到圖像的生成遷移到目標檢測任務中,可以與當前的FSL集成,在上下文聯(lián)合學習階段實現(xiàn)一個更通用的模型;(3)通過連接兩個CGAN(有條件約束的GAN),來提高生成圖像的分辨率。多模態(tài)FSL仍處于發(fā)展階段,目前還存在諸多挑戰(zhàn),比如:如何組合來自異構(gòu)域的數(shù)據(jù),如何處理在不同模態(tài)組合過程中發(fā)生的不同級別的噪聲等等。在多模態(tài)FSL中,一個好的特征表達應該能夠基于觀察到的模態(tài)信息填充缺失的模態(tài)。以上是FSL領(lǐng)域目前主要的學習算法,這些算法主要集中在圖像分類、字符識別、目標檢測、語義分割、圖像檢索、手勢識別、視頻目標檢測等應用領(lǐng)域。4.6FSL與AutoML的結(jié)合AutoML是一套主動學習算法框架,通過主動學習(ActiveLearning)技術(shù),改變了監(jiān)督學習的被動接受人工標注樣本的模式。在傳統(tǒng)AI算法開發(fā)流程中,從業(yè)務和問題定義,到數(shù)據(jù)采集和標注、存儲管理、數(shù)據(jù)分析和可視化,再到模型結(jié)構(gòu)設(shè)計、優(yōu)化、最后到應用開發(fā),流程復雜,且成本較高。涵蓋算法研發(fā)全流程的AutoML可以從特征工程、模型構(gòu)建、超參選擇,優(yōu)化方法四方面實現(xiàn)自動化,其優(yōu)勢在于:可減少算法生產(chǎn)成本,提高效率,并降低了算法生產(chǎn)門檻。在業(yè)界,已經(jīng)有許多較為成熟的AutoML平臺,國外如FeatureLab(自動特征工程)、GoogleCloudVertexAINAS;國內(nèi)則有第四范式的AIProphetAutoML等,包括創(chuàng)新奇智的Orion平臺也涵蓋了AutoML功能。小樣本學習是為了解決碎片化場景無法獲取大量數(shù)據(jù)訓練模型的問題,而AutoML是在傳統(tǒng)算法模式下,通過主動學習來提高算法生產(chǎn)效率,解放人力成本。換句話說,小樣本學習解決小數(shù)據(jù)智能分析問題,AutoML則是提高算法生產(chǎn)效率的方法,兩者互相結(jié)合,通過“特征提取+自動標注”的FSL+AutoML可有效實現(xiàn)小樣本、低成本和算法精度之間的平衡,改變了以往的算法生產(chǎn)模式,將算法生產(chǎn)帶入平民化和低成本時代。(以上內(nèi)容來自中科智云,HTI整理)19Jan2023研究領(lǐng)域的發(fā)展現(xiàn)狀5.1研究產(chǎn)出和發(fā)展方向近十年來,F(xiàn)SL的研究得到了廣泛的關(guān)注,并取得了重大研究進展,例如阿里巴巴提出的KGBert首次在FSL領(lǐng)域超越人類。論文“AComprehensiveSurveyofFew-shotLearning:Evolution,Applications,Challenges,andOpportunities”,統(tǒng)計了近十年來與FSL相關(guān)的論文數(shù)量,2011年至2015年,由于FSL理論仍然不完整,相關(guān)論文較少。自2015年以來,隨著深度學習的興起,F(xiàn)SL相關(guān)研究論文的數(shù)量呈線性大幅增長。2020年,相關(guān)論文的數(shù)量已達到239篇,引用次數(shù)達到了2731次,2021年有所下降。圖13:頂會上發(fā)表的FSL相關(guān)論文數(shù)量資料來源:論文“AComprehensiveSurvey”,HTI類、對象檢測、語義分割和實例分割。下圖展現(xiàn)了小樣本學習領(lǐng)域的主要進展和研19Jan2023圖14:小樣本學習領(lǐng)域的主要進展和研究方向資料來源:論文“AComprehensiveSurvey”,HTI在FSL數(shù)據(jù)集方面,經(jīng)過10年的發(fā)展,F(xiàn)SL基準數(shù)據(jù)集已完成從單個域、單個數(shù)據(jù)集到跨域、多個數(shù)據(jù)集的演進。根據(jù)統(tǒng)計,2017-2021年間,898篇論文使用了CUB-200-2011數(shù)據(jù)集,占比46.6%;587篇論文使用了Mini-ImageNet數(shù)據(jù)集,占比30.5%;335篇論文使用了Omniglot數(shù)據(jù)集,占比17.4%;44篇論文使用了PASCAL-5i數(shù)據(jù)集,46篇論文使用了元數(shù)據(jù)集。從數(shù)量上來說、CUB-200-2011、Mini-ImageNet和Omniglot基準數(shù)據(jù)集占據(jù)主導地位。FSL資料來源:論文“AComprehensiveSurvey”,HTI2019Jan202320另外,CSET在2021年9月發(fā)布了一份報告(SmallData‘sBigAIPotential)。報告借鑒了其原始數(shù)據(jù)集,包括合并的學術(shù)文獻庫,涵蓋了全球90%以上的學術(shù)產(chǎn)出,以展現(xiàn)小數(shù)據(jù)學習方法的研究進展、國家競爭力和資金投入情況。該報告將小數(shù)據(jù)學習方法分為了5大類:(1)遷移學習(TransferLearning);(2)數(shù)據(jù)標注 (Datalabeling);(3)人工數(shù)據(jù)生成(Artificialdata);(4)貝葉斯方法 (Bayesian,代表元學習的一種);(5)強化學習(ReinforcementLearning)。遷移學習,前述已做說明,這里略過。數(shù)據(jù)標注,這里提到的數(shù)據(jù)標注是指從有限的標記數(shù)據(jù)到大量的未標記數(shù)據(jù),通過一系列方法來理解可用的未標記數(shù)據(jù),如自動標記(自動生成標簽)或主動學習(activelearning)。人工數(shù)據(jù)生成旨在判斷可用數(shù)據(jù)的基本結(jié)構(gòu)并從中進行推理,來創(chuàng)建新的數(shù)據(jù)點或相關(guān)技術(shù),最大限度地從少量數(shù)據(jù)中提取更多信息。從簡單的修改到更復雜的方法(如:在圖像分類數(shù)據(jù)集中裁剪或旋轉(zhuǎn)圖像等)。貝葉斯方法是機器學習和概率統(tǒng)計的一大類方法。簡單來說,貝葉斯方法提供了一種計算假設(shè)概率的方法,基于假設(shè)的先驗概率、給定假設(shè)下觀察不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身,并將未知參數(shù)的先驗信息與樣本信息相結(jié)合,再根據(jù)貝葉斯公式,得出后驗信息,然后根據(jù)后驗信息去推斷未知參數(shù)。貝葉斯方法更適合于數(shù)據(jù)有限的某些情況,側(cè)重于對其預測的不確定性進行校準評估,這在數(shù)據(jù)可用性有限的情況下很有幫助。貝葉斯方法是一個龐大的家族,不僅擅長處理小數(shù)據(jù)集,一些相關(guān)研究也使用大型數(shù)據(jù)集。強化學習是機器學習的范式和方法論之一,用于描述和解決計算機系統(tǒng)與環(huán)境的交互過程,通過學習策略 (制定規(guī)則)以達成回報最大化或?qū)崿F(xiàn)特定目標。強化學習的常見模型是標準的馬爾可夫決策過程(MarkovDecisionProcess,MDP)。強化學習通常用于訓練游戲系統(tǒng)、機器人和自動駕駛車輛。盡管強化學習經(jīng)常需要大數(shù)據(jù),但該報告還是將它包含在內(nèi),原因是它使用的數(shù)據(jù)通常是在模擬環(huán)境中訓練生成的,而不是事先收集和下圖顯示了這些不同領(lǐng)域如何相互連接。每個點代表一個研究集群(即一組論文)。一個研究集群與另一個研究群組的線的粗細代表了兩個研究集群之間引用鏈接的強度。沒有連線表示沒有引用鏈接??梢钥闯觯m然集群與同一類別中的其他集群聯(lián)系最緊密,但不同類別的集群之間也存在大量關(guān)聯(lián)。據(jù)研究集群的網(wǎng)絡圖譜資料來源:CSET,HTI2119Jan202321就研究文獻數(shù)量而言,五類“小數(shù)據(jù)”方法在過去十年中有著截然不同的軌跡。強化學習和貝葉斯方法是兩個最大的類別。貝葉斯論文數(shù)量在過去十年中穩(wěn)步增長,強化學習從2015年開始增長,隨后在2017年至2019年期間增長尤為迅速,這可能是由于深度強化學習的革命性進展。遷移學習在2010年時很少,但到了2020年已有較大幅度增長。相比之下,在過去十年中,人工數(shù)據(jù)生成和數(shù)據(jù)標記研究的論文數(shù)量一直很低。圖17:各小數(shù)據(jù)學習分類的研究趨勢資料來源:CSET,HTI5.2國家研究產(chǎn)出競爭力CSET的報告根據(jù)發(fā)表的論文數(shù)量和引用數(shù)量等衡量標準,對各國在每一類別中的相對地位進行了統(tǒng)計,以了解國家間在小數(shù)據(jù)方法中的潛力。下圖顯示了在小數(shù)據(jù)發(fā)表文獻方面排名前10的國家的統(tǒng)計數(shù)據(jù)。與人工智能的總體發(fā)展趨勢一致,中國和美國是小數(shù)據(jù)相關(guān)研究的前兩大生產(chǎn)國,英國緊隨其后。中國在數(shù)據(jù)標注和遷移學習方法方面領(lǐng)先,而美國在貝葉斯方法、強化學習和人工數(shù)據(jù)生成方面領(lǐng)先。2219Jan202322圖18:前10個國家在小樣本學習領(lǐng)域的產(chǎn)出統(tǒng)計資料來源:CSET,HTI下圖展示了按國家劃分的三年增長預測。相對于美國和世界其他地區(qū),中國在遷移學習方法的增長率我們預計會高出許多。這一預測可能意味著中國在遷移學習方面將取得更大的進步。圖19:分地區(qū)各研究方向的發(fā)展預測資料來源:CSET,HTI下圖顯示了私營部門對小數(shù)據(jù)研究的資金投入情況。與政府實體相比,美國的私營部門似乎傾向于為小數(shù)據(jù)研究投入更多的資金,而不是一般的人工智能研究,并且明顯高于其他國家。2319Jan202323圖20:各地區(qū)私營部門對小數(shù)據(jù)研究的投入情況資料來源:CSET,HTI根據(jù)以上CSET的報告,我們可以得出以下觀點:(1)美國和中國在小數(shù)據(jù)方法方面競爭激烈,美國在兩種最大的方法(強化學習和貝葉斯方法)中遙遙領(lǐng)先,但中國在遷移學習方面處于領(lǐng)先地位,并不斷增(2)相對于整個人工智能領(lǐng)域的投資模式,美國的私營部門在小數(shù)據(jù)研究方面更具投資興趣,遠高于其他國家。目前,在各個應用領(lǐng)域都出現(xiàn)了小樣本學習的身影。最早出現(xiàn)的計算機視覺,如圖片分類、物體識別、圖片切割。后來是NLP領(lǐng)域,比如一些經(jīng)典的關(guān)系抽取、NER任務。如何通過微調(diào)或者構(gòu)建一些模板,把只有少量標注數(shù)據(jù)的任務調(diào)到一些新任務上,是最近NLP領(lǐng)域的研究重點。除了NLP領(lǐng)域,還有知識圖譜,比如處理出現(xiàn)的新實體、新關(guān)系,都可以通過小樣本學習的方法來完成。另外,還有新藥研發(fā)和機器人學。PaddleFSL的小樣本學習。PaddleFSL是一個基于飛槳的小樣本學習工具包。在這個工具包里,提供了簡單、易用、穩(wěn)定的經(jīng)典小樣本學習方法,并支持拓展新的小樣本學習方法。PaddleFSL支持圖片分類、關(guān)系抽取、通用自然語言處理等一系列的任務,并包含這三個任務所涉及到的一些經(jīng)典數(shù)據(jù)集。目前已經(jīng)包含CV和NLP小樣本的經(jīng)典應用,并且依托飛槳的生態(tài),不斷擴展到新的領(lǐng)域。阿里云在NLP領(lǐng)域的小樣本學習。中文語言權(quán)威評測基準CLUE公開了中文小樣本學習評測榜單最新成果,阿里云平臺在大模型和無參數(shù)限度模型雙賽道總成績第一名。中文語言權(quán)威評測基準CLUE自成立以來公布了多項NLP評測基準,在學術(shù)界、工業(yè)界產(chǎn)生了深遠影響。其中,F(xiàn)ewCLUE是CLUE最新推出的一項中文小樣本學習評測基準,用來評估機器學習模型是否可能通過少樣本的學習來把握特定的自然語言,解決現(xiàn)實問題。比如智能客服場景中的用戶用意辨認,僅需人工標注幾十條樣本,就能讓用意辨認的準確率達到90%。阿里云提出了一套大模型+小樣本的結(jié)合計劃,在大規(guī)模通用預訓練基礎(chǔ)之上,聯(lián)合基于常識的預訓練和Fuzzy-PET少樣本學2419Jan202324習,具備解決問題的優(yōu)異成果,甚至在特定小樣本學習任務的精準度上超越了人美團的小樣本應用場景。美團的各個業(yè)務中都有豐富的NLP場景,這些場景中模型的構(gòu)建需要很多的標注資源,成本很高。美團利用小樣本學習在數(shù)據(jù)資源稀少的情況下訓練出好的模型,并建設(shè)小樣本學習平臺,將小樣本學習能力集成到公司統(tǒng)一的BERT平臺上,開放給公司各業(yè)務方靈活使用。比如醫(yī)美業(yè)務方面:典型的文本分類任務,小樣本學習利用2,989條訓練數(shù)據(jù)準確率達89.24%;二分類任務,小樣本學習利用384條訓練數(shù)據(jù)準確率達87%;句間關(guān)系任務,小樣本學習用2909條訓練數(shù)據(jù)準確率達91.88%;醫(yī)美業(yè)務如果出現(xiàn)虛假點評,會對體驗有較大傷害,美團通過ActiveLearning選取標注數(shù)據(jù),數(shù)據(jù)增強、半監(jiān)督學習和集成學習+自訓練優(yōu)化模型,僅標注1757條數(shù)據(jù),在檢測感知虛假評價的準確率上可以達到95.88%。Facebook的小樣本學習技術(shù)突破。公司部署了一種FSL(Few-ShotLearner)新型AI平臺,能夠在數(shù)星期之內(nèi)(以前是數(shù)個月之內(nèi)),針對新的或者不斷變化的、有害的內(nèi)容采取行動。它可以從各種數(shù)據(jù)中學習,比如圖像和文本。Facebook表示,它的多模態(tài)言論檢測器能夠標記并刪除社交網(wǎng)絡中97%的辱罵和有害內(nèi)容,該系統(tǒng)能夠根據(jù)文本、圖像和視頻在內(nèi)的10種數(shù)據(jù)類型將圖像-文本配對分類為良性或有害。Few-ShotLearner是一個大規(guī)模、多模態(tài)、多語言、零樣本或小樣本的模型,可以理解聯(lián)合策略和內(nèi)容,可以在不調(diào)整模型的情況下,對完整性問題進行概括。該模型可以使用簡單的策略語句,包括基于通用語言以及違反策略和邊界內(nèi)容語言進行預訓練。比如新的模型對現(xiàn)有的分類器進行了改進,可以準確標記出接近煽動暴力的內(nèi)容(如:“那家伙需要所有的牙齒嗎?”)。傳統(tǒng)的方法可能會漏掉這類煽動性帖子,因為沒有太多標記的樣本引用牙齒來暗示暴力。公司的FSL技術(shù)與目前已有的一些最先進的小樣本學習方法進行了比較,經(jīng)過評測,該技術(shù)比各種最先進的小樣本學習方法高出55%(平均為12%)。6.1小樣本學習在計算機視覺領(lǐng)域的實踐成果在工業(yè)應用領(lǐng)域,小樣本學習因其可以大大降低數(shù)據(jù)采集和標定成本,在諸多視覺任務中已經(jīng)得到研究人員的持續(xù)關(guān)注,其中包括:圖像分類、圖像檢索、目標跟蹤、短文本情感分析、語言模型、網(wǎng)絡結(jié)構(gòu)搜索等問題。由于視覺數(shù)據(jù)的直觀性和可理解性,計算機視覺一直是機器學習算法的主要測試平臺。從最早的聚類模型到當前的元學習方法,視覺任務總被作為FSL方法的試金石,尤其是FSL的圖像分類小樣本學習在計算機視覺領(lǐng)域已得到廣泛應用。具體來說,它可以用來幫助計算機在少量的訓練數(shù)據(jù)下學習識別圖像中的物體,如人臉、動物和汽車等。它還可以用來學習從圖像中提取特征,并用這些特征來做出決策。小樣本學習也可以用來幫助分類圖像,例如將圖像分為“貓”和“非貓”兩類。此外,還可以用來圖像分割,即將一張圖像劃分為多個不同的區(qū)域等。論文“AComprehensiveSurveyofFew-shotLearning:Evolution,Applications,Challenges,andOpportunities”,梳理了在過去五年里,計算機視覺應用領(lǐng)域的FSL成果,分為圖像分類、目標檢測、語義分割和實例分割四個小樣本學習的應用任務。在FSL計算機視覺分類任務中,解決小樣本圖像分類任務主要通過數(shù)據(jù)增強、遷移學習、元學習和多模態(tài)融合學習來完成。文獻研究了從2016年到目前的所有小樣本圖像分類模型,并計算了miagenet基準數(shù)據(jù)集上所有模型的最佳性能。小樣本目標檢測(FSOD)是從多個樣本中檢測稀有物體的任務。FSL在圖像分類方面取得了很大進展,但在目標檢測方面還較少。目前,小樣本目標檢測的發(fā)展2519Jan202325可分為三個主要陣營:數(shù)據(jù)增強、遷移學習和元學習。其中,注意力機制在小樣本目標檢測中起著關(guān)鍵作用(創(chuàng)新奇智發(fā)表過雙注意力機制的論文,并獲得了商業(yè)落地驗證)。2017年,首次提出了小樣本語義分割,已被廣泛應用于醫(yī)療圖像和無人駕駛汽車等場景中。與傳統(tǒng)的語義分割不同,小樣本語義分割在支持數(shù)據(jù)集中具有較少的像素標注信息。小樣本語義分割可以分為監(jiān)督語義分割、無監(jiān)督語義分割和視頻語義分割。在機器學習階段,最經(jīng)典的方法是使用概率映射作為先驗知識進行推導。在深度學習階段,出現(xiàn)了大量的有效分割算法,但這些模型往往需要大量的手工示例注釋。最近,出現(xiàn)了一種更簡潔的范式,對小樣本語義分割進行了顯著的改進,即分類器是元學習,而特征編碼解碼器仍然使用傳統(tǒng)的分割模型進行訓練。與語義分割相比,實例分割涉及識別圖像中的每個像素并分別對其進行標記。近年來,很少有研究處理實例樣本的研究。目前的工作仍然集中于如何使用一些有效的工具來改進R-CNN。最近的研究,提出了一種增量的小樣本實例分割算法,極大地提高了基準數(shù)據(jù)集的性能。從統(tǒng)計數(shù)據(jù)來看,在計算機視覺的4個應用領(lǐng)域中,小樣本學習在FSL基準數(shù)據(jù)集上的性能(精準度)逐年提升,并達到較高水平。圖21:小樣本學習在計算機視覺領(lǐng)域的性能提升2017-2021年在圖像分類任務中度量學習的性能表現(xiàn)2018-2021年語義分割任務中度量學習的性能表現(xiàn)2017-2021年目標檢測任務中度量學習的性能表現(xiàn)2017-2021年實例分割任務中度量學習的性能表現(xiàn)資料來源:論文“AComprehensiveSurvey”,HTI注:(1)5way-1shot:5個類的訓練集,每個類只有一個樣例;(2)AP(AveragePreci

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論