版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用本章目標(biāo)了解計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展歷程及應(yīng)用領(lǐng)域熟悉基于深度學(xué)習(xí)的視覺(jué)技術(shù)掌握OpenCV框架的基本使用掌握人臉識(shí)別和車牌識(shí)別項(xiàng)目的開(kāi)發(fā)流程3.1計(jì)算機(jī)視覺(jué)簡(jiǎn)介人臉識(shí)別自動(dòng)駕駛醫(yī)學(xué)影像分析工業(yè)質(zhì)檢ComputerVision-->CV視覺(jué)是人類獲取信息最主要的方式,而計(jì)算機(jī)視覺(jué)就是一門(mén)研究如何使計(jì)算機(jī)系統(tǒng)具備視覺(jué)感知能力的學(xué)科。通過(guò)模仿人類視覺(jué)系統(tǒng)的工作方式,計(jì)算機(jī)視覺(jué)技術(shù)旨在使計(jì)算機(jī)能夠理解、解釋和處理圖像或視頻數(shù)據(jù)。3.1.1計(jì)算機(jī)視覺(jué)發(fā)展概述
計(jì)算機(jī)視覺(jué)的發(fā)展經(jīng)歷了從早期的模式識(shí)別到深度學(xué)習(xí)的飛躍,為人工智能的發(fā)展提供了強(qiáng)有力的支持。隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷進(jìn)步,其在實(shí)際應(yīng)用中取得了巨大成功。起步階段20世紀(jì)50年代-70年代)模式識(shí)別的初步探索感知器模型被提出硬件和算法的限制使得計(jì)算機(jī)無(wú)法有效地處理大規(guī)模的圖像數(shù)據(jù)圖像處理的崛起20世紀(jì)80年代-90年代數(shù)字圖像處理邊緣檢測(cè)、圖像增強(qiáng)為后續(xù)的模式識(shí)別和目標(biāo)檢測(cè)打下了基礎(chǔ)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)2000年代初-2010年代支持向量機(jī)(SVM)卷積神經(jīng)網(wǎng)絡(luò)(CNN)隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的興起,計(jì)算機(jī)視覺(jué)取得了巨大的突破。圖像生成與遷移學(xué)習(xí)2010年代-至今生成對(duì)抗網(wǎng)絡(luò)(GAN)遷移學(xué)習(xí)計(jì)算機(jī)視覺(jué)逐漸向圖像生成和遷移學(xué)習(xí)等方向發(fā)展。3.1.1計(jì)算機(jī)視覺(jué)發(fā)展概述思政小課堂:《新一代人工智能倫理規(guī)范》發(fā)布3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理通過(guò)攝像頭、傳感器或者其他圖像采集設(shè)備捕捉到現(xiàn)實(shí)世界中的圖像,將其轉(zhuǎn)化為數(shù)字信號(hào)。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理轉(zhuǎn)換為數(shù)字信號(hào)后的圖像,由一個(gè)個(gè)像素點(diǎn)組成,可以用像素矩陣來(lái)表示。每一個(gè)像素點(diǎn)都有一個(gè)對(duì)應(yīng)的像素值。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理轉(zhuǎn)換為數(shù)字信號(hào)后的圖像,由一個(gè)個(gè)像素點(diǎn)組成,可以用像素矩陣來(lái)表示。每一個(gè)像素點(diǎn)都有一個(gè)對(duì)應(yīng)的像素值。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理灰度圖像只有一個(gè)通道,而彩色圖像則由紅綠藍(lán)(RGB)三個(gè)通道組成(或者采用其他顏色模式,如CMYK等)。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理彩色圖像可以很容易轉(zhuǎn)換為灰度圖像,例如使用公式Y(jié)=0.3*R+0.59*G+0.11*B而給灰度圖像“上色”則較為復(fù)雜。1、圖像獲???3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理而給灰度圖像“上色”則需要更加智能的技術(shù)。1、圖像獲取彩色4K修復(fù)版開(kāi)國(guó)大典首現(xiàn)大熒幕:這清晰度絕了3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理獲取到圖像后,計(jì)算機(jī)會(huì)進(jìn)行一系列的圖像處理操作,以提取有用的信息。比如,在圖像的預(yù)處理階段,進(jìn)行去噪、增強(qiáng)對(duì)比度等操作。在特征提取階段,會(huì)突出圖像中的關(guān)鍵特征,比如邊緣、顏色等。這些處理有助于減小數(shù)據(jù)量并突顯重要信息,以便后續(xù)的模式識(shí)別。2、圖像處理3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理在圖像處理的基礎(chǔ)上,計(jì)算機(jī)進(jìn)行模式識(shí)別,也就是理解圖像中的內(nèi)容。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型在這一步驟中發(fā)揮了關(guān)鍵作用。它能夠自動(dòng)從圖像中提取特征,并通過(guò)訓(xùn)練過(guò)程學(xué)習(xí)如何分類或識(shí)別圖像中的目標(biāo)。3、模式識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用人臉識(shí)別技術(shù)被廣泛應(yīng)用于交通、金融、安防、社交媒體等領(lǐng)域。通過(guò)定位人臉和分析面部特征,計(jì)算機(jī)能夠準(zhǔn)確辨識(shí)個(gè)體身份。1、人臉識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)在自動(dòng)駕駛汽車中扮演著關(guān)鍵角色。通過(guò)攝像頭獲取車輛周圍環(huán)境圖像,計(jì)算機(jī)視覺(jué)算法系統(tǒng)能夠?qū)崟r(shí)識(shí)別道路、障礙物、交通標(biāo)志等,從而智能地操控車輛。2、自動(dòng)駕駛3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在醫(yī)學(xué)領(lǐng)域,計(jì)算機(jī)視覺(jué)用于分析醫(yī)學(xué)影像,如CT掃描、MRI等。這有助于自動(dòng)檢測(cè)疾病跡象、輔助診斷,提高醫(yī)療水平和效率。3、醫(yī)學(xué)影像分析3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)系統(tǒng)被廣泛應(yīng)用于工業(yè)生產(chǎn)中的質(zhì)量控制。通過(guò)檢測(cè)產(chǎn)品表面的缺陷、尺寸偏差等,保證產(chǎn)品質(zhì)量并提高生產(chǎn)效率。4、工業(yè)質(zhì)檢3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)系統(tǒng)被廣泛應(yīng)用于工業(yè)生產(chǎn)中的質(zhì)量控制。通過(guò)檢測(cè)產(chǎn)品表面的缺陷、尺寸偏差等,保證產(chǎn)品質(zhì)量并提高生產(chǎn)效率。4、工業(yè)質(zhì)檢3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在視頻監(jiān)控和安防系統(tǒng)中,計(jì)算機(jī)視覺(jué)可用于檢測(cè)和跟蹤目標(biāo),幫助監(jiān)測(cè)場(chǎng)景中的異常情況,極大地提升了安保效率,為維護(hù)社會(huì)治安做出了貢獻(xiàn)。5、目標(biāo)檢測(cè)與跟蹤3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù)為增強(qiáng)現(xiàn)實(shí)技術(shù)提供支持,通過(guò)識(shí)別和追蹤現(xiàn)實(shí)世界中的物體,將虛擬信息疊加到用戶的視野中,拓展了交互和娛樂(lè)的可能性。6、增強(qiáng)現(xiàn)實(shí)(AR)3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用通過(guò)分析人體手部動(dòng)作,計(jì)算機(jī)視覺(jué)能夠識(shí)別手勢(shì)并將其轉(zhuǎn)化為控制命令,這在虛擬現(xiàn)實(shí)、智能家居等領(lǐng)域有廣泛應(yīng)用。7、手勢(shì)識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)可以用于識(shí)別、提取文檔中的文字信息,實(shí)現(xiàn)自動(dòng)化的文檔管理和信息檢索。光學(xué)字符識(shí)別(OCR)技術(shù)是其中的關(guān)鍵組成部分。8、文檔識(shí)別OCR3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)可以用于識(shí)別、提取文檔中的文字信息,實(shí)現(xiàn)自動(dòng)化的文檔管理和信息檢索。光學(xué)字符識(shí)別(OCR)技術(shù)是其中的關(guān)鍵組成部分。8、文檔識(shí)別OCR3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在零售業(yè),計(jì)算機(jī)視覺(jué)被用于人流分析、貨架管理、商品識(shí)別等,可以提升購(gòu)物體驗(yàn)、減少盜竊,并優(yōu)化庫(kù)存管理。9、智慧零售3.2基于深度學(xué)習(xí)的視覺(jué)技術(shù)圖像分類目標(biāo)檢測(cè)圖像分割軌跡跟蹤deeplearning深度學(xué)習(xí)的核心思想是通過(guò)模仿人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),建立多層次的神經(jīng)網(wǎng)絡(luò),使計(jì)算機(jī)能夠模擬人類學(xué)習(xí)的方式,從而自動(dòng)學(xué)習(xí)和提取復(fù)雜的特征。這種模型的引入為視覺(jué)任務(wù)帶來(lái)了翻天覆地的變化,讓計(jì)算機(jī)能夠更深入、更準(zhǔn)確地理解和處理圖像數(shù)據(jù)。3.2.1圖像分類1、圖像分類的概念?
圖像分類旨在將輸入的圖像劃分為不同的預(yù)定義類別。這是一種將圖像與事先訓(xùn)練好的分類模型相匹配的過(guò)程。3.2.1圖像分類2、機(jī)器學(xué)習(xí)中圖像分類的基本原理特征提取在傳統(tǒng)方法中,圖像分類的首要步驟是從圖像中提取特征。這些特征可以包括顏色直方圖、紋理、形狀等,這些特征幫助模型捕捉圖像中的關(guān)鍵信息。特征表示提取的特征需要被適當(dāng)表示,以便計(jì)算機(jī)能夠理解和處理。常用的表示方法包括向量或矩陣形式,以便輸入到分類器中。分類器分類器是一個(gè)數(shù)學(xué)模型,用于根據(jù)輸入的特征將圖像分配到不同的類別。常見(jiàn)的分類器包括支持向量機(jī)(SVM)、決策樹(shù)、隨機(jī)森林等,這些分類器經(jīng)過(guò)訓(xùn)練,能夠?qū)W習(xí)如何將特征與類別關(guān)聯(lián)起來(lái)訓(xùn)練和測(cè)試訓(xùn)練階段使用已標(biāo)記的圖像數(shù)據(jù)集,通過(guò)訓(xùn)練分類器調(diào)整其參數(shù),使其能夠正確地將圖像分到相應(yīng)的類別。測(cè)試階段則通過(guò)未標(biāo)記的圖像驗(yàn)證模型的性能,評(píng)估其在新數(shù)據(jù)上的泛化能力。3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)卷積神經(jīng)網(wǎng)絡(luò)(CNN)CNN通過(guò)卷積層和池化層來(lái)逐層提取圖像的局部和全局特征。這些特征在全連接層中被用于進(jìn)行分類決策。CNN的層次結(jié)構(gòu)使其能夠逐漸抽象出更高級(jí)別的特征,從而提高模型對(duì)圖像語(yǔ)義的理解能力。遷移學(xué)習(xí)利用在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的深度學(xué)習(xí)模型,如在ImageNet上訓(xùn)練的模型,進(jìn)行遷移學(xué)習(xí)。將預(yù)訓(xùn)練的模型的權(quán)重用于新的圖像分類任務(wù),使得模型能夠更快速地收斂和獲得更好的性能。激活函數(shù)和正則化深度學(xué)習(xí)中的圖像分類網(wǎng)絡(luò)通常使用非線性激活函數(shù),如ReLU,以幫助網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜的特征。正則化技術(shù)如Dropout也被廣泛應(yīng)用,以防止過(guò)擬合。3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)LeNet-5于1998年被提出是卷積神經(jīng)網(wǎng)絡(luò)的先驅(qū)之一主要應(yīng)用于手寫(xiě)數(shù)字的識(shí)別包含卷積層、池化層和全連接層雖然在當(dāng)時(shí)并未引起廣泛關(guān)注,但為后來(lái)更先進(jìn)的網(wǎng)絡(luò)奠定了基礎(chǔ)作為經(jīng)典的入門(mén)級(jí)神經(jīng)網(wǎng)絡(luò),對(duì)于簡(jiǎn)單字符的識(shí)別效果尚可,然而,對(duì)于更加復(fù)雜的項(xiàng)目,如人臉、車牌識(shí)別等,LeNet的結(jié)構(gòu)則過(guò)于簡(jiǎn)單了,可能無(wú)法得到較高的準(zhǔn)確率目前,圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)AlexNet于2012年被提出是深度學(xué)習(xí)在圖像分類中的重要突破在ILSVRC2012圖像分類競(jìng)賽中取得了顯著的勝利AlexNet采用了更深的網(wǎng)絡(luò)結(jié)構(gòu),使用ReLU激活函數(shù),引入了Dropout正則化利用GPU進(jìn)行高效訓(xùn)練目前,圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)VGGNet于2014年被提出采用了非常深的網(wǎng)絡(luò)結(jié)構(gòu)包含16或19層卷積層,全部使用3x3的小卷積核,使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)潔而深入VGGNet的設(shè)計(jì)理念影響了后續(xù)深度學(xué)習(xí)模型的構(gòu)建目前,圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)GoogLeNet(Inception)于2014年被提出引入了Inception模塊通過(guò)并聯(lián)多個(gè)不同大小的卷積核和池化層,提高了網(wǎng)絡(luò)的寬度和深度該模型在參數(shù)數(shù)量相對(duì)較少的情況下取得了較好的性能目前,圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)ResNet(ResidualNetwork)于2015年被提出引入殘差塊(Residual),解決了深度網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問(wèn)題該結(jié)構(gòu)允許網(wǎng)絡(luò)層跳過(guò)連接,使得訓(xùn)練更加容易允許構(gòu)建超深的網(wǎng)絡(luò)目前,圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)MobileNet于2017年被提出設(shè)計(jì)用于移動(dòng)設(shè)備上的實(shí)時(shí)圖像處理采用深度可分離卷積,減少了參數(shù)數(shù)量和計(jì)算量在資源受限的設(shè)備上也能實(shí)現(xiàn)高效的圖像分類目前,圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)EfficientNet于2019年被提出通過(guò)使用復(fù)合縮放方法,同時(shí)增加網(wǎng)絡(luò)的深度、寬度和分辨率,達(dá)到更好的性能在參數(shù)相對(duì)較少的情況下,取得了與更大更深的模型相媲美的效果目前,圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.2目標(biāo)檢測(cè)1、目標(biāo)檢測(cè)的概念
目標(biāo)檢測(cè)旨在從圖像或視頻中識(shí)別和定位圖像中的多個(gè)目標(biāo),并為每個(gè)目標(biāo)分配相應(yīng)的類別標(biāo)簽。與圖像分類不同,目標(biāo)檢測(cè)不僅需要確定圖像中是否存在目標(biāo),還需要準(zhǔn)確地標(biāo)定目標(biāo)的位置3.2.2目標(biāo)檢測(cè)2、傳統(tǒng)的目標(biāo)檢測(cè)算法HOG全稱HistogramofOrientedGradients,使用圖像中的梯度信息來(lái)描述圖像的局部結(jié)構(gòu),尤其適用于描述物體的邊緣和紋理。將圖像劃分為小的局部區(qū)域,計(jì)算每個(gè)區(qū)域內(nèi)梯度的方向直方圖,最終將這些直方圖串聯(lián)起來(lái)形成特征向量。SIFT全稱Scale-InvariantFeatureTransform,具有尺度不變性和旋轉(zhuǎn)不變性,對(duì)于圖像中的局部特征點(diǎn)具有很好的描述能力。在圖像中檢測(cè)關(guān)鍵點(diǎn),然后提取這些關(guān)鍵點(diǎn)周圍的局部特征,通過(guò)描述子來(lái)表示這些特征。GLOH全稱GradientLocation-OrientationHistogra,是SIFT的改進(jìn)版本,增加了對(duì)光照和旋轉(zhuǎn)的魯棒性。在關(guān)鍵點(diǎn)周圍計(jì)算梯度直方圖,并使用多尺度的描述子來(lái)提高對(duì)尺度變化的適應(yīng)性。DPM全稱DeformablePartsModel,引入了“變形部分模型”來(lái)處理目標(biāo)的非剛性形變。將目標(biāo)分解為多個(gè)部分,每個(gè)部分用HOG描述,通過(guò)學(xué)習(xí)部分之間的相對(duì)位置關(guān)系來(lái)構(gòu)建目標(biāo)模型。SelectiveSearch是一種基于貪心策略的區(qū)域生成算法,用于生成候選區(qū)域。通過(guò)對(duì)圖像進(jìn)行分割、合并和其他操作,生成具有多樣性的候選區(qū)域,然后使用分類器對(duì)這些區(qū)域進(jìn)行檢測(cè)。ICF全稱IntegralChannelFeatures,使用積分圖像進(jìn)行快速特征計(jì)算,提高了算法的計(jì)算效率。利用圖像的積分圖像計(jì)算各種特征,如梯度特征、顏色特征等,用于目標(biāo)檢測(cè)。3.2.2目標(biāo)檢測(cè)3、基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法FasterR-CNN全稱Region-basedConvolutionalNeuralNetwork,引入了區(qū)域提議網(wǎng)絡(luò)和ROI池化層,實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。RPN用于生成候選目標(biāo)區(qū)域,然后通過(guò)ROI池化將這些區(qū)域轉(zhuǎn)換為固定大小的特征圖,最后通過(guò)全連接層進(jìn)行分類和定位。YOLO全稱YouOnlyLookOnce,通過(guò)將圖像劃分為網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)檢測(cè)特定區(qū)域內(nèi)的目標(biāo),實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)。將目標(biāo)檢測(cè)任務(wù)視為回歸問(wèn)題,直接預(yù)測(cè)目標(biāo)的坐標(biāo)和類別,并在整個(gè)圖像上進(jìn)行端到端的訓(xùn)練和預(yù)測(cè)。SSD全稱SingleShotMultiboxDetector,通過(guò)在不同層次的特征圖上使用多個(gè)錨框進(jìn)行檢測(cè),實(shí)現(xiàn)了對(duì)多尺度目標(biāo)的有效檢測(cè)。利用多個(gè)卷積層產(chǎn)生的特征圖來(lái)進(jìn)行目標(biāo)檢測(cè),通過(guò)預(yù)測(cè)每個(gè)錨框的類別和邊界框偏移來(lái)完成任務(wù)。MaskR-CNN在FasterR-CNN的基礎(chǔ)上進(jìn)一步增加了對(duì)實(shí)例分割的支持,同時(shí)能夠輸出每個(gè)檢測(cè)到的目標(biāo)的精確邊界。在FasterR-CNN的基礎(chǔ)上引入了額外的分割網(wǎng)絡(luò),用于生成每個(gè)目標(biāo)的二進(jìn)制掩碼。RetinaNet采用了一種稱為“FocalLoss”的損失函數(shù),有效解決了類別不平衡問(wèn)題,提高了對(duì)稀有目標(biāo)的檢測(cè)能力。在FasterR-CNN的基礎(chǔ)上引入了特殊設(shè)計(jì)的損失函數(shù),使得模型更關(guān)注難以分類的目標(biāo)。EfficientDet結(jié)合了EfficientNet的輕量級(jí)設(shè)計(jì)和目標(biāo)檢測(cè)任務(wù)的需求,實(shí)現(xiàn)了高效而準(zhǔn)確的目標(biāo)檢測(cè)。通過(guò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、特征金字塔網(wǎng)絡(luò)(FeaturePyramidNetwork,F(xiàn)PN)等技術(shù)來(lái)提高模型的效率。3.2.3圖像分割1、圖像分割的概念
圖像分割旨在將圖像劃分為若干個(gè)具有相似特征的區(qū)域。圖像分割與目標(biāo)檢測(cè)不同,圖像分割是一個(gè)像素級(jí)別的任務(wù),目標(biāo)是將圖像分割成區(qū)域,每個(gè)像素都有一個(gè)標(biāo)簽;而目標(biāo)檢測(cè)是在物體級(jí)別上操作,關(guān)注點(diǎn)在于識(shí)別圖像中存在的物體及其位置。3.2.3圖像分割2、傳統(tǒng)的圖像分割算法閾值分割英文Thresholding,是一種簡(jiǎn)單而常用的方法,基于圖像中像素的灰度值。通過(guò)設(shè)定一個(gè)閾值,將圖像分為兩個(gè)區(qū)域,其中像素值小于閾值的屬于一個(gè)區(qū)域,大于等于閾值的屬于另一個(gè)區(qū)域。閾值分割一般只適用于對(duì)比度較明顯的圖像。區(qū)域生長(zhǎng)英文RegionGrowing,是一種基于像素相似性的分割方法,從種子像素開(kāi)始,逐漸將相鄰像素加入同一區(qū)域,直到不再滿足相似性條件。區(qū)域生長(zhǎng)算法適用于具有相對(duì)均勻區(qū)域的圖像。區(qū)域分割英文RegionSplitandMerge,是一種自頂向下的分割方法,首先將整個(gè)圖像視為一個(gè)區(qū)域,然后遞歸地分裂和合并區(qū)域,直到滿足某些準(zhǔn)則。該算法適用于具有不同紋理和結(jié)構(gòu)的圖像。邊緣檢測(cè)英文EdgeDetection,尋找圖像中的邊緣,通常使用梯度信息來(lái)定位圖像中亮度變化較大的區(qū)域。邊緣檢測(cè)適用于強(qiáng)調(diào)圖像中物體邊界的分割。水平集方法英文LevelSetMethods,基于曲線演化理論,通過(guò)表示圖像中的區(qū)域邊界的曲線來(lái)進(jìn)行分割。適用于復(fù)雜形狀和拓?fù)浣Y(jié)構(gòu)的分割。3.2.3圖像分割3、基于深度學(xué)習(xí)的圖像分割算法U-Net是一種全卷積網(wǎng)絡(luò),設(shè)計(jì)用于生物醫(yī)學(xué)圖像分割。它包含一個(gè)編碼器和一個(gè)解碼器,并通過(guò)跳躍連接來(lái)保留高層次和低層次的特征。主要應(yīng)用于醫(yī)學(xué)圖像分割,如細(xì)胞圖像和醫(yī)學(xué)影像。SegNet是一個(gè)基于CNN的圖像分割網(wǎng)絡(luò),通過(guò)對(duì)圖像中的每個(gè)像素進(jìn)行分類來(lái)實(shí)現(xiàn)分割。它使用反卷積進(jìn)行上采樣,恢復(fù)圖像的空間分辨率。適用于語(yǔ)義分割任務(wù),如道路和場(chǎng)景理解。DeepLab系列是一系列圖像分割算法,采用空洞卷積來(lái)擴(kuò)大感受野,以更好地捕捉上下文信息。DeepLabv3+還引入了全局平均池化。廣泛應(yīng)用于語(yǔ)義分割任務(wù),包括實(shí)例分割和物體檢測(cè)MaskR-CNN是一種實(shí)例分割框架,基于FasterR-CNN,通過(guò)在目標(biāo)檢測(cè)的基礎(chǔ)上增加分割分支,實(shí)現(xiàn)同時(shí)檢測(cè)和分割物體實(shí)例。主要用于需要識(shí)別和分割多個(gè)對(duì)象實(shí)例的任務(wù)。FCNFullyConvolutionalNetwork,是一種將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為全卷積網(wǎng)絡(luò)的方法,允許對(duì)輸入圖像進(jìn)行像素級(jí)別的分類和分割。適用于語(yǔ)義分割任務(wù),如將圖像中的每個(gè)像素標(biāo)記為不同的類別。。PSPNetPyramidSceneParsingNetwork,使用金字塔池化模塊來(lái)捕捉不同尺度上的語(yǔ)境信息,從而提高分割性能。適用于需要全局上下文信息的場(chǎng)景,如城市場(chǎng)景分割。3.2.4軌跡跟蹤1、軌跡跟蹤的概念
軌跡跟蹤目的是在視頻序列中準(zhǔn)確地追蹤目標(biāo)對(duì)象的運(yùn)動(dòng)軌跡。軌跡跟蹤算法需要在連續(xù)的圖像幀中檢測(cè)目標(biāo),并將它們關(guān)聯(lián)起來(lái)形成時(shí)間上的軌跡。軌跡跟蹤的關(guān)鍵步驟包括目標(biāo)檢測(cè)、目標(biāo)關(guān)聯(lián)、軌跡生成、軌跡更新、處理遮擋和消失以及多目標(biāo)跟蹤。3.2.4軌跡跟蹤2、傳統(tǒng)的軌跡跟蹤算法卡爾曼濾波KalmanFilter,卡爾曼濾波是一種遞歸的估計(jì)算法,通過(guò)對(duì)目標(biāo)的當(dāng)前狀態(tài)和運(yùn)動(dòng)進(jìn)行建模,結(jié)合觀測(cè)數(shù)據(jù),不斷更新目標(biāo)的狀態(tài)估計(jì)。在軌跡跟蹤中,卡爾曼濾波可用于預(yù)測(cè)目標(biāo)的下一幀位置。最鄰近跟蹤NearestNeighborTracking,在每一幀中,使用距離度量(如歐氏距離)找到當(dāng)前幀檢測(cè)結(jié)果與上一幀跟蹤目標(biāo)的最鄰近匹配。這種方法簡(jiǎn)單直觀,但對(duì)于遮擋等情況可能不魯棒。KLT跟蹤器KLTTracker,基于光流的KLT(Kanade-Lucas-Tomasi)跟蹤器使用局部圖像區(qū)域的特征點(diǎn),通過(guò)追蹤這些特征點(diǎn)的運(yùn)動(dòng)來(lái)實(shí)現(xiàn)目標(biāo)跟蹤。適用于一定程度的目標(biāo)運(yùn)動(dòng)和變形。中值流MedianFlow,算法利用檢測(cè)框中的像素強(qiáng)度信息計(jì)算光流,并通過(guò)中值流場(chǎng)的方向和大小來(lái)更新目標(biāo)的位置。適用于低速運(yùn)動(dòng)的目標(biāo)。連通區(qū)域跟蹤C(jī)onnectedComponentTracking,在二值化的圖像中,通過(guò)檢測(cè)連通區(qū)域(二值圖像中相鄰的白色像素)來(lái)跟蹤目標(biāo)。適用于目標(biāo)邊界清晰的情況。CAMShiftCAMShift算法基于MeanShift算法,通過(guò)不斷調(diào)整搜索窗口的大小和方向,實(shí)現(xiàn)目標(biāo)的跟蹤。適用于目標(biāo)尺寸和顏色較為一致的情況。3.2.4軌跡跟蹤3、基于深度學(xué)習(xí)的軌跡跟蹤算法DeepSORTDeepSimpleOnlineandRealtimeTracking,結(jié)合了目標(biāo)檢測(cè)和深度學(xué)習(xí)特征提取,使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并通過(guò)外觀特征和運(yùn)動(dòng)信息來(lái)關(guān)聯(lián)和跟蹤目標(biāo)。利用深度學(xué)習(xí)目標(biāo)檢測(cè)器檢測(cè)目標(biāo),然后使用深度學(xué)習(xí)特征提取器提取目標(biāo)外觀特征,最后使用卡爾曼濾波進(jìn)行軌跡預(yù)測(cè)和關(guān)聯(lián)。MOTDTMultipleObjectTrackingwithDeepLearning,采用了深度學(xué)習(xí)的目標(biāo)檢測(cè)器和在線學(xué)習(xí)的軌跡跟蹤器,通過(guò)CNN提取特征,使用卡爾曼濾波進(jìn)行軌跡預(yù)測(cè),并采用在線學(xué)習(xí)策略不斷更新模型。在目標(biāo)檢測(cè)結(jié)果上應(yīng)用CNN提取特征,然后使用在線學(xué)習(xí)策略不斷更新外觀模型,通過(guò)卡爾曼濾波來(lái)實(shí)現(xiàn)目標(biāo)的軌跡跟蹤DeepMOT基于深度卷積神經(jīng)網(wǎng)絡(luò),將目標(biāo)檢測(cè)、特征提取和軌跡跟蹤整合到一個(gè)統(tǒng)一的深度學(xué)習(xí)框架中,以提高端到端的性能。使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,通過(guò)LSTM或Transformer等結(jié)構(gòu)對(duì)序列信息建模,最終輸出目標(biāo)的軌跡。FairMOT采用了多任務(wù)學(xué)習(xí)的方法,同時(shí)預(yù)測(cè)目標(biāo)的類別、位置和運(yùn)動(dòng)狀態(tài),提高了多目標(biāo)跟蹤的準(zhǔn)確性。使用深度卷積神經(jīng)網(wǎng)絡(luò)同時(shí)處理目標(biāo)檢測(cè)和軌跡跟蹤任務(wù),通過(guò)多任務(wù)學(xué)習(xí)框架進(jìn)行聯(lián)合訓(xùn)練。SORTSimpleOnlineandRealtimeTracking,結(jié)合了目標(biāo)檢測(cè)和卡爾曼濾波,通過(guò)簡(jiǎn)單有效的方法實(shí)現(xiàn)實(shí)時(shí)目標(biāo)跟蹤。使用目標(biāo)檢測(cè)器(獲取目標(biāo)位置,然后使用卡爾曼濾波進(jìn)行軌跡的預(yù)測(cè)和更新3.2.4軌跡跟蹤思政小課堂:堅(jiān)守高尚的道德情操,向非法技術(shù)濫用說(shuō)不計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展給我們帶來(lái)了很多益處,然而,一部分人卻將這項(xiàng)技術(shù)用于非法或非道德用途。在數(shù)字圖像處理技術(shù)發(fā)展之初,就有人使用PS技術(shù)炮制虛假照片,從而制造虛假新聞?wù)`導(dǎo)公眾認(rèn)知,或者用來(lái)誹謗、侮辱他人。在深度學(xué)習(xí)的加持下,計(jì)算機(jī)視覺(jué)技術(shù)更加強(qiáng)大,AI換臉、視頻合成的效果有時(shí)甚至可以達(dá)到以假亂真的程度。這給一些不良團(tuán)體或個(gè)人炮制虛假、低俗信息提供了便利。在社交媒體發(fā)達(dá)的今天,這些虛假的不良信息能夠輕易被傳播。一些不法分子甚至利用相關(guān)的技術(shù),仿冒他人身份進(jìn)行電信詐騙。作為一名人工智能技術(shù)的學(xué)習(xí)者,我們?cè)谠鰪?qiáng)自身技術(shù)能力的同時(shí),也要不斷提升自己的道德操守,拒絕技術(shù)濫用,抵制不良信息。3.3OpenCV基礎(chǔ)圖像處理實(shí)時(shí)視頻處理計(jì)算機(jī)視覺(jué)工具包機(jī)器學(xué)習(xí)深度學(xué)習(xí)圖像和視頻的特征提取圖像分割和輪廓檢測(cè)OpenCVOpenCV(OpenSourceComputerVisionLibrary)是一個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)庫(kù),旨在提供一套通用的計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)工具。OpenCV支持多個(gè)操作系統(tǒng),包括Windows、Linux、macOS等,它由一系列高效且優(yōu)化的C/C++函數(shù)組成,同時(shí)提供了Python、Java和其他語(yǔ)言的接口,使得開(kāi)發(fā)者能夠輕松使用這些功能。3.3.1OpenCV的安裝60年代,星際迷航80年代,終結(jié)者21世紀(jì),人工智能1、pip命令安裝pipinstallopencv-pythonpipinstallopencv-python-i/simple請(qǐng)先確保python已安裝并且配置了pip工具。打開(kāi)一個(gè)終端命令窗口,輸入以下命令:如果安裝時(shí)網(wǎng)絡(luò)異?;蛘甙惭b包拉取速度較慢,可以輸入以下命令:3.3.1OpenCV的安裝21世紀(jì),人工智能2、conda命令安裝condainstallopencvcondainstall-c/menpoopencv如果您使用anaconda環(huán)境進(jìn)行Python代碼開(kāi)發(fā),那么可以使用conda命令安裝OpenCV。打開(kāi)anacondaprompt工具的終端界面,輸入以下命令:或者:3.3.1OpenCV的安裝80年代,終結(jié)者3、通過(guò)源代碼構(gòu)建cmakepath/to/opencv/sourcemakeinstall訪問(wèn)OpenCV官方GitHub倉(cāng)庫(kù)下載最新的源代碼壓縮包(源代碼也可以從本書(shū)配套資源獲?。?。將下載的源代碼解壓到您選擇的目錄。在解壓后的目錄中創(chuàng)建一個(gè)新目錄,用于存放構(gòu)建文件。使用CMake配置構(gòu)建。在終端或命令提示符中,導(dǎo)航到構(gòu)建目錄并運(yùn)行以下命令:如果您需要配置額外的選項(xiàng),可以使用ccmake或cmake-gui打開(kāi)CMake配置界面。運(yùn)行構(gòu)建命令,確保您已經(jīng)安裝了合適的編譯工具(如GCC)。運(yùn)行安裝命令,通常需要管理員權(quán)限。3.3.2OpenCV圖像處理80年代,終結(jié)者importcv2cv2.imreadimshowimwriteresizecvtColorthresholdCannyblurfilter2DfindContoursdrawContoursdilateerode3.3.3OpenCV視頻處理80年代,終結(jié)者cv2.VideoWriterVideoCapture3.4計(jì)算機(jī)視覺(jué)應(yīng)用體驗(yàn)人臉識(shí)別車牌識(shí)別3.4.1基于OpenCV的人臉識(shí)別80年代,終結(jié)者【案例描述】開(kāi)發(fā)一個(gè)人臉識(shí)別項(xiàng)目,能夠用攝像頭實(shí)時(shí)檢測(cè)到人臉,并與人臉庫(kù)中的人臉對(duì)比,判斷當(dāng)前檢測(cè)到的人臉的身份。3.4.2基于百度EasyDL的車牌識(shí)別80年代,終結(jié)者【案例描述】本案例使用EasyDLOCR平臺(tái),訓(xùn)練一個(gè)車牌識(shí)別模型,訓(xùn)練完成后,調(diào)用模型的接口,輸入一張包含車和車牌的圖片,模型可以自動(dòng)識(shí)別出該車輛的車牌號(hào)。計(jì)算機(jī)視覺(jué)就是一門(mén)研究如何使計(jì)算機(jī)系統(tǒng)具備視覺(jué)感知能力的學(xué)科。圖像分類旨在將輸入的圖像劃分為不同的預(yù)定義類別。目標(biāo)檢測(cè)旨在從圖像或視頻中識(shí)別和定位圖像中的多個(gè)目標(biāo),并為每個(gè)目標(biāo)分配相應(yīng)的類別標(biāo)簽。軌跡跟蹤的目標(biāo)是在視頻序列中準(zhǔn)確地追蹤目標(biāo)對(duì)象的運(yùn)動(dòng)軌跡。OpenCV是一個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)庫(kù),使用pipinstallopencv-python命令,可以安裝OpenCV的Python接口。車牌識(shí)別項(xiàng)目的核心任務(wù)是字符識(shí)別,使用EasyDLOCR平臺(tái)可以快速完成模型訓(xùn)練。本章總結(jié)小組練習(xí)主題:使用OCR技術(shù),完成一個(gè)快遞單關(guān)鍵信息自動(dòng)識(shí)別的項(xiàng)目。要求:識(shí)別代碼可以運(yùn)行,抽2-3組下節(jié)課演示時(shí)間5-10分鐘感謝聆聽(tīng)智能語(yǔ)音技術(shù)及應(yīng)用第4章
4.1智能語(yǔ)音技術(shù)簡(jiǎn)介智能語(yǔ)音技術(shù)是實(shí)現(xiàn)人機(jī)語(yǔ)言通信的一種技術(shù),包括語(yǔ)音識(shí)別和語(yǔ)音合成。語(yǔ)音識(shí)別技術(shù)是將聲音轉(zhuǎn)化成文字的一種技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR)。語(yǔ)音合成(TexttoSpeech,TTS)技術(shù)讓計(jì)算機(jī)像人類一樣說(shuō)話,將文本序列轉(zhuǎn)換為語(yǔ)音信號(hào)的技術(shù)。
4.2.1語(yǔ)音識(shí)別技術(shù)分類以說(shuō)話方式為標(biāo)準(zhǔn),分為孤立詞語(yǔ)音識(shí)別、連接字語(yǔ)音識(shí)別、連續(xù)語(yǔ)音識(shí)別三類。根據(jù)對(duì)特定說(shuō)話人的依賴程度,分為特定說(shuō)話人語(yǔ)音識(shí)別、非
特定說(shuō)話人語(yǔ)音識(shí)別兩類。根據(jù)模型所使用的詞匯量大小,語(yǔ)音識(shí)別可分為有限詞匯語(yǔ)音識(shí)別和無(wú)限詞匯量語(yǔ)音識(shí)別兩類。
4.2.2語(yǔ)音識(shí)別發(fā)展歷程第一階段,起步階段,以識(shí)別孤立詞的發(fā)音為主要研究?jī)?nèi)容。第二階段,快速發(fā)展期,語(yǔ)音識(shí)別系統(tǒng)的功能從簡(jiǎn)單的特定人識(shí)別發(fā)展到非特定人的識(shí)別,從小詞匯量孤立詞識(shí)別發(fā)展到大詞匯量連續(xù)詞識(shí)別,識(shí)別準(zhǔn)確率顯著提升,性能日趨走向成熟。第三階段,成熟及廣泛應(yīng)用階段。伴隨著大數(shù)據(jù)時(shí)代的到來(lái)以及深度學(xué)習(xí)的快速發(fā)展,大詞匯語(yǔ)音識(shí)別的性能快速發(fā)展。IBM的Shoebox系統(tǒng)
4.2.3語(yǔ)音識(shí)別系統(tǒng)構(gòu)成(1)左邊自上而下代表語(yǔ)音的生成過(guò)程,右邊自下而上顯示了語(yǔ)音的識(shí)別過(guò)程。說(shuō)話人和收聽(tīng)人的溝通要基于共同的詞匯語(yǔ)義庫(kù)和語(yǔ)音發(fā)音規(guī)則,而語(yǔ)音識(shí)別等效為將語(yǔ)義的相關(guān)信息從語(yǔ)音信號(hào)中“解調(diào)”的過(guò)程。語(yǔ)音通信流程
4.2.3語(yǔ)音識(shí)別系統(tǒng)構(gòu)成(2)語(yǔ)音系統(tǒng)的層次模型
4.2.3語(yǔ)音識(shí)別系統(tǒng)構(gòu)成(3)語(yǔ)音識(shí)別系統(tǒng)框圖
4.2.3語(yǔ)音識(shí)別預(yù)處理技術(shù)采樣和濾波
自然采集的語(yǔ)音信號(hào)往往存在多種噪聲和干擾信號(hào),會(huì)影響識(shí)別的結(jié)果,所以在語(yǔ)音識(shí)別的開(kāi)始階段必須進(jìn)行濾波。分幀和加窗
語(yǔ)音信號(hào)的研究過(guò)程中,往往是建立在“短時(shí)”分析的基礎(chǔ)上,即把語(yǔ)音信號(hào)分成很小的時(shí)間段(一般為10~30ms),每一小段稱為一幀,把語(yǔ)音信號(hào)分成若干幀的過(guò)程就稱為分幀。梅爾圖譜聲譜圖可以更直觀地不同聲音事件的能量的時(shí)頻域分布明顯不同,所以可以通過(guò)聲譜圖特征進(jìn)行語(yǔ)音識(shí)別。
4.2.5語(yǔ)音識(shí)別方法隱馬爾科夫模型BP神經(jīng)網(wǎng)絡(luò)BRNN模型
4.3.1語(yǔ)音合成技術(shù)分類根據(jù)聲音產(chǎn)生的不同層次,可以分為:從文本序列轉(zhuǎn)換到語(yǔ)音、從概念轉(zhuǎn)換到語(yǔ)音、從意向轉(zhuǎn)換到語(yǔ)音三類。以數(shù)字信號(hào)處理的方法不同,可成分為基于規(guī)則、基于數(shù)據(jù)、基于統(tǒng)計(jì)、基于深度學(xué)習(xí)的方法。
4.3.2語(yǔ)音合成發(fā)展歷程語(yǔ)音合成技術(shù)的研究已有兩百多年的歷史,但真正具有實(shí)用意義的近代語(yǔ)音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來(lái)的,主要是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語(yǔ)音。谷歌公司于2017年提出的Tacotron模型
4.3.3語(yǔ)音合成系統(tǒng)構(gòu)成傳統(tǒng)的語(yǔ)音合成系統(tǒng)由文本分析和波形生成兩大模塊組成,也稱為前端模塊和后端模塊。語(yǔ)音合成系統(tǒng)框圖
4.3.4語(yǔ)音合成方法波形拼接的語(yǔ)音合成方法
4.4智能語(yǔ)音編程案例pyttsx3是一個(gè)Python文本到語(yǔ)音轉(zhuǎn)換庫(kù),它可以將文字轉(zhuǎn)換為語(yǔ)音并播放出來(lái)。它支持多種平臺(tái)和多種合成引擎。pyttsx3庫(kù)簡(jiǎn)單易用,是小白的好選擇。通過(guò)調(diào)用此庫(kù),很容易就可以讓程序”開(kāi)口說(shuō)話”。本案例是使用ppttsx3庫(kù)實(shí)現(xiàn)以下功能:播報(bào)指定文本,并輸出語(yǔ)速和音量;調(diào)整語(yǔ)速和語(yǔ)音,完成趣味問(wèn)答。第五章
自然語(yǔ)言處理與AIGC本章目標(biāo)了解自然語(yǔ)言處理的基本概念和典型應(yīng)用
了解AIGC的定義和關(guān)鍵技術(shù)熟悉AIGC的典型應(yīng)用熟悉國(guó)內(nèi)外主流AI大模型了解AIGC倫理與安全問(wèn)題能使用提示詞工程技巧進(jìn)行創(chuàng)作5.1自然語(yǔ)言處理簡(jiǎn)介自然語(yǔ)言處理被譽(yù)為“人工智能技術(shù)皇冠上的明珠”,一方面表明了它的重要性,另一方面也顯現(xiàn)出了它的技術(shù)難度。自然語(yǔ)言處理就是讓計(jì)算機(jī)理解人類語(yǔ)言,并進(jìn)行相應(yīng)的分析。我們所熟知的蘋(píng)果Siri、微軟小冰,就是自然語(yǔ)言處理的典型的應(yīng)用,他們不僅能夠理解我們所說(shuō)的話,還能夠針對(duì)性地做出反饋。5.1.1自然語(yǔ)言處理定義
自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法,讓計(jì)算機(jī)能夠理解、處理和生成自然語(yǔ)言,使計(jì)算機(jī)具有類似人類的語(yǔ)言交互和文本理解能力。它是計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)等學(xué)科交叉的前沿領(lǐng)域。NLP與前面章節(jié)學(xué)習(xí)的語(yǔ)音識(shí)別、語(yǔ)音合成都是人工智能中與語(yǔ)音相關(guān)的重要領(lǐng)域,目標(biāo)都是讓計(jì)算機(jī)能夠理解并以與人類幾乎無(wú)異的方式生成語(yǔ)言。5.1.2自然語(yǔ)言處理發(fā)展
自然語(yǔ)言處理發(fā)展到現(xiàn)在,主要經(jīng)歷了三個(gè)階段:
第一階段是基于規(guī)則的方法,由于其過(guò)度依賴人力,發(fā)展緩慢。第二階段是基于統(tǒng)計(jì)的方法,放棄讓機(jī)器模仿人類智能的思路,這一階段在自然語(yǔ)言處理領(lǐng)域的很多任務(wù)上都有不小的突破。第三個(gè)階段則是基于深度學(xué)習(xí)的方法,受益于越來(lái)越強(qiáng)大的圖形處理器(GPU)的應(yīng)用以及互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),深度學(xué)習(xí)方法迅速席卷了自然語(yǔ)言處理領(lǐng)域,并持續(xù)高速發(fā)展。5.1.3自然語(yǔ)言處理基本任務(wù)
自然語(yǔ)言處理要解決的是人類和機(jī)器的溝通障礙,那它就需要達(dá)成兩個(gè)目標(biāo):其一,讓計(jì)算機(jī)聽(tīng)得懂“人話”——即NLU自然語(yǔ)言理解,讓計(jì)算機(jī)具備人類的語(yǔ)言理解能力;其二,讓計(jì)算機(jī)能夠“講人話”——即NLG自然語(yǔ)言生成,讓計(jì)算機(jī)能夠生成人類理解的語(yǔ)言和文本,比如文章、報(bào)告、圖表等等。5.1.3自然語(yǔ)言處理基本任務(wù)把人類的文本拆解來(lái)看,可以理解為詞、句、關(guān)系的組合,要讓機(jī)器理解人類語(yǔ)言和文本,首先要讓機(jī)器對(duì)文本進(jìn)行拆解分析。自然語(yǔ)言處理基本任務(wù)包括:1.詞法分析2.自動(dòng)分詞3.文本組塊分析4.句法及語(yǔ)義結(jié)構(gòu)分析5.語(yǔ)義分析5.1.4自然語(yǔ)言處理流程邏輯與實(shí)現(xiàn)方法自然語(yǔ)言處理的流程邏輯通常包括以下幾個(gè)步驟:1.數(shù)據(jù)收集和預(yù)處理:獲取和清洗原始語(yǔ)言數(shù)據(jù),包括文本、語(yǔ)料庫(kù)或語(yǔ)音數(shù)據(jù);2.分詞和詞法分析:將原始文本數(shù)據(jù)轉(zhuǎn)換為適合模型輸入的格式,如分詞、去除停用詞、詞干提取等。3.特征提?。簩⑽谋巨D(zhuǎn)換為計(jì)算機(jī)可以處理的向量形式,如詞向量表示、句子向量表示等。常用的特征提取方法包括詞袋模型、TF-IDF、詞嵌入等。4.模型訓(xùn)練:利用訓(xùn)練數(shù)據(jù)集,采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法訓(xùn)練自然語(yǔ)言處理模型。5.模型評(píng)估:使用驗(yàn)證數(shù)據(jù)集評(píng)估模型的性能,如準(zhǔn)確率、召回率、F1值等指標(biāo)。6.模型應(yīng)用:將訓(xùn)練好的模型應(yīng)用于實(shí)際問(wèn)題,如文本分類、情感分析、機(jī)器翻譯等任務(wù)。5.1.4自然語(yǔ)言處理流程邏輯與實(shí)現(xiàn)方法
在實(shí)現(xiàn)自然語(yǔ)言處理時(shí),首先需要考慮數(shù)據(jù)集的選擇和預(yù)處理。數(shù)據(jù)集的選擇和質(zhì)量對(duì)于自然語(yǔ)言處理的效果有著很大的影響,因此需要選擇合適的數(shù)據(jù)集,并進(jìn)行數(shù)據(jù)清洗和預(yù)處理。其次還需要采用一些自然語(yǔ)言處理工具和技術(shù)。常用的自然語(yǔ)言處理工具包括NLTK、spaCy、StanfordCoreNLP等。這些工具包提供了很多自然語(yǔ)言處理的功能,如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、句法分析等。最后,還需要選擇合適的算法和模型。常用的算法包括樸素貝葉斯、支持向量機(jī)、決策樹(shù)、隨機(jī)森林等。同時(shí),深度學(xué)習(xí)也成為自然語(yǔ)言處理中的主流技術(shù),常用的模型包括卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和Transformer等。5.1.5自然語(yǔ)言處理應(yīng)用領(lǐng)域
當(dāng)NLP技術(shù)對(duì)文本的處理應(yīng)用綜合在一起,就能幫助解決人們?cè)诠ぷ骱蜕顖?chǎng)景中的實(shí)際問(wèn)題,現(xiàn)階段主要的應(yīng)用領(lǐng)域包括:機(jī)器翻譯文本摘要問(wèn)答系統(tǒng)文本分類等。5.2AIGC簡(jiǎn)介2022年11月,OpenAI推出大語(yǔ)言模型ChatGPT,掀起了生成式人工智能的熱潮。短短4天時(shí)間,其用戶量到達(dá)百萬(wàn)級(jí),注冊(cè)用戶之多導(dǎo)致服務(wù)器一度爆滿。ChatGPT的功能是如此強(qiáng)大,以此連馬斯克都認(rèn)為“我們離強(qiáng)大到危險(xiǎn)的AI不遠(yuǎn)了”。生成式人工智能AIGC(ArtificialIntelligenceGeneratedContent)是人工智能1.0時(shí)代進(jìn)入2.0時(shí)代的重要標(biāo)志。奧爾特曼做客蓋茨節(jié)目奧爾特曼被譽(yù)為“ChatGPT之父”。5.2.1AIGC的定義
生成式人工智能(AIGC),全稱ArtificialIntelligenceGeneratedContent,是一種人工智能技術(shù),用于自動(dòng)生成內(nèi)容,該內(nèi)容在很大程度上類似于通過(guò)訓(xùn)練數(shù)據(jù)學(xué)到的內(nèi)容分布。與傳統(tǒng)的人工智能主要關(guān)注數(shù)據(jù)模式的識(shí)別和預(yù)測(cè)不同,AIGC專注于創(chuàng)造新的、富有創(chuàng)意的數(shù)據(jù)。其核心原理在于通過(guò)學(xué)習(xí)和理解數(shù)據(jù)分布,進(jìn)而生成具有相似特征的新數(shù)據(jù)。5.2.2AIGC的奧秘AIGC的關(guān)鍵技術(shù)生成算法的不斷創(chuàng)新使得AI能夠生成多種類型的內(nèi)容,如文本、代碼、圖像、語(yǔ)音、視頻等。預(yù)訓(xùn)練模型,即大型模型,極大地提高了AIGC技術(shù)的通用性和工業(yè)化水平。多模態(tài)技術(shù)使AIGC模型能夠融合處理多種數(shù)據(jù)類型,將文本轉(zhuǎn)化為圖像、視頻等,從而進(jìn)一步增強(qiáng)了AIGC模型的通用性。AIGC的迅速發(fā)展得益于三個(gè)關(guān)鍵領(lǐng)域的人工智能技術(shù):5.2.2AIGC的奧秘
大語(yǔ)言模型大型語(yǔ)言模型(LargeLanguageModels,LLMs),是一種基于機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的模型,它通過(guò)對(duì)大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,來(lái)學(xué)習(xí)服務(wù)人類語(yǔ)言理解和生成的能力。LLM的核心思想是通過(guò)大規(guī)模的無(wú)監(jiān)督訓(xùn)練來(lái)學(xué)習(xí)自然語(yǔ)言的模式和語(yǔ)言結(jié)構(gòu),這在一定程度上能夠模擬人類的語(yǔ)言認(rèn)知和生成過(guò)程。與傳統(tǒng)的自然語(yǔ)言處理模型(NLP模型)相比,LLM能夠更好地理解和生成自然文本,同時(shí)還能夠表現(xiàn)出一定的邏輯思維和推理能力。5.2.2AIGC的奧秘
提示詞工程提示詞(prompt)是指在人工智能場(chǎng)景下給模型的一個(gè)初始輸入或提示,用于引導(dǎo)模型生成特定的輸出。提示詞工程(PromptEngineering,PE)是一種人工智能技術(shù),它通過(guò)設(shè)計(jì)和改進(jìn)AI的prompt來(lái)提高AI的表現(xiàn)。PE的目標(biāo)是創(chuàng)建高度有效和可控的AI系統(tǒng),使其能夠準(zhǔn)確、可靠地執(zhí)行特定任務(wù)。5.2.3AIGC產(chǎn)業(yè)生態(tài)體系5.2.4AIGC典型應(yīng)用現(xiàn)階段國(guó)內(nèi)AIGC多以單模型應(yīng)用的形式出現(xiàn),主要分為文本生成、圖像生成、視頻生成、音頻生成,其中文本生成成為其他內(nèi)容生成的基礎(chǔ)。5.2.4AIGC典型應(yīng)用文本生成人工智能文本生成是使用人工智能(AI)算法和模型文本生成(AITextGeneration)來(lái)生成模仿人類書(shū)寫(xiě)內(nèi)容的文本。它涉及在現(xiàn)有文本的大型數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)模型,以生成在風(fēng)格、語(yǔ)氣和內(nèi)容上與輸入數(shù)據(jù)相似的新文本。
文本生成5.2.4AIGC典型應(yīng)用圖像生成(AlImageGeneration),人工智能(Al)可用于生成非人類藝術(shù)家作品的圖像。這種類型的圖像被稱為“人工智能生成的圖像”。人工智能圖像可以是現(xiàn)實(shí)的或抽象的,也可以傳達(dá)特定的主題或信息。
圖像生成這里區(qū)別于搜索(搜索是別人傳上來(lái),檢索圖片,這里是咒語(yǔ)生成,即使相同咒語(yǔ)生成的也不一樣,是獨(dú)一無(wú)二的)文生圖圖生圖5.2.4AIGC典型應(yīng)用語(yǔ)音生成(AIAudioGeneration),AIGC的音頻生成技術(shù)可以分為兩類,分別是文本到語(yǔ)音合成和語(yǔ)音克隆。
語(yǔ)音生成5.2.4AIGC典型應(yīng)用視頻生成(AIVideoGeneration),AIGC已被用于視頻剪輯處理以生成預(yù)告片和宣傳視頻。工作流程類似于圖像生成,視頻的每一幀都在幀級(jí)別進(jìn)行處理,然后利用AI算法檢測(cè)視頻片段。AIGC生成引人入勝且高效的宣傳視頻的能力是通過(guò)結(jié)合不同的AI算法實(shí)現(xiàn)的。憑借其先進(jìn)的功能和日益普及,AIGC可能會(huì)繼續(xù)革新視頻內(nèi)容的創(chuàng)建和營(yíng)銷方式。
視頻生成Meta公司在2022年9月推出的Make-A-Video,網(wǎng)頁(yè)地址:https://makeavideo.studio一只穿著紅色斗篷超級(jí)英雄服裝的狗,在天空中飛翔。5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場(chǎng)景5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場(chǎng)景5.3國(guó)內(nèi)外主流AI大模型5.3.1OpenAI的GPT大模型ChatGPT(全名:ChatGenerativePre-trainedTransformer),美國(guó)OpenAI研發(fā)的聊天機(jī)器人程序,于2022年11月30日發(fā)布。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具,它能夠通過(guò)理解和學(xué)習(xí)人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來(lái)聊天交流,甚至能完成撰寫(xiě)郵件、視頻腳本、文案、翻譯、代碼,寫(xiě)論文等任務(wù)。GPT大模型主要產(chǎn)品包括GPT-1、GPT-2、GPT-3和GPT-4。這些產(chǎn)品都是OpenAI公司研發(fā)的大型預(yù)訓(xùn)練語(yǔ)言模型,被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。GPT-1和GPT-2主要用于文本生成和對(duì)話系統(tǒng),而GPT-3和GPT-4則可以應(yīng)用于更加廣泛的領(lǐng)域,包括醫(yī)療、金融、法律等。5.3.2百度的文心大模型百度文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),是產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型。文心大模型的一大特色是“知識(shí)增強(qiáng)”,即引入知識(shí)圖譜,將數(shù)據(jù)與知識(shí)融合,提升了學(xué)習(xí)效率及可解釋性。文心ERNIE自2019年誕生至今,在語(yǔ)言理解、文本生成、跨模態(tài)語(yǔ)義理解等領(lǐng)域取得多項(xiàng)技術(shù)突破文心一言(英文名:ERNIEBot)是百度全新一代知識(shí)增強(qiáng)大語(yǔ)言模型,文心大模型家族的新成員,能夠與人對(duì)話互動(dòng)、回答問(wèn)題、協(xié)助創(chuàng)作,高效便捷地幫助人們獲取信息、知識(shí)和靈感。文心一言從數(shù)萬(wàn)億數(shù)據(jù)和數(shù)千億知識(shí)中融合學(xué)習(xí),得到預(yù)訓(xùn)練大模型,在此基礎(chǔ)上采用有監(jiān)督精調(diào)、人類反饋強(qiáng)化學(xué)習(xí)、提示等技術(shù),具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)優(yōu)勢(shì)。5.3.3科大訊飛的訊飛星?認(rèn)知大模型科?訊?的星?是新一代認(rèn)知智能大模型,擁有跨領(lǐng)域知識(shí)和語(yǔ)言理解能力,能夠基于自然對(duì)話方式理解與執(zhí)行任務(wù)。5.3.4阿?云的通義大模型阿里通義大模型是阿里云推出的一個(gè)超大規(guī)模的語(yǔ)言模型,功能包括多輪對(duì)話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語(yǔ)言支持。能夠跟人類進(jìn)行多輪的交互,也融入了多模態(tài)的知識(shí)理解,且有文案
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版煤炭進(jìn)出口居間服務(wù)不可撤銷合同4篇
- 2024預(yù)付款擔(dān)保形式創(chuàng)新與合同起草策略合同9篇
- 二零二五年新材料存貨質(zhì)押融資服務(wù)合同3篇
- 年度胃動(dòng)力藥市場(chǎng)分析及競(jìng)爭(zhēng)策略分析報(bào)告
- 2024-2025學(xué)年高中英語(yǔ)Unit3AtasteofEnglishhumourSectionⅤGuidedWriting如何寫(xiě)幽默類故事性的記敘文教師用書(shū)教案新人教版必修4
- 二零二五年度農(nóng)業(yè)科技研發(fā)成果轉(zhuǎn)化合同范本集3篇
- 2025年度碼頭貨物裝卸機(jī)械租賃合同范本3篇
- 2024碎石原料生產(chǎn)設(shè)備采購(gòu)合同
- 2025年度鋁型材電商平臺(tái)合作服務(wù)合同4篇
- 2024版招生合作服務(wù)協(xié)議
- 《縣域腫瘤防治中心評(píng)估標(biāo)準(zhǔn)》
- 做好八件事快樂(lè)過(guò)寒假-2024-2025學(xué)年上學(xué)期中學(xué)寒假家長(zhǎng)會(huì)課件-2024-2025學(xué)年高中主題班會(huì)課件
- 【課件】寒假是用來(lái)超越的!課件 2024-2025學(xué)年高中上學(xué)期寒假學(xué)習(xí)和生活指導(dǎo)班會(huì)
- 2024-2025學(xué)年北師大版數(shù)學(xué)七年級(jí)上冊(cè)期末練習(xí)卷
- 2025年山東兗礦集團(tuán)公司招聘筆試參考題庫(kù)含答案解析
- 燃?xì)庥邢薰竟こ滩抗芾碇贫葏R編
- 2024年中國(guó)干粉涂料市場(chǎng)調(diào)查研究報(bào)告
- (自考)經(jīng)濟(jì)學(xué)原理中級(jí)(政經(jīng))課件 第二章 商品和貨幣
- ×××老舊小區(qū)改造工程施工組織設(shè)計(jì)(全面)
- 調(diào)解行業(yè)可行性分析報(bào)告
- 科創(chuàng)板知識(shí)題庫(kù)試題及答案
評(píng)論
0/150
提交評(píng)論