人工智能技術(shù)導(dǎo)論課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-10-13 格式：PPTX 頁(yè)數(shù)：109 大?。?2.69MB 積分：25 舉報(bào) 版權(quán)申訴

人工智能技術(shù)導(dǎo)論課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC_第2頁(yè)

人工智能技術(shù)導(dǎo)論課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC_第3頁(yè)

人工智能技術(shù)導(dǎo)論課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC_第4頁(yè)

人工智能技術(shù)導(dǎo)論課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC_第5頁(yè)

已閱讀5頁(yè)，還剩104頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用本章目標(biāo)了解計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展歷程及應(yīng)用領(lǐng)域熟悉基于深度學(xué)習(xí)的視覺(jué)技術(shù)掌握OpenCV框架的基本使用掌握人臉識(shí)別和車牌識(shí)別項(xiàng)目的開(kāi)發(fā)流程3.1計(jì)算機(jī)視覺(jué)簡(jiǎn)介人臉識(shí)別自動(dòng)駕駛醫(yī)學(xué)影像分析工業(yè)質(zhì)檢ComputerVision-->CV視覺(jué)是人類獲取信息最主要的方式，而計(jì)算機(jī)視覺(jué)就是一門(mén)研究如何使計(jì)算機(jī)系統(tǒng)具備視覺(jué)感知能力的學(xué)科。通過(guò)模仿人類視覺(jué)系統(tǒng)的工作方式，計(jì)算機(jī)視覺(jué)技術(shù)旨在使計(jì)算機(jī)能夠理解、解釋和處理圖像或視頻數(shù)據(jù)。3.1.1計(jì)算機(jī)視覺(jué)發(fā)展概述

計(jì)算機(jī)視覺(jué)的發(fā)展經(jīng)歷了從早期的模式識(shí)別到深度學(xué)習(xí)的飛躍，為人工智能的發(fā)展提供了強(qiáng)有力的支持。隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷進(jìn)步，其在實(shí)際應(yīng)用中取得了巨大成功。起步階段20世紀(jì)50年代-70年代）模式識(shí)別的初步探索感知器模型被提出硬件和算法的限制使得計(jì)算機(jī)無(wú)法有效地處理大規(guī)模的圖像數(shù)據(jù)圖像處理的崛起20世紀(jì)80年代-90年代數(shù)字圖像處理邊緣檢測(cè)、圖像增強(qiáng)為后續(xù)的模式識(shí)別和目標(biāo)檢測(cè)打下了基礎(chǔ)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)2000年代初-2010年代支持向量機(jī)（SVM）卷積神經(jīng)網(wǎng)絡(luò)（CNN）隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的興起，計(jì)算機(jī)視覺(jué)取得了巨大的突破。圖像生成與遷移學(xué)習(xí)2010年代-至今生成對(duì)抗網(wǎng)絡(luò)（GAN）遷移學(xué)習(xí)計(jì)算機(jī)視覺(jué)逐漸向圖像生成和遷移學(xué)習(xí)等方向發(fā)展。3.1.1計(jì)算機(jī)視覺(jué)發(fā)展概述思政小課堂：《新一代人工智能倫理規(guī)范》發(fā)布3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理通過(guò)攝像頭、傳感器或者其他圖像采集設(shè)備捕捉到現(xiàn)實(shí)世界中的圖像，將其轉(zhuǎn)化為數(shù)字信號(hào)。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理轉(zhuǎn)換為數(shù)字信號(hào)后的圖像，由一個(gè)個(gè)像素點(diǎn)組成，可以用像素矩陣來(lái)表示。每一個(gè)像素點(diǎn)都有一個(gè)對(duì)應(yīng)的像素值。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理轉(zhuǎn)換為數(shù)字信號(hào)后的圖像，由一個(gè)個(gè)像素點(diǎn)組成，可以用像素矩陣來(lái)表示。每一個(gè)像素點(diǎn)都有一個(gè)對(duì)應(yīng)的像素值。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理灰度圖像只有一個(gè)通道，而彩色圖像則由紅綠藍(lán)（RGB）三個(gè)通道組成（或者采用其他顏色模式，如CMYK等）。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理彩色圖像可以很容易轉(zhuǎn)換為灰度圖像，例如使用公式Y(jié)=0.3*R+0.59*G+0.11*B而給灰度圖像“上色”則較為復(fù)雜。1、圖像獲??？3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理而給灰度圖像“上色”則需要更加智能的技術(shù)。1、圖像獲取彩色4K修復(fù)版開(kāi)國(guó)大典首現(xiàn)大熒幕：這清晰度絕了3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理獲取到圖像后，計(jì)算機(jī)會(huì)進(jìn)行一系列的圖像處理操作，以提取有用的信息。比如，在圖像的預(yù)處理階段，進(jìn)行去噪、增強(qiáng)對(duì)比度等操作。在特征提取階段，會(huì)突出圖像中的關(guān)鍵特征，比如邊緣、顏色等。這些處理有助于減小數(shù)據(jù)量并突顯重要信息，以便后續(xù)的模式識(shí)別。2、圖像處理3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理在圖像處理的基礎(chǔ)上，計(jì)算機(jī)進(jìn)行模式識(shí)別，也就是理解圖像中的內(nèi)容。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)（CNN）等模型在這一步驟中發(fā)揮了關(guān)鍵作用。它能夠自動(dòng)從圖像中提取特征，并通過(guò)訓(xùn)練過(guò)程學(xué)習(xí)如何分類或識(shí)別圖像中的目標(biāo)。3、模式識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用人臉識(shí)別技術(shù)被廣泛應(yīng)用于交通、金融、安防、社交媒體等領(lǐng)域。通過(guò)定位人臉和分析面部特征，計(jì)算機(jī)能夠準(zhǔn)確辨識(shí)個(gè)體身份。1、人臉識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)在自動(dòng)駕駛汽車中扮演著關(guān)鍵角色。通過(guò)攝像頭獲取車輛周圍環(huán)境圖像，計(jì)算機(jī)視覺(jué)算法系統(tǒng)能夠?qū)崟r(shí)識(shí)別道路、障礙物、交通標(biāo)志等，從而智能地操控車輛。2、自動(dòng)駕駛3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在醫(yī)學(xué)領(lǐng)域，計(jì)算機(jī)視覺(jué)用于分析醫(yī)學(xué)影像，如CT掃描、MRI等。這有助于自動(dòng)檢測(cè)疾病跡象、輔助診斷，提高醫(yī)療水平和效率。3、醫(yī)學(xué)影像分析3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)系統(tǒng)被廣泛應(yīng)用于工業(yè)生產(chǎn)中的質(zhì)量控制。通過(guò)檢測(cè)產(chǎn)品表面的缺陷、尺寸偏差等，保證產(chǎn)品質(zhì)量并提高生產(chǎn)效率。4、工業(yè)質(zhì)檢3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)系統(tǒng)被廣泛應(yīng)用于工業(yè)生產(chǎn)中的質(zhì)量控制。通過(guò)檢測(cè)產(chǎn)品表面的缺陷、尺寸偏差等，保證產(chǎn)品質(zhì)量并提高生產(chǎn)效率。4、工業(yè)質(zhì)檢3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在視頻監(jiān)控和安防系統(tǒng)中，計(jì)算機(jī)視覺(jué)可用于檢測(cè)和跟蹤目標(biāo)，幫助監(jiān)測(cè)場(chǎng)景中的異常情況，極大地提升了安保效率，為維護(hù)社會(huì)治安做出了貢獻(xiàn)。5、目標(biāo)檢測(cè)與跟蹤3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù)為增強(qiáng)現(xiàn)實(shí)技術(shù)提供支持，通過(guò)識(shí)別和追蹤現(xiàn)實(shí)世界中的物體，將虛擬信息疊加到用戶的視野中，拓展了交互和娛樂(lè)的可能性。6、增強(qiáng)現(xiàn)實(shí)（AR）3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用通過(guò)分析人體手部動(dòng)作，計(jì)算機(jī)視覺(jué)能夠識(shí)別手勢(shì)并將其轉(zhuǎn)化為控制命令，這在虛擬現(xiàn)實(shí)、智能家居等領(lǐng)域有廣泛應(yīng)用。7、手勢(shì)識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)可以用于識(shí)別、提取文檔中的文字信息，實(shí)現(xiàn)自動(dòng)化的文檔管理和信息檢索。光學(xué)字符識(shí)別（OCR）技術(shù)是其中的關(guān)鍵組成部分。8、文檔識(shí)別OCR3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)可以用于識(shí)別、提取文檔中的文字信息，實(shí)現(xiàn)自動(dòng)化的文檔管理和信息檢索。光學(xué)字符識(shí)別（OCR）技術(shù)是其中的關(guān)鍵組成部分。8、文檔識(shí)別OCR3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在零售業(yè)，計(jì)算機(jī)視覺(jué)被用于人流分析、貨架管理、商品識(shí)別等，可以提升購(gòu)物體驗(yàn)、減少盜竊，并優(yōu)化庫(kù)存管理。9、智慧零售3.2基于深度學(xué)習(xí)的視覺(jué)技術(shù)圖像分類目標(biāo)檢測(cè)圖像分割軌跡跟蹤deeplearning深度學(xué)習(xí)的核心思想是通過(guò)模仿人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，建立多層次的神經(jīng)網(wǎng)絡(luò)，使計(jì)算機(jī)能夠模擬人類學(xué)習(xí)的方式，從而自動(dòng)學(xué)習(xí)和提取復(fù)雜的特征。這種模型的引入為視覺(jué)任務(wù)帶來(lái)了翻天覆地的變化，讓計(jì)算機(jī)能夠更深入、更準(zhǔn)確地理解和處理圖像數(shù)據(jù)。3.2.1圖像分類1、圖像分類的概念？

圖像分類旨在將輸入的圖像劃分為不同的預(yù)定義類別。這是一種將圖像與事先訓(xùn)練好的分類模型相匹配的過(guò)程。3.2.1圖像分類2、機(jī)器學(xué)習(xí)中圖像分類的基本原理特征提取在傳統(tǒng)方法中，圖像分類的首要步驟是從圖像中提取特征。這些特征可以包括顏色直方圖、紋理、形狀等，這些特征幫助模型捕捉圖像中的關(guān)鍵信息。特征表示提取的特征需要被適當(dāng)表示，以便計(jì)算機(jī)能夠理解和處理。常用的表示方法包括向量或矩陣形式，以便輸入到分類器中。分類器分類器是一個(gè)數(shù)學(xué)模型，用于根據(jù)輸入的特征將圖像分配到不同的類別。常見(jiàn)的分類器包括支持向量機(jī)（SVM）、決策樹(shù)、隨機(jī)森林等，這些分類器經(jīng)過(guò)訓(xùn)練，能夠?qū)W習(xí)如何將特征與類別關(guān)聯(lián)起來(lái)訓(xùn)練和測(cè)試訓(xùn)練階段使用已標(biāo)記的圖像數(shù)據(jù)集，通過(guò)訓(xùn)練分類器調(diào)整其參數(shù)，使其能夠正確地將圖像分到相應(yīng)的類別。測(cè)試階段則通過(guò)未標(biāo)記的圖像驗(yàn)證模型的性能，評(píng)估其在新數(shù)據(jù)上的泛化能力。3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)卷積神經(jīng)網(wǎng)絡(luò)（CNN）CNN通過(guò)卷積層和池化層來(lái)逐層提取圖像的局部和全局特征。這些特征在全連接層中被用于進(jìn)行分類決策。CNN的層次結(jié)構(gòu)使其能夠逐漸抽象出更高級(jí)別的特征，從而提高模型對(duì)圖像語(yǔ)義的理解能力。遷移學(xué)習(xí)利用在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的深度學(xué)習(xí)模型，如在ImageNet上訓(xùn)練的模型，進(jìn)行遷移學(xué)習(xí)。將預(yù)訓(xùn)練的模型的權(quán)重用于新的圖像分類任務(wù)，使得模型能夠更快速地收斂和獲得更好的性能。激活函數(shù)和正則化深度學(xué)習(xí)中的圖像分類網(wǎng)絡(luò)通常使用非線性激活函數(shù)，如ReLU，以幫助網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜的特征。正則化技術(shù)如Dropout也被廣泛應(yīng)用，以防止過(guò)擬合。3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)LeNet-5于1998年被提出是卷積神經(jīng)網(wǎng)絡(luò)的先驅(qū)之一主要應(yīng)用于手寫(xiě)數(shù)字的識(shí)別包含卷積層、池化層和全連接層雖然在當(dāng)時(shí)并未引起廣泛關(guān)注，但為后來(lái)更先進(jìn)的網(wǎng)絡(luò)奠定了基礎(chǔ)作為經(jīng)典的入門(mén)級(jí)神經(jīng)網(wǎng)絡(luò)，對(duì)于簡(jiǎn)單字符的識(shí)別效果尚可，然而，對(duì)于更加復(fù)雜的項(xiàng)目，如人臉、車牌識(shí)別等，LeNet的結(jié)構(gòu)則過(guò)于簡(jiǎn)單了，可能無(wú)法得到較高的準(zhǔn)確率目前，圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種：3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)AlexNet于2012年被提出是深度學(xué)習(xí)在圖像分類中的重要突破在ILSVRC2012圖像分類競(jìng)賽中取得了顯著的勝利AlexNet采用了更深的網(wǎng)絡(luò)結(jié)構(gòu)，使用ReLU激活函數(shù)，引入了Dropout正則化利用GPU進(jìn)行高效訓(xùn)練目前，圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種：3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)VGGNet于2014年被提出采用了非常深的網(wǎng)絡(luò)結(jié)構(gòu)包含16或19層卷積層，全部使用3x3的小卷積核，使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)潔而深入VGGNet的設(shè)計(jì)理念影響了后續(xù)深度學(xué)習(xí)模型的構(gòu)建目前，圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種：3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)GoogLeNet(Inception)于2014年被提出引入了Inception模塊通過(guò)并聯(lián)多個(gè)不同大小的卷積核和池化層，提高了網(wǎng)絡(luò)的寬度和深度該模型在參數(shù)數(shù)量相對(duì)較少的情況下取得了較好的性能目前，圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種：3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)ResNet(ResidualNetwork)于2015年被提出引入殘差塊（Residual），解決了深度網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問(wèn)題該結(jié)構(gòu)允許網(wǎng)絡(luò)層跳過(guò)連接，使得訓(xùn)練更加容易允許構(gòu)建超深的網(wǎng)絡(luò)目前，圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種：3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)MobileNet于2017年被提出設(shè)計(jì)用于移動(dòng)設(shè)備上的實(shí)時(shí)圖像處理采用深度可分離卷積，減少了參數(shù)數(shù)量和計(jì)算量在資源受限的設(shè)備上也能實(shí)現(xiàn)高效的圖像分類目前，圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種：3.2.1圖像分類3、基于深度學(xué)習(xí)的圖像分類技術(shù)EfficientNet于2019年被提出通過(guò)使用復(fù)合縮放方法，同時(shí)增加網(wǎng)絡(luò)的深度、寬度和分辨率，達(dá)到更好的性能在參數(shù)相對(duì)較少的情況下，取得了與更大更深的模型相媲美的效果目前，圖像分類項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種：3.2.2目標(biāo)檢測(cè)1、目標(biāo)檢測(cè)的概念

目標(biāo)檢測(cè)旨在從圖像或視頻中識(shí)別和定位圖像中的多個(gè)目標(biāo)，并為每個(gè)目標(biāo)分配相應(yīng)的類別標(biāo)簽。與圖像分類不同，目標(biāo)檢測(cè)不僅需要確定圖像中是否存在目標(biāo)，還需要準(zhǔn)確地標(biāo)定目標(biāo)的位置3.2.2目標(biāo)檢測(cè)2、傳統(tǒng)的目標(biāo)檢測(cè)算法HOG全稱HistogramofOrientedGradients，使用圖像中的梯度信息來(lái)描述圖像的局部結(jié)構(gòu)，尤其適用于描述物體的邊緣和紋理。將圖像劃分為小的局部區(qū)域，計(jì)算每個(gè)區(qū)域內(nèi)梯度的方向直方圖，最終將這些直方圖串聯(lián)起來(lái)形成特征向量。SIFT全稱Scale-InvariantFeatureTransform，具有尺度不變性和旋轉(zhuǎn)不變性，對(duì)于圖像中的局部特征點(diǎn)具有很好的描述能力。在圖像中檢測(cè)關(guān)鍵點(diǎn)，然后提取這些關(guān)鍵點(diǎn)周圍的局部特征，通過(guò)描述子來(lái)表示這些特征。GLOH全稱GradientLocation-OrientationHistogra，是SIFT的改進(jìn)版本，增加了對(duì)光照和旋轉(zhuǎn)的魯棒性。在關(guān)鍵點(diǎn)周圍計(jì)算梯度直方圖，并使用多尺度的描述子來(lái)提高對(duì)尺度變化的適應(yīng)性。DPM全稱DeformablePartsModel，引入了“變形部分模型”來(lái)處理目標(biāo)的非剛性形變。將目標(biāo)分解為多個(gè)部分，每個(gè)部分用HOG描述，通過(guò)學(xué)習(xí)部分之間的相對(duì)位置關(guān)系來(lái)構(gòu)建目標(biāo)模型。SelectiveSearch是一種基于貪心策略的區(qū)域生成算法，用于生成候選區(qū)域。通過(guò)對(duì)圖像進(jìn)行分割、合并和其他操作，生成具有多樣性的候選區(qū)域，然后使用分類器對(duì)這些區(qū)域進(jìn)行檢測(cè)。ICF全稱IntegralChannelFeatures，使用積分圖像進(jìn)行快速特征計(jì)算，提高了算法的計(jì)算效率。利用圖像的積分圖像計(jì)算各種特征，如梯度特征、顏色特征等，用于目標(biāo)檢測(cè)。3.2.2目標(biāo)檢測(cè)3、基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法FasterR-CNN全稱Region-basedConvolutionalNeuralNetwork，引入了區(qū)域提議網(wǎng)絡(luò)和ROI池化層，實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。RPN用于生成候選目標(biāo)區(qū)域，然后通過(guò)ROI池化將這些區(qū)域轉(zhuǎn)換為固定大小的特征圖，最后通過(guò)全連接層進(jìn)行分類和定位。YOLO全稱YouOnlyLookOnce，通過(guò)將圖像劃分為網(wǎng)格，每個(gè)網(wǎng)格負(fù)責(zé)檢測(cè)特定區(qū)域內(nèi)的目標(biāo)，實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)。將目標(biāo)檢測(cè)任務(wù)視為回歸問(wèn)題，直接預(yù)測(cè)目標(biāo)的坐標(biāo)和類別，并在整個(gè)圖像上進(jìn)行端到端的訓(xùn)練和預(yù)測(cè)。SSD全稱SingleShotMultiboxDetector，通過(guò)在不同層次的特征圖上使用多個(gè)錨框進(jìn)行檢測(cè)，實(shí)現(xiàn)了對(duì)多尺度目標(biāo)的有效檢測(cè)。利用多個(gè)卷積層產(chǎn)生的特征圖來(lái)進(jìn)行目標(biāo)檢測(cè)，通過(guò)預(yù)測(cè)每個(gè)錨框的類別和邊界框偏移來(lái)完成任務(wù)。MaskR-CNN在FasterR-CNN的基礎(chǔ)上進(jìn)一步增加了對(duì)實(shí)例分割的支持，同時(shí)能夠輸出每個(gè)檢測(cè)到的目標(biāo)的精確邊界。在FasterR-CNN的基礎(chǔ)上引入了額外的分割網(wǎng)絡(luò)，用于生成每個(gè)目標(biāo)的二進(jìn)制掩碼。RetinaNet采用了一種稱為“FocalLoss”的損失函數(shù)，有效解決了類別不平衡問(wèn)題，提高了對(duì)稀有目標(biāo)的檢測(cè)能力。在FasterR-CNN的基礎(chǔ)上引入了特殊設(shè)計(jì)的損失函數(shù)，使得模型更關(guān)注難以分類的目標(biāo)。EfficientDet結(jié)合了EfficientNet的輕量級(jí)設(shè)計(jì)和目標(biāo)檢測(cè)任務(wù)的需求，實(shí)現(xiàn)了高效而準(zhǔn)確的目標(biāo)檢測(cè)。通過(guò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、特征金字塔網(wǎng)絡(luò)（FeaturePyramidNetwork，F(xiàn)PN）等技術(shù)來(lái)提高模型的效率。3.2.3圖像分割1、圖像分割的概念

圖像分割旨在將圖像劃分為若干個(gè)具有相似特征的區(qū)域。圖像分割與目標(biāo)檢測(cè)不同，圖像分割是一個(gè)像素級(jí)別的任務(wù)，目標(biāo)是將圖像分割成區(qū)域，每個(gè)像素都有一個(gè)標(biāo)簽；而目標(biāo)檢測(cè)是在物體級(jí)別上操作，關(guān)注點(diǎn)在于識(shí)別圖像中存在的物體及其位置。3.2.3圖像分割2、傳統(tǒng)的圖像分割算法閾值分割英文Thresholding，是一種簡(jiǎn)單而常用的方法，基于圖像中像素的灰度值。通過(guò)設(shè)定一個(gè)閾值，將圖像分為兩個(gè)區(qū)域，其中像素值小于閾值的屬于一個(gè)區(qū)域，大于等于閾值的屬于另一個(gè)區(qū)域。閾值分割一般只適用于對(duì)比度較明顯的圖像。區(qū)域生長(zhǎng)英文RegionGrowing，是一種基于像素相似性的分割方法，從種子像素開(kāi)始，逐漸將相鄰像素加入同一區(qū)域，直到不再滿足相似性條件。區(qū)域生長(zhǎng)算法適用于具有相對(duì)均勻區(qū)域的圖像。區(qū)域分割英文RegionSplitandMerge，是一種自頂向下的分割方法，首先將整個(gè)圖像視為一個(gè)區(qū)域，然后遞歸地分裂和合并區(qū)域，直到滿足某些準(zhǔn)則。該算法適用于具有不同紋理和結(jié)構(gòu)的圖像。邊緣檢測(cè)英文EdgeDetection，尋找圖像中的邊緣，通常使用梯度信息來(lái)定位圖像中亮度變化較大的區(qū)域。邊緣檢測(cè)適用于強(qiáng)調(diào)圖像中物體邊界的分割。水平集方法英文LevelSetMethods，基于曲線演化理論，通過(guò)表示圖像中的區(qū)域邊界的曲線來(lái)進(jìn)行分割。適用于復(fù)雜形狀和拓?fù)浣Y(jié)構(gòu)的分割。3.2.3圖像分割3、基于深度學(xué)習(xí)的圖像分割算法U-Net是一種全卷積網(wǎng)絡(luò)，設(shè)計(jì)用于生物醫(yī)學(xué)圖像分割。它包含一個(gè)編碼器和一個(gè)解碼器，并通過(guò)跳躍連接來(lái)保留高層次和低層次的特征。主要應(yīng)用于醫(yī)學(xué)圖像分割，如細(xì)胞圖像和醫(yī)學(xué)影像。SegNet是一個(gè)基于CNN的圖像分割網(wǎng)絡(luò)，通過(guò)對(duì)圖像中的每個(gè)像素進(jìn)行分類來(lái)實(shí)現(xiàn)分割。它使用反卷積進(jìn)行上采樣，恢復(fù)圖像的空間分辨率。適用于語(yǔ)義分割任務(wù)，如道路和場(chǎng)景理解。DeepLab系列是一系列圖像分割算法，采用空洞卷積來(lái)擴(kuò)大感受野，以更好地捕捉上下文信息。DeepLabv3+還引入了全局平均池化。廣泛應(yīng)用于語(yǔ)義分割任務(wù)，包括實(shí)例分割和物體檢測(cè)MaskR-CNN是一種實(shí)例分割框架，基于FasterR-CNN，通過(guò)在目標(biāo)檢測(cè)的基礎(chǔ)上增加分割分支，實(shí)現(xiàn)同時(shí)檢測(cè)和分割物體實(shí)例。主要用于需要識(shí)別和分割多個(gè)對(duì)象實(shí)例的任務(wù)。FCNFullyConvolutionalNetwork，是一種將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為全卷積網(wǎng)絡(luò)的方法，允許對(duì)輸入圖像進(jìn)行像素級(jí)別的分類和分割。適用于語(yǔ)義分割任務(wù)，如將圖像中的每個(gè)像素標(biāo)記為不同的類別。。PSPNetPyramidSceneParsingNetwork，使用金字塔池化模塊來(lái)捕捉不同尺度上的語(yǔ)境信息，從而提高分割性能。適用于需要全局上下文信息的場(chǎng)景，如城市場(chǎng)景分割。3.2.4軌跡跟蹤1、軌跡跟蹤的概念

軌跡跟蹤目的是在視頻序列中準(zhǔn)確地追蹤目標(biāo)對(duì)象的運(yùn)動(dòng)軌跡。軌跡跟蹤算法需要在連續(xù)的圖像幀中檢測(cè)目標(biāo)，并將它們關(guān)聯(lián)起來(lái)形成時(shí)間上的軌跡。軌跡跟蹤的關(guān)鍵步驟包括目標(biāo)檢測(cè)、目標(biāo)關(guān)聯(lián)、軌跡生成、軌跡更新、處理遮擋和消失以及多目標(biāo)跟蹤。3.2.4軌跡跟蹤2、傳統(tǒng)的軌跡跟蹤算法卡爾曼濾波KalmanFilter，卡爾曼濾波是一種遞歸的估計(jì)算法，通過(guò)對(duì)目標(biāo)的當(dāng)前狀態(tài)和運(yùn)動(dòng)進(jìn)行建模，結(jié)合觀測(cè)數(shù)據(jù)，不斷更新目標(biāo)的狀態(tài)估計(jì)。在軌跡跟蹤中，卡爾曼濾波可用于預(yù)測(cè)目標(biāo)的下一幀位置。最鄰近跟蹤NearestNeighborTracking，在每一幀中，使用距離度量（如歐氏距離）找到當(dāng)前幀檢測(cè)結(jié)果與上一幀跟蹤目標(biāo)的最鄰近匹配。這種方法簡(jiǎn)單直觀，但對(duì)于遮擋等情況可能不魯棒。KLT跟蹤器KLTTracker，基于光流的KLT（Kanade-Lucas-Tomasi）跟蹤器使用局部圖像區(qū)域的特征點(diǎn)，通過(guò)追蹤這些特征點(diǎn)的運(yùn)動(dòng)來(lái)實(shí)現(xiàn)目標(biāo)跟蹤。適用于一定程度的目標(biāo)運(yùn)動(dòng)和變形。中值流MedianFlow，算法利用檢測(cè)框中的像素強(qiáng)度信息計(jì)算光流，并通過(guò)中值流場(chǎng)的方向和大小來(lái)更新目標(biāo)的位置。適用于低速運(yùn)動(dòng)的目標(biāo)。連通區(qū)域跟蹤C(jī)onnectedComponentTracking，在二值化的圖像中，通過(guò)檢測(cè)連通區(qū)域（二值圖像中相鄰的白色像素）來(lái)跟蹤目標(biāo)。適用于目標(biāo)邊界清晰的情況。CAMShiftCAMShift算法基于MeanShift算法，通過(guò)不斷調(diào)整搜索窗口的大小和方向，實(shí)現(xiàn)目標(biāo)的跟蹤。適用于目標(biāo)尺寸和顏色較為一致的情況。3.2.4軌跡跟蹤3、基于深度學(xué)習(xí)的軌跡跟蹤算法DeepSORTDeepSimpleOnlineandRealtimeTracking，結(jié)合了目標(biāo)檢測(cè)和深度學(xué)習(xí)特征提取，使用卷積神經(jīng)網(wǎng)絡(luò)提取特征，并通過(guò)外觀特征和運(yùn)動(dòng)信息來(lái)關(guān)聯(lián)和跟蹤目標(biāo)。利用深度學(xué)習(xí)目標(biāo)檢測(cè)器檢測(cè)目標(biāo)，然后使用深度學(xué)習(xí)特征提取器提取目標(biāo)外觀特征，最后使用卡爾曼濾波進(jìn)行軌跡預(yù)測(cè)和關(guān)聯(lián)。MOTDTMultipleObjectTrackingwithDeepLearning，采用了深度學(xué)習(xí)的目標(biāo)檢測(cè)器和在線學(xué)習(xí)的軌跡跟蹤器，通過(guò)CNN提取特征，使用卡爾曼濾波進(jìn)行軌跡預(yù)測(cè)，并采用在線學(xué)習(xí)策略不斷更新模型。在目標(biāo)檢測(cè)結(jié)果上應(yīng)用CNN提取特征，然后使用在線學(xué)習(xí)策略不斷更新外觀模型，通過(guò)卡爾曼濾波來(lái)實(shí)現(xiàn)目標(biāo)的軌跡跟蹤DeepMOT基于深度卷積神經(jīng)網(wǎng)絡(luò)，將目標(biāo)檢測(cè)、特征提取和軌跡跟蹤整合到一個(gè)統(tǒng)一的深度學(xué)習(xí)框架中，以提高端到端的性能。使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征，通過(guò)LSTM或Transformer等結(jié)構(gòu)對(duì)序列信息建模，最終輸出目標(biāo)的軌跡。FairMOT采用了多任務(wù)學(xué)習(xí)的方法，同時(shí)預(yù)測(cè)目標(biāo)的類別、位置和運(yùn)動(dòng)狀態(tài)，提高了多目標(biāo)跟蹤的準(zhǔn)確性。使用深度卷積神經(jīng)網(wǎng)絡(luò)同時(shí)處理目標(biāo)檢測(cè)和軌跡跟蹤任務(wù)，通過(guò)多任務(wù)學(xué)習(xí)框架進(jìn)行聯(lián)合訓(xùn)練。SORTSimpleOnlineandRealtimeTracking，結(jié)合了目標(biāo)檢測(cè)和卡爾曼濾波，通過(guò)簡(jiǎn)單有效的方法實(shí)現(xiàn)實(shí)時(shí)目標(biāo)跟蹤。使用目標(biāo)檢測(cè)器（獲取目標(biāo)位置，然后使用卡爾曼濾波進(jìn)行軌跡的預(yù)測(cè)和更新3.2.4軌跡跟蹤思政小課堂：堅(jiān)守高尚的道德情操，向非法技術(shù)濫用說(shuō)不計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展給我們帶來(lái)了很多益處，然而，一部分人卻將這項(xiàng)技術(shù)用于非法或非道德用途。在數(shù)字圖像處理技術(shù)發(fā)展之初，就有人使用PS技術(shù)炮制虛假照片，從而制造虛假新聞?wù)`導(dǎo)公眾認(rèn)知，或者用來(lái)誹謗、侮辱他人。在深度學(xué)習(xí)的加持下，計(jì)算機(jī)視覺(jué)技術(shù)更加強(qiáng)大，AI換臉、視頻合成的效果有時(shí)甚至可以達(dá)到以假亂真的程度。這給一些不良團(tuán)體或個(gè)人炮制虛假、低俗信息提供了便利。在社交媒體發(fā)達(dá)的今天，這些虛假的不良信息能夠輕易被傳播。一些不法分子甚至利用相關(guān)的技術(shù)，仿冒他人身份進(jìn)行電信詐騙。作為一名人工智能技術(shù)的學(xué)習(xí)者，我們?cè)谠鰪?qiáng)自身技術(shù)能力的同時(shí)，也要不斷提升自己的道德操守，拒絕技術(shù)濫用，抵制不良信息。3.3OpenCV基礎(chǔ)圖像處理實(shí)時(shí)視頻處理計(jì)算機(jī)視覺(jué)工具包機(jī)器學(xué)習(xí)深度學(xué)習(xí)圖像和視頻的特征提取圖像分割和輪廓檢測(cè)OpenCVOpenCV（OpenSourceComputerVisionLibrary）是一個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)庫(kù)，旨在提供一套通用的計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)工具。OpenCV支持多個(gè)操作系統(tǒng)，包括Windows、Linux、macOS等，它由一系列高效且優(yōu)化的C/C++函數(shù)組成，同時(shí)提供了Python、Java和其他語(yǔ)言的接口，使得開(kāi)發(fā)者能夠輕松使用這些功能。3.3.1OpenCV的安裝60年代，星際迷航80年代，終結(jié)者21世紀(jì)，人工智能1、pip命令安裝pipinstallopencv-pythonpipinstallopencv-python-i/simple請(qǐng)先確保python已安裝并且配置了pip工具。打開(kāi)一個(gè)終端命令窗口，輸入以下命令：如果安裝時(shí)網(wǎng)絡(luò)異?；蛘甙惭b包拉取速度較慢，可以輸入以下命令：3.3.1OpenCV的安裝21世紀(jì)，人工智能2、conda命令安裝condainstallopencvcondainstall-c/menpoopencv如果您使用anaconda環(huán)境進(jìn)行Python代碼開(kāi)發(fā)，那么可以使用conda命令安裝OpenCV。打開(kāi)anacondaprompt工具的終端界面，輸入以下命令：或者：3.3.1OpenCV的安裝80年代，終結(jié)者3、通過(guò)源代碼構(gòu)建cmakepath/to/opencv/sourcemakeinstall訪問(wèn)OpenCV官方GitHub倉(cāng)庫(kù)下載最新的源代碼壓縮包（源代碼也可以從本書(shū)配套資源獲?。?。將下載的源代碼解壓到您選擇的目錄。在解壓后的目錄中創(chuàng)建一個(gè)新目錄，用于存放構(gòu)建文件。使用CMake配置構(gòu)建。在終端或命令提示符中，導(dǎo)航到構(gòu)建目錄并運(yùn)行以下命令：如果您需要配置額外的選項(xiàng)，可以使用ccmake或cmake-gui打開(kāi)CMake配置界面。運(yùn)行構(gòu)建命令，確保您已經(jīng)安裝了合適的編譯工具（如GCC）。運(yùn)行安裝命令，通常需要管理員權(quán)限。3.3.2OpenCV圖像處理80年代，終結(jié)者importcv2cv2.imreadimshowimwriteresizecvtColorthresholdCannyblurfilter2DfindContoursdrawContoursdilateerode3.3.3OpenCV視頻處理80年代，終結(jié)者cv2.VideoWriterVideoCapture3.4計(jì)算機(jī)視覺(jué)應(yīng)用體驗(yàn)人臉識(shí)別車牌識(shí)別3.4.1基于OpenCV的人臉識(shí)別80年代，終結(jié)者【案例描述】開(kāi)發(fā)一個(gè)人臉識(shí)別項(xiàng)目，能夠用攝像頭實(shí)時(shí)檢測(cè)到人臉，并與人臉庫(kù)中的人臉對(duì)比，判斷當(dāng)前檢測(cè)到的人臉的身份。3.4.2基于百度EasyDL的車牌識(shí)別80年代，終結(jié)者【案例描述】本案例使用EasyDLOCR平臺(tái)，訓(xùn)練一個(gè)車牌識(shí)別模型，訓(xùn)練完成后，調(diào)用模型的接口，輸入一張包含車和車牌的圖片，模型可以自動(dòng)識(shí)別出該車輛的車牌號(hào)。計(jì)算機(jī)視覺(jué)就是一門(mén)研究如何使計(jì)算機(jī)系統(tǒng)具備視覺(jué)感知能力的學(xué)科。圖像分類旨在將輸入的圖像劃分為不同的預(yù)定義類別。目標(biāo)檢測(cè)旨在從圖像或視頻中識(shí)別和定位圖像中的多個(gè)目標(biāo)，并為每個(gè)目標(biāo)分配相應(yīng)的類別標(biāo)簽。軌跡跟蹤的目標(biāo)是在視頻序列中準(zhǔn)確地追蹤目標(biāo)對(duì)象的運(yùn)動(dòng)軌跡。OpenCV是一個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)庫(kù)，使用pipinstallopencv-python命令，可以安裝OpenCV的Python接口。車牌識(shí)別項(xiàng)目的核心任務(wù)是字符識(shí)別，使用EasyDLOCR平臺(tái)可以快速完成模型訓(xùn)練。本章總結(jié)小組練習(xí)主題：使用OCR技術(shù)，完成一個(gè)快遞單關(guān)鍵信息自動(dòng)識(shí)別的項(xiàng)目。要求：識(shí)別代碼可以運(yùn)行，抽2-3組下節(jié)課演示時(shí)間5-10分鐘感謝聆聽(tīng)智能語(yǔ)音技術(shù)及應(yīng)用第4章

4.1智能語(yǔ)音技術(shù)簡(jiǎn)介智能語(yǔ)音技術(shù)是實(shí)現(xiàn)人機(jī)語(yǔ)言通信的一種技術(shù)，包括語(yǔ)音識(shí)別和語(yǔ)音合成。語(yǔ)音識(shí)別技術(shù)是將聲音轉(zhuǎn)化成文字的一種技術(shù)，也被稱為自動(dòng)語(yǔ)音識(shí)別（AutomaticSpeechRecognition，ASR）。語(yǔ)音合成（TexttoSpeech,TTS）技術(shù)讓計(jì)算機(jī)像人類一樣說(shuō)話，將文本序列轉(zhuǎn)換為語(yǔ)音信號(hào)的技術(shù)。

4.2.1語(yǔ)音識(shí)別技術(shù)分類以說(shuō)話方式為標(biāo)準(zhǔn)，分為孤立詞語(yǔ)音識(shí)別、連接字語(yǔ)音識(shí)別、連續(xù)語(yǔ)音識(shí)別三類。根據(jù)對(duì)特定說(shuō)話人的依賴程度，分為特定說(shuō)話人語(yǔ)音識(shí)別、非

特定說(shuō)話人語(yǔ)音識(shí)別兩類。根據(jù)模型所使用的詞匯量大小，語(yǔ)音識(shí)別可分為有限詞匯語(yǔ)音識(shí)別和無(wú)限詞匯量語(yǔ)音識(shí)別兩類。

4.2.2語(yǔ)音識(shí)別發(fā)展歷程第一階段，起步階段，以識(shí)別孤立詞的發(fā)音為主要研究?jī)?nèi)容。第二階段，快速發(fā)展期，語(yǔ)音識(shí)別系統(tǒng)的功能從簡(jiǎn)單的特定人識(shí)別發(fā)展到非特定人的識(shí)別，從小詞匯量孤立詞識(shí)別發(fā)展到大詞匯量連續(xù)詞識(shí)別，識(shí)別準(zhǔn)確率顯著提升，性能日趨走向成熟。第三階段，成熟及廣泛應(yīng)用階段。伴隨著大數(shù)據(jù)時(shí)代的到來(lái)以及深度學(xué)習(xí)的快速發(fā)展，大詞匯語(yǔ)音識(shí)別的性能快速發(fā)展。IBM的Shoebox系統(tǒng)

4.2.3語(yǔ)音識(shí)別系統(tǒng)構(gòu)成（1）左邊自上而下代表語(yǔ)音的生成過(guò)程，右邊自下而上顯示了語(yǔ)音的識(shí)別過(guò)程。說(shuō)話人和收聽(tīng)人的溝通要基于共同的詞匯語(yǔ)義庫(kù)和語(yǔ)音發(fā)音規(guī)則，而語(yǔ)音識(shí)別等效為將語(yǔ)義的相關(guān)信息從語(yǔ)音信號(hào)中“解調(diào)”的過(guò)程。語(yǔ)音通信流程

4.2.3語(yǔ)音識(shí)別系統(tǒng)構(gòu)成（2）語(yǔ)音系統(tǒng)的層次模型

4.2.3語(yǔ)音識(shí)別系統(tǒng)構(gòu)成（3）語(yǔ)音識(shí)別系統(tǒng)框圖

4.2.3語(yǔ)音識(shí)別預(yù)處理技術(shù)采樣和濾波

自然采集的語(yǔ)音信號(hào)往往存在多種噪聲和干擾信號(hào)，會(huì)影響識(shí)別的結(jié)果，所以在語(yǔ)音識(shí)別的開(kāi)始階段必須進(jìn)行濾波。分幀和加窗

語(yǔ)音信號(hào)的研究過(guò)程中，往往是建立在“短時(shí)”分析的基礎(chǔ)上，即把語(yǔ)音信號(hào)分成很小的時(shí)間段(一般為10~30ms)，每一小段稱為一幀，把語(yǔ)音信號(hào)分成若干幀的過(guò)程就稱為分幀。梅爾圖譜聲譜圖可以更直觀地不同聲音事件的能量的時(shí)頻域分布明顯不同，所以可以通過(guò)聲譜圖特征進(jìn)行語(yǔ)音識(shí)別。

4.2.5語(yǔ)音識(shí)別方法隱馬爾科夫模型BP神經(jīng)網(wǎng)絡(luò)BRNN模型

4.3.1語(yǔ)音合成技術(shù)分類根據(jù)聲音產(chǎn)生的不同層次，可以分為：從文本序列轉(zhuǎn)換到語(yǔ)音、從概念轉(zhuǎn)換到語(yǔ)音、從意向轉(zhuǎn)換到語(yǔ)音三類。以數(shù)字信號(hào)處理的方法不同，可成分為基于規(guī)則、基于數(shù)據(jù)、基于統(tǒng)計(jì)、基于深度學(xué)習(xí)的方法。

4.3.2語(yǔ)音合成發(fā)展歷程語(yǔ)音合成技術(shù)的研究已有兩百多年的歷史，但真正具有實(shí)用意義的近代語(yǔ)音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來(lái)的，主要是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語(yǔ)音。谷歌公司于2017年提出的Tacotron模型

4.3.3語(yǔ)音合成系統(tǒng)構(gòu)成傳統(tǒng)的語(yǔ)音合成系統(tǒng)由文本分析和波形生成兩大模塊組成，也稱為前端模塊和后端模塊。語(yǔ)音合成系統(tǒng)框圖

4.3.4語(yǔ)音合成方法波形拼接的語(yǔ)音合成方法

4.4智能語(yǔ)音編程案例pyttsx3是一個(gè)Python文本到語(yǔ)音轉(zhuǎn)換庫(kù)，它可以將文字轉(zhuǎn)換為語(yǔ)音并播放出來(lái)。它支持多種平臺(tái)和多種合成引擎。pyttsx3庫(kù)簡(jiǎn)單易用，是小白的好選擇。通過(guò)調(diào)用此庫(kù)，很容易就可以讓程序”開(kāi)口說(shuō)話”。本案例是使用ppttsx3庫(kù)實(shí)現(xiàn)以下功能：播報(bào)指定文本，并輸出語(yǔ)速和音量；調(diào)整語(yǔ)速和語(yǔ)音，完成趣味問(wèn)答。第五章

自然語(yǔ)言處理與AIGC本章目標(biāo)了解自然語(yǔ)言處理的基本概念和典型應(yīng)用

了解AIGC的定義和關(guān)鍵技術(shù)熟悉AIGC的典型應(yīng)用熟悉國(guó)內(nèi)外主流AI大模型了解AIGC倫理與安全問(wèn)題能使用提示詞工程技巧進(jìn)行創(chuàng)作5.1自然語(yǔ)言處理簡(jiǎn)介自然語(yǔ)言處理被譽(yù)為“人工智能技術(shù)皇冠上的明珠”，一方面表明了它的重要性，另一方面也顯現(xiàn)出了它的技術(shù)難度。自然語(yǔ)言處理就是讓計(jì)算機(jī)理解人類語(yǔ)言，并進(jìn)行相應(yīng)的分析。我們所熟知的蘋(píng)果Siri、微軟小冰，就是自然語(yǔ)言處理的典型的應(yīng)用，他們不僅能夠理解我們所說(shuō)的話，還能夠針對(duì)性地做出反饋。5.1.1自然語(yǔ)言處理定義

自然語(yǔ)言處理（NaturalLanguageProcessing，NLP）研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法，讓計(jì)算機(jī)能夠理解、處理和生成自然語(yǔ)言，使計(jì)算機(jī)具有類似人類的語(yǔ)言交互和文本理解能力。它是計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)等學(xué)科交叉的前沿領(lǐng)域。NLP與前面章節(jié)學(xué)習(xí)的語(yǔ)音識(shí)別、語(yǔ)音合成都是人工智能中與語(yǔ)音相關(guān)的重要領(lǐng)域，目標(biāo)都是讓計(jì)算機(jī)能夠理解并以與人類幾乎無(wú)異的方式生成語(yǔ)言。5.1.2自然語(yǔ)言處理發(fā)展

自然語(yǔ)言處理發(fā)展到現(xiàn)在，主要經(jīng)歷了三個(gè)階段：

第一階段是基于規(guī)則的方法，由于其過(guò)度依賴人力，發(fā)展緩慢。第二階段是基于統(tǒng)計(jì)的方法，放棄讓機(jī)器模仿人類智能的思路，這一階段在自然語(yǔ)言處理領(lǐng)域的很多任務(wù)上都有不小的突破。第三個(gè)階段則是基于深度學(xué)習(xí)的方法，受益于越來(lái)越強(qiáng)大的圖形處理器（GPU）的應(yīng)用以及互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng)，深度學(xué)習(xí)方法迅速席卷了自然語(yǔ)言處理領(lǐng)域，并持續(xù)高速發(fā)展。5.1.3自然語(yǔ)言處理基本任務(wù)

自然語(yǔ)言處理要解決的是人類和機(jī)器的溝通障礙，那它就需要達(dá)成兩個(gè)目標(biāo)：其一，讓計(jì)算機(jī)聽(tīng)得懂“人話”——即NLU自然語(yǔ)言理解，讓計(jì)算機(jī)具備人類的語(yǔ)言理解能力；其二，讓計(jì)算機(jī)能夠“講人話”——即NLG自然語(yǔ)言生成，讓計(jì)算機(jī)能夠生成人類理解的語(yǔ)言和文本，比如文章、報(bào)告、圖表等等。5.1.3自然語(yǔ)言處理基本任務(wù)把人類的文本拆解來(lái)看，可以理解為詞、句、關(guān)系的組合，要讓機(jī)器理解人類語(yǔ)言和文本，首先要讓機(jī)器對(duì)文本進(jìn)行拆解分析。自然語(yǔ)言處理基本任務(wù)包括：1.詞法分析2.自動(dòng)分詞3.文本組塊分析4.句法及語(yǔ)義結(jié)構(gòu)分析5.語(yǔ)義分析5.1.4自然語(yǔ)言處理流程邏輯與實(shí)現(xiàn)方法自然語(yǔ)言處理的流程邏輯通常包括以下幾個(gè)步驟：1.數(shù)據(jù)收集和預(yù)處理：獲取和清洗原始語(yǔ)言數(shù)據(jù)，包括文本、語(yǔ)料庫(kù)或語(yǔ)音數(shù)據(jù)；2.分詞和詞法分析：將原始文本數(shù)據(jù)轉(zhuǎn)換為適合模型輸入的格式，如分詞、去除停用詞、詞干提取等。3.特征提?。簩⑽谋巨D(zhuǎn)換為計(jì)算機(jī)可以處理的向量形式，如詞向量表示、句子向量表示等。常用的特征提取方法包括詞袋模型、TF-IDF、詞嵌入等。4.模型訓(xùn)練：利用訓(xùn)練數(shù)據(jù)集，采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法訓(xùn)練自然語(yǔ)言處理模型。5.模型評(píng)估：使用驗(yàn)證數(shù)據(jù)集評(píng)估模型的性能，如準(zhǔn)確率、召回率、F1值等指標(biāo)。6.模型應(yīng)用：將訓(xùn)練好的模型應(yīng)用于實(shí)際問(wèn)題，如文本分類、情感分析、機(jī)器翻譯等任務(wù)。5.1.4自然語(yǔ)言處理流程邏輯與實(shí)現(xiàn)方法

在實(shí)現(xiàn)自然語(yǔ)言處理時(shí)，首先需要考慮數(shù)據(jù)集的選擇和預(yù)處理。數(shù)據(jù)集的選擇和質(zhì)量對(duì)于自然語(yǔ)言處理的效果有著很大的影響，因此需要選擇合適的數(shù)據(jù)集，并進(jìn)行數(shù)據(jù)清洗和預(yù)處理。其次還需要采用一些自然語(yǔ)言處理工具和技術(shù)。常用的自然語(yǔ)言處理工具包括NLTK、spaCy、StanfordCoreNLP等。這些工具包提供了很多自然語(yǔ)言處理的功能，如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、句法分析等。最后，還需要選擇合適的算法和模型。常用的算法包括樸素貝葉斯、支持向量機(jī)、決策樹(shù)、隨機(jī)森林等。同時(shí)，深度學(xué)習(xí)也成為自然語(yǔ)言處理中的主流技術(shù)，常用的模型包括卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RecurrentNeuralNetwork，RNN）和Transformer等。5.1.5自然語(yǔ)言處理應(yīng)用領(lǐng)域

當(dāng)NLP技術(shù)對(duì)文本的處理應(yīng)用綜合在一起，就能幫助解決人們?cè)诠ぷ骱蜕顖?chǎng)景中的實(shí)際問(wèn)題，現(xiàn)階段主要的應(yīng)用領(lǐng)域包括：機(jī)器翻譯文本摘要問(wèn)答系統(tǒng)文本分類等。5.2AIGC簡(jiǎn)介2022年11月，OpenAI推出大語(yǔ)言模型ChatGPT，掀起了生成式人工智能的熱潮。短短4天時(shí)間，其用戶量到達(dá)百萬(wàn)級(jí)，注冊(cè)用戶之多導(dǎo)致服務(wù)器一度爆滿。ChatGPT的功能是如此強(qiáng)大，以此連馬斯克都認(rèn)為“我們離強(qiáng)大到危險(xiǎn)的AI不遠(yuǎn)了”。生成式人工智能AIGC（ArtificialIntelligenceGeneratedContent）是人工智能1.0時(shí)代進(jìn)入2.0時(shí)代的重要標(biāo)志。奧爾特曼做客蓋茨節(jié)目奧爾特曼被譽(yù)為“ChatGPT之父”。5.2.1AIGC的定義

生成式人工智能（AIGC），全稱ArtificialIntelligenceGeneratedContent，是一種人工智能技術(shù)，用于自動(dòng)生成內(nèi)容，該內(nèi)容在很大程度上類似于通過(guò)訓(xùn)練數(shù)據(jù)學(xué)到的內(nèi)容分布。與傳統(tǒng)的人工智能主要關(guān)注數(shù)據(jù)模式的識(shí)別和預(yù)測(cè)不同，AIGC專注于創(chuàng)造新的、富有創(chuàng)意的數(shù)據(jù)。其核心原理在于通過(guò)學(xué)習(xí)和理解數(shù)據(jù)分布，進(jìn)而生成具有相似特征的新數(shù)據(jù)。5.2.2AIGC的奧秘AIGC的關(guān)鍵技術(shù)生成算法的不斷創(chuàng)新使得AI能夠生成多種類型的內(nèi)容，如文本、代碼、圖像、語(yǔ)音、視頻等。預(yù)訓(xùn)練模型，即大型模型，極大地提高了AIGC技術(shù)的通用性和工業(yè)化水平。多模態(tài)技術(shù)使AIGC模型能夠融合處理多種數(shù)據(jù)類型，將文本轉(zhuǎn)化為圖像、視頻等，從而進(jìn)一步增強(qiáng)了AIGC模型的通用性。AIGC的迅速發(fā)展得益于三個(gè)關(guān)鍵領(lǐng)域的人工智能技術(shù)：5.2.2AIGC的奧秘

大語(yǔ)言模型大型語(yǔ)言模型（LargeLanguageModels，LLMs），是一種基于機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的模型，它通過(guò)對(duì)大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練，來(lái)學(xué)習(xí)服務(wù)人類語(yǔ)言理解和生成的能力。LLM的核心思想是通過(guò)大規(guī)模的無(wú)監(jiān)督訓(xùn)練來(lái)學(xué)習(xí)自然語(yǔ)言的模式和語(yǔ)言結(jié)構(gòu)，這在一定程度上能夠模擬人類的語(yǔ)言認(rèn)知和生成過(guò)程。與傳統(tǒng)的自然語(yǔ)言處理模型（NLP模型）相比，LLM能夠更好地理解和生成自然文本，同時(shí)還能夠表現(xiàn)出一定的邏輯思維和推理能力。5.2.2AIGC的奧秘

提示詞工程提示詞（prompt）是指在人工智能場(chǎng)景下給模型的一個(gè)初始輸入或提示，用于引導(dǎo)模型生成特定的輸出。提示詞工程（PromptEngineering，PE）是一種人工智能技術(shù)，它通過(guò)設(shè)計(jì)和改進(jìn)AI的prompt來(lái)提高AI的表現(xiàn)。PE的目標(biāo)是創(chuàng)建高度有效和可控的AI系統(tǒng)，使其能夠準(zhǔn)確、可靠地執(zhí)行特定任務(wù)。5.2.3AIGC產(chǎn)業(yè)生態(tài)體系5.2.4AIGC典型應(yīng)用現(xiàn)階段國(guó)內(nèi)AIGC多以單模型應(yīng)用的形式出現(xiàn)，主要分為文本生成、圖像生成、視頻生成、音頻生成，其中文本生成成為其他內(nèi)容生成的基礎(chǔ)。5.2.4AIGC典型應(yīng)用文本生成人工智能文本生成是使用人工智能(AI)算法和模型文本生成(AITextGeneration)來(lái)生成模仿人類書(shū)寫(xiě)內(nèi)容的文本。它涉及在現(xiàn)有文本的大型數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)模型，以生成在風(fēng)格、語(yǔ)氣和內(nèi)容上與輸入數(shù)據(jù)相似的新文本。

文本生成5.2.4AIGC典型應(yīng)用圖像生成(AlImageGeneration)，人工智能(Al)可用于生成非人類藝術(shù)家作品的圖像。這種類型的圖像被稱為“人工智能生成的圖像”。人工智能圖像可以是現(xiàn)實(shí)的或抽象的，也可以傳達(dá)特定的主題或信息。

圖像生成這里區(qū)別于搜索（搜索是別人傳上來(lái)，檢索圖片，這里是咒語(yǔ)生成，即使相同咒語(yǔ)生成的也不一樣，是獨(dú)一無(wú)二的）文生圖圖生圖5.2.4AIGC典型應(yīng)用語(yǔ)音生成(AIAudioGeneration)，AIGC的音頻生成技術(shù)可以分為兩類，分別是文本到語(yǔ)音合成和語(yǔ)音克隆。

語(yǔ)音生成5.2.4AIGC典型應(yīng)用視頻生成(AIVideoGeneration)，AIGC已被用于視頻剪輯處理以生成預(yù)告片和宣傳視頻。工作流程類似于圖像生成，視頻的每一幀都在幀級(jí)別進(jìn)行處理，然后利用AI算法檢測(cè)視頻片段。AIGC生成引人入勝且高效的宣傳視頻的能力是通過(guò)結(jié)合不同的AI算法實(shí)現(xiàn)的。憑借其先進(jìn)的功能和日益普及，AIGC可能會(huì)繼續(xù)革新視頻內(nèi)容的創(chuàng)建和營(yíng)銷方式。

視頻生成Meta公司在2022年9月推出的Make-A-Video，網(wǎng)頁(yè)地址：https://makeavideo.studio一只穿著紅色斗篷超級(jí)英雄服裝的狗，在天空中飛翔。5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場(chǎng)景5.2.4AIGC典型應(yīng)用行業(yè)及應(yīng)用場(chǎng)景5.3國(guó)內(nèi)外主流AI大模型5.3.1OpenAI的GPT大模型ChatGPT（全名：ChatGenerativePre-trainedTransformer），美國(guó)OpenAI研發(fā)的聊天機(jī)器人程序，于2022年11月30日發(fā)布。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具，它能夠通過(guò)理解和學(xué)習(xí)人類的語(yǔ)言來(lái)進(jìn)行對(duì)話，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真正像人類一樣來(lái)聊天交流，甚至能完成撰寫(xiě)郵件、視頻腳本、文案、翻譯、代碼，寫(xiě)論文等任務(wù)。GPT大模型主要產(chǎn)品包括GPT-1、GPT-2、GPT-3和GPT-4。這些產(chǎn)品都是OpenAI公司研發(fā)的大型預(yù)訓(xùn)練語(yǔ)言模型，被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。GPT-1和GPT-2主要用于文本生成和對(duì)話系統(tǒng)，而GPT-3和GPT-4則可以應(yīng)用于更加廣泛的領(lǐng)域，包括醫(yī)療、金融、法律等。5.3.2百度的文心大模型百度文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè)，是產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型。文心大模型的一大特色是“知識(shí)增強(qiáng)”，即引入知識(shí)圖譜，將數(shù)據(jù)與知識(shí)融合，提升了學(xué)習(xí)效率及可解釋性。文心ERNIE自2019年誕生至今，在語(yǔ)言理解、文本生成、跨模態(tài)語(yǔ)義理解等領(lǐng)域取得多項(xiàng)技術(shù)突破文心一言（英文名：ERNIEBot）是百度全新一代知識(shí)增強(qiáng)大語(yǔ)言模型，文心大模型家族的新成員，能夠與人對(duì)話互動(dòng)、回答問(wèn)題、協(xié)助創(chuàng)作，高效便捷地幫助人們獲取信息、知識(shí)和靈感。文心一言從數(shù)萬(wàn)億數(shù)據(jù)和數(shù)千億知識(shí)中融合學(xué)習(xí)，得到預(yù)訓(xùn)練大模型，在此基礎(chǔ)上采用有監(jiān)督精調(diào)、人類反饋強(qiáng)化學(xué)習(xí)、提示等技術(shù)，具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)優(yōu)勢(shì)。5.3.3科大訊飛的訊飛星?認(rèn)知大模型科?訊?的星?是新一代認(rèn)知智能大模型，擁有跨領(lǐng)域知識(shí)和語(yǔ)言理解能力，能夠基于自然對(duì)話方式理解與執(zhí)行任務(wù)。5.3.4阿?云的通義大模型阿里通義大模型是阿里云推出的一個(gè)超大規(guī)模的語(yǔ)言模型，功能包括多輪對(duì)話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語(yǔ)言支持。能夠跟人類進(jìn)行多輪的交互，也融入了多模態(tài)的知識(shí)理解，且有文案

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能技術(shù)導(dǎo)論課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工智能技術(shù)導(dǎo)論 課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

人工智能技術(shù)導(dǎo)論課件03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用、04 智能語(yǔ)音技術(shù)及應(yīng)用、05 自然語(yǔ)言處理與AIGC