




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能數(shù)據(jù)標注羅堅劉帥代建華主編專項職業(yè)能力教材電子工業(yè)出版社CONTENTS項目一
認識數(shù)據(jù)標注項目三語音標注項目二圖像標注項目四文本標注項目一認識數(shù)據(jù)標注概述本書按照整體項目、任務設計和完成過程展開,主要包括:圖像標注、語音標注和文本標注三大項目,每一個項目里面由若干個任務構成。為了能夠順利地完成各項標注任務,本書以“必需、夠用”為目標,在講解操作任務之前,安排了相關的輔助任務。本書內容關系,如圖所示。數(shù)據(jù)標注的知識和原則數(shù)據(jù)標注的定義數(shù)據(jù)標注是借助標注軟件,對人工智能學習數(shù)據(jù)進行加工和運用的行為。數(shù)據(jù)標注工程師和人工智能產(chǎn)品訓練師都需要收集數(shù)據(jù)用來形成知識庫,進而完成數(shù)據(jù)標注。根據(jù)標注對象的不同,標注的分類也不相同,一般可分為圖像標注、語音標注和文本標注。典型的圖像標注,如圖所示。圖(a)為人物原圖,圖(b)為標注后的圖像。(a)人物原圖(b)標注后的圖像數(shù)據(jù)標注的知識和原則圖像標注隨著科技的進步,圖像作為信息傳播的重要媒介,在智能監(jiān)測、智能搜索引擎、無人駕駛、醫(yī)學影像分析、航天、遙感等多個領域得到了廣泛的研究,并在社會和經(jīng)濟生活中承擔著越來越重要的角色。人們不斷深入研究圖像,促進了計算機視覺的發(fā)展。圖像的基本概念如下。(1)像素。圖像可以用矩陣來表示,矩陣中的一個元素代表圖像空間中的一個點,稱為像素(Pixel)。像素的大小與圖像的分辨率有關,分辨率越高,圖像就越清晰。(2)分辨率。分辨率是衡量圖像細節(jié)表現(xiàn)力的技術參數(shù)。分辨率分為顯示分辨率、圖像分辨率和輸出分辨率三種。通常所說的圖像大小指的是圖像的顯示分辨率的大小。比如1K圖像的分辨率為1920×1080,2K圖像的分辨率為2048×1080,4K圖像的分辨率為4096×2160。圖像的分辨率越大,需要的存儲空間也越大。(3)像素坐標系。像素坐標系u-v中,左上角的原點O對應坐標為(0,0),橫坐標u和縱坐標v分別是圖像所在的行和列。在視覺處理庫OpenCV中,u坐標對應x坐標,v坐標對應y坐標。像素坐標系所示。(4)灰度圖像?;叶葓D像是對彩色圖像進行灰度化處理后的圖像。由于很多模型對圖像顏色的依賴性不高,通??梢韵葘Σ噬珗D像進行灰度化預處理用來去除彩色信息。這不僅能提高圖像處理的魯棒性,還可以提高圖像處理的速度。灰度圖像的每個像素信息是由一個量化的灰度級來描述的,沒有彩色信息;而彩色圖像(如RGB圖像)中的每個像素信息則是由RGB三原色構成的,分別通過三個不同的灰度級來描述。灰度圖像。(5)二值圖像。二值圖像的數(shù)據(jù)足夠簡單,只有兩個值。二值圖像的每個像素只能是黑或白,沒有中間的灰度級過渡,像素值為0或255。二值化就是將彩色圖像變成二值圖像的過程。最常用的二值化處理,就是選取一個閾值,大于它的像素值就視為白色,小于它的像素值就視為黑色。二值圖像。數(shù)據(jù)標注的知識和原則圖像標注隨著科技的進步,圖像作為信息傳播的重要媒介,在智能監(jiān)測、智能搜索引擎、無人駕駛、醫(yī)學影像分析、航天、遙感等多個領域得到了廣泛的研究,并在社會和經(jīng)濟生活中承擔著越來越重要的角色。人們不斷深入研究圖像,促進了計算機視覺的發(fā)展。圖像的基本概念如下。(6)色彩空間。不同的色彩空間采用不同的顏色表示方式,最常用的色彩空間是RGB色彩空間,除此之外還有HSV色彩空間、YUV色彩空間等。色度學理論認為,任何顏色均可由紅、綠、藍三種基本顏色混合得到。圖像也可用紅、綠、藍三原色來表示。例如,RGB色彩空間中的R表示Red(紅色),G表示Green(綠色),B表示Blue(藍色)。這三種顏色以不同的量進行疊加,就可以顯示出所有顏色。RGB顏色疊加,如圖1-6所示。HSV色彩空間則是由Hue(色調)、Saturation(飽和度)、Value(明度)組成。YUV色彩空間是由一個Y(亮度)和兩個UV(色度)決定的。(7)感興趣區(qū)域。在圖像處理的過程中,人們可能會對圖像中的某個特定區(qū)域感興趣,也只對該區(qū)域進行操作。例如,對于過道里安裝的監(jiān)控系統(tǒng),其中的相機是固定安裝的,感興趣區(qū)域就選取行走區(qū)域。另外,感興趣區(qū)域可以是任意形狀的,如四邊形或其他任意多邊形。(8)圖像保存格式。圖像的常用格式包括:BMP、JPEG、GIF和PNG。其中,BMP格式為圖像的非壓縮格式。數(shù)據(jù)標注的知識和原則圖像標注的知識圖像標注是利用視覺傳感器采集到的圖像,通過專門的標注軟件轉換成相應的語言描述,本質上類似于“看圖說話”的過程。隨著計算機視覺技術和卷積深度學習網(wǎng)絡的發(fā)展,圖像標注的需求與日俱增。一個好的模型,往往需要使用大量準確的標注數(shù)據(jù)進行訓練,如自動駕駛中的車道識別、行人識別,智能安防中的人臉識別、步態(tài)識別、行為識別等??磮D說話對于小朋友來說很容易掌握,但對于機器而言卻是一個很大的挑戰(zhàn)。機器無法像人一樣的思考,但是可以通過大量標注數(shù)據(jù)對它進行訓練和學習,使它具有最簡單的智能。例如,圖像標注就是完成圖像信息到文本信息的“翻譯”工作。圖像標注的類型,主要有以下幾種。01分類標注02標框標注03區(qū)域標注04描點標注05其他標注數(shù)據(jù)標注的知識和原則語音和文本標注語音標注是將聲音數(shù)據(jù)轉換成文字信息的過程。例如,百度云語音、微信語音、智能音響、語音交互兒童玩具,以及智能客服機器人等,都是語音識別的典型應用。想要準確的完成語音識別,需要使用大量的人工標注數(shù)據(jù)對模型進行訓練。因此,能否準確地將聲音數(shù)據(jù)標注轉換成對應的文字內容,對模型來說非常關鍵。語音標注的應用也比較廣泛,比如:語音識別說話人、語音識別說話內容、語音判定性別、語音確定說話人數(shù)量、語音分析情感狀態(tài)等。語音標注,如圖所示。數(shù)據(jù)標注的知識和原則語音和文本標注文本標注(1)文字和文本的表示。文本是由若干文字和字符所構成的,字符主要有3種編碼,內碼、字形碼和輸入碼。內碼是一個字符在計算機中保存時的代碼,可以理解為內部編碼,是用來稱呼字符的編碼。字形碼是將字符在顯示器或打印機等設備上展現(xiàn)出其形狀的編碼。輸入碼是指通過鍵盤輸入字符時,將按鍵轉換為某個字符的編碼。(2)ASCII碼。ASCII碼是美國標準信息交換碼。它采用7位二進制編碼,可表示128種字符,包括10個數(shù)字0~9、52個大小寫英文字母、32個控制字符,其他為專用字符。如“A”的ASCII碼為1000001或41H。(3)國標碼。國家標準中規(guī)定,用兩個字節(jié)共16位二進制表示1個漢字。國標碼共有漢字6763個,其中一級漢字為最常用的漢字,按漢語拼音字母順序排列,共3755個;二級漢字為次常用漢字,按筆畫順序排列,共3008個;數(shù)字、字母、符號等共682個。國標碼合計共7445個。由于國標碼不能直接存儲在計算機內,為了方便計算機處理和存儲漢字,又區(qū)別于ASCII碼,將國標碼中每個字節(jié)的最高位設為1,這樣就形成了在計算機內部用來進行存儲、運算的漢字編碼,叫機內碼或漢字內碼,簡稱內碼。(4)文本標注。文本標注是將文字、符號、公式等在內的文本內容進行標注,讓計算機能夠讀懂、分析、識別和展現(xiàn)文本的內容,從而應用于社會生產(chǎn)和生活中的各個領域。比如,通過購物評價來總結大家認可的產(chǎn)品標簽,通過文本描述來分析情感,通過不同國家之間的文本轉換來實現(xiàn)翻譯,以及分析識別文本內容中的詞性等。文本標注,如圖所示。數(shù)據(jù)標注的知識和原則數(shù)據(jù)標注的基本原則在進行數(shù)據(jù)標注時,必須要堅持質量為上的原則。如果僅僅追求標注的數(shù)量而不顧標注的質量,即使數(shù)量再多,也沒有效果。保證標注質量的方式如下。1)標注標準的確定制定標準是保證數(shù)據(jù)質量的關鍵一步。一般可以設置標注樣例、模板,如顏色的標準比色卡。對于模棱兩可的數(shù)據(jù),應設置統(tǒng)一的處理方式。參照的標準有時候還要考慮專業(yè)情況。以文本情感分析為例,“裂痕”一詞,在心理學專業(yè)中,可能是個負面詞,而在工業(yè)產(chǎn)品探傷專業(yè)則是一個中性詞。2)標注軟件和平臺的選擇對于標注軟件和平臺的選擇。可以開發(fā)一個專門用于數(shù)據(jù)標注的可視化軟件,同時也可以使用開源軟件或線上的專業(yè)平臺,如京東眾智平臺、百度數(shù)據(jù)眾包平臺等。3)質量和速度同樣重要做標注時應強調,指標不能定得太高,如果定得太高,團隊都為了完成數(shù)量任務,自然會忽略了質量,必然需要大量返工。4)專人做素材審核可以找專門的人做素材審核,主要負責素材標注后的驗證,包括類型是否出錯,位置、大小是否合適等。這可以幫助團隊提升效率。常用標注軟件常用的圖像標注軟件有Labelme、LabelBox、RectLabel、COCO-UI。常用的語音標注軟件有Praat。常用的文本標注軟件有Doccano。Labelme軟件的界面和菜單Praat軟件的主界面項目二圖像標注命令提示符的基礎操作CMD是Command的縮寫,即命令提示符。中文版的Windows操作系統(tǒng)中的命令提示符進一步提高了DOS操作命令的兼容性,用戶可以在命令提示符中直接輸入中文調用文件。命令提示符是Windows操作系統(tǒng)中重要的軟件。在遠程管理的過程中,使用命令提示符,只需要傳遞少量的數(shù)據(jù)就可以實現(xiàn)對機器的操作。圖形界面需要傳輸大量的圖形數(shù)據(jù),很可能出現(xiàn)延遲、鏈接不穩(wěn)定等情況,沒有使用命令提示符的效率高。綜上,使用命令提示符是一種高效的手段。搭建標注平臺要用到一些“CMD”命令,了解基本的“CMD”命令將有助于提高平臺搭建、庫文件安裝和管理等工作的效率。任務目標①掌握如何打開命令提示符。②了解Windows操作系統(tǒng)中常用的“CMD”命令。Anaconda軟件的安裝和使用圖2-8Anaconda軟件集成的科學包示例圖2-9AnacondaNavigator主界面Anaconda軟件的介紹Anaconda軟件包含了Conda、Python等180多個包及其依賴項。Anaconda軟件集成的科學包示例,如圖2-8所示。因為包含了大量的包,Anaconda軟件的安裝包較大,如果只需要某些特定的包,可以使用Miniconda軟件這個較小的發(fā)行版本(僅包含Conda包和Python包)。Conda是Anaconda軟件中的包管理工具,用于在同一臺機器上安裝不同版本的軟件包及其依賴,并能夠在不同的虛擬環(huán)境之間進行切換。Anaconda軟件擁有可視化的程序安裝和管理功能,相比單獨安裝Python軟件,可以省去了很多相關配置的操作。AnacondaNavigator主界面,如圖2-9所示。Anaconda軟件的安裝和使用Python軟件的介紹Python是一款用于科學計算和數(shù)據(jù)分析方面的重要軟件,能夠很快捷地實現(xiàn)各種人工智能技術,也是許多開源標注軟件的重要平臺。Python軟件的介紹,如圖所示。Labelme軟件的安裝1.任務描述Labelme軟件在使用前需要配置虛擬環(huán)境并進行安裝,安裝后通過相關命令啟動該軟件。2.任務目標①使用Conda包管理工具創(chuàng)建Labelme虛擬環(huán)境。②在Labelme虛擬環(huán)境下安裝Labelme軟件。Labelme軟件命令和常用圖像數(shù)據(jù)集1.任務描述Labelme軟件能夠進行多種形式的圖像標注,同時它可以使用自帶的各種命令,如加載指定標注文件夾、指定標簽、生成JSON文件等。同時,了解常用圖像數(shù)據(jù)集,有利于后續(xù)將標定的圖像轉換成對應的公共數(shù)據(jù)集格式。2.任務目標①學習常用的Labelme命令。②了解常用的公共圖像數(shù)據(jù)集。圖像分類標注作為計算機視覺領域的基礎性任務,圖像分類是目標檢測、語義分割的重要支撐,其目標是將不同的圖像劃分到不同的類別,并實現(xiàn)最小的分類誤差。經(jīng)過近幾十年的研究,圖像分類已經(jīng)成功地應用至社會生活的方方面面。如今,在生活中隨處可見智能手機相冊自動分類、自動垃圾分選、智能汽車交通標注分類等?,F(xiàn)階段的圖像分類任務在很大程度上是靠監(jiān)督學習來實現(xiàn)的,即每個樣本都有其對應的標簽,通過深度神經(jīng)網(wǎng)絡或其他人工智能學習模型來不斷學習每個標簽所對應的特征,并最終實現(xiàn)分類。在這種情況下,數(shù)據(jù)集的容量、標簽的質量往往對模型的性能起著決定性的作用,想要得到高質量的數(shù)據(jù)集自然會帶來標注的困難。因此,對于標注人員也會有更高的要求。在這種情況下,如何使用專業(yè)的標注軟件,在減少標簽信息同時保證標注精度,成為了數(shù)據(jù)標注進一步研究的目標。不同類型花的分類任務目標①學習如何使用Labelme軟件導入指定的標簽文件。②掌握使用Labelme軟件進行單標簽圖像標注的方法。③掌握使用Labelme軟件進行多標簽圖像標注的方法。目標檢測標注目標檢測標注是指通過人工標注出圖像中感興趣的目標,如圖像中的人、汽車、卡車等。一張圖像上可以有不同的目標,同一類目標也可以有多個,通常使用矩形進行標注。圖像的目標檢測標注主要是針對二維圖像進行的,需要人工在指定圖像中標注感興趣的目標信息,包括目標的位置、大小、類型等,一般用采用“l(fā)eft”標簽、“top”標簽、“width”標簽、“height”標簽、“class”標簽來表示。模型訓練的過程就是將上述素材數(shù)據(jù)傳遞給深度神經(jīng)網(wǎng)絡或其他機器學習模型,進行反復訓練優(yōu)化,最后篩選出效果比較好的學習模型,在完成學習模型后,就可以進行推理應用了。不同算法模型最終得出的結果也基本一樣。對于給定的二維輸入圖像,輸出該圖像中檢測到的目標信息,包括目標坐標、目標類型以及目標可信度。進行目標檢測標注時,需要人工標注出目標的大小和位置并給出目標的類型,模型訓練時會根據(jù)標注的信息來調整模型參數(shù)。正常情況下,矩形的大小、位置應該合適,剛好能將目標包圍住。如果矩形太大或者太小,甚至位置偏移了,都會影響學習模型對矩形中真實內容的判斷。語義分割標注語義分割就是對圖像中的每個對象打上標簽,如把圖像中的人、樹木、草地、天空和動物等都打上對應的標簽。語義分割標注和目標檢測標注的區(qū)別主要在于:目標檢測標注一般采用矩形,只要目標在矩形里就可以,而語義分割標注需要將物體的輪廓完整標注出來,標注精度遠高于目標檢測標注?,F(xiàn)實情況中,需要對目標進行檢測和標記,并精確到像素級,這在精確目標識別和目標行為理解等領域變得越來越重要。例如:智能駕駛的場景檢測、行人的行為分析等,它們都需要對周圍環(huán)境有著精確的理解,這就需要語義分割標注。語義分割作為計算機視覺中的典型任務,可以將視覺輸入中的不同部分按照語義分到不同類別中。例如,如果想提取圖中所有關于“人物”的像素,就可以把人物的顏色涂成特定的顏色。人物語義分割。語義分割讓我們對圖像的理解比圖像分類和目標物體檢測更詳細。這種對細節(jié)的理解在很多領域都非常重要,包括自動駕駛、智能機器人和圖像搜索引擎等。人工智能浪潮席卷而來,很多人都關注與機器人的語音交互,但未來的機器人和人類一樣,同樣需要使用眼睛來識別主人和寵物。舉個簡單例子,假如掃地機器人能夠繞開丟在地上的臭襪子而清理旁邊的紙屑,智能音箱能自動識別孩子的表情和心情,這一定能為生活增加不少的樂趣。圖像的語義分割標注是人工智能領域中一個重要的分支,是機器視覺技術中的重要一環(huán)。在當前,圖像的語義分割標注需要大量人工來完成高質量的標注工作。實例分割標注實例分割標注是目標檢測和語義分割的結合,即在圖像中先將目標檢測出來(目標檢測),然后對每個目標打上對應標簽(語義分割)。在語義分割標注中,不區(qū)分屬于相同類別的不同目標(所有目標都標為相同顏色),實例分割標注則需要區(qū)分同類的不同實例(使用不同顏色來區(qū)分不同的人)。圖像標注已經(jīng)從粗推理發(fā)展到細推理,并且隨著計算能力和研究能力的提高,這種演變已經(jīng)發(fā)展到實例分割,并將繼續(xù)下去。實例分割標注的圖像則是提供給模型訓練時使用的,要求模型能自動從圖像中用目標檢測的方法框選出不同的實例,再用語義分割的方法在不同實例區(qū)域內進行逐像素的標記。正常情況下,語義分割不區(qū)分屬于相同類別的不同實例。例如,當圖像中有兩個人物時,語義分割會將人物整體的所有像素預測為“人物”類別。與此不同的是,實例分割標注需要區(qū)分出哪些區(qū)域屬于第1個人、哪些區(qū)域屬于第2個人,進而可以使用不同顏色將他們的像素標記出來。實例分割標注可以幫助智能系統(tǒng)更好地理解各種交互場景,如餐廳機器人給客人送咖啡能自動區(qū)別不同的顧客,家居看護機器人能自動識別哪個是小孩,哪個是大人,或者有多個小孩在一起玩時,哪個是自己家的小孩。標簽可視化圖像,如圖所示。全景分割標注全景分割標注是語義分割標注和實例分割標注的結合,既要檢測所有目標,又要區(qū)分類別中的不同實例。實例分割只對圖像中的目標進行檢測和按像素分割,區(qū)分不同實例(使用不同顏色),而全景分割是對圖中的所有物體包括背景都要進行檢測和分割。在計算機視覺中,語義分割的任務是預測每個像素點的語義類別;實例分割的任務是預測每個實例物體包含的像素區(qū)域。全景分割(PanopticSegmentation)最先由FAIR與德國海德堡大學聯(lián)合提出,其任務是為圖像中每個像素點賦予類別Label和實例ID,生成全局的、統(tǒng)一的分割圖像。全景分割標注是語義分割標注和實例分割標注的結合,對圖像中所有物體和背景都要進行檢測和分割。也就是不僅要對感興趣的目標區(qū)域進行分割,而且也要對背景區(qū)域進行分割。背景區(qū)域的分割屬于語義分割標注,而物體的分割根據(jù)實際應用,可以是語義分割標注,也可以屬于實例分割標注。與語義分割標注相比,全景分割標注的困難在于要區(qū)分不同類別的實例。與實例分割標注相比,由于全景分割標注要求每個像素只能有1個類別和1個標注標簽,因此不能出現(xiàn)實例分割標注中的重疊現(xiàn)象。全景分割標注,如圖所示。視頻標注1.任務描述視頻標注是對視頻中物體進行分割和標注,一般步驟如下。將視頻轉換成一幀一幀連續(xù)的視頻圖像,按時間順序保存在同一目錄下。在此基礎上,對第1幀視頻圖像進行分割。這種分割方法的特點是可以利用視頻中前后幀目標輪廓的相似性來進行分割,通過保留前一幀視頻圖像的分割信息來達到減少工作量的目的。2.任務目標①學習如何使用Labelme軟件導入指定的標簽文件。②掌握使用Labelme軟件進行視頻標注的方法。車道線和交通標志標注車道線標注是對圖像中的車道線進行標注,而交通標志標注則是對圖像中的各種交通標志進行標注。汽車在自動駕駛過程中,需要通過攝像頭和各種傳感器來檢測和識別各種車道線和交通標志,來控制自身行駛在正確的車道內,同時輔助各種駕駛決策。為了提高車道線的檢測效果,往往需要使用大量標注好的車道線圖像和交通標志圖像對模型進行訓練。因此,標注車道線和交通標志具有重要意義和實用價值。無人駕駛是以機器學習為主的一門前沿領域,而車道線和交通標志的檢測是無人駕駛的重要基礎。車道線按照道路交通標線的功能劃分為:指示標線、警告標線和禁止標線。車道線按標線方法可分為:白色虛線、白色實線、黃色虛線、黃色實線、雙白虛線、雙白實線、雙黃虛線和雙黃實線等。車道線按作用又可分為:車行道中心線、車道分界線、停止線、減速讓行線、人行橫道線、導流線、導向箭頭和左轉彎導線等。交通標志是用文字或符號傳遞引導、限制、警告或指示信息的道路設施。在交通標志中,一般是以安全、設置醒目、清晰、明亮的交通標志來實施交通管理的,保證道路交通安全、順暢。交通標志有多種類型,主要分為主標志和輔助標志兩大類。相機是目前無人駕駛中應用和研究最廣泛的傳感器?;趫D像的物體檢測和識別技術已經(jīng)相當成熟。近幾年,基于深度學習的視覺感知算法甚至超過了人類水平。無人駕駛車上一般會安裝多個相機,兼顧不同的視角和任務。無人駕駛汽車,如圖所示。人體骨骼關節(jié)點標注人體骨骼關節(jié)點標注對于描述人體姿態(tài)和預測人體行為至關重要。因此,人體骨骼關節(jié)點標注是各種計算機和機器視覺任務的重要基礎。常見的人體骨骼關節(jié)點標注的應用包括行為識別、運動分類、異常人體檢測、手語識別等。人體骨骼關節(jié)點標注是計算機視覺中一個相對基礎的任務,是人體動作識別、行為分析、人機交互和運動姿態(tài)跟蹤等的前置任務。一般情況下可以將人體骨骼關節(jié)點標注細分為單個人或多個人的人體骨骼關節(jié)點標注、2D或3D人體骨骼關節(jié)點標注。3D人體姿態(tài),如圖所示。由于人體具有柔性,可以表現(xiàn)出現(xiàn)各種姿態(tài),人體任何一個部位的微小變化都會產(chǎn)生一種新的姿態(tài)。因此,對人體骨骼關節(jié)點的觀察受人物的穿著、姿態(tài)、視角等影響,而且還面臨著遮擋、光照、霧等環(huán)境的影響。除此之外,2D人體骨骼關節(jié)點和3D人體骨骼關節(jié)點在視覺上會有明顯的差異,身體不同部位都會有視覺上縮短的效果,使得人體骨骼關節(jié)點檢測成為計算機視覺領域中一個極具挑戰(zhàn)性的課題。而對于人體骨骼關節(jié)點模型而言,同樣是需要大量、高質量的人體骨骼圖像進行訓練,因此人體骨骼關節(jié)點的標注具有重要應用價值。Labelme批量命令和可視化1.任務描述Labelme批量命令指的是批量生成dataset數(shù)據(jù)集。Labelme可視化指的是對于標注好的圖像,可以通過“Labelme_draw_json”命令生成可視化JSON文件。2.任務目標①學習如何使用Labelme軟件批量生成dataset數(shù)據(jù)文件。②掌握Labelme可視化的方法。項目三語音標注Praat軟件的安裝1.任務描述Praat是一款跨平臺的多功能語音標注軟件,與現(xiàn)有許多語音標注軟件不同,它是開源的軟件,在遵循開源協(xié)議基礎上供大家免費學習和使用。Praat軟件主要用于對數(shù)字化的語音信號進行分析、標注、處理及合成。本任務主要學習如何下載和安裝該軟件。2.任務目標①了解Praat軟件的下載過程。②掌握Praat軟件的安裝方法。Praat軟件的使用1.任務描述本任務主要介紹Praat軟件的界面、菜單及使用方法。使用Praat軟件來實現(xiàn)單人和多人的語音標注。2.任務目標①了解Praat軟件的界面。②掌握使用Praat軟件進行語音標注的方法。單個說話人的語音標注1.任務描述本任務主要是使用Praat軟件對單個說話人的語音進行標注,單個說話人的語音標注相比多個說話人的語音標注要簡單。我們先使用文本轉語音軟件,將特定文本轉換成語音聲音,再使用Praat軟件對聲音進行標注。2.任務目標①了解Praat軟件使用界面。②掌握使用Praat軟件進行單個說話人的語音標注的方法。多個說話人的語音標注1.任務描述本任務使用Praat軟件實現(xiàn)對多個說話人的語音進行標注,即語音文件里面包含至少兩個說話人。因此,不僅要標注說話人的語音內容,同時也要區(qū)分這段話是屬于哪位說話人的。2.任務目標①了解Praat軟件的界面。②掌握使用Praat軟件進行多個說話人語音標注的方法。項目四文本標注Doccano軟件的安裝1.任務描述Doccano是一款開源文本標注軟件。它提供了文本分類、序列標注、序列到序列和語音到文本的標注功能。因此,使用該軟件可以為情緒分析、命名實體識別、文本摘要等創(chuàng)建標記數(shù)據(jù)。只需創(chuàng)建項目并上傳數(shù)據(jù)就可開始標注。本任務主要講解如何安裝和啟動Doccano軟件。2.任務目標①了解Doccano軟件的下載過程。②掌握Doccano軟件的安裝方法。實體文本標注1.任務描述本任務主要講解如何進行實體文本標注。通過創(chuàng)建項目、上傳文本、定義標簽、即可開始標注工作,完成后便可以下載實體文本標注結果。讓機器或者模型能夠從一句話中識別出人名、地名等,這就是命名實體識別,而人名、地名等這些被識別的目標就是命名實體。命名實體識別(NamedEntityRecognition,NER)又稱為“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。通常包括兩部分:實體邊界識別和確定實體類別。命名實體識別通常是知識挖掘、信息抽取的第1步,被廣泛應用在自然語言處理領域。無論是傳統(tǒng)的機器學習還是深度學習,大多數(shù)應用場景都是監(jiān)督學習,也就是需要大量標注好的數(shù)據(jù)作為訓練樣本。如果希望機器能識別出人名、地名,就必須教會機器在一句話中,什么是人名,什么是地名。當然只看一句話是遠遠不夠的,一般來說,至少也要上千句話才可以。這些句子都是需要人工來標注的,而標注出這些句子中命名實體的過程,稱為“實體文本標注”。2.任務目標①了解Doccano軟件的登錄和使用。②掌握使用Doccano軟件進行實體文本標注的方法。情感分析標注1.任務描述本任務主要講解如何進行情感分析標注。通過創(chuàng)建項目,上傳需要標注的文本,定義情感標簽,即可開始標注工作,完成后可以下載情感分析標注的結果。情感分析是自然語言處理中常用的方法,對于指導產(chǎn)品更新具有重要作用,如淘寶、天貓和京東平臺的商品評價等。通過情感分析,可以挖掘產(chǎn)品在各個維度的優(yōu)劣,從而明確如何改進產(chǎn)品。如分析外賣評價,可以分析菜品口味、送達時間、送餐態(tài)度、菜品豐富度等多個維度的用戶情感指數(shù),進而從各個維度上改進外賣服務。情感分析可以采用基于情感詞典的方法,也可以采用基于深度學習的方法。基于情感詞典的方法,是先對文本進行預處理,再利用構建好的情感詞典,對文本進行字符串匹配,從而挖掘正面和負面信息。在情感分類領域,同樣可以采用深度學習的方法,基于深度學習的情感分類,具有精度高、通用性強、不需要情感詞典等優(yōu)點。但無論哪種方法,都需要大量高質量的素材對模型進行訓練,從而得到一個準確、通用和穩(wěn)定的模型,以便應用在各種場景中。總之,情感分析標注對理解用戶意圖具有決定性的作用?;谠~典的方法和基于深度學習的方法都可以進行情感分析。2.任務目標①了解Doccano軟件的登錄和使用。②掌握使用Doccano軟件進行情感分析標注的方法。詞性標注1.任務描述詞性指以詞的特點作為劃分詞類的根據(jù)。詞類是一個語言學術語,是一種語言中詞的語法分類,是以語法特征為主要依據(jù)、兼顧詞匯意義對詞進行劃分的結果。詞性標注也被稱為語法標注,是語料庫語言學中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文本處理技術,即根據(jù)句子的上下文信息給句中的每個詞確定一個最為合適的詞性標記,如名詞、動詞、助詞、量詞、形容詞等。如何使用Doccano軟件對文本進行詞性標注是本節(jié)主要的任務。詞性標注(Part-of-Speechtagging或POStagging),又稱詞類標注或者簡稱標注,是指為分詞結果中的每個單詞標注一個正確的詞性,也即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。所謂分詞,它在中文里指的是將一個漢字序列切分成單獨的詞,本質是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。它是其他信息處理的基礎,在搜索引擎、機器翻譯、語音合成、自動分類、自動摘要、自動校對等方面,都需要用到分詞。在漢語中,分詞后的詞性標注相對簡單,因為在漢語詞匯中詞性多變的情況比較少見,大多詞語只有一個詞性,或者出現(xiàn)頻次最高的詞性遠遠高于第2位的詞性。一般只需選取最高頻詞性,往往就可實現(xiàn)較為準確的中文詞性標注。詞性標注在文本分析和語音分析中都具有重要意義。例如,通過詞性序列來標注人名的方法。在人名識別“我”“愛”“萬”“胡”“冬”中,愛、胡、冬都是姓,會有多個識別結果,那么我們如何消除歧義并選擇一個最合理的結果呢?例如,從多個識別結果中選擇一個最佳的結果[我,愛萬胡/nr,冬]、[我,愛,萬胡冬/nr]、[我,愛,萬,胡冬/nr]。詞性標注(1)開始處理:[我,愛萬胡/nr,冬]忽略已經(jīng)標注過的詞:愛萬胡/nr詞序列:[我/r,愛萬胡/nr,冬/l]的詞性序列:rnl長度的負值也作為分值:-3評分結果:-3(2)開始處理:[我,愛,萬胡冬/nr]忽略已經(jīng)標注過的詞:萬胡冬/nr詞序列:[我/r,愛/v,萬胡冬/nr]的詞性序列:rvnvn詞序增加分值:1長度的負值也作為分值:-3評分結果:-2(3)開始處理:[我/r,愛/v,萬,胡冬/nr]忽略已經(jīng)標注過的詞:愛/v忽略已經(jīng)標注過的詞:我/r忽略已經(jīng)標注過的詞:胡冬/nr詞序列:[我/r,愛/v,萬/nr,胡冬/nr]的詞性序列:rvnnvn詞序增加分值:1長度的負值也作為分值:-4評分結果:-3最后計算機選擇結果:[我/r,愛/v,楊尚川/nr]。詞性標注通過上面的例子,我們可以看到,詞性的識別具有很重要的應用價值。一般來說,對于一篇文章、一段文字,人工智能系統(tǒng)對它進行分析的過程從分句、分詞開始,之后就是詞性分析了。只有完成詞性分析,才能進一步做專有名詞或短語分析、句子成分分析、分句從句分析、主旨提取、關鍵詞提取等更高級的分析處理??上攵绻~性分析的結果不準確,對于后面各個步驟都會造成極大的困難。2.任務目標①了解Doccano軟件的登錄和使用。②了解詞性標注時使用的標注代碼。③掌握使用Doccano軟件進行詞性標注的方法。翻譯標注1.任務描述本任務主要講解如何進行序列到序列的翻譯標注。通過創(chuàng)建項目,并上傳需要翻譯標注的文本,即可開始翻譯標注工作,完成后便可以下載翻譯標注的結果。機器翻譯是計算語言學的一個分支,也是人工智能領域的一個重要應用,其最早的相關研究可以追溯到20世紀50年代。隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們對語言翻譯的需求與日俱增。機器翻譯,即通過計算機將一種語言的文本翻譯成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年常德科技職業(yè)技術學院單招職業(yè)技能測試題庫及參考答案
- 2025年甘肅衛(wèi)生職業(yè)學院單招職業(yè)適應性測試題庫完整版
- 2025年大慶醫(yī)學高等??茖W校單招職業(yè)適應性考試題庫一套
- 網(wǎng)絡攻擊檢測與防御-第5篇-深度研究
- 資源隔離與性能優(yōu)化-深度研究
- 食品感官評價方法優(yōu)化-深度研究
- 映射質量評估模型-深度研究
- 融合數(shù)據(jù)處理-深度研究
- 垃圾焚燒發(fā)電可行性研究報告
- 藥物合成工藝優(yōu)化-深度研究
- 員工期權合同模板
- 八年級上學期期末復習《全等三角形》單元試卷(含部分解析) 2024-2025學年人教版數(shù)學
- 2024至2030年中國毛巾繡電腦繡花機控制系統(tǒng)行業(yè)投資前景及策略咨詢研究報告
- 2024年重慶市公務員考試《行測》真題及答案解析
- 無人機理論培訓
- 《冠心病病人的護理》課件
- 安裝窗戶護欄安全免責協(xié)議書范文范本
- 《現(xiàn)代家政導論》電子教案 3.2模塊三項目二家庭生活質量認知
- 牧場物語-礦石鎮(zhèn)的伙伴們-完全攻略
- 維修電工題庫(300道)
- 上海市第一至十八屆高一物理基礎知識競賽試題及答案
評論
0/150
提交評論