《數(shù)據(jù)標注工程-概念、方法、工具與案例》教學(xué)課件-05語音數(shù)據(jù)標注_第1頁
《數(shù)據(jù)標注工程-概念、方法、工具與案例》教學(xué)課件-05語音數(shù)據(jù)標注_第2頁
《數(shù)據(jù)標注工程-概念、方法、工具與案例》教學(xué)課件-05語音數(shù)據(jù)標注_第3頁
《數(shù)據(jù)標注工程-概念、方法、工具與案例》教學(xué)課件-05語音數(shù)據(jù)標注_第4頁
《數(shù)據(jù)標注工程-概念、方法、工具與案例》教學(xué)課件-05語音數(shù)據(jù)標注_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人工智能技術(shù)應(yīng)用核心課程系列教材數(shù)據(jù)標注工程——概念、方法、工具與案例人工智能技術(shù)應(yīng)用核心課程系列教材數(shù)據(jù)標注工程1第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.1語音數(shù)據(jù)標注簡介5.3典型開源語音數(shù)據(jù)標注工具5.4語音數(shù)據(jù)標注整體流程5.5多樣化語音數(shù)據(jù)標注項目5.6本章小結(jié)5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用隨著深度學(xué)習(xí)算法的發(fā)展,智能語音處理技術(shù)正在經(jīng)歷革命性的變化,算法、算力、數(shù)據(jù)成為驅(qū)動智能語音處理技術(shù)快速發(fā)展的三大因素。其中,語音數(shù)據(jù)資源是智能語音處理技術(shù)的基石,只有擁有大規(guī)模精準、高質(zhì)量的語音數(shù)據(jù)集,智能語音處理技術(shù)才會有更好的發(fā)展。另一方面,雖然當下的智能語音處理技術(shù)在一些業(yè)務(wù)中有非常好的表現(xiàn),但依然存在效果不太理想的場景,比如重口音、方言、嘈雜環(huán)境、多人同時說話、遠場語音等,這不僅需要進一步提升深度學(xué)習(xí)算法的有效性,還需要設(shè)計、獲取和生產(chǎn)更多豐富場景下的語音數(shù)據(jù)資源。在當今互聯(lián)網(wǎng)時代下,高質(zhì)量的語音數(shù)據(jù)集對于語音產(chǎn)業(yè)的蓬勃發(fā)展起到關(guān)鍵作用,具有重大實用意義。5.1

語音數(shù)據(jù)標注簡介第5章

語音數(shù)據(jù)標注隨著深度學(xué)習(xí)算法的發(fā)展,智能語音處理技術(shù)正在經(jīng)歷革命性的變化(1)近些年來,在人工智能發(fā)展的浪潮下,智能語音處理領(lǐng)域獲得了突破性進展,尤其是在深度學(xué)習(xí)的不斷滲入下,以端到端技術(shù)為代表的各種新算法不斷出現(xiàn)并應(yīng)用在實際業(yè)務(wù)系統(tǒng)中,極大地提升了智能語音處理技術(shù)的效果。(2)機器人電話客服系統(tǒng)、智能手機助手、智能音箱等大規(guī)模應(yīng)用在限定場景下已經(jīng)有比較好的表現(xiàn)。未來的落地場景會越來越多。(3)目前,智能語音處理技術(shù)中熱門研究方向如下圖所示。5.1.1語音數(shù)據(jù)標注相關(guān)背景5.1

語音數(shù)據(jù)標注簡介第5章

語音數(shù)據(jù)標注(1)近些年來,在人工智能發(fā)展的浪潮下,智能語音處理領(lǐng)域獲得(1)認知語音信號:從物理學(xué)角度分析,聲音即是以聲波形式傳播的機械振動,因此,聲音的特征取決于聲波的屬性,日常應(yīng)用中常見的語音聲音特征主要有:①音色/音質(zhì):指能夠區(qū)分兩種不同聲音的基本特征,比如人說話的聲音和小提琴的聲音。在語音信號處理技術(shù)中,人聲識別研究常將音色作為重要研究對象;②音調(diào):指聲音的高低,由聲波的頻率決定。比如在一般情況下,男聲聽起來比較低沉,而女聲聽起來會比較尖銳;③音強:指聲音的強弱,由聲波的振動幅度決定,可簡單理解為語音信號波形圖中的信號幅度;④音長:指聲音的長短,由發(fā)音時間的長短決定。5.1.2語音信號基礎(chǔ)知識5.1

語音數(shù)據(jù)標注簡介第5章

語音數(shù)據(jù)標注(1)認知語音信號:從物理學(xué)角度分析,聲音即是以聲波形式傳播(2)數(shù)字化語音信號:數(shù)字化(也可稱作離散化)語音信號的功能是將人們發(fā)出的語音連續(xù)模擬信號轉(zhuǎn)化為計算機方便處理的離散數(shù)字信號,該過程涉及以下幾個概念,它們都是保存、傳輸語音數(shù)據(jù)的關(guān)鍵選項:①采樣率:指在連續(xù)的語音模擬信號上,每秒鐘采樣的次數(shù),單位為Hz;②量化位數(shù):將采樣得到的語音信號的幅度值轉(zhuǎn)化為一定范圍內(nèi)的數(shù)值,該過程即為量化。量化位數(shù)指計算機存儲轉(zhuǎn)化后數(shù)值的二進制比特數(shù)。③聲音通道數(shù):也稱聲道數(shù),是指輸入或輸出信號的通道數(shù),也就是聲音錄制時的音源數(shù)量或回放時相應(yīng)的揚聲器的數(shù)量。常見的聲道數(shù)有單聲道、雙聲道、立體聲等。④語音編碼格式:指按一定格式壓縮采樣和量化后的數(shù)值,從而降低音頻的數(shù)據(jù)量,便于音頻數(shù)據(jù)的存儲和傳輸。常用的編碼格式有PCM(WAV)、MP3等。5.1.2語音信號基礎(chǔ)知識5.1

語音數(shù)據(jù)標注簡介第5章

語音數(shù)據(jù)標注(2)數(shù)字化語音信號:數(shù)字化(也可稱作離散化)語音信號的功能第5章語音數(shù)據(jù)標注5.1語音數(shù)據(jù)標注簡介人工智能技術(shù)應(yīng)用核心課程系列教材5.2語音數(shù)據(jù)標注概述5.3典型開源語音數(shù)據(jù)標注工具5.4語音數(shù)據(jù)標注整體流程5.5多樣化語音數(shù)據(jù)標注項目5.6本章小結(jié)5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標注5.1語音數(shù)據(jù)標注簡介人工智能技術(shù)應(yīng)用語音數(shù)據(jù)標注任務(wù)具有不同的形式,大致可從以下不同緯度考察它們的特點:(1)按照智能應(yīng)用場景,可劃分為智能家居、智能會議、智能客服、智能車載等;(2)按照語音信號處理研究方向,可劃分為語音識別、語音合成、說話人識別、情感識別、語音分離等;(3)按照音源與拾音器之間的距離,可劃分為近場語音、遠場語音;(4)按照語音時長,可劃分為短語音、長語音;(5)按照難度等級,可劃分為簡單、中等、高難度;(6)按照口音,可劃分為普通話、方言、帶地方口音的普通話等。除此之外,小語種、外語相關(guān)的語音數(shù)據(jù)標注任務(wù)則需要有相應(yīng)專業(yè)背景的專業(yè)人士來完成,這也加大了標注任務(wù)的難度。5.2.1標注任務(wù)分類5.2語音數(shù)據(jù)標注概述第5章

語音數(shù)據(jù)標注語音數(shù)據(jù)標注任務(wù)具有不同的形式,大致可從以下不同緯度考察它們在語音數(shù)據(jù)標注的過程中,需對這些異常數(shù)據(jù)加以鑒別并挑選出來,保證標注數(shù)據(jù)的整潔性。常見的語音異?,F(xiàn)象包括以下幾種:(1)丟幀:在語音錄制過程中,由于音頻設(shè)備的問題而表現(xiàn)出的發(fā)音卡頓,比如語音段中某0.1秒內(nèi)突然沒有聲音,0.1秒過后語音又恢復(fù)正常,此現(xiàn)象稱為“丟幀”;(2)切音:在語音錄制過程中,由于過早結(jié)束或過晚開始錄制導(dǎo)致個別字被截斷而表現(xiàn)出的發(fā)音不完整,此現(xiàn)象稱為“切音”,切音示意圖如下;5.2.2

常見數(shù)據(jù)異常5.2語音數(shù)據(jù)標注概述第5章

語音數(shù)據(jù)標注在語音數(shù)據(jù)標注的過程中,需對這些異常數(shù)據(jù)加以鑒別并挑選出來,(3)吞音:在說話人發(fā)音時,由于個別字的聲母或韻母未完全發(fā)音而表現(xiàn)出的發(fā)音不完整,此現(xiàn)象稱為“吞音”;(4)噴麥:在說話人發(fā)音時,由于距離麥克風太近而表現(xiàn)出的錄入語音不清晰,聽起來有明顯噗噗的聲音,此現(xiàn)象稱為“噴麥”;(5)重音:在說話人發(fā)音時,語音中出現(xiàn)兩個或多個說話人,他們的音量大小相近且有大段重疊,無法分清主次,此現(xiàn)象稱為“重音”;(6)空曠音:在錄制過程中,由于周圍環(huán)境較為空曠而表現(xiàn)出來的發(fā)音中帶有回音,此現(xiàn)象稱為“空曠音”;(7)混響:混響是另一種常見的聲學(xué)場景。與回聲不同,混響是語音經(jīng)多次反射、折射后疊加而成的聲音。通常情況下,上述情況下的異常語音數(shù)據(jù)會被認定為無效語音。5.2.2

常見數(shù)據(jù)異常5.2語音數(shù)據(jù)標注概述第5章

語音數(shù)據(jù)標注(3)吞音:在說話人發(fā)音時,由于個別字的聲母或韻母未完全發(fā)音(1)語音段落截?。簩τ诙喽温涞拈L語音,比如演講語音、會議記錄等,標注人員需要從中截取出多個語音小段,對切開的每個語音小段,進行分開標注。在截取語音段時需注意以下事項:①考慮語義連貫性,以說話人的一整句為單位進行截取。若一整句的時長超過8秒,也可以截取成分句。根據(jù)經(jīng)驗,每個語音小段平均在5-6秒左右;②每個時間邊界的最佳位置應(yīng)在語音波形圖的最低點;③不同說話人的語音分開截取到不同的語音小段;④截取的語音小段前后盡量保留0.2至0.3秒的靜音段,若本身沒有這么長時間的靜音則不強求;⑤盡可能截取沒有突發(fā)噪音的語音段,可以為了避開突發(fā)噪音,而縮短語音前后的預(yù)留靜音時間,但不能出現(xiàn)切音的情況;⑥只有一個字表示應(yīng)答的(如嗯、哦、對),不用單獨分割成獨立語音段;⑦若說話人第一遍讀錯句子,停頓后又重復(fù)朗讀一遍該句子,則只截取朗讀正確的句子即可。5.2.3

基本標注規(guī)范5.2語音數(shù)據(jù)標注概述第5章

語音數(shù)據(jù)標注(1)語音段落截?。簩τ诙喽温涞拈L語音,比如演講語音、會議記(2)有效語音判定:在語音數(shù)據(jù)標注時,不合格的無效語音段必須加以說明和丟棄。判定一段語音為無效語音的情況有:

①該段語音是用規(guī)定之外的語言朗讀的,比如規(guī)定是用印度英語朗讀,而實際卻是用中式英語朗讀的;②整段語音段沒有說話人的語音,只含有噪聲或者靜音(可視為無聲音);③語音段中含有很強的背景噪音,以至于覆蓋掉說話人的聲音;④說話人的聲音極小而導(dǎo)致無法聽清語音內(nèi)容;⑤說話人語速過快而導(dǎo)致發(fā)音不清楚或吞音;⑥說話人發(fā)音時一字一頓,每個停頓時間超過1秒;⑦說話人發(fā)音時語氣夸張,故意怪里怪氣地朗讀;⑧語音段存在切音、吞音、丟幀、噴麥、重音等異常;⑨語音段存在影響語音清晰度的空曠音、混響等異常。5.2.3

基本標注規(guī)范5.2語音數(shù)據(jù)標注概述第5章

語音數(shù)據(jù)標注(2)有效語音判定:在語音數(shù)據(jù)標注時,不合格的無效語音段必須(3)語音內(nèi)容轉(zhuǎn)寫:語音數(shù)據(jù)標注的重中之重即語音內(nèi)容的轉(zhuǎn)寫。語音內(nèi)容轉(zhuǎn)寫的基本原則為“所聽即所寫”,即轉(zhuǎn)寫文本必須與說話人發(fā)音內(nèi)容完全一致。具體規(guī)范包含以下幾個方面:①詞匯:轉(zhuǎn)寫的詞匯必須和聽到的語音完全一致,不能多字、少字、錯字;②感嘆詞:在轉(zhuǎn)寫語音中出現(xiàn)的感嘆詞時應(yīng)使用其標準拼寫格式,如“呃、啊、嗯、哦、唉、吶”等,要按照正確發(fā)音進行轉(zhuǎn)寫;③數(shù)字:所有數(shù)字應(yīng)根據(jù)實際發(fā)音轉(zhuǎn)寫為文本,絕不能寫成阿拉伯數(shù)字;④英文:語音中的英文發(fā)音應(yīng)轉(zhuǎn)寫成相應(yīng)的漢字或英文,根據(jù)不同情況而定;⑤標點符號:陳述句用“?!?,疑問句用“?”,感嘆句用“!”等;⑥其他符號:如果存在除標點符號意外的其他符號,要根據(jù)發(fā)音轉(zhuǎn)寫成對應(yīng)漢字或英文;⑦噪音:有些情況下,除了需要轉(zhuǎn)寫語音內(nèi)容之外,也需要標識語音段中含有的噪音情況,一般有分為四類(NSPT)。5.2.3

基本標注規(guī)范5.2語音數(shù)據(jù)標注概述第5章

語音數(shù)據(jù)標注(3)語音內(nèi)容轉(zhuǎn)寫:語音數(shù)據(jù)標注的重中之重即語音內(nèi)容的轉(zhuǎn)寫。(4)說話人屬性標注:對于語音合成、說話人識別等語音研究而言,說話人信息也是非常重要的特征,因此,有些語音數(shù)據(jù)還需要對說話人的信息加以標識,比如說話人的性別、年齡、口音等。若語音段含有多個說話人的聲音,則需要分別標注所有說話人的以上屬性,并標注說話人身份信息,如記為“speaker1”、“speaker2”等。5.2.3

基本標注規(guī)范5.2語音數(shù)據(jù)標注概述第5章

語音數(shù)據(jù)標注(4)說話人屬性標注:對于語音合成、說話人識別等語音研究而言第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.3典型開源語音數(shù)據(jù)標注工具5.6本章小結(jié)5.4語音數(shù)據(jù)標注整體流程5.5多樣化語音數(shù)據(jù)標注項目5.1語音數(shù)據(jù)標注簡介5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用語音學(xué)軟件Praat,是一款跨平臺的多功能語音學(xué)專業(yè)軟件,主要用于對數(shù)字化的語音信號進行分析、標注、處理及合成等實驗。目前,Praat已經(jīng)成為世界上實驗語音學(xué)、語言學(xué)、語言調(diào)查、語言處理等相關(guān)領(lǐng)域的研究人員普遍使用的軟件。下圖是利用Praat軟件進行語音數(shù)據(jù)標注的界面圖。5.3.1Praat語音學(xué)軟件5.3典型開源語音數(shù)據(jù)標注工具第5章

語音數(shù)據(jù)標注語音學(xué)軟件Praat,是一款跨平臺的多功能語音學(xué)專業(yè)軟件,主本部分以數(shù)據(jù)堂數(shù)加加語音數(shù)據(jù)標注平臺為樣例進行講解。數(shù)加加語音數(shù)據(jù)標注平臺的操作界面圖如下圖所示。5.3.2語音數(shù)據(jù)標注平臺5.3典型開源語音數(shù)據(jù)標注工具第5章

語音數(shù)據(jù)標注本部分以數(shù)據(jù)堂數(shù)加加語音數(shù)據(jù)標注平臺為樣例進行講解。數(shù)加加語在該標注平臺中,執(zhí)行語音數(shù)據(jù)標注任務(wù)的基本框架由8個子模塊組成,它們分別是:(1)語音數(shù)據(jù)展示模塊:如下圖所示,該模塊以時域波形圖的形式刻畫了待標注語音數(shù)據(jù)的能量分布,上方的時間刻度指示著語音段的時間維度。在該模塊,標注人員可以參照時間刻度與語音能量分布選取特定的語音時段,點擊被選波形區(qū)域即可播放該時段的語音。5.3.2語音數(shù)據(jù)標注平臺5.3典型開源語音數(shù)據(jù)標注工具第5章

語音數(shù)據(jù)標注在該標注平臺中,執(zhí)行語音數(shù)據(jù)標注任務(wù)的基本框架由8個子模塊組(2)語音數(shù)據(jù)標注統(tǒng)計模塊:如下圖所示,該模塊不僅顯示了本條語音的總時長信息,而且實時統(tǒng)計并顯示了正在進行中的語音數(shù)據(jù)標注情況,包括標注為有效語音段的總時長、標注為無效語音段的總時長、未標注語音內(nèi)容的總時長。(3)語音播放控制模塊:如下圖所示,該模塊主要包括播放/暫停、快進、快退三大功能選項,除此之外,該模塊還提供了語音播放速度調(diào)控、語音時域波形縮放控制功能。5.3.2語音數(shù)據(jù)標注平臺5.3典型開源語音數(shù)據(jù)標注工具第5章

語音數(shù)據(jù)標注(2)語音數(shù)據(jù)標注統(tǒng)計模塊:如下圖所示,該模塊不僅顯示了本條(4)屬性標注模塊:如下圖所示,該模塊可根據(jù)具體標注任務(wù)的要求設(shè)計待標注屬性及其展示形式,不同任務(wù)可能具有不同的樣式。(5)語音內(nèi)容轉(zhuǎn)寫模塊:如下圖所示,標注人員通過傾聽待標注段落的語音、鑒別說話人的發(fā)音內(nèi)容并按照文本數(shù)據(jù)標注章節(jié)所述語音內(nèi)容轉(zhuǎn)寫規(guī)則書寫出規(guī)范的語音內(nèi)容轉(zhuǎn)寫文本。5.3.2語音數(shù)據(jù)標注平臺5.3典型開源語音數(shù)據(jù)標注工具第5章

語音數(shù)據(jù)標注(4)屬性標注模塊:如下圖所示,該模塊可根據(jù)具體標注任務(wù)的要(6)標注時段檢索模塊:如下圖所示,該模塊可輔助標注人員更為快捷地搜索、定位已標注語音段落,它支持分段式檢索、位置搜索與條件搜索。(7)標注信息綜合模塊:如下圖所示,該模塊用于顯示已標注語音段落的所有內(nèi)容,它綜合了語音段落的時長信息、屬性標注結(jié)果、內(nèi)容轉(zhuǎn)寫結(jié)果等。5.3.2語音數(shù)據(jù)標注平臺5.3典型開源語音數(shù)據(jù)標注工具第5章

語音數(shù)據(jù)標注(6)標注時段檢索模塊:如下圖所示,該模塊可輔助標注人員更為(8)標注進度控制模塊:一般而言,標注人員需要對大批量的語音數(shù)據(jù)進行語音數(shù)據(jù)標注,該模塊即負責數(shù)據(jù)標注的進度控制,如下圖所示。(9)半自動化語音數(shù)據(jù)標注模塊:當標注數(shù)據(jù)量較大時,半自動標注方式可以采用訓(xùn)練好的模型對目標數(shù)據(jù)進行檢測,進而大幅減少標注人員標注量。5.3.2語音數(shù)據(jù)標注平臺5.3典型開源語音數(shù)據(jù)標注工具第5章

語音數(shù)據(jù)標注(8)標注進度控制模塊:一般而言,標注人員需要對大批量的語音第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.4語音數(shù)據(jù)標注整體流程5.3典型開源語音數(shù)據(jù)標注工具5.6本章小結(jié)5.5多樣化語音數(shù)據(jù)標注項目5.1語音數(shù)據(jù)標注簡介5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用本節(jié)以多人自然對話語音數(shù)據(jù)標注項目為例,介紹語音數(shù)據(jù)標注流程。語音識別、語音合成等智能語音處理技術(shù)在單一說話人、發(fā)音規(guī)范、背景噪音良好的情況下已經(jīng)具有較為突出的表現(xiàn),然而,當前阻礙智能語音處理技術(shù)實用化的一大困難即是復(fù)雜條件下性能降低的問題。在實際生活場景中,自然發(fā)音、口音、復(fù)雜噪聲、聲音混疊等現(xiàn)象隨處可見,另一方面,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,數(shù)據(jù)對于訓(xùn)練模型的影響越來越重要,因此,生產(chǎn)復(fù)雜場景下的智能語音數(shù)據(jù)無論對于學(xué)術(shù)研究還是對于企業(yè)開發(fā),均具有重大意義。多人自然對話語音數(shù)據(jù)即是在單一說話人朗讀類數(shù)據(jù)的基礎(chǔ)上增加難度,對應(yīng)于實際生活中的會議、小組討論、聚會等場景,為復(fù)雜場景下的語音識別、說話人識別、性別檢測等智能語音處理技術(shù)的研究提供重要的數(shù)據(jù)支撐。5.4.1項目背景與意義5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注本節(jié)以多人自然對話語音數(shù)據(jù)標注項目為例,介紹語音數(shù)據(jù)標注流程語音數(shù)據(jù)標注是語音數(shù)據(jù)產(chǎn)品生產(chǎn)流程中的一個環(huán)節(jié),總的來說,語音數(shù)據(jù)產(chǎn)品生產(chǎn)包含了從語音采集到數(shù)據(jù)交付的各個環(huán)節(jié),各個環(huán)節(jié)之間相輔相成、緊緊相扣。如下圖所示,語音數(shù)據(jù)產(chǎn)品生產(chǎn)過程具體包括語音采集、數(shù)據(jù)預(yù)處理、語音數(shù)據(jù)標注、數(shù)據(jù)質(zhì)檢與數(shù)據(jù)交付模塊。5.4.2語音項目整體規(guī)程5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注語音數(shù)據(jù)標注是語音數(shù)據(jù)產(chǎn)品生產(chǎn)流程中的一個環(huán)節(jié),總的來說,語(1)語音采集模塊:利用移動互聯(lián)網(wǎng)的發(fā)展,發(fā)揮廣大群眾的智慧,通過個人智能手機對各類人工智能相關(guān)的底層數(shù)據(jù)進行大規(guī)模采集;(2)數(shù)據(jù)預(yù)處理模塊:對采集的數(shù)據(jù)進行嚴格的把關(guān),才能有效提高后續(xù)質(zhì)量。數(shù)據(jù)清洗、信息脫敏是常見的數(shù)據(jù)預(yù)處理方法;(3)語音數(shù)據(jù)標注模塊:多類型、大體量的樣本空間及高質(zhì)量數(shù)據(jù)是人工智能技術(shù)精度的重要保障,語音數(shù)據(jù)標注是語音數(shù)據(jù)產(chǎn)品生產(chǎn)流程中的關(guān)鍵環(huán)節(jié);(4)數(shù)據(jù)質(zhì)檢模塊:在語音采集、語音數(shù)據(jù)標注環(huán)節(jié),根據(jù)嚴格制定的通用質(zhì)檢點的特征來檢查數(shù)據(jù)質(zhì)量的過程即為數(shù)據(jù)質(zhì)檢。(5)數(shù)據(jù)交付模塊:數(shù)據(jù)交付是語音數(shù)據(jù)產(chǎn)品生產(chǎn)的最后一個環(huán)節(jié),在完成語音數(shù)據(jù)的生產(chǎn)后需準備齊全的說明文檔與規(guī)范化的數(shù)據(jù)存儲格式。5.4.2語音項目整體規(guī)程5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注(1)語音采集模塊:利用移動互聯(lián)網(wǎng)的發(fā)展,發(fā)揮廣大群眾的智慧(1)分析待標注語音數(shù)據(jù):經(jīng)過語音采集與數(shù)據(jù)預(yù)處理環(huán)節(jié),已經(jīng)生成大規(guī)模的多人自然對話型語音數(shù)據(jù)。這些待標注語音數(shù)據(jù)為在相對安靜的環(huán)境下、說話人統(tǒng)一采用標準普通話的發(fā)音方式所錄制而成的,語音數(shù)據(jù)為由2至5人組成的小組就某一話題展開的自由對話,圍繞每一話題展開的自然對話的平均時長約為30分鐘左右。語音數(shù)據(jù)的數(shù)據(jù)量、說話人性別分布、年齡分布、地域分布均符合在其應(yīng)用場景下的機器學(xué)習(xí)和模型訓(xùn)練的需要;(2)制定標注說明規(guī)則:根據(jù)項目背景、意義及數(shù)據(jù)應(yīng)用場景,按照該領(lǐng)域的專業(yè)常識,從機器學(xué)習(xí)算法的角度出發(fā),制定滿足機器學(xué)習(xí)模型訓(xùn)練的標注規(guī)則。5.2.3為通用語音數(shù)據(jù)標注規(guī)則,具體項目會有所改動。在本項目中,若語音涉及說話人的手機號、銀行卡號、身份證號、家庭住址等敏感信息,則出現(xiàn)這些具體內(nèi)容的句子判定為無效語音段,并需要記錄錯誤類型為“含敏感信息”。5.4.3語音數(shù)據(jù)標注過程詳情5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注(1)分析待標注語音數(shù)據(jù):經(jīng)過語音采集與數(shù)據(jù)預(yù)處理環(huán)節(jié),已經(jīng)(3)設(shè)計語音數(shù)據(jù)標注平臺:在進行語音數(shù)據(jù)標注前,必須根據(jù)項目特點設(shè)計更易操作、更高效的語音數(shù)據(jù)標注平臺。該任務(wù)中待標注語音數(shù)據(jù)具有說話人眾多、對話內(nèi)容自由、語音時長較長、背景噪音小等特點,這決定了在設(shè)計與之配合的語音數(shù)據(jù)標注平臺時,需考慮更為全面、詳細的標注方式:①在該標注任務(wù)中,語音段落截取是首要的重點工作,需嚴格按照5.2.3規(guī)范(尤其是多人交談可能發(fā)生的語音重疊情形)將長語音截取成多段待標注語音段。②在屬性標注模塊,除了判斷該段語音段是否有效之外,還需對說話人的角色、性別屬性加以標識。③在該任務(wù)中,由于待標注語音數(shù)據(jù)時長較長、數(shù)據(jù)量偏大,考慮借助語音端點檢測算法、語音識別算法、角色識別算法及性別檢測算法預(yù)先對待標注語音進行有效語音段截取、語音預(yù)識別、角色預(yù)判定、性別預(yù)判定,標注人員可根據(jù)預(yù)判定結(jié)果進行準確鑒別與轉(zhuǎn)寫語音內(nèi)容。5.4.3語音數(shù)據(jù)標注過程詳情5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注(3)設(shè)計語音數(shù)據(jù)標注平臺:在進行語音數(shù)據(jù)標注前,必須根據(jù)項(3)設(shè)計語音數(shù)據(jù)標注平臺:配置好的標注平臺界面如圖所示。5.4.3語音數(shù)據(jù)標注過程詳情5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注(3)設(shè)計語音數(shù)據(jù)標注平臺:配置好的標注平臺界面如圖所示。5(4)開展語音數(shù)據(jù)標注任務(wù):在開展語音數(shù)據(jù)標注任務(wù)時,需首先利用語音端點檢測、語音識別、角色識別、性別檢測等模型預(yù)先判定待標注語音數(shù)據(jù)的標注結(jié)果,繼而將待標注語音數(shù)據(jù)及預(yù)標注結(jié)果上傳至半自動標注平臺。在標注前,還需對標注人員進行相關(guān)任務(wù)培訓(xùn),包括標注平臺的使用方法、標注任務(wù)的目的、標注內(nèi)容和標準。(5)標注結(jié)果質(zhì)量檢查:該環(huán)節(jié)的目的在于確保數(shù)據(jù)標注的結(jié)果具有價值,符合應(yīng)用場景。在標注結(jié)果質(zhì)量檢查中,如果根據(jù)通用質(zhì)檢點的特征判斷出語句的一部分出現(xiàn)了以下標注錯誤:錯誤標注,有效錯誤等,則認定這句話為錯誤標注語句。標注準確率的計算公式為:標注準確率=1-(錯誤的標注語句數(shù)/全部標注語句數(shù))一般來說,若對標注結(jié)果的準確率要求比較高,則標注結(jié)果的句正確率應(yīng)該在97%(含)以上。5.4.3語音數(shù)據(jù)標注過程詳情5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注(4)開展語音數(shù)據(jù)標注任務(wù):在開展語音數(shù)據(jù)標注任務(wù)時,需首先(6)標注結(jié)果輸出:語音數(shù)據(jù)標注的結(jié)果包含語音標簽的時間位置和標簽的具體內(nèi)容(例如轉(zhuǎn)寫內(nèi)容、說話人信息、噪聲等)。標注文件的輸出格式為TXT文件或其他通用的輸出格式,其中文件應(yīng)包含詳細的標簽信息,如下圖所示。

在交付數(shù)據(jù)時,完整的交付內(nèi)容包括:原始數(shù)據(jù)、標注結(jié)果、說明文檔、關(guān)于標注數(shù)據(jù)的Metadata(包括描述原始數(shù)據(jù)的元信息)。此外,交付的數(shù)據(jù)最好以規(guī)范的存儲結(jié)構(gòu)保存,如下為多人對話類語音數(shù)據(jù)存儲結(jié)構(gòu):5.4.3語音數(shù)據(jù)標注過程詳情5.4語音數(shù)據(jù)標注整體流程

第5章

語音數(shù)據(jù)標注(6)標注結(jié)果輸出:語音數(shù)據(jù)標注的結(jié)果包含語音標簽的時間位置第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.5多樣化語音數(shù)據(jù)標注項目5.3典型開源語音數(shù)據(jù)標注工具5.4語音數(shù)據(jù)標注整體流程5.6本章小結(jié)5.1語音數(shù)據(jù)標注簡介5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標注5.2語音數(shù)據(jù)標注概述人工智能技術(shù)應(yīng)用(1)智能家居兒童語音標注:智能家居行業(yè)是人工智能在生活服務(wù)領(lǐng)域的重要落地場景,也是我們感知人工智能落地最深的行業(yè)之一。特別地,由于成年人的工作等原因,導(dǎo)致這些智能家居產(chǎn)品更多的是服務(wù)于常在家里的兒童和老人。兒童吐字不清、發(fā)音不流暢等問題是當前影響智能家居語音產(chǎn)品性能的一大問題,因此,大量的智能家居場景下的兒童語音標注數(shù)據(jù)對于提升語音產(chǎn)品性能具有關(guān)鍵作用。(2)智能音箱語音數(shù)據(jù)標注:智能音箱作為音箱的升級產(chǎn)物,是用戶通過語音進行網(wǎng)上各類行為的一個重要工具,比如點播歌曲、上網(wǎng)購物,或是了解天氣預(yù)報,它也可以對智能家居設(shè)備進行控制,極大地方便了用戶的各類操作。而國內(nèi)市場很多小廠商的智能音箱并不“智能”,對于用戶的指令,并不能很好的響應(yīng)。而其中所欠缺的就是對用戶指令的理解,首要的就是用戶語音識別。這也就需要標注人員對大量的真實用戶語音進行加工,轉(zhuǎn)寫為對應(yīng)的文本內(nèi)容,進而不斷訓(xùn)練和優(yōu)化智能音箱的語音識別算法,達到更優(yōu)的識別率。5.5

多樣化語音數(shù)據(jù)標注項目

第5章

語音數(shù)據(jù)標注(1)智能家居兒童語音標注:智能家居行業(yè)是人工智能在生活服務(wù)(3)智能家居語音拼音標注:拼音標注也是語音數(shù)據(jù)標注的一種形式。語音拼音標注的目的是為整個數(shù)據(jù)庫提供準確的、逐字的拼音記錄。拼音記錄的順序與音頻文件的時序一致,音頻信號及其他語音特征用特殊符號標注。語音數(shù)據(jù)標注人員在有參照文本的情況下將聽到的語音文件譯成拼音。每一條音譯結(jié)果包含一組拼音序列及其他特殊標注符號等。(4)演講語音數(shù)據(jù)標注:在實際生活中,與會議記錄、課堂討論等場景不同,有些應(yīng)用場景比如演

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論