樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標(biāo)注_第1頁(yè)
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標(biāo)注_第2頁(yè)
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標(biāo)注_第3頁(yè)
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標(biāo)注_第4頁(yè)
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標(biāo)注_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)標(biāo)注新工科建設(shè)之路·數(shù)據(jù)科學(xué)與大數(shù)據(jù)系列樣本數(shù)據(jù)處理第五章01數(shù)據(jù)標(biāo)注簡(jiǎn)介舉個(gè)簡(jiǎn)單的例子,當(dāng)我們給孩子介紹汽車時(shí),把對(duì)應(yīng)的圖片展示在孩子面前,讓他記住汽車是有4個(gè)輪子、有不同的顏色,能在路上行駛的一種交通工具,當(dāng)孩子下次在大街上遇到真正的汽車時(shí),也能認(rèn)識(shí)到這是“汽車”。數(shù)據(jù)標(biāo)注是什么簡(jiǎn)而言之,數(shù)據(jù)標(biāo)注工作就是通過(guò)分類、畫框、標(biāo)注、注釋等方法,對(duì)圖片、語(yǔ)音、文本等數(shù)據(jù)進(jìn)行處理,標(biāo)記對(duì)象的特征,以作為機(jī)器學(xué)習(xí)的基礎(chǔ)素材。由于機(jī)器學(xué)習(xí)需要大量的素材并反復(fù)學(xué)習(xí)來(lái)訓(xùn)練模型和提高精度,同時(shí)無(wú)人駕駛、智慧醫(yī)療、語(yǔ)音交互等各大應(yīng)用場(chǎng)景都需要標(biāo)注數(shù)據(jù)提供素材支持,因此標(biāo)注工程師的崗位應(yīng)運(yùn)而生。目前,在人工智能研究中,語(yǔ)音應(yīng)答交互系統(tǒng)是一個(gè)重要分支,其中聊天機(jī)器人最為熱門,蘋果的Siri、小米的小愛(ài)同學(xué)等應(yīng)用已經(jīng)深入人們的日常生活。語(yǔ)音標(biāo)注自然語(yǔ)言處理是人工智能的一門分支學(xué)科,為了滿足自然語(yǔ)言處理不同層次的需要,對(duì)文本數(shù)據(jù)進(jìn)行標(biāo)注是其中一個(gè)關(guān)鍵的環(huán)節(jié)。文本標(biāo)注數(shù)據(jù)標(biāo)注分類簡(jiǎn)介提到數(shù)據(jù)標(biāo)注,人們最直觀的印象就是圖像標(biāo)注。在人工智能與各行各業(yè)應(yīng)用相結(jié)合的研究過(guò)程中,圖像標(biāo)注扮演著重要的角色。圖像標(biāo)注該步驟提供了很多常規(guī)的字符操作,如大小寫轉(zhuǎn)換,字符填充、移除空白字符等。字段選擇剪切字符串。字符串剪切這3個(gè)步驟通過(guò)使用分隔符來(lái)拆分、合并字段。拆分字段、合并字段和拆分字段成多行Kettle常用的數(shù)據(jù)清洗步驟數(shù)據(jù)標(biāo)注流程簡(jiǎn)介數(shù)據(jù)標(biāo)注的質(zhì)量直接關(guān)系到模型訓(xùn)練的效果,因此數(shù)據(jù)標(biāo)注有一套標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)注流程,以對(duì)圖像、語(yǔ)音、文本等進(jìn)行有序而有效的標(biāo)注。數(shù)據(jù)標(biāo)注流程如圖5-4所示。數(shù)據(jù)采集數(shù)據(jù)采集是整個(gè)數(shù)據(jù)標(biāo)注流程的首要環(huán)節(jié)。目前對(duì)于數(shù)據(jù)標(biāo)注平臺(tái)而言,其數(shù)據(jù)主要來(lái)自提出標(biāo)注需求的人工智能相關(guān)企業(yè)。數(shù)據(jù)清洗獲取數(shù)據(jù)后,并不是所有數(shù)據(jù)都能夠直接使用,有些數(shù)據(jù)是不完整、不一致、有噪聲的臟數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后,才能真正投入問(wèn)題的分析研究中。數(shù)據(jù)標(biāo)注流程簡(jiǎn)介數(shù)據(jù)標(biāo)注數(shù)據(jù)經(jīng)過(guò)清洗后,就進(jìn)入數(shù)據(jù)標(biāo)注的核心環(huán)節(jié)。一般在正式標(biāo)注前,會(huì)進(jìn)行試標(biāo),即由需求方的工程師給出標(biāo)注樣板,并為具體標(biāo)注人員詳細(xì)闡述標(biāo)注需求與標(biāo)注規(guī)則,經(jīng)過(guò)充分討論與溝通,確保最終數(shù)據(jù)輸出的格式和質(zhì)量符合要求。數(shù)據(jù)質(zhì)檢由于數(shù)據(jù)標(biāo)注是人工處理的過(guò)程,所以它并不能保證完全準(zhǔn)確。為了提高輸出數(shù)據(jù)的準(zhǔn)確率,還需要數(shù)據(jù)質(zhì)檢,而最終通過(guò)質(zhì)檢環(huán)節(jié)的數(shù)據(jù)才可以真正投入使用。數(shù)據(jù)標(biāo)注流程簡(jiǎn)介02數(shù)據(jù)標(biāo)注分類圖像標(biāo)注是數(shù)據(jù)標(biāo)注的重要類型之一,也是最廣泛、最普遍的一種數(shù)據(jù)標(biāo)注類型。圖像標(biāo)注問(wèn)題的本質(zhì)是把視覺(jué)轉(zhuǎn)換成語(yǔ)言的問(wèn)題,通俗來(lái)說(shuō),就是“看圖說(shuō)話”。同理,我們希望算法能夠根據(jù)圖像的特征,得出描述其內(nèi)容含義的自然語(yǔ)句和自然語(yǔ)言。這對(duì)于人類來(lái)說(shuō)不算什么,但是對(duì)于計(jì)算機(jī)來(lái)說(shuō),卻是一個(gè)不小的挑戰(zhàn)。因?yàn)閳D像標(biāo)注問(wèn)題需要在圖像信息和文本信息這兩種不同形式的類型之間進(jìn)行“翻譯”。圖像標(biāo)注圖像標(biāo)注的原理:理解圖像標(biāo)注,首先要理解機(jī)器學(xué)習(xí)。圖像標(biāo)注的應(yīng)用領(lǐng)域:如今,圖像標(biāo)注主流的應(yīng)用領(lǐng)域有車輛識(shí)別標(biāo)注、人像識(shí)別標(biāo)注、醫(yī)療影像標(biāo)注、機(jī)械影像標(biāo)注等領(lǐng)域。圖像標(biāo)注在客服行業(yè),文本標(biāo)注主要應(yīng)用于場(chǎng)景識(shí)別和應(yīng)答識(shí)別。客服行業(yè)線上平臺(tái)標(biāo)注和線下表格標(biāo)注是金融行業(yè)文本標(biāo)注主要的標(biāo)注形式。金融行業(yè)在醫(yī)療行業(yè),對(duì)自然語(yǔ)言進(jìn)行標(biāo)記處理,對(duì)專業(yè)度要求比較高,需要資深醫(yī)學(xué)研究者才能進(jìn)行標(biāo)注。醫(yī)療行業(yè)文本標(biāo)注語(yǔ)音標(biāo)注與我們生活的眾多方面都息息相關(guān)。例如,我們使用的聊天軟件可以將語(yǔ)音轉(zhuǎn)換成文字;地圖App上的語(yǔ)音問(wèn)路功能,或者購(gòu)物網(wǎng)站的智能客服,直接對(duì)它說(shuō)出問(wèn)題,智能客服就會(huì)給出對(duì)應(yīng)的回答。這些場(chǎng)景前期都需要大量的標(biāo)注語(yǔ)料,去標(biāo)記這些“說(shuō)出的話”所對(duì)應(yīng)的“文字”,再一點(diǎn)點(diǎn)去修正語(yǔ)音和文字間的誤差。這就是語(yǔ)音標(biāo)注。語(yǔ)音標(biāo)注03數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)數(shù)據(jù)標(biāo)注質(zhì)量的影響機(jī)器學(xué)習(xí)是一種從數(shù)據(jù)中自動(dòng)訓(xùn)練獲得規(guī)律,并利用得到的規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行處理的過(guò)程。要讓機(jī)器學(xué)習(xí)從數(shù)據(jù)中更準(zhǔn)確有效地獲得規(guī)律,就需要數(shù)據(jù)標(biāo)注提供準(zhǔn)確、高質(zhì)量的學(xué)習(xí)素材。雖然機(jī)器學(xué)習(xí)領(lǐng)域在算法上取得了重大突破,由淺層學(xué)習(xí)轉(zhuǎn)變?yōu)樯疃葘W(xué)習(xí),但高質(zhì)量的標(biāo)注數(shù)據(jù)集依然是影響深度學(xué)習(xí)發(fā)展的一個(gè)重要因素。機(jī)器學(xué)習(xí)的訓(xùn)練效果的基礎(chǔ)是高質(zhì)量的數(shù)據(jù)集,如果訓(xùn)練中使用的標(biāo)注數(shù)據(jù)集存在大量噪聲,將會(huì)導(dǎo)致機(jī)器學(xué)習(xí)的訓(xùn)練效果較差,無(wú)法獲得規(guī)律,這樣在訓(xùn)練效果驗(yàn)證時(shí)會(huì)出現(xiàn)與目標(biāo)存在較大偏差,無(wú)法正確識(shí)別的情況。圖像標(biāo)注的質(zhì)量標(biāo)準(zhǔn)對(duì)比人眼所見(jiàn)的圖像而言,計(jì)算機(jī)所見(jiàn)的圖像是一堆數(shù)字。圖像標(biāo)注就是根據(jù)需求將這一堆數(shù)字劃分區(qū)域,讓計(jì)算機(jī)在劃分出來(lái)的區(qū)域中找尋數(shù)字的規(guī)律。語(yǔ)音標(biāo)注的質(zhì)量標(biāo)準(zhǔn)語(yǔ)音標(biāo)注在質(zhì)量檢驗(yàn)時(shí)需要在比較安靜的獨(dú)立環(huán)境中進(jìn)行,在語(yǔ)音標(biāo)注的質(zhì)量檢驗(yàn)中,質(zhì)檢員需要做到眼耳并用,時(shí)刻關(guān)注語(yǔ)音數(shù)據(jù)發(fā)音的時(shí)間軸與標(biāo)注區(qū)域的音標(biāo)是否相符,檢驗(yàn)每個(gè)字的標(biāo)注是否與語(yǔ)音數(shù)據(jù)發(fā)音的時(shí)間軸保持一致。數(shù)據(jù)標(biāo)注的質(zhì)量標(biāo)準(zhǔn)文本標(biāo)注的質(zhì)量標(biāo)準(zhǔn)文本標(biāo)注是一類較為特殊的標(biāo)注,不僅有基礎(chǔ)的標(biāo)框標(biāo)注,還需要根據(jù)不同需求進(jìn)行多音字標(biāo)注、語(yǔ)義標(biāo)注等。多音字標(biāo)注的質(zhì)量標(biāo)準(zhǔn)就是標(biāo)注一個(gè)字的全部讀音,這需要借助字典等專業(yè)性工具進(jìn)行檢驗(yàn)。數(shù)據(jù)標(biāo)注的質(zhì)量標(biāo)準(zhǔn)實(shí)時(shí)檢驗(yàn)是現(xiàn)場(chǎng)檢驗(yàn)和流動(dòng)檢驗(yàn)的一種方式,一般安排在數(shù)據(jù)標(biāo)注任務(wù)進(jìn)行過(guò)程中,從而能夠及時(shí)發(fā)現(xiàn)問(wèn)題并解決問(wèn)題。實(shí)時(shí)檢驗(yàn)全樣檢驗(yàn)是數(shù)據(jù)標(biāo)注任務(wù)完成交付前必不可少的過(guò)程,沒(méi)有經(jīng)過(guò)全樣檢驗(yàn)的數(shù)據(jù)標(biāo)注是無(wú)法交付的。全樣檢驗(yàn)抽樣檢驗(yàn)是產(chǎn)品生產(chǎn)中一種輔助性檢驗(yàn)方法。在數(shù)據(jù)標(biāo)注中,為了保證數(shù)據(jù)標(biāo)注的準(zhǔn)確性,將抽樣檢驗(yàn)方法進(jìn)行疊加,形成多重抽樣檢驗(yàn)方法。抽樣檢驗(yàn)數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)04圖像數(shù)據(jù)標(biāo)志實(shí)戰(zhàn)車輛車牌標(biāo)注1.準(zhǔn)備數(shù)據(jù)源和輸出目錄準(zhǔn)備數(shù)張待標(biāo)注的圖片,圖片中包含能看到車牌的汽車,將圖片放在同一個(gè)目錄下,這里我們將待標(biāo)注的圖片放在/home/ubuntu/dl_pic/plate/source目錄下,如圖5-23所示。車輛車牌標(biāo)注2.打開(kāi)數(shù)據(jù)標(biāo)注平臺(tái)在已經(jīng)安裝Dlabel的Linux環(huán)境中打開(kāi)命令行,輸入“dlabel”并按Enter鍵,打開(kāi)數(shù)據(jù)標(biāo)注平臺(tái),Dlabel主界面如圖5-24所示。車輛車牌標(biāo)注3.在數(shù)據(jù)標(biāo)注平臺(tái)中創(chuàng)建資源鏈接打開(kāi)數(shù)據(jù)標(biāo)注平臺(tái),進(jìn)入鏈接列表頁(yè)面,單擊鏈接列表右側(cè)的加號(hào)按鈕進(jìn)入鏈接設(shè)置,如圖5-25所示。車輛車牌標(biāo)注4.創(chuàng)建標(biāo)注項(xiàng)目在主頁(yè)(見(jiàn)圖5-26)單擊“新建項(xiàng)目”按鈕跳轉(zhuǎn)至項(xiàng)目設(shè)置頁(yè)面。車輛車牌標(biāo)注如圖5-27所示,在項(xiàng)目“名稱”文本框中填寫“車牌標(biāo)注”;設(shè)置“安全令牌”為“創(chuàng)建新的安全令牌”,生成新的安全令牌;設(shè)置“數(shù)據(jù)源鏈接”為先前創(chuàng)建的“車牌”,“輸出目錄鏈接”為先前創(chuàng)建的“輸出目錄(車牌)”。車輛車牌標(biāo)注5.創(chuàng)建標(biāo)簽并標(biāo)注單擊圖5-28右側(cè)標(biāo)簽工具欄中的加號(hào)按鈕,進(jìn)入標(biāo)簽創(chuàng)建模式。車輛車牌標(biāo)注6.配置導(dǎo)出格式并導(dǎo)出標(biāo)注結(jié)果如圖5-31所示,單擊導(dǎo)航欄中的“導(dǎo)出”標(biāo)簽進(jìn)入導(dǎo)出設(shè)置頁(yè)面。遙感影像標(biāo)注準(zhǔn)備待標(biāo)注的衛(wèi)星地形監(jiān)控圖片,這里我們將圖片放在/home/ubuntu/dl_pic/remote/source目錄下,如圖5-34所示。遙感影像標(biāo)注打開(kāi)Dlabel,創(chuàng)建資源鏈接,步驟與上個(gè)例子相同。創(chuàng)建鏈接的配置示例如圖5-35所示。遙感影像標(biāo)注新建一個(gè)項(xiàng)目并進(jìn)行設(shè)置,如圖5-36所示。遙感影像標(biāo)注如圖5-37所示,單擊右側(cè)標(biāo)簽工具欄中的加號(hào)按鈕,進(jìn)入標(biāo)簽創(chuàng)建模式,在彈出的標(biāo)簽輸入框中輸入“農(nóng)作物”后,按Enter鍵確認(rèn)創(chuàng)建標(biāo)簽。完成標(biāo)簽創(chuàng)建后,按Esc鍵退出標(biāo)簽創(chuàng)建。遙感影像標(biāo)注選擇“繪制多邊形區(qū)域”工具,在土地區(qū)域的各個(gè)頂點(diǎn)單擊創(chuàng)建多邊形頂點(diǎn),在最后一個(gè)頂點(diǎn)雙擊生成多邊形標(biāo)注區(qū)域,如圖5-38所示。遙感影像標(biāo)注導(dǎo)出標(biāo)注結(jié)果,導(dǎo)出設(shè)置如圖5-39所示。遙感影像標(biāo)注單擊如圖5-40所示的“導(dǎo)出項(xiàng)目”按鈕,包含標(biāo)注結(jié)果的文件夾將以TensorflowRecords格式保存至/home/ubuntu/dl_pic/remote/target目錄下,如圖5-41所示。在醫(yī)療行業(yè)中,圖像識(shí)別算法可以在智能診療、醫(yī)療影像識(shí)別等方面提供輔助功能。在智能診療方面,可以通過(guò)醫(yī)療影像對(duì)病人的癥狀進(jìn)行初步診斷和分類,進(jìn)行自動(dòng)分診和初步診斷,提高醫(yī)院的運(yùn)行效率,減輕醫(yī)生的工作負(fù)擔(dān);在醫(yī)療影像識(shí)別方面,可以解決優(yōu)秀的醫(yī)療影像專業(yè)醫(yī)生培養(yǎng)周期長(zhǎng)、培養(yǎng)成本高,以及人工讀片時(shí)主觀性和工作狀態(tài)會(huì)一定程度上影響判斷結(jié)論的問(wèn)題。為了在醫(yī)療場(chǎng)景中能準(zhǔn)確地對(duì)圖像信息進(jìn)行識(shí)別和判斷,就需要大量的精準(zhǔn)標(biāo)注數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。醫(yī)療影像標(biāo)注在圖像和視頻中標(biāo)注行人,應(yīng)用于人工智能系統(tǒng)、車輛輔助駕駛系統(tǒng)、智能機(jī)器人、智能視頻監(jiān)控、人體行為分析、智能交通等領(lǐng)域。行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,使得行人檢測(cè)成為計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)既具有研究?jī)r(jià)值同時(shí)又極具挑戰(zhàn)性的熱門課題。行人數(shù)據(jù)標(biāo)注基于行人標(biāo)注數(shù)據(jù)集的行人檢測(cè)1.SSD算法目標(biāo)檢測(cè)的主流算法主要分為兩種類型:two-stage算法和one-stage算法。SSD算法是一種經(jīng)典的one-stage算法,它先通過(guò)RPN網(wǎng)絡(luò)得到候選框,然后進(jìn)行分類與回歸。SSD算法相比其他算法有以下兩大重要改變。2.MobileNetv1MobileNet(這里稱為MobileNetv1,簡(jiǎn)稱v1)中使用的DepthwiseSeparableConvolution是模型壓縮的一個(gè)最為經(jīng)典的策略,它是通過(guò)將跨通道的33卷積換成單通道的33卷積+跨通道的1*1卷積來(lái)達(dá)到此目的的。05文本標(biāo)注實(shí)戰(zhàn)文本標(biāo)注是指將文字、符號(hào)在內(nèi)的文本進(jìn)行標(biāo)注,使其可以被計(jì)算機(jī)識(shí)別和運(yùn)算,從而應(yīng)用于人類的生產(chǎn)生活領(lǐng)域。文本標(biāo)注在我們的生活中有廣泛的應(yīng)用??头?、金融

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論