數(shù)據(jù)標(biāo)注工作匯報(bào)_第1頁(yè)
數(shù)據(jù)標(biāo)注工作匯報(bào)_第2頁(yè)
數(shù)據(jù)標(biāo)注工作匯報(bào)_第3頁(yè)
數(shù)據(jù)標(biāo)注工作匯報(bào)_第4頁(yè)
數(shù)據(jù)標(biāo)注工作匯報(bào)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)標(biāo)注工作匯報(bào)什么是數(shù)據(jù)標(biāo)注?當(dāng)前,以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能為代表的新一代信息技術(shù)日新月異。人工智能在去年、今年兩度被寫入政府工作報(bào)告。產(chǎn)業(yè)勃興,數(shù)據(jù)標(biāo)注員因此成為新興職業(yè)。多名業(yè)內(nèi)人士告訴記者,目前國(guó)內(nèi)至少有大小近千家標(biāo)注公司,共20余萬(wàn)名數(shù)據(jù)標(biāo)注員。其實(shí)大部分的工作內(nèi)容很簡(jiǎn)單的,就是聽(tīng)聽(tīng)語(yǔ)音然后把提示字幕修改一下,或者看一張圖片,把里面文字也打出來(lái),這是我們做數(shù)據(jù)標(biāo)注常常做的事,只要有電腦,就可以隨時(shí)隨地的去做任務(wù),如果有想深入了解請(qǐng)加微信TYY1999-06-06第2客服錄音數(shù)據(jù)標(biāo)注規(guī)范(完整版)客服錄音數(shù)據(jù)標(biāo)注規(guī)范(完整版)用谷歌瀏覽器(至少32.0以上版本)來(lái)標(biāo)注。其他瀏覽器或低版本谷歌瀏覽器可能出現(xiàn)部分文件播放不了的問(wèn)題。質(zhì)量要求:文字錯(cuò)誤率:3%以內(nèi)注:文字錯(cuò)誤率指語(yǔ)音內(nèi)容標(biāo)注錯(cuò)誤,只要有一個(gè)字錯(cuò),該條語(yǔ)音就算錯(cuò)。其他錯(cuò)誤率:5%以內(nèi)注:綜合錯(cuò)誤率指:除了語(yǔ)音內(nèi)容以外的其他標(biāo)注項(xiàng)錯(cuò)誤,只要有一項(xiàng)錯(cuò),該條語(yǔ)音就算錯(cuò)??头Z(yǔ)音內(nèi)容說(shuō)明:都是鮮百味公司和客戶的電話語(yǔ)音,公司主營(yíng)業(yè)務(wù)是賣海鮮,所以大部分內(nèi)容都是關(guān)于海鮮(如大閘蟹)的購(gòu)買、禮品券、配送等方面。.當(dāng)前語(yǔ)音是否包含有效語(yǔ)音無(wú)效語(yǔ)音(即不包含有效語(yǔ)音)的類型:文件播放不了;音頻全部是靜音或噪音;許多地方聽(tīng)不清或者聽(tīng)不懂,例如,方言太重、噪音太大、音量過(guò)低等。兩個(gè)人同時(shí)說(shuō)話超過(guò)3個(gè)字(包括3個(gè)字)并且聽(tīng)內(nèi)容不清楚的或者噪音聲音蓋住說(shuō)話人聲大于3個(gè)字(包括3個(gè)字)導(dǎo)致內(nèi)容聽(tīng)不清楚的.當(dāng)前語(yǔ)音的噪聲情況如果能聽(tīng)到明顯的噪音(噪音指說(shuō)話人正常說(shuō)話外的其他聲音),則選擇“含噪音”,否則選“安靜”。常見(jiàn)噪音舉例(但不限以下):其他人說(shuō)話聲背景音樂(lè)聲動(dòng)物叫聲汽車滴滴聲咳嗽聲明顯的電流聲.說(shuō)話人數(shù)量(即標(biāo)注的語(yǔ)音內(nèi)容是幾個(gè)人說(shuō)的)一人說(shuō)話(主體說(shuō)話人):只有一個(gè)人說(shuō)話多人說(shuō)話:有多個(gè)人說(shuō)話(因?yàn)槭强头Z(yǔ)音,一般是兩個(gè)人).說(shuō)話人性別如果有多個(gè)人說(shuō)話,則標(biāo)第一個(gè)說(shuō)話人的性別。標(biāo)注項(xiàng):男女.是否包含口音如果有多個(gè)人說(shuō)話,則標(biāo)第一個(gè)說(shuō)話人是否有口音。標(biāo)注項(xiàng):否:無(wú)口音是:有口音有口音是指說(shuō)話人發(fā)音的拼音或聲調(diào)和正確發(fā)音的不一致。常見(jiàn)情形包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻音,平翹舌,以及其他情況。.語(yǔ)音內(nèi)容如果兩個(gè)人同時(shí)說(shuō)話,以主體說(shuō)話人聲音大的為準(zhǔn)來(lái)轉(zhuǎn)寫文字。如果一條語(yǔ)音中,低于3個(gè)字有兩個(gè)人同時(shí)說(shuō)話,并聽(tīng)不清楚的,將聽(tīng)不清的部分用"[d]”表示。如果一條語(yǔ)音中,低于3個(gè)字部分噪音太大,蓋住說(shuō)話人聲音導(dǎo)致聽(tīng)不清的,將聽(tīng)不清的部分用“[n]”表示。文字轉(zhuǎn)寫具體要求:語(yǔ)音內(nèi)容必須和聽(tīng)到的語(yǔ)音完全一致,不能多字、少字、錯(cuò)字。阿拉伯?dāng)?shù)字要寫成漢字形式,如“一二三”,而不是“123”。注意區(qū)分“一”和“幺”。“二”和“兩”語(yǔ)氣詞:音頻中說(shuō)話人清楚地講出的語(yǔ)氣詞,如“呃啊嗯哦唉吶”等,要按照正確發(fā)音進(jìn)行轉(zhuǎn)寫。語(yǔ)氣詞除了“了不”沒(méi)有口字旁,其他基本上都有口字旁。轉(zhuǎn)寫內(nèi)容的完整性要與實(shí)際發(fā)音一致,不得刪減;如發(fā)音為:我是北北京人;“北”字有重復(fù)現(xiàn)象,那轉(zhuǎn)寫的時(shí)候要寫成:我是北,北京人。英文比較復(fù)雜,轉(zhuǎn)寫的原則是:按字母讀的情況(如縮寫詞,網(wǎng)址等)一律大寫,按詞讀的則小寫,例如“APPLE”表示用戶是逐個(gè)字母念的,“apple”表示用戶按單詞念的。明顯的兒化音必須標(biāo)注出來(lái)第3輕松標(biāo)注Excel表格中的無(wú)效數(shù)據(jù)輕松標(biāo)注Excel表格中的無(wú)效數(shù)據(jù)校對(duì)數(shù)據(jù)是我們?cè)谌粘^k公中經(jīng)常要做的工作,對(duì)于含有大量數(shù)據(jù)的表格,如何快速找到無(wú)效的錄入數(shù)據(jù)、提高我們校對(duì)的效率是不少朋友急于想了解的,今天我教大家兩招我出來(lái)的心得,希望對(duì)大家有所啟發(fā)。圖1為單位第一季度的加班統(tǒng)計(jì)表,領(lǐng)導(dǎo)讓會(huì)計(jì)室小卜統(tǒng)計(jì)出來(lái)好計(jì)發(fā)加班費(fèi)以調(diào)動(dòng)職工的積極性,小卜花了一晚上時(shí)間終于把全廠2000多名職工的加工統(tǒng)計(jì)表搞出來(lái)了,實(shí)在累得夠嗆,再也沒(méi)有精力校對(duì)了。他讓我想想辦法能不能把超出范圍的錯(cuò)誤數(shù)據(jù)快速找出來(lái),由于單位規(guī)定,每人每月的加班時(shí)間不得超過(guò)90小時(shí)(出于職工的健康著想),我給他介紹了下面的兩種辦法:圖11.使用條件格式選中表格中的數(shù)據(jù)區(qū)域(從C列到F列),單擊“格式”菜單中的“條件格式”命令,在彈出的“條件格式”的對(duì)話框的“條件1”列表中選擇“公式”,在其右側(cè)的文本框中輸入公式“=or(c190)”(如圖2),單擊“格式”按鈕,此時(shí)彈出“單元格格式”對(duì)話框,切換到“字體”選項(xiàng)卡,將文字“顏色”選擇為“紅色”,完成設(shè)置后依次單擊“確定”按鈕返回到數(shù)據(jù)表格中,瀏覽一下表格,是不是看到超出范圍的數(shù)字已經(jīng)被標(biāo)注了紅顏色,這樣改起來(lái)就方便多了。圖22.利用數(shù)據(jù)有效性圈釋無(wú)效數(shù)據(jù)一般情況下,在錄入數(shù)據(jù)之前設(shè)置數(shù)據(jù)的有效性可避免錄入超出指定范圍的非常規(guī)數(shù)據(jù),但數(shù)據(jù)錄入完成后設(shè)置數(shù)據(jù)的有效性有什么作用呢?通過(guò)下面的介紹大家就會(huì)明白了。選中表格中需要設(shè)置有效性的數(shù)據(jù)區(qū)域,單擊“數(shù)據(jù)”菜單中的“有效性”命令,彈出“數(shù)據(jù)有效性”對(duì)話框,切換到“設(shè)置”選項(xiàng)卡,按圖3所示進(jìn)行相應(yīng)的設(shè)置,單擊“確定”按鈕返回?cái)?shù)據(jù)表中(此時(shí)表格的數(shù)據(jù)中看不到有什么變化)。圖3右擊工具欄打開“公式審核”工具欄,單擊工具欄中的“圈釋無(wú)效數(shù)據(jù)”按鈕,此時(shí)我們會(huì)發(fā)現(xiàn)表格中的無(wú)效數(shù)據(jù)都被清清楚楚地標(biāo)注出來(lái)了(如圖4)。圖4Cico提示:以上兩種方法都可以輕松地標(biāo)注表格中的無(wú)效數(shù)據(jù),這些無(wú)效數(shù)據(jù)只要修改到指定的范圍內(nèi),標(biāo)注就會(huì)同時(shí)被取消,不會(huì)影響數(shù)據(jù)的分析和打印。第4如何運(yùn)營(yíng)一家數(shù)據(jù)標(biāo)注公司資源特點(diǎn)篇如何運(yùn)營(yíng)一家數(shù)據(jù)標(biāo)注公司(資源特點(diǎn)篇)在“基礎(chǔ)架構(gòu)篇”中我們提到的資源,也就是數(shù)據(jù)標(biāo)注公司要面對(duì)的甲方:AI公司、AI企業(yè)、AI研究所。那么問(wèn)題來(lái)了,人工智能公司、人工智能企業(yè)、人工智能研究所多種多樣,作為一個(gè)數(shù)據(jù)標(biāo)注公司應(yīng)該如何定義自己的服務(wù)方向呢?首先我們要能夠準(zhǔn)確的了解資源公司的特點(diǎn),這樣才能更好的為其提供符合自身特點(diǎn)的服務(wù)。目前市場(chǎng)上的AI公司、AI企業(yè)、人1研究所大致分為以下幾種,對(duì)于與數(shù)據(jù)標(biāo)注公司的合作來(lái)說(shuō)他們各有各的優(yōu)勢(shì)和劣勢(shì),這里對(duì)以下突出的幾類進(jìn)行分析:.初創(chuàng)型這里指的初創(chuàng)型公司一般指未進(jìn)行過(guò)階段融資的初次創(chuàng)業(yè)型公司。優(yōu)勢(shì):a)溝通成本低初創(chuàng)型公司的核心創(chuàng)始人一般都是公司的核心技術(shù)人員,所以他們對(duì)數(shù)據(jù)標(biāo)注的結(jié)果有清晰的需求認(rèn)知,能夠清楚嚴(yán)謹(jǐn)?shù)谋硎龀鲂枰獦?biāo)注數(shù)據(jù)的規(guī)則,數(shù)據(jù)標(biāo)注公司與此類資源公司在溝通上比較簡(jiǎn)單,能夠快速的直入主題,迅速建立供需關(guān)系,省去冗長(zhǎng)的上報(bào)、各級(jí)的批復(fù)等溝通環(huán)節(jié)。b)結(jié)算時(shí)間快這類資源公司本身公司架構(gòu)也相對(duì)簡(jiǎn)單,對(duì)于標(biāo)注完成后的結(jié)款時(shí)間相對(duì)也較短。劣勢(shì):a)需求連貫性不強(qiáng)因?yàn)槌鮿?chuàng)型公司很多沒(méi)有穩(wěn)定的甲方,同時(shí)公司在同一時(shí)期對(duì)接的甲方數(shù)量并不是一定的,有可能在某個(gè)月中會(huì)有很多,同樣也可能一個(gè)沒(méi)有。這就導(dǎo)致了在數(shù)據(jù)的需求連貫性上并不是很強(qiáng)。b)標(biāo)注需求量不大在與甲方溝通合作的路上,展示型項(xiàng)目產(chǎn)品并不需要大量數(shù)據(jù)的驗(yàn)證。更多時(shí)候都是以小批量數(shù)據(jù)進(jìn)行產(chǎn)品的小樣展示,因?yàn)槌鮿?chuàng)公司也要考慮項(xiàng)目的成功率和標(biāo)注成本之間的關(guān)系。.企業(yè)型這里指已經(jīng)形成一定規(guī)模的人工智能企業(yè),同時(shí)可能已經(jīng)獲得多輪融資。優(yōu)勢(shì):a)數(shù)據(jù)連貫性強(qiáng)這里指的一定規(guī)模的人工智能企業(yè)可能已經(jīng)是市場(chǎng)上第一梯隊(duì)的領(lǐng)跑者,因?yàn)橛谐墒斓漠a(chǎn)品和合作對(duì)象,其在產(chǎn)品需要進(jìn)行迭代和研發(fā)關(guān)聯(lián)產(chǎn)品時(shí)是需要大量標(biāo)注數(shù)據(jù)作為模型訓(xùn)練的。同時(shí)因?yàn)槠湓跇I(yè)界的影響力,與新的需求商進(jìn)行合作時(shí)的成單率也要遠(yuǎn)高于初創(chuàng)AI公司。b)數(shù)據(jù)價(jià)值高因?yàn)榇笮凸拘枰C合保密、質(zhì)量、工期等多方面因素,同時(shí)因?yàn)橐呀?jīng)與需求公司建立了正式的合作關(guān)系,此類型的AI公司在提供的數(shù)據(jù)標(biāo)注單價(jià)上是要略高于初創(chuàng)型企業(yè)。劣勢(shì):a)結(jié)算周期長(zhǎng)因?yàn)榇祟惞镜慕Y(jié)構(gòu)相對(duì)復(fù)雜,同時(shí)結(jié)構(gòu)越復(fù)雜的公司其對(duì)于支出資金的流程也越謹(jǐn)慎,這種謹(jǐn)慎就會(huì)導(dǎo)致合同內(nèi)的結(jié)款周期遠(yuǎn)遠(yuǎn)高于初創(chuàng)型企業(yè)。b)溝通成本高因?yàn)榇祟惞镜募軜?gòu)相對(duì)復(fù)雜,一般一個(gè)項(xiàng)目的啟動(dòng)流程是“算法團(tuán)隊(duì)將需求提供給項(xiàng)目經(jīng)理,項(xiàng)目經(jīng)理聯(lián)系數(shù)據(jù)標(biāo)注公司試標(biāo)-數(shù)據(jù)標(biāo)注公司試標(biāo)完畢反饋-項(xiàng)目經(jīng)理檢查并反饋給算法團(tuán)隊(duì)”。這其中就避免不了多人傳達(dá)規(guī)則時(shí)出現(xiàn)的模糊情況,需要大量的時(shí)間進(jìn)行溝通和驗(yàn)證。同時(shí)在項(xiàng)目啟動(dòng)時(shí)的流程也相對(duì)復(fù)雜,不僅需要算法確認(rèn)規(guī)則,需要財(cái)務(wù)確認(rèn)支付方式,需要法務(wù)進(jìn)行合同審核,需要項(xiàng)目主管領(lǐng)導(dǎo)批準(zhǔn),這些都會(huì)使數(shù)據(jù)標(biāo)注公司的溝通成本大大增加。.科研型這里指各類政府、大學(xué)等行政事業(yè)單位的科研部門。優(yōu)勢(shì):a)結(jié)算時(shí)間短一般的科技機(jī)構(gòu)的審批方式都是先進(jìn)行項(xiàng)目報(bào)備,在項(xiàng)目報(bào)備通過(guò)的時(shí)候其實(shí)這部分的項(xiàng)目資金就已經(jīng)預(yù)留出來(lái)了,只要數(shù)據(jù)標(biāo)注公司能夠按時(shí)按量的完成項(xiàng)目?jī)?nèi)容同時(shí)提供合同內(nèi)規(guī)定的相關(guān)發(fā)票,就可以順利結(jié)算。b)溝通成本低一般的科研機(jī)構(gòu)都是由項(xiàng)目負(fù)責(zé)導(dǎo)師指定聯(lián)系人進(jìn)行與數(shù)據(jù)標(biāo)注公司的溝通,同時(shí)被指定人一般也都是項(xiàng)目的參與人,所以在規(guī)則的制定上更為清晰,與初創(chuàng)公司一樣,能夠快速的進(jìn)入主題,大大節(jié)省了數(shù)據(jù)標(biāo)注公司在溝通方面所花費(fèi)的時(shí)間。劣勢(shì):a)數(shù)據(jù)連貫性不強(qiáng)因?yàn)榇祟惪蒲兴捻?xiàng)目基本都是階段性的,一類產(chǎn)品上線后,相關(guān)產(chǎn)品再進(jìn)行上線需要周期。b)找尋成本高因?yàn)榭蒲袡C(jī)構(gòu)的特殊性,在市場(chǎng)上很難準(zhǔn)確就定位到需求部門,在眾多部門中確立需求部門并與之建立起合作關(guān)系是需要耗費(fèi)大量的時(shí)間和精力。.綜合型向AI化轉(zhuǎn)型的各類傳統(tǒng)行業(yè)企業(yè)。優(yōu)勢(shì):a)數(shù)據(jù)連貫性強(qiáng)因?yàn)樯婕皞鹘y(tǒng)生產(chǎn)的轉(zhuǎn)型,該類企業(yè)一般都有獨(dú)立的AI產(chǎn)品研發(fā)組,同時(shí)因?yàn)榇祟惞颈旧淼捏w量和市場(chǎng)占有率,會(huì)使其對(duì)于需要轉(zhuǎn)型的領(lǐng)域和需求產(chǎn)品更為寬泛。b)數(shù)據(jù)量大因?yàn)锳I轉(zhuǎn)型除了成熟的技術(shù)支撐之外,最重要的就是時(shí)間,越快將生產(chǎn)結(jié)合AI的企業(yè),其市場(chǎng)競(jìng)爭(zhēng)力也就越明顯。而如何能讓計(jì)算機(jī)快速的進(jìn)行訓(xùn)練呢?除了算法團(tuán)隊(duì)的技術(shù)支撐,剩下的就是給計(jì)算機(jī)提供大量的符合模型識(shí)別的標(biāo)注數(shù)據(jù)。劣勢(shì):a)結(jié)算周期長(zhǎng)和企業(yè)型公司性質(zhì)相同,由于龐大的內(nèi)部結(jié)構(gòu),項(xiàng)目資金的結(jié)款周期相較于初創(chuàng)型公司和研究所會(huì)大大增長(zhǎng)。^工期緊張因?yàn)橛修D(zhuǎn)型這個(gè)宏觀任務(wù),所以一般此類企業(yè)都對(duì)轉(zhuǎn)型項(xiàng)目的落地時(shí)間有明確的規(guī)定,說(shuō)簡(jiǎn)單一些就是工期緊、任務(wù)重。由于這種特點(diǎn),數(shù)據(jù)標(biāo)注公司在承接此類公司的項(xiàng)目時(shí),需要有大量的人手進(jìn)行數(shù)據(jù)標(biāo)注,這對(duì)于公司本身的管理無(wú)疑也是巨大的挑戰(zhàn)。本文所說(shuō)的每種公司都有各自的渠道獲取特點(diǎn),請(qǐng)持續(xù)關(guān)注博客,我們會(huì)在接下來(lái)更新更多的相關(guān)內(nèi)容。第5入庫(kù)數(shù)據(jù)清理清查工作匯報(bào)2012年入庫(kù)數(shù)據(jù)清理清查工作匯報(bào)根據(jù)省、市、區(qū)文件要求,將全員人口數(shù)據(jù)清理清查工作作為當(dāng)前重點(diǎn)工作來(lái)抓,解放思想,放下包袱,深入、徹底地開展入庫(kù)數(shù)據(jù)清理清查,特別是歷年(含當(dāng)年)漏報(bào)、錯(cuò)報(bào)、瞞報(bào)人口出生數(shù)、“四術(shù)”數(shù)、查環(huán)查孕數(shù)、社會(huì)撫養(yǎng)費(fèi)征收數(shù)等,全面錄入系統(tǒng)。現(xiàn)將這項(xiàng)工作總計(jì)如下:一、領(lǐng)導(dǎo)高度重視為了確保清理清查工作取得實(shí)效,我街道成了以街道分管領(lǐng)導(dǎo)XXX任組長(zhǎng),相關(guān)人員為成員的“人口計(jì)生統(tǒng)計(jì)數(shù)據(jù)核實(shí)清查”活動(dòng)領(lǐng)導(dǎo)小組,領(lǐng)導(dǎo)小組在計(jì)生科下設(shè)辦公室,具體負(fù)責(zé)監(jiān)督及統(tǒng)籌管理全員人口信息系統(tǒng)數(shù)據(jù)質(zhì)量檢查、信息采集和錄入等工作。領(lǐng)導(dǎo)小組由街道分管領(lǐng)導(dǎo)陳偉元主持召開了協(xié)調(diào)會(huì)議,進(jìn)一步明確了科室人員分片包干的社區(qū)工作站,根據(jù)我街道實(shí)際分為3個(gè)清理清查工作小組,整合了社區(qū)工作站各種資源,為清理清查的順利進(jìn)行提供了組織和隊(duì)伍保障。二、突出重點(diǎn)、深化措施,確保流動(dòng)人口清理清查質(zhì)量流動(dòng)人口管理是計(jì)劃生育工作的重點(diǎn),也是難點(diǎn),因此開展

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論