![數(shù)據(jù)標注工作匯報_第1頁](http://file4.renrendoc.com/view5/M01/32/2D/wKhkGGYKOhaAQBlkAAJId9_hNgo623.jpg)
![數(shù)據(jù)標注工作匯報_第2頁](http://file4.renrendoc.com/view5/M01/32/2D/wKhkGGYKOhaAQBlkAAJId9_hNgo6232.jpg)
![數(shù)據(jù)標注工作匯報_第3頁](http://file4.renrendoc.com/view5/M01/32/2D/wKhkGGYKOhaAQBlkAAJId9_hNgo6233.jpg)
![數(shù)據(jù)標注工作匯報_第4頁](http://file4.renrendoc.com/view5/M01/32/2D/wKhkGGYKOhaAQBlkAAJId9_hNgo6234.jpg)
![數(shù)據(jù)標注工作匯報_第5頁](http://file4.renrendoc.com/view5/M01/32/2D/wKhkGGYKOhaAQBlkAAJId9_hNgo6235.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)標注工作匯報什么是數(shù)據(jù)標注?當前,以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能為代表的新一代信息技術日新月異。人工智能在去年、今年兩度被寫入政府工作報告。產(chǎn)業(yè)勃興,數(shù)據(jù)標注員因此成為新興職業(yè)。多名業(yè)內(nèi)人士告訴記者,目前國內(nèi)至少有大小近千家標注公司,共20余萬名數(shù)據(jù)標注員。其實大部分的工作內(nèi)容很簡單的,就是聽聽語音然后把提示字幕修改一下,或者看一張圖片,把里面文字也打出來,這是我們做數(shù)據(jù)標注常常做的事,只要有電腦,就可以隨時隨地的去做任務,如果有想深入了解請加微信TYY1999-06-06第2客服錄音數(shù)據(jù)標注規(guī)范(完整版)客服錄音數(shù)據(jù)標注規(guī)范(完整版)用谷歌瀏覽器(至少32.0以上版本)來標注。其他瀏覽器或低版本谷歌瀏覽器可能出現(xiàn)部分文件播放不了的問題。質量要求:文字錯誤率:3%以內(nèi)注:文字錯誤率指語音內(nèi)容標注錯誤,只要有一個字錯,該條語音就算錯。其他錯誤率:5%以內(nèi)注:綜合錯誤率指:除了語音內(nèi)容以外的其他標注項錯誤,只要有一項錯,該條語音就算錯??头Z音內(nèi)容說明:都是鮮百味公司和客戶的電話語音,公司主營業(yè)務是賣海鮮,所以大部分內(nèi)容都是關于海鮮(如大閘蟹)的購買、禮品券、配送等方面。.當前語音是否包含有效語音無效語音(即不包含有效語音)的類型:文件播放不了;音頻全部是靜音或噪音;許多地方聽不清或者聽不懂,例如,方言太重、噪音太大、音量過低等。兩個人同時說話超過3個字(包括3個字)并且聽內(nèi)容不清楚的或者噪音聲音蓋住說話人聲大于3個字(包括3個字)導致內(nèi)容聽不清楚的.當前語音的噪聲情況如果能聽到明顯的噪音(噪音指說話人正常說話外的其他聲音),則選擇“含噪音”,否則選“安靜”。常見噪音舉例(但不限以下):其他人說話聲背景音樂聲動物叫聲汽車滴滴聲咳嗽聲明顯的電流聲.說話人數(shù)量(即標注的語音內(nèi)容是幾個人說的)一人說話(主體說話人):只有一個人說話多人說話:有多個人說話(因為是客服語音,一般是兩個人).說話人性別如果有多個人說話,則標第一個說話人的性別。標注項:男女.是否包含口音如果有多個人說話,則標第一個說話人是否有口音。標注項:否:無口音是:有口音有口音是指說話人發(fā)音的拼音或聲調和正確發(fā)音的不一致。常見情形包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻音,平翹舌,以及其他情況。.語音內(nèi)容如果兩個人同時說話,以主體說話人聲音大的為準來轉寫文字。如果一條語音中,低于3個字有兩個人同時說話,并聽不清楚的,將聽不清的部分用"[d]”表示。如果一條語音中,低于3個字部分噪音太大,蓋住說話人聲音導致聽不清的,將聽不清的部分用“[n]”表示。文字轉寫具體要求:語音內(nèi)容必須和聽到的語音完全一致,不能多字、少字、錯字。阿拉伯數(shù)字要寫成漢字形式,如“一二三”,而不是“123”。注意區(qū)分“一”和“幺”。“二”和“兩”語氣詞:音頻中說話人清楚地講出的語氣詞,如“呃啊嗯哦唉吶”等,要按照正確發(fā)音進行轉寫。語氣詞除了“了不”沒有口字旁,其他基本上都有口字旁。轉寫內(nèi)容的完整性要與實際發(fā)音一致,不得刪減;如發(fā)音為:我是北北京人;“北”字有重復現(xiàn)象,那轉寫的時候要寫成:我是北,北京人。英文比較復雜,轉寫的原則是:按字母讀的情況(如縮寫詞,網(wǎng)址等)一律大寫,按詞讀的則小寫,例如“APPLE”表示用戶是逐個字母念的,“apple”表示用戶按單詞念的。明顯的兒化音必須標注出來第3輕松標注Excel表格中的無效數(shù)據(jù)輕松標注Excel表格中的無效數(shù)據(jù)校對數(shù)據(jù)是我們在日常辦公中經(jīng)常要做的工作,對于含有大量數(shù)據(jù)的表格,如何快速找到無效的錄入數(shù)據(jù)、提高我們校對的效率是不少朋友急于想了解的,今天我教大家兩招我出來的心得,希望對大家有所啟發(fā)。圖1為單位第一季度的加班統(tǒng)計表,領導讓會計室小卜統(tǒng)計出來好計發(fā)加班費以調動職工的積極性,小卜花了一晚上時間終于把全廠2000多名職工的加工統(tǒng)計表搞出來了,實在累得夠嗆,再也沒有精力校對了。他讓我想想辦法能不能把超出范圍的錯誤數(shù)據(jù)快速找出來,由于單位規(guī)定,每人每月的加班時間不得超過90小時(出于職工的健康著想),我給他介紹了下面的兩種辦法:圖11.使用條件格式選中表格中的數(shù)據(jù)區(qū)域(從C列到F列),單擊“格式”菜單中的“條件格式”命令,在彈出的“條件格式”的對話框的“條件1”列表中選擇“公式”,在其右側的文本框中輸入公式“=or(c190)”(如圖2),單擊“格式”按鈕,此時彈出“單元格格式”對話框,切換到“字體”選項卡,將文字“顏色”選擇為“紅色”,完成設置后依次單擊“確定”按鈕返回到數(shù)據(jù)表格中,瀏覽一下表格,是不是看到超出范圍的數(shù)字已經(jīng)被標注了紅顏色,這樣改起來就方便多了。圖22.利用數(shù)據(jù)有效性圈釋無效數(shù)據(jù)一般情況下,在錄入數(shù)據(jù)之前設置數(shù)據(jù)的有效性可避免錄入超出指定范圍的非常規(guī)數(shù)據(jù),但數(shù)據(jù)錄入完成后設置數(shù)據(jù)的有效性有什么作用呢?通過下面的介紹大家就會明白了。選中表格中需要設置有效性的數(shù)據(jù)區(qū)域,單擊“數(shù)據(jù)”菜單中的“有效性”命令,彈出“數(shù)據(jù)有效性”對話框,切換到“設置”選項卡,按圖3所示進行相應的設置,單擊“確定”按鈕返回數(shù)據(jù)表中(此時表格的數(shù)據(jù)中看不到有什么變化)。圖3右擊工具欄打開“公式審核”工具欄,單擊工具欄中的“圈釋無效數(shù)據(jù)”按鈕,此時我們會發(fā)現(xiàn)表格中的無效數(shù)據(jù)都被清清楚楚地標注出來了(如圖4)。圖4Cico提示:以上兩種方法都可以輕松地標注表格中的無效數(shù)據(jù),這些無效數(shù)據(jù)只要修改到指定的范圍內(nèi),標注就會同時被取消,不會影響數(shù)據(jù)的分析和打印。第4如何運營一家數(shù)據(jù)標注公司資源特點篇如何運營一家數(shù)據(jù)標注公司(資源特點篇)在“基礎架構篇”中我們提到的資源,也就是數(shù)據(jù)標注公司要面對的甲方:AI公司、AI企業(yè)、AI研究所。那么問題來了,人工智能公司、人工智能企業(yè)、人工智能研究所多種多樣,作為一個數(shù)據(jù)標注公司應該如何定義自己的服務方向呢?首先我們要能夠準確的了解資源公司的特點,這樣才能更好的為其提供符合自身特點的服務。目前市場上的AI公司、AI企業(yè)、人1研究所大致分為以下幾種,對于與數(shù)據(jù)標注公司的合作來說他們各有各的優(yōu)勢和劣勢,這里對以下突出的幾類進行分析:.初創(chuàng)型這里指的初創(chuàng)型公司一般指未進行過階段融資的初次創(chuàng)業(yè)型公司。優(yōu)勢:a)溝通成本低初創(chuàng)型公司的核心創(chuàng)始人一般都是公司的核心技術人員,所以他們對數(shù)據(jù)標注的結果有清晰的需求認知,能夠清楚嚴謹?shù)谋硎龀鲂枰獦俗?shù)據(jù)的規(guī)則,數(shù)據(jù)標注公司與此類資源公司在溝通上比較簡單,能夠快速的直入主題,迅速建立供需關系,省去冗長的上報、各級的批復等溝通環(huán)節(jié)。b)結算時間快這類資源公司本身公司架構也相對簡單,對于標注完成后的結款時間相對也較短。劣勢:a)需求連貫性不強因為初創(chuàng)型公司很多沒有穩(wěn)定的甲方,同時公司在同一時期對接的甲方數(shù)量并不是一定的,有可能在某個月中會有很多,同樣也可能一個沒有。這就導致了在數(shù)據(jù)的需求連貫性上并不是很強。b)標注需求量不大在與甲方溝通合作的路上,展示型項目產(chǎn)品并不需要大量數(shù)據(jù)的驗證。更多時候都是以小批量數(shù)據(jù)進行產(chǎn)品的小樣展示,因為初創(chuàng)公司也要考慮項目的成功率和標注成本之間的關系。.企業(yè)型這里指已經(jīng)形成一定規(guī)模的人工智能企業(yè),同時可能已經(jīng)獲得多輪融資。優(yōu)勢:a)數(shù)據(jù)連貫性強這里指的一定規(guī)模的人工智能企業(yè)可能已經(jīng)是市場上第一梯隊的領跑者,因為有成熟的產(chǎn)品和合作對象,其在產(chǎn)品需要進行迭代和研發(fā)關聯(lián)產(chǎn)品時是需要大量標注數(shù)據(jù)作為模型訓練的。同時因為其在業(yè)界的影響力,與新的需求商進行合作時的成單率也要遠高于初創(chuàng)AI公司。b)數(shù)據(jù)價值高因為大型公司需要綜合保密、質量、工期等多方面因素,同時因為已經(jīng)與需求公司建立了正式的合作關系,此類型的AI公司在提供的數(shù)據(jù)標注單價上是要略高于初創(chuàng)型企業(yè)。劣勢:a)結算周期長因為此類公司的結構相對復雜,同時結構越復雜的公司其對于支出資金的流程也越謹慎,這種謹慎就會導致合同內(nèi)的結款周期遠遠高于初創(chuàng)型企業(yè)。b)溝通成本高因為此類公司的架構相對復雜,一般一個項目的啟動流程是“算法團隊將需求提供給項目經(jīng)理,項目經(jīng)理聯(lián)系數(shù)據(jù)標注公司試標-數(shù)據(jù)標注公司試標完畢反饋-項目經(jīng)理檢查并反饋給算法團隊”。這其中就避免不了多人傳達規(guī)則時出現(xiàn)的模糊情況,需要大量的時間進行溝通和驗證。同時在項目啟動時的流程也相對復雜,不僅需要算法確認規(guī)則,需要財務確認支付方式,需要法務進行合同審核,需要項目主管領導批準,這些都會使數(shù)據(jù)標注公司的溝通成本大大增加。.科研型這里指各類政府、大學等行政事業(yè)單位的科研部門。優(yōu)勢:a)結算時間短一般的科技機構的審批方式都是先進行項目報備,在項目報備通過的時候其實這部分的項目資金就已經(jīng)預留出來了,只要數(shù)據(jù)標注公司能夠按時按量的完成項目內(nèi)容同時提供合同內(nèi)規(guī)定的相關發(fā)票,就可以順利結算。b)溝通成本低一般的科研機構都是由項目負責導師指定聯(lián)系人進行與數(shù)據(jù)標注公司的溝通,同時被指定人一般也都是項目的參與人,所以在規(guī)則的制定上更為清晰,與初創(chuàng)公司一樣,能夠快速的進入主題,大大節(jié)省了數(shù)據(jù)標注公司在溝通方面所花費的時間。劣勢:a)數(shù)據(jù)連貫性不強因為此類科研所的項目基本都是階段性的,一類產(chǎn)品上線后,相關產(chǎn)品再進行上線需要周期。b)找尋成本高因為科研機構的特殊性,在市場上很難準確就定位到需求部門,在眾多部門中確立需求部門并與之建立起合作關系是需要耗費大量的時間和精力。.綜合型向AI化轉型的各類傳統(tǒng)行業(yè)企業(yè)。優(yōu)勢:a)數(shù)據(jù)連貫性強因為涉及傳統(tǒng)生產(chǎn)的轉型,該類企業(yè)一般都有獨立的AI產(chǎn)品研發(fā)組,同時因為此類公司本身的體量和市場占有率,會使其對于需要轉型的領域和需求產(chǎn)品更為寬泛。b)數(shù)據(jù)量大因為AI轉型除了成熟的技術支撐之外,最重要的就是時間,越快將生產(chǎn)結合AI的企業(yè),其市場競爭力也就越明顯。而如何能讓計算機快速的進行訓練呢?除了算法團隊的技術支撐,剩下的就是給計算機提供大量的符合模型識別的標注數(shù)據(jù)。劣勢:a)結算周期長和企業(yè)型公司性質相同,由于龐大的內(nèi)部結構,項目資金的結款周期相較于初創(chuàng)型公司和研究所會大大增長。^工期緊張因為有轉型這個宏觀任務,所以一般此類企業(yè)都對轉型項目的落地時間有明確的規(guī)定,說簡單一些就是工期緊、任務重。由于這種特點,數(shù)據(jù)標注公司在承接此類公司的項目時,需要有大量的人手進行數(shù)據(jù)標注,這對于公司本身的管理無疑也是巨大的挑戰(zhàn)。本文所說的每種公司都有各自的渠道獲取特點,請持續(xù)關注博客,我們會在接下來更新更多的相關內(nèi)容。第5入庫數(shù)據(jù)清理清查工作匯報2012年入庫數(shù)據(jù)清理清查工作匯報根據(jù)省、市、區(qū)文件要求,將全員人口數(shù)據(jù)清理清查工作作為當前重點工作來抓,解放思想,放下包袱,深入、徹底地開展入庫數(shù)據(jù)清理清查,特別是歷年(含當年)漏報、錯報、瞞報人口出生數(shù)、“四術”數(shù)、查環(huán)查孕數(shù)、社會撫養(yǎng)費征收數(shù)等,全面錄入系統(tǒng)。現(xiàn)將這項工作總計如下:一、領導高度重視為了確保清理清查工作取得實效,我街道成了以街道分管領導XXX任組長,相關人員為成員的“人口計生統(tǒng)計數(shù)據(jù)核實清查”活動領導小組,領導小組在計生科下設辦公室,具體負責監(jiān)督及統(tǒng)籌管理全員人口信息系統(tǒng)數(shù)據(jù)質量檢查、信息采集和錄入等工作。領導小組由街道分管領導陳偉元主持召開了協(xié)調會議,進一步明確了科室人員分片包干的社區(qū)工作站,根據(jù)我街道實際分為3個清理清查工作小組,整合了社區(qū)工作站各種資源,為清理清查的順利進行提供了組織和隊伍保障。二、突出重點、深化措施,確保流動人口清理清查質量流動人口管理是計劃生育工作的重點,也是難點,因此開展
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第十三屆全國美展工筆人物畫中藏族裝飾元素研究
- 中國沖壓離心泵項目投資可行性研究報告
- 敲除CsBPC2影響黃瓜幼苗低溫抗性的機制探究
- 2025年失臘澆鑄項目投資可行性研究分析報告
- 2024年環(huán)境保護調查報告-6
- 現(xiàn)代教育技術提升學生自主學習能力的研究
- 基于數(shù)據(jù)驅動的滾珠絲杠副故障診斷及壽命預測方法研究
- 1 基于兩樣本孟德爾隨機化分析頭頸部急性重度放療副反應與血液和糞便生物標志物的因果關系 2 基于Olink蛋白質組學建立鼻咽癌患者急性重度放療副反應預測模型
- 英語-安徽省皖江名校聯(lián)盟·2025屆高三2月聯(lián)考試題和答案
- 電力建設項目經(jīng)濟評價分析
- 預防保健科護理管理質量控制考核標準
- 皮下抗凝劑的注射規(guī)范
- 食管癌護理小講課課件
- 護理組長競聘講稿-護理組長競聘主題教學課件
- 2023北京市高級中等學校招生考試英語答題卡A4版word版可以編輯
- 水泥考試試題(含答案)
- 北師大版七年級(下)數(shù)學全冊教案
- 江蘇地理專題復習
- 小學六年級語文聽課記錄22篇
- GB/T 25995-2010精細陶瓷密度和顯氣孔率試驗方法
- GB/T 22085.1-2008電子束及激光焊接接頭缺欠質量分級指南第1部分:鋼
評論
0/150
提交評論