大語言模型通識微課課件:數據標注的執(zhí)行_第1頁
大語言模型通識微課課件:數據標注的執(zhí)行_第2頁
大語言模型通識微課課件:數據標注的執(zhí)行_第3頁
大語言模型通識微課課件:數據標注的執(zhí)行_第4頁
大語言模型通識微課課件:數據標注的執(zhí)行_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大語言模型通識微課

數據標注的執(zhí)行常識性標注的規(guī)則比較簡單,標注一部分樣本即可總結出較通用的規(guī)則,但專業(yè)性標注的規(guī)則比較復雜,制定專業(yè)的標注規(guī)則需要遵循的原則主要如下。(1)多維分析與綜合分析相結合。簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經歷或專業(yè)要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結果。簡歷與職位的匹配標注也不可能一上來就能給出綜合的評分。要先給單一因子打分,然后參考每個因子的評分結果,最終再進行綜合分析,給出評分結果。微課4.2數據標注的執(zhí)行(2)因子權重影響因素場景化。簡歷與職位匹配度評估需要給每個因子打分,要結合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,人力資源經理想要1~3年經驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結合場景進行歸類分析是十分必要的。4.2.1制定標注規(guī)則(3)問題類型標簽化、結構化。一般情況下標注結果會以分數的形式展示。前期制定標注規(guī)則時,要把原因分析考慮進去,列出不匹配的原因,形成結構化的原因標簽,有利于最終分析壞樣例的分類與占比,然后,算法或者策略團隊在優(yōu)化時可以優(yōu)先解決占比高或影響惡劣的樣例。數據標注是一項看似簡單實際卻十分繁雜的工作,涉及標注分類、標注規(guī)則制定、標注原因分析、標注系統(tǒng)搭建、標注團隊管理等,尤其涉及到專業(yè)領域的標注則更困難。4.2.1制定標注規(guī)則圖像標注專家阿德拉·巴里烏索在實踐中積累了豐富的標注工作經驗,她記錄了標注過程中曾遇到的困難和采用的解決方案,以便得到一致性高的注釋。巴里烏索在數據標注中的主要心得如下。(1)在標注圖像時,首先對圖像進行整體評估,衡量標注難度。有些乍一看標注難度較大的圖像,實際上圖中的元素很少,很容易標記。(2)標注時,通常由大到小進行標注。比如開放空間中先標注天空,封閉空間內先標注天花板,然后再繼續(xù)添加其他東西。4.2.2執(zhí)行數據標注(3)標記順序不重要,但標注時最好一行行地進行,將一行內所有類型相同的對象全都標注上,降低標簽寫錯的可能。(4)一般不標注鏡子里反射的物體,這很容易造成誤導。(5)在圖像中有很多線條性物體時需要特別注意,有可能標注出與所需完全相反的內容(如孔內被標記為對象)。4.2.2執(zhí)行數據標注(6)標注圖像中出現打開的門窗等情況時,不僅僅是標注門窗,也應將門窗內的物體也標注上,這有助于增加深度感。(7)標注時的標注線條要好看一些,盡量避免弄成一塊一塊的。

4.2.2執(zhí)行數據標注(8)對于過于復雜的圖片,如果對圖中的內容不夠熟悉,就干脆跳過。(9)如果一個物體被另一個物體遮擋,在給兩個物體做標注時,給兩個物體貼上標簽,確保它們的邊緣重合。

4.2.2執(zhí)行數據標注(10)標注時有時需要放大和縮小。放大有助于標注一些小細節(jié),但在標注之后需縮放至原始大小進行審核。(11)標注室內空間時,一般單獨標記不同方向的墻。(12)如圖,圖像的復雜性是由于墻壁和拱門形成的不同深度平面造成的,在標記時需要給拱門內的元素進行標記。首先從兩堵墻開始,然后給墻壁和容易分辨的大物體進行標注,最后再去標注小的一些細節(jié)。4.2.2執(zhí)行數據標注(13)有時候某些容器是透明的,比如透明的容器內裝著一些餅干,這時候是標注“容器”還是“餅干”呢?一般標注為容器,重點在于要保持標注原則的前后一致。(14)有時候標注標簽并非自己的母語,當標注的目標物種類較多時,一定要建立一個標簽的對應關系,方便查找,如“bed:床”。4.2.2執(zhí)行數據標注數據標注團隊主要由標注師和質檢員組成,在完成標注后,數據交給算法工程師,他們會用數據對大模型做測試??纯茨男┓矫孢€有不足,再有針對性的做下一輪標注和調試。通常,大模型標注員崗位的要求比普通標注員要高很多。除了對專業(yè)能力或綜合能力要求,有時會要求具有專業(yè)領域工作經驗。4.2.3標注團隊管理未來,大模型流水線上還會出現更多細分崗位,例如模型評估師(指導大模型調優(yōu)方向)、指令工程師(研究與大模型交互更高效的方式)、視頻音頻標注

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論