文本數(shù)據(jù)標(biāo)注_第1頁(yè)
文本數(shù)據(jù)標(biāo)注_第2頁(yè)
文本數(shù)據(jù)標(biāo)注_第3頁(yè)
文本數(shù)據(jù)標(biāo)注_第4頁(yè)
文本數(shù)據(jù)標(biāo)注_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.3序列標(biāo)注方法舉例6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.6本章小結(jié)6.7作業(yè)與練習(xí)文本數(shù)據(jù)標(biāo)注作為最常見(jiàn)的數(shù)據(jù)標(biāo)注類(lèi)型之一,是指將文字、符號(hào)在內(nèi)的文本進(jìn)行標(biāo)注,讓計(jì)算機(jī)能夠讀懂并識(shí)別。從本質(zhì)上來(lái)看,文本數(shù)據(jù)標(biāo)注就是一個(gè)監(jiān)督學(xué)習(xí)的過(guò)程,而標(biāo)注問(wèn)題就是更困難結(jié)構(gòu)預(yù)料問(wèn)題的簡(jiǎn)潔形式。標(biāo)注問(wèn)題的目的在于學(xué)習(xí)模型,使該模型能夠?qū)τ^測(cè)序列給出標(biāo)記序列作為預(yù)料。這也確定了標(biāo)注問(wèn)題的工作流程,即輸入是一個(gè)觀測(cè)序列,之后輸出是一個(gè)標(biāo)記序列或者狀態(tài)序列。須要留意的是,標(biāo)記個(gè)數(shù)是有限的,但其組合所成的標(biāo)記序列的個(gè)數(shù)是依照序列長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)的。6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注(1)自然語(yǔ)言對(duì)話(huà)是網(wǎng)絡(luò)大數(shù)據(jù)語(yǔ)義理解的主要挑戰(zhàn)之一,被譽(yù)為人工智能皇冠上的寶石,而文本數(shù)據(jù)標(biāo)注就是這一系列工作中最基礎(chǔ)、最重要的環(huán)節(jié)。文本數(shù)據(jù)標(biāo)注就是為了讓機(jī)器精確識(shí)別人類(lèi)的自然語(yǔ)言,并促使機(jī)器對(duì)人類(lèi)的自然語(yǔ)言做出精準(zhǔn)定位。(2)近二三十年的探討成果顯示,自然語(yǔ)言對(duì)話(huà)系統(tǒng)歷經(jīng)了由基于概率決策過(guò)程的多輪對(duì)話(huà)系統(tǒng)到基于深度學(xué)習(xí)的生成式對(duì)話(huà)系統(tǒng)、再到將深度學(xué)習(xí)和符號(hào)處理相融合的神經(jīng)符號(hào)對(duì)話(huà)系統(tǒng)的快速發(fā)展。但是,無(wú)論系統(tǒng)發(fā)展的如何快速、無(wú)論系統(tǒng)朝著何種方向發(fā)展,自然語(yǔ)言對(duì)話(huà)系統(tǒng)的核心推動(dòng)力從未變更,即更好地進(jìn)行自然語(yǔ)言理解、學(xué)問(wèn)表示和邏輯推理。6.1.1發(fā)展與探討現(xiàn)狀6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注文本數(shù)據(jù)標(biāo)注類(lèi)型包括:序列標(biāo)注、關(guān)系標(biāo)注、屬性標(biāo)注和類(lèi)別標(biāo)注。具體介紹如下:(1)序列標(biāo)注:是一個(gè)比較簡(jiǎn)潔的自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)NLP任務(wù),也是最基礎(chǔ)的任務(wù)。序列標(biāo)注的涵蓋范圍特別廣泛,包括分詞、實(shí)體、關(guān)鍵字、韻律、意圖理解等;(2)關(guān)系標(biāo)注:對(duì)復(fù)句的句法關(guān)聯(lián)和語(yǔ)義關(guān)聯(lián)做出重要標(biāo)示的一種任務(wù),是復(fù)句自動(dòng)分析的形式標(biāo)記。關(guān)系標(biāo)注包括:指向關(guān)系、修飾關(guān)系、平行語(yǔ)料等等。(3)屬性標(biāo)注:對(duì)事物屬性進(jìn)行標(biāo)簽,屬性標(biāo)注包括:文本類(lèi)別、新聞、消遣等;(4)類(lèi)別標(biāo)注:對(duì)文章的類(lèi)別進(jìn)行標(biāo)注,例如篇章級(jí)的閱讀理解等。6.1.2基本概念6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注為什么要運(yùn)用RFID中間件01探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件這個(gè)問(wèn)題的本質(zhì)是用戶(hù)應(yīng)用系統(tǒng)與硬件接口的問(wèn)題。在RFID應(yīng)用中,通透性是整個(gè)應(yīng)用的關(guān)鍵,正確抓取數(shù)據(jù)、確保數(shù)據(jù)讀取的牢靠性、以及有效地將數(shù)據(jù)傳送到后端系統(tǒng)都是必需考慮的問(wèn)題。(1)如何將現(xiàn)有的系統(tǒng)與新的RFIDReader連接?RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件為了就近獲得reader讀取的信息,一些地理區(qū)域跨度較廣的企業(yè),例如:商場(chǎng)、配送中心或者倉(cāng)庫(kù)等,可以運(yùn)用多個(gè)RFIDEventManager,也就是為每一場(chǎng)所配備一個(gè)RFIDEventManager,這種方式可以大大減輕網(wǎng)絡(luò)通訊負(fù)載:運(yùn)用EventManager將過(guò)濾和處理過(guò)的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)發(fā)送,而不是將Reader干脆連接到網(wǎng)絡(luò),削減通過(guò)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)流量。除此之外,通過(guò)RFIDEventManager將Reader同網(wǎng)絡(luò)隔離開(kāi)也是基于平安因素考慮的一個(gè)良好的架構(gòu)方式。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件Sun公司的RFIDEventManager的主要功能模塊包括:1)nDeviceAdapter適配器允許來(lái)自不同廠商的設(shè)備能夠同RFIDEventManager通訊和交互。2)nFilter過(guò)濾器能夠過(guò)濾RFID設(shè)備所供應(yīng)的冗余數(shù)據(jù),還可以用來(lái)實(shí)施小規(guī)模的數(shù)據(jù)處理和業(yè)務(wù)邏輯。3)nConnectorsRFIDEventManager中的Connector模塊可以將相關(guān)信息發(fā)送到文件系統(tǒng)、JMS隊(duì)列,XML語(yǔ)言,HTTP,SOAP消息,從而可以將RFID或者是非RFID的相關(guān)事務(wù)數(shù)據(jù)通知給外部系統(tǒng)。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件4)nEnterpriseGateway該模塊可以作為連接企業(yè)應(yīng)用程序的公共接口。5)nFailover由于Sun的RFIDEventManager是基于Java和Jini技術(shù)框架,服務(wù)的失效轉(zhuǎn)移是其固有的技術(shù)特色。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件圖5-34RFIDEventManager的架構(gòu)圖RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件SunJavaRFIDSoftware中另一個(gè)主要的模塊就是JavaSystemRFIDInformationServer。Sun公司提倡運(yùn)用整合技術(shù)將RFIDEventManager同EIS(EnterpriseInformationSystems)互連,這里所說(shuō)的EIS包括傳統(tǒng)的ERP,WMS(倉(cāng)儲(chǔ)管理系統(tǒng)),SCM(供應(yīng)鏈管理系統(tǒng))以及CRM系統(tǒng)以及一切希望運(yùn)用RFID標(biāo)簽信息的系統(tǒng)。JES不僅為這種整合供應(yīng)了豐富的技術(shù)支持手段,也為整合供應(yīng)了豐富而成熟的功能模塊和解決方案。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件在圖5-34中整個(gè)軟件架構(gòu)中的最下層就是由EIS系統(tǒng)所組成的,可以包括ERP,WMS,傳統(tǒng)遺留的系統(tǒng)以及企業(yè)的私有信息系統(tǒng)。這些系統(tǒng)必需能夠接收并集成來(lái)自標(biāo)簽標(biāo)識(shí)物品的數(shù)據(jù)和事務(wù)。事實(shí)上,可以將RFIDInformationServer理解成將RFIDEventManager和現(xiàn)有的EIS以及其他的企業(yè)應(yīng)用系統(tǒng)集成的集成層,由RFIDInformationServer供應(yīng)了底層的RFID數(shù)據(jù)同高層業(yè)務(wù)應(yīng)用的連接通道。將RFIDInformationServer置于RFIDEventManager和其他的企業(yè)應(yīng)用之間就可以針對(duì)業(yè)務(wù)需求的變更、企業(yè)應(yīng)用的變更供應(yīng)最大的敏捷性。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件通過(guò)RFIDInformationService可以獲得的數(shù)據(jù)包括:1)通過(guò)RFIDEventManager所獲得的來(lái)自reader或sensor的數(shù)據(jù);2)標(biāo)簽說(shuō)標(biāo)識(shí)的物品的特征數(shù)據(jù),例如:制造日期、重量、失效日期等;3)產(chǎn)品書(shū)目信息。圖5-35RFIDInformationServer架構(gòu)圖RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件3.SunJavaSystemRFIDSoftwareforJavaMEDevicesJavaME(JavaMicroEdition)是Sun公司提出的面對(duì)嵌入式設(shè)備的Java平臺(tái)方案。基于JavaME,Sun公司供應(yīng)了面對(duì)RFID設(shè)備的、支持EPCGlobalALE(ApplicationLevelEvents)規(guī)范的嵌入式軟件包:SunJavaSystemRFIDSoftwareforJavaMEDevices。該軟件包供應(yīng)了如下兩方面的功能:在支持JavaME技術(shù)的RFID設(shè)備上干脆的、智能的處理、過(guò)濾設(shè)備所產(chǎn)生的相關(guān)數(shù)據(jù),大幅度削減了RFID設(shè)備向網(wǎng)絡(luò)環(huán)境發(fā)送的數(shù)據(jù)流量。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件供應(yīng)了遠(yuǎn)程管理RFID設(shè)備的軟件接口,SunJavaSystemRFIDSoftwareforJavaMEDevices能夠同前面介紹的SunJavaSystemRFIDSoftware無(wú)縫的集成,供應(yīng)了以集中的方式來(lái)管理大量的分布式RFID設(shè)備的實(shí)力。SunJavaSystemRFIDSoftwareforJavaMEDevices的具體功能包括:1)記錄捕獲EPCcode的時(shí)間和位置;2)定時(shí)處理服務(wù);3)同步或者異步的發(fā)送答復(fù);4)定義事務(wù)的觸發(fā)器,例如偵測(cè)到一個(gè)casetag;5)過(guò)濾數(shù)據(jù),過(guò)濾的方法包括布爾邏輯、模式匹配、分組、計(jì)數(shù)等。運(yùn)用SunJavaSystemRFIDSoftwareforJavaMEDevices,可以進(jìn)一步簡(jiǎn)化RFID的部署環(huán)境。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件4.JavaSystemRFIDSoftwareToolkitJavaSystemRFIDSoftwareToolkit供應(yīng)了一套基于Sun公司的RFID解決方案的適配器開(kāi)發(fā)環(huán)境,旨在簡(jiǎn)化針對(duì)不同RFIDreader,printer以及其他設(shè)備的適配器的開(kāi)發(fā),通過(guò)這些適配器就能夠?qū)⒃O(shè)備同JavaSystemRFIDEventManager相連。這套Toolkit既可以作為NetBeans的插件,也可以作為SunStudioIDE的插件運(yùn)用,同時(shí)在插件中包括代碼范例,適配器代碼模板,ant的編譯腳本文件以及JUnit的測(cè)試模板。RFID中間件產(chǎn)品02探究RFID中間件技術(shù)——為什么要運(yùn)用RFID中間件5.基于Sun公司RFID產(chǎn)品的行業(yè)解決方案通過(guò)將Sun公司的RFIDSoftware同Sun公司豐富的軟、硬件產(chǎn)品相結(jié)合,合作伙伴可以為相關(guān)行業(yè)的特定應(yīng)用供應(yīng)定制化的解決方案。同時(shí),Sun公司也特別樂(lè)于同合作伙伴共享自己在RFID實(shí)施領(lǐng)域的豐富閱歷,合作伙伴可以參考Sun公司豐富而具體的、針對(duì)不同行業(yè)的參考解決方案來(lái)定制或擴(kuò)展,構(gòu)造自己的行業(yè)應(yīng)用。圖5-35展示了基于Sun公司軟、硬件平臺(tái)的資產(chǎn)跟蹤和管理解決方案。文本項(xiàng)目數(shù)據(jù)標(biāo)注的大致流程為,預(yù)處理、標(biāo)注、線(xiàn)上標(biāo)注、線(xiàn)下標(biāo)注、質(zhì)檢、驗(yàn)收、數(shù)據(jù)處理和數(shù)據(jù)交付。具體到各個(gè)步驟,操作細(xì)微環(huán)節(jié)如下,:(1)預(yù)處理:依據(jù)數(shù)據(jù)的規(guī)范要求,對(duì)數(shù)據(jù)進(jìn)行算法的初步處理;(2)標(biāo)注:依據(jù)項(xiàng)目要求,可以將標(biāo)注分為線(xiàn)上標(biāo)注(數(shù)據(jù)+平臺(tái))和線(xiàn)下標(biāo)注:①線(xiàn)上標(biāo)注:將源數(shù)據(jù)上傳到“數(shù)據(jù)+平臺(tái)”,通過(guò)互聯(lián)網(wǎng)進(jìn)行操作;②線(xiàn)下標(biāo)注:通過(guò)線(xiàn)下小工具或線(xiàn)下文本(TXT、Excel等)進(jìn)行操作;(3)質(zhì)檢:依據(jù)數(shù)據(jù)合格率要求,由定義規(guī)范理解的人員對(duì)已經(jīng)標(biāo)注數(shù)據(jù)進(jìn)行抽查;(4)驗(yàn)收:由數(shù)據(jù)質(zhì)量中心對(duì)質(zhì)檢合格數(shù)據(jù)進(jìn)行再次驗(yàn)證;(5)數(shù)據(jù)處理:利用技術(shù)處理成客戶(hù)須要的格式(如:JSON、UTF-8文本或Excel等);(6)數(shù)據(jù)交付:數(shù)據(jù)加密后交付客戶(hù)。6.1.3流程介紹6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注文本類(lèi)標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果包含文本標(biāo)簽的位置和標(biāo)簽的具體內(nèi)容。標(biāo)注文件的輸岀格式舉薦運(yùn)用易解析、易存儲(chǔ)的數(shù)據(jù)格式,包括JSON、XML、TXT等。標(biāo)注文件應(yīng)當(dāng)包含具體的標(biāo)簽信息。每個(gè)獨(dú)立標(biāo)簽應(yīng)包含以下信息:(1)標(biāo)簽id:每個(gè)標(biāo)簽的獨(dú)立編號(hào);(2)文件路徑:待標(biāo)注文本的文件鏈接;(3)原始文本:待標(biāo)注文本的全部?jī)?nèi)容(文本數(shù)據(jù)標(biāo)注任務(wù)僅需供應(yīng)文件路徑或原始文本中的一個(gè));(4)置信度:為標(biāo)簽的置信度;(5)每個(gè)標(biāo)簽中可能包含多個(gè)對(duì)象,對(duì)于每個(gè)對(duì)象須要定義:①對(duì)象類(lèi)型:比如text_classification或者text_tag;②對(duì)象詳情:對(duì)象的具體文本位置和內(nèi)容信息,或與其他對(duì)象的關(guān)系信息。6.1.4

交付格式6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注數(shù)據(jù)交付時(shí),標(biāo)注團(tuán)隊(duì)需對(duì)最終提交的數(shù)據(jù)量進(jìn)行說(shuō)明。交付的內(nèi)容應(yīng)包括:(1)標(biāo)注結(jié)果(必選);(2)交付和說(shuō)明文檔(可選);(3)關(guān)于標(biāo)注數(shù)據(jù)的Metadata(可選),包括描述原始數(shù)據(jù)的元信息;(4)原始數(shù)據(jù)(可選,有時(shí)數(shù)據(jù)運(yùn)用方可干脆訪問(wèn)原始數(shù)據(jù),則無(wú)須單獨(dú)交付原始數(shù)據(jù))。6.1.4

交付格式6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注文本數(shù)據(jù)標(biāo)注是最常見(jiàn)的數(shù)據(jù)標(biāo)注類(lèi)型之一,在現(xiàn)實(shí)生活中也得到了充分應(yīng)用。具體來(lái)說(shuō),文本數(shù)據(jù)標(biāo)注應(yīng)用比較多的場(chǎng)景包括:新零售、客服行業(yè)、廣告營(yíng)銷(xiāo)、金融行業(yè)和醫(yī)療行業(yè)等,具體介紹如下:(1)新零售行業(yè):新零售須要重塑零售行業(yè)的服務(wù)模式,因此須要對(duì)客戶(hù)的問(wèn)題進(jìn)行精準(zhǔn)定位,既須要對(duì)客戶(hù)的問(wèn)題進(jìn)行量身定制,又須要考慮多數(shù)客戶(hù)的共性要求,這就須要借助文本數(shù)據(jù)標(biāo)注的方法,將顧客的相應(yīng)問(wèn)題做出標(biāo)記。(2)客服行業(yè):隨著互聯(lián)網(wǎng)技術(shù)的興起,電子客服越來(lái)越多的取締了人工客服。電子客服同樣也可進(jìn)行文字客服、視頻客服和語(yǔ)音客服三類(lèi),這就須要機(jī)器對(duì)客戶(hù)說(shuō)話(huà)方式進(jìn)行識(shí)別??紤]到不同人的說(shuō)話(huà)方式不同、說(shuō)話(huà)習(xí)慣不同,因此,對(duì)于同一個(gè)問(wèn)題提問(wèn)的方式也會(huì)不同。但是對(duì)于機(jī)器而言,面對(duì)同一問(wèn)題,顧客提問(wèn)方式雖然不同,但做出的回答應(yīng)當(dāng)是完全相同的。這就要求把對(duì)同一問(wèn)題的不同提問(wèn)方式進(jìn)行學(xué)習(xí),從而做出回復(fù)。6.1.5應(yīng)用場(chǎng)景6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注(3)廣告行業(yè):對(duì)某產(chǎn)品進(jìn)行廣告設(shè)計(jì)時(shí),通常會(huì)把類(lèi)別相近的且銷(xiāo)量較高的商品文案相互借鑒,把已經(jīng)有的單個(gè)商品文案進(jìn)行綜合,取其精華、去其糟粕,通過(guò)文本數(shù)據(jù)標(biāo)注把文案中的“精華”與“糟粕”標(biāo)記出來(lái),這讓文案設(shè)計(jì)工作者可以在案例中進(jìn)行提取綜合,這無(wú)疑提高了工作人員的工作效率。(4)金融行業(yè):在企業(yè)的商務(wù)合同中,關(guān)鍵信息的讀取顯得尤為重要。例如:合同中提到的公司名稱(chēng)、合同編號(hào)、發(fā)票編號(hào)、相關(guān)金額、到期日期和風(fēng)險(xiǎn)提示等內(nèi)容,這些內(nèi)容囊括了甲乙雙方公司的核心信息。對(duì)于一個(gè)規(guī)模較大的公司來(lái)說(shuō),每天的簽約合同特別之多,這時(shí)用人工智能對(duì)合同中的相關(guān)信息進(jìn)行提取,可以大幅削減勞動(dòng)力,降低人力成本、提高工作效率。6.1.5應(yīng)用場(chǎng)景6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介人工智能技術(shù)應(yīng)用核心課程系列教材6.2文本數(shù)據(jù)標(biāo)注工具6.3序列標(biāo)注方法舉例6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.6本章小結(jié)6.7作業(yè)與練習(xí)常用的開(kāi)源文本標(biāo)注工具包括:Doccano、YEDDA、Chinese-Annotator、IEPY、DeepDive和BRAT,具體介紹如下。(1)Doccano:是一個(gè)開(kāi)源文本標(biāo)注工具,它供應(yīng)了文本分類(lèi)、序列標(biāo)記和序列到序列任務(wù)的標(biāo)注功能。因此,可以為情感分析、命名實(shí)體識(shí)別、文本摘要等標(biāo)注任務(wù)創(chuàng)建帶標(biāo)簽的數(shù)據(jù)。Doccano序列標(biāo)注任務(wù)界面如下圖所示。6.2.1開(kāi)源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(2)YEDDA:是一個(gè)針對(duì)實(shí)體類(lèi)的開(kāi)源文本注釋工具,它供應(yīng)了序列標(biāo)記的標(biāo)注功能。YEDDA為文本跨度標(biāo)注供應(yīng)了一個(gè)系統(tǒng)的解決方案,從協(xié)作用戶(hù)標(biāo)注到管理員評(píng)估和分析。它克服了傳統(tǒng)文本注釋工具效率低下的問(wèn)題,通過(guò)吩咐行和快捷鍵對(duì)實(shí)體進(jìn)行注釋?zhuān)@些實(shí)體可配置自定義標(biāo)簽。下圖為YEDDA進(jìn)行序列標(biāo)注任務(wù)的界面。6.2.1開(kāi)源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(3)Chinese-Annotator:是一款智能中文文本標(biāo)注工具,擁有簡(jiǎn)潔的標(biāo)注環(huán)境與智能的學(xué)習(xí)算法,能夠進(jìn)行線(xiàn)下學(xué)習(xí)。該標(biāo)注工具標(biāo)注界面自不待言地友好,讓標(biāo)注操作盡可能簡(jiǎn)便和符合直覺(jué)。標(biāo)注框架是一個(gè)較為完整的系統(tǒng),包括前端、后臺(tái)與數(shù)據(jù)庫(kù)。下圖為Chinese-Annotator的標(biāo)注界面。6.2.1開(kāi)源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(4)

IEPY:是一個(gè)專(zhuān)注于關(guān)系提取的信息提取開(kāi)源工具。操作界面如下圖所示。6.2.1開(kāi)源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(5)DeepDive:與IEPY類(lèi)似,也是針對(duì)信息抽取類(lèi)型任務(wù)的開(kāi)源標(biāo)注工具,DeepDive特別適合信息抽取,是構(gòu)建學(xué)問(wèn)庫(kù)的利器。能夠基于詞性標(biāo)注、句法分析等通過(guò)各種文本規(guī)則實(shí)現(xiàn)實(shí)體之間關(guān)系的抽取,同時(shí)可面對(duì)異構(gòu)、海量的數(shù)據(jù)。下圖為DeepDive的標(biāo)注界面。6.2.1開(kāi)源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(6)BRAT:這個(gè)工具可以用于各種自然語(yǔ)言處理(NLP)任務(wù),該工具是為實(shí)體識(shí)別和關(guān)系抽取設(shè)計(jì)的。BRAT服務(wù)器是一個(gè)Python程序,默認(rèn)狀況運(yùn)用烏班圖(Ubuntu)操作系統(tǒng),網(wǎng)頁(yè)閱讀器運(yùn)用谷歌閱讀器。下圖為BRAT的標(biāo)注界面。6.2.1開(kāi)源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注本部分以數(shù)據(jù)堂的文本數(shù)據(jù)標(biāo)注工具為樣例介紹典型的幾種文本數(shù)據(jù)標(biāo)注工具。(1)韻律標(biāo)注:韻律原指詩(shī)詞中的平仄格式和押韻規(guī)則,后引申為音響的節(jié)奏規(guī)律。這里的韻律是指句子中字詞之間的停頓,大多數(shù)狀況下,我們不能完全沒(méi)有停頓地說(shuō)一句話(huà),總會(huì)或長(zhǎng)或短的有些停頓,這些停頓就是我們要標(biāo)注韻律符號(hào)的位置,依據(jù)停頓長(zhǎng)度不同,韻律符號(hào)也會(huì)相應(yīng)發(fā)生變更。韻律標(biāo)注界面如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具運(yùn)用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(2)詞性標(biāo)注:詞性標(biāo)注是文本數(shù)據(jù)標(biāo)注的一種形式,詞性標(biāo)注工具可對(duì)文本內(nèi)容進(jìn)行實(shí)體名稱(chēng)、實(shí)體屬性、實(shí)體關(guān)系標(biāo)注,下圖為實(shí)體標(biāo)注工具,實(shí)體標(biāo)注工具具有實(shí)體名稱(chēng)列表、文本顯示區(qū)、屬性編輯框、標(biāo)注列表、工具欄等,能夠進(jìn)行選中文本、新建/編輯/刪除實(shí)體標(biāo)注操作,同時(shí)支持自定義標(biāo)簽功能。6.2.2文本數(shù)據(jù)標(biāo)注工具運(yùn)用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(3)詞性(實(shí)體)關(guān)系標(biāo)注:須要先對(duì)文本進(jìn)行實(shí)體標(biāo)注,然后對(duì)實(shí)體之間進(jìn)行實(shí)體的關(guān)系標(biāo)注。相關(guān)聯(lián)的實(shí)體會(huì)通過(guò)一條線(xiàn)進(jìn)行關(guān)聯(lián),示意圖如下。6.2.2文本數(shù)據(jù)標(biāo)注工具運(yùn)用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(4)音調(diào)多音字標(biāo)注:通俗地講,就是給一個(gè)多音字加讀音,例如“駢”讀音(pián),便(pián)宜等。通過(guò)音調(diào)多音字標(biāo)注工具,實(shí)現(xiàn)快速的標(biāo)注。首先通過(guò)算法把一段文本的多音字識(shí)別出來(lái),與原始文本一起導(dǎo)入平臺(tái),模板會(huì)同時(shí)將文本和讀音加載顯示在標(biāo)注頁(yè)面。多音字標(biāo)注平臺(tái)示意圖如下。6.2.2文本數(shù)據(jù)標(biāo)注工具運(yùn)用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(5)語(yǔ)義標(biāo)注:是文本數(shù)據(jù)標(biāo)注的一種形式,針對(duì)交互的短文本進(jìn)行理解,標(biāo)注出文本的意圖。語(yǔ)義標(biāo)注工具可進(jìn)行意圖標(biāo)注以及設(shè)置自定義標(biāo)簽。語(yǔ)義標(biāo)注首先是要自定義標(biāo)簽,自定義標(biāo)簽包括意圖級(jí)別配置、功能配置、預(yù)識(shí)別配置等,語(yǔ)義標(biāo)注平臺(tái)如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具運(yùn)用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(6)閱讀理解:模板區(qū)域和實(shí)體標(biāo)注的基本一樣,不同之處在于右側(cè)顯示的是問(wèn)答標(biāo)注列表,可以在該處進(jìn)行問(wèn)答填寫(xiě),同時(shí)底部也沒(méi)有工具欄,下圖展示的是閱讀理解標(biāo)注展示界面。6.2.2文本數(shù)據(jù)標(biāo)注工具運(yùn)用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(7)標(biāo)注精確率計(jì)算:數(shù)據(jù)質(zhì)檢完成后,依據(jù)標(biāo)注結(jié)果與質(zhì)檢結(jié)果比對(duì)狀況,計(jì)算標(biāo)注的精確率,標(biāo)注人員和質(zhì)檢人員均可以在任務(wù)執(zhí)行狀況頁(yè)面查看實(shí)時(shí)的精確率,精確率統(tǒng)計(jì)界面如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具運(yùn)用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注標(biāo)注工具對(duì)于數(shù)據(jù)產(chǎn)品生產(chǎn)任務(wù)至關(guān)重要,一個(gè)好的標(biāo)注工具能夠大大削減標(biāo)注過(guò)程中出現(xiàn)的問(wèn)題,削減標(biāo)注人員出現(xiàn)的錯(cuò)誤,提高數(shù)據(jù)產(chǎn)品生產(chǎn)效率與數(shù)據(jù)質(zhì)量。那么一款優(yōu)秀的標(biāo)注工具應(yīng)當(dāng)具備什么樣的條件呢?這里給出以下幾個(gè)思索方面:(1)擴(kuò)展性強(qiáng);(2)操作便捷;(3)容錯(cuò)性強(qiáng);(4)數(shù)據(jù)存儲(chǔ)穩(wěn)定;(5)數(shù)據(jù)導(dǎo)出格式多樣;(6)支持預(yù)識(shí)別算法;(7)支持多語(yǔ)種;(8)網(wǎng)頁(yè)版。6.2.3優(yōu)秀的標(biāo)注工具應(yīng)具備的條件6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.7作業(yè)與練習(xí)項(xiàng)目背景:顧客在點(diǎn)外賣(mài)時(shí),首先考慮的第一個(gè)問(wèn)題是要買(mǎi)什么,即商品的類(lèi)別是什么,其次個(gè)問(wèn)題就是商品的品牌是什么、規(guī)格怎樣,第三個(gè)問(wèn)題就是顧客本身對(duì)某些特定產(chǎn)品的偏好。而商家在接到顧客的外賣(mài)訂單時(shí),考慮到的第一個(gè)問(wèn)題就是顧客的需求如何,應(yīng)當(dāng)供應(yīng)什么樣的商品,其次個(gè)問(wèn)題就是顧客的位置,如何給顧客送達(dá)。標(biāo)注目的:標(biāo)注結(jié)果用于訓(xùn)練外賣(mài)成分識(shí)別模型,優(yōu)化來(lái)自外賣(mài)意圖的召回和排序效果。標(biāo)注內(nèi)容:在句中劃詞并選擇標(biāo)簽。標(biāo)注?員須要對(duì)用戶(hù)搜尋的意圖進(jìn)行推斷,確定查詢(xún)?cè)~的邊界以及對(duì)應(yīng)的成分類(lèi)型;對(duì)于模糊查詢(xún),須要借助搜尋引擎來(lái)推斷查詢(xún)的意圖;假如存在多種分析結(jié)果,就填寫(xiě)多次,按粗粒度、細(xì)粒度依次填寫(xiě)外賣(mài)成分識(shí)別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注流程:依據(jù)項(xiàng)目要求,須要標(biāo)注的內(nèi)容如下表所示。外賣(mài)成分識(shí)別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注內(nèi)容符號(hào)地址L品牌B其它U品類(lèi)C口味AT商品描述屬性AS用戶(hù)需求屬性AU規(guī)格AQ食物類(lèi)別S標(biāo)注結(jié)果:部分標(biāo)注結(jié)果如下表所示。外賣(mài)成分識(shí)別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注querylabel新都榴蓮蛋糕新都/L;榴蓮/AS;蛋糕/S睡眠美白面膜睡眠/AU;美白/AU;面膜/S秦鎮(zhèn)米皮臘汁肉夾饃秦鎮(zhèn)/L;米皮/S;臘汁/AS;肉夾饃/S第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.4關(guān)系標(biāo)注方法舉例6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.5屬性標(biāo)注方法案例6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.7作業(yè)與練習(xí)標(biāo)注內(nèi)容:給定新聞文章內(nèi)容,要求標(biāo)注員依據(jù)文章內(nèi)容提出問(wèn)題,并對(duì)問(wèn)題進(jìn)行回答。標(biāo)注過(guò)程:一次標(biāo)注過(guò)程中,系統(tǒng)會(huì)在頁(yè)面左側(cè)顯示文章內(nèi)容并依據(jù)段落劃分好。(1)標(biāo)注者快速閱讀段落內(nèi)容。(2)提問(wèn)。標(biāo)注員在右側(cè)輸入框內(nèi)輸入標(biāo)注者依據(jù)段落內(nèi)容想到的問(wèn)題,要求問(wèn)題與段落內(nèi)容相關(guān),標(biāo)注員自己組織語(yǔ)言提問(wèn),不得復(fù)制文章內(nèi)容當(dāng)作問(wèn)題,問(wèn)題表述與段落內(nèi)容差異越大越好。(3)標(biāo)記問(wèn)題答案。標(biāo)注員依據(jù)問(wèn)題和段落內(nèi)容,在段落中選擇答案所在位置。要求選出全部答案,在選擇過(guò)程中依據(jù)答案與問(wèn)題匹配程度的由高到低選取。段落開(kāi)頭有類(lèi)似“####”的特殊標(biāo)記,標(biāo)注者首先選擇可以正確回答問(wèn)題的答案,然后選擇這個(gè)特殊標(biāo)記作為分隔,之后選出看似是答案但是實(shí)際不能正確回答問(wèn)題的可以答案。中文閱讀理解分析案例6.4

關(guān)系標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注示例:段落內(nèi)容為:####石墨烯如此低的電阻率自然是動(dòng)力電池的最好材料,也有數(shù)據(jù)顯示,石墨烯聚合材料電池的重量?jī)H為傳統(tǒng)電池50%,成本將比鋰電池低77%,且石墨烯鋰電池充電一次,耗時(shí)也不超過(guò)10分鐘。不過(guò)有關(guān)石墨烯電池的說(shuō)法已經(jīng)流傳了很久,至今沒(méi)有實(shí)際的落地,榮耀手機(jī)不大可能會(huì)進(jìn)行“技術(shù)大躍進(jìn)”。標(biāo)注員給出問(wèn)題及答案示例如下:?jiǎn)栴}1:石墨烯電池的成本怎么樣?答案1:比鋰電池低77%答案2:####答案3:僅為傳統(tǒng)電池50%(說(shuō)明:答案1為問(wèn)題的正確回答,答案2是正確答案與可疑答案的分隔,答案3是可疑答案,因?yàn)閮H看答案貌似可以回答問(wèn)題,但是結(jié)合段落上下文可知50%是指重量,非成本。)中文閱讀理解分析案例6.4

關(guān)系標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.5屬性標(biāo)注方法案例6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.4關(guān)系標(biāo)注方法舉例6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.7作業(yè)與練習(xí)項(xiàng)目背景:在人與機(jī)器的語(yǔ)音通話(huà)中,能夠?qū)㈩櫩蛦?wèn)題精準(zhǔn)定位是特別必要的??紤]到不同人的說(shuō)話(huà)方式不同、說(shuō)話(huà)習(xí)慣不同,因此,對(duì)于同一個(gè)問(wèn)題提問(wèn)的方式也會(huì)不同。但是對(duì)于機(jī)器而言,面對(duì)同一問(wèn)題,顧客提問(wèn)方式雖然不同,但做出的回答應(yīng)當(dāng)是完全相同的。這就要求把對(duì)同一問(wèn)題的不同提問(wèn)方式進(jìn)行學(xué)習(xí),從而進(jìn)行回復(fù)。標(biāo)注需求:在電話(huà)對(duì)話(huà)場(chǎng)景下,語(yǔ)音轉(zhuǎn)為文本作為數(shù)據(jù),因此標(biāo)注過(guò)程中須要充分考慮到這一環(huán)境,對(duì)可能存在的干擾數(shù)據(jù)進(jìn)行解除。6.5.1語(yǔ)音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注規(guī)范:(1)在各個(gè)類(lèi)別中,每個(gè)類(lèi)別代表一個(gè)用戶(hù)意圖,其對(duì)應(yīng)的句子語(yǔ)義表達(dá)跟類(lèi)別意圖相同或不相同。須要將與意圖相同的句子標(biāo)注為1,與意圖不相同的標(biāo)注為0;(2)表達(dá)語(yǔ)義明確,但存在干擾信息的句子中,與意圖相同的句子標(biāo)注為1,與意圖不相同的標(biāo)注為0;(3)表達(dá)語(yǔ)義不明確的句子,依據(jù)不相關(guān)進(jìn)行處理,即標(biāo)注為”0”;(4)數(shù)據(jù)標(biāo)注精確率要求達(dá)到98%.6.5.1語(yǔ)音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注結(jié)果示例:客戶(hù)-客戶(hù)在忙標(biāo)注6.5.1語(yǔ)音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注結(jié)果示例:公司—什么公司標(biāo)注6.5.1語(yǔ)音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注項(xiàng)目背景:近年來(lái),隨著論壇、點(diǎn)評(píng)、微博、微信和QQ等語(yǔ)言社交軟件平臺(tái)的快速發(fā)展。在社交平臺(tái)上的帖子干脆關(guān)系到了企業(yè)形象的重塑等相關(guān)問(wèn)題探討,這些帖子在無(wú)形中左右了公眾的心情和情感,深刻地影響了我們社會(huì)發(fā)展。當(dāng)我們?cè)诟袊@人言可畏的同時(shí),對(duì)政府的輿情系統(tǒng)也提出了重大考驗(yàn)。社交平臺(tái)上公眾

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論