《移動(dòng)端智能交互命名實(shí)體標(biāo)注規(guī)范》_第1頁(yè)
《移動(dòng)端智能交互命名實(shí)體標(biāo)注規(guī)范》_第2頁(yè)
《移動(dòng)端智能交互命名實(shí)體標(biāo)注規(guī)范》_第3頁(yè)
《移動(dòng)端智能交互命名實(shí)體標(biāo)注規(guī)范》_第4頁(yè)
《移動(dòng)端智能交互命名實(shí)體標(biāo)注規(guī)范》_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

35.240.99

L70CES

團(tuán)體標(biāo)準(zhǔn)

T/CESXXX-XXXX

移動(dòng)端智能交互命名實(shí)體標(biāo)注規(guī)范

MobileIntelligentInteractiveNamedEntity

AnnotationSpecification

(征求意見(jiàn)稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

1

T/CESXXXXXXX

-

1范圍

本標(biāo)準(zhǔn)規(guī)定了移動(dòng)端智能交互訓(xùn)練時(shí)命名實(shí)體(包括狹義和廣義命名實(shí)體)標(biāo)注的基本

要求、流程和規(guī)范。

本標(biāo)準(zhǔn)適用于各單位進(jìn)行移動(dòng)端智能交互命名實(shí)體模型開(kāi)發(fā)時(shí)的樣本標(biāo)注和樣本入庫(kù)

的統(tǒng)一管理,包括樣本的質(zhì)量管控、樣本標(biāo)注的技術(shù)管控和流程管控。

2規(guī)范性引用文件

下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適

用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T5271.28—2001信息技術(shù)詞匯第28部分人工智能基本概念與專家系統(tǒng)

T/CESA1040—2019信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程

Q/GDW12118.1~12118.3—2021人工智能平臺(tái)架構(gòu)及技術(shù)要求

GB/T18521—2001我國(guó)地名分類與分類代碼編制規(guī)則

2007.3.12命名實(shí)體語(yǔ)料標(biāo)注規(guī)范

3術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

3.1

命名實(shí)體namedentity

1)狹義講,命名實(shí)體是唯一個(gè)體的專有名稱。狹義命名實(shí)體具備三個(gè)充要屬性。屬性

a.符號(hào)性:命名實(shí)體是一個(gè)區(qū)別性稱謂,具有代號(hào)性質(zhì);命名實(shí)體并不排除蘊(yùn)含義,但蘊(yùn)

含義不是命名實(shí)體的必然屬性。屬性b.個(gè)體性:命名實(shí)體所指稱的事物不可向下分類,因

為類是對(duì)群體區(qū)分的結(jié)果(但任何事物都是一個(gè)過(guò)程,都是一個(gè)和合態(tài),所以,既可以按階

段劃分,也可以分解成部分)。屬性c.唯一性:命名實(shí)體所指稱的事物是世上獨(dú)一無(wú)二的,

通常不以數(shù)量詞修飾;一旦飾以數(shù)量詞,命名實(shí)體便轉(zhuǎn)義了。

2)廣義講,除狹義命名實(shí)體之外,命名實(shí)體還包括對(duì)一類事物的非概念性稱謂。對(duì)一

類事物的命名可劃分為概念性命名和非概念性命名兩種方式。概念性命名是通過(guò)自然語(yǔ)義和

構(gòu)詞法來(lái)規(guī)定事物內(nèi)涵的,如:月門(mén)、拱橋;非概念性命名是通過(guò)不表明事物內(nèi)涵的飾詞(一

般充當(dāng)命名實(shí)體飾名)來(lái)指稱一類事物的,如:“丁達(dá)爾現(xiàn)象,一二次設(shè)備”。廣義命名實(shí)

體一般只具備符號(hào)性,不具備個(gè)體性和唯一性。

3.2

樣本數(shù)據(jù)sampledata

其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個(gè)體數(shù)據(jù)。

[Q/GDW12118.1—2021定義3.5]

3.3

標(biāo)注corpusannotation

采用人工或計(jì)算機(jī)自動(dòng)方式對(duì)樣本的屬性或特征進(jìn)行描述,可用于實(shí)用的目的,如客戶

服務(wù)或資訊獲取等。

[Q/GDW1906—2013定義3.5]

3.4

標(biāo)簽label

標(biāo)識(shí)數(shù)據(jù)的特征、類別和屬性等內(nèi)容,可用于建立數(shù)據(jù)及深度學(xué)習(xí)訓(xùn)練要求所定義的機(jī)

器可讀數(shù)據(jù)編碼間的聯(lián)系。

[T/CESA1040—2019定義3.2]

1

T/CESXXXXXXX

-

3.5

分詞participle

將連續(xù)的字符序列切分成一個(gè)個(gè)單獨(dú)的詞。

3.6

標(biāo)注工具annotationtool

標(biāo)注人員執(zhí)行標(biāo)注任務(wù)生成標(biāo)注結(jié)果的過(guò)程中使用的工具和軟件。標(biāo)注工具按照自動(dòng)化

程度分手動(dòng)、半自動(dòng)和自動(dòng)三種。

[T/CESA1040—2019定義3.5]

4縮略語(yǔ)

下列縮略語(yǔ)適用于本文件。

BIOES:BIOES標(biāo)注模式(B-begin,I-inside,O-outside,E-end,S-single)

JSON:JavaScript對(duì)象表示法(JavaScriptObjectNotation)

WAV:窗波(WindowsWave)

XML:可擴(kuò)展的標(biāo)記語(yǔ)言(ExtensibleMarkupLanguage)

5總則

本文件共分為樣本基本要求、樣本標(biāo)注規(guī)范、標(biāo)注任務(wù)流程三部分??倓t內(nèi)容概要參見(jiàn)

表1:

表1總則內(nèi)容概要

序號(hào)內(nèi)容概要

樣本基本要

1體現(xiàn)文本類樣本要求規(guī)范

樣本標(biāo)注要

2包括文本類樣本詞性、關(guān)系、命名等標(biāo)注規(guī)范

標(biāo)注任務(wù)流根據(jù)業(yè)務(wù)需求和給出的人名、職名、地名等常見(jiàn)實(shí)體分類標(biāo)準(zhǔn)進(jìn)行

3

程要求標(biāo)注

6樣本基本要求

6.1文本文件存儲(chǔ)格式要求

文本數(shù)據(jù)應(yīng)采用txt、csv、JSON、xls、xlsx、XML存儲(chǔ)格式。

6.2文本文件命名要求

文本文件名稱應(yīng)由四個(gè)部分組成:

a)第一部分為項(xiàng)目命名詞或文本來(lái)源;

b)第二部分為當(dāng)前文本文件的專業(yè)信息;

c)第三部分為原始源文件生成時(shí)的日期,日期格式:YYYY-MM-DD;

d)第四部分為文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù)。

e)這四部分用下劃線連接,且文件名稱長(zhǎng)度和擴(kuò)展名在內(nèi)最大長(zhǎng)度不超過(guò)100個(gè)字符

(包含中英文字符和特殊字符);

6.3文本類樣本質(zhì)量要求

文本類樣本質(zhì)量應(yīng)滿足下述要求:

a)應(yīng)支持計(jì)算機(jī)正常讀取,文本內(nèi)容無(wú)亂碼;

b)內(nèi)容應(yīng)滿足相關(guān)業(yè)務(wù)需求;

2

T/CESXXXXXXX

-

c)應(yīng)使用UTF-8編碼。

6.4文本樣本描述文件

每批次文本樣本集應(yīng)有一個(gè)描述文件,應(yīng)滿足下述要求:

a)存儲(chǔ)格式應(yīng)為txt格式;

b)命名應(yīng)由三個(gè)部分組成:

1)項(xiàng)目命名詞或樣本來(lái)源;

2)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;

3)文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù);

4)這四部分用下劃線連接,且文件名稱長(zhǎng)度和擴(kuò)展名在內(nèi)最大長(zhǎng)度不超過(guò)100個(gè)

字符(包含中英文字符和特殊字符);

c)文檔內(nèi)容應(yīng)描述本樣本集的基本信息,應(yīng)包括樣本所屬項(xiàng)目、樣本來(lái)源、創(chuàng)建日期、

樣本上傳單位及聯(lián)系人、樣本量、樣本用途等信息。

7樣本標(biāo)注要求

7.1基本要求

應(yīng)滿足標(biāo)注對(duì)象范圍、標(biāo)注方式、標(biāo)注文件命名要求。具體要求包括:

a)文本類樣本標(biāo)注應(yīng)支持詞、句子、整個(gè)文本等不同范圍的標(biāo)注;

b)文本類樣本標(biāo)注應(yīng)支持序列標(biāo)注、指針標(biāo)注、多頭標(biāo)注等多種標(biāo)注方式;

c)序列標(biāo)注應(yīng)采用B、I、E、O、S標(biāo)簽列表,宜采用BIO、BIOES標(biāo)簽方案進(jìn)行標(biāo)注。

7.2單類詞詞性標(biāo)注要求

對(duì)于單類詞,在標(biāo)注時(shí)應(yīng)確定其詞性。

7.3多類詞詞性標(biāo)注要求

對(duì)于多類詞,應(yīng)滿足多種多類詞標(biāo)注規(guī)則。

7.4實(shí)體抽取樣本標(biāo)注要求

實(shí)體抽取樣本標(biāo)注應(yīng)滿足下述要求:

a)樣本標(biāo)注前應(yīng)定義實(shí)體語(yǔ)義類型,包含實(shí)體名稱與層次結(jié)構(gòu);

b)若實(shí)體包含屬性,應(yīng)定義屬性名稱與屬性值。

7.5實(shí)體關(guān)系抽取樣本標(biāo)注要求

實(shí)體關(guān)系抽取應(yīng)滿足下述要求:

a)樣本標(biāo)注前應(yīng)定義實(shí)體語(yǔ)義類型與關(guān)系;

b)關(guān)系定義應(yīng)包含關(guān)系類型與相關(guān)實(shí)體信息,起始實(shí)體與目標(biāo)實(shí)體,關(guān)系為單向或雙

向等信息。

7.6事件抽取樣本標(biāo)注要求

事件抽取樣本應(yīng)滿足下述要求:

a)樣本標(biāo)注前應(yīng)定義實(shí)體語(yǔ)義類型與事件類型;

b)事件抽取樣本應(yīng)包含事件;

c)文本樣本應(yīng)具有正確的詞性分析,事件觸發(fā)詞宜為名詞或動(dòng)詞;

d)若事件具有屬性,應(yīng)定義屬性名稱與屬性值。

7.7標(biāo)注文件命名與存儲(chǔ)要求

標(biāo)注文件應(yīng)由兩部分組成,第一部分與對(duì)應(yīng)標(biāo)注文本命名一致,第二部分為“-bz”,

應(yīng)保存為txt格式。

8樣本標(biāo)注流程

8.1總體要求

3

T/CESXXXXXXX

-

樣本標(biāo)注應(yīng)包含樣本檢查、安全管控、標(biāo)注工具選擇、標(biāo)注任務(wù)開(kāi)展、標(biāo)注結(jié)果收集和

標(biāo)注結(jié)果檢查環(huán)節(jié)。

8.2樣本檢查

在樣本標(biāo)注前應(yīng)按照本文標(biāo)注樣本要求對(duì)待標(biāo)注樣本進(jìn)行檢查,應(yīng)根據(jù)業(yè)務(wù)需求和樣本

的數(shù)量采用全量檢查或抽樣檢查,方式如下:

a)全量檢查應(yīng)對(duì)指定范圍內(nèi)的所有樣本進(jìn)行逐條檢查;

b)抽樣檢查可采用隨機(jī)抽樣或分層抽樣,方式如下:

1)隨機(jī)抽樣,即:針對(duì)不同業(yè)務(wù)類型的數(shù)據(jù)樣本采用隨機(jī)抽樣進(jìn)行檢查;

2)分層抽樣,即:針對(duì)同一業(yè)務(wù)類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽

樣的方式進(jìn)行檢查。

8.3安全管控

應(yīng)滿足對(duì)標(biāo)注環(huán)境及標(biāo)注人員的安全管控要求。具體要求包括:

a)標(biāo)注過(guò)程應(yīng)在內(nèi)網(wǎng)環(huán)境下的指定機(jī)器中進(jìn)行,機(jī)器應(yīng)開(kāi)啟防火墻,安裝殺毒軟件,

并禁用USB接口功能。機(jī)器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,

防止數(shù)據(jù)丟失或泄露;

b)標(biāo)注人員應(yīng)經(jīng)過(guò)標(biāo)注工作培訓(xùn)并簽署樣本標(biāo)注保密協(xié)議后才可上崗操作。

8.4標(biāo)注工具

應(yīng)使用滿足移動(dòng)端智能交互命名實(shí)體模型開(kāi)發(fā)要求的標(biāo)注工具或與其格式相兼容的標(biāo)

注工具進(jìn)行標(biāo)注。

8.5樣本標(biāo)注結(jié)果收集

標(biāo)注結(jié)果收集應(yīng)滿足以下具體要求:

a)樣本標(biāo)注結(jié)果應(yīng)由統(tǒng)一的人員進(jìn)行回收和存放,防止文件外泄;

b)標(biāo)注結(jié)果收集人員應(yīng)對(duì)樣本標(biāo)注結(jié)果的相關(guān)信息(包括任務(wù)名稱、任務(wù)類型、任務(wù)

開(kāi)始時(shí)間、任務(wù)結(jié)束時(shí)間、任務(wù)描述進(jìn)行核對(duì))進(jìn)行檢查,防止文件遺漏;

c)標(biāo)注結(jié)果收集人員,宜按照樣本類型(圖像視頻,語(yǔ)音和文字)和標(biāo)注方式(圖像

標(biāo)注包括圖像分類、圖像目標(biāo)檢測(cè)、圖像分割;文本標(biāo)注包括文本分類、文本標(biāo)注;音頻標(biāo)

注包括音頻分類、音頻標(biāo)注)進(jìn)行分類保存。

8.6樣本標(biāo)注結(jié)果檢查

在樣本標(biāo)注結(jié)果收集后應(yīng)按照本文第7章要求對(duì)標(biāo)注結(jié)果進(jìn)行檢查,應(yīng)根據(jù)業(yè)務(wù)需求和

樣本標(biāo)注的數(shù)量采用全量檢查或抽樣檢查,方式如下:

a)全量檢查應(yīng)對(duì)指定范圍內(nèi)的所有樣本進(jìn)行逐條檢查;

b)抽樣檢查可采用隨機(jī)抽樣或分層抽樣,方式如下:

1)隨機(jī)抽樣,即:針對(duì)不同業(yè)務(wù)類型的數(shù)據(jù)樣本采用隨機(jī)抽樣進(jìn)行檢查;

2)分層抽樣,即:針對(duì)同一業(yè)務(wù)類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽

樣的方式進(jìn)行檢查。

9標(biāo)注任務(wù)開(kāi)展

9.1基本要求

應(yīng)根據(jù)業(yè)務(wù)需求和命名實(shí)體分類進(jìn)行標(biāo)注。

9.2人名標(biāo)注規(guī)范

9.2.1人名相關(guān)定義

狹義人名即個(gè)人專有名稱,如:李華。廣義人名指含有姓或名的個(gè)人稱謂,如:大志先

生。人名全稱:指應(yīng)有的姓、名的全稱。人名簡(jiǎn)稱,指省略了應(yīng)有的姓、名構(gòu)件或部分的所

4

T/CESXXXXXXX

-

有人名稱謂方式。人名擴(kuò)展:與人名右緊鄰、被人名直接或間接修飾,并與人名一起表人稱

的詞或緊密短語(yǔ)。如:小明媽媽,居里夫人。

根據(jù)項(xiàng)目研究目的,可以按照人名的文字特征、稱謂方式及人的工作信息三個(gè)標(biāo)準(zhǔn)對(duì)人

名進(jìn)行分類。按文字特征和稱謂方式對(duì)人名分類有助于人名自動(dòng)識(shí)別。

9.2.2按文字特征對(duì)人名分類

按文字特征對(duì)人名進(jìn)行分類,分為漢字人名、非漢字人名、混合人名。詳細(xì)分類見(jiàn)附表

A.1。

9.2.3按稱謂方式對(duì)人名分類

根據(jù)稱謂方式對(duì)人名分類可以從實(shí)語(yǔ)料中統(tǒng)計(jì)得到人的稱謂模式。人的稱謂模式是某些

稱謂構(gòu)件的組合方式?,F(xiàn)將漢字人名的常用稱謂構(gòu)件歸納為17種:姓、名男、名女、性、

職、敬、昵、親、諱、序、諢、化、字、帝、譯、符、其他。詳見(jiàn)附表A.2。

9.2.4按職業(yè)對(duì)人名分類

根據(jù)職業(yè)對(duì)人名分類可主要依據(jù)由勞動(dòng)和社會(huì)保障部、國(guó)家質(zhì)量技術(shù)監(jiān)督局、國(guó)家統(tǒng)計(jì)

局聯(lián)合組織編制、1999年5月正式頒布的《中華人民共和國(guó)職業(yè)分類大典》進(jìn)行。該書(shū)將

我國(guó)職業(yè)歸為8個(gè)大類,66個(gè)中類,413個(gè)小類,1838個(gè)細(xì)類(職業(yè)),每個(gè)職業(yè)都已經(jīng)

編碼。2005年新增10項(xiàng)職業(yè)。8個(gè)大類分別是:第一大類:國(guó)家機(jī)關(guān)、黨群組織、企業(yè)、

事業(yè)單位負(fù)責(zé)人,其中包括5個(gè)中類,16個(gè)小類,25個(gè)細(xì)類:第二大類:專業(yè)技術(shù)人員,

其中包括14個(gè)中類,115個(gè)小類,379個(gè)細(xì)類;第三大類:辦事人員和有關(guān)人員,其中包括

4個(gè)中類,12個(gè)小類,45個(gè)細(xì)類:第四大類:商業(yè)、服務(wù)業(yè)人員,其中包括8個(gè)中類,43

個(gè)小類,147個(gè)細(xì)類;第五大類:農(nóng)、林、牧、漁、水利業(yè)生產(chǎn)人員,其中包括6個(gè)中類,

30個(gè)小類,121個(gè)細(xì)類;第六大類:生產(chǎn)、運(yùn)輸設(shè)備操作人員及有關(guān)人員,其中包括27個(gè)

中類,195個(gè)小類,1119個(gè)細(xì)類;第七大類:軍人,其中包括1個(gè)中類,1個(gè)小類,1個(gè)細(xì)

類:第八大類:不便分類的其他從業(yè)人員,其中包括1個(gè)中類,1個(gè)小類,1個(gè)細(xì)類。在今

后使用中,可以此為母本進(jìn)行適用性改造。

9.3職名標(biāo)注規(guī)范

9.3.1職名定義及相關(guān)說(shuō)明

職名:職務(wù)、職稱、職業(yè)、職位名稱的合稱。

職務(wù)名稱:組織機(jī)構(gòu)中有職權(quán)的崗位名稱。如:教務(wù)長(zhǎng)、處長(zhǎng)、秘書(shū)長(zhǎng)、主席、經(jīng)理等。

職業(yè)名稱:表明所從事行業(yè)的人的職能身份名稱。如:教師、公務(wù)員、程序員、商人、

秘書(shū)、運(yùn)動(dòng)員等?!肮韭殕T”、“職工”“白領(lǐng)”等不表明所從事行業(yè),“商業(yè)”、“教

育”、“體育”等不表明人的職能身份,這些都不是職業(yè)名稱。

職稱名稱:有統(tǒng)一規(guī)范的職業(yè)級(jí)別的細(xì)分名稱。如:教授、講師、研究員等。職位名稱:

表示某機(jī)構(gòu)的某個(gè)崗位的名稱。職位名規(guī)則:機(jī)構(gòu)名+職務(wù)名:澗量公司總經(jīng)理;或機(jī)構(gòu)名+

職稱名:澗量公司研究員。

職名并不屬于命名實(shí)體范疇,雖然它能充當(dāng)命名實(shí)體的構(gòu)件和屬性;但由于它和命名實(shí)

體聯(lián)系密切且具有重要的情報(bào)價(jià)值,所以將職名特別地在命名實(shí)體標(biāo)注中同時(shí)予以標(biāo)注。

9.3.22.職名分類、構(gòu)件、代碼、歸類標(biāo)準(zhǔn)、標(biāo)注原則與式樣

職名可分為職業(yè)名稱、職務(wù)名稱、職稱名稱。根據(jù)各自定義,職務(wù)名稱不必須表明所從

事行業(yè)、職業(yè),但必須標(biāo)志一定的職權(quán),如:秘書(shū)長(zhǎng)。職業(yè)名稱則必須表明所從事行業(yè)和人

的職能,且不表明職權(quán),如:秘書(shū)。職稱是職業(yè)的技術(shù)等級(jí)細(xì)分,與職務(wù)差別比較明顯,但

有時(shí)與職業(yè)不易區(qū)分。如:圖書(shū)館員本身既是職業(yè)名稱,又是一級(jí)職稱名稱。若不明確指出

職稱、職業(yè)與職稱同名的情況統(tǒng)一視為職業(yè)名稱。詳見(jiàn)附表A.3。

9.4地名標(biāo)注規(guī)范

9.4.1地名相關(guān)定義

5

T/CESXXXXXXX

-

地名(geographicalnames):人們對(duì)各地理實(shí)體賦予的專有名稱。

標(biāo)準(zhǔn)地名(standardgeographicalnames):使用規(guī)范的語(yǔ)言文字書(shū)寫(xiě)的地名全稱。

地名簡(jiǎn)稱(shortenedformsofgeographicalnames):經(jīng)過(guò)官方認(rèn)可或約定俗成的地

名的簡(jiǎn)單稱謂。

地名別名(aliasofgeographicalnames):某一地理實(shí)體的標(biāo)準(zhǔn)地名及其簡(jiǎn)稱以外的

其他現(xiàn)行名稱。

現(xiàn)今地名(underusinggeographicalnames):目前正在使用的地名。

歷史地名(formergeographicalnames):過(guò)去曾經(jīng)使用過(guò)、目前已不再使用的地名。

地名擴(kuò)展:與地名右緊鄰、被地名直接或間接修飾,并與地名一起表處所的詞或緊密短

語(yǔ)。如:長(zhǎng)江以南、李村村西小河。

9.4.2地名分類、構(gòu)件、歸類標(biāo)準(zhǔn)

根據(jù)該項(xiàng)目研究目的,可以按照地名的文字特征、地名所指代地理實(shí)體的空間位置、地

名所指代地理實(shí)體的地理屬性、地名的使用時(shí)間、地名的表示方式五項(xiàng)指標(biāo)作為地名類別劃

分的標(biāo)準(zhǔn)。按照文字特征對(duì)地名進(jìn)行分類有助于地名的自動(dòng)識(shí)別。地名所指代地理實(shí)體的地

理屬性、地名的使用時(shí)間、地名的表示方式五項(xiàng)指標(biāo)是地名最基本、最穩(wěn)定的屬性,以此作

為地名類別劃分的標(biāo)準(zhǔn)能保證分類體系的穩(wěn)定性。這也是我國(guó)對(duì)地名分類所采用的標(biāo)準(zhǔn)。

按照地名所指代地理實(shí)體的空間位置、地名所指代地理實(shí)體的地理屬性、地名的使用時(shí)

間、地名的表示方式對(duì)地名進(jìn)行分類可直接依據(jù)我國(guó)地名分類與分類代碼編制規(guī)則

[GB/T18521—2001]進(jìn)行。其分類原則如下:A.選擇地名最基本、最穩(wěn)定的屬性為分類依據(jù),

保證分類體系的穩(wěn)定性。B.以地名學(xué)、地理學(xué)的學(xué)科分類為基礎(chǔ),盡可能采用相關(guān)國(guó)際、國(guó)

家、行業(yè)分類標(biāo)準(zhǔn),充分吸收新的科研成果,體現(xiàn)分類體系的科學(xué)性、繼承性、兼容性。C.

在體現(xiàn)科學(xué)性的前提下,按地名及相關(guān)行業(yè)對(duì)地名分類的習(xí)慣,以及不同類別地名的數(shù)量和

使用頻率,在具體分類時(shí)作適當(dāng)調(diào)整,提高分類體系的實(shí)用性、通俗性。D.在同一層面使用

統(tǒng)一的分類方法,保證分類體系的系統(tǒng)性、完整性。其分類方法見(jiàn)我國(guó)地名分類與分類代碼

編制規(guī)則[GB/T18521—2001]。

以上國(guó)家對(duì)地名的分類與編碼方法能夠?qū)⒌孛凑盏孛念悇e聚類,在此基礎(chǔ)上可

以對(duì)地名專名、地名飾名進(jìn)行統(tǒng)計(jì)分析。

9.4.3地名分類標(biāo)注原則與式樣

地名內(nèi)部構(gòu)件可分為地名通名、地名專名和地名飾名三大類。地名通名是表示該地的地

理屬性、功能屬性、行政區(qū)劃級(jí)別、建筑類別等屬性的詞或短語(yǔ)。如地名中的“澗峽/瀑布/

島/澗/湖/高原/濕地/省/市/村/堡/公園/自然保護(hù)區(qū)/碑/塔/墻”等,它與我國(guó)對(duì)地名的標(biāo)

準(zhǔn)分類具有一定的對(duì)應(yīng)關(guān)系。地名專名和地名飾名是含相同通名的地名命名實(shí)體的區(qū)別性構(gòu)

件;其中,可作為地名簡(jiǎn)稱而獨(dú)立運(yùn)用的區(qū)別性構(gòu)件稱為地名專名,如“石家莊市”;反之

稱為地名飾名,如“青縣”。

地名標(biāo)注原則如下:

a.地名標(biāo)注的總原則是選取有助于提高地名自動(dòng)識(shí)別、自動(dòng)聚類能力和檢索效率的內(nèi)容

進(jìn)行標(biāo)注,同時(shí)為信息抽取做必要準(zhǔn)備。

b.在不打亂原文語(yǔ)法關(guān)系的前提下,將與地名相關(guān)的緊湊的處所表達(dá)標(biāo)注出來(lái)。

c.地名識(shí)別語(yǔ)料標(biāo)注范圍為地名、地名擴(kuò)展及旬內(nèi)地名屬性。地名和地名擴(kuò)展分別標(biāo)注。

國(guó)家地名代碼及旬外地名屬性暫不標(biāo)注。

d.地名需根據(jù)相應(yīng)分類、編碼、格式對(duì)地名整體及其通名、專名、飾名進(jìn)行全面標(biāo)注。

e.非命名實(shí)體的地名擴(kuò)展原則上不做細(xì)標(biāo)。

分層整體標(biāo)注原則:當(dāng)兩層以上地名、組織名嵌套出現(xiàn)時(shí),通常后者隸屬于前者,此

時(shí)其間隸屬關(guān)系缺省不予標(biāo)注,但各層需分別標(biāo)注為地名或組織機(jī)構(gòu)的地名屬。

6

T/CESXXXXXXX

-

按照地名實(shí)體特征對(duì)地名通名分類結(jié)果詳見(jiàn)附表A.4。按照文字特征對(duì)地名專名分類結(jié)果詳

見(jiàn)附表A.5。按照語(yǔ)義關(guān)系對(duì)地名飾名分類結(jié)果詳見(jiàn)附表A.6。

9.5組織機(jī)構(gòu)名標(biāo)注規(guī)范

9.5.1組織機(jī)構(gòu)名相關(guān)定義

組織機(jī)構(gòu):是按照一定的宗旨和系統(tǒng)建立起來(lái)的集體。主要包括機(jī)關(guān)、企事業(yè)單位、社

會(huì)團(tuán)體、民辦非企業(yè)單位、國(guó)際組織及其內(nèi)部機(jī)構(gòu)(其他組織定義參照7)。組織一般側(cè)重

于整體指向,機(jī)構(gòu)一般側(cè)重于局部指向,這點(diǎn)區(qū)別是相對(duì)。

組織機(jī)構(gòu)名:人們給組織機(jī)構(gòu)賦予的專有名稱。

標(biāo)準(zhǔn)組織機(jī)構(gòu)名:使用規(guī)范的語(yǔ)言文字書(shū)寫(xiě)的組織機(jī)構(gòu)名全稱。

組織機(jī)構(gòu)名簡(jiǎn)稱:經(jīng)過(guò)官方認(rèn)可或約定俗成的組織機(jī)構(gòu)名的簡(jiǎn)單稱謂。

組織機(jī)構(gòu)別名:某一組織機(jī)構(gòu)的標(biāo)準(zhǔn)組織機(jī)構(gòu)名及其簡(jiǎn)稱以外的其他現(xiàn)行名稱?,F(xiàn)今組

織機(jī)構(gòu)名:目前正在使用的組織機(jī)構(gòu)名。

歷史組織機(jī)構(gòu)名:過(guò)去曾經(jīng)使用過(guò)、目前已不再使用的組織機(jī)構(gòu)名。

組織機(jī)構(gòu)名擴(kuò)展:與組織機(jī)構(gòu)名右緊鄰、被組織機(jī)構(gòu)名直接或間接修飾,并與組織機(jī)構(gòu)

名一起表組織機(jī)構(gòu)的詞或短語(yǔ)。如:寶鋼銷售部門(mén)。

9.5.2組織機(jī)構(gòu)名構(gòu)件分類、歸類標(biāo)準(zhǔn)及其標(biāo)注式樣

組織機(jī)構(gòu)名內(nèi)部構(gòu)件可分為組織機(jī)構(gòu)通名、組織機(jī)構(gòu)專名和組織機(jī)構(gòu)飾名三大類。組織

機(jī)構(gòu)通名是表示該組織機(jī)構(gòu)類型的構(gòu)件,如組織機(jī)構(gòu)名中的“公司/集團(tuán)有限公司/大學(xué)/政

府/養(yǎng)老院/聯(lián)合會(huì)/局”等,它與組織機(jī)構(gòu)按功能屬性分類的結(jié)果具有一定的對(duì)應(yīng)關(guān)系。組

織機(jī)構(gòu)專名和組織機(jī)構(gòu)飾名是含有相同通名的組織機(jī)構(gòu)命名實(shí)體的區(qū)別性構(gòu)件。其中,可作

為組織機(jī)構(gòu)的簡(jiǎn)稱而獨(dú)立運(yùn)用的區(qū)別性構(gòu)件成為組織機(jī)構(gòu)專名。如:國(guó)家電網(wǎng)有限公司、清

華大學(xué)。反之稱為組織機(jī)構(gòu)飾名,是組織機(jī)構(gòu)名中通名、專名以外的語(yǔ)詞構(gòu)件。如“北京大

學(xué)”。

組織機(jī)構(gòu)通名可按照組織機(jī)構(gòu)類型分類,詳見(jiàn)附表A.7。

組織機(jī)構(gòu)專名可按照其文字特征分類,詳見(jiàn)附表A.8。

組織機(jī)構(gòu)飾名可按語(yǔ)義功能分類,詳見(jiàn)附表A.9。

9.5.3組織機(jī)構(gòu)標(biāo)注原則

a.組織機(jī)構(gòu)名標(biāo)注的總原則是選取有助于提高組織機(jī)構(gòu)名自動(dòng)識(shí)別、自動(dòng)聚類能力和檢

索效率的內(nèi)容進(jìn)行標(biāo)注,同時(shí)為信息抽取做必要準(zhǔn)備。

b.在不打亂原文語(yǔ)法關(guān)系的前提下,將緊鄰織機(jī)構(gòu)名且表組織機(jī)構(gòu)的文字標(biāo)注出來(lái)。

c.組織機(jī)構(gòu)名識(shí)別語(yǔ)料標(biāo)注范圍為組織機(jī)構(gòu)名、組織機(jī)構(gòu)名擴(kuò)展及旬內(nèi)組織機(jī)構(gòu)名屬

性。組織機(jī)構(gòu)名和組織機(jī)構(gòu)名擴(kuò)展分別標(biāo)注。旬外組織機(jī)構(gòu)屬性暫不標(biāo)注。

d.組織機(jī)構(gòu)名需根據(jù)相應(yīng)分類、編碼、格式對(duì)組織機(jī)構(gòu)名整體及其通名、專名、飾名進(jìn)

行全面標(biāo)注。

e.非命名實(shí)體的組織機(jī)構(gòu)名擴(kuò)展原則上不做細(xì)標(biāo)。

f.分層整體標(biāo)注原則:

1.當(dāng)兩層以上組織機(jī)構(gòu)名嵌套出現(xiàn)時(shí),通常后者隸屬于前者,此時(shí)其間隸屬關(guān)系缺

省不予標(biāo)注,但各層需分別標(biāo)注為組織機(jī)構(gòu)名。

2.通名不能作為一級(jí)機(jī)構(gòu)整體標(biāo)注,必須與其前一級(jí)機(jī)構(gòu)進(jìn)行整體標(biāo)注。參見(jiàn)組織

機(jī)構(gòu)名通名分類編碼使用規(guī)則。

g.組織機(jī)構(gòu)名簡(jiǎn)稱、別稱及歷史組織機(jī)構(gòu)名部分分別整體標(biāo)注,組織機(jī)構(gòu)名簡(jiǎn)稱、別稱

內(nèi)部暫不作細(xì)標(biāo),歷史組織機(jī)構(gòu)名內(nèi)部細(xì)標(biāo)?,F(xiàn)今組織機(jī)構(gòu)名、組織機(jī)構(gòu)名全稱缺省不標(biāo)。

h.組織機(jī)構(gòu)名作為其他命名實(shí)體構(gòu)件時(shí),將每層組織機(jī)構(gòu)名整體標(biāo)注為構(gòu)件,內(nèi)部不細(xì)

標(biāo)。

7

T/CESXXXXXXX

-

i.當(dāng)其他命名實(shí)體充當(dāng)組織機(jī)構(gòu)名構(gòu)件時(shí),對(duì)該命名實(shí)體整體標(biāo)注,內(nèi)部不細(xì)標(biāo)。

j.當(dāng)旬中使用的是組織機(jī)構(gòu)名的組織機(jī)構(gòu)屬性時(shí),該屬性缺省不標(biāo)。

k.兩標(biāo)原則:當(dāng)組織機(jī)構(gòu)飾名中的部分與其后組織機(jī)構(gòu)通名構(gòu)成最小指稱、甚至詞典詞

時(shí):

1.如果構(gòu)成的是詞典詞,則該詞典詞標(biāo)為通名,將其前內(nèi)容標(biāo)注為組織機(jī)構(gòu)飾名即

可。該類詞典詞代日后對(duì)詞典進(jìn)行深化標(biāo)注時(shí)統(tǒng)一處理。

2.如果構(gòu)成的是最小指稱,則將該組織機(jī)構(gòu)飾名按照最小指稱的分割位置分標(biāo)成兩

部分,組織機(jī)構(gòu)通名與最小指稱照常標(biāo)注。

9.6產(chǎn)品名標(biāo)注規(guī)范

9.6.1產(chǎn)品名相關(guān)定義

產(chǎn)品名:狹義產(chǎn)品名是指作為貨物(可運(yùn)輸產(chǎn)品)、服務(wù)及資產(chǎn)(不可運(yùn)輸產(chǎn)品)名稱的

狹義命名實(shí)體。如:司母戊方鼎。廣義產(chǎn)品名是指含有產(chǎn)品專名或品牌、商標(biāo)、規(guī)格等標(biāo)志

性產(chǎn)品飾名的一類貨物(可運(yùn)輸產(chǎn)品)、服務(wù)及資產(chǎn)(不可運(yùn)輸產(chǎn)品)的專有名稱(有些產(chǎn)

品、商品、服務(wù)的名稱本身就是品牌)。

對(duì)于產(chǎn)品的貨物、資產(chǎn)和服務(wù)三大門(mén)類十大部類,我們?yōu)樗挟a(chǎn)品設(shè)立產(chǎn)品公共屬性,

為每個(gè)產(chǎn)品門(mén)類設(shè)立門(mén)類屬性,為每個(gè)產(chǎn)品部類設(shè)立部類屬性,為產(chǎn)品部類下設(shè)的各類產(chǎn)品

設(shè)立產(chǎn)品種類屬性。產(chǎn)品公共屬性是指所有產(chǎn)品通常都具備的產(chǎn)品屬性,產(chǎn)品門(mén)類屬性是指

該門(mén)類產(chǎn)品通常都具備的公共屬性之外的產(chǎn)品屬性;產(chǎn)品部類屬性是指該部類產(chǎn)品通常都具

備的公共屬性和門(mén)類屬性之外的產(chǎn)品屬性;產(chǎn)品種類屬性是指該類產(chǎn)品所具備的公共屬性、

門(mén)類屬性和部類屬性制外的產(chǎn)品屬性。

9.6.2貨物飾名分類、歸類標(biāo)準(zhǔn)及其標(biāo)注式樣

貨物飾名是指貨物專名中修飾貨物通名的詞或短語(yǔ)。詳見(jiàn)附表A.10。

9.7品牌標(biāo)注規(guī)范

“品牌”不是商標(biāo),更不是產(chǎn)品,是企業(yè)或品牌主體(包括城市、個(gè)人等)一切無(wú)形資

產(chǎn)總和的全息濃縮,而“這一濃縮”又可以以特定的“符號(hào)”來(lái)識(shí)別;它是主體與客體,主

體與社會(huì),企業(yè)與消費(fèi)者相互作用的產(chǎn)物。

品牌符號(hào)是區(qū)別產(chǎn)品或服務(wù)的基本手段,包括名稱、標(biāo)志、基本色、口號(hào)、象征物、代

言人、包裝等。這些識(shí)別元素形成一個(gè)有機(jī)結(jié)構(gòu),對(duì)消費(fèi)者施加影響。它是形成品牌概念的

基礎(chǔ),成功的品牌符號(hào)是公司的重要資產(chǎn),在品牌與消費(fèi)者的互動(dòng)中發(fā)揮作用。

在命名實(shí)體標(biāo)注研究中,品牌能夠作為處理對(duì)象的只能是品牌符號(hào),而且只能是品牌符

號(hào)中的名稱、口號(hào)、代言人,更實(shí)際地講,只是名稱。而組織機(jī)構(gòu)名是作為獨(dú)立的命名實(shí)體

進(jìn)行標(biāo)注,商標(biāo)名本身很少單獨(dú)出現(xiàn),多數(shù)是出現(xiàn)在產(chǎn)品名中,這樣在產(chǎn)品名中商標(biāo)已經(jīng)被

標(biāo)注了。如果仍嫌不足,可以將商標(biāo)獨(dú)立作為標(biāo)注對(duì)象。

9.8事件標(biāo)注規(guī)范

9.8.1事件相關(guān)概念

事件名:主述結(jié)構(gòu)的,文字連續(xù)的短語(yǔ)或旬子。事件名具有嵌套性。

主語(yǔ):具體事物,人/動(dòng)物/植物/自然物及其部件:大熊貓贈(zèng)港,豬肉漲價(jià)等。

機(jī)構(gòu)團(tuán)體:政府采購(gòu)流標(biāo)公司狀告財(cái)政部一審勝訴,澳大利亞向中國(guó)移交沒(méi)收的吉林疑

犯贓款。注:不一定是命名實(shí)體,即人名/地名/組織機(jī)構(gòu)名

述語(yǔ):動(dòng)詞及其組成部分。

事件動(dòng)詞:在語(yǔ)義上表示動(dòng)態(tài)行為的動(dòng)詞,包括下述13類:

1變化(change):死病下降長(zhǎng)高縮小變暗

8

T/CESXXXXXXX

-

2氣象(weather):下雨刮風(fēng)打雷起霧

3身體活動(dòng)(bodilycareandfunctions):蹬跳推笑咳嗽游泳

4五官感覺(jué)(perception):看見(jiàn)聽(tīng)到聞著品嘗

5消耗(consumption):吃喝飲

6位移(motion):跑走散步飛過(guò)來(lái)回去拉來(lái)

7創(chuàng)造(creation):制作畫(huà)炒寫(xiě)創(chuàng)建修筑

8接觸(contact):觸摸撞擊打中系挖掘

9領(lǐng)屬轉(zhuǎn)移(possession):買(mǎi)賣(mài)贈(zèng)送給轉(zhuǎn)讓借

10信息交流(communication):告訴詢問(wèn)請(qǐng)求轉(zhuǎn)達(dá)叮囑說(shuō)

11比賽(competition):競(jìng)賽賽跑打仗摔跤辯論

12社會(huì)活動(dòng)(socialbehavior):改革調(diào)價(jià)開(kāi)會(huì)聯(lián)歡

13其他行為(otherevent)

9.8.2事件的命名方式

考慮字長(zhǎng)的原因,事件不一定由事件名來(lái)命名。

命名方式:用文中一組強(qiáng)文本表示功能的詞或短語(yǔ)來(lái)表示事件。

{參與者,事件動(dòng)詞,(時(shí)間),(地點(diǎn)),(子事件)}

{Participants,EventVerb,(Time),(Location),(sub-event)}

Participants:事件的參與者。名詞和基本名詞短語(yǔ)。

Event

Verb:表示動(dòng)態(tài)行為的動(dòng)詞

Time:事件發(fā)生的時(shí)間

Location:事件發(fā)生的地點(diǎn)

9.9時(shí)間結(jié)構(gòu)標(biāo)注規(guī)范

9.9.1時(shí)間結(jié)構(gòu)相關(guān)定義

時(shí)間結(jié)構(gòu):用紀(jì)時(shí)法(廣義)紀(jì)錄時(shí)間的完整實(shí)詞短語(yǔ)。具有四個(gè)特征:1.時(shí)序性:所

表時(shí)間具有指定性,指定該時(shí)間在時(shí)間之流中的位置;2.規(guī)范性:通過(guò)通用、規(guī)范的紀(jì)時(shí)法

表達(dá)時(shí)間,而不是通過(guò)一般敘事來(lái)表達(dá)時(shí)間;3.實(shí)詞短語(yǔ)型:是不包含虛詞的短語(yǔ);4.完整

性:是文中完整的時(shí)間表達(dá)。

紀(jì)時(shí)法:紀(jì)年法、紀(jì)月法、紀(jì)日法、紀(jì)時(shí)法(狹義)等紀(jì)錄時(shí)間的系統(tǒng)、規(guī)范的方法。

時(shí)間結(jié)構(gòu)與時(shí)間性數(shù)量結(jié)構(gòu)的區(qū)別:時(shí)間性數(shù)量結(jié)構(gòu)是表達(dá)時(shí)間長(zhǎng)短的數(shù)量結(jié)構(gòu)。時(shí)間

結(jié)構(gòu)所表時(shí)間具有指定性,即指定該時(shí)間在時(shí)間之流中的位置,而時(shí)間性數(shù)量結(jié)構(gòu)表達(dá)時(shí)間

不具有指定性,僅表示時(shí)間長(zhǎng)短。如:3個(gè)月、兩星期。

時(shí)間結(jié)構(gòu)與時(shí)間詞的區(qū)別:時(shí)間詞是一個(gè)實(shí)詞,時(shí)間結(jié)構(gòu)是一個(gè)實(shí)詞短語(yǔ)。

9.9.2時(shí)間結(jié)構(gòu)分類及歸類標(biāo)準(zhǔn)

根據(jù)表達(dá)時(shí)間的特定程度,時(shí)間結(jié)構(gòu)可分為絕對(duì)時(shí)間結(jié)構(gòu)和相對(duì)時(shí)間結(jié)構(gòu)。絕對(duì)時(shí)間結(jié)

構(gòu)是表絕對(duì)時(shí)間的時(shí)間結(jié)構(gòu)。如:2007年、2007年5月5日凌晨1點(diǎn)。相對(duì)時(shí)間結(jié)構(gòu)是表

相對(duì)時(shí)間的時(shí)間結(jié)構(gòu)。該短語(yǔ)或者缺省絕對(duì)時(shí)間的限制,如:9點(diǎn)50分、5月5日;或者以

相對(duì)時(shí)間代替絕對(duì)時(shí)間表達(dá)時(shí)間限制,如:當(dāng)年5月、本月12日。

時(shí)間結(jié)構(gòu)根據(jù)表達(dá)形式可分為五類:1.單點(diǎn)敘述式;2.單點(diǎn)符號(hào)式;3.起止敘述式;4.

起止符號(hào)式;5.多點(diǎn)縮略式。詳見(jiàn)附表A.11。

9.9.3時(shí)間結(jié)構(gòu)構(gòu)件分類及其標(biāo)注式樣

時(shí)間結(jié)構(gòu)構(gòu)件分類及其標(biāo)注式樣詳見(jiàn)附表A.12。

9.10數(shù)量結(jié)構(gòu)標(biāo)注規(guī)范

9

T/CESXXXXXXX

-

9.10.1數(shù)量結(jié)構(gòu)相關(guān)定義

數(shù)量結(jié)構(gòu):指形式完整的數(shù)量短語(yǔ)或含名數(shù)量短語(yǔ)。如:八九個(gè)人。

含數(shù)量短語(yǔ):包含了被修飾核心名詞的完整數(shù)量短語(yǔ)。如:20個(gè)人出頭。

數(shù)詞:表示事物的數(shù)目或順序的詞。如:一、第一、-1.5。

量詞:表示事物、動(dòng)作或時(shí)空計(jì)量單位的詞。如:個(gè)、位。

9.10.2數(shù)詞細(xì)分與示例

根據(jù)數(shù)詞的構(gòu)成特點(diǎn)及其與量詞的搭配特點(diǎn),將其分為三類:?jiǎn)渭償?shù)詞、兼量數(shù)詞、復(fù)

合數(shù)詞。復(fù)合數(shù)詞是由兩個(gè)以上相鄰的單純數(shù)詞構(gòu)成的完整數(shù)詞短語(yǔ)。數(shù)詞細(xì)分結(jié)果詳見(jiàn)附

表A.13。

9.10.3數(shù)量結(jié)構(gòu)分類

根據(jù)數(shù)量結(jié)構(gòu)的構(gòu)成特征,將數(shù)量結(jié)構(gòu)分為定指數(shù)量結(jié)構(gòu)(表確定值的完整數(shù)量結(jié)構(gòu))、

概指數(shù)量結(jié)構(gòu)(表不確定值的完整數(shù)量結(jié)構(gòu))和含名數(shù)量結(jié)構(gòu)(包含了被修飾核心名詞的完

整數(shù)量結(jié)構(gòu))三類。詳見(jiàn)附表A.14。

9.11數(shù)碼標(biāo)注規(guī)范

9.11.1數(shù)碼定義

數(shù)碼是根據(jù)統(tǒng)一編制規(guī)則產(chǎn)生的,由數(shù)字(必備)輔以字母、符號(hào)、漢字等組成的,表

達(dá)數(shù)字以外含義的代碼。

數(shù)碼與數(shù)詞的根本差別在于數(shù)碼具有數(shù)字以外的含義或所指,可指人、指物、指事等,

是一種代碼。如身份證號(hào)、學(xué)號(hào)、單位代碼、電話號(hào)碼、專利號(hào)碼、國(guó)家標(biāo)準(zhǔn)號(hào)碼、圖書(shū)

ISBN號(hào)碼、期刊ISSN號(hào)碼等都是數(shù)碼。

9.11.2數(shù)碼的分類

根據(jù)數(shù)碼與其他命名實(shí)體間的構(gòu)成關(guān)系,數(shù)碼可分為兩類。一類是數(shù)碼本身就是其他命

名實(shí)體或其構(gòu)件(專名、飾名或通名),例如,數(shù)碼指人的化名,如:007;指組織,如91765

(部隊(duì)番號(hào));指地點(diǎn),如:798;指產(chǎn)品,如101;指時(shí)間,如:2007-05-01。我們將這

類充當(dāng)其他命名實(shí)體或其構(gòu)件的數(shù)碼稱為別名數(shù)碼。

另一類數(shù)碼稱為獨(dú)立數(shù)碼,是與其他命名實(shí)體不具有構(gòu)成關(guān)系的數(shù)碼。獨(dú)立數(shù)碼包括很

多種類,如身份證號(hào)、學(xué)號(hào)、單位代碼、電話號(hào)碼、專利號(hào)碼、國(guó)家標(biāo)準(zhǔn)號(hào)碼、圖書(shū)ISBN號(hào)

碼、期刊ISSN號(hào)碼等。我們將根據(jù)具體應(yīng)用需求來(lái)設(shè)定我們要標(biāo)注的獨(dú)立代碼種類。

根據(jù)編制規(guī)則,典型獨(dú)立數(shù)碼的種類有以下三種:

1.順序碼:又稱系列碼,是一種用連續(xù)數(shù)字代表編碼對(duì)象的碼,例如,用1代表男性,

2代表女性。

2.區(qū)間碼:區(qū)間碼是把整個(gè)編碼分成多個(gè)分組,形成多個(gè)區(qū)間,每個(gè)區(qū)間是一組,每組

的碼值和位置都代表一定意義。典型的區(qū)間碼是郵政編碼。區(qū)間碼又可分為以下三種類型:

a)多面碼。一個(gè)數(shù)據(jù)項(xiàng)可能具有多方面的特性。如果在碼的結(jié)構(gòu)中,為這些特性各

規(guī)定一個(gè)位置,就形成多面碼。

b)上下關(guān)聯(lián)區(qū)間碼。上下關(guān)聯(lián)區(qū)間碼由兒個(gè)意義上相互有關(guān)的區(qū)間碼組成,其結(jié)構(gòu)

一般由左向由排列。

c)十進(jìn)制碼。此法相當(dāng)于圖書(shū)分類中沿用已久的十進(jìn)制分類碼,它是由上下關(guān)聯(lián)區(qū)

間碼發(fā)展而成的。如610.736,小數(shù)點(diǎn)左邊的數(shù)字組合代表主要分類,小數(shù)點(diǎn)右邊的指

出子分類。

3.自檢碼:由原來(lái)的代碼(本體部分)和一個(gè)附加碼組成。附加碼用來(lái)檢查代碼的錄入

和轉(zhuǎn)錄過(guò)程中是否有差錯(cuò),附加碼又叫校驗(yàn)碼,它和代碼本體部分有某種唯一的關(guān)系,它是

通過(guò)一定的數(shù)學(xué)算法得到的。

9.11.3數(shù)碼標(biāo)注規(guī)則

10

T/CESXXXXXXX

-

1)別名數(shù)碼依據(jù)各類命名實(shí)體的標(biāo)注規(guī)范進(jìn)行標(biāo)注。

2)獨(dú)立數(shù)碼進(jìn)行整體標(biāo)注,基本標(biāo)注代碼為:ma。對(duì)于未被列入標(biāo)注范圍的獨(dú)立代碼,

均不予以標(biāo)注。

3)當(dāng)獨(dú)立代碼充當(dāng)其他命名實(shí)體屬性或與其他命名實(shí)體發(fā)生關(guān)系時(shí),按照各自的標(biāo)注范

式進(jìn)行標(biāo)注。

11

T/CESXXXXXXX

-

附錄A

(資料性附錄)

表A.1按文字特征人名分類表

類名定義歸類標(biāo)準(zhǔn)標(biāo)注示例備注

漢族、回族人

含外國(guó)

姓名以漢語(yǔ)語(yǔ)義命的漢名及其

漢語(yǔ)人名[陳輝]人取的

名的人名。他漢語(yǔ)漢字

中文名

人名。

含化名構(gòu)件的漢語(yǔ)

漢語(yǔ)化名依定義。[白玫瑰小姐]

漢字人名。

超自然的漢語(yǔ)人物

漢語(yǔ)虛擬人名依定義。[孫悟空]

專名。

包括新加坡、

姓名符合漢字方式越南、朝鮮、

類漢語(yǔ)人名[李惠利]

漢字人名的外國(guó)人名。韓國(guó)的非音

譯漢字人名。

少數(shù)民族漢字人

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論