術(shù)語工作 計算機應(yīng)用 術(shù)語信息置標框架_第1頁
術(shù)語工作 計算機應(yīng)用 術(shù)語信息置標框架_第2頁
術(shù)語工作 計算機應(yīng)用 術(shù)語信息置標框架_第3頁
術(shù)語工作 計算機應(yīng)用 術(shù)語信息置標框架_第4頁
術(shù)語工作 計算機應(yīng)用 術(shù)語信息置標框架_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS01.020

CCSA22

中華人民共和國國家標準

GB/T29181—2023

代替GB/T29181-2012

`

術(shù)語工作計算機應(yīng)用術(shù)語信息置標框架

Computerapplicationsinterminology—Terminologicalmarkupframework

(ISO16642:2017,IDT)

(征求意見稿)

在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

GB/T29181—2023

前言

本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定

起草。

本文件代替GB/T29181-2012《術(shù)語工作計算機應(yīng)用術(shù)語信息置標框架》,與GB/T29181-2012

相比,主要技術(shù)變化如下:

a)刪除了附錄A、附錄B和附錄C相關(guān)內(nèi)容,不再主動使用以下格式:

1)帶專門限定標記的機器可讀術(shù)語交換格式(MSC);

2)Geneter;

3)數(shù)據(jù)類目交換格式(DCIF);

4)通用映射工具(GMT)。

b)刪除了附錄B和附錄C,不再包含任何TML的所有代碼示例。TML代碼示例現(xiàn)在可以由ISO

30042TermBaseeXchange(TBX)標準中,以及下述網(wǎng)址處獲得:。

c)前ISO/TC37數(shù)據(jù)類目注冊庫或ISOcat從規(guī)范性參考文件改為資料性參考文件。此外,名稱

已改為DatCatInfo,作為數(shù)據(jù)類目注冊庫的一個示例。

d)刪除對ISO12620:1999及ISO12620:2009的引用。這些標準已被廢止。

e)增加了類型值元素樣式。

f)更改了示例以反映ISO30042:2008(TBX)。TBX-Basic稱為TML。

g)更改一些示例和表格,將其并入相應(yīng)章節(jié)。

h)刪除了一些歷史信息、教導(dǎo)性信息或重復(fù)信息。

本文件由全國語言與術(shù)語標準化技術(shù)委員會(SAC/TC62)提出。

本文件由全國語言與術(shù)語標準化技術(shù)委員會(SAC/TC62)歸口。

本文件起草單位:中國中醫(yī)科學(xué)院中醫(yī)藥數(shù)據(jù)中心、中國標準化研究院、全國科學(xué)技術(shù)名詞審定委

員會、華南師范大學(xué)、上海對外經(jīng)貿(mào)大學(xué)、華北電力大學(xué)。

本文件主要起草人:

II

GB/T29181—2023

引言

術(shù)語數(shù)據(jù)由各種系統(tǒng)收集、管理和存儲,通常是各種數(shù)據(jù)庫管理系統(tǒng),從個人用戶的個人計算機應(yīng)

用程序到大型公司和政府機構(gòu)運營的大型術(shù)語數(shù)據(jù)庫系統(tǒng)。術(shù)語數(shù)據(jù)庫包含各類信息(稱為數(shù)據(jù)類目),

可以采用不同的結(jié)構(gòu)模型。術(shù)語數(shù)據(jù)經(jīng)常需要在多個應(yīng)用程序中共享和重復(fù)使用,通用模型有利于數(shù)據(jù)

共享。為了開展合作并防止重復(fù)工作,需要形成系列術(shù)語數(shù)據(jù)集合創(chuàng)建和使用、數(shù)據(jù)共享和交換的標準

和準則。

本文件引用了一個可用數(shù)據(jù)類目注冊庫示例DatCatInfo。DatCatInfo是一個在線數(shù)據(jù)庫,包含術(shù)語

數(shù)據(jù)集合和其他語言資源中的數(shù)據(jù)類型的相關(guān)信息。DatCatInfo可在以下網(wǎng)址中獲得:

。

III

GB/T29181—2023

術(shù)語工作計算機應(yīng)用術(shù)語信息置標框架

1范圍

本文件規(guī)定了表示術(shù)語數(shù)據(jù)集中所記錄數(shù)據(jù)的框架,該框架包括了元模型及用XML表示的描述特定

術(shù)語標記語言的方法。定義了TML中約束(而不是某個TML的特定的約束)的實現(xiàn)機制。

本文件適用于支持術(shù)語數(shù)據(jù)計算機應(yīng)用的開發(fā)和使用,以及不同應(yīng)用間的數(shù)據(jù)交換。本文件還定義

了允許將一種TML表示的數(shù)據(jù)映射到其他TML上的條件。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T10112術(shù)語工作原則和方法(GB/T10112—2019,ISO704:2009,IDT)

GB/T15237.1術(shù)語工作詞匯:第1部分:理論與應(yīng)用(GB/T15237.1—2000,ISO1087-1:2000,

IDT)

GB/T2659世界各國和地區(qū)名稱代碼(GB/T2659—2000,ISO3166-1:1997,IDT)

ISO26162術(shù)語、知識和內(nèi)容管理系統(tǒng)術(shù)語管理系統(tǒng)的設(shè)計、實現(xiàn)和維護

ISO30042:2008術(shù)語、知識和內(nèi)容管理系統(tǒng)——TermBaseeXchange(TBX)

3術(shù)語和定義

GB/T15237.1—2000界定的術(shù)語和定義適用于本文件。

基本信息單元basicinformationunit

元模型的一個組件(3.3)上附加的信息單元(3.12),可以用單個數(shù)據(jù)類目(3.6)來表示。

補充信息complementaryinformation

Cl

對術(shù)語條目(3.22)中所描述的內(nèi)容予以補充,并在術(shù)語數(shù)據(jù)集合(3.21)中共享的信息。

注:領(lǐng)域?qū)蛹夑P(guān)系,機構(gòu)描述、參考文獻信息和語料信息都是補充信息的典型例子。

3.3

組件component

元模型的基本描述單元,可以與數(shù)據(jù)類目(3.6)相關(guān)聯(lián)以形成數(shù)據(jù)模型。

3.4

復(fù)合信息單元compoundinformationunit

元模型組件(3.3)上附加的信息單元(3.12),通過幾個分組數(shù)據(jù)類目(3.6)表示,這些數(shù)據(jù)類

目組合在一起表示一個完整連貫的信息單元。

3.5

1

GB/T29181—2023

概念域conceptualdomain

與數(shù)據(jù)類目(3.6)相關(guān)聯(lián)的有效值含義的集合。

注:例如,數(shù)據(jù)類目/詞性/可以具有以下概念域:/名詞/、/動詞/、/形容詞/、/副詞/等。

3.6

數(shù)據(jù)類目datacategory

語言描述或標注方案中使用的基本描述符。

注:在本文件中,數(shù)據(jù)類目放在兩個斜杠(/)之間,例如/definition/。

3.7

數(shù)據(jù)類目注冊庫datacategoryrepository

DCR

被用作語言標注方案定義或語言資源其他表示模型參考的數(shù)據(jù)類目聲明(3.9)的電子注冊庫。

注:關(guān)于語言資源的DCR可在網(wǎng)站中獲得:。

3.8

數(shù)據(jù)類目選集datacategoryselection

DCS

從DCR(3.7)中選擇的一些數(shù)據(jù)類目構(gòu)成的集合(3.6)。

3.9

數(shù)據(jù)類目聲明datacategoryspecification

用于充分描述給定數(shù)據(jù)類目的屬性集(3.6)。

注:縮寫“DCS”用于表示數(shù)據(jù)類目選集,不用于表示數(shù)據(jù)類目聲明。

3.10

擴展樹expansiontree

在某給定TML(3.23)中,實現(xiàn)某一個層的元模型的一組結(jié)構(gòu)化的XML元素。

3.11

全局信息globalinformation

GI

應(yīng)用于整個術(shù)語數(shù)據(jù)集合(3.21)的技術(shù)性和管理性的信息。

注:實例,術(shù)語數(shù)據(jù)集合的標題、歷史修訂記錄、所有者或版權(quán)信息。

3.12

信息單元informationunit

IU

附于元模型某結(jié)構(gòu)層的某項不可拆分的基本信息。

3.13

語言段languagesection

LS

術(shù)語條目(3.22)上的片段,包含與某一種語言相關(guān)的信息。

注:一個術(shù)語條目可能包含一種或多種語言的信息。

3.14

目標語言objectlanguage

被描述的語言。

3.15

永久標識符persistentidentifier

PID

2

GB/T29181—2023

唯一的統(tǒng)一資源標識符(URI),確保對數(shù)字目標進行永久訪問,而不受其物理位置或當(dāng)前所有權(quán)

的影響。

3.16

結(jié)構(gòu)節(jié)點structuralnode

術(shù)語數(shù)據(jù)集合(3.21)表示中的組件(3.3)的實例。

3.17

結(jié)構(gòu)骨架structuralskeleton

按元模型的要求而對術(shù)語數(shù)據(jù)集合(3.21)實例所作的抽象描述。

3.18

樣式style

用XML語言對數(shù)據(jù)類目(3.6)實現(xiàn)的方式。

3.19

術(shù)語組件段termcomponentsection

TCS

術(shù)語段(3.20)中的片段,用以給出術(shù)語各組成成分的語言學(xué)信息。

3.20

術(shù)語段termsection

TS

語言段(3.13)中給出術(shù)語信息的片段。

3.21

術(shù)語數(shù)據(jù)集合terminologicaldatacollection

TDC

由術(shù)語條目(3.22)及其相關(guān)的元數(shù)據(jù)和文檔信息組成的資源。

3.22

術(shù)語條目terminologicalentry

TE

術(shù)語數(shù)據(jù)集合(3.21)的一部分,包含與某一概念相關(guān)的術(shù)語數(shù)據(jù)。

注:術(shù)語條目中的每個元素都可以與補充信息、其他術(shù)語條目以及同一術(shù)語條目中的其他元素鏈接。

3.23

術(shù)語標記語言terminologicalmarkuplanguage

TML

用于對術(shù)語數(shù)據(jù)集合(3.21)進行描述、且遵循本文件闡述的約束條件的XML格式。

3.24

統(tǒng)一建模語言UnifiedModelingLanguage

UML

用于對軟件系統(tǒng)的各種特征進行描述、可視化、構(gòu)建和文檔化的語言。

3.25

詞匯表vocabulary

<數(shù)據(jù)建模>用于根據(jù)樣式(3.18)實現(xiàn)數(shù)據(jù)類目(3.6)的字符串集合。

3.26

工作語言workinglanguage

用于描述對象的語言。

3.27

3

GB/T29181—2023

XML大綱XMLoutline

一個術(shù)語數(shù)據(jù)集合(3.21)的組成成分,對應(yīng)于元模型的XML實現(xiàn)方案。

4模塊化方法

術(shù)語信息置標框架(TMF)由兩個抽象層級組成。第一個層級是元模型層級,這也是最抽象的層級。

元模型層級支持在一個非常通用的層級上進行的分析、設(shè)計和交換,即獨立于任何特定的實現(xiàn)或軟件。

元模型應(yīng)由所有符合TMF的TDC共享。第二個層級是數(shù)據(jù)模型層級,添加了表示特定TDC所需的數(shù)據(jù)類目。

用XML語言實現(xiàn)數(shù)據(jù)模型被稱為術(shù)語標記語言(TML)。TML可以根據(jù)有限的幾個特征來描述:

——TML如何表達元模型的結(jié)構(gòu)組織(即TML的擴展樹);

——TML所使用的特定數(shù)據(jù)類目及其與元模型的關(guān)系;

——這些數(shù)據(jù)類目如何以XML表示并錨定在TML的擴展樹上,即任何給定數(shù)據(jù)類目的XML樣式;

——TML使用的詞匯表,用于根據(jù)相應(yīng)的XML樣式將各種信息對象表示為XML元素和屬性。

圖1表示了完整聲明一個TML所需的信息,包括:

——元模型描述了所有TML都應(yīng)遵循的組件的基本層級體系;

——數(shù)據(jù)類目注冊庫中的一組數(shù)據(jù)類目聲明構(gòu)成的集合,能夠為TML定義數(shù)據(jù)類目選集(DCS)

形成基礎(chǔ);

——專用語的聲明(專用語)包括以XML格式表示給定TML所需要的各種元素。這些元素包括擴

展樹和數(shù)據(jù)類目實例化樣式,以及相應(yīng)的詞匯表。

元模型數(shù)據(jù)類目注冊庫

數(shù)據(jù)類目選集:專用語:

——數(shù)據(jù)類目注冊子集——擴展樹

——由應(yīng)用決定的DCR——數(shù)據(jù)類目樣式+詞匯表

互操作性條件

術(shù)語標記語言(TML)

圖1描述TML所涉及的各種知識源

提供語言資源數(shù)據(jù)類目聲明樣例的DCR,可在網(wǎng)站中獲得:www.。如果可能,此DCR

中記錄的數(shù)據(jù)類目應(yīng)當(dāng)用于TML。如果該DCR中沒有合適的數(shù)據(jù)類目,TML的實現(xiàn)者宜建議在此DCR中創(chuàng)建

所需的數(shù)據(jù)類目聲明。

5術(shù)語數(shù)據(jù)描述的一般模型

4

GB/T29181—2023

原則

本章描述了一類XML文件結(jié)構(gòu),可用來覆蓋很大范圍的術(shù)語數(shù)據(jù)格式,并且提供了一種可以通過使

用XML語言來表示這些文件的框架。

每種文件結(jié)構(gòu)類型都是通過三層信息結(jié)構(gòu)模式來描述:

——元模型,由具有層級體系的組件所組成;

——信息單元,能夠與元模型中任一組件相關(guān)聯(lián);

——標注,能夠用來限定給定信息單元的屬性。

信息單元能夠是基本的或復(fù)合的?;拘畔卧依ǖ男畔⒛軌蛴脝蝹€數(shù)據(jù)類目直接表達。復(fù)合信

息單元囊括的信息通過多個組合在一起的數(shù)據(jù)類目表達,這些數(shù)據(jù)類目組合在一起表示一個完整連貫

的信息單元。例如,一個復(fù)合信息單元能夠用來表示“某項事務(wù)應(yīng)屬于某個事務(wù)類型(如修改)、執(zhí)行

人員,以及執(zhí)行日期”這樣的事實。

基本信息單元,無論是直接附于一個組件,還是附屬在復(fù)合信息單元之內(nèi),能夠具有兩種非互斥類

型的值:

——原子值(atomicvalue),或者對應(yīng)于某個XML方案(XMLschema)中的簡單類型(simple

type),例如數(shù)、字符串、選擇列表的元素等,或者對應(yīng)于注釋文本下的混合內(nèi)容類型

(mixedcontenttype);

——組件的引用值,用于表達該組件與當(dāng)前組件之間的關(guān)系。

——信息單元能夠抽象地表示為特征-值結(jié)構(gòu)(feature-valuestructure)。如,以下標記示例

能夠以下列特征-值結(jié)構(gòu)形式建模為基本信息單元:

類似地,以下TBX標記示例

能夠以如圖2所示的特性值結(jié)構(gòu)形式建模。

圖2特征-值結(jié)構(gòu)

語義信息還需要通過標注與數(shù)據(jù)類目內(nèi)容相關(guān)聯(lián)。人們對術(shù)語定義中種屬信息和/或差異信息進行

明確標識是一種典型實例,如下列對“鉛筆(leadpencil)”的定義:

5

GB/T29181—2023

該信息無法表示為特征-值結(jié)構(gòu)。

組件和信息單元的一般表示

術(shù)語數(shù)據(jù)能夠用通用的架構(gòu)來表示。該架構(gòu)是一個由眾多基本結(jié)構(gòu)節(jié)點所形成的體系構(gòu)成的。其

中各結(jié)構(gòu)節(jié)點上附著有一個或多個信息單元。該架構(gòu)的UML圖形表示見圖3。

內(nèi)容包含

結(jié)構(gòu)節(jié)點

關(guān)聯(lián)

信息單元

細化信息單元被細化的信息單元

細化過程

圖3結(jié)構(gòu)節(jié)點和信息單元的UML圖

圖3表達了以下所定義的類之間的關(guān)系:

——結(jié)構(gòu)節(jié)點:包含有一個屬性(LevelName)的類,用來在給定語言資源的上下文當(dāng)中標識該

類型的對象。如,術(shù)語條目(TE)表示術(shù)語數(shù)據(jù)。

——信息單元:包含以下3個屬性的類:

?標識與給定數(shù)據(jù)類目相關(guān)的該類型的對象(IUName,如/definition/、/partOfSpeech/

等);

?描述其內(nèi)容的類型(C_type);

?提供實際內(nèi)容的值(C_value)。

C_type的值允許是屬于XML方案第2部分數(shù)據(jù)類型中所定義的簡單類型(simpletype)集合,

或為混合型(MIXED)。

這兩個類的對象能夠通過以下方式相聯(lián):

——關(guān)聯(lián):表示一個結(jié)構(gòu)節(jié)點通過層級鏈接與另一個結(jié)構(gòu)節(jié)點相聯(lián)系。對鏈接的數(shù)量或由這些鏈

接創(chuàng)立的網(wǎng)絡(luò)結(jié)構(gòu)(如樹圖、有向無環(huán)圖等)沒有限制(0..*)。

——內(nèi)容包含:將一個結(jié)構(gòu)節(jié)點和信息單元聯(lián)系起來(如,“定義”聯(lián)接到TE節(jié)點)。一個信

息單元的實例聯(lián)接到一個且唯一一個結(jié)構(gòu)節(jié)點(1..1)。

——細化:將提供附加信息的信息單元與另一個信息單元聯(lián)系起來(如,信息單元“注釋”用來

細化“定義”)。一個細化信息單元聯(lián)接到一個且唯一的一個被細化的信息單元(1..1)。

一些TML允許比其他TML有更多的細化層級,這影響了互操作性程度。

6

GB/T29181—2023

混合類型是文本內(nèi)容(字符串)和信息單元的有序組合,對應(yīng)于各種標注的內(nèi)容,能夠在UML中

通過使用聚合操作符來表示,如圖4所示。

混合型

信息單元

字符串型

圖4混合型對象類

遵照該定義,允許使用其他信息單元細化標注(如,標明何時由誰做的標注)。

元模型

術(shù)語元模型是以GB/T10112—2019標準中所描述的術(shù)語管理原則與方法綱要為基礎(chǔ)的。與詞典編

撰的條目相比,術(shù)語條目最重要的特點是面向概念。一個術(shù)語條目涉及給定語言中的一個概念。在多

語言的情況下,一個術(shù)語條目涉及一個或多個概念,其在不同語言中完全或部分等價。而詞典編撰的

條目只包含一個詞目(詞匯單位的基本形式),以及一個或多個由一種或更多語言表示的定義(表示

不同的釋義)。

注意,有些概念不是通用的,在不同的語言或文化中略有差異。有的差異可能很顯著,以致于構(gòu)

成了不同的概念。根據(jù)概念差異和相似的程度,可選定以同一條目或不同條目描述這些概念。

一個術(shù)語數(shù)據(jù)集合包括了關(guān)于該集合的全局信息和一些術(shù)語條目。每個術(shù)語條目有三個功能:

——描述一個概念;

——確認指稱概念的術(shù)語;

——描述術(shù)語本身。

每個術(shù)語條目有多個語言段,而且每個語言段有多個術(shù)語段(術(shù)語及其附帶信息)。條目中的每

個數(shù)據(jù)元素能夠與各種描述性、管理性信息相聯(lián)系。此外,還會有其他一些資源能被多個條目引用。

這些共享資源包括參考書目、知識本體描述,以及諸如用于解釋說明概念的圖像等二進制數(shù)據(jù)。

應(yīng)遵守GB/T10112—2019、ISO26162和ISO30042:2008中描述的術(shù)語管理原則,具體包括:

——術(shù)語獨立;

——面向概念;

——數(shù)據(jù)元素;

——數(shù)據(jù)粒度。

術(shù)語元模型通過結(jié)構(gòu)節(jié)點類的7個實例進行描述,如圖5所示。

7

GB/T29181—2023

結(jié)構(gòu)節(jié)點

關(guān)聯(lián)

TE-層級LS-層級TS-層級TCS-層級

關(guān)聯(lián)關(guān)聯(lián)關(guān)聯(lián)

TDC-層級GI-層級CI-層級

關(guān)聯(lián)

關(guān)聯(lián)

圖5術(shù)語元模型——UML圖表

結(jié)構(gòu)節(jié)點類的這7個實例是:

——TDC(術(shù)語數(shù)據(jù)集合):包含在術(shù)語數(shù)據(jù)集合中的所有信息的頂級容器;

——GI(全局信息):關(guān)于TDC的整體信息。例如,全局信息通常包括TDC的標題、文件的建立

單位或個人、地址信息、版權(quán)信息、更新信息等;

——TE(術(shù)語條目):與單一概念或兩個或兩個以上幾乎等同的概念有關(guān)的信息。術(shù)語條目包含

關(guān)于概念的描述性信息,如定義和學(xué)科領(lǐng)域,以及關(guān)于條目的管理性信息;

——LS(語言段):語言段是一個容器,包含給定語言的術(shù)語條目的所有術(shù)語段,以及與該語言

的概念有關(guān)的信息。例如,包括給定語言的定義,或關(guān)于該語言概念的特定特征或?qū)ο蟮奶?/p>

定屬性的注釋;

——TS(術(shù)語段):術(shù)語段只包含一個術(shù)語以及該術(shù)語的相關(guān)信息,如詞性、術(shù)語類型和上下

文;

8

GB/T29181—2023

——TCS(術(shù)語組件段):關(guān)于術(shù)語片段的信息,如詞素、音素、音節(jié)或多詞術(shù)語中的單個單

詞。在一些語言(如法語或西班牙語)中,有時需要將性別等信息與多詞術(shù)語中使用的單個

單詞聯(lián)系起來;

——CI(補充信息):補充信息通常包含,例如參考書目信息或管理性信息、圖形圖像、視頻、

音頻或任何其他類型的二進制數(shù)據(jù)。還能包括對其他術(shù)語數(shù)據(jù)集合的引用或?qū)ο嚓P(guān)語料信

息、知識本體結(jié)構(gòu)或外部URI的鏈接。這些內(nèi)容因其能夠被任何術(shù)語條目所引用,故通常被

指定為共享資源。

這些組件實例實現(xiàn)了具有關(guān)聯(lián)基數(shù)限制的“關(guān)聯(lián)”關(guān)系,系統(tǒng)化表示為圖6。

TDC(術(shù)語數(shù)據(jù)集合)

GI(全局信息)CI(補充信息)

TE(術(shù)語條目)

LS(語言段)

TS(術(shù)語段)

TCS(術(shù)語組件段)

圖6術(shù)語元模型系統(tǒng)化示圖

關(guān)聯(lián)基數(shù):

——一個TDC應(yīng)包含正好一個GI(1..1),至多一個CI(0..1)和任意數(shù)量的TE(0..*);

——一個TE能包含任意數(shù)量的LS(0..*);

——一個LS能包含任意數(shù)量的TS(0..*);

——一個TS能包含任意數(shù)量的TCS(0..*)。

圖5中元模型節(jié)點之間表示的1..1限制條件保證了層級組織結(jié)構(gòu)。例如,術(shù)語段(TS)是語言段(LS)

的子段。

范例

以一個簡單的、符合TBX規(guī)范的XML文檔表示的術(shù)語條目為例,說明TDC能夠作為抽象結(jié)構(gòu)進行分析。

為了說明如何將某個TDC作為一個抽象結(jié)構(gòu)進行分析,下面將以一個簡單的、使用符合TBX規(guī)范的

XML文檔來表達的術(shù)語條目為例:

9

GB/T29181—2023

通過確定與元模型相對應(yīng)的結(jié)構(gòu)骨架,以及將所對應(yīng)的信息單元與該結(jié)構(gòu)骨架中的各組件相關(guān)聯(lián),

能夠創(chuàng)建該術(shù)語條目的抽象模型,如圖7所示。

條目標識符=“ID67”

學(xué)科領(lǐng)域=“manufacturing”

定義=“Avalue...”

語言標識符=“en”語言標識符=“hu”

術(shù)語=“alphasmoothingfactor”術(shù)語=“Alfa...”

詞性=“noun”

詞性=“noun”

圖7將XML文檔映射成為抽象模型

為了描述該TML的DCS,數(shù)據(jù)類目可以映射到DatCatInfo中指定的相應(yīng)數(shù)據(jù)類目。

標識符PID

entryIdentifier/rest/dc/206

subjectField/rest/dc/489

definition/rest/dc/168

languageIdentifier/rest/dc/279

term/rest/dc/508

partOfSpeech/rest/dc/396

noun/rest/dc/1333

6符合TMF的要求

所有TML計算機格式應(yīng)基于:

——元模型;

——可從DCR中獲得的DCS,如DatCatInfo。

TML采用的每個DCS,應(yīng)由來自DCR(如DatCatInfo)的一系列數(shù)據(jù)類目及每種數(shù)據(jù)類目所附加的約

束條件(可選)構(gòu)成。限定條件包括對數(shù)據(jù)類目允許值的約束,如/上下文/的允許值為“標記文本”或

/語法分類/的允許值為“選擇列表”以及數(shù)字或日期等特定的XML數(shù)據(jù)類型。約束條件還包括對特殊數(shù)

據(jù)類目在元模型的不同層級(組件)出現(xiàn)位置的限制。例如,/詞性/可以被限制在僅出現(xiàn)于TS層級。

任何符合TMF的TDC都應(yīng)該對工作語言和目標語言予以明確區(qū)分。這兩種類型的語言信息可關(guān)聯(lián)于

該集合的任何層級上(見第8章)。

10

GB/T29181—2023

附錄A提供了術(shù)語數(shù)據(jù)滿足TMF的示例場景。

7交換和互操作性

交換涉及的是兩種計算機系統(tǒng)之間的信息傳遞,這種信息傳遞通常是雙向的。交換可使用中間格式。

兩個TML之間的互操作性程度能夠通過比較它們的聲明(元模型及其DCS的組合)來確定。遵照本文

件中元模型構(gòu)建并使用相同DCS的TML是可以互操作的,即將數(shù)據(jù)從一種TML轉(zhuǎn)換到另一種TML并且轉(zhuǎn)換

回來,將不會丟失信息。如果一個TML的DCS是另一個TML的DCS的子集,將數(shù)據(jù)從前者轉(zhuǎn)換到后者是可行

的,但反之不成立。

圖8TMF改善TML間互操作性

8表示語言

工作語言是用于描述TDC中的任何給定文本內(nèi)容的語言,如一個定義或一項注釋。工作語言的范圍

是以聲明該信息的元素為起始的整個子文件,除非該聲明被其他工作語言聲明所取代。

目標語言是語言段中被描述的語言。

目標語言和工作語言都應(yīng)該使用W3C推薦的擴展標記語言(XML)定義的xml:lang屬性表示。該屬性

用于語言段層級時,表示目標語言和工作語言。

xml:lang屬性的允許值見IETFRFC5646或其后續(xù)版本,如IETFBCP47中所標識的。

以下例子表示了兩種語言類型聲明在TBX中LS內(nèi)的使用方法:

9定義TML

步驟

定義TML需要以下步驟:

a)從DCR中選擇數(shù)據(jù)類目,如DatCatInfo;

b)創(chuàng)建與術(shù)語元模型中的結(jié)構(gòu)節(jié)點相關(guān)聯(lián)的擴展樹;

11

GB/T29181—2023

c)確定表達分配給擴展樹中節(jié)點的數(shù)據(jù)類目所需的XML樣式和詞匯表;

d)為充分說明對有效的TML實例起著控制作用的XML方案提供必要信息;

e)為將TML實例轉(zhuǎn)換為另一個TML實例提供所需的互操作性條件。

定義互操作性條件

互操作性條件應(yīng)基于對特定TML有效的DCS的聲明。DCS包括表示每個數(shù)據(jù)類目性質(zhì)的數(shù)據(jù)類目聲明,

其屬性包括:

——唯一的數(shù)據(jù)類目名稱;

——數(shù)據(jù)類目聲明的永久標識符(PID);

——數(shù)據(jù)類目可能出現(xiàn)的結(jié)構(gòu)節(jié)點(元模型層級);

——與數(shù)據(jù)類目關(guān)聯(lián)的概念域。

10實現(xiàn)TML

概要

為創(chuàng)造互操作性條件,應(yīng)規(guī)定實現(xiàn)TML的XML數(shù)據(jù)結(jié)構(gòu)。應(yīng)采用下列方式形成XML大綱:

——基于一組適當(dāng)?shù)腦ML元素,將TML實例的結(jié)構(gòu)框架映射到元模型;

——為DCS中各種數(shù)據(jù)類目提供錨定機制。

元模型的實現(xiàn)

定義TML結(jié)構(gòu)部分,應(yīng)把XML擴展樹與元模型的每個結(jié)構(gòu)節(jié)點相關(guān)聯(lián)。對于元模型中存在父節(jié)點的每

個結(jié)構(gòu)節(jié)點(即元模型里有更高層級的節(jié)點),應(yīng)為其定義一個錨點。該錨點包括了其父節(jié)點擴展樹上

的一個節(jié)點,并且能夠連接到該節(jié)點自己的擴展樹。

TML某個實例的XML大綱包括了與其結(jié)構(gòu)框架相關(guān)聯(lián)的所有的擴展樹。

XML大綱中數(shù)據(jù)類目的錨定

10.3.1概要

與結(jié)構(gòu)節(jié)點相關(guān)聯(lián)的擴展樹應(yīng)由一組XML元素節(jié)點構(gòu)成。每個XML元素節(jié)點都應(yīng)是與該節(jié)點相關(guān)聯(lián)

的任意數(shù)據(jù)類目的潛在錨點。根據(jù)以下信息,每個數(shù)據(jù)類目均應(yīng)表達為其錨點的子結(jié)構(gòu):

——錨定樣式;

——實際TML中使用的詞匯表。

對于TML,完整DCS中的每個數(shù)據(jù)類目,應(yīng)聲明錨點、樣式和詞匯表等屬性。

10.3.2樣式和詞匯表

附于TML結(jié)構(gòu)框架上的數(shù)據(jù)類目應(yīng)采用XML特征-值對,并使用以下五種樣式中的一種實現(xiàn):

——屬性;

——元素;

——類型元素;

——值元素;

——類型值元素。

屬性樣式應(yīng)將數(shù)據(jù)類目作為其錨點的屬性來實現(xiàn)。數(shù)據(jù)類目的值作為該屬性的內(nèi)容。示例:

12

GB/T29181—2023

元素樣式應(yīng)將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是其所關(guān)聯(lián)錨點的子元素。數(shù)據(jù)類目的值作

為該元素的內(nèi)容。示例:

類型元素樣式應(yīng)將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是其所關(guān)聯(lián)錨點的子元素,并指定為

“類型(type)”屬性的值。詞匯表由該元素的名稱和“類型(type)”屬性的值組成。數(shù)據(jù)類

目的值作為該元素的內(nèi)容。示例:

值元素樣式應(yīng)將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是給定錨點的子元素。元素由“值(value)”

屬性進一步說明,該元素可以說明另一個數(shù)據(jù)類目。詞匯表由該元素的名稱和“值(value)”屬性

的值組成。示例:

類型值元素樣式將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是給定錨點的子元素,并且由屬性“類

型(type)”和“值(value)”進一步說明。詞匯表由該元素的名稱以及該屬性的名稱組成。與數(shù)

據(jù)類目相關(guān)聯(lián)的數(shù)值作為“類型(type〉”屬性的內(nèi)容來實現(xiàn)。示例:

數(shù)據(jù)類型的約束

使用元素或類型元素樣式實現(xiàn)的數(shù)據(jù)類目能夠具有包含附加標記的值(尤其是因標注而產(chǎn)生的標

記)。反之,使用屬性、值元素或類型值元素樣式實現(xiàn)的數(shù)據(jù)類目不應(yīng)包含任何此類附加標記。

標注的實現(xiàn)

與附于給定TML結(jié)構(gòu)骨架的數(shù)據(jù)類目一樣,標注應(yīng)用同樣方式實現(xiàn)(采用XML樣式和詞匯表)。只有

元素樣式和類型元素樣式支持標注。

尖括號的實現(xiàn)

被括起來的數(shù)據(jù)類目應(yīng)通過以下元素實現(xiàn):提供該組主要數(shù)據(jù)類目名稱的元素,以及其他提供更多

相關(guān)數(shù)據(jù)類目的元素(如管理信息)。示例:

13

GB/T29181—2023

14

GB/T29181—2023

A

A

附錄A

(資料性)

術(shù)語數(shù)據(jù)與TMF的一致性:示例場景

A.1概述

本附錄通過分析數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容并對這些數(shù)據(jù)進行一定的轉(zhuǎn)換,討論基于XML的術(shù)語數(shù)據(jù)是如何

實現(xiàn)與TMF的兼容。通過數(shù)據(jù)分析和轉(zhuǎn)換,TML可以被清晰的聲明,不僅可以無信息損失地表達術(shù)語數(shù)據(jù),

而且改善了其與其他TML間的互操作性。

A.2示例

下面的例子來自汽車發(fā)動機TDC的術(shù)語條目。這個例子不完全符合TMF,但經(jīng)過一些修改,可以映射

到TMF。

表A.1描述了本示例所包含的信息。

表A.1元素內(nèi)容描述

XML元素描述內(nèi)容描述

<tbid>TDC的唯一標識符字母數(shù)字編碼

<tbDescription>描述TDC的文本文本

<domainOfConcept>本概念條目的學(xué)科領(lǐng)域選定的與概念有關(guān)的值

與本概念有關(guān)的信息數(shù)據(jù)的最后修改日

<conceptLastModified>日期

<languageCode>術(shù)語使用的語言ISO639-1中的值

<termDefinition>術(shù)語定義文本

<termString>術(shù)語本身文本

15

GB/T29181—2023

XML元素描述內(nèi)容描述

<usedIn>使用該語言術(shù)語的國家ISO3166-1中的值

<wordClass>術(shù)語的語法分類例如,n代表名詞

<wordGender>術(shù)語的語法詞的性m代表陽性,f代表陰性,或n代表中性

與本術(shù)語有關(guān)的信息數(shù)據(jù)的最后修改日

<termLastModified>日期

其他XML元素表示此信息的容器。

在表1中,對于與<termString>和<termDefinition>的文本內(nèi)容一同使用的<languageCode>的描

述,宜在標記中引入XML屬性“xml:lang”來體現(xiàn),例如:“語言碼以及表示該代碼的語言是德語”。

在需要覆蓋該結(jié)構(gòu)中已有的從高層元素傳下來的xml:lang的值的時候,應(yīng)在XML文檔中引入該屬性。

A.3一致性的確定

A.3.1元模型聲明

通過與元模型的結(jié)構(gòu)節(jié)點相比較,可以評估本例的XML大綱與元模型的一致程度。該比較如表A.2

所示。

表A.2XML大綱與元模型的結(jié)構(gòu)節(jié)點比較

元模型組件詞匯表

TDC<termBank>

GI

TE<conceptEntry>

LS<termGroup>

TS

CI

上例沒有TS的等同物。盡管如此,TS能在無信息損失的情況下引入。上例中不包含CI,而GI可從

<tbid>和<tbDescription>元素中創(chuàng)建。以下元素表示結(jié)構(gòu)節(jié)點:

——<termBank>

——<conceptEntry>

——<termGroup>

以下元素表示新引入的部分:

——<globalInformation>

——<termSection>

此外,還為德語<termGroup>部分添加了語言代碼。英語部分不需要語言代碼,因為其已從

<termBank>元素繼承。這種交替結(jié)果如下所示:

16

GB/T29181—2023

A.3.2數(shù)據(jù)類目選集

根據(jù)以上給出的對元素內(nèi)容的描述,可以將TML數(shù)據(jù)類目映射到DatCatInfo中相應(yīng)內(nèi)容。

表A.3數(shù)據(jù)類目與DatCatInfo的映射關(guān)系

XML元素DC名稱DatCatInfo中條目

<tbid>文件標識符/datcat/DC-230

<tbDescription>描述/datcat/DC-2520

<domainOfConcept>學(xué)科領(lǐng)域/datcat/DC-489

<conceptLastModified>

<languageCode>語言標識符/datcat/DC-279

<termDefinition>定義/datcat/DC-168

<termString>術(shù)語/datcat/DC-508

<usedIn>使用地域/datcat/DC-243

<wordClass>詞性/datcat/DC-396

<wordGender>語法的性/datcat/DC-245

<termLastModified>

元素<usageDescriptors>本身不含內(nèi)容。對于TML,該嵌套元素不是必需的,因此能夠刪除。元素

<conceptLastModified>和<termLastModified>在DatCatInfo中沒有對應(yīng)內(nèi)容。這些元素結(jié)合了三個信

息單元:日期、行為(修改,相對于創(chuàng)建等其他動作)和修改內(nèi)容(概念或術(shù)語)。為完成此映射,需

要進行適當(dāng)?shù)木幋a將這三個信息單元謹慎結(jié)合在一起。

下文的通用嵌套機制提供了將三個信息單元中的兩個結(jié)合在一起的方法。

17

GB/T29181—2023

TBX使用以下標記:

對術(shù)語或概念的修改,可通過這些元素錨定的元模型中的結(jié)構(gòu)節(jié)點(即TE或TS)表明。

A.3.3通用的XML表示

下文給出了A.3.1中所示條目的一種可行的通用表示。

這種表示能夠自動轉(zhuǎn)換(例如,使用XSLT)為TML(如TBX)并轉(zhuǎn)換回來,且無信息損失。

下例中,來自DatCatInfo的數(shù)據(jù)類目具體表示為<feat>元素的@type屬性值。類型的值為

“l(fā)anguageIdentifier”和“geographicalUsage”的元素的內(nèi)容,分別來自ISO639-1和ISO3166-1。

18

GB/T29181—2023

參考文獻

[1]ISO639-1,Codesfortherepresentationofnamesoflanguages—Part1:Alpha-2

code

[2]ISO639-2,Codesfortherepresentationofnamesoflanguages—Part2:Alpha-3

code

[3]IS024610-1,Languageresourcemanagement—Featurestructures—Part1:Feature

structurerepresentation

[4]DatCatlnfo—Adatacategoryrepository,

[5]IntroductiontoTermBaseeXchange,

[6]/TR/xmlschema-2/

19

GB/T29181—2023

目次

前言............................................................................II

引言...........................................................................III

1范圍................................................................................1

2規(guī)范性引用文件......................................................................1

3術(shù)語和定義..........................................................................1

4模塊化方法...........................................................................4

5術(shù)語數(shù)據(jù)描述的一般模型...............................................................4

原則.............................................................................5

組件和信息單元的一般表示...........................

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論