




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS01.020
CCSA22
中華人民共和國國家標準
GB/T29181—2023
代替GB/T29181-2012
`
術(shù)語工作計算機應(yīng)用術(shù)語信息置標框架
Computerapplicationsinterminology—Terminologicalmarkupframework
(ISO16642:2017,IDT)
(征求意見稿)
在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
GB/T29181—2023
前言
本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定
起草。
本文件代替GB/T29181-2012《術(shù)語工作計算機應(yīng)用術(shù)語信息置標框架》,與GB/T29181-2012
相比,主要技術(shù)變化如下:
a)刪除了附錄A、附錄B和附錄C相關(guān)內(nèi)容,不再主動使用以下格式:
1)帶專門限定標記的機器可讀術(shù)語交換格式(MSC);
2)Geneter;
3)數(shù)據(jù)類目交換格式(DCIF);
4)通用映射工具(GMT)。
b)刪除了附錄B和附錄C,不再包含任何TML的所有代碼示例。TML代碼示例現(xiàn)在可以由ISO
30042TermBaseeXchange(TBX)標準中,以及下述網(wǎng)址處獲得:。
c)前ISO/TC37數(shù)據(jù)類目注冊庫或ISOcat從規(guī)范性參考文件改為資料性參考文件。此外,名稱
已改為DatCatInfo,作為數(shù)據(jù)類目注冊庫的一個示例。
d)刪除對ISO12620:1999及ISO12620:2009的引用。這些標準已被廢止。
e)增加了類型值元素樣式。
f)更改了示例以反映ISO30042:2008(TBX)。TBX-Basic稱為TML。
g)更改一些示例和表格,將其并入相應(yīng)章節(jié)。
h)刪除了一些歷史信息、教導(dǎo)性信息或重復(fù)信息。
本文件由全國語言與術(shù)語標準化技術(shù)委員會(SAC/TC62)提出。
本文件由全國語言與術(shù)語標準化技術(shù)委員會(SAC/TC62)歸口。
本文件起草單位:中國中醫(yī)科學(xué)院中醫(yī)藥數(shù)據(jù)中心、中國標準化研究院、全國科學(xué)技術(shù)名詞審定委
員會、華南師范大學(xué)、上海對外經(jīng)貿(mào)大學(xué)、華北電力大學(xué)。
本文件主要起草人:
II
GB/T29181—2023
引言
術(shù)語數(shù)據(jù)由各種系統(tǒng)收集、管理和存儲,通常是各種數(shù)據(jù)庫管理系統(tǒng),從個人用戶的個人計算機應(yīng)
用程序到大型公司和政府機構(gòu)運營的大型術(shù)語數(shù)據(jù)庫系統(tǒng)。術(shù)語數(shù)據(jù)庫包含各類信息(稱為數(shù)據(jù)類目),
可以采用不同的結(jié)構(gòu)模型。術(shù)語數(shù)據(jù)經(jīng)常需要在多個應(yīng)用程序中共享和重復(fù)使用,通用模型有利于數(shù)據(jù)
共享。為了開展合作并防止重復(fù)工作,需要形成系列術(shù)語數(shù)據(jù)集合創(chuàng)建和使用、數(shù)據(jù)共享和交換的標準
和準則。
本文件引用了一個可用數(shù)據(jù)類目注冊庫示例DatCatInfo。DatCatInfo是一個在線數(shù)據(jù)庫,包含術(shù)語
數(shù)據(jù)集合和其他語言資源中的數(shù)據(jù)類型的相關(guān)信息。DatCatInfo可在以下網(wǎng)址中獲得:
。
III
GB/T29181—2023
術(shù)語工作計算機應(yīng)用術(shù)語信息置標框架
1范圍
本文件規(guī)定了表示術(shù)語數(shù)據(jù)集中所記錄數(shù)據(jù)的框架,該框架包括了元模型及用XML表示的描述特定
術(shù)語標記語言的方法。定義了TML中約束(而不是某個TML的特定的約束)的實現(xiàn)機制。
本文件適用于支持術(shù)語數(shù)據(jù)計算機應(yīng)用的開發(fā)和使用,以及不同應(yīng)用間的數(shù)據(jù)交換。本文件還定義
了允許將一種TML表示的數(shù)據(jù)映射到其他TML上的條件。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T10112術(shù)語工作原則和方法(GB/T10112—2019,ISO704:2009,IDT)
GB/T15237.1術(shù)語工作詞匯:第1部分:理論與應(yīng)用(GB/T15237.1—2000,ISO1087-1:2000,
IDT)
GB/T2659世界各國和地區(qū)名稱代碼(GB/T2659—2000,ISO3166-1:1997,IDT)
ISO26162術(shù)語、知識和內(nèi)容管理系統(tǒng)術(shù)語管理系統(tǒng)的設(shè)計、實現(xiàn)和維護
ISO30042:2008術(shù)語、知識和內(nèi)容管理系統(tǒng)——TermBaseeXchange(TBX)
3術(shù)語和定義
GB/T15237.1—2000界定的術(shù)語和定義適用于本文件。
基本信息單元basicinformationunit
元模型的一個組件(3.3)上附加的信息單元(3.12),可以用單個數(shù)據(jù)類目(3.6)來表示。
補充信息complementaryinformation
Cl
對術(shù)語條目(3.22)中所描述的內(nèi)容予以補充,并在術(shù)語數(shù)據(jù)集合(3.21)中共享的信息。
注:領(lǐng)域?qū)蛹夑P(guān)系,機構(gòu)描述、參考文獻信息和語料信息都是補充信息的典型例子。
3.3
組件component
元模型的基本描述單元,可以與數(shù)據(jù)類目(3.6)相關(guān)聯(lián)以形成數(shù)據(jù)模型。
3.4
復(fù)合信息單元compoundinformationunit
元模型組件(3.3)上附加的信息單元(3.12),通過幾個分組數(shù)據(jù)類目(3.6)表示,這些數(shù)據(jù)類
目組合在一起表示一個完整連貫的信息單元。
3.5
1
GB/T29181—2023
概念域conceptualdomain
與數(shù)據(jù)類目(3.6)相關(guān)聯(lián)的有效值含義的集合。
注:例如,數(shù)據(jù)類目/詞性/可以具有以下概念域:/名詞/、/動詞/、/形容詞/、/副詞/等。
3.6
數(shù)據(jù)類目datacategory
語言描述或標注方案中使用的基本描述符。
注:在本文件中,數(shù)據(jù)類目放在兩個斜杠(/)之間,例如/definition/。
3.7
數(shù)據(jù)類目注冊庫datacategoryrepository
DCR
被用作語言標注方案定義或語言資源其他表示模型參考的數(shù)據(jù)類目聲明(3.9)的電子注冊庫。
注:關(guān)于語言資源的DCR可在網(wǎng)站中獲得:。
3.8
數(shù)據(jù)類目選集datacategoryselection
DCS
從DCR(3.7)中選擇的一些數(shù)據(jù)類目構(gòu)成的集合(3.6)。
3.9
數(shù)據(jù)類目聲明datacategoryspecification
用于充分描述給定數(shù)據(jù)類目的屬性集(3.6)。
注:縮寫“DCS”用于表示數(shù)據(jù)類目選集,不用于表示數(shù)據(jù)類目聲明。
3.10
擴展樹expansiontree
在某給定TML(3.23)中,實現(xiàn)某一個層的元模型的一組結(jié)構(gòu)化的XML元素。
3.11
全局信息globalinformation
GI
應(yīng)用于整個術(shù)語數(shù)據(jù)集合(3.21)的技術(shù)性和管理性的信息。
注:實例,術(shù)語數(shù)據(jù)集合的標題、歷史修訂記錄、所有者或版權(quán)信息。
3.12
信息單元informationunit
IU
附于元模型某結(jié)構(gòu)層的某項不可拆分的基本信息。
3.13
語言段languagesection
LS
術(shù)語條目(3.22)上的片段,包含與某一種語言相關(guān)的信息。
注:一個術(shù)語條目可能包含一種或多種語言的信息。
3.14
目標語言objectlanguage
被描述的語言。
3.15
永久標識符persistentidentifier
PID
2
GB/T29181—2023
唯一的統(tǒng)一資源標識符(URI),確保對數(shù)字目標進行永久訪問,而不受其物理位置或當(dāng)前所有權(quán)
的影響。
3.16
結(jié)構(gòu)節(jié)點structuralnode
術(shù)語數(shù)據(jù)集合(3.21)表示中的組件(3.3)的實例。
3.17
結(jié)構(gòu)骨架structuralskeleton
按元模型的要求而對術(shù)語數(shù)據(jù)集合(3.21)實例所作的抽象描述。
3.18
樣式style
用XML語言對數(shù)據(jù)類目(3.6)實現(xiàn)的方式。
3.19
術(shù)語組件段termcomponentsection
TCS
術(shù)語段(3.20)中的片段,用以給出術(shù)語各組成成分的語言學(xué)信息。
3.20
術(shù)語段termsection
TS
語言段(3.13)中給出術(shù)語信息的片段。
3.21
術(shù)語數(shù)據(jù)集合terminologicaldatacollection
TDC
由術(shù)語條目(3.22)及其相關(guān)的元數(shù)據(jù)和文檔信息組成的資源。
3.22
術(shù)語條目terminologicalentry
TE
術(shù)語數(shù)據(jù)集合(3.21)的一部分,包含與某一概念相關(guān)的術(shù)語數(shù)據(jù)。
注:術(shù)語條目中的每個元素都可以與補充信息、其他術(shù)語條目以及同一術(shù)語條目中的其他元素鏈接。
3.23
術(shù)語標記語言terminologicalmarkuplanguage
TML
用于對術(shù)語數(shù)據(jù)集合(3.21)進行描述、且遵循本文件闡述的約束條件的XML格式。
3.24
統(tǒng)一建模語言UnifiedModelingLanguage
UML
用于對軟件系統(tǒng)的各種特征進行描述、可視化、構(gòu)建和文檔化的語言。
3.25
詞匯表vocabulary
<數(shù)據(jù)建模>用于根據(jù)樣式(3.18)實現(xiàn)數(shù)據(jù)類目(3.6)的字符串集合。
3.26
工作語言workinglanguage
用于描述對象的語言。
3.27
3
GB/T29181—2023
XML大綱XMLoutline
一個術(shù)語數(shù)據(jù)集合(3.21)的組成成分,對應(yīng)于元模型的XML實現(xiàn)方案。
4模塊化方法
術(shù)語信息置標框架(TMF)由兩個抽象層級組成。第一個層級是元模型層級,這也是最抽象的層級。
元模型層級支持在一個非常通用的層級上進行的分析、設(shè)計和交換,即獨立于任何特定的實現(xiàn)或軟件。
元模型應(yīng)由所有符合TMF的TDC共享。第二個層級是數(shù)據(jù)模型層級,添加了表示特定TDC所需的數(shù)據(jù)類目。
用XML語言實現(xiàn)數(shù)據(jù)模型被稱為術(shù)語標記語言(TML)。TML可以根據(jù)有限的幾個特征來描述:
——TML如何表達元模型的結(jié)構(gòu)組織(即TML的擴展樹);
——TML所使用的特定數(shù)據(jù)類目及其與元模型的關(guān)系;
——這些數(shù)據(jù)類目如何以XML表示并錨定在TML的擴展樹上,即任何給定數(shù)據(jù)類目的XML樣式;
——TML使用的詞匯表,用于根據(jù)相應(yīng)的XML樣式將各種信息對象表示為XML元素和屬性。
圖1表示了完整聲明一個TML所需的信息,包括:
——元模型描述了所有TML都應(yīng)遵循的組件的基本層級體系;
——數(shù)據(jù)類目注冊庫中的一組數(shù)據(jù)類目聲明構(gòu)成的集合,能夠為TML定義數(shù)據(jù)類目選集(DCS)
形成基礎(chǔ);
——專用語的聲明(專用語)包括以XML格式表示給定TML所需要的各種元素。這些元素包括擴
展樹和數(shù)據(jù)類目實例化樣式,以及相應(yīng)的詞匯表。
元模型數(shù)據(jù)類目注冊庫
數(shù)據(jù)類目選集:專用語:
——數(shù)據(jù)類目注冊子集——擴展樹
——由應(yīng)用決定的DCR——數(shù)據(jù)類目樣式+詞匯表
互操作性條件
術(shù)語標記語言(TML)
圖1描述TML所涉及的各種知識源
提供語言資源數(shù)據(jù)類目聲明樣例的DCR,可在網(wǎng)站中獲得:www.。如果可能,此DCR
中記錄的數(shù)據(jù)類目應(yīng)當(dāng)用于TML。如果該DCR中沒有合適的數(shù)據(jù)類目,TML的實現(xiàn)者宜建議在此DCR中創(chuàng)建
所需的數(shù)據(jù)類目聲明。
5術(shù)語數(shù)據(jù)描述的一般模型
4
GB/T29181—2023
原則
本章描述了一類XML文件結(jié)構(gòu),可用來覆蓋很大范圍的術(shù)語數(shù)據(jù)格式,并且提供了一種可以通過使
用XML語言來表示這些文件的框架。
每種文件結(jié)構(gòu)類型都是通過三層信息結(jié)構(gòu)模式來描述:
——元模型,由具有層級體系的組件所組成;
——信息單元,能夠與元模型中任一組件相關(guān)聯(lián);
——標注,能夠用來限定給定信息單元的屬性。
信息單元能夠是基本的或復(fù)合的?;拘畔卧依ǖ男畔⒛軌蛴脝蝹€數(shù)據(jù)類目直接表達。復(fù)合信
息單元囊括的信息通過多個組合在一起的數(shù)據(jù)類目表達,這些數(shù)據(jù)類目組合在一起表示一個完整連貫
的信息單元。例如,一個復(fù)合信息單元能夠用來表示“某項事務(wù)應(yīng)屬于某個事務(wù)類型(如修改)、執(zhí)行
人員,以及執(zhí)行日期”這樣的事實。
基本信息單元,無論是直接附于一個組件,還是附屬在復(fù)合信息單元之內(nèi),能夠具有兩種非互斥類
型的值:
——原子值(atomicvalue),或者對應(yīng)于某個XML方案(XMLschema)中的簡單類型(simple
type),例如數(shù)、字符串、選擇列表的元素等,或者對應(yīng)于注釋文本下的混合內(nèi)容類型
(mixedcontenttype);
——組件的引用值,用于表達該組件與當(dāng)前組件之間的關(guān)系。
——信息單元能夠抽象地表示為特征-值結(jié)構(gòu)(feature-valuestructure)。如,以下標記示例
能夠以下列特征-值結(jié)構(gòu)形式建模為基本信息單元:
類似地,以下TBX標記示例
能夠以如圖2所示的特性值結(jié)構(gòu)形式建模。
圖2特征-值結(jié)構(gòu)
語義信息還需要通過標注與數(shù)據(jù)類目內(nèi)容相關(guān)聯(lián)。人們對術(shù)語定義中種屬信息和/或差異信息進行
明確標識是一種典型實例,如下列對“鉛筆(leadpencil)”的定義:
5
GB/T29181—2023
該信息無法表示為特征-值結(jié)構(gòu)。
組件和信息單元的一般表示
術(shù)語數(shù)據(jù)能夠用通用的架構(gòu)來表示。該架構(gòu)是一個由眾多基本結(jié)構(gòu)節(jié)點所形成的體系構(gòu)成的。其
中各結(jié)構(gòu)節(jié)點上附著有一個或多個信息單元。該架構(gòu)的UML圖形表示見圖3。
父
內(nèi)容包含
結(jié)構(gòu)節(jié)點
關(guān)聯(lián)
信息單元
子
細化信息單元被細化的信息單元
細化過程
圖3結(jié)構(gòu)節(jié)點和信息單元的UML圖
圖3表達了以下所定義的類之間的關(guān)系:
——結(jié)構(gòu)節(jié)點:包含有一個屬性(LevelName)的類,用來在給定語言資源的上下文當(dāng)中標識該
類型的對象。如,術(shù)語條目(TE)表示術(shù)語數(shù)據(jù)。
——信息單元:包含以下3個屬性的類:
?標識與給定數(shù)據(jù)類目相關(guān)的該類型的對象(IUName,如/definition/、/partOfSpeech/
等);
?描述其內(nèi)容的類型(C_type);
?提供實際內(nèi)容的值(C_value)。
C_type的值允許是屬于XML方案第2部分數(shù)據(jù)類型中所定義的簡單類型(simpletype)集合,
或為混合型(MIXED)。
這兩個類的對象能夠通過以下方式相聯(lián):
——關(guān)聯(lián):表示一個結(jié)構(gòu)節(jié)點通過層級鏈接與另一個結(jié)構(gòu)節(jié)點相聯(lián)系。對鏈接的數(shù)量或由這些鏈
接創(chuàng)立的網(wǎng)絡(luò)結(jié)構(gòu)(如樹圖、有向無環(huán)圖等)沒有限制(0..*)。
——內(nèi)容包含:將一個結(jié)構(gòu)節(jié)點和信息單元聯(lián)系起來(如,“定義”聯(lián)接到TE節(jié)點)。一個信
息單元的實例聯(lián)接到一個且唯一一個結(jié)構(gòu)節(jié)點(1..1)。
——細化:將提供附加信息的信息單元與另一個信息單元聯(lián)系起來(如,信息單元“注釋”用來
細化“定義”)。一個細化信息單元聯(lián)接到一個且唯一的一個被細化的信息單元(1..1)。
一些TML允許比其他TML有更多的細化層級,這影響了互操作性程度。
6
GB/T29181—2023
混合類型是文本內(nèi)容(字符串)和信息單元的有序組合,對應(yīng)于各種標注的內(nèi)容,能夠在UML中
通過使用聚合操作符來表示,如圖4所示。
混合型
信息單元
字符串型
圖4混合型對象類
遵照該定義,允許使用其他信息單元細化標注(如,標明何時由誰做的標注)。
元模型
術(shù)語元模型是以GB/T10112—2019標準中所描述的術(shù)語管理原則與方法綱要為基礎(chǔ)的。與詞典編
撰的條目相比,術(shù)語條目最重要的特點是面向概念。一個術(shù)語條目涉及給定語言中的一個概念。在多
語言的情況下,一個術(shù)語條目涉及一個或多個概念,其在不同語言中完全或部分等價。而詞典編撰的
條目只包含一個詞目(詞匯單位的基本形式),以及一個或多個由一種或更多語言表示的定義(表示
不同的釋義)。
注意,有些概念不是通用的,在不同的語言或文化中略有差異。有的差異可能很顯著,以致于構(gòu)
成了不同的概念。根據(jù)概念差異和相似的程度,可選定以同一條目或不同條目描述這些概念。
一個術(shù)語數(shù)據(jù)集合包括了關(guān)于該集合的全局信息和一些術(shù)語條目。每個術(shù)語條目有三個功能:
——描述一個概念;
——確認指稱概念的術(shù)語;
——描述術(shù)語本身。
每個術(shù)語條目有多個語言段,而且每個語言段有多個術(shù)語段(術(shù)語及其附帶信息)。條目中的每
個數(shù)據(jù)元素能夠與各種描述性、管理性信息相聯(lián)系。此外,還會有其他一些資源能被多個條目引用。
這些共享資源包括參考書目、知識本體描述,以及諸如用于解釋說明概念的圖像等二進制數(shù)據(jù)。
應(yīng)遵守GB/T10112—2019、ISO26162和ISO30042:2008中描述的術(shù)語管理原則,具體包括:
——術(shù)語獨立;
——面向概念;
——數(shù)據(jù)元素;
——數(shù)據(jù)粒度。
術(shù)語元模型通過結(jié)構(gòu)節(jié)點類的7個實例進行描述,如圖5所示。
7
GB/T29181—2023
父
結(jié)構(gòu)節(jié)點
關(guān)聯(lián)
子
TE-層級LS-層級TS-層級TCS-層級
關(guān)聯(lián)關(guān)聯(lián)關(guān)聯(lián)
TDC-層級GI-層級CI-層級
關(guān)聯(lián)
關(guān)聯(lián)
圖5術(shù)語元模型——UML圖表
結(jié)構(gòu)節(jié)點類的這7個實例是:
——TDC(術(shù)語數(shù)據(jù)集合):包含在術(shù)語數(shù)據(jù)集合中的所有信息的頂級容器;
——GI(全局信息):關(guān)于TDC的整體信息。例如,全局信息通常包括TDC的標題、文件的建立
單位或個人、地址信息、版權(quán)信息、更新信息等;
——TE(術(shù)語條目):與單一概念或兩個或兩個以上幾乎等同的概念有關(guān)的信息。術(shù)語條目包含
關(guān)于概念的描述性信息,如定義和學(xué)科領(lǐng)域,以及關(guān)于條目的管理性信息;
——LS(語言段):語言段是一個容器,包含給定語言的術(shù)語條目的所有術(shù)語段,以及與該語言
的概念有關(guān)的信息。例如,包括給定語言的定義,或關(guān)于該語言概念的特定特征或?qū)ο蟮奶?/p>
定屬性的注釋;
——TS(術(shù)語段):術(shù)語段只包含一個術(shù)語以及該術(shù)語的相關(guān)信息,如詞性、術(shù)語類型和上下
文;
8
GB/T29181—2023
——TCS(術(shù)語組件段):關(guān)于術(shù)語片段的信息,如詞素、音素、音節(jié)或多詞術(shù)語中的單個單
詞。在一些語言(如法語或西班牙語)中,有時需要將性別等信息與多詞術(shù)語中使用的單個
單詞聯(lián)系起來;
——CI(補充信息):補充信息通常包含,例如參考書目信息或管理性信息、圖形圖像、視頻、
音頻或任何其他類型的二進制數(shù)據(jù)。還能包括對其他術(shù)語數(shù)據(jù)集合的引用或?qū)ο嚓P(guān)語料信
息、知識本體結(jié)構(gòu)或外部URI的鏈接。這些內(nèi)容因其能夠被任何術(shù)語條目所引用,故通常被
指定為共享資源。
這些組件實例實現(xiàn)了具有關(guān)聯(lián)基數(shù)限制的“關(guān)聯(lián)”關(guān)系,系統(tǒng)化表示為圖6。
TDC(術(shù)語數(shù)據(jù)集合)
GI(全局信息)CI(補充信息)
TE(術(shù)語條目)
LS(語言段)
TS(術(shù)語段)
TCS(術(shù)語組件段)
圖6術(shù)語元模型系統(tǒng)化示圖
關(guān)聯(lián)基數(shù):
——一個TDC應(yīng)包含正好一個GI(1..1),至多一個CI(0..1)和任意數(shù)量的TE(0..*);
——一個TE能包含任意數(shù)量的LS(0..*);
——一個LS能包含任意數(shù)量的TS(0..*);
——一個TS能包含任意數(shù)量的TCS(0..*)。
圖5中元模型節(jié)點之間表示的1..1限制條件保證了層級組織結(jié)構(gòu)。例如,術(shù)語段(TS)是語言段(LS)
的子段。
范例
以一個簡單的、符合TBX規(guī)范的XML文檔表示的術(shù)語條目為例,說明TDC能夠作為抽象結(jié)構(gòu)進行分析。
為了說明如何將某個TDC作為一個抽象結(jié)構(gòu)進行分析,下面將以一個簡單的、使用符合TBX規(guī)范的
XML文檔來表達的術(shù)語條目為例:
9
GB/T29181—2023
通過確定與元模型相對應(yīng)的結(jié)構(gòu)骨架,以及將所對應(yīng)的信息單元與該結(jié)構(gòu)骨架中的各組件相關(guān)聯(lián),
能夠創(chuàng)建該術(shù)語條目的抽象模型,如圖7所示。
條目標識符=“ID67”
學(xué)科領(lǐng)域=“manufacturing”
定義=“Avalue...”
語言標識符=“en”語言標識符=“hu”
術(shù)語=“alphasmoothingfactor”術(shù)語=“Alfa...”
詞性=“noun”
詞性=“noun”
圖7將XML文檔映射成為抽象模型
為了描述該TML的DCS,數(shù)據(jù)類目可以映射到DatCatInfo中指定的相應(yīng)數(shù)據(jù)類目。
標識符PID
entryIdentifier/rest/dc/206
subjectField/rest/dc/489
definition/rest/dc/168
languageIdentifier/rest/dc/279
term/rest/dc/508
partOfSpeech/rest/dc/396
noun/rest/dc/1333
6符合TMF的要求
所有TML計算機格式應(yīng)基于:
——元模型;
——可從DCR中獲得的DCS,如DatCatInfo。
TML采用的每個DCS,應(yīng)由來自DCR(如DatCatInfo)的一系列數(shù)據(jù)類目及每種數(shù)據(jù)類目所附加的約
束條件(可選)構(gòu)成。限定條件包括對數(shù)據(jù)類目允許值的約束,如/上下文/的允許值為“標記文本”或
/語法分類/的允許值為“選擇列表”以及數(shù)字或日期等特定的XML數(shù)據(jù)類型。約束條件還包括對特殊數(shù)
據(jù)類目在元模型的不同層級(組件)出現(xiàn)位置的限制。例如,/詞性/可以被限制在僅出現(xiàn)于TS層級。
任何符合TMF的TDC都應(yīng)該對工作語言和目標語言予以明確區(qū)分。這兩種類型的語言信息可關(guān)聯(lián)于
該集合的任何層級上(見第8章)。
10
GB/T29181—2023
附錄A提供了術(shù)語數(shù)據(jù)滿足TMF的示例場景。
7交換和互操作性
交換涉及的是兩種計算機系統(tǒng)之間的信息傳遞,這種信息傳遞通常是雙向的。交換可使用中間格式。
兩個TML之間的互操作性程度能夠通過比較它們的聲明(元模型及其DCS的組合)來確定。遵照本文
件中元模型構(gòu)建并使用相同DCS的TML是可以互操作的,即將數(shù)據(jù)從一種TML轉(zhuǎn)換到另一種TML并且轉(zhuǎn)換
回來,將不會丟失信息。如果一個TML的DCS是另一個TML的DCS的子集,將數(shù)據(jù)從前者轉(zhuǎn)換到后者是可行
的,但反之不成立。
圖8TMF改善TML間互操作性
8表示語言
工作語言是用于描述TDC中的任何給定文本內(nèi)容的語言,如一個定義或一項注釋。工作語言的范圍
是以聲明該信息的元素為起始的整個子文件,除非該聲明被其他工作語言聲明所取代。
目標語言是語言段中被描述的語言。
目標語言和工作語言都應(yīng)該使用W3C推薦的擴展標記語言(XML)定義的xml:lang屬性表示。該屬性
用于語言段層級時,表示目標語言和工作語言。
xml:lang屬性的允許值見IETFRFC5646或其后續(xù)版本,如IETFBCP47中所標識的。
以下例子表示了兩種語言類型聲明在TBX中LS內(nèi)的使用方法:
9定義TML
步驟
定義TML需要以下步驟:
a)從DCR中選擇數(shù)據(jù)類目,如DatCatInfo;
b)創(chuàng)建與術(shù)語元模型中的結(jié)構(gòu)節(jié)點相關(guān)聯(lián)的擴展樹;
11
GB/T29181—2023
c)確定表達分配給擴展樹中節(jié)點的數(shù)據(jù)類目所需的XML樣式和詞匯表;
d)為充分說明對有效的TML實例起著控制作用的XML方案提供必要信息;
e)為將TML實例轉(zhuǎn)換為另一個TML實例提供所需的互操作性條件。
定義互操作性條件
互操作性條件應(yīng)基于對特定TML有效的DCS的聲明。DCS包括表示每個數(shù)據(jù)類目性質(zhì)的數(shù)據(jù)類目聲明,
其屬性包括:
——唯一的數(shù)據(jù)類目名稱;
——數(shù)據(jù)類目聲明的永久標識符(PID);
——數(shù)據(jù)類目可能出現(xiàn)的結(jié)構(gòu)節(jié)點(元模型層級);
——與數(shù)據(jù)類目關(guān)聯(lián)的概念域。
10實現(xiàn)TML
概要
為創(chuàng)造互操作性條件,應(yīng)規(guī)定實現(xiàn)TML的XML數(shù)據(jù)結(jié)構(gòu)。應(yīng)采用下列方式形成XML大綱:
——基于一組適當(dāng)?shù)腦ML元素,將TML實例的結(jié)構(gòu)框架映射到元模型;
——為DCS中各種數(shù)據(jù)類目提供錨定機制。
元模型的實現(xiàn)
定義TML結(jié)構(gòu)部分,應(yīng)把XML擴展樹與元模型的每個結(jié)構(gòu)節(jié)點相關(guān)聯(lián)。對于元模型中存在父節(jié)點的每
個結(jié)構(gòu)節(jié)點(即元模型里有更高層級的節(jié)點),應(yīng)為其定義一個錨點。該錨點包括了其父節(jié)點擴展樹上
的一個節(jié)點,并且能夠連接到該節(jié)點自己的擴展樹。
TML某個實例的XML大綱包括了與其結(jié)構(gòu)框架相關(guān)聯(lián)的所有的擴展樹。
XML大綱中數(shù)據(jù)類目的錨定
10.3.1概要
與結(jié)構(gòu)節(jié)點相關(guān)聯(lián)的擴展樹應(yīng)由一組XML元素節(jié)點構(gòu)成。每個XML元素節(jié)點都應(yīng)是與該節(jié)點相關(guān)聯(lián)
的任意數(shù)據(jù)類目的潛在錨點。根據(jù)以下信息,每個數(shù)據(jù)類目均應(yīng)表達為其錨點的子結(jié)構(gòu):
——錨定樣式;
——實際TML中使用的詞匯表。
對于TML,完整DCS中的每個數(shù)據(jù)類目,應(yīng)聲明錨點、樣式和詞匯表等屬性。
10.3.2樣式和詞匯表
附于TML結(jié)構(gòu)框架上的數(shù)據(jù)類目應(yīng)采用XML特征-值對,并使用以下五種樣式中的一種實現(xiàn):
——屬性;
——元素;
——類型元素;
——值元素;
——類型值元素。
屬性樣式應(yīng)將數(shù)據(jù)類目作為其錨點的屬性來實現(xiàn)。數(shù)據(jù)類目的值作為該屬性的內(nèi)容。示例:
12
GB/T29181—2023
元素樣式應(yīng)將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是其所關(guān)聯(lián)錨點的子元素。數(shù)據(jù)類目的值作
為該元素的內(nèi)容。示例:
類型元素樣式應(yīng)將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是其所關(guān)聯(lián)錨點的子元素,并指定為
“類型(type)”屬性的值。詞匯表由該元素的名稱和“類型(type)”屬性的值組成。數(shù)據(jù)類
目的值作為該元素的內(nèi)容。示例:
值元素樣式應(yīng)將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是給定錨點的子元素。元素由“值(value)”
屬性進一步說明,該元素可以說明另一個數(shù)據(jù)類目。詞匯表由該元素的名稱和“值(value)”屬性
的值組成。示例:
類型值元素樣式將數(shù)據(jù)類目作為XML元素予以實現(xiàn),該元素是給定錨點的子元素,并且由屬性“類
型(type)”和“值(value)”進一步說明。詞匯表由該元素的名稱以及該屬性的名稱組成。與數(shù)
據(jù)類目相關(guān)聯(lián)的數(shù)值作為“類型(type〉”屬性的內(nèi)容來實現(xiàn)。示例:
數(shù)據(jù)類型的約束
使用元素或類型元素樣式實現(xiàn)的數(shù)據(jù)類目能夠具有包含附加標記的值(尤其是因標注而產(chǎn)生的標
記)。反之,使用屬性、值元素或類型值元素樣式實現(xiàn)的數(shù)據(jù)類目不應(yīng)包含任何此類附加標記。
標注的實現(xiàn)
與附于給定TML結(jié)構(gòu)骨架的數(shù)據(jù)類目一樣,標注應(yīng)用同樣方式實現(xiàn)(采用XML樣式和詞匯表)。只有
元素樣式和類型元素樣式支持標注。
尖括號的實現(xiàn)
被括起來的數(shù)據(jù)類目應(yīng)通過以下元素實現(xiàn):提供該組主要數(shù)據(jù)類目名稱的元素,以及其他提供更多
相關(guān)數(shù)據(jù)類目的元素(如管理信息)。示例:
13
GB/T29181—2023
14
GB/T29181—2023
A
A
附錄A
(資料性)
術(shù)語數(shù)據(jù)與TMF的一致性:示例場景
A.1概述
本附錄通過分析數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容并對這些數(shù)據(jù)進行一定的轉(zhuǎn)換,討論基于XML的術(shù)語數(shù)據(jù)是如何
實現(xiàn)與TMF的兼容。通過數(shù)據(jù)分析和轉(zhuǎn)換,TML可以被清晰的聲明,不僅可以無信息損失地表達術(shù)語數(shù)據(jù),
而且改善了其與其他TML間的互操作性。
A.2示例
下面的例子來自汽車發(fā)動機TDC的術(shù)語條目。這個例子不完全符合TMF,但經(jīng)過一些修改,可以映射
到TMF。
表A.1描述了本示例所包含的信息。
表A.1元素內(nèi)容描述
XML元素描述內(nèi)容描述
<tbid>TDC的唯一標識符字母數(shù)字編碼
<tbDescription>描述TDC的文本文本
<domainOfConcept>本概念條目的學(xué)科領(lǐng)域選定的與概念有關(guān)的值
與本概念有關(guān)的信息數(shù)據(jù)的最后修改日
<conceptLastModified>日期
期
<languageCode>術(shù)語使用的語言ISO639-1中的值
<termDefinition>術(shù)語定義文本
<termString>術(shù)語本身文本
15
GB/T29181—2023
XML元素描述內(nèi)容描述
<usedIn>使用該語言術(shù)語的國家ISO3166-1中的值
<wordClass>術(shù)語的語法分類例如,n代表名詞
<wordGender>術(shù)語的語法詞的性m代表陽性,f代表陰性,或n代表中性
與本術(shù)語有關(guān)的信息數(shù)據(jù)的最后修改日
<termLastModified>日期
期
其他XML元素表示此信息的容器。
在表1中,對于與<termString>和<termDefinition>的文本內(nèi)容一同使用的<languageCode>的描
述,宜在標記中引入XML屬性“xml:lang”來體現(xiàn),例如:“語言碼以及表示該代碼的語言是德語”。
在需要覆蓋該結(jié)構(gòu)中已有的從高層元素傳下來的xml:lang的值的時候,應(yīng)在XML文檔中引入該屬性。
A.3一致性的確定
A.3.1元模型聲明
通過與元模型的結(jié)構(gòu)節(jié)點相比較,可以評估本例的XML大綱與元模型的一致程度。該比較如表A.2
所示。
表A.2XML大綱與元模型的結(jié)構(gòu)節(jié)點比較
元模型組件詞匯表
TDC<termBank>
GI
TE<conceptEntry>
LS<termGroup>
TS
CI
上例沒有TS的等同物。盡管如此,TS能在無信息損失的情況下引入。上例中不包含CI,而GI可從
<tbid>和<tbDescription>元素中創(chuàng)建。以下元素表示結(jié)構(gòu)節(jié)點:
——<termBank>
——<conceptEntry>
——<termGroup>
以下元素表示新引入的部分:
——<globalInformation>
——<termSection>
此外,還為德語<termGroup>部分添加了語言代碼。英語部分不需要語言代碼,因為其已從
<termBank>元素繼承。這種交替結(jié)果如下所示:
16
GB/T29181—2023
A.3.2數(shù)據(jù)類目選集
根據(jù)以上給出的對元素內(nèi)容的描述,可以將TML數(shù)據(jù)類目映射到DatCatInfo中相應(yīng)內(nèi)容。
表A.3數(shù)據(jù)類目與DatCatInfo的映射關(guān)系
XML元素DC名稱DatCatInfo中條目
<tbid>文件標識符/datcat/DC-230
<tbDescription>描述/datcat/DC-2520
<domainOfConcept>學(xué)科領(lǐng)域/datcat/DC-489
<conceptLastModified>
<languageCode>語言標識符/datcat/DC-279
<termDefinition>定義/datcat/DC-168
<termString>術(shù)語/datcat/DC-508
<usedIn>使用地域/datcat/DC-243
<wordClass>詞性/datcat/DC-396
<wordGender>語法的性/datcat/DC-245
<termLastModified>
元素<usageDescriptors>本身不含內(nèi)容。對于TML,該嵌套元素不是必需的,因此能夠刪除。元素
<conceptLastModified>和<termLastModified>在DatCatInfo中沒有對應(yīng)內(nèi)容。這些元素結(jié)合了三個信
息單元:日期、行為(修改,相對于創(chuàng)建等其他動作)和修改內(nèi)容(概念或術(shù)語)。為完成此映射,需
要進行適當(dāng)?shù)木幋a將這三個信息單元謹慎結(jié)合在一起。
下文的通用嵌套機制提供了將三個信息單元中的兩個結(jié)合在一起的方法。
17
GB/T29181—2023
TBX使用以下標記:
對術(shù)語或概念的修改,可通過這些元素錨定的元模型中的結(jié)構(gòu)節(jié)點(即TE或TS)表明。
A.3.3通用的XML表示
下文給出了A.3.1中所示條目的一種可行的通用表示。
這種表示能夠自動轉(zhuǎn)換(例如,使用XSLT)為TML(如TBX)并轉(zhuǎn)換回來,且無信息損失。
下例中,來自DatCatInfo的數(shù)據(jù)類目具體表示為<feat>元素的@type屬性值。類型的值為
“l(fā)anguageIdentifier”和“geographicalUsage”的元素的內(nèi)容,分別來自ISO639-1和ISO3166-1。
18
GB/T29181—2023
參考文獻
[1]ISO639-1,Codesfortherepresentationofnamesoflanguages—Part1:Alpha-2
code
[2]ISO639-2,Codesfortherepresentationofnamesoflanguages—Part2:Alpha-3
code
[3]IS024610-1,Languageresourcemanagement—Featurestructures—Part1:Feature
structurerepresentation
[4]DatCatlnfo—Adatacategoryrepository,
[5]IntroductiontoTermBaseeXchange,
[6]/TR/xmlschema-2/
19
GB/T29181—2023
目次
前言............................................................................II
引言...........................................................................III
1范圍................................................................................1
2規(guī)范性引用文件......................................................................1
3術(shù)語和定義..........................................................................1
4模塊化方法...........................................................................4
5術(shù)語數(shù)據(jù)描述的一般模型...............................................................4
原則.............................................................................5
組件和信息單元的一般表示...........................
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寧夏2024公務(wù)員真題
- 公考天津真題2024
- 2025-2030中國層壓食品飲料鋼行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國屋頂梯行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 風(fēng)琴包行業(yè)跨境出海戰(zhàn)略研究報告
- 橋梁工程行業(yè)跨境出海戰(zhàn)略研究報告
- 釣魚餌企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 2025-2030中國小奶鍋行業(yè)市場發(fā)展運行及發(fā)展趨勢與投資前景研究報告
- 綜合文化中心服務(wù)行業(yè)直播電商戰(zhàn)略研究報告
- 公路工程及相關(guān)設(shè)計行業(yè)跨境出海戰(zhàn)略研究報告
- 《C語言指針》教學(xué)課件
- 9.3大氣壓強(課件)(共39張) 2024-2025學(xué)年度人教版物理八年級下冊
- 《陀螺定向測量技術(shù)規(guī)程》
- 2025年熔化焊接與熱切割考試1000題及答案
- 湖北建筑工程施工統(tǒng)一用表
- 2025年中考語文作文題預(yù)測及范文
- 華南理工大學(xué)自主招生個人陳述自薦信范文
- 《鄭人買履》課本劇劇本:別讓教條束縛了你的思維(6篇)
- T-SHXFXH002-2024集裝箱式柴油發(fā)電機組及油機平臺消防安全技術(shù)標準
- 幼兒園園長法律培訓(xùn)
- 住建局條文解讀新規(guī)JGJT46-2024《施工現(xiàn)場臨時用電安全技術(shù)標準》
評論
0/150
提交評論