




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
OLAC虛擬語言圖書館介紹xx語言坐標目錄OLACMetadataSet簡介與國際標準對應時空范圍的控制詞匯將xx語言套用于OLACMS語言識別結論OpenLanguageArchiveCommunityOLAC的目標
于2000年12月的一個語言資源工作營中,由來自北美、南美、歐洲、非洲、中東、亞洲、澳洲的語言學家與軟件發(fā)展者所創(chuàng),希望藉由下列步驟進行創(chuàng)造世界性語言資源的虛擬圖書館:針對語言資源數(shù)位典藏發(fā)展一致性的實踐指引。發(fā)展一網(wǎng)絡上具有互通性且提供存取相關語言資源的儲存器和服務中心OLAC的組織Coordinators:
StevenBird&GarySimonsAdvisoryBoard:HelenAristarDry,SusanHockey,Chu-RenHuang,MarkLiberman,BrianMacWhinney,MichaelNelson,NicholasOstler,HenryThompson,HansUszkoreit,AntonioZampolliParticipatingArchives&Services:LDC,ELRA,DFKI,CBOLD,ANLC,LACITO,Perseus,SIL,APS,UtrechtProspectiveParticipants:ASEDA,AcademiaSinica,AISRI,INALF,LCAAJ,Linguist,MPI,NAA,OTA,Rosetta,TibetanDigitalLibrary(UVA)IndividualMembers:~120OLAC的緣起
許多協(xié)會需要語言資源,如:語言學家、工程師、教師、演說家﹔許多機構提供片段性的架構,如:檔案管理員、軟件發(fā)展者和出版者。前所未有的契機:延伸性標志語言(ExtensibleMarkupLanguage,XML)和Unicode提供以結構化方式彈性呈現(xiàn)以及長期儲存資料。在線或非在線的數(shù)字化出版品有效且實際上達到分享語言資源涵義DublinCore后設資料集(資源分類標準模塊)連同OpenArchivesInitiative所提供的交換方法,可建立一個跨越多個儲存器與檔案柜的架構。OLAC的愿景#1使用者透過單一OLAC的服務提供中心網(wǎng)站,搜尋與呈現(xiàn)OLAC的metadata欄位。OLAC的愿景#2理論上-使用者可取得任何需要的資源DATA任何描述語言的相關信息。問卷結果:25%數(shù)字化,但并未采用相同的后設資料欄位。TOOLS有助于創(chuàng)造、瀏覽、查詢或使用語言資料的計算機資源。ADVICE什么資源是可靠的?什么工具適用于此情境?創(chuàng)造新資料時該如何作?OLAC的愿景#3實際上無法得到想要的資源在不同網(wǎng)站擁有不同名字(Name)造成召回率低(lowrecall)。在其他領域有相同意義,造成正確率低(precision).是否運用適當軟件以及判斷ADVICE的價值?許多語言資源并非以文字為基礎。語言資源散布在不同的網(wǎng)站。OLAC的愿景#4CONVERTCREATECREATEEXPORTDELIVERFORMATOAICONTENTMETADATAOLACREPOSITORIESOLACSERVICESUSERSERVICESOLACPROCOLAC
MHPOAI
MSDCSoftwareRecommendationsInitiativesStandardsOLAC的愿景#5銜接縫隙的基礎架構Gateway使用者可獲得data,tool,advice的單一入口網(wǎng)站。Metadatadata,tool,advice的統(tǒng)一描述,包含所有項目的連結以及解釋如何存取。Review瀏覽data,tool,advice的評價。Standards上述各項過程與協(xié)定的基礎,例如:metadataschema,harvestingprotocol.OLAC的基礎#1
DublinCore后設資料集連同OpenArchivesInitiative所提供的交換方法,可建立一個跨越多個儲存器與檔案柜的架構。DublinCoreOpenArchivesInitiativeOLAC的基礎#2Recall:OAIdataproviders必須支援:DublinCore后設資料OAI后設資料擷取協(xié)定(Metadataharvestingprotocol)BUT:OAIdataproviders可支援:其他專門的后設資料格式其他專門的擷取協(xié)定OLAC的任務:制定有關語言資源的專業(yè)后設資料制定專門的擷取協(xié)定(額外驗證)OLAC的標準standards=theprotocolsandinterfacesthatallowthecommunitytofunctionrecommendations="standards"forrepresentinglinguisticcontentOLAChasthreeprimarystandards:OLACMS:theOLACMetadataSet(QualifiedDC)OLACMHP:refinementstotheOAIprotocolOLACProcess:aprocedureforidentifyingBestCommonPracticeRecommendationsOLACMetadataSet#12001年10月推出0.4版本以DublinCore的15個元素為基礎以OAI(OpenArchivesInitiative)為典藏架構的基礎可經(jīng)由XML的DTD或Schema編碼加以驗證OLACMetadataSet#2Thethreecategoriesofmetadata:Worklanguage:describesinformationentitiesandtheirintellectualattributese.g.namesofworksandtheircreatorsDocumentlanguage:describesandprovidesaccesstothephysicalmanifestationofinformatione.g.format,publisher,date,rightsSubjectlanguage:describeswhatadocumentisaboute.g.subject,descriptionOLACMetadataSet#3貢獻者/單位(Contributor)涵蓋范圍(Coverage)創(chuàng)造者(Creator)日期(Date)資源描述(Description)資源格式(Format)資源cpu格式(Format.cpu)資源編碼格式(Format.encoding)標志語言(Format.markup)作業(yè)系統(tǒng)需求(Format.os)程序語言(Format.sourcecode)資源識別碼(Identifier)語言(Language)出版者(Publisher)關聯(lián)性(Relation)權利管理(Rights)來源(Source)主題(Subject)主題使用語言(Subject.language)資源標題(Title)資源型態(tài)(Type)軟件資源的功能(Type.functionality)語言學上的資源型態(tài)(Type.linguistic)OLACMS
Attribute&ControlledVocabularyElementrefinecodeschemelangControlVocabularyelementattributescontrolvocabulary<creatorrefine="editor">Smith</creator>olac:langsControlVocabularyControlVocabularyControlVocabularyOLACMS例子中央研究院近代漢語標記語料庫(.tw/Early_Mandarin/)OLACMS–Language#1Name:AudienceLanguageDefinition:資源內(nèi)容所使用的語言.Comments:創(chuàng)造者讓觀眾了解作品所使用的語言.請與Subject.language比較.例如:文學作品或僅使用一種語言的文件,演講者輔助的特殊語言,聲音記錄所使用的語言,句法描述所使用的語言,注解文字和雙語字典的解釋所使用的語言,但被注解的文字以及雙語字典中被定義的文字都要以Subject.language標注.Attributes:code:控制詞匯請參見[OLAC-Language].控制詞匯不足或與控制詞匯用語不同時,則以元素內(nèi)容加以描述.OLACMS–Language多語資源#1DirectionalityiscrucialinmultilingualresourcesHowever,OLACmetadataisflatandunorderedInMTsystems:lostinformationbutsufficientforresourceharvestingBi-directionalMT <Languagecode=X/> <Languagecode=Y/> <Subject.languagecode=X/> <Subject.languagecode=Y/>
OLACMS–Language多語資源#2One-to-manyMT:<Subject.languagecode=S/><Languagecode=T1/><Languagecode=T2/><Languagecode=T3/>Many-to-oneMT:<Subject.languagecode=S1/><Subject.languagecode=S2/><Subject.languagecode=S3/><Languagecode=T/>OLACMS–Language#2ExamplesAresourceinEnglishabouttheSikaianalanguage: <languagecode="en"/> <subject.languagecode="x-sil-sky"/>AYemba-Frenchdictionary,wherethealternatenameDschangispreferred. <languagecode="fr"/> <subject.languagecode="x-sil-ban">Dschang</subject.language>TheAmericanHeritageDictionary,whichisbothinandaboutAmericanEnglish: <languagecode="en-us"/> <subject.languagecode="en-us"/>Aresourceaboutalanguageforwhichthecontrolledvocabularydoesnotyetprovideacode: <subject.language>AncientSumerian</subject.language>OLACMS中文版與國際標準對應IMDI(ISLEMetaDataInitiative)LinguisticDocumentationArchives時空范圍的控制詞匯將xx語言套用于OLACMS語言識別SILE有關語言識別與信息科技的白皮書,定義全球性規(guī)模的語言識別時產(chǎn)生的五大議題:變化(Change)、目錄化(Categorization)、不適當?shù)亩x(Inadequatedefinition)、規(guī)模不足(Scale)以及缺乏完整的文件說明(Documentation)
成立Ethnologue(/)Bird等(2001)語言進行目錄化最廣泛的問題:過于分散零碎(over-splitting)、過于厚重(over-chunking)以及遺漏(omission)。Ethnologue南島語分類過于粗略,未包含一般xx地區(qū)客家話、閔南語語音上的變化Simons提出由各使用者自行應用Ethnologue的語言識別碼資料、提出修改建議和修改的標準程序,以及語言或同源語之間如何區(qū)分定義的根據(jù)結語對OLACMS提出初步修改建議以及中文版本雛型各子協(xié)會依照需求開發(fā)子元素未來針對xx語言定義努力考量語意、語法、語用訂定內(nèi)容標記請多指教.tw/project/LanguageArchive/DublinCore起于1995挖掘web資源的一個會議/DublinCore后設資料元素一個普普遍跨學科的核心元素,有效廣泛支援資源挖掘,適用于任何以數(shù)字化或傳統(tǒng)型態(tài)存在的資源描述.包含十五個可任選與重復的元素(elements):Title,Creator,Subject,Description,Publisher,Contributor,Date,Type,Format,Identifier,Source,Language,Relation,CoverageandRights.2002/01/07--以RDF/XML呈現(xiàn):/documents/2001/11/28/dcmes-xml/OpenArchivesInitiative#1于1999/10成立,可跨各類電子印刷品的檔案柜(Archives)之一般性架構,因此可擴大涵蓋至各類學術性媒材的數(shù)位儲存器(repositories)OAI基礎建設必須有的兩個標準:OAISharedMetadataSet(DublinCore):使內(nèi)部跨儲存器運作容易.OAIMetadataHarvestingProtocol:http協(xié)定下使用軟件查詢儲存器.OpenArchivesInitiative#2OAI儲存器(Repository)和檔案館(Archive)的關系圖OpenArchivesInitiative#3OAI特色透過單一界面以metadata為基礎搜尋各dataprovider.Web分散式與由下而上的特色集中式數(shù)據(jù)庫結構化的本質
適合使用者獲取成長迅速的資源和大量使用者導向的資源描述.支援以DublinCode延伸的后設資料(metadata).收集meta-archives在單一地方,使用者同時搜尋多個檔案館.IMDI
–ISLEMetaDataInitiativeISLEIMDI(ISLEMetaDataInitiative)和OLAC一樣同屬于ISLE(TheInternationalStandardsforLanguageEngineering)項目所贊助的計劃
2001年6月提出IMDI集會描述(SessionDescriptions)后設資料元素2.5版本(IMDIMetadataElementsforSessionDescriptions)2001年6月發(fā)布IMDI編目描述后設資料2.1版(IMDIMetadataElementsforCatalogueDescriptions)2001年12月公布詞匯的后設資料元素(MetadataElementsforLexiconDescriptions)IMDI–控制詞匯語言資源的邏輯結構字母順序、章節(jié)次序、對話聲調(diào)…注解者(Annotator)OLAC-Role代表新版本產(chǎn)生、采用的標記訊息著錄時的質量(Quality)例:錄音壓縮質量IMDI–元素由Project所執(zhí)行或支援的語言資源Creator,Contributor結構復雜的組織,例如:ISLE,EAGLES,ESPRIT由各子協(xié)會依需求發(fā)展子元素IMDI–屬性涵蓋范圍(Coverage)空間的子型態(tài):洲(Continent)、國家(Country)、行政區(qū)域(AdministrativeDivision)、經(jīng)緯度(LongitudeandLatitude)、地址(Address)…識別碼(Identifier)典藏單位自行定義的索書號
scheme加上注錄單位的簡稱其他未列出的國際識別碼:ISSN,LCC…保留DC:Format的Medium,ExtentLinguisticDocumentationArchivesGrayHolton(2000)針對AlaskaNativeLanguageCenter,ANLC)典藏的語言文件,提出典藏語言文件資源描述的后設資料系統(tǒng)非數(shù)字化的資料格式以DC:Format:Medium概括手稿(Manuscript)、開盤式錄音機(reel-to-reel)、卡帶式(Cassette)、CD唱片(CDrecording)Creator,Contributor的refine演說者(Speaker)、面談者(Interviewer)、所有者(Holder)、管理者(Guardian)TargetDialect尚無適當方式時空范圍的控制詞匯#1各地區(qū)紀年的方式不同scheme主型態(tài)(primarytype)公元(E_Calendar)、中國歷法(C_Calendar)、陰歷(Lunar)和陽歷(SolarCalendar)…scheme子型態(tài)(subtype)中國歷法下包括:時期(Era)、朝代(Dynastyname)、國號(Statename)、帝號(Emperor'sreign)、年號(Reign'sname)…例子:近代漢語標記語料庫
<Coveragescheme=“C_calendar/phase”>EarlyMandarin</Coverage>或<涵蓋范圍scheme="中國歷法/時期">近代</涵蓋范圍>時空范圍的控制詞匯#2隨時間變更而有不同的地區(qū)名稱refine(時間、空間)搭配scheme(時期或者朝代/空間著錄單位/)例子:現(xiàn)代漢語平衡語料庫
<Coveragerefine="spatial"scheme="ROC/Taiwan">或<涵蓋范圍refine="空間"scheme="民國/中國">朝代:中央研究院計算中心兩千年中公歷轉換系統(tǒng)空間著錄單位TGN(GettyThesaurusofGeographicalTerms)ADL(AlexandriaDigitalLibraryFeatureTypeThesaurus)將xx語言套用于OLACMS
–中研院現(xiàn)代漢語平衡語料庫「中央研究院現(xiàn)代漢語語料庫」.tw/SinicaCorpus/「中央研究院現(xiàn)代漢語語料庫」(簡稱「研究院語料庫」(SinicaCorpus))是專門針對語言分析而設計的,每個文句都依詞斷開,并標示詞類。語料的搜集也盡量做到現(xiàn)代漢語分配在不同的主題和語式上,是現(xiàn)代漢語無窮多的語句中一個代表性的樣本。資料來源報紙:中國時報、自由時報、兒童日報、中央研究院計算中心通訊。一般雜志:天下雜志、光華雜志、海天游蹤、世界電影雜志。學術期刊:中央研究院民族所集刊、中央研究院生醫(yī)簡訊。教科書:國民小學國語教科書十二冊。工具書:中研院信息所詞庫小組的技術報告。學術論著:論文。其他:無法歸入其他媒體的檔案。圖書:洪建全基金會的大眾心理叢書八本、時報出版的巴西狂歡節(jié)。視聽媒體:xx學術網(wǎng)絡里刊登的文章。會話訪談:民運人士的訪談紀錄及大陸留美學生日常會話。將xx語言套用于OLACMS
–語式及文類語式Mode文類Genre書面語written報導Reportages評論Commentary廣告或圖文Advertisement信函Letters公告啟事Announcement小說故事寓言Fiction散文Prose傳記日記Biography&Diary詩歌Poem說明手冊Manual演講稿/劇本/腳本written-to-be-spoken劇本Script演講Speech口語Spoken會話Conversation正式演說紀錄spoken-to-be-written語錄Analects演講Speech會議記錄MeetingMinuteType新增refine:
<資源型態(tài)refine=“正式演說紀錄/演講"lang="x-sil-CHN"/>將xx語言套用于OLACMS
–文體文體(Style)
記敘(Narration)、論說(Argumentation)、說明(Exposition)、描寫(Describe)資源描述(Description)新增屬性refine,其中有一控制詞匯為文體(Style)例:日記
<資源描述refine=“文體“l(fā)ang="x-sil-CHN">記敘</資源描述>將xx語言套用于OLACMS
–媒體媒體(Medium)報紙(Newspaper)、一般雜志(GeneralMagazine)、學術期刊(AcademicJournal)、教科書(Textbook)、工具書(ReferenceBook)、學術論著(Thesis)、一般圖書(GeneralBook)、視聽媒體(Audio/VisualMedium)、會話訪談(Conversation/Interview)、其他(Elsewhere)沿用DC:Format的Medium去概括
<formatrefine=“medium”>視聽媒體</format>將xx語言套用于OLACMS
–主題#1SinicaCorpus.主題(Topic)=OLCA.主題(Subject)例:
<主題lang="x-sil-CHN">藝術/音樂</主題>主題子主題哲學(Philosophy)思想(Thoughts)、心理(Psychology)、宗教(Religion)科學(NaturalScience)數(shù)學(Mathematics)、天文(Astronomy)、物理(Physics)、化學(Chemical)、礦冶(Mineral)、生物(Creature)、農(nóng)漁牧業(yè)(Agriculture)、考古(Archeology)、地理(Geography)、環(huán)保(EnvironmentalProtection)、大學科學(EarchScience)、工程(Engineering)將xx語言套用于OLACMS
–主題#2社會(SocialSciences)經(jīng)濟(Economy)、財政(Finance)、商管(Business&Management)、營銷(Marketing)、政治學(Politics)、政黨(PoliticalParty)、政治現(xiàn)象(PoliticalActivities)、國家政策(NationalPolicy)、國際關系(InternationalRelations)、內(nèi)政(DomesticAffairs)、軍事(Military)、司法(Judicature)、教育(Education)、交通運輸(Transportation)、文化(Culture)、歷史(History)、民族(Race)、語文(Language)、傳播(MassMedia)、公益(PublicWelfare)、福利(Welfare)、人事(PersonnelMatters)、統(tǒng)計調(diào)查(StatisticalSurvey)、犯罪(Crime)、災禍(Calamity)、社會現(xiàn)象(SociologicalFacts)藝術(Arts)音樂(Music)、舞蹈(Dance)、雕塑(Sculp)、美術(Painting)、攝影(Photography)、戲(Drama)、技藝(Artistry)、文物(HistoricalRelics)、建筑(Architecture)、藝術總論(GeneralArts)生活(General/Leisure)旅游(Travels)、體育(Sport)、食物(Foods)、醫(yī)療(MedicalTreatment)、衛(wèi)生保?。℉ygine)、衣飾(Clothes)、影藝(Movieandpopulararts)、人物(People)、訊息(Information)、消費(Consume)、家庭(Family)文學(Literature)文學理論(LiteraryTheory)、批評與鑒賞(Criticism)、其他文學創(chuàng)作(Otherliterarywork)、鄉(xiāng)土文學(IndigenousLiterature)、兒童文學(Childern’sLiterature)、俠義文學(MartialArtsLiterature)、言情文學(Romance)將xx語言套用于OLACMS
–其他控制詞匯OLAC-Role新增校對者(Proofreader)便于辨識Creator或OwnerMedium還包括中國古代:瓷器(Porcelain)、拓片(Rubbing)、簡牘(Bambooengraving)、娟繡(Silk)、畫軸(Scroll)...新興媒材:DVD,MO,ZIP...變化巨大,需統(tǒng)一注冊單位定義語言識別的五大議題變化(Change)不可能以靜態(tài)目錄獲取完整且正確的語言知識目錄化(Categorization)不同的目的必須以不同目錄化方式,但彼此不認同,必須選擇一個一致性的語言操作性定義(Operationaldefinition)不適當?shù)亩x(Inadequatedefinition)現(xiàn)存的語言識別碼系統(tǒng)沒用運用相同的操作性定義,而且許多并非針對語言本身的例子。規(guī)模不足(Scale)現(xiàn)存系統(tǒng)在規(guī)模上并沒有完整包含世界6800語言缺乏完整的文件說明(Documentation)現(xiàn)存系統(tǒng)并沒有適當文件描述語言識別所使用的目錄其涵義,也沒提供語言名稱以外更進一步的訊息。語言進行目錄化最廣泛的問題遺漏(Omission)并未列出某一種語言絕種的語言雷朗(Luilang)并未被列在Ethnologue已經(jīng)被列出,但Ethnologue無適當?shù)拇a,例如:Taroko(TRV),但中研院則視為賽德克(Seediq)過于分散零碎(Over-Splitting)一個語言變化被視為另一種語言Nataoran的語言代碼是AIS,但中研院的學者齊莉莎小姐視為ALV(Amis阿美語)過于厚重(Over-Chunking)將兩種有區(qū)別的語言視為某一語言的同源語自行應用Ethnologue語言識別碼資料下載數(shù)據(jù)庫匯入至個人應用軟件或數(shù)據(jù)庫允許把數(shù)據(jù)庫的Table合并至個人數(shù)據(jù)庫中Ethnologue的語言識別變更原則使用過的語言別碼不再重復使用,即使多了延伸含意,語言識別碼仍對。在使用者端所使用的語言識別碼,同樣可適用在其他成員的資料中。使用者端自動顯示語言識別碼變化的情況,可下載變更歷史的資料表。對Ethnologue修改的標準程序提供使用者提供反饋意見的管道反饋者必須提供個人基本訊息解釋變更的理由變更建議書上須注明貢獻者網(wǎng)頁上列出變更的語言識別碼列表決定語音便而視為不同語言的理由應詳盡列出提出證明若是反悔,則變更不算語言或同源語區(qū)分定義的根據(jù)標準因素:可理解性(intelligibility)、文學共享(sharedliterature)、社會因素(socialfactors)可理解的變化出現(xiàn)在一般文學作品中,則算相同語言相關變化出現(xiàn)在同作品,但不可理解,則算不同語言雖沒文學作品,但共享同一理解性和人類語言學的定義,仍屬同一語言??衫斫獾谖膶W上明顯定義不同,則是為不同語言Now:UnderdevelopmentOAIThebuildingblocksdata,formats,tools,interfacesdiversity&incompatibilitythepiecesfittogetherpoorlyResourcediscovery"wordofmouth"(e.g.CORPORA)searchengineslowprecisionandrecallArchitecturesmall,unstable,unscalableexchangeandreuseof"primarymaterials"diversityisrestricted以下投影片資料來源/docs/talks/olac-elsnet.pptFuture:DevelopmentOAIThebuildingblocksdata,formats,tools,interfacesdiversitywithcompatibilitythepiecesfittogetherwellResourcediscoveryresourcesinfederatedarchivescommonfindingaidshighprecisionandrecallArchitecturelarge,stable,scalableaggregationandintegrationofcomplexstructuresandservicesdiversityisfacilitatedTheGapOAIThreeApproachestoBridgingtheGapMonolithicPIndependentPCoordinated9MonolithicApproachOAI"Oneday,asingle,massiveprojectwillsucceedinbridgingthegap"Analogy:acentralizeddatabaseasacompleteinformationsystemIndependentApproachOAI"Givenenoughtime,theaccretionofindependentinitiativeswillbridgethegap"Analogy:theworld-widewebasacompleteinformationsystemCoordinatedApproachOAIOLAC
"Asharedarchitecturalvision,havingmanycomponents,andimplementedinstagesbythecommunity,willbridgethegap"Analogies:federateddatabases;semanticwebTheFoundation:3initiativesDublinCoreMetadataInitiative(DC)foundedin1995(Dublin,Ohio)conventionsforresourcediscoveryonthewebOpenArchivesInitiative(OAI)foundedin1999(SantaFe)interoperabilityofe-printservicesOpenLanguageArchivesCommunity(OLAC)foundedin2000(Philadelphia)apartnershipofinstitutionsandindividualscreatingaworldwidevirtuallibraryoflanguageresourcesSummary:ThreeInitiativesProvidetheFoundationOAIOLACOLACDCOAIOLACMSWorkLanguagee.g.Creator:Def:AnentityprimarilyresponsibleformakingthecontentoftheresourceTexttonamethecreatore.g.BCP:"Surname,Firstname"RefinementtoDublinCore:OLAC-RoleOLAC-Roleisacontrolledvocabularyauthor,editor,translator,transcriber,sponsor,...OLACMSDocumentLanguagee.g.Format.markup:Def:TheOAIidentifierforthedefinitionofthemarkupformatreferencestheDTD,Schema,orsomeotherdefinitionofthemarkupformate.g.oai:nist:timit86Forsoftware:supportedmarkupformatsConsequences:EnsuresthatformatdefinitionsarearchivedQueriescandoajointofinddataofagiventypeforwhichsoftwareisavailableOLACMS:SubjectLanguageE.g.Type.lingdata(wastype.data)Def:Thenatureorgenreofthecontentoftheresource,fromalinguisticstandpoint.Encodingscheme:OLAC-LingData(OLAC-Data)Primaryclassification:transcription:atime-orderedsymbolicrepresentationofalinguisticeventannotation:anykindofstructuredlinguisticinformationthatisexplicitlyalignedtosomespatialand/ortemporalextentofalinguisticrecorddescription:anydescriptionoranalysisofalanguage(structureisindependentofthelinguisticevents)lexicon:anyrecord-structuredinventoryofformsOLACMS:SubjectLanguageE.g.Secondaryclassificationfortranscriptiontranscription/orthographictranscription/phonetictranscription/prosodictranscription/morphologicaltranscription/gesturaltranscription/part-of-speechtranscription/syntactictranscription/discoursetranscription/musicalOLACMS:SubjectLanguageE.g.Subject.languageDef:AlanguagewhichthecontentoftheresourcedescribesordiscussesStartingpoints:ISO639,LANGIDs,RFC-3066(1766),EthnologueUnicodeConsortium&IETFawareofshortcomingsofRFC-3066wanttoincorporateEthnologuecodesCurrentproposalbeingconsidered4-lettercodes(Ethnologue3-lettercodesplusprefix)whereanunambiguous2or3-lettercodeexists,useit,anddroptheEthnologueequivalentOtherdevelopments:LINGUISTAncientLanguages:x-ll-xakk=AkkadianUCSBworkshopdiscussedLanguageCodeConsortiumOLACMHP2:
RefinementstoOAIProtocol1.Identifyspecifytheformatofthearchiveself-descriptionfield2.ListMetadataFormatsspecifythaOLACisoneofthereturnedformatsandthattheURLpointstothecanonicalschema3.ListIdentifierswhenOLACisspecifiedastherequiredmetadataformat,ensurethattherepositoryreturnsatleastonerecordidentifierOLACProcessLaysoutthecorevaluesofOLAC:openness,consensus,empoweringtheplayers,peerreviewDescribestheorganizationofOLAC:coordinators,advisoryboard,participatingarchivesandservices,prospectiveparticipants,workinggroups,participatingindividualsDefinesprocessesfordocumentsandworkinggroups/OLAC/process.htmlSummary:ThreeStandardsDefinetheCommunityOAIOLACPROCOLAC
MHPOAI
MSDCInitiativesStandardsThirdLayer:OLACBCPsRecommendationsforappropriateuse1.OLACMetadataSet:e.g.don'tabbreviateassociationnames:<publisher>Associationfor
ComputationalLinguistics</publisher>2.OLACMHP:e.g.wherepossiblemapalanguagedesignationtoacodeinOLAC-Language,insteadoffreeformtext3.OLACProcess:e.g.usesuch-and-suchanXMLformatforarchivingwordnetsFORMATSummary:StandardsareSupplementedwithCommunityFavouredSyntaxandSemanticsOAICONTENTMETADATAOLACPROCOLAC
MHPOAI
MSDCRecommendationsInitiativesStandardsFourthLayer:SoftwareBeginningwithanykindoflanguageresource,therewillbesoftwareto:convertittoarchivalformat(ifpossible)e.g.replacelegacyfontswithUnicodecreateametadatarecorde.g.LDC'smetadatalivesinanOracledatabaseexportthisrecordtoXML"publish"therecordintheOLACformatharvesttherecordserviceprovidersoftwaretoretrievetherecordandpresentittoend-usersCONVERTCREATECREATEEXPORTDELIVERFORMATSummary:Withthesoftwareinplace,wehaveacompleteplatformOAICONTENTMETADATAOLACPROCOLAC
MHPOAI
MSDCSoftwareRecommendationsInitiativesStandardsCONVERTCREATECREATEEXPORTDELIVERFORMATSummary:Repositoriescompletelybridgethegap,lettingusconsistentlyorganizeandarchiveourresourcesOAICONTENTMETADATAOLACREPOSITORIESOLACPROCOLAC
MHPOAI
MSDCSoftwareRecommendationsInitiativesStandardsSixthLayer:OLACServices1.Metadata
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化肥銷售合作合同范本
- 包裝稻草出售合同范本
- 勞務代理用工合同范本
- 單位汽車借用合同范本
- 代理機構中標合同范本
- 義工合同范本
- 個人對公勞務合同范本
- 與人投資飯店合同范本
- 醫(yī)院供氧安裝合同范例
- 一方婚前貸款買房合同范本
- 護士臨床護理組長
- 土建、裝飾、維修改造等零星工程施工組織設計技術標
- 高速公路養(yǎng)護作業(yè)安全培訓內(nèi)容
- 2024年江蘇經(jīng)貿(mào)職業(yè)技術學院單招職業(yè)適應性測試題庫
- 《大白菜種植栽培技》課件
- 北京工業(yè)大學《數(shù)據(jù)挖掘》2023-2024學年第一學期期末試卷
- 2024年物聯(lián)網(wǎng)安裝調(diào)試員(中級工)職業(yè)資格鑒定考試題庫(含答案)
- 標準化機房改造方案
- 珠海市第三人民醫(yī)院中醫(yī)智能臨床輔助診療系統(tǒng)建設方案
- 早產(chǎn)臨床診斷與治療指南
- 工程簽證單完整版
評論
0/150
提交評論