




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS35.240
CCSL60
CAPT
團體標準
T/CAPT003—2021
中文新聞信息結(jié)構(gòu)化標注規(guī)范
全國團體標準信息平臺
2021-10-19發(fā)布2021-10-20實施
中國新聞技術(shù)工作者聯(lián)合會發(fā)布
T/CAPT003—2021
中文新聞信息結(jié)構(gòu)化標注規(guī)范
1范圍
本文件規(guī)定了中文新聞信息結(jié)構(gòu)化標注的要求、標注規(guī)則和方法。
本文件適用于中文新聞領(lǐng)域信息內(nèi)容的標注,服務于新聞信息資產(chǎn)的分析挖掘、知識發(fā)現(xiàn)和再利用,
為多維度檢索、組成特定專題、關(guān)系圖譜等積累數(shù)據(jù)基礎(chǔ),為新聞信息內(nèi)容的人工標注、半自動化及自
動化標注應用提供指導和參考依據(jù)。
本文件的使用對象包括報刊、廣播、電視、通訊社、新聞網(wǎng)站等新聞內(nèi)容提供商及媒體應用與研究
機構(gòu)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T20092中文新聞信息置標語言
GB/T20093中文新聞信息分類與代碼
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
策劃類型
新聞內(nèi)容與當前報道的新聞專題的關(guān)系。
注:與新聞專題報道直接相關(guān)的稱為程序稿,與新聞專題報道進行周邊報道和反饋的稱為配合稿。
4標注體系分類
中文新聞信息結(jié)構(gòu)化標注通過分析總結(jié)新聞內(nèi)容數(shù)據(jù),按照標注體系劃分為三個類別:
a)實體類信息:指客觀存在的、包含新聞實體公共特征屬性的信息。如新聞事件、事發(fā)時間、
主要人物等。
b)業(yè)務類信息:指依據(jù)新聞領(lǐng)域內(nèi)業(yè)務需求為導向的信息。如新聞場景、新聞背景、新聞情感
等。
c)多媒體類信息:指在新聞圖片、音頻、視頻中存在的信息。如:圖片場景、圖片人物、圖片
屬性、視頻人物、視頻場景、視頻屬性、地標建筑、音頻人物、音頻內(nèi)容、其他。
5實體類信息
5.1實體類信息類型
全國團體標準信息平臺實體類信息類型包括:
——新聞事件
——事發(fā)時間
——相關(guān)時間
——事發(fā)地點
——相關(guān)地點
1
T/CAPT003—2021
——新聞主體
——主要人物
——相關(guān)人物
——主要機構(gòu)
——相關(guān)機構(gòu)
5.2實體類信息詳情
5.2.1新聞事件
新聞報道中對新聞事實的概要性描述。
標注要求:新聞事件分為命名新聞事件和一般新聞事件。命名新聞事件從配備固定的受限詞表中選
取,一般新聞事件根據(jù)新聞報道內(nèi)容開放式填寫??赏ㄟ^事件抽取算法實現(xiàn)自動標注。
示例:“慶祝改革開放40周年大會”“達沃斯論壇”
5.2.2事發(fā)時間
新聞事件實際發(fā)生的時間。
標注要求:事件發(fā)生的當?shù)貢r間。
示例:《習近平抵達印度金奈出席中印領(lǐng)導人第二次非正式會晤》一文中提到“當?shù)貢r間下午2時10分許,習
近平乘坐的專機抵達金奈國際機場。”則事發(fā)時間為“當?shù)貢r間2019年10月11日下午2時10分”。
5.2.3相關(guān)時間
新聞事件事發(fā)時間之外,新聞報道中提及的時間。
標注要求:除新聞事件發(fā)生的時間以外提及的時間,要求不與發(fā)稿時間、事發(fā)時間重復??赏ㄟ^自
然語言處理算法實現(xiàn)時間要素的分析和自動標注。
5.2.4事發(fā)地點
新聞事件實際發(fā)生的地點。
標注要求:從新聞報道中分析發(fā)生地的行政區(qū)劃、地理位置、地標設(shè)施、相關(guān)數(shù)據(jù)。
a)行政區(qū)劃。指國家為進行分級管理而實行的區(qū)域劃分。
b)地理位置。指對新聞發(fā)生地點的地理信息的定量刻畫。
c)設(shè)施。指人為建造的并在此中進行相關(guān)活動的地點,包括建筑和交通設(shè)施及地標等。
d)相關(guān)數(shù)據(jù)。指新聞事件發(fā)生時所處環(huán)境的實時基礎(chǔ)數(shù)據(jù)和歷史基礎(chǔ)數(shù)據(jù),主要由各類傳感器
采集,包括定位坐標數(shù)據(jù)、時間數(shù)據(jù)、設(shè)施數(shù)據(jù)、歷史影像數(shù)據(jù)等,如設(shè)施掃描數(shù)據(jù)、衛(wèi)星
數(shù)據(jù)、歷史圖片與視頻等。該類數(shù)據(jù)主要通過傳感器技術(shù)采集,具有實時、連續(xù)、可比較、
可解釋與不可更改的特性??捎糜谛侣剤蟮乐袑崟r記錄、事后溯源、復現(xiàn)、分析、深度調(diào)查
等的原始、基礎(chǔ)依據(jù),適用區(qū)塊鏈、機器學習、無監(jiān)督學習等技術(shù)對媒體挖掘與調(diào)查分析的
輔助應用
示例1:地點為行政區(qū)劃的,比如北京市海淀區(qū)、紐約市等
示例2:地點為地理位置的,比如北緯35°等
示例3:地點為地標設(shè)施的,比如歡樂谷、埃菲爾鐵塔等
示例4:地點為相關(guān)數(shù)據(jù)的,比如由傳感器采集、設(shè)施掃描的數(shù)據(jù)等
5.2.5相關(guān)地點
非新聞事件實際發(fā)生的地點,新聞報道中提到的行政區(qū)劃、地理位置,地標設(shè)施,相關(guān)數(shù)據(jù)。
標注要求:從新聞報道中分析提及的行政區(qū)劃、地理位置、地標設(shè)施、相關(guān)數(shù)據(jù),要求不與事發(fā)地全國團體標準信息平臺
點重復。可通過自然語言處理算法實現(xiàn)相關(guān)地點要素的分析和自動標注。
示例見5.2.4
5.2.6主要人物
新聞發(fā)生涉及的主體人物。
2
T/CAPT003—2021
標注要求:在新聞報道中占主要成分,常見于標題或?qū)дZ中。需將主要人物的職務和姓名一同標注。
可通過機器學習、自動標注等進行人物要素的分析。
示例:“美國總統(tǒng)特朗普表示我親眼看到了非常了不起的中華文明和中國取得的非常偉大的成就。美方愿同中
方達成彼此都可接受的貿(mào)易協(xié)議,這將具有歷史意義。”主要人物為:美國總統(tǒng)特朗普。
5.2.7相關(guān)人物
新聞報道中除主要人物以外的,作為出席、陪同形式出現(xiàn)的人物。
標注要求:新聞報道提及的人物,常見于新聞報道結(jié)尾部分。記者、編輯不列為相關(guān)人物??赏ㄟ^
機器學習、自動標注等領(lǐng)域人物要素的分析。
示例:《習近平在陜西榆林考察時強調(diào)解放思想改革創(chuàng)新再接再厲譜寫陜西高質(zhì)量發(fā)展新篇章》的結(jié)尾處有
“丁薛祥、劉鶴、陳希、何立峰和中央有關(guān)部門負責同志陪同考察?!毕嚓P(guān)人物標注為“丁薛祥”、“劉鶴”、“陳
?!?、“何立峰”。
5.2.8主要機構(gòu)
新聞事件報道中起主要作用的組織機構(gòu)。
標注要求:新聞事件的主要機構(gòu)包括政府組織、軍事組織、商業(yè)組織、非盈利行組織、醫(yī)療機構(gòu)、
教育機構(gòu)等。主要機構(gòu)描述常見于標題或?qū)дZ。
示例:《公安部部署全國公安機關(guān)開展2021年烈士紀念日活動》中主要機構(gòu)標注為“公安部”。
5.2.9相關(guān)機構(gòu)
新聞報道中除主要機構(gòu)以外提及的其他組織機構(gòu)。
標注要求:相關(guān)機構(gòu)包括政府組織、軍事組織、商業(yè)組織、非盈利行組織、醫(yī)療機構(gòu)、教育機構(gòu)等。
不可與主要機構(gòu)重復,可通過自然語言處理算法實現(xiàn)組織機構(gòu)要素的分析和自動標注。
6業(yè)務類信息
6.1業(yè)務類信息類型
業(yè)務類信息類型包括:
——體裁
——國內(nèi)/國際分類
——新聞分類
——摘要
——關(guān)鍵詞
——新聞場景
——新聞背景
——原文標識
——策劃類型
——新聞情感傾向
——政治術(shù)語
——引用(典)
6.2業(yè)務類信息詳情
6.2.1體裁
新聞報道的表現(xiàn)形式。全國團體標準信息平臺
標注要求:根據(jù)表達新聞的手法、口吻和組織材料結(jié)構(gòu)的不同進行區(qū)分,包括:消息、通訊、評論、
公文公報等。
a)“消息”報道事情的概貌,較為簡短,內(nèi)部無二級標題,宜500~800字以內(nèi)。通過標題、導語、
主體三層推進。
3
T/CAPT003—2021
b)“通訊”運用敘述、描寫、抒情、議論等多種手法,形象地反映新聞事件或新聞人物。通訊相比
消息內(nèi)容更長,且內(nèi)部可存在多級標題。
c)“評論”是新聞傳播機構(gòu)發(fā)表的各種評論形式的報道。包括:述評、社論、評論員文章等文章。
d)“公文公報”指政策文章、領(lǐng)導人講話稿、《求是》雜志發(fā)表的文章、公報、受權(quán)發(fā)布、黨政機
關(guān)和人民團體等授權(quán)媒體公開發(fā)布重大事件或重要決定事項的報道性公文公報。
e)其他體裁,指不屬于上述類別中的體裁,如綜述類新聞、回憶錄、雜文等。
6.2.2國內(nèi)/國際分類
新聞報道所屬的地域分類。
標注要求:根據(jù)新聞事件發(fā)生的地點進行分類,港澳臺屬于國內(nèi)新聞。在中國國內(nèi)發(fā)生的新聞事件,
或者在公共海域完全由中國主導的新聞事件屬于國內(nèi)新聞。發(fā)生在中國以外的國家或地區(qū)的新聞屬于國
際新聞。
示例1:國內(nèi)新聞如《上海市人民政府關(guān)于印發(fā)<上海市公有住房差價交換辦法>的通知》
示例2:國際新聞如《一圖讀懂英國"脫歐"為何一脫再"拖"》
6.2.3新聞分類
新聞分類代表新聞描述的主題。
標注要求:參考中文新聞信息分類與代碼GB/T20093或其他分類標準??砂凑杖宋铩⒔M織等以及事
件本身所屬領(lǐng)域的相關(guān)度選擇1~3項。
示例:《習近平出席亞運會開幕式》,標注為政治類和體育類新聞。
6.2.4摘要
新聞報道內(nèi)容的要點摘錄。
標注要求:從標注新聞中摘取最主要的新聞元素,體現(xiàn)時間、地點、主要人物/組織、發(fā)生的事件,
字數(shù)在100-150字左右。
6.2.5關(guān)鍵詞
新聞報道中的關(guān)鍵性內(nèi)容,包括實體詞、謂詞、具有關(guān)鍵信息的詞語。
標注要求:要求選擇言簡意賅,具有檢索意義的詞匯,有較特殊意義的詞、詞組、縮略語,不宜拆
開。若新聞中有其他類別的詞、短語甚至熟語也能夠提示文章的關(guān)鍵內(nèi)容,也應作為關(guān)鍵詞處理。
6.2.6新聞場景
新聞專題報道所屬的場合、情景類型。
標注要求:涉及領(lǐng)導人的新聞報道標注相關(guān)場景,從制定的新聞場景類型表中選擇填寫,如國內(nèi)視
察、出國訪問、會見、參會、出席重要場合等。
示例見表1:
表1新聞場景類型
名稱舉例
重要活動會見、會晤、參觀、視察
出國訪問會見、會晤,出發(fā)、到達、講話
重要講話講話、聯(lián)合聲明、其他
重要會議黨代會、全國人民代表大會、政治協(xié)商會議、研討會、論壇、對話
全國團體標準信息平臺會、座談會、專題討論會、表彰會、全體會議
決定、命令、計劃主席令、嘉獎令、通令
重要文章署名文章、講話原文
函電賀詞致電、賀信
指示批示
4
T/CAPT003—2021
6.2.7新聞背景
新聞消息稿中出現(xiàn)的一段對新聞中的人物、地點或者事件的擴展背景進行描述的內(nèi)容。
標注要求:標記出新聞報道中與主體事件有解釋性的、描述歷史背景的文字內(nèi)容。
6.2.8原文標識
針對政策性的新聞報道,將包含有非轉(zhuǎn)述的、原始的內(nèi)容標記為原文,否則標記為非原文。
標注要求:通過原文標識對新聞文本材料進行區(qū)分,通過布爾值標記是否為原文。原文包括領(lǐng)導人
講話、工作報告、條例章程、談話、白皮書、演講、答問、批示、賀信、題詞、署名文章、主旨講話等。
當新聞報道內(nèi)容為第三人轉(zhuǎn)述內(nèi)容比如XX說,XX指出,則不屬于原文。
6.2.9策劃類型
描述新聞內(nèi)容與當前新聞專題的關(guān)系。
標注要求:與新聞專題報道直接相關(guān)的為程序稿,與新聞專題報道不直接相關(guān)的,如周邊報道、反
饋稿件等為配合稿。
示例1:對事件內(nèi)容進行烘托、背景資料等信息進行闡述的為配合稿。如《(習近平出訪配合稿)背景資料:伊朗伊
斯蘭共和國》。
示例2:《年終特稿丨不忘初心闊步前行》為年終稿。
6.2.10新聞情感傾向
新聞報道中新聞主要人物或主要機構(gòu)對新聞事件的感情、態(tài)度、意向或立場。
標注要求:
a)判斷文中新聞主要人物、組織或機構(gòu)對某人或事件表達的態(tài)度,感情傾向分為正面、負面、中性。
b)文中主要人物、組織或機構(gòu)對多個事件對某人或事件表達的態(tài)度不同時,也需分事件將其標注出。
示例:新聞情感傾向類型的舉例見表2。
表2新聞情感傾向類型與舉例
類型舉例
正面祝賀、慶祝、贊揚、表揚、感到開心、勉勵、鼓勵、感謝、積極評價、高度評價、熱
烈歡迎、祝福等
中性正常陳述,無情感流露的
負面憤怒、批評、指責、反對等
6.2.11政治術(shù)語
新聞報道中文中出現(xiàn)的政治政策、政治口號、政治精神的表述或者縮寫。
標注要求:
a)政治術(shù)語由連續(xù)或不連續(xù)的詞語和短語整合而成;常在含義上表現(xiàn)出高度的凝固性、高度概括性;
形式上較為簡潔、凝練。
b)有三、四、五字等類似慣用語或成語形式的。
c)有呈對偶形式或成對、呈排比形式出現(xiàn)的。
示例:“不忘初心、牢記使命”、“兩個維護”、“兩個一百年”。
6.2.12引用(典)
新聞報道中,被領(lǐng)導人引用的典故、熟語(成語、慣用語、歇后語、諺語)、古文詩詞、格言警句。
標注要求:全國團體標準信息平臺
a)領(lǐng)導人引用的典故,在形式上使用雙引號“”標記出的。若未用引號標記,則不算做是引用。
b)熟語(成語、慣用語、歇后語、諺語)、古文詩詞、格言警句,出現(xiàn)在雙引號內(nèi)部或“俗話
說”、“古語言”等表述類動詞之后的,均為用典。
示例:“人心所歸,惟道與義”
5
T/CAPT003—2021
7多媒體元素類信息
7.1多媒體元素類信息類型
多媒體元素類信息類型包括:
——人物元素
——場景元素
——地標建筑
——語音內(nèi)容
——圖片屬性
——音頻屬性
——視頻屬性
——其他
7.2多媒體元素類信息詳情
7.2.1人物元素
新聞圖片、音頻、視頻等多媒體稿件中出現(xiàn)的人名、人臉,進行身份判斷和標記。
標注要求:
a)對圖片、視頻、音頻等多媒體稿件中出現(xiàn)的新聞人物身份進行判斷、標記。
b)可使用人臉識別、語音識別等算法預處理人物信息,標注過程中需要進行人工確認。
7.2.2場景元素
新聞圖片、音頻、視頻等多媒體稿件中出現(xiàn)的新聞場景、情景分類。
標注要求:根據(jù)圖片、音頻、視頻中所展現(xiàn)的內(nèi)容、畫面判斷其所處的場景,進行標記??墒褂脵C
器視覺算法預處理的圖片場景的信息,標注過程中需要進行人工確認。
7.2.3地標建筑
新聞圖片、音頻、視頻中出現(xiàn)的標志性的地理建筑。
標注要求:
a)根據(jù)新聞圖片、音頻、視頻中出現(xiàn)的標志性的地理建筑進行標記
b)可通過機器視覺、語音識別、自然語言處理等技術(shù),識別多媒體元素中所出現(xiàn)的地標、建筑物等
地點。如故宮、自由女神像、泰姬陵等。標注中需要進行人工確認。
c)可通過激光、無人機掃描、多模傳感器、衛(wèi)星多時相、多通道、多譜段衛(wèi)星遙感影像動態(tài)數(shù)據(jù)等
實現(xiàn)對新聞圖片、視頻地標建筑的標注。(傳感器新聞信息介紹參見附錄A)
7.2.4語音內(nèi)容
新聞音頻中的語言內(nèi)容。
標注要求:可通過語音識別技術(shù)手段,將音頻中的語音內(nèi)容轉(zhuǎn)化成文字記錄。識別的語音結(jié)果需人
工輔助核對。
7.2.5圖片屬性
新聞圖片的基本屬性。
標注要求:通過讀取圖片的基本參數(shù),獲得基本屬性,如橫屏/豎屏,時間、位置、環(huán)境、像素、
分辨率全國團體標準信息平臺、大小、顏色、色調(diào)等。
7.2.6音頻屬性
新聞音頻的基本屬性。
標注要求:通過讀取新聞音頻中的基本參數(shù),獲得基本屬性,如音頻時長、比特率、采樣大小。
6
T/CAPT003—2021
7.2.7視頻屬性
新聞視頻的基本屬性。
標注要求:通過讀取視頻文件的基本參數(shù),獲得視頻的基本屬性,如橫屏/豎屏、時間、位置、環(huán)
境、時長、分辨率、碼率、長度、寬度等。
7.2.8其他
其他的多媒體元素標注標簽。
標注要求:通過光學字符識別(OCR)、語音識別、機器視覺、自然語言處理、情緒識別等技術(shù)手
段,識別圖片、音頻、視頻中的文字、物品、受眾情緒等內(nèi)容,根據(jù)新聞檢索需要增加的標簽。
全國團體標準信息平臺
7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31/T 639-2021電動輪胎式集裝箱門式起重機能源消耗指標和計算方法
- DB31/T 567-2011商業(yè)辦公樓宇用水定額及其計算方法
- DB31/T 329.25-2022重點單位重要部位安全技術(shù)防范系統(tǒng)要求第25部分:化工企業(yè)
- DB31/T 329.14-2019重點單位重要部位安全技術(shù)防范系統(tǒng)要求第14部分:燃氣系統(tǒng)
- DB31/T 305-2014孵化場生產(chǎn)技術(shù)規(guī)范
- DB31/T 1138-2019水鳥同步調(diào)查技術(shù)規(guī)范
- DB31/T 1058-2017燃氣用聚乙烯(PE)管道焊接接頭相控陣超聲檢測
- DB31/ 734-2020淀粉糖單位產(chǎn)品能源消耗限額
- 聚噻吩纖維單體合成與性能考核試卷
- 絹紡和絲織的環(huán)保生產(chǎn)考核試卷
- 05G514-3 12m實腹式鋼吊車梁(中級工作制 A4 A5 Q345鋼)
- 公司技術(shù)評審表
- 公司合伙人管理制度
- 整形醫(yī)院雙眼皮培訓課件
- Meta分析很全的課件
- 電商倉庫流程及診斷
- 靜脈治療課件
- NPUAP壓瘡指南更新的解讀
- 2020年華為采購物料環(huán)保規(guī)范?V4
- IPQC制程檢驗流程圖
- 進料檢驗報告單
評論
0/150
提交評論