第十二章人工智能與推薦系統(tǒng)課件_第1頁
第十二章人工智能與推薦系統(tǒng)課件_第2頁
第十二章人工智能與推薦系統(tǒng)課件_第3頁
第十二章人工智能與推薦系統(tǒng)課件_第4頁
第十二章人工智能與推薦系統(tǒng)課件_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、算法新聞第十二章 人工智能與推薦系統(tǒng)Algorithmic Journalism 算法新聞第十二章 人工智能與推薦系統(tǒng)Algorithmic 目 錄 Contents人工智能簡介人工智能與智能媒體自動化新聞和寫稿機器人 自動事實核查01020304課程配套教材 目 錄 Contents人工智能簡介人工智能與智能媒體自動人工智能與推薦系統(tǒng)本章要點關(guān)鍵詞第12章本章首先介紹人工智能技術(shù)的基本概念、起源、發(fā)展過程和發(fā)展層次,以及人工智能的技術(shù)原理。在新聞傳播行業(yè),人工智能與媒體結(jié)合形成了智能媒體。在信息采集環(huán)節(jié)、新聞編輯制作環(huán)節(jié)、新聞?wù)J知體驗環(huán)節(jié)以及內(nèi)容推送環(huán)節(jié)均產(chǎn)生了行業(yè)生態(tài)環(huán)境的變化。本章接著介

2、紹了業(yè)界和學術(shù)界針對智能媒體的研究方向和相關(guān)實踐。本章的后半部分介紹了人工智能在新聞傳播領(lǐng)域的應(yīng)用:自動化新聞和自動事實核查。人工智能、智能媒體、自動化新聞、寫稿機器人、自動事實核查人工智能與推薦系統(tǒng)本章要點關(guān)鍵詞第12章本章首先介紹人工智能第1節(jié) 人工智能簡介 1.1 人工智能的概念1.1.1 從AlphaGo到AlphaGo ZeroAlphaGo是一個人工智能圍棋程序,由谷歌旗下的DeepMind公司開發(fā),其技術(shù)原理是深度學習。AlphaGo結(jié)合了數(shù)百萬圍棋專家的棋譜,使用監(jiān)督學習進行自我訓練。2016年AlphaGo以總分4:1勝圍棋九段選手李世石,2017年以總分3:1勝柯潔。201

3、7年10月DeepMind團隊公布了最強版阿爾法圍棋,代號為 AlphaGo Zero,其特點是 “自學成才”。AlphaGo Zero則不需要事前訓練。其原理是從單一神經(jīng)網(wǎng)絡(luò)開始,通過神經(jīng)網(wǎng)絡(luò)強大的搜索算法,進行自我對弈。神經(jīng)網(wǎng)絡(luò)通過逐漸調(diào)整,提升預測下一步的能力,最終贏得比賽。強化學習主要有三部分內(nèi)容:決策過程決定落子動作獎勵系統(tǒng)判斷落子動作是否對贏得棋局有幫助,若有,則會給模型加分系列動作的學習用以在比賽中獲勝第1節(jié) 人工智能簡介 1.1 人工智能的概念 1.1 人工智能的概念1.1.2 人工智能概念的界定有人認為像人一樣思考、 行動的系統(tǒng)就是人工智能系統(tǒng)。人工智能是機器展現(xiàn)出某種 “智

4、能” 特征。如果數(shù)字計算機及其控制的機器人能執(zhí)行智能生物的某些任務(wù)即可認為其具備了人工智能。人工智能是計算機學科的一個分支, 機器人、 專家系統(tǒng)、 語音和圖像識別以及自然語言處理等均屬于人工智能研究的領(lǐng)域?!叭斯ぶ悄苁抢脭?shù)字計算機或者數(shù)字計算機控制的機器模擬、 延伸和擴展人的智能, 感知環(huán)境、 獲取知識并使用知識獲得最佳結(jié)果的理論、方法、 技術(shù)及應(yīng)用系統(tǒng)”。 中國電子技術(shù)標準化研究院人工智能標準化白皮書(2018年1月)此解釋將理論、方法、概念、技術(shù)和應(yīng)用系統(tǒng)整合在一起表述人工智能,完整地界定了人工智能的范疇。 1.1 人工智能的概念 1.1 人工智能的概念1.1.3 人工智能概念的解讀從學

5、科劃分的角度來理解, 目前一般認為人工智能歸屬于計算機科學的范疇。人工智能企圖了解智能的實質(zhì), 嘗試理解人類是如何思考和行動的, 并生產(chǎn)出一種新的能夠以與人類智能相似方式做出反應(yīng)的智能機器。 當前, 人工智能所覆蓋和服務(wù)的領(lǐng)域不斷擴大, 其發(fā)展離不開計算科學、語言學、 心理學、 自動化學乃至哲學等多種學科的交叉融合。 目前人工智能領(lǐng)域比較成熟的機器人、 圖像識別、 自然語言處理以及專家系統(tǒng)等均需要其他學科理論的支撐。 (e.g. 聊天機器人、足式機器人)人工智能的愿景是讓機器勝任以往具有人類智能才能完成的復雜工作, 而不是諸如工廠流水線機器生產(chǎn)那樣的 “簡單” 工作。我們的期許是它模擬人類智能

6、, 延伸智力范圍, 甚至響應(yīng)人類情感, 目前這一領(lǐng)域仍然處于探索的初級階段。 1.1 人工智能的概念第1節(jié) 人工智能簡介 1.2 人工智能的起源與發(fā)展奠基:1950年,計算機科學家圖靈在 心智 期刊發(fā)表論文 計算機器與智能 (Computing Machinery and Intelligence)圖靈在該文中,提出“圖靈測試”(如果被試者無法判斷人類與人工智能機器反應(yīng)的差別,即可認定該機器具備人工智能),為后來的人工智能科學提供了開創(chuàng)性的構(gòu)思。確立:1956年美國達特茅斯人工智能夏季研討會 “人工智能” 這一術(shù)語的定義第一次被確立人工智能就是要讓機器的行為看起來像是人所表現(xiàn)出來的智能行為一樣

7、。 同時, 它也標志著人工智能學科的誕生。 第1節(jié) 人工智能簡介 1.2 人工智能的起源與發(fā)展 1.2 人工智能的起源與發(fā)展從人工智能概念提出至今已歷經(jīng)60多年,其發(fā)展經(jīng)歷了三個主要階段: 第一階段:1950s人工智能概念提出1980s人工智能的第一個瓶頸期由于計算機科技自身的發(fā)展, 基于抽象數(shù)學推理的可編程數(shù)字計算機出現(xiàn)。 此時的計算機完全按照編程邏輯執(zhí)行命令, 科學家建立推理模型解決問題。 使用機械的符號模型難以對現(xiàn)實世界許多事情和過程完成建模。隨著計算任務(wù)的復雜性不斷加大,模型的復雜性也不斷加大,當時的計算能力和理論水平無法支撐。 第二階段:1980s1990s,人工智能的發(fā)展又經(jīng)歷了一

8、次起落過程“起” :專家系統(tǒng)快速發(fā)展, 數(shù)學模型有重大突破,可以把各領(lǐng)域?qū)<业闹R放到系統(tǒng)里提供決策支持?!奥洹保?990s末, 因?qū)<蚁到y(tǒng)存在若干缺點(知識獲取、 推理能力等不足;開發(fā)成本高, 需要多位相關(guān)領(lǐng)域?qū)<业闹С郑?計算機系統(tǒng)建模、 建設(shè)門檻高),人工智能的發(fā)展又一次進入低谷期。第三階段: 21世紀初至今,迎來了又一個繁榮時期隨著大數(shù)據(jù)的積聚、理論算法的革新、計算和存儲能力的提升,人工智能在很多應(yīng)用領(lǐng)域取得了突破性進展。 1.2 人工智能的起源與發(fā)展第1節(jié) 人工智能簡介 1.3 人工智能的發(fā)展層次 1.3.1 弱人工智能“弱人工智能” 指不能真正實現(xiàn)推理和解決問題的智能機器, 這些機

9、器表現(xiàn)出一定的智能, 但是并不真正擁有智能, 也不會有自主意識。 迄今為止的人工智能系統(tǒng)都是實現(xiàn)特定功能的專用智能, 而不是像人類智能那樣能夠不斷適應(yīng)復雜的新環(huán)境并不斷涌現(xiàn)出新的功能, 因此都屬于弱人工智能。 運算智能運算智能主要是機器快速運算和記憶存儲的能力。 從與人的對比來看, 運算能力和存儲能力是機器的優(yōu)勢。(例:國際象棋程序 “深藍”、圍棋程序 AlphaGo) 感知智能感知智能側(cè)重視覺、聽覺、觸覺等感知能力,目的是使機器可以像人一樣具有這些感知能力,實現(xiàn)人機的交互。從感知智能這個角度, 人工智能越來越接近人類。 (例:語音對話機器人、四足機器人、自動駕駛機器人)第1節(jié) 人工智能簡介

10、1.3 人工智能的發(fā)展層次 1.3 人工智能的發(fā)展層次1.3.2 強人工智能“強人工智能”也稱“通用人工智能” “強人工智能” 或 “類人智能”,是指真正能思維的智能機器, 并且這樣的機器是有知覺和自我意識的。 強人工智能機器可分為兩大類:類人:機器的思考和推理與人的思維類似。非類人:機器產(chǎn)生了和人完全不一樣的知覺和意識,使用和人完全不一樣的推理方式。 認知智能 認知智能是指機器能理解, 并且會思考。 概念、 意識、 觀念等都是人類認知智能的表現(xiàn), 如果機器自己能形成觀點, 那么就認為其上升到了認知智能的層次。 目前機器在認知智能這個層次與人類相比還有差距。 創(chuàng)造智能 在認知智能之上的層次是創(chuàng)

11、造智能。 人與機器的區(qū)別恰恰在于人具有主動創(chuàng)造的能力。 如果想讓人工智能程序具有創(chuàng)造能力, 技術(shù)上是極具挑戰(zhàn)性的。 其技術(shù)上的突破點目前還尚未接近。 1.3 人工智能的發(fā)展層次 1.3.2 強人工智能 方法:圖靈測試采用問答模式, 觀察者與兩個測試對象對話 (例如以打字的方式), 測試對象中一個是人, 另一個是機器。 要求觀察者不斷提出各種問題, 從而判斷回答者是人還是機器。 如果機器與觀察者的對話使得觀察者認為他自己是與人對話, 則認為機器通過了圖靈測試。案例:判別聊天機器人的人工智能水平 實例展示問: 你住在哪個國家? 答: 法國。問: 你們國家的首都是哪里?答: 北京。問: 你多大了?答

12、: 32歲。問: 你的媽媽多大了?答: 35歲。 1.3.2 強人工智能 方法:圖靈測試案例:判第2節(jié) 人工智能與智能媒體 2.1 智能媒體的概念 概念“智能媒體” 是一種基于人工智能、大數(shù)據(jù)、云計算等技術(shù)手段實現(xiàn)的更為深入的新一代媒介融合產(chǎn)物。 特點智能媒體集 “單向廣播雙向交互智能引擎” 三種特點于一體, 可以幫助人們更好地搜集、 整理數(shù)量龐大的信息, 用戶在輕松接受媒體信息的同時可以參與到媒體中并與其進行交互。(時效性強、 數(shù)據(jù)精準、 交互體驗新穎)第2節(jié) 人工智能與智能媒體 2.1 智能媒體的概念第2節(jié) 人工智能與智能媒體 2.2 智能化媒體傳播模式的核心邏輯 人工智能給媒體行業(yè)帶來了

13、從宏觀到微觀全方位的改變。 從信息采集環(huán)節(jié)、 新聞編輯制作環(huán)節(jié)、 新聞?wù)J知體驗環(huán)節(jié)到內(nèi)容推送環(huán)節(jié)均發(fā)生行業(yè)生態(tài)環(huán)境的變化。人工智能與媒體結(jié)合, 智能媒體的基本運作范式也會從這四個方面進行變革。 第2節(jié) 人工智能與智能媒體 2.2 智能化媒體傳播模式的 2.2 智能化媒體傳播模式的核心邏輯2.2.1 信息采集:擴充渠道和數(shù)據(jù)量 傳統(tǒng)媒體新聞生產(chǎn)的主要模式路徑:“單一渠道采集、封閉式生產(chǎn)、點對面單向傳播”在傳統(tǒng)媒體中, 選題策劃篩選、 大量的前期文案工作、 實地調(diào)研、 選擇并聯(lián)系采訪對象等煩瑣工作都與信息采集環(huán)節(jié)相關(guān)。傳統(tǒng)媒體中人工收集數(shù)據(jù)的體量偏小, 來源渠道較為單一, 而且時間成本較高, 但是

14、數(shù)據(jù)來源和質(zhì)量相對有保證。 智能媒體 在智能媒體中, 數(shù)據(jù)來源渠道的廣度可以大幅擴充, 可采集的數(shù)據(jù)量較之傳統(tǒng)媒體也有若干量級的提升。各種新設(shè)備層出不窮(如物聯(lián)網(wǎng)的設(shè)備、 傳感器、 全球定位系統(tǒng)、 無人機以及智能手環(huán)等),都可以不斷采集數(shù)據(jù)并匯入新聞系統(tǒng), 提供新聞制作的數(shù)據(jù)原料。 2.2 智能化媒體傳播模式的核心邏輯 2.2 智能化媒體傳播模式的核心邏輯2.2.2 內(nèi)容生產(chǎn):發(fā)現(xiàn)規(guī)律和線索 傳統(tǒng)媒體在傳統(tǒng)媒體中, 內(nèi)容的優(yōu)勢顯著。一份尼爾森評級數(shù)據(jù)報告中顯示, 在研究的上百萬份社會化媒體樣本案例中, 其中有近八成的內(nèi)容來源于傳統(tǒng)媒體公司。在一些簡短的財經(jīng)簡報中, 傳統(tǒng)媒體的內(nèi)容生產(chǎn)優(yōu)勢可能還

15、不太明顯,當涉及一些深度報道、 調(diào)查性新聞以及人文情懷的文章時, 傳統(tǒng)媒體在內(nèi)容上的優(yōu)勢就顯示出來了。 智能媒體 現(xiàn)階段智能媒體的內(nèi)容生產(chǎn)在一定程度上還是要依賴于傳統(tǒng)媒體。 針對海量數(shù)據(jù), 我們從經(jīng)驗上無法直接了解和發(fā)現(xiàn)線索時, 就可以使用多維數(shù)據(jù)的可視化工具, 通過數(shù)據(jù)可視化, 從數(shù)據(jù)展現(xiàn)出來的特點, 去挖掘數(shù)據(jù)背后的關(guān)系, 整理故事線索。 因此智能媒體能夠輔助發(fā)現(xiàn)數(shù)據(jù)的規(guī)律和價值。 2.2 智能化媒體傳播模式的核心邏輯 2.2 智能化媒體傳播模式的核心邏輯2.2.3 認知體驗 在認知體驗環(huán)節(jié), 智能媒體支持多媒體內(nèi)容的展現(xiàn), 比如智能視頻剪輯和生成。 應(yīng)用嘗試:自動進行視頻編輯的產(chǎn)品實驗(

16、斯坦福大學)功能:自動編輯視頻+控制剪輯風格 具體內(nèi)容:程序可以準確地識別出需要剪輯的內(nèi)容。 系統(tǒng)會利用面部識別和情緒識別系統(tǒng), 對每一幀畫面進行分析,將所有鏡頭(包括多個角度拍攝的畫面)按照設(shè)定的腳本進行組織;還能根據(jù)需求找到指定的內(nèi)容,比如會標注某個鏡頭是廣角或特寫鏡頭, 以及這些鏡頭中包含了哪些人物和角色。 在所有的元素都可以被組織之后, 系統(tǒng)會按照不同的風格和習慣對視頻進行剪輯和處理。 2.2 智能化媒體傳播模式的核心邏輯 2.2 智能化媒體傳播模式的核心邏輯2.2.4 內(nèi)容分發(fā) 傳統(tǒng)媒體傳統(tǒng)媒體由于面向新聞的大量生產(chǎn), 依靠人工編輯傳播, 導致其受眾細分或者個性化定制意識偏弱。其結(jié)果

17、一方面使得傳統(tǒng)媒體用戶要額外花時間去篩選出自己感興趣的文章, 另一方面卻有利于信息傳播的均衡。面向“受眾”:規(guī)模較小, 低頻靜態(tài), 呈松散型聯(lián)系, 商業(yè)價值較低。 智能媒體 現(xiàn)階段通過智能篩選的智能媒體新聞, 在根據(jù)用戶喜好量身定制的同時, 也消除了用戶對其他新聞產(chǎn)生興趣的可能。在智能媒體推送的過程中, 具體內(nèi)容推送的算法也會受到算法本身設(shè)定的干擾, 其推送的內(nèi)容是否真的完美契合用戶喜好還有待探究。(曾在臉書工作過的人員透露: “臉書在推送時會適當壓制保守傾向的內(nèi)容, 推送較為自由傾向的內(nèi)容?!?)面向“用戶”:規(guī)模較大, 高頻動態(tài), 呈緊密型聯(lián)系, 商業(yè)價值較高。 2.2 智能化媒體傳播模式

18、的核心邏輯第2節(jié) 人工智能與智能媒體 2.3 人工智能與媒體的融合 2.3.1 人工智能輔助媒介生產(chǎn)隨著相關(guān)應(yīng)用的逐漸發(fā)展, 智能媒體融合越來越緊密:人工智能技術(shù)可以對海量數(shù)據(jù)進行采集、整理和價值挖掘, 發(fā)掘線索, 優(yōu)化選題, 以及輔助視頻編輯、 實現(xiàn)投遞分發(fā)環(huán)節(jié)的個性化推薦。 第2節(jié) 人工智能與智能媒體 2.3 人工智能與媒體的融合 2.3 人工智能與媒體的融合2.3.2 新聞自動化 通過人工智能、 大數(shù)據(jù)、智能寫稿等技術(shù), 可以幫助實現(xiàn)新聞的自動化生產(chǎn),也可以對新聞內(nèi)容的真實性進行有效核查, 幫助確立新聞數(shù)據(jù)的權(quán)威性, 從而利用自動化新聞數(shù)據(jù)為信息來源渠道進行把關(guān)。對于一些模式性比較強的新

19、聞, 如金融和體育類新聞, 智能媒體已經(jīng)可以實現(xiàn)稿件的自動化撰寫。 例如騰訊公司開發(fā)的寫作機器人Dreamwriter可以根據(jù)算法自動生成稿件, 一分鐘內(nèi)完成資訊整合并送達用戶。圖2.1 寫作機器人Dreamwriter自動撰寫的稿件摘錄 2.3 人工智能與媒體的融合圖2.1 寫作機器人Dre第2節(jié) 人工智能與智能媒體 2.4 人工智能在媒體平臺中的應(yīng)用 內(nèi)容生產(chǎn)平臺內(nèi)容生產(chǎn)平臺是人工智能時代智能媒體的基礎(chǔ), 以機器人新聞最具代表性。 通過自動化進行內(nèi)容生產(chǎn), 可以將記者從煩瑣而簡單的工作中解救出來。 智能推送平臺智能推送平臺得益于大數(shù)據(jù)和智能推薦算法的有效結(jié)合, 可以個性化匹配用戶的新聞需求

20、, 力求新聞投遞更加精準、 有效、 合理。 用戶聚合平臺用戶聚合平臺是基于內(nèi)容生產(chǎn)平臺和智能推送平臺, 例如推特、 微博等社會化媒體平臺, 運用有效的內(nèi)容和個性化的新聞分發(fā), 對用戶進行數(shù)據(jù)的深入發(fā)掘和分析, 整理出更深度的用戶習慣, 進一步增加用戶黏性, 讓用戶對產(chǎn)品產(chǎn)生依賴性的消費習慣, 從而進行內(nèi)容的再生產(chǎn)。 第2節(jié) 人工智能與智能媒體 2.4 人工智能在媒體平臺中第2節(jié) 人工智能與智能媒體 2.5 人工智能的技術(shù)表現(xiàn) “這一波人工智能的爆發(fā)首先橫掃了自然語言處理和計算機視覺這兩個領(lǐng)域?!彼固垢4髮W人工智能實驗室主任李飛飛這兩個領(lǐng)域也是智能媒體的主要技術(shù)體現(xiàn)。 自然語言處理在這一領(lǐng)域最為

21、常見的就是語音識別技術(shù), 它是一個基礎(chǔ)性的技術(shù)。 今后, 隨著語音識別技術(shù)的提高和廣泛應(yīng)用, 或許能改變?nèi)祟惻c所有設(shè)備之間的交互方式。在智能媒體中, 語音識別技術(shù)和傳感器的結(jié)合, 可以更為有效快速地搜集和捕捉信息數(shù)據(jù), 提高信息準確度。 語音識別技術(shù)也可以為記者提高寫作效率。 例如,科大訊飛公司旗下產(chǎn)品“訊飛聽見”可以實現(xiàn)長時間錄音內(nèi)容的轉(zhuǎn)文字處理, 其精準度也在不斷地提高。 第2節(jié) 人工智能與智能媒體 2.5 人工智能的技術(shù)表現(xiàn) 2.5 人工智能的技術(shù)表現(xiàn) 計算機視覺領(lǐng)域在這一領(lǐng)域最為常見的就是各項智能識別技術(shù), 例如人臉識別、 指紋識別、 虹膜識別等, 除此之外還有各項視覺支持技術(shù)。 在智

22、能媒體中, 計算機視覺領(lǐng)域的技術(shù)可以得到廣泛應(yīng)用。 例如在參會人員眾多的會議中, 利用人臉識別技術(shù)去鎖定被采訪對象, 幫助記者采集新聞素材。 在新聞體驗環(huán)節(jié), 利用虛擬現(xiàn)實(VR)、增強現(xiàn)實 (AR) 等技術(shù), 可以為用戶打造全新的新聞體驗場所, 營造出身臨其境的效果, 更為有效地還原新聞現(xiàn)場。 2.5 人工智能的技術(shù)表現(xiàn) 第3節(jié) 自動化新聞和寫稿機器人新聞寫作機器人 (寫稿機器人) 是人工智能技術(shù)在媒體實際應(yīng)用中的代表, 也是最為直觀、 廣泛的人工智能技術(shù)產(chǎn)品。 新聞寫作機器人在國外的應(yīng)用要早于國內(nèi):早在2010年一家名為Narrative Science的公司就研發(fā)出一款名為Quill的新

23、聞自動寫作程序 洛杉磯時報 最早將這一技術(shù)引入實際的新聞生產(chǎn)中去 2014年,人工智能編輯 Word Smith在美聯(lián)社正式上線在國內(nèi), 最早應(yīng)用新聞寫作機器人的機構(gòu)是騰訊財經(jīng)。2015年9月, 騰訊財經(jīng)Dreamwriter寫作機器人生產(chǎn)了第一篇國內(nèi)自動化新聞稿件。應(yīng)用:現(xiàn)階段, 無論國內(nèi)還是國外, 新聞寫作機器人主要應(yīng)用于財經(jīng)新聞、 體育新聞等領(lǐng)域的新聞生產(chǎn)中, 這類新聞的共性是以數(shù)據(jù)信息為主、 對時效性要求高、 字數(shù)少。第3節(jié) 自動化新聞和寫稿機器人第3節(jié) 自動化新聞和寫稿機器人 3.1 自動化新聞及其原理3.1.1 自動化新聞的相關(guān)要素 技術(shù)儲備 大數(shù)據(jù)(數(shù)據(jù)來源、原材料) 算法(擬人

24、化寫作) 相關(guān)人群 記者(深度報道、專業(yè)報道) 編輯(記者稿件VS機器人稿件) 讀者 發(fā)展出口 應(yīng)用(寫稿機器人) 理論(學界進行理論研究)圖3.1 自動化新聞的相關(guān)要素 第3節(jié) 自動化新聞和寫稿機器人 3.1 自動化新聞及其原 3.1 自動化新聞及其原理3.1.2 自動化新聞的概念 自動化新聞“自動化新聞”(automated journalism)也被稱為 “算法新聞”(algorithmic journalism)或“機器人新聞”(robot journalism),是建立在算法和人工智能程序平臺和自然語言處理技術(shù)的基礎(chǔ)上的新型新聞生產(chǎn)模式。 寫稿機器人自動化新聞中用來生產(chǎn)內(nèi)容的程序叫作

25、寫稿機器人。 自動化新聞 VS 寫稿機器人(同一過程,側(cè)重角度不同)自動化新聞 過程和產(chǎn)品的角度新聞是自動化新聞生產(chǎn)的最終產(chǎn)品, 自動化則指整個生產(chǎn)過程涉及的人力較少、 計算力比較多寫稿機器人 算法和生產(chǎn)的邏輯角度機器人則是具體的生產(chǎn)者 3.1 自動化新聞及其原理 3.1 自動化新聞及其原理3.1.3 自動化新聞的特征 最主要的特征:從數(shù)據(jù)源自動獲取數(shù)據(jù), 使用算法來進行內(nèi)容整合,并完成擬人化的內(nèi)容生產(chǎn),即新聞的文字及部分視覺內(nèi)容可以由算法直接、 自動生成。寫稿機器人可以和記者做的深度報道、 情感溝通等方面進行互補。圖3.2 自動化新聞案例 3.1 自動化新聞及其原理圖3.2 自動化新聞案例

26、3.1 自動化新聞及其原理3.1.4 自動化新聞的生產(chǎn)過程 在數(shù)據(jù)庫及其他數(shù)據(jù)來源處檢索并鎖定與報道主題相關(guān)的數(shù)據(jù)。 數(shù)據(jù)來源可能是生產(chǎn)者系統(tǒng)內(nèi)部的, 也可能是外部數(shù)據(jù)源 (如股票交易所、 體育比賽主辦方等)。 對原始數(shù)據(jù)進行整理和分類。 原始數(shù)據(jù)往往并不是直接可用的, 一般需要對原始數(shù)據(jù)進行清洗、 整理和分類, 舍去無用數(shù)據(jù)。 通過排序、 比較和聚合數(shù)據(jù)來明確新聞故事的關(guān)鍵事實。 按照某種敘事的語義結(jié)構(gòu)對關(guān)鍵事實進行組織。 不同產(chǎn)業(yè)、 行業(yè)的文章,有不同的敘事結(jié)構(gòu), 稱為 “模板”, 例如體育類新聞和財經(jīng)類新聞的敘事模板就大不相同。 對最終形成的文本內(nèi)容進行審核, 完成分發(fā)和出版, 同時可以

27、按照需要提供不同風格、 語言和語法復雜程度的產(chǎn)品。 3.1 自動化新聞及其原理 3.1.4 自動化新聞的生產(chǎn)過程 圖3.3 自動化新聞的生產(chǎn) 3.1.4 自動化新聞的生產(chǎn)過程圖3.3 自動化新聞第3節(jié) 自動化新聞和寫稿機器人 3.2 自動化新聞的發(fā)展和應(yīng)用3.2.1 發(fā)展現(xiàn)狀:歐美美國的自動化新聞發(fā)展較早。截至2018年初, 歐美幾乎所有的主流新聞機構(gòu)都已經(jīng)建立起了一定程度的自動化新聞生產(chǎn)平臺。 美聯(lián)社與 Word Smith自動捕捉最新財經(jīng)數(shù)據(jù)運用美聯(lián)社預設(shè)的新聞框架 數(shù)據(jù)內(nèi)容填充財經(jīng)簡報 “人工寫一篇類似自動化新聞的簡單財報大約需要記者和編輯耗費30分鐘, 在使用自動化寫作軟件前, 我的6

28、5位員工每季度大約只能寫300篇報道, 現(xiàn)在我們卻能完成3700篇。” 美聯(lián)社全球商業(yè)總編麗莎吉布斯美聯(lián)社副總裁吉姆肯尼迪 曾表示,讓寫稿機器人不再需要人工的最終審核而達到直接發(fā)稿的水平是他們的終極目標。第3節(jié) 自動化新聞和寫稿機器人 3.2 自動化新聞的發(fā)展 3.2.1 發(fā)展現(xiàn)狀:歐美 里程碑事件事件:2014年3月7日 洛杉磯時報 對當天早晨一場4.7級地震的自動化報道。成果:此文稿完全由計算機程序 Quakebot生成, 在這次地震發(fā)生后僅三分鐘內(nèi)就實現(xiàn)了全文的發(fā)布, 且在形式上與人類記者撰寫的報道幾乎沒有任何差別。 Quakebot使得 洛杉磯時報 成為最早報道此次地震的媒體。 原理:

29、Quakebot從Geological Survey獲取關(guān)于地震的原始數(shù)據(jù), 只要地震的級別大于某一個閾值, 就會把相應(yīng)的數(shù)據(jù)抽出來, 把它放在預置好的模板中去, 然后送到洛杉磯時報 的系統(tǒng)里, 經(jīng)過人工審核后即可進行發(fā)布。 3.2.1 發(fā)展現(xiàn)狀:歐美 里程碑事件 3.2 自動化新聞的發(fā)展和應(yīng)用3.2.2 發(fā)展現(xiàn)狀:中國 新華社與 “快筆小新”工作流程和特點: 采集清洗。依托大數(shù)據(jù)技術(shù)對數(shù)據(jù)進行實時采集、 清洗和標準化處理,不同來源的數(shù)據(jù)格式往往不同。 計算分析。根據(jù)業(yè)務(wù)需求定制相應(yīng)的算法模型, 對數(shù)據(jù)進行實時計算和分析。 模板匹配。 “快筆小新” 會根據(jù)計算和分析結(jié)果選取合適的模板,生成中文

30、新聞置標語言標準(CNML)的稿件自動進入待編稿庫, 供編輯審核后簽發(fā)。 “快筆小新” 如何避免稿件的千篇一律? 進行模板的定制。不同事件有不同寫法,可以根據(jù)事件本身的情況來選擇一個相應(yīng)的稿件模板, 進行內(nèi)容創(chuàng)作。(不同事件有不同的模板權(quán)重) 為了支持模板, 可建立更加完善的歷史數(shù)據(jù)庫。(財經(jīng)類的季報、年報、 歷史報價等數(shù)據(jù)庫, 體育類的賽事、 運動員基本資料等數(shù)據(jù)庫) 針對業(yè)務(wù)報道需求, 研發(fā)計算同比、 環(huán)比、 指數(shù)、 累計進球數(shù)、 積分排名等各種指標的歷史統(tǒng)計模型、 趨勢分析模型等, 提高報道內(nèi)容的豐富性。 3.2 自動化新聞的發(fā)展和應(yīng)用 3.2.2 發(fā)展現(xiàn)狀:中國 光明日報與“光明小明”

31、亮點:自然語言處理技術(shù)的應(yīng)用(人機對話、人性化溝通)交互方式突破:傳統(tǒng)方式:用戶閱讀新聞(單向傳播,被支配地位)小明:溝通、 對話、 交流(雙向傳播,平等)更多功能:“光明小明” 還可以通過圖片識別出相關(guān)內(nèi)容的背景資料。比如當用戶把一名NBA球星的照片發(fā)給小明, 它可以很快地告訴用戶他是誰, 以及相關(guān)的其他資料信息。“小明你好! 我想查詢今天北京的空氣質(zhì)量指數(shù)。” 小明:回答“那么深圳呢?”小明:回答程序預設(shè) 自主學習 3.2.2 發(fā)展現(xiàn)狀:中國 光明日報與“光第3節(jié) 自動化新聞和寫稿機器人 3.3 自動化新聞的技術(shù)難點自動化新聞的核心技術(shù)是自然語言理解, 同時會涉及機器學習、 數(shù)據(jù)挖掘、 深

32、度學習、 知識圖譜等多項技術(shù)。 技術(shù)難點學習和模擬文字這種相比語音、視頻等更抽象的交流方式并用于內(nèi)容生產(chǎn)。 (文法和語法正確、不生硬、與時俱進、通俗易懂)語言具有復雜性, 同一句話可能代表不同含義, 例如反諷、 暗喻等方式。正確理解人類語言還要有足夠的背景知識, 比如對成語和歇后語的理解?!八某煽儾荒芨昧恕?贊美?嘲笑?第3節(jié) 自動化新聞和寫稿機器人 3.3 自動化新聞的技術(shù)第3節(jié) 自動化新聞和寫稿機器人 3.4 自動化新聞的發(fā)展前景添加語境資料。為了讓寫稿機器人制作的稿件更加生動、 擬人化, 支持的場景和領(lǐng)域更多, 需要考慮為自動化新聞添加語境資料, 方便其得出較為復雜的結(jié)論。 核查與修

33、正數(shù)據(jù)自身的偏向性。與記者相比, 由于寫稿機器人的技術(shù)門檻較高, 算法對數(shù)據(jù)的使用是否有偏向性、 是否是透明的, 往往受到公眾質(zhì)疑。提高數(shù)據(jù)本身的可解釋性。通常, 人工的稿件往往需要注明所引數(shù)據(jù)的來源, 但是對于一些自動化新聞來說, 由于其數(shù)據(jù)來源比較多, 精確地標出每一個數(shù)據(jù)源也存在一定的技術(shù)挑戰(zhàn)。 其它。算法甚至有望實現(xiàn)對圖像數(shù)據(jù)的讀取和結(jié)構(gòu)化, 利用多媒體素材, 更好地組織內(nèi)容生產(chǎn), 提高語言的豐富程度, 并且進一步提升擬人化水平。第3節(jié) 自動化新聞和寫稿機器人 3.4 自動化新聞的發(fā)展第4節(jié) 自動事實核查 4.1 自動事實核查的概念和發(fā)展現(xiàn)狀 事實的含義事實應(yīng)該與客觀現(xiàn)實一致并且可以被

34、證據(jù)證明。 人工核查的不足當前, 假新聞和謠言在互聯(lián)網(wǎng)上傳播和擴散, 正是由于其與事實不符或者故意混淆事實, 導致了受眾的誤解、 困惑甚至恐慌。 而人工核查的方式在面對大量假新聞和謠言時又顯得力不從心。 自動事實核查是指將人工智能技術(shù)應(yīng)用于自動事實核查。同時, 也與人工信息核查流程相融合和交叉驗證, 以便實現(xiàn)更準確的核查效果。 關(guān)于自動事實核查的研究得到了越來越多的資金支持。(事實核查慈善機構(gòu)Full Fact獲得來自谷歌公司的5萬歐元經(jīng)費支持,杜克大學的杜克記者實驗室獲得來自奈特基金會等機構(gòu)120萬美元的資金支持, 用于啟動 “科技與核查合作”項目)第4節(jié) 自動事實核查 4.1 自動事實核查

35、的概念和發(fā)展現(xiàn)第4節(jié) 自動事實核查 4.2 自動事實核查的目標、路徑和研究發(fā)現(xiàn)4.2.1 自動事實核查的目標 【識別】嘗試發(fā)現(xiàn)網(wǎng)絡(luò)上流傳的虛假或可疑信息該目標的作用是從網(wǎng)絡(luò)上海量的信息中篩選出可能的不實消息, 縮小核查范圍,否則后續(xù)的自動事實核查將面臨數(shù)據(jù)量過大、對計算資源要求太高的困境。數(shù)據(jù)在現(xiàn)有的海量體量基礎(chǔ)上仍迅速增長,逐條核查互聯(lián)網(wǎng)上的全部數(shù)據(jù)不可行,需要設(shè)計合理算法和規(guī)則來快速發(fā)現(xiàn)虛假信息。由于人工核查準確率高,通常會實行人工核查與機器核查相結(jié)合的方式。 【檢驗】核實有疑問的信息,為記者和公眾成員的信息核實提供便利當公眾或?qū)I(yè)記者對現(xiàn)有消息存疑, 可尋求事實核查系統(tǒng)的幫助, 核對存疑消息。因此, 自動事實核查系統(tǒng)需要保證較高的準確性和有效性, 保證公眾得到的是權(quán)威回答。 【糾正】通過不同的媒體平臺將修正的信息迅速傳達給受眾一方面, 對于已經(jīng)閱讀某條不實消息的人群, 需要進行回溯和定向辟謠。另一方面, 也需要確定其他可能受到影響的人群范圍并進行信息修正。第4節(jié) 自動事實核查 4.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論