



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)的特征及信息需求分析
近年來,作為云計算和物聯(lián)網(wǎng)等技術(shù)的推動者,云南省國家管理局宣布將投資2億美元,主要用于云計算、云組織和分析技術(shù)的研發(fā)、收集、組織和分析,以及刺激大數(shù)據(jù)行業(yè)發(fā)展的新形式。我將大數(shù)據(jù)戰(zhàn)略升級為國家戰(zhàn)略,這意味著給我們帶來了一種新的財富手段。你的價值可以像石油和黃金。與克林頓政府1993年公布的“信息高速公路”計劃相比,這一過程真的進入了“大數(shù)據(jù)”時代,大數(shù)據(jù)(大規(guī)模數(shù)據(jù))成為一個現(xiàn)在的焦點。在大數(shù)據(jù)時代中,數(shù)據(jù)作為一種資源如何加以高效利用并開發(fā)出其中的價值,這已成為政府公共管理部門和企業(yè)界、投資者普遍關(guān)注的問題。1原生數(shù)字資源的應(yīng)用和數(shù)據(jù)來源對圖書館而言,其創(chuàng)新變革經(jīng)歷了數(shù)字圖書館(DL)、信息共享空間(IC)、IFRD、機構(gòu)知識庫存(IR)、移動圖書館(ML)、云計算等,數(shù)字資源的積累經(jīng)歷了傳統(tǒng)的數(shù)字化到原生數(shù)字資源的發(fā)展過程??梢哉f,到目前為止,中文紙質(zhì)圖書、期刊、學(xué)位論文等文獻類型,已大部完成數(shù)字化轉(zhuǎn)換。英文及其它文種的紙質(zhì)資源正在進行大規(guī)模數(shù)字化。事實上,傳統(tǒng)資源只占數(shù)字資源的很小部分,而原生資源(Born-digitalresources)在每臺終端機、每個用戶都不斷地產(chǎn)生信息??梢哉f,未來圖書館大數(shù)據(jù)主要來自數(shù)字圖書館、RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)和移動互聯(lián)數(shù)據(jù)等。而對用戶,其大宗旨就是如何利用相關(guān)數(shù)據(jù)技術(shù)的從海量、多樣性的數(shù)據(jù)中,即省時又省錢,并精確、全面、快速獲得有價值的信息。1.1時間去歸,表現(xiàn)出最難組織自己互聯(lián)網(wǎng)上每天都產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)都是以無序化、多樣化等形式出現(xiàn)的,如果用戶沒有相當(dāng)?shù)臅r間去歸納、整理是很難組織適合自己的信息,這后知后覺意味著損失先機、價值和效益。因此,圖書館如何通過數(shù)據(jù)挖掘技術(shù),為用戶迅速從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,組織、提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息推送技術(shù)推送到用戶手中。1.2系統(tǒng)構(gòu)成及數(shù)據(jù)結(jié)構(gòu)云華時代智能科技有限公司董事長郭昕認(rèn)為,大數(shù)據(jù)不僅改變了我們的思維方式,而且改變了我們的生產(chǎn)方式和生活方式,我們的精神世界和物質(zhì)世界都將構(gòu)建在大數(shù)據(jù)之上,大數(shù)據(jù)不僅僅是一門技術(shù),更是一種全新的商業(yè)模式,它與云計算共同構(gòu)成了下一代經(jīng)濟的生態(tài)系統(tǒng)。而圖書館數(shù)據(jù)從形式上分包含購置的資源、嵌入到圖書館相關(guān)資源、社交網(wǎng)絡(luò)資源、移動互聯(lián)網(wǎng)資源和圖書館一些傳感器所產(chǎn)生的資源等;從數(shù)據(jù)結(jié)構(gòu)上包含結(jié)構(gòu)性數(shù)據(jù)、半結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù)。因此,無論在數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)容量上來看,大數(shù)據(jù)如果缺少必要的技術(shù)手段,人工的搜索或者瀏覽都無法全面了解數(shù)據(jù)全貌。用戶由于對數(shù)據(jù)處理及數(shù)據(jù)挖掘技術(shù)掌握的不夠,影響數(shù)據(jù)的完整性、準(zhǔn)確性和全面性,必將影響對事物的正確判斷,使其嗅覺變得遲鈍。在這個意義上,圖書館工作人員無論從事實要求和社會要求,都要求轉(zhuǎn)變職能,以大數(shù)據(jù)的思維出發(fā)提高服務(wù)水平,從聯(lián)機編目、館內(nèi)借閱、館際互借,轉(zhuǎn)而對各種數(shù)據(jù)提供精細分析和信息進行實時分析,提供精確性與全面性的數(shù)據(jù)。1.3用戶信息的結(jié)構(gòu)客觀地說,用戶利用信息資源的動機一般由需要、認(rèn)知、學(xué)習(xí)等內(nèi)因和文化、社會、家庭、小群體、參考群體等外因共同決定,一方面每個用戶,其因知識背景、學(xué)科專業(yè)、科學(xué)研究方向決定其利用信息資源的層次、范疇和內(nèi)容,對數(shù)據(jù)要求不同。另一方面由于不同的數(shù)據(jù)有不同的結(jié)構(gòu)形式,不同的網(wǎng)站界面風(fēng)格設(shè)計;其數(shù)據(jù)利用和定制途徑也不一樣,如果要使數(shù)據(jù)用戶根據(jù)自己所需,就要在用戶與數(shù)據(jù)之間建立一種關(guān)系,這種關(guān)系是對應(yīng)關(guān)系,是通過開通網(wǎng)絡(luò)全覆蓋進行內(nèi)容定向和行為定向服務(wù)。2為用戶提供教研參考的信息產(chǎn)品大數(shù)據(jù)時代的圖書館用戶數(shù)據(jù)需求,不再局限于簡單層次的信息查詢與反饋,而是轉(zhuǎn)向廣闊的信息源,用戶對信息產(chǎn)品的需求,不是簡單查找相關(guān)文獻來源與出處,而是要求提供綜合度高、附加值大的信息產(chǎn)品。不僅是要信息咨詢?nèi)藛T提供圖書館現(xiàn)有數(shù)據(jù)庫、書目數(shù)據(jù)等結(jié)構(gòu)性數(shù)據(jù),同時還要查詢互聯(lián)網(wǎng)上非結(jié)構(gòu)性和半結(jié)構(gòu)性數(shù)據(jù)。為更好地利用這些數(shù)據(jù),圖書館員就要掌握一些數(shù)據(jù)挖掘工具與技術(shù),根據(jù)用戶利用信息資源的歷史記錄,掌握其學(xué)科專業(yè)背景、學(xué)術(shù)研究方向和閱讀興趣,對海量數(shù)據(jù)之間的關(guān)聯(lián)進行分析,挖掘出隱藏其中的規(guī)律信息,形成滿足用戶需求的深層次信息產(chǎn)品;主動定制書目數(shù)據(jù)、文獻資料等專題信息,并定期進行推送,真正實現(xiàn)個性化信息服務(wù)。2.1信息需求下的個性化推薦系統(tǒng)眾所周知,在搜索領(lǐng)域Google、百度等已被用戶所熟悉,其強大的搜索功能贏得廣大用戶的青睞。針對圖書館而言,建立個性化的發(fā)現(xiàn)機制,能對各種數(shù)據(jù)進行表述、分類及評價。這樣的個性化推薦系統(tǒng)必須能夠基于用戶信息需求提供相關(guān)的精確的推薦,而且這種信息需求收集是較全面的。推薦的結(jié)果必須能夠?qū)崟r計算、運用,并能及時的對推送結(jié)果作出反饋。當(dāng)然建立用戶個性化推薦機制的形式各有不同,一般是基于圖書館網(wǎng)站內(nèi)容,利用讀者的信息行為和信息源,為讀者進行個性化信息推薦,其推薦行為是根據(jù)用戶行為數(shù)據(jù)記錄和歷史信息需求進行。2.2云搜索需求分析一般認(rèn)為,云搜索是指可定制的、智能化站內(nèi)搜索。其核心價值訴求是保證所有資源利用者都能根據(jù)自己的數(shù)據(jù)需要找到相應(yīng)的信息,提高用戶的滿意度。站內(nèi)搜索支持所有論壇、CMS和手機終端應(yīng)用,其目的是節(jié)省服務(wù)器資源,不需限制搜索;搜索結(jié)果更精準(zhǔn);篩選方式更多樣;更迅速得出結(jié)果,提供搜索效益;通過云搜索可根據(jù)網(wǎng)站不同數(shù)據(jù)類型定義搜索條件,打造各種定制搜索需求,通過精準(zhǔn)內(nèi)容推薦,提升網(wǎng)站流量,增加用戶粘性,強化搜索范圍、索引管理、語詞(關(guān)鍵詞)管理等。在開展云搜索服務(wù)過程中,其主要內(nèi)容包括:擁有站內(nèi)搜索功能、劃詞搜索、帖子頁推薦、彈窗推薦、refer推薦和首頁熱詞分析等,其中站內(nèi)搜索是云搜索服務(wù)的基本搜索功能,可根據(jù)用戶信息需求,定制結(jié)構(gòu)化數(shù)據(jù),并進行定時數(shù)據(jù)更新;首頁熱詞是云搜索服務(wù)的運營助手,可根據(jù)信息流量動態(tài)伸縮信息資源;其他項目是云搜索服務(wù)的基本服務(wù)內(nèi)容推薦。2.3云反病機的流量控制及技術(shù)優(yōu)勢各個商業(yè)網(wǎng)站或信息專業(yè)網(wǎng)站常用Refer進行云推薦服務(wù)。Refer推薦服務(wù)需要與搜索引擎關(guān)鍵字匹配,并從所有的搜索引擎(百度、google、云搜索)到達的頁面(可能是帖子頁、可能是首頁、板塊頁等),當(dāng)其搜索關(guān)鍵詞被激活時,頁面彈出具有更多相關(guān)內(nèi)容的彈出框;從而使外部搜索引擎到達站點的用戶看到站內(nèi)更多相關(guān)內(nèi)容,對站點產(chǎn)生信任感。云推送服務(wù)的優(yōu)點在于,云推送服務(wù)支持推送給一個人、一群人和所有人,單一終端多個應(yīng)用共享一個服務(wù)進程和一條TCP長連接,從而有效降低手機的耗電量和數(shù)據(jù)流量,使用云推送服務(wù)用戶可使用“無賬戶登錄”。這樣,一是增強用戶粘性,通過云端之間的長連接,可以實時的推送消息到達用戶端。保持與用戶的溝通,大大提升用戶活躍度和留存率;二是節(jié)約成本,在省電省流量方面遠超行業(yè)水平,基礎(chǔ)的消息推送服務(wù)永久免費,大大節(jié)省開發(fā)者推送的成本;三是穩(wěn)定安全的推送,強大的分布式集群長期為百度各大產(chǎn)品線提供推送服務(wù),保證消息推送服務(wù)的穩(wěn)定、可靠。3通過對用戶數(shù)據(jù)的分析,提升個性化服務(wù)的水平以資源為核心的數(shù)字化圖書館建設(shè)到以讀者為核心的大數(shù)據(jù)圖書館,最重要的就是針對不同讀者全面解決用戶個性化信息需求。而大數(shù)據(jù)的應(yīng)用就在于加強用戶研究與交互數(shù)據(jù)的利用,并基于對用戶數(shù)據(jù)的分析,提升個性化服務(wù)的水平,開展定題跟蹤服務(wù)、精準(zhǔn)提供服務(wù)、定制知識關(guān)聯(lián)服務(wù)和信息推送服務(wù)。圖書館面對快速增長的大數(shù)據(jù),從中提取有價值信息,建立個性化用戶分析模型,針對不同用戶快速提供全面、準(zhǔn)確的信息資源,滿足其個性化服務(wù)需要,提高信息服務(wù)層次與服務(wù)質(zhì)量。為滿足大數(shù)據(jù)對圖書館的要求,需要在以下幾個方面進行突破。3.1采用模糊聚類分析技術(shù),增加圖書館文獻資源的供給數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)應(yīng)用的核心。數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,該過程也被稱為數(shù)據(jù)考古(DataArchaeology)、數(shù)據(jù)模式分析(DataPatternAnalysis)或功能相依分析(FunctionalDependencyAnalysis)。個性化圖書館首先要求文獻資源的個性化,使有限的經(jīng)費、寶貴的空間添置讀者真正需要的文獻,提高文獻資源的利用效率,并根據(jù)學(xué)校的專業(yè)設(shè)置及教學(xué)科研情況分配文獻購置費,使各種文獻載體形式之間達到平衡。圖書館每天產(chǎn)生大量可以對采購工作產(chǎn)生指導(dǎo)作用的數(shù)據(jù),如自動化系統(tǒng)的流通數(shù)據(jù)、圖書館的歷史采購數(shù)據(jù)、查詢系統(tǒng)的各種查詢數(shù)據(jù)等。利用模糊聚類分析技術(shù),通過對圖書館業(yè)務(wù)系統(tǒng)的借閱、流通狀況、檢索請求及館藏書目庫進行分析挖掘,以此分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻或減少部分文獻的采購復(fù)本量。運用關(guān)聯(lián)分析技術(shù),對用戶每次借閱的文獻進行關(guān)聯(lián)分析,發(fā)現(xiàn)各類文獻間的關(guān)聯(lián)規(guī)則或比例關(guān)系,可為各學(xué)科文獻的采購工作提供分析報告和預(yù)測報告,優(yōu)化館藏結(jié)構(gòu)。3.2利用數(shù)據(jù)挖掘技術(shù)定制相關(guān)文獻資源,提高服務(wù)的針對性、有效性和質(zhì)量用戶在借閱過程中,產(chǎn)生大量的借閱數(shù)據(jù),圖書館一方面通過對用戶的學(xué)科、專業(yè)背景以及其相關(guān)領(lǐng)域科研動向進行宏觀分析,洞察用戶最新的科研走向,結(jié)合用戶相關(guān)歷史借閱數(shù)據(jù),推斷其借閱習(xí)慣與借閱趨勢,利用數(shù)據(jù)挖掘技術(shù),定制與其借閱相關(guān)聯(lián)的文獻資源,并通過推送技術(shù),把相關(guān)聯(lián)的文獻資源推薦給用戶,提升了圖書館在科研領(lǐng)域中的作用,為科研工作者提供了更多有價值的信息,提高服務(wù)的針對性、有效性和質(zhì)量。另一方面根據(jù)用戶借閱數(shù)據(jù)分析,判斷用戶圖書借閱的總體趨勢、各類借閱圖書分布、近期借閱熱門圖書,對圖書館館藏圖書進行有效評估,預(yù)測出讀者關(guān)注的熱點,并根據(jù)圖書資源評價意見,有效評估圖書館已有文獻的質(zhì)量以及讀者對未購買文獻的需求,合理采購文獻資源和電子資源,讓購買的資源更好地滿足讀者的需要,提高圖書館信息資源的利用率。3.3情報資料搜集和定題跟蹤大學(xué)圖書館的一個重點工作是對重點學(xué)科開展定題跟蹤。定題跟蹤服務(wù)是指高校圖書情報部門針對某一特定課題的研究需要由圖書情報人員主動地、及時地、連續(xù)地為科研人員提供文獻資料,搜集情報信息和數(shù)據(jù),最大限度地滿足科研人員文獻信息需求的全程式服務(wù)。定題跟蹤服務(wù)采用Web挖掘技術(shù),對文檔進行分類、自動摘要、頁面過濾、網(wǎng)頁聚類以及趨勢預(yù)測等。目前研究者從不同角度已經(jīng)提出了很多行之有效的文本分類方法,這些方法大多是基于機器學(xué)習(xí)方法的,根據(jù)其分類原理的不同分為線性分類器、統(tǒng)計學(xué)習(xí)分類器、基于實例的分類器、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 積累職業(yè)發(fā)展的經(jīng)驗:2024年記者證試題及答案
- 2025【江蘇全日制勞動合同】勞動合同范本版
- 2025二手車買賣合同簡化版 二手車買賣合同
- 木質(zhì)素行業(yè)發(fā)展趨勢與市場潛力深度剖析
- 學(xué)習(xí)統(tǒng)計學(xué)的有效策略試題及答案
- 廣州工商學(xué)院《視頻設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 亳州職業(yè)技術(shù)學(xué)院《文學(xué)作品》2023-2024學(xué)年第一學(xué)期期末試卷
- Unit 5 Amazing nature 課時教案 2024-2025學(xué)年外研版英語七年級下冊
- 2025標(biāo)準(zhǔn)版的房屋租賃合同
- 山東省青島市第十六中學(xué)2024-2025學(xué)年下學(xué)期初三期末考試仿真卷物理試題含解析
- 《人工智能技術(shù)基礎(chǔ)》課件-第六章 知識圖譜
- 2025年山東省濟南市市中區(qū)中考物理一模試卷(無答案)
- 商業(yè)秘密保護:內(nèi)外勾結(jié)型侵犯行為的司法認(rèn)定分析
- 2025年全國中小學(xué)生安全教育日專題
- 2025年電子設(shè)備裝接工崗位職業(yè)技能資格證考試題(附答案)
- 2025年河南航空港發(fā)展投資集團有限公司社會招聘45人筆試參考題庫附帶答案詳解
- 2025太陽能光熱發(fā)電站熔融鹽儲熱系統(tǒng)技術(shù)
- 2025年安陽職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案一套
- 2024年全國高考新課標(biāo)Ⅱ卷數(shù)學(xué)試題含答案解析
- 2025延長石油(集團)限責(zé)任公司社會招聘高頻重點提升(共500題)附帶答案詳解
- 2025年山東國際信托股份限公司社會招聘高頻重點提升(共500題)附帶答案詳解
評論
0/150
提交評論