下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、https:/檔案用戶數(shù)據(jù)分析引擎建設(shè)研究檔案用戶數(shù)據(jù)分析引擎建設(shè)研究摘要:本文提出了一個檔案用戶數(shù)據(jù)分析引擎的總體框架模型。在此基礎(chǔ)上,探討了實現(xiàn)與部署該模型應(yīng)進行的主要工作。集中對檔案用戶數(shù)據(jù)分析引擎的實現(xiàn)技術(shù)選擇以及典型功能的實現(xiàn)方案進行了論述,并對檔案用戶數(shù)據(jù)分析引擎的優(yōu)化問題及其配套制度建設(shè)進行了探討。關(guān)鍵詞:檔案用戶;分析引擎;協(xié)同過濾;檔案模型;推薦系統(tǒng)本文從分析用戶數(shù)據(jù)來提升檔案服務(wù)的目的出發(fā),立足于檔案館實踐需求和實際數(shù)據(jù)建設(shè)能力,提出一個檔案用戶數(shù)據(jù)分析引擎架構(gòu)模型方案。該方案的核心思想是,通過建立檔案館對用戶數(shù)據(jù)的分析機制,指導(dǎo)和促進自身服務(wù)的提升。1 檔案用戶數(shù)據(jù)分析引
2、擎模型本文所稱的檔案用戶數(shù)據(jù),是指用戶在利用檔案過程中所形成的反映檔案利用行為、利用主體及客體特征的數(shù)據(jù)。要實現(xiàn)通過關(guān)注檔案用戶數(shù)據(jù)促進檔案服務(wù)的提升,就要建立對這部分數(shù)據(jù)進行分析、知識抽取以及采取相應(yīng)行動的機制,這就是檔案用戶數(shù)據(jù)分析引擎。該分析引擎的意義在于,使得檔案部門可以利用對用戶行為數(shù)據(jù)分析的技術(shù)手段,將原本的“數(shù)據(jù)廢氣”1變廢為寶,為檔案部門的服務(wù)提升和管理進步提供了現(xiàn)實支持。為此,我們提出一個檔案用戶數(shù)據(jù)分析引擎模型,如圖 1 所示:圖 1 檔案用戶數(shù)據(jù)分析引擎模型該引擎總體上分為五個層次:存儲層、知識提取層、知識表示層、行為層和反饋層。其中存儲層主要負責(zé)實施對檔案用戶數(shù)據(jù)收集、
3、存儲和向上層調(diào)用控制。該層次中的檔案用戶數(shù)據(jù)收集模塊負責(zé)對檔案用戶特征、檔案利用行為、用戶對檔案評價等數(shù)據(jù)的收集,數(shù)據(jù)整理清洗模塊負責(zé)規(guī)整收集到的數(shù)據(jù)、消除數(shù)據(jù)噪聲等。隨后將收集到的數(shù)據(jù)存儲至檔案用戶數(shù)據(jù)庫中。隱私保護和密級保護規(guī)則模塊,負責(zé)防止數(shù)據(jù)向上層調(diào)用時違反隱私和保密規(guī)則。用戶滿意度是對分析引擎效能的最終極評價指標(biāo),用戶的反饋意見是引擎優(yōu)化的根本依據(jù)。因此本引擎在設(shè)計上設(shè)置了反饋層,用以收集檔案用戶對于引擎驅(qū)動的檔案服務(wù)提升的滿意度信息,根據(jù)用戶實際滿意度來調(diào)整和完善分析引擎的架構(gòu)與技術(shù)方案。2 檔案用戶數(shù)據(jù)分析引擎的實施與部署以上我們所提出的分析引擎,從概念模型的角度闡釋了引擎總體架
4、構(gòu)和所包含的功能。下面,我們結(jié)合當(dāng)前檔案館的實際,探討一下對該引擎進行實施和部署應(yīng)采取的幾方面工作措施:https:/2.3 結(jié)合自身情況實現(xiàn)分析引擎的具體功能。所提出的檔案用戶數(shù)據(jù)分析引擎所具有的實際功能包含很多種,每種功能面對檔案部門的實際環(huán)境也會具有不同的表現(xiàn)形式。因此,檔案部門可根據(jù)自身所面對的用戶群體與檔案資源狀況,應(yīng)用自身所選擇的引擎實現(xiàn)技術(shù),實現(xiàn)符合自身服務(wù)需要的分析引擎功能。例如,可以根據(jù)自身所面對用戶的身份特征信息,開展對檔案數(shù)據(jù)資源的個性化推薦;建立對檔案用戶屬性的多維分析資源庫;開發(fā)對檔案數(shù)據(jù)資源的輔助檢索系統(tǒng),應(yīng)對用戶檢索多樣化的應(yīng)用環(huán)境;為了防止檔案資源流失,通過異常
5、檢測分析潛在的不守信用用戶并進行預(yù)警;通過趨勢變動及預(yù)估來感知用戶對檔案需求或反饋意見的變化趨勢等。從總體講,這些具體功能的根本目的,就是為了將用戶數(shù)據(jù)驅(qū)動服務(wù)提升與管理進步的宗旨落到實處。2.4 建立與完善分析引擎的配套制度。對于檔案部門來說,信息技術(shù)要與配套制度相結(jié)合,才能實現(xiàn)檔案服務(wù)與管理的真正進步。用戶數(shù)據(jù)分析引擎在檔案館部署運行的過程中,檔案部門要制定有效的管理制度和使用規(guī)范,確保其發(fā)揮良好的作用。例如,應(yīng)研究建立檔案數(shù)據(jù)個性化推薦系統(tǒng)使用規(guī)則、用戶數(shù)據(jù)收集實施辦法、用戶數(shù)據(jù)安全性責(zé)任規(guī)范、用戶意見反饋收集實施辦法等。通過這一系列的工作制度和紀(jì)律規(guī)范,明確用戶數(shù)據(jù)分析引擎運行過程中檔
6、案工作人員的任務(wù)職責(zé),以制度的形式確保分析引擎的良好運行以及對檔案部門進步的促進作用。3 檔案用戶數(shù)據(jù)分析引擎實現(xiàn)技術(shù)選擇的探討協(xié)同過濾技術(shù)3的基本原理是基于最近鄰居的評分數(shù)據(jù)對目標(biāo)用戶產(chǎn)生推薦。協(xié)同過濾技術(shù)的核心是用戶 評分矩陣,用來表示用戶對每個項目的評價?;镜耐扑]步驟是用戶評價、最近鄰查找、推薦結(jié)果生成。項目的向量建模技術(shù)主要思想是,將目標(biāo)項目提取為特征向量,用于匹配計算等場景。這項技術(shù)的個性化程度較高,但其難點在于對推薦項目(如文檔)特征的提取,如文獻4中介紹了對于文本的特征提取公式等。而對于那些難以提取特征、準(zhǔn)確表達成向量形式的推薦項目(如音像檔案等)則較難應(yīng)用。考慮到目前我國檔案
7、館的現(xiàn)實數(shù)據(jù)分析需求、技術(shù)力量以及館藏資源特點,在此我們提出主要選擇協(xié)同過濾技術(shù)作為用戶分析引擎的實現(xiàn)技術(shù),并輔以向量建模技術(shù)以提高分析效果。基于本節(jié)的分析,以下我們闡述幾種分析引擎典型功能的技術(shù)實現(xiàn)方案。4 檔案用戶數(shù)據(jù)分析引擎若干典型功能技術(shù)方案4.1 檔案數(shù)據(jù)資源個性化推薦。當(dāng)前用戶對檔案資源的需求主要屬于因辦理某事務(wù)而對檔案資料的剛性需求。所以在實際應(yīng)用場景中,用戶的檔案需求往往在檔案類別上有共性、在具體文件上有個性,因此,我們提出如下的推薦方案:https:/對檔案用戶進行建模,采用向量形式描述用戶屬性集合。將檔案文件按照所屬全宗類別進行建模,每一類別作為協(xié)同過濾矩陣中的一個項目。根
8、據(jù)檔案利用數(shù)據(jù),建立“用戶屬性-檔案文件類別”二值觀測值矩陣,其中以 0、1 數(shù)值的形式記錄具有某屬性的用戶利用過某類檔案文件的情況。當(dāng)目標(biāo)用戶在檔案利用中輸入自身屬性信息,分析引擎的推薦引擎模塊即根據(jù)其屬性信息在用戶向量模型空間中計算查找最相似用戶,然后檢索這些最相似用戶在“用戶屬性-檔案文件類別”矩陣中利用過什么類別的檔案文件。將檢索到的文件類別(并集)與目標(biāo)用戶自身屬性相結(jié)合,在檔案系統(tǒng)數(shù)據(jù)庫中檢索到具體的檔案數(shù)據(jù)文件推薦給用戶。該方案實際上是對經(jīng)典協(xié)同過濾技術(shù)的一種變形,主要是將其“用戶-項目”矩陣變?yōu)椤坝脩魧傩?檔案文件類別”矩陣,并結(jié)合用戶屬性向量實施推薦。對于目標(biāo)用戶的最近鄰查找
9、是在用戶屬性向量模型空間中完成的,而推薦結(jié)果的生成則劃分為兩步:一是在矩陣中直接讀取最近鄰用戶的檔案文件類別,二是結(jié)合目標(biāo)用戶自身屬性檢索具體檔案文件。這種策略大大緩解了傳統(tǒng)協(xié)同過濾的稀疏性與冷啟動問題。更為重要的是,其更加適用于檔案領(lǐng)域的實際場景。4.2 檔案利用關(guān)聯(lián)分析。檔案利用關(guān)聯(lián)分析的目的是要揭示用戶屬性(如身份信息、利用目的等)與所利用檔案類別集合之間的關(guān)系。這種分析得出的結(jié)果主要有兩個方面的重要用途:一是為檔案館識別用戶、安排與優(yōu)化檔案資源提供決策依據(jù);二是為實現(xiàn)上述的檔案數(shù)據(jù)資源個性化提供建模支持。基于 4.1節(jié)中所提出的協(xié)同過濾矩陣,建立利用分析模型。重點是根據(jù)檔案館實際情況分
10、別建立檔案用戶模型與檔案資源類別模型。其中用戶模型的建模目的是將檔案用戶映射為不同的特征向量。例如,在檔案資源個性化推薦中,使得目標(biāo)用戶能通過模型映射找到與其特征相似近鄰用戶;而對于檔案項目的建模,目標(biāo)是使資源模型可以準(zhǔn)確刻畫檔案數(shù)據(jù)文件從屬于何種類別,該類別的劃分有助于揭示此類文件的共性,且有助于其與用戶屬性結(jié)合后準(zhǔn)確地直接檢索到用戶所需的具體文件。具體的建模策略實際可視為一個分類模型(classificationmodel)問題,即將“用戶屬性-檔案文件類別”二值觀測值矩陣中的每一行視為一個獨特狀態(tài)。檔案館通過分析總結(jié)檔案利用數(shù)據(jù)與館藏檔案類別,首先歸納得出若干不同的利用狀態(tài)(矩陣行),然
11、后利用分類模型技術(shù),將檔案用戶身份屬性信息映射到各自唯一對應(yīng)的檔案利用狀態(tài)(也就是分類決策樹的葉節(jié)點)。如圖 2 所示:圖 2 用戶利用檔案類別分析模型所建立的分類決策樹模型,每個葉節(jié)點應(yīng)對應(yīng)“用戶屬性-檔案文件類別”矩陣中的一行,決策樹中的每個非葉節(jié)點代表一個應(yīng)當(dāng)體現(xiàn)在用戶向量模型中的用戶屬性項目。從而以此指導(dǎo)建立檔案用戶向量模型。而之所以不將該決策樹直接用于推薦引擎,是因為決策樹模型往往存在誤差,且直接在樹上查詢至葉https:/節(jié)點也往往存在效率上的問題。因此,以協(xié)同過濾技術(shù)實現(xiàn)推薦服務(wù)可具有更好的容錯性和運行效率。在建立分類模型過程中,可以應(yīng)用諸如 C4.5 等5分類模型技術(shù),通過信息
12、增益率來確定用戶屬性項目的價值(即屬性選擇度量),這對于完善檔案用戶向量模型是一種直接而有效的方法。而建立分類模型需要訓(xùn)練集(trainingset)與檢驗集(testset)。對此可以將檔案館人員分析得出的用戶屬性-利用檔案文件類別數(shù)據(jù)集,分為訓(xùn)練集與檢驗集兩部分,前者建立決策樹,后者進行模型的驗證和完善。而且,這個過程在實踐中可以通過新得出的數(shù)據(jù)定期進行,以完善和優(yōu)化所建立的分類模型。4.3 檔案未命中檢索詞分析。用戶檢索檔案數(shù)據(jù)所使用的關(guān)鍵詞,體現(xiàn)出用戶對檔案資源的實際需求以及自身表達特點。若是用戶在檔案信息系統(tǒng)中經(jīng)過一系列嘗試后未檢索到所需的檔案文件,那么,檔案館應(yīng)該定期對這些“未命中
13、檢索關(guān)鍵詞”進行分析(通過操作日志等),找出檢索未命中的原因。該原因一般可歸結(jié)為三類:資源不存在、檢索詞筆誤、資源命名不匹配。在經(jīng)過認真分析確定原因后,檔案館應(yīng)分別采取如下的處理措施:對于資源不存在,應(yīng)在對檢索詞統(tǒng)計匯總后,研究加強今后的檔案資源建設(shè),調(diào)整所需檔案收集的項目,以使館藏檔案資源的擴充向用戶實際需求方向發(fā)展;對于檢索詞筆誤,可將用戶輸入有誤的檢索詞作為“規(guī)則”與其應(yīng)該命中的文件建立鏈接,今后系統(tǒng)再遇到該錯誤時,即可將正確的文件推送到用戶,增強檔案檢索系統(tǒng)的容錯性;對于資源命名不匹配問題,也可按照該方式,將用戶所用檢索詞與應(yīng)命中文件鏈接,增強檔案檢索系統(tǒng)的適應(yīng)性。在此提出的技術(shù)策略,
14、實際上是通過倒排文件的思想,來提升檔案信息系統(tǒng)檢索的智能化水平。5 檔案用戶數(shù)據(jù)分析引擎的優(yōu)化及制度建設(shè)任何成功的制度設(shè)計,都應(yīng)具備有效的自我完善機制。因此,我們提出的檔案用戶數(shù)據(jù)分析引擎設(shè)置了反饋層,用以收集分析引擎運行后用戶對檔案服務(wù)的滿意度和反饋意見等信息。以此為依據(jù),對分析引擎的功能、實現(xiàn)機制、技術(shù)方案等做出優(yōu)化調(diào)整。對于檔案數(shù)據(jù)分析引擎的配套制度建設(shè),目前我們應(yīng)該重點關(guān)注兩點:一是有效收集檔案用戶數(shù)據(jù)的問題,二是對系統(tǒng)中檔案用戶隱私保護問題。對于有效收集檔案用戶數(shù)據(jù)的問題,檔案用戶數(shù)據(jù)的主要內(nèi)容包括對檔案利用行為的數(shù)據(jù)、檔案用戶自身屬性的數(shù)據(jù)、所利用檔案具有屬性的數(shù)據(jù)三個主要的部分。
15、對于它們的收集要本著準(zhǔn)確、及時、全面的原則,因為它們是整個檔案用戶數(shù)據(jù)分析引擎運行的基石。對于檔案利用行為數(shù)據(jù),在數(shù)字化檔案館條件下,可基于檔案信息系統(tǒng)自動完成。檔案部門也可對以往檔案利用登記數(shù)據(jù)進行匯總,獲得更為全面的利用規(guī)律。對于檔案具有屬性的數(shù)據(jù),應(yīng)基于檔案元數(shù)據(jù)來獲得,這就要求檔案部門今后要更加重視檔案元數(shù)據(jù)的收集、存儲和利用。https:/對于檔案用戶自身屬性的數(shù)據(jù),相關(guān)研究中6亦稱為用戶人口統(tǒng)計信息(DemographicInformation)等。對于其的收集,檔案部門首先是調(diào)查搞清:哪些信息項目對于分析引擎的功能是需要的,要收集加以考慮,而哪些信息項目不重要,不可盲目收集。另外
16、還要注意哪些是用戶“最不愿意填寫”的信息項目,這些項目用戶要么就不會提供、要么即使填寫也是不真實的信息,從而影響引擎的分析功能正常發(fā)揮。對此,檔案館要充分地向用戶宣傳與溝通,積極促進用戶提供自身真實有效的屬性信息。例如,4.2 節(jié)中所提出的分類模型,其在建模過程中就會逐步篩選出對于分析有意義的用戶屬性項目,因此在實踐中應(yīng)對用戶的這些屬性加以重點收集、確保其正確和真實,這就意味著檔案部門要通過有效的策略鼓勵用戶提供這些信息項目的真實信息。對于分析引擎中用戶隱私保護問題,當(dāng)前相關(guān)研究中7提出了一系列的用戶隱私保護措施,如收集主體的合法性、隱私管理者的保密及忠實義務(wù)、貫徹落實相關(guān)的法律規(guī)定等,在分析引擎實際運行中可以參照這些措施對用戶的信息實施保護。這實際與有效收集用戶屬性信息問題是相輔相成的,只有用戶的信息受到良好的保護
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 關(guān)于撫養(yǎng)權(quán)的離婚協(xié)議
- 2.3《林黛玉進賈府》【中職專用】高一語文(高教版2023基礎(chǔ)模塊上冊)
- 湖南省郴州市第六中學(xué)觀山學(xué)校2023-2024學(xué)年七年級上學(xué)期第三次月考生物試題(原卷版)-A4
- 2023年地震數(shù)據(jù)采集系統(tǒng)項目籌資方案
- PEP人教版小學(xué)六年級上冊Unit6 How do you feel B Lets try Lets talk
- 《知識與個人知識》課件
- 電工(初級工)測試題及參考答案
- 山東省濟寧市微山縣2023-2024學(xué)年八年級上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 養(yǎng)老院老人入住資料制度
- 養(yǎng)老院老人安全管理制度
- 空氣動力學(xué)數(shù)值方法:有限體積法(FVM):高精度FVM算法
- 2024年人教版初一生物(上冊)期末試卷及答案(各版本)
- 2024年秋新北師大版七年級上冊數(shù)學(xué)教學(xué)課件 第六章 3 數(shù)據(jù)的表示 第3課時 統(tǒng)計圖的選擇
- 胰島素注射操作并發(fā)癥的預(yù)防及處理
- (新版)管道工(初級)職業(yè)鑒定考試題庫(含答案)
- 大話機器人智慧樹知到期末考試答案章節(jié)答案2024年青海大學(xué)
- 含新能源發(fā)電接入的電力系統(tǒng)低頻振蕩阻尼控制研究綜述
- 2024年全國甲卷高考數(shù)學(xué)(理數(shù))真題試題(原卷版+含解析)
- 電大建筑材料(A)歷年試題和答案(精)請勿轉(zhuǎn)載
- 貴州省遵義市播州區(qū)2023-2024學(xué)年八年級上學(xué)期期末學(xué)業(yè)水平監(jiān)測數(shù)學(xué)試卷(含解析)
- 實驗室生物安全試題及參考答案
評論
0/150
提交評論