大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)研究_第1頁
大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)研究_第2頁
大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)研究_第3頁
大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)研究_第4頁
大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)研究_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)研究 主雪梅 楊洪秀 魏榮華 許雅涵摘 要: 圖書館用戶信息挖掘是提升圖書館管理效率,實(shí)現(xiàn)高質(zhì)量用戶管理與用戶服務(wù)的有效方法。文中研究大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù),構(gòu)建圖書館用戶信息挖掘技術(shù)結(jié)構(gòu)體系。數(shù)據(jù)層包括用戶基本信息、圖書借閱歷史數(shù)據(jù)、圖書信息咨詢記錄等,采用降噪處理、遺漏數(shù)據(jù)處理等方式預(yù)處理用戶信息數(shù)據(jù);云計(jì)算層基于計(jì)算資源與存儲(chǔ)資源,采用K?means聚類算法從用戶借閱情況和用戶興趣類型兩方面劃分圖書館用戶群體類型,依照劃分后的用戶借閱信息采用蟻群規(guī)則挖掘算法,獲取用戶信息關(guān)聯(lián)規(guī)則,形成規(guī)則庫;應(yīng)用層依照云計(jì)算層的挖掘

2、結(jié)果執(zhí)行個(gè)性化推薦。用戶信息挖掘結(jié)果顯示,所研究技術(shù)能有效挖掘圖書館用戶興趣類型,以及用戶群體信息和時(shí)間序列信息。Key: 圖書館用戶; 信息挖掘; 云計(jì)算; 大數(shù)據(jù)環(huán)境; 用戶分類; 個(gè)性化推薦: TN911.2?34; TP391.4 : A : 1004?373X(2020)06?0168?03Research on library user information mining technology based on cloud computing in large data environmentZHU Xuemei1, YANG Hongxiu2, WEI Ronghua1, XU

3、 Yahan1(1. Hebei University of Water Resources and Electric Engineering, Cangzhou 061001, China; 2. Cangzhou Normal University, Cangzhou 061001, China)Abstract: Library user information mining is an effective method to promote library management efficiency, and realize high quality user management a

4、nd user service. The library user information mining technology based on cloud computing in the big data environment is researched to build the structural system of the library user information mining technology. The data layer of the system includes users basic information, book borrowing historica

5、l data, book information consultation records and so on. The user information data is preprocessed with the modes of noise reduction processing and missing data processing. The cloud computing layer is based on computing resource and storage resource, in which the type of library user groups are div

6、ided into two aspects of users borrowing situation and usersinterest type by means of the k?means clustering algorithm. According to the divided users borrowing information, the association rules of user information are obtained to form the rule base by means of the colony rule mining algorithm. The

7、 personalized recommendation is performed by the application layer on the basis of the mining results of the cloud computing layer. The mining results of user information show that the researched technology can effectively mine the interest types of library users, user group information and time ser

8、ies information.Keywords: library user; information mining; cloud computing; big data environment; user classification; personalized recommendation0 引 言近年來,圖書館發(fā)展迅速,海量信息數(shù)據(jù)被存儲(chǔ)在圖書館管理系統(tǒng)內(nèi)1。在圖書館管理中,用戶管理與用戶服務(wù)始終是管理的核心內(nèi)容,通過圖書館用戶信息挖掘可研究圖書館用戶群體的特征與關(guān)系2、增強(qiáng)圖書館對圖書館用戶的吸引力、提升圖書館管理的效率3,是高質(zhì)量的用戶管理與用戶服務(wù)的基礎(chǔ)之一。為提升圖書館管理效率,

9、實(shí)現(xiàn)高質(zhì)量用戶管理與用戶服務(wù),研究大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)。云計(jì)算平臺(tái)為大數(shù)據(jù)環(huán)境下圖書館用戶信息數(shù)據(jù)特征分析和挖掘提供良好平臺(tái),其具有高效布置動(dòng)態(tài)資源、依照用戶需求實(shí)時(shí)計(jì)算與儲(chǔ)存等功能4。實(shí)驗(yàn)結(jié)果顯示,本文方法可有效挖掘出用戶群體信息和時(shí)間序列信息,可為圖書館大數(shù)據(jù)用戶信息特征挖掘提供有效手段,具有較好的應(yīng)用前景。1 圖書館用戶信息挖掘技術(shù)研究1.1 圖書館用戶信息挖掘技術(shù)結(jié)構(gòu)體系大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)結(jié)構(gòu)體系分為三個(gè)層次,分別是數(shù)據(jù)層、云計(jì)算層和應(yīng)用層。數(shù)據(jù)層作用是獲取用戶信息的數(shù)據(jù)來源,主要基于圖書館管理系統(tǒng)、OPAC(開放的公共查詢目錄)檢

10、索用戶信息,并利用ODBC(開放數(shù)據(jù)庫互連)或其他數(shù)據(jù)庫接口獲取圖書館用戶信息5;云計(jì)算層基于計(jì)算資源與存儲(chǔ)資源,對預(yù)處理后的圖書館用戶信息采用決策樹、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、聚類、貝葉斯分類和回歸等數(shù)據(jù)挖掘算法完成圖書館用戶信息挖掘6;應(yīng)用層依照圖書館用戶信息挖掘結(jié)果執(zhí)行個(gè)性化推薦、學(xué)科化服務(wù)及館藏資源布局與建設(shè)等相關(guān)管理。1.2 基于聚類的圖書館用戶群體劃分1.2.1 借閱情況聚類挖掘從圖書館管理過程中可發(fā)現(xiàn):部分用戶對于圖書館的借閱需求較高,相比之下還有部分用戶對圖書館不存在借閱需求7。根據(jù)圖書館用戶借閱情況,采用聚類算法將圖書館用戶劃分為有所差異的組別。一個(gè)組別內(nèi),用戶的書籍借閱分類大體一

11、致,各組別之間用戶的借閱書籍分類差異較為顯著。借閱情況可反應(yīng)用戶借閱頻率,采用K?means聚類算法挖掘圖書館用戶借閱情況過程描述如下:將聚類數(shù)K的取值范圍設(shè)定為2,8,分別確定圖書館用戶劃分對應(yīng)的聚類情況,由此得到K取值越小簇涵蓋范圍越大,個(gè)別簇內(nèi)數(shù)據(jù)達(dá)到總數(shù)據(jù)的70%以上,由此得到的聚類結(jié)果無效;K取值越大統(tǒng)計(jì)數(shù)據(jù)精度越低,簇內(nèi)整體反應(yīng)精度差,圖書館用戶類型劃分較為分散,降低后續(xù)關(guān)聯(lián)規(guī)則可操作性。經(jīng)過調(diào)整K值,將K值確定為3,也就是將圖書館用戶劃分為3個(gè)大類。1.2.2 興趣類型聚類挖掘根據(jù)讀者興趣類型聚類挖掘的過程如下:在數(shù)據(jù)層內(nèi)采集用戶ID、用戶類別以及用戶所屬科院等用戶信息;聚類用戶

12、信息時(shí)重復(fù)調(diào)整K值,獲取最優(yōu)聚類數(shù)為7個(gè)大類。依照有所差異的借閱信息將圖書館用戶劃分成不同的類別,且相同類別內(nèi)用戶借閱信息相似。在用戶信息聚類結(jié)果的基礎(chǔ)上,獲取各類別中詳細(xì)的書籍借閱信息,依照這些被劃分后的用戶借閱信息采用關(guān)聯(lián)挖掘技術(shù),獲取關(guān)聯(lián)規(guī)則,形成規(guī)則庫,以便完成館藏資源布局與建設(shè)等相關(guān)管理,并向讀者提供個(gè)性化推薦服務(wù)8。1.3 關(guān)聯(lián)規(guī)則挖掘算法利用蟻群規(guī)則挖掘算法挖據(jù)圖書館用戶信息關(guān)聯(lián)規(guī)則構(gòu)造一條路徑9。路徑選擇過程中,螞蟻以一條空規(guī)則為基礎(chǔ)構(gòu)建圖書館用戶信息規(guī)則庫,構(gòu)建過程中每次在規(guī)則庫內(nèi)增設(shè)一個(gè)term,各term均為螞蟻所選擇的路徑。下一個(gè)增設(shè)的term為螞蟻下一條選擇路徑,螞蟻

13、持續(xù)在規(guī)則庫內(nèi)增設(shè)term。當(dāng)規(guī)則庫內(nèi)包含全部的圖書館用戶信息屬性,或增設(shè)一個(gè)新的term導(dǎo)致規(guī)則所包含的用戶信息低于預(yù)先設(shè)定的各規(guī)則包含用戶信息最小值時(shí),增設(shè)term工作結(jié)束。螞蟻依照當(dāng)前路徑的啟發(fā)函數(shù)和路徑上信息素值10選取下一條路徑,一個(gè)termij被選為當(dāng)前規(guī)則的概率為:式中:?ij和ijt分別表示termij個(gè)啟發(fā)函數(shù)值和termij上的信息素值;a表示屬性i應(yīng)用的屬性數(shù)量;bi表示屬性j數(shù)量;I表示屬性i的整體屬性數(shù)量;H表示類別約束參數(shù)。用戶Tij選擇圖書時(shí),用戶信息挖掘結(jié)果OTij表達(dá)式如下:式中,freq Twij和Tij分別表示保護(hù)類別為w的用戶信息的數(shù)量和用戶Tij在圖書

14、館用戶信息的數(shù)量。2 結(jié)果分析實(shí)驗(yàn)為驗(yàn)證本文研究的大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù)的挖掘性能,以某高校圖書館為實(shí)驗(yàn)對象,采用本文挖掘技術(shù),從圖書館用戶興趣類型關(guān)聯(lián)規(guī)則挖掘結(jié)果、用戶群體信息挖掘結(jié)果和時(shí)間序列信息結(jié)果三方面挖掘?qū)嶒?yàn)對象用戶信息。2.1 用戶興趣類型關(guān)聯(lián)規(guī)則挖掘結(jié)果采用本文技術(shù)挖掘?qū)嶒?yàn)對象用戶興趣類型聚類結(jié)果中的關(guān)聯(lián)規(guī)則,得到的結(jié)果如圖1所示。由關(guān)聯(lián)規(guī)則挖掘結(jié)果得到,采用本文技術(shù)能夠有效挖掘圖書館用戶興趣類型,可根據(jù)當(dāng)前用戶數(shù)據(jù)借閱信息,挖掘出符合用戶興趣偏好的書籍,實(shí)現(xiàn)個(gè)性化推薦功能。2.2 用戶群體信息挖掘結(jié)果在挖掘高校圖書館用戶信息時(shí),專業(yè)素養(yǎng)的高低是影響用戶借

15、閱的主要因素之一。通常用戶借閱圖書的類型、數(shù)量受用戶專業(yè)素養(yǎng)與學(xué)歷水平影響較為顯著。根據(jù)當(dāng)前教學(xué)體制結(jié)構(gòu),可從學(xué)歷上將高校在校人員分為教師群體、研究生群體和本科生群體。針對這三類群體進(jìn)行實(shí)驗(yàn)對象用戶信息挖掘,在2018年理科學(xué)院到圖書館借閱圖書的不同類型圖書館用戶如表 1所示。根據(jù)圖書館用戶群體信息挖掘結(jié)果得到,在總圖書借閱人數(shù)中,本科生群體是圖書借閱的主要群體,借閱人數(shù)達(dá)到80.29%;教師群體在圖書借閱人數(shù)中所占比例僅為1.12%。對比平均借閱量得到,本科生群體平均借閱量最低,教師群體平均借閱量最高,兩個(gè)群體的平均借閱量分別為9.36本和13.29本。實(shí)驗(yàn)結(jié)果表明本文技術(shù)能夠有效挖掘?qū)嶒?yàn)對

16、象用戶群體信息。2.3 時(shí)間序列信息挖掘結(jié)果圖2為用戶時(shí)間序列信息挖掘結(jié)果。根據(jù)用戶時(shí)間序列挖掘結(jié)果可得不同學(xué)院2018年圖書館用戶在借閱圖書的時(shí)間特征。從整體上對比兩個(gè)不同科類學(xué)院用戶圖書借閱特征大致相同:每年圖書借閱量最高的月份和最低的月份分別是3月、9月和7月、8月;理科學(xué)院用戶借閱量最高值和最低值分別為1 916本和270本;文科學(xué)院用戶借閱量最高值和最低值分別為7 481本和1 093本。每年的3月和9月均為學(xué)校開學(xué)月,而7月和8月則為學(xué)校放假時(shí)間。由上述分析可知,不同學(xué)科用戶圖書借閱信息存在共性特征,即開學(xué)月為圖書借閱的高峰期,放假月為圖書借閱的低潮期。文科學(xué)院5月份的借閱量呈現(xiàn)出

17、一個(gè)小高峰主要原因在于該月中安排了每年本科大四學(xué)生的畢業(yè)答辯,此時(shí)以學(xué)術(shù)類文獻(xiàn)為用戶圖書借閱的主要類型。每年的7月和8月是圖書借閱量最低的月份,主要原因是這兩個(gè)月為學(xué)校暑假放假階段,雖然2月份也為寒假放假期間,但相比之下,7月和8月圖書借閱量低于2月份圖書借閱量,主要原因是7月和8月,本科大四學(xué)生畢業(yè)離校,圖書館用戶相對降低。除上述分析月份外的其他月份中圖書館用戶借閱量表現(xiàn)為無規(guī)律變化狀態(tài)。結(jié)果表明,本文技術(shù)挖掘的實(shí)驗(yàn)對象用戶時(shí)間序列信息與實(shí)際情況對應(yīng),驗(yàn)證了本文技術(shù)挖掘圖書館用戶信息的準(zhǔn)確性。3 結(jié) 論本文研究大數(shù)據(jù)環(huán)境下基于云計(jì)算的圖書館用戶信息挖掘技術(shù),構(gòu)建圖書館用戶信息挖掘技術(shù)結(jié)構(gòu)體系

18、,由數(shù)據(jù)層、云計(jì)算層和應(yīng)用層構(gòu)成。其中云計(jì)算層采用K?means聚類算法劃分圖書館用戶群體,在聚類結(jié)果的基礎(chǔ)上采用蟻群規(guī)則挖掘算法實(shí)現(xiàn)圖書館用戶信息關(guān)聯(lián)規(guī)則挖掘。用戶信息挖掘結(jié)果顯示本文技術(shù)能夠有效挖掘圖書館用戶信息,實(shí)現(xiàn)個(gè)性化推薦功能。Reference1 季忠洋,李北偉,朱婧祎.智慧圖書館用戶使用行為影響因素研究J.圖書館,2018(12):21?25.2 王欣,張冬梅,閆鳳云,等.大數(shù)據(jù)環(huán)境下基于科研用戶小數(shù)據(jù)的圖書館個(gè)性化科研服務(wù)研究J.情報(bào)理論與實(shí)踐,2017,40(10):85?90.3 王捷.基于用戶行為數(shù)據(jù)分析的高校圖書館信息服務(wù)平臺(tái)研究J.現(xiàn)代情報(bào),2017,37(1):128?131.4 申琢.基于云計(jì)算和大數(shù)據(jù)挖掘的礦山事故預(yù)警系統(tǒng)研究與設(shè)計(jì)J.中國煤炭,2017,43(12):109?114.5 張穩(wěn),羅可.一種基于Spark框架的并行FP?Growth挖掘算法J.計(jì)算機(jī)工程與科學(xué),2017,39(8):1403?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論