Web日志挖掘在網(wǎng)絡(luò)遠程教學中的應(yīng)用_第1頁
Web日志挖掘在網(wǎng)絡(luò)遠程教學中的應(yīng)用_第2頁
Web日志挖掘在網(wǎng)絡(luò)遠程教學中的應(yīng)用_第3頁
Web日志挖掘在網(wǎng)絡(luò)遠程教學中的應(yīng)用_第4頁
Web日志挖掘在網(wǎng)絡(luò)遠程教學中的應(yīng)用_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Web日志挖掘在網(wǎng)絡(luò)遠程教學中的應(yīng)用摘要隨著現(xiàn)代信息技術(shù)在遠程教育中越來越廣泛的應(yīng)用,網(wǎng)絡(luò)遠程教育模式正逐步成為遠程教育的主流。本文對eb日志挖掘在遠程教育強中應(yīng)用流程進行了研究探討,從而更好地指導(dǎo)了遠程教育實踐。關(guān)鍵詞eb挖掘;eb日志;遠程教學在網(wǎng)絡(luò)遠程教育模式下,學生學習的過程就是在遠程教育網(wǎng)站頁面中跳轉(zhuǎn)活動的過程,他們的每個活動都是對教學網(wǎng)站上的一個頁面對象的點擊操作,這些點擊操作都能被完整地記錄在系統(tǒng)日志中,通過對日志的分析挖掘,可以找出學生行為模式;在另一方面,遠程教育網(wǎng)站的結(jié)構(gòu)組織是不是符合學生和教師學習和教學的規(guī)律,通過對網(wǎng)站日志的分析也可以得到。所有這些都離不開數(shù)據(jù)挖掘技術(shù),

2、本文就是通過對遠程教育eb服務(wù)器日志文件進行分析,從而進一步指導(dǎo)網(wǎng)站建設(shè)。eb挖掘是針對包括eb頁面內(nèi)容,頁面之間的結(jié)構(gòu),用戶訪問信息等在內(nèi)的各種eb數(shù)據(jù)源。在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的隱含的知識的過程。eb挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有其自身的特點。eb本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的數(shù)據(jù),缺乏機器可理解的語義,eb挖掘的對象是大量,異質(zhì),分布的eb文檔,對eb服務(wù)器上的日志、用戶信息等數(shù)據(jù)所開展的挖掘工作也屬于eb數(shù)據(jù)挖掘的范疇。eb信息的多樣性決定了挖掘任務(wù)的多樣性。按照eb處理對象的不同,一般將eb挖掘分為3類:eb內(nèi)容挖掘,eb結(jié)構(gòu)挖掘和eb使用記錄挖掘(如圖1所示),針對這3種不

3、同的處理對象,能夠挖掘出許多有用的信息。圖1eb挖掘分類2.1eb內(nèi)容挖掘eb內(nèi)容挖掘是指從文檔的內(nèi)容中提取知識。eb內(nèi)容挖掘又分為文本挖掘和多媒體挖掘。目前多媒體數(shù)據(jù)的挖掘研究還處于探索階段,eb文本挖掘已經(jīng)有了比較實用的功能。eb文本挖掘可以對eb上大量文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用eb文檔進行趨勢預(yù)測等。eb文檔中的標記,例如Title和Heading等蘊含了額外的信息,可以利用這些信息來加強eb文本挖掘的作用。2.2eb結(jié)構(gòu)挖掘eb結(jié)構(gòu)挖掘是從eb的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。它不僅僅局限于文檔之間的超鏈接結(jié)構(gòu),還包括文檔內(nèi)部的結(jié)構(gòu)。文檔中的URL目錄路徑的結(jié)

4、構(gòu)等。eb結(jié)構(gòu)挖掘能夠利用網(wǎng)頁間的超鏈接信息對搜索引擎的檢索結(jié)果進行相關(guān)度排序,尋找個人主頁和相似網(wǎng)頁,提高eb搜索蜘蛛在網(wǎng)上的爬行效率,沿著超鏈接優(yōu)先爬行。eb結(jié)構(gòu)挖掘還可以用于對eb頁進行分類、預(yù)測用戶的eb鏈接使用及eb鏈接屬性的可視化。對各個商業(yè)搜索引擎索引用的頁數(shù)量進行統(tǒng)計分析等。2.3eb使用記錄挖掘eb使用記錄挖掘是指從eb的使用記錄中提取感興趣的模式,目前eb使用記錄挖掘方面的研究較多,中的每個服務(wù)器都保留了訪問日志,記錄了關(guān)于用戶訪問和交互的信息,可以通過分析和研究eb日志記錄中的規(guī)律,來識別網(wǎng)站的潛在用戶1;可以用基于擴展有向樹模型來識別用戶瀏覽序列模式,從而進行eb日志挖

5、掘;可以根據(jù)用戶訪問的eb記錄挖掘用戶的興趣關(guān)聯(lián)規(guī)則,存放在興趣關(guān)聯(lián)知識庫中,作為對用戶行為進行預(yù)測的依據(jù),從而為用戶預(yù)取一些eb頁面,加快用戶獲取頁面的速度,分析這些數(shù)據(jù)還可以幫助理解用戶的行為,從而改進站點的結(jié)構(gòu),或為用戶提供個性化的服務(wù)。3eb日志挖掘步驟eb日志挖掘流程如圖2所示:圖2eb日志挖掘流程3.1eb日志記錄的主要內(nèi)容eb服務(wù)器日志記錄用戶訪問該教學網(wǎng)站時每個頁面的請求信息。3.2數(shù)據(jù)預(yù)處理eb日志挖掘首先要對日志中的原始數(shù)據(jù)進行預(yù)處理,包括依賴于域的數(shù)據(jù)凈化、用戶識別、會話識別和路徑補充等。預(yù)處理過程是保證eb日志挖掘質(zhì)量的關(guān)鍵步驟。(1)數(shù)據(jù)凈化。指刪除eb服務(wù)器日志中與

6、挖掘算法無關(guān)的數(shù)據(jù)。大多數(shù)情況,只有日志中HTL文件與用戶會話相關(guān),所以通過檢查URL的后綴刪除認為不相關(guān)的數(shù)據(jù)。例如,對于一個主要包含圖形文檔的站點,此時就不能將圖形文件刪除,而是自定義一套規(guī)則將它對應(yīng)到一定的HTL文件,這樣就不會將一些重要的用戶會話丟失。(2)識別用戶。由于本地緩存、代理服務(wù)器和防火墻的存在,使得識別用戶的任務(wù)變得很復(fù)雜。一般最常被eb日志挖掘工具使用的技術(shù)就是基于日志/站點的方法,例如可以使用了一些啟發(fā)式規(guī)則幫助識別用戶。1)如果IP地址相同,但是日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,則認為不同的代理表示不同的用戶。2)將日志和網(wǎng)站拓撲結(jié)構(gòu)結(jié)合,構(gòu)造用戶的瀏覽路徑。如

7、果當前請求的頁面同用戶已瀏覽的頁面間沒有鏈接關(guān)系,則認為存在IP地址相同的多個用戶。(3)識別用戶會話。用戶會話是指用戶對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面。我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。日志文件中不同的頁面當然屬于不同的會話。當用戶的頁面請求在時間上跨度較大時,就可能是該用戶多次訪問同一個網(wǎng)站。這里可以利用超時,如果兩頁間請求時間的差值超過一定界限就認為用戶開始了一個新的會話。(4)識別片段。在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄.這就是路徑補充所做的工作,解決的方法類似于用戶識別中的方法。如果當前請求頁與用戶上一次請求頁之間沒有超文

8、本鏈接,那么用戶很可能使用了瀏覽器上的“BAK”按鈕調(diào)用緩存在本機中的頁面。檢查引用日志確定當前請求來自哪一頁,如果在用戶的歷史訪問記錄上有多個頁面都包含與當前請求頁的鏈接,則將請求時間最接近當前請求頁的頁面作為當前請求的來源。若引用日志不完整,可以使用站點的拓撲結(jié)構(gòu)代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。3.3模式發(fā)現(xiàn)模式發(fā)現(xiàn)是運用各種算法和技術(shù)對預(yù)處理后的數(shù)據(jù)進行挖掘,生成模式。這些技術(shù)包括人工智能、數(shù)據(jù)挖掘、統(tǒng)計理論、信息論等多領(lǐng)域的成熟技術(shù)??梢赃\用數(shù)據(jù)挖掘中的常用技術(shù)如路徑分析,關(guān)聯(lián)規(guī)則、序列模式以及分類聚類等等。3.4模式分析該階段實現(xiàn)對用戶訪問模式的分析,基本作

9、用是排除模式發(fā)現(xiàn)中沒有價值的規(guī)則模式,從而將有價值的模式提取出來。ebining指在上挖掘有趣的、潛在的、有用的模式和信息的過程。其主要目標則是從eb網(wǎng)站的訪問日志記錄中獲取感興趣的模式,每個eb服務(wù)器都能有訪問日志文件,它記錄了訪問者的訪問和交互的信息。通過分析這些數(shù)據(jù)可以幫助網(wǎng)站管理者理解用戶的行為和eb結(jié)構(gòu),了解用戶的瀏覽習慣,調(diào)整從而改進站點的設(shè)計。4.1eb日志信息對于一個特定的網(wǎng)絡(luò)遠程教學網(wǎng)站來說,其拓撲結(jié)構(gòu)是已知的,雖然不同的學習者可能有不同的訪問瀏覽模式,但從長期統(tǒng)計趨勢上說他們是穩(wěn)定的,所以經(jīng)過一段時間后會在網(wǎng)站上積累大量有用的信息(如用戶的訪問日志、注冊信息、需求信息、定單

10、信息、交流信息等),如果不加以有效利用,會造成了資源的極大浪費。如果采用ebining技術(shù)就可以充分利用這些有用信息,從而建立一個集智能化與個性化為一體的遠程教學平臺。這些數(shù)據(jù)信息包含在以下幾種類型的日志文件中。Serverlg:格式如下:域描述日期用戶請求頁面的日期時間用戶請求頁面的具體時間用戶IP客戶端主機IP地址或DNS入口用戶名客戶端的用戶名字節(jié)數(shù)傳輸?shù)淖止?jié)數(shù)(發(fā)送或接受)服務(wù)器名服務(wù)器名稱、IP地址和端口號方法用戶請求的方法協(xié)議狀態(tài)返回HTTP的狀態(tài)標識URL用戶請求的頁面所花時間完成瀏覽所花時間協(xié)議版本傳輸所用的協(xié)議版本用戶代理服務(wù)器提供kiekie標志號參照用戶瀏覽的上一面表1服

11、務(wù)器日志文件中的數(shù)據(jù)格式Errrlg:存取請求失敗的數(shù)據(jù),如:丟失連接,授權(quán)失敗,或超時。kie:由ebserver產(chǎn)生的記號并由客戶端持有,用于表示學習者和學習者的會話,kie是一種標記,用于自動標記和跟蹤站點的訪問者。4.2網(wǎng)絡(luò)遠程教學網(wǎng)站eb日志挖掘數(shù)據(jù)的預(yù)處理從學習者的訪問日志中得到的原始日志記錄并不適于挖掘,必須進行適當?shù)奶幚聿拍苓M行挖掘。因此,需要通過日志清理,去除無用的記錄;對于某些記錄,我們還需要通過站點結(jié)構(gòu)信息,把URL路徑補充成完整的訪問序列;然后劃分學習者,并把學習者的會話劃分成多個事務(wù)。4.3網(wǎng)絡(luò)遠程教學網(wǎng)站eb日志數(shù)據(jù)挖掘的模式發(fā)現(xiàn)一旦學習者會話和事務(wù)識別完成,就可以

12、采用下面的技術(shù)進行模式發(fā)現(xiàn)。路徑分析它可以被用于判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關(guān)路徑的信息通過路徑分析可以得出。例如:70%的學習者在訪問/E-Business/2時,是從/EB開始,經(jīng)過/E-Business/SipleDesriptin,/E-Business/1;65%的學習者在瀏覽4個或更少的頁面內(nèi)容后就離開了。利用這些信息就可以改進站點的設(shè)計結(jié)構(gòu)。關(guān)聯(lián)規(guī)則使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可以從eb的訪問事務(wù)中找到如下的相關(guān)性:40%的學習者訪問頁面/E-Business/2時,也訪問了/E-Business/7;30%的用戶在訪/E-Business/SipleDesrip

13、tin時,同時也訪問了/E-Business/referene。利用這些相關(guān)性,可以更好的組織站點的eb空間,實行有效的教學策略。序列模式在時間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指那些如“一些項跟隨另一個項”這樣的內(nèi)部事務(wù)模式。例如:在訪問/E-Business/2的用戶中,有80%的人曾在過去的一個星期里用關(guān)鍵字“液晶顯示器”在baidu上作過查詢。發(fā)現(xiàn)序列模式,能夠便于預(yù)測學習者的訪問模式,有助于針對這種模式,開展有針對性的教學。分類和聚類發(fā)現(xiàn)分類規(guī)則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用于分類學習者。例如:在/E-Business/4學習過的學習者中有40是20左右的

14、女大學生。聚類分析可以從eb訪問信息數(shù)據(jù)中聚類出具有相似特性的學習者。在eb事務(wù)日志中,聚類學習者信息或數(shù)據(jù)項能夠便于開發(fā)和設(shè)計未來的教學模式和學習群體。4.4網(wǎng)絡(luò)遠程教學網(wǎng)站中eb日志數(shù)據(jù)挖掘的模式分析模式分析是eb日志挖掘中最后一項重要步驟。其通過選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值轉(zhuǎn)換為知識,再經(jīng)過模式分析得到有價值的模式,即我們感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。進一步的工作我們可以將eb訪問日志的挖掘和其他的eb內(nèi)容和eb鏈接結(jié)構(gòu)挖掘結(jié)合起來用于eb頁面的等級劃分、eb文檔的分類和多層次eb信息庫的構(gòu)造等方面,總之對eb數(shù)據(jù)進行進一步的數(shù)據(jù)挖掘是非常有意義的。當然,數(shù)據(jù)挖掘所帶來的好處,是與用戶的需求及數(shù)據(jù)挖掘技術(shù)本身的發(fā)展相關(guān)的。在充分了解學習者的愛好、需求的基礎(chǔ)上。利用各種eb挖掘技術(shù),設(shè)計出能滿足不同用戶群體需

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論