版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文本數(shù)據(jù)挖掘教學大綱課程名稱:文本數(shù)據(jù)挖掘學分:2總學時:32理論學時:24 實驗學時:8先修課程:數(shù)據(jù)庫原理與應用、Python高級語言編程、數(shù)據(jù)結構適用專業(yè):數(shù)據(jù)工程專業(yè)開課學期:第六學期01課程性質、定位和教學目標課程性質:文本數(shù)據(jù)挖掘是數(shù)據(jù)工程專業(yè)的必修課程,本課程以文本數(shù)據(jù)挖掘為主要內容,講述實現(xiàn)文本數(shù)據(jù)挖掘的各主要功能、挖掘算法和應用,并通過對實際數(shù)據(jù)的分析更加深入地理解常用的文本數(shù)據(jù)挖掘模型。課程定位:“文本數(shù)據(jù)挖掘技術導論”是針對數(shù)據(jù)工程專業(yè)的專業(yè)技術課程,同時也是該專業(yè)的核心課程,也是本專業(yè)創(chuàng)業(yè)創(chuàng)新教育課程。在學生專業(yè)培養(yǎng)中起到至關重要的作用。教學目標:通過“文本數(shù)據(jù)挖掘技術導論”課程的教學,使學生理解文本數(shù)據(jù)挖掘的基本概念和方法,學習和掌握中的文本數(shù)據(jù)挖掘的經典方法。使學生能夠借助Python高級語言編程工具進行具體文本數(shù)據(jù)的挖掘分析。02教學內容與要求第一章緒論【教學目的與要求】了解文本挖掘研究背景、意義及國內外研究現(xiàn)狀,掌握文本挖掘的概念,了解文本挖掘主要研究領域,了解文本挖掘在制藥企業(yè)應用案例?!窘虒W內容】文本挖掘研究背景及意義文本挖掘的國內外研究現(xiàn)狀文本挖掘概述文本挖掘的過程文本挖掘在制藥企業(yè)應用案例【教學重點與難點】重點:文本挖掘研究背景、意義國內外研究現(xiàn)狀、文本挖掘概念難點:文本挖掘的過程【教學手段】利用網絡環(huán)境、多媒體課件,案例教學、實理一體化教學方法等【課后作業(yè)】.文本挖掘與數(shù)據(jù)挖掘有何聯(lián)系和區(qū)別?.目前文本挖掘的領域主要涉及到哪些?第二章文本切分及特征詞選擇【教學目的與要求】掌握文本數(shù)據(jù)采集的常用方法、了解中文語料庫與詞典,熟練掌握文本切分和文本特征詞選擇的方法,熟練掌握PythonJieba分詞模塊及其用法?!窘虒W內容】文本數(shù)據(jù)采集語料庫與詞典簡介文本切分文本特征詞選擇PythonJieba分詞模塊及其用法【教學重點與難點】重點:文本切分、文本特征詞選擇、PythonJieba分詞模塊及其用法難點:PythonJieba分詞模塊及其用法【教學手段】利用網絡環(huán)境、多媒體課件,案例教學、實理一體化教學方法等【課后作業(yè)】1利用現(xiàn)代漢語語料庫進行一段中文文本的漢語分詞、詞性自動標注、字頻統(tǒng)計和詞頻統(tǒng)計。2用Python實現(xiàn)雙向最大匹配的算法。3利用jieba進行一段中文文本的三種模式的分詞。第三章文本表示模型【教學目的與要求】熟練掌握文本預處理的常用方法、掌握向量模型、概率模型和主題概率模型的概念及Python的實現(xiàn)?!窘虒W內容】文本預處理向量空間模型概率模型主題概率模型【教學重點與難點】重點:文本預處理、向量空間模型、概率模型、主題概率模型難點:主題概率模型【教學手段】利用網絡環(huán)境、多媒體課件,案例教學、實理一體化教學方法等【課后作業(yè)】1給出一段中文文本,利用Python的re.split()函數(shù),分隔所有短句。2給出一段中文文本,去除停用詞,完成操作后將結果讀出來。第四章文本分類【教學目的與要求】了解文本分類意義、國內外研究現(xiàn)狀與發(fā)展趨勢,掌握文本分類的定義,熟練掌握文本分類的流程和文本分類預處理。掌握典型的常用文本分類器,了解分類模型的性能評估?!窘虒W內容】文本分類概述常用文本分類器分類模型的性能評估【教學重點與難點】重點:常用文本分類器難點:常用文本分類器【教學手段】利用網絡環(huán)境、多媒體課件,案例教學、實理一體化教學方法等【課后作業(yè)】1給定有類別標注的文本向量集,參考例4.2,對于一組待分類的文本,判斷分別屬于哪一類。2利用Python編程,對給定相關數(shù)據(jù)驗證SVM算法。3Python編程,利用樸素貝葉斯分類器實現(xiàn)垃圾郵件過濾。4給定相關數(shù)據(jù),利用Python編程,驗證ID3和C4.5算法。第五章文本聚類【教學目的與要求】了解文本聚類意義、國內外研究現(xiàn)狀與發(fā)展趨勢,掌握文本聚類的定義,熟練掌握文本聚類的流程和文本聚類預處理。掌握典型的常用文本聚類器,了解聚類模型的性能評估。【教學內容】文本聚類概述文本聚類原理與方法文本聚類評估【教學重點與難點】重點:文本聚類原理與方法難點:文本聚類原理與方法【教學手段】利用網絡環(huán)境、多媒體課件,案例教學、實理一體化教學方法等【課后作業(yè)】1描述基于劃分的聚類方法,并分別驗證例5.1和例5.2中的k-means、k-medoids聚類。2描述基于層次的聚類方法。驗證例5.6中AGNES算法。3參照例5.9,給定一組文檔集的向量,利用python實現(xiàn)DBSCAN算法。第六章文本關聯(lián)分析【教學目的與要求】了解文本關聯(lián)規(guī)則基本概念和意義,掌握關聯(lián)規(guī)則分類和關聯(lián)規(guī)則挖掘算法,熟練掌握Apriori算法,了解FP-Growth算法?!窘虒W內容】引言文本關聯(lián)規(guī)則關聯(lián)規(guī)則挖掘算法【教學重點與難點】重點:文本關聯(lián)規(guī)則、關聯(lián)規(guī)則挖掘算法難點:關聯(lián)規(guī)則挖掘算法【教學手段】利用網絡環(huán)境、多媒體課件,案例教學、實理一體化教學方法等【課后作業(yè)】1簡述研究文本關聯(lián)規(guī)則的意義。2根據(jù)例6.1,理解Apriori算法的步驟。第七章Python處理文本數(shù)據(jù)簡單應用【教學目的與要求】掌握文本集的情感分析、關鍵詞和摘要自動生成的Python實現(xiàn),掌握使用SnowNLP進行商品評價的Python實現(xiàn),掌握利用Python生成“詞云”?!窘虒W內容】情感分析自動生成關鍵詞和摘要使用SnowNLP進行商品評價生成“詞云”【教學重點與難點】重點:自動生成關鍵詞和摘要、使用SnowNLP進行商品評價難點:使用SnowNLP進行商品評價【教學手段】利用網絡環(huán)境、多媒體課件,案例教學、實理一體化教學方法等【課后作業(yè)】1利用TextRank算法的python算法仿照例7.3實現(xiàn),創(chuàng)建中文文本文件,利用TextRank4Keyword將文本拆分成4種格式:sentences、words_no_filter、words_no_stop_words和words_all_filters。2創(chuàng)建中文文本文件,參照例7.4和例7.5生成關鍵字和摘要。3輸入一段中文文本,利用7.3.1中的樣例,驗證SnowNLP的主要功能。03學時分配課程內容學時分配小計講課習題課討論課實驗其他第一章緒論22第二章文本切分及特
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高端會議策劃與銷售服務合同模板
- 2025年度某局數(shù)字化轉型勞務分包結算規(guī)范合同2篇
- 2025版辦公樓小型裝飾裝修工程施工合同示范6篇
- 2025版建筑工地挖掘機駕駛員勞動合同標準范本3篇
- 《全球化與兩岸關系》課件
- 可燃冰資源地質評價方法與實踐考核試卷
- 2025版學校食堂蔬菜采購及食品安全追溯服務合同3篇
- 2025年度美術品藝術品投資顧問合同范本4篇
- 2025年學校節(jié)日慶祝協(xié)議
- 2025年合伙人員協(xié)議
- 2024-2025學年人教版數(shù)學六年級上冊 期末綜合試卷(含答案)
- 收養(yǎng)能力評分表
- 山東省桓臺第一中學2024-2025學年高一上學期期中考試物理試卷(拓展部)(無答案)
- 中華人民共和國保守國家秘密法實施條例培訓課件
- 管道坡口技術培訓
- 2024年全國統(tǒng)一高考英語試卷(新課標Ⅰ卷)含答案
- 2024年認證行業(yè)法律法規(guī)及認證基礎知識 CCAA年度確認 試題與答案
- 皮膚儲存新技術及臨床應用
- 外研版七年級英語上冊《閱讀理解》專項練習題(含答案)
- 2024年遼寧石化職業(yè)技術學院單招職業(yè)適應性測試題庫必考題
- 上海市復旦大學附中2024屆高考沖刺模擬數(shù)學試題含解析
評論
0/150
提交評論