版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《大數(shù)據(jù)預(yù)處理》教學(xué)大綱課程編號(hào):121412B課程類(lèi)型:□通識(shí)教育必修課□通識(shí)教育選修課□學(xué)科基礎(chǔ)課eq\o\ac(□,√)專(zhuān)業(yè)核心課□專(zhuān)業(yè)提升課□專(zhuān)業(yè)拓展課總學(xué)時(shí):32講課學(xué)時(shí):16實(shí)驗(yàn)(上機(jī))學(xué)時(shí):16學(xué)分:2考試類(lèi)型:□考試eq\o\ac(□,√)考查適用對(duì)象:數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)□是eq\o\ac(□,√)否適合作為其他專(zhuān)業(yè)學(xué)生的個(gè)性化選修課先修課程:統(tǒng)計(jì)編程基礎(chǔ)一、教學(xué)目標(biāo)本課程是在其他統(tǒng)計(jì)方法課程前的一門(mén)先行課,主要教會(huì)學(xué)生在建立模型之前如何提出問(wèn)題,如何準(zhǔn)備數(shù)據(jù),整理數(shù)據(jù),清洗數(shù)據(jù)等,以便于后續(xù)模型的建立。著重培養(yǎng)學(xué)生面對(duì)實(shí)際數(shù)據(jù)時(shí),提出問(wèn)題和解決問(wèn)題的基本能力,特別是能夠使用某種計(jì)算機(jī)語(yǔ)言來(lái)準(zhǔn)備數(shù)據(jù)。學(xué)完該門(mén)課程后,學(xué)生應(yīng)該具備基本的數(shù)據(jù)準(zhǔn)備能力,包括:目標(biāo)1:理解數(shù)據(jù)預(yù)處理的含義和目的目標(biāo)2:掌握各種常用的數(shù)據(jù)預(yù)處理方法目標(biāo)3:在“三全育人”理念下培育有堅(jiān)定理想信念、深厚愛(ài)國(guó)主義情懷、高尚道德情操,求真務(wù)實(shí)的科學(xué)品質(zhì),扎實(shí)的統(tǒng)計(jì)專(zhuān)業(yè)學(xué)識(shí)的社會(huì)主義新青年二、教學(xué)內(nèi)容及其與畢業(yè)要求的對(duì)應(yīng)關(guān)系教學(xué)內(nèi)容主要包括大數(shù)據(jù)預(yù)處理概述、缺失值及其處理方法、數(shù)據(jù)糾錯(cuò)及其處理方法、數(shù)據(jù)離散化、低頻分類(lèi)數(shù)據(jù)處理方法、高偏度數(shù)據(jù)處理方法、異常值處理方法、不平衡數(shù)據(jù)處理方法、數(shù)據(jù)特征縮放方法和數(shù)據(jù)歸約方法對(duì)擬實(shí)現(xiàn)的教學(xué)目標(biāo)所采取的教學(xué)方法、教學(xué)手段;課堂PPT演示與軟件操作演示,上機(jī)實(shí)驗(yàn),課后實(shí)驗(yàn)項(xiàng)目等方法;對(duì)實(shí)踐教學(xué)環(huán)節(jié)的要求;教師采用案例教學(xué),軟件操作演示;對(duì)課后作業(yè)以及學(xué)生自學(xué)的要求;學(xué)生完成教師布置的課后實(shí)驗(yàn)項(xiàng)目,并依據(jù)完成情況給分;該課程從哪些方面促進(jìn)了畢業(yè)要求的實(shí)現(xiàn);課程實(shí)踐環(huán)節(jié)以解決實(shí)際問(wèn)題為導(dǎo)向,培養(yǎng)學(xué)生提出問(wèn)題的能力、解決問(wèn)題能力和上機(jī)實(shí)操能力,同時(shí)基于課程思政切入點(diǎn),提升學(xué)生的思想品質(zhì)和綜合素質(zhì),促進(jìn)學(xué)生達(dá)到畢業(yè)要求。三、各教學(xué)環(huán)節(jié)學(xué)時(shí)分配教學(xué)課時(shí)分配序號(hào)章節(jié)內(nèi)容講課實(shí)驗(yàn)其他合計(jì)1大數(shù)據(jù)預(yù)處理概述20022缺失值及其處理方法23053數(shù)據(jù)糾錯(cuò)及其處理方法11024數(shù)據(jù)離散化22045異常分布數(shù)據(jù)處理I:低頻分類(lèi)數(shù)據(jù)、高偏度數(shù)據(jù)、異常值34076異常分布數(shù)據(jù)處理II:不平衡數(shù)據(jù)22047數(shù)據(jù)特征縮放22048數(shù)據(jù)歸約2204合計(jì)1616032四、教學(xué)內(nèi)容第1章 大數(shù)據(jù)預(yù)處理概述 1.1 大數(shù)據(jù)預(yù)處理的目的和主要內(nèi)容1.2 本書(shū)主要使用的數(shù)據(jù)集 教學(xué)的重點(diǎn)和難點(diǎn):了解大數(shù)據(jù)預(yù)處理的含義;了解大數(shù)據(jù)預(yù)處理的三個(gè)目的;了解大數(shù)據(jù)預(yù)處理的主要內(nèi)容。課程考核要求:理解大數(shù)據(jù)預(yù)處理的含義;理解大數(shù)據(jù)預(yù)處理的三個(gè)目的;理解大數(shù)據(jù)預(yù)處理的主要內(nèi)容。第2章 缺失值及其處理方法2.1 本章概述 2.2 缺失值的填補(bǔ)2.3 缺失值信息的提取 教學(xué)的重點(diǎn)和難點(diǎn):缺失值含義、缺失值填補(bǔ)方法、缺失值信息提取方法課程考核要求:了解數(shù)據(jù)缺失的含義;了解完全變量與不完全變量的概念;理解完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)、不可忽略缺失的含義;理解造成數(shù)據(jù)缺失的原因和數(shù)據(jù)缺失的影響;了解Python中缺失值的形式;了解缺失值信息的含義;理解缺失值填補(bǔ)的基本思路;掌握使用簡(jiǎn)單統(tǒng)計(jì)量對(duì)缺失值進(jìn)行填補(bǔ)的方法;掌握建立聚類(lèi)分析模型對(duì)缺失值進(jìn)行填補(bǔ)的方法;掌握建立線性回歸、GBDT模型對(duì)缺失值進(jìn)行填補(bǔ)的方法。理解缺失值信息提取的思想,掌握缺失值信息提取的方法。課程思政切入點(diǎn):結(jié)合缺失值產(chǎn)生的原因和內(nèi)涵,樹(shù)立學(xué)生在調(diào)查研究中堅(jiān)持實(shí)事求是的基本素養(yǎng),寧缺毋濫的工作態(tài)度,真實(shí)準(zhǔn)確的數(shù)據(jù)觀念。第3章 數(shù)據(jù)糾錯(cuò)與格式處理3.1 本章概述3.2 數(shù)據(jù)的邏輯糾錯(cuò)3.3 數(shù)據(jù)的格式糾錯(cuò)3.4 日期時(shí)間型數(shù)據(jù)特征及其應(yīng)用教學(xué)的重點(diǎn)和難點(diǎn):數(shù)據(jù)糾錯(cuò)的思路、日期時(shí)間型數(shù)據(jù)的特點(diǎn)和操作方法。課程考核要求:了解數(shù)據(jù)錯(cuò)誤的含義;了解日期時(shí)間型數(shù)據(jù)的特點(diǎn);掌握數(shù)據(jù)邏輯糾錯(cuò)的思路;掌握地址格式糾錯(cuò)的思路;掌握數(shù)值格式糾錯(cuò)的思路;掌握分類(lèi)格式糾錯(cuò)的思路;掌握日期時(shí)間型數(shù)據(jù)的轉(zhuǎn)化和提取信息的方法。課程思政切入點(diǎn):結(jié)合數(shù)據(jù)中常見(jiàn)的錯(cuò)誤情況向?qū)W生展示數(shù)據(jù)準(zhǔn)確的重要性。使用日期時(shí)間型數(shù)據(jù)處理工具對(duì)我國(guó)建國(guó)后至今、改革開(kāi)放至今和黨的“十八大”至今三個(gè)時(shí)間段所包含的年、月、星期、日、小時(shí)數(shù)進(jìn)行計(jì)算,讓學(xué)生體會(huì)從不同尺度看待這些時(shí)間跨度,進(jìn)而體會(huì)“當(dāng)前我國(guó)偉大成就是在這樣一個(gè)相當(dāng)短的時(shí)間里實(shí)現(xiàn)的”這一事實(shí);同時(shí)讓學(xué)生體會(huì)“時(shí)不我待”的緊迫感。第4章 數(shù)據(jù)離散化 4.1 本章概述 4.2 數(shù)據(jù)離散化的方法 4.3 定性變量形式的轉(zhuǎn)換教學(xué)的重點(diǎn)和難點(diǎn):數(shù)據(jù)離散化的方法和定性變量形式轉(zhuǎn)換的方法。課程考核要求:理解數(shù)據(jù)離散化的基本概念,包括數(shù)據(jù)離散化的含義和作用;掌握使用客觀法進(jìn)行數(shù)據(jù)離散化的原理和操作方法,包括等寬法和等頻法;掌握使用主觀法進(jìn)行數(shù)據(jù)離散化的原理和操作方法,包括離散化為二分類(lèi)變量和離散化為順序變量;掌握定性變量形式轉(zhuǎn)換的原理和操作方法,包括定性變量轉(zhuǎn)換為啞變量(one-hot碼)、順序變量轉(zhuǎn)換為得分和定性變量的平滑化。課程思政切入點(diǎn):結(jié)合變量形式轉(zhuǎn)換的學(xué)習(xí),培養(yǎng)學(xué)生從多個(gè)角度全面看問(wèn)題的意識(shí)和能力;通過(guò)對(duì)反映國(guó)民經(jīng)濟(jì)建設(shè)成就的連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,從而更加清晰的反映出成就的偉大性。第5章 異常分布數(shù)據(jù)處理I:低頻分類(lèi)數(shù)據(jù)、高偏度數(shù)據(jù)、異常值 5.1 本章概述 5.2 低頻分類(lèi)數(shù)據(jù)處理5.3 高偏度數(shù)據(jù)處理5.4 異常值檢測(cè)與處理教學(xué)的重點(diǎn)和難點(diǎn):數(shù)據(jù)糾偏方法、異常值識(shí)別與處理方法、低頻分類(lèi)數(shù)據(jù)處理方法。課程考核要求:了解低頻分類(lèi)數(shù)據(jù)、高偏度數(shù)據(jù)和異常值的含義;掌握低頻分類(lèi)數(shù)據(jù)的觀察方法;掌握低頻分類(lèi)數(shù)據(jù)的處理方法;掌握數(shù)據(jù)偏度的觀察及偏度系數(shù)的計(jì)算方法;掌握數(shù)據(jù)偏度的糾正方法;理解數(shù)據(jù)偏度對(duì)于模型預(yù)測(cè)的影響;掌握異常值的識(shí)別和標(biāo)注方法;掌握異常值截?cái)嗵幚淼姆椒ǚ椒ǎ焕斫猱惓V祵?duì)數(shù)據(jù)分析效果的影響。第6章 異常分布數(shù)據(jù)處理II:不平衡數(shù)據(jù) 6.1 本章概述6.2 不平衡數(shù)據(jù)的配平6.3 不平衡數(shù)據(jù)配平的影響教學(xué)的重點(diǎn)和難點(diǎn):向下抽樣方法、向上抽樣方法、混合抽樣方法。課程考核要求:了解不平衡數(shù)據(jù)的含義;掌握向下抽樣方法;掌握向上抽樣方法;掌握混合抽樣方法;理解數(shù)據(jù)配平對(duì)模型預(yù)測(cè)效果的影響。課程思政切入點(diǎn):結(jié)合不平衡數(shù)據(jù)的含義,理解一個(gè)群體中“關(guān)鍵少數(shù)”對(duì)群體的意義和影響。第7章 數(shù)據(jù)特征縮放 7.1 本章概述 7.2 數(shù)據(jù)特征縮放方法 7.3 數(shù)據(jù)特征縮放的效果教學(xué)的重點(diǎn)和難點(diǎn):數(shù)據(jù)標(biāo)準(zhǔn)化;Min-Max縮放;Max-ABS縮放、Robust縮放。課程考核要求:了解數(shù)據(jù)特征縮放的概念;了解箱線圖的概念;掌握數(shù)據(jù)中心化的方法;掌握數(shù)據(jù)標(biāo)準(zhǔn)化的方法;掌握Min-Max縮放的方法;掌握Max-ABS縮放的方法;理解Max-ABS縮放與Min-Max縮放的差異;掌握Robust縮放的方法;理解數(shù)據(jù)特征縮放的效果。第8章 數(shù)據(jù)歸約8.1 本章概述8.2 變量選擇 -8.3 樣本歸約 8.4 偽自變量的識(shí)別與影響 教學(xué)的重點(diǎn)和難點(diǎn):變量選擇方法、樣本歸約方法、偽自變量識(shí)別方法。課程考核要求:了解數(shù)據(jù)歸約的概念與意義;掌握使用統(tǒng)計(jì)量選擇變量的方法;掌握使用決策樹(shù)選擇變量的方法;掌握使用Lasso算法選擇變量的方法了;掌握樣本歸約的方法;理解數(shù)據(jù)偏度對(duì)于模型預(yù)測(cè)的影響;掌握偽自變量的識(shí)別方法。課程思政切入點(diǎn):基于偽自變量的概念,引導(dǎo)學(xué)生理解本質(zhì)與現(xiàn)象之間的辯證關(guān)系,即本質(zhì)是事物的內(nèi)部聯(lián)系,是決定事物性質(zhì)和發(fā)展趨向的東西。現(xiàn)象是事物的外部聯(lián)系,是本質(zhì)在各方面的外部表現(xiàn)。本質(zhì)和現(xiàn)象是對(duì)立統(tǒng)一關(guān)系。偽自變量即是只看現(xiàn)象而未見(jiàn)本質(zhì)。五、考核方式、成績(jī)?cè)u(píng)定本課程主要采用上機(jī)作業(yè)的考試方式進(jìn)行最終成績(jī)的評(píng)定;一般采用平時(shí)考勤*10%+六次作業(yè)*90%的分配比例;六、主要參考書(shū)及其他內(nèi)容課程數(shù)據(jù)來(lái)源:AustinReese.UsedCar
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)材料購(gòu)銷(xiāo)合同案例3篇
- 文物運(yùn)輸公司招投標(biāo)3篇
- 數(shù)據(jù)交換與信息交換服務(wù)3篇
- 安全騎行責(zé)任如山3篇
- 攔水壩建設(shè)合同范本3篇
- 摩托車(chē)買(mǎi)賣(mài)協(xié)議書(shū)3篇
- 撤銷(xiāo)委托書(shū)有哪些影響3篇
- 教育軟件銷(xiāo)售業(yè)務(wù)員合同3篇
- 教育培訓(xùn)勞動(dòng)合同教學(xué)與課程開(kāi)發(fā)
- 工程安全責(zé)任書(shū)范本3篇
- 電動(dòng)托盤(pán)搬運(yùn)車(chē)操作規(guī)程范文(2篇)
- 教育部中國(guó)特色學(xué)徒制課題:基于中國(guó)特色學(xué)徒制的“金教師”團(tuán)隊(duì)建設(shè)研究
- 政府采購(gòu)評(píng)審專(zhuān)家考試試題庫(kù)(完整版)
- 色彩原理與應(yīng)用智慧樹(shù)知到期末考試答案章節(jié)答案2024年上海出版印刷高等專(zhuān)科學(xué)校
- GB/T 34281-2017全民健身活動(dòng)中心分類(lèi)配置要求
- 生物信息學(xué)在微生物研究領(lǐng)域中的應(yīng)用
- 分布式光伏發(fā)電項(xiàng)目并網(wǎng)驗(yàn)收意見(jiàn)單
- 看聽(tīng)學(xué)一冊(cè)單詞大全
- 網(wǎng)站隱私政策模板
- 滬教版生物科學(xué)八年級(jí)上冊(cè)重點(diǎn)知識(shí)點(diǎn)總結(jié)
- 己內(nèi)酰胺的生產(chǎn)工藝.
評(píng)論
0/150
提交評(píng)論