![《數據挖掘》課程大作業(yè)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/12/d413d696-3f75-4451-b7fb-b7e2717edffb/d413d696-3f75-4451-b7fb-b7e2717edffb1.gif)
![《數據挖掘》課程大作業(yè)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/12/d413d696-3f75-4451-b7fb-b7e2717edffb/d413d696-3f75-4451-b7fb-b7e2717edffb2.gif)
![《數據挖掘》課程大作業(yè)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/12/d413d696-3f75-4451-b7fb-b7e2717edffb/d413d696-3f75-4451-b7fb-b7e2717edffb3.gif)
![《數據挖掘》課程大作業(yè)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/12/d413d696-3f75-4451-b7fb-b7e2717edffb/d413d696-3f75-4451-b7fb-b7e2717edffb4.gif)
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大良及上大寫網絡教育學院數據挖掘課程大作業(yè)題 目:姓 名:報名編號: 學習中心:層 次: 專升本專 業(yè):計算機科學與技術第一大題:講述自己在完成大作業(yè)過程中遇到的困難, 解決問題的思 路,以及相關感想,或者對這個項目的認識,或者對 Python與數據 挖掘的認識等等,300-500字。數據挖掘是一門重要的專業(yè)課。數據挖掘引起了信息產業(yè)界的極大關注, 其主 要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的 信息和知識。數據挖掘就是從大量的數據中,抽取出潛在的、有價值的知識、模 型或規(guī)則的過程。作為一類深層次的數據分析方法,它利用了數據庫、人工智能 和數理統(tǒng)計等多方面的技術。
2、要將龐大的數據轉換成為有用的信息, 必須先有效率地收集信息。隨著科技 的進步,功能完善的數據庫系統(tǒng)就成了最好的收集數據的工具。數據倉庫,簡單地說,就是搜集來自其它系統(tǒng)的有用數據, 存放在一整合的儲存區(qū)內。所以其實 就是一個經過處理整合,且容量特別大的關系型數據庫,用以儲存決策支持系統(tǒng) 所需的數據,供決策支持或數據分析使用。數據挖掘的研究領域非常廣泛、主要包括數據庫系統(tǒng)、基于知識的系統(tǒng)、人 工智能、機器學習、知識獲取、統(tǒng)計學、空間數據庫和數據可視化等領域。主要 是可以做以下幾件事:分類、估計、預測、關聯分析、聚類分析、描述和可視化、 復雜數據類型挖掘第二大題:完成下面一項大作業(yè)題目2019秋數據
3、挖掘課程大作業(yè)題目一:Knn算法原理以及python實現要 求:文檔用使用word撰寫即可。主要內容必須包括:(1)算法介紹。(2)算法流程。(3) python實現算法以及預測。(4)整個word文件名為姓名 奧鵬卡號 學習中心(如 戴衛(wèi)東101410013979浙江臺州奧鵬學習中心1VIP )答:一、knn算法介紹1 .介紹鄰近算法,或者說K最近鄰(kNN, k-NearestNeighbor)分類算法是數據挖掘 分類技術中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說 的是每個樣本都可以用它最接近的 k個鄰居來代表。kNN算法的核心思想是如果 一個樣本在特征空間中的k個最相
4、鄰的樣本中的大多數屬于某一個類別, 則該樣 本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只 依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。kNN方法在類別決策時,只與極少量的相鄰樣本有關。由于kNN方法主要靠周圍有限的鄰 近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。2 .核心概括主要的思想是計算待分類樣本與訓練樣本之間的差異性,并將差異按照由小 到大排序,選出前面K個差異最小的類別,并統(tǒng)計在K個中類別出現次數最多的 類別為最相似的類,最終將待分類樣本分到最相似的訓練樣本的類中
5、。與投票 (Vote)的機制類似。二、knn算法流程1 .準備數據,對數據進行預處理2 .選用合適的數據結構存儲訓練數據和測試元組3 .設定參數,如k4 .維護一個大小為k的的按距離由大到小的優(yōu)先級隊列,用于存儲最近鄰訓 練元組。隨機從訓練元組中選取k個元組作為初始的最近鄰元組,分別計算測試 元組到這k個元組的距離,將訓練元組標號和距離存入優(yōu)先級隊列5 .遍歷訓練元組集,計算當前訓練元組與測試元組的距離,將所得距離 L 與優(yōu)先級隊列中的最大距離Lmax6 .進行比較。若L>=Lmax則舍棄該元組,遍歷下一個元組。若 L < Lmax, 刪除優(yōu)先級隊列中最大距離的元組,將當前訓練元組
6、存入優(yōu)先級隊列。7 .遍歷完畢,計算優(yōu)先級隊列中k個元組的多數類,并將其作為測試元組 的類別。8 .測試元組集測試完畢后計算誤差率,繼續(xù)設定不同的k值重新進行訓練, 最后取誤差率最小的k值。三、代碼實現使用python程序模擬KNN#法Created on Sat Jun 22 18:38:22 2019author: zhenimport numpy as npimport collections as csdatanp.array( 203,1,126,1,89,1,70,1,196,2,211,2,221,2,311,3,271,3)特征feature = data:,0 # print
7、(feature)label = data:,-1 #結果分類print(label)predictPoint = 200 #預測數據print(" 預測輸入特征為: " + str(predictPoint)distance = list(map(lambda x : abs(predictPoint - x), feature) # 各 點到預測點的距離print(distance)sortIndex = np.argsort(distance) # 排序,返回排序后各數據的原始下標print(sortIndex)sortLabel = labelsortIndex #
8、 根據下標重新進行排序print(sortLabel)# k = 3 # 設置k值大小為3for k in range(1,label.size+1):result = cs.Counter(sortLabel0:k).most_common(1)00 #根據 k值計算前 k 個數據中出現次數最多的分類,即為預測的分類print(" 當 k=" + str(k) + " 時預測分類為: " + str(result)四、結果203 126 89 70 196 211 221 311 2711 1 1 1 2 2 2 3 3預測輸入特征為: 2003, 74, 111, 130, 4, 11, 21, 111, 710 4 5 6 8 1 2 7 31 2 2 2 3 1 1 3 1當 k=1 時預測分類為:1當 k=2 時預測分類為:1當 k=3 時預測分類為:2當 k=4 時預測分類為:2當 k=5 時預測分類為:2當 k=6 時預測分類為:2當 k=7 時預測分類為:1當 k=8 時預測分類為:1當 k=9 時預測分類為:1總結1. 根據訓練數據和結果可知,當k較小時【比如本次當k=11 ,若訓練數據 存在異常數據時容易出現預測錯誤的情況,因此一般K值都不能太??!2. 當 k 值較大時,某個分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年點火線圈項目申請報告模范
- 2025年建筑行業(yè)策劃策略與綠色施工協(xié)議書
- 2025年子女監(jiān)護權策劃補充協(xié)議的法律效力分析
- 2025年醫(yī)療器械供應與醫(yī)療服務合作框架協(xié)議
- 2025年先進汽車修理設施租賃合同
- 2025年停車場地承包經營協(xié)議范本
- 2025年勞動者家庭醫(yī)療保健策劃與子女援助協(xié)議
- 2025年爭斗賠償和解協(xié)議格式
- 2025年合作導師協(xié)議范本
- 2025年農業(yè)發(fā)展公司技術咨詢服務合同范本
- 質量管理與產品質量保障措施
- 全國自然教育中長期發(fā)展規(guī)劃
- 第四章-國防動員
- 露天電影方案
- 2024年山東力明科技職業(yè)學院高職單招(英語/數學/語文)筆試歷年參考題庫含答案解析
- 裝配式預制混凝土框架結構抗震性能研究
- 2024年長沙市房地產市場分析報告
- 造影劑對比劑外滲預防與處理課件
- 海爾集團周云杰發(fā)表主題為《無界生態(tài) 無限可能》戰(zhàn)略報告
- 機修崗位述職個人述職報告
- 光伏發(fā)電項目 投標方案(技術方案)
評論
0/150
提交評論