




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第4章分門別類:幫你分而治之課后習題答案一、考考你.關于正負樣本的說法正確是D。A.樣本數(shù)量多的那一類是正樣本 B.樣本數(shù)量少的那一類是負樣本C.正負樣本沒有明確的定義 D.想要正確識別的那一類為正樣本.分類器實質為一個A,把樣本的特征集X映射到一個預先定義的類標號y。A.模式 B.函數(shù) C.映射 D.轉換.用計算概率來解決分類問題是哪種分類器C。A.決策樹 B.最近鄰C.貝葉斯D.支持向量機.識別手寫數(shù)字過程中,對圖片進行灰度化處理的主要原因是C。從方便轉為文本格式 B.盡可能保存全部圖片信息C.較少計算量,同時盡可能保存圖片信息 D.有利于提高分類效果.SVM的最優(yōu)分界面是由A決定的。A.支持向量 B.所有樣本 C.多數(shù)樣本 D少數(shù)樣本二、亮一亮.最近鄰分類器與支持向量機各自分類的基本思想是什么?參考答案:最近鄰分類器的基本思想:找到與待分類的樣本最相似的k個鄰居,這k個鄰居中多數(shù)鄰居屬于哪一類,那么就指定該樣本屬于哪一類。即我們把每個具有n個特征的樣本看作n維空間的一個點,對于給定的新樣本,先計算該點與其它樣本點的距離(相似度),然后將新樣本指派為周圍k個最近鄰的多數(shù)類。該分類思想源于這樣的常識:判別一個人是好人還是壞人,可以從跟他走得最近的k個人來判斷,如果k個人中多數(shù)是好人,那么可以指派他為好人,否則他是壞人。支持向量機分類器的基本思想:通過非線性映射,把無法在低維樣本空間分類的問題映射到一個高維的特征空間,在高維空間通過一個線性超平面而非低維空間的直線將樣本完全劃分開。.在案例1的手寫數(shù)字識別過程中,個別樣本出現(xiàn)錯分的現(xiàn)象,主要原因是什么?參考答案:個別樣本出現(xiàn)錯分主要原因有:(1)因訓練樣本數(shù)據(jù)規(guī)模不夠造成分類模型學習不夠,導致不能有效應對各種樣本的分類;(2)樣本質量不高時也會影響模型識別的正確率。三、幫幫我1.嘗試改用SVM方法來識別手寫數(shù)字,建議核函數(shù)使用rbf,其它模型參數(shù)自己設定,對比SVM模型的識別效果與案例1的差異,并分析原因。參考答案:數(shù)字圖片信息轉存為txt文件importosfromPILimportImageimportnumpyasnpimportpandasaspdimportsklearn.model_selectionasms定義圖片到文本的轉換函數(shù)defimgtotext(imgfile,txtfile,size=(32,32)):版mgfile待識別圖像,txtfile將圖像轉換為txt文件輸出,size圖像大小,默認32*32image_file=Image.open(imgfile)image_file=image_file.resize(size,Image.LANCZOS)image_file=image_file.convert('L')width,height=image_file.sizef=open(txtfile,'w')ascii_char='10'foriinrange(height):pix_char='';forjinrange(width):pixel=image_file.getpixel((j,i))pix_char+=ascii_char[int(pixel/128)]pix_char+='\n'f.write(pix_char)f.close()將圖片轉換成文本信息imgtotext(r'data\3.jpg',r'data\3_0.txt')#定義函數(shù),將文本數(shù)據(jù)轉換成數(shù)字形式的數(shù)組deftxt2array(filename):X=np.zeros((1,1024))f=open(filename)foriinrange(32):lineStr=f.readline()forjinrange(32):X[0,32*i+j]=int(lineStr[j])returnX將文件夾下所的文件轉換成數(shù)組和對應的標簽defconvert2dataset(file_path):list_file=os.listdir(file_path)m=len(list_file)datas=np.zeros((m,1024))labels=[]foriinrange(m):num=int(list_file[i][0])labels.append(num)datas[i,:]=txt2array(file_path+'\\'+list_file[i])returndatas,labels生成訓練樣本集和測試樣本集x_train,y_train=convert2dataset(r'data\trainingDigits')x_test,y_test=convert2dataset(r'data\testDigits')構建并訓練SVM模型importsklearn.svmassvmmodle=svm.SVC(C=1,kernel='rbf')modle.fit(x_train,y_train)print(modle.score(x_train,y_train))運行結果:0.9946293691330403測試模型效果importsklearn.metricsassmy_pred=modle.predict(x_test)print(sm.classification_report(y_test,y_pred))運行結果:precisionrecal1fl-scoresupportO0.99LDO0.998710.980.990.9θ9720.990.980.9θ9230.990,站0.973540.990.980.9911450.99LDO1.OD10860.990.990.998770.991.DO0.9996θ0.980,980.9091g0.970.980.9789accuracy0.99946macroavg0.980.980.9θ946weightedavg0.990,990.99946從以上結果可知,基于SVm的分類器預測,平均精確率為99%,優(yōu)于案例1的knn分類器,原因是對于數(shù)字這種轉為文本后特征值較多的分類場景,svm相對有優(yōu)勢。2.嘗試使用KNN方法輔助診斷乳腺癌,注意調整合適的K值,比較該方法與案例2方法在診斷效果上誰優(yōu)誰劣,并分析原因。參考答案:#homwork-02#準備訓練集和測試集importnumpyaSnpimportpandaSaSpdimportSklearn.model_SelectionaSmSdataS=pd.read_cSV(r'data\wiSc_bc_data.cSV',Sep=',')x=dataS.iloc[:,2:32]y=dataS.iloc[:,1:2]x_train,x_teSt,y_train,y_teSt=mS.train_teSt_Split(x,y,teSt_Size=0.2,random_State=42)y_train=y_train.ValueS.raVel()y_teSt=y_teSt.ValueS.raVel()構建和訓練模型importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.neighborsimportKNeighborsClassifierimportpandasaspd構建knn模型knn=KNeighborsClassifier(n_neighbors=43,weights='distance',p=2)訓練KNN模型knn.fit(x_train,y_train)knn.score(x_train,y_train)評估模型效果fromsklearn.metricsimportclassification_reporty_pred=knn.predict(x_test)print(classification_report(y_test,y_pred))運行效果:prec1si?nrecallfl-≡coresupportB0,9Ξ1.OO0.9671帆1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024園藝師考試中須知的重要事項試題及答案
- 食品配方合理性評估試題及答案
- 農業(yè)創(chuàng)業(yè)項目評估的指標體系試題及答案
- 2024年電力技術基礎知識試題及答案
- 六年級語文上冊 第六單元 20《三黑和土地》教學設計 新人教版
- 養(yǎng)育師招聘考試題及答案
- 2024年農藝師考試的實際應用能力評價標準試題及答案
- 人教版九年級歷史下冊第四單元第9課西歐和日本經濟的發(fā)展教學設計
- Unit 11 Section A (1a-1c) 教學設計2023-2024學年人教版初中英語七年級下冊
- 八年級生物下冊 7.3.3 生物進化的原因教學設計1 (新版)新人教版
- 2025年職業(yè)指導師專業(yè)能力測試卷:職業(yè)指導服務與心理咨詢
- 學校安全管理制度匯編
- 2025-2030中國化妝棉行業(yè)市場深度調研及發(fā)展策略研究報告
- 【版】(4月4日)清明守規(guī)平安同行- 清明節(jié)假期安全教育主題班會 高中主題班會課件
- 2024年安慶迎江區(qū)招聘社區(qū)工作人員考試真題
- 信息技術公司成本控制措施
- 貿易安全培訓
- 2025年長春汽車職業(yè)技術大學單招職業(yè)技能測試題庫必考題
- 血小板減少怎預防出血
- 2025年湖南省長沙市一中教育集團中考一模數(shù)學試題(原卷版+解析版)
- 口腔科感染控制策略與措施實施指南
評論
0/150
提交評論