成果講稿fae v023說明_第1頁
成果講稿fae v023說明_第2頁
成果講稿fae v023說明_第3頁
成果講稿fae v023說明_第4頁
成果講稿fae v023說明_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

FeAtureExplorer(FAE)級,而特征數(shù)往往會在1000的量級中,問題是從眾多特征中找到與臨床診斷相關的特(Prepare(Visualization)和報告生成模塊(Report。三大模塊相互獨立,1,F(xiàn)AE二、FAE由華東師范大學市磁和卡勒幅智能醫(yī)療科技聯(lián)合開發(fā),該目僅用于科研,目代碼開源在https:\\ 建議,任何合作意向和特殊需求,請聯(lián)系:三、數(shù)據(jù)準備(Prepare:該模塊用以處理已提取好的特征文件(csv格式),要求行方向為不同的case。列方向為feature,第一行為特征特征名稱。其中需要一列標記為“l(fā)abel”,如未提供,則無法用Excel打開可以顯示為下圖:2該模塊對數(shù)據(jù)進行檢查,確保數(shù)據(jù)矩陣中不存在字符數(shù)據(jù)(例如),不存在無效數(shù)3界面左上角“Load”按鈕可以從本地導入特征數(shù)據(jù),只支持csv格式,路徑中不能包含(label=1(label=04除無效數(shù)據(jù)的操作,允許使用者選擇去除含有無效數(shù)據(jù)的case或者去除無效數(shù)據(jù)的feature。更加復雜的需求,目前需要使用者自行處理。點選需要的處理方法,單擊5data7界面左下角的“CheckandSave”按鈕可以用來進行數(shù)據(jù)保存。若勾選“separateTrainAndTest”,則路徑為文件夾,在其中保存訓練集數(shù)據(jù)、測試集數(shù)據(jù)。四、數(shù)據(jù)處理(pipelineScikit-learn(vcsvDataDescriptiontrain和test數(shù)據(jù)中的樣本信息。9特征處理流水線label之間的相關性,需將不同特征直接的數(shù)值縮放到同一數(shù)量級,即對每個特征對應的所有case的數(shù)值進行處理。目前提供一下三種歸一化方法:Normalizeto

??????????=?????2+????2+?+

??????表示第????個特征,其中????表示樣本Normalizeto0-??

其中????????表示所有樣本特征值的均值,????????????(????????)表示特征????的方差Normalizetounitwith0-

???? ?????2+????2+?+ ysis,PCA)降維和利用皮爾森相似度(PearsonCorrelationCoefficients,PCC)11PCA可以把可能具有相關性的特征映射為線性無關的低維特征,映射后的低維數(shù)據(jù)每個特征都線性無關。具體可參考sklearn文檔:position.PCA.html,??11前支持的方法有ANOVA、RFE、Relief。特征選擇方法界面如下:圖12,特征選擇和特征數(shù)遍歷 ysisof大到小排序后,決定出與label最相關的特征。具體文檔可參照:selection.fclassif.htmlRFE(RecursiveFeatureselection.RFE.htmlRelief算法中特征和類別的相關性是基于特征對近距離樣本的區(qū)分能力。算法從訓練集在某個特征的距離大于RNearMiss上的距離,說明該特征對區(qū)分同類和不同類的最近鄰起作用,則降低該特征的權重。以上過程重復m次,最后得到各特征的平均權重。特12所示,選擇最小特征與最大特征,F(xiàn)AE會遍歷之間所有特征數(shù),進行模例如13AE(Auto-network.MLPClassifier.htmlLDA是一種分類模型,它通過在k選擇一個投影超平面,使得不同類別在該超LDA會將kk-1PCA會選擇數(shù)據(jù)變化最大的方向,LDA會主要以類別為思考因素,使得投影后的樣本盡可能可分。baggingbootstrapaggregating6)LR-Lasso(LogisticRegressionviaLasso)樣本量比較小,但是指標非常多,即小N大P問題。適用于統(tǒng)計,傳統(tǒng)的方法無法應對這樣的數(shù)據(jù)。并且lasso可以進行特征選擇。model.Lasso.htmlAdaboost是一種常見的繼承學習方法,它屬于boosting系列算法中的,也就是說每個習器之間存在強依賴關系。Adaboost既可以用于分類也可以用于回歸。兩個步驟:1、DecisionGaussian針對機器學習的高斯過程(GaussianProcessesforMachineLearning,即GPML)是一個通用的監(jiān)督學習方法,主要被設計用來解決回歸問題。它也可以擴展為概率分類(probabilisticclassification)Nativebayes.htmlFAE圖14,超參數(shù)設置配置文件,配置未見保存為json格式證集中AUC最高的結果。10-folder屬于K-folder,初始采樣分割成K個子樣本集,每個單獨的子樣本集被保留作為驗證模型的數(shù)據(jù),其他K-1個子樣本集用來訓練。交叉驗證重復K次,每個子樣本驗證一次,將所有結果記錄,與對應label進行統(tǒng)計分析,用以評價模型。選擇界面如下:歸一化方法選擇NormalizetounitNormalizeto0-RemoveSimilarANOVA1-建模方法選擇:SVM、LDA16,程序進行運行,右下角Verbose界面對程序運行進行,當Pipelines數(shù)目很多時,程序會當Verbose出現(xiàn)“DONE”時,表示程序運行完畢。圖17,F(xiàn)AE處理界五、模型可視化18點擊Load載入處理結果數(shù)據(jù)的文件夾。注意要選擇上一次所保存的文件夾而不是該文件夾下的子。通過左上方的PipelineDescriptionpipelneTrain、Validation、Test或者Testonval來顯示不同數(shù)據(jù)集下的pipeline結果。勾選umAUCalong可以在特征數(shù)維度上尋求Validation是模型在交叉驗證集上的表現(xiàn),Test是模型在獨立驗證集上的表現(xiàn),TestonVal是CVTrain、CVvalidation、Train、TestROC曲線。其中,CVTrainK-foldercrossvalidationK-1folder訓練數(shù)據(jù)集的平均結果CVvalidationK-foldercrossvalidation1-folder數(shù)據(jù)集的平均結果,Train代表按全部訓練集的結果,Test代表測試集的結果。下方可橫向比較不同流水,Y軸可以選擇AUC值和準確率,X軸為不同的Pipeline參數(shù);也允許比較特定參數(shù),其他參數(shù)選取對應Y的最大值(勾選um。AUC和特征數(shù)的比較上,我們生成AUC值的方差,利用minimumcriteria1-standarderroroftheminimumcriteriaAUC值下一個標準差范圍Show 21,特征在不同特征選擇方法和不同分類器中權重的表現(xiàn)形式PipelineDescrip

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論