決策樹算法在商標分類中的應用_第1頁
決策樹算法在商標分類中的應用_第2頁
決策樹算法在商標分類中的應用_第3頁
決策樹算法在商標分類中的應用_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

人工智能原理姓名:成軍學好:510061813論文題目:決策樹算法在商標分類中的應用中文摘要:釀決策樹一般靜都是自上而北下的來生成烘的。每個決遇策或事件(吐即自然狀態(tài)或)都可能引畏出兩個或多句個事件,導撒致不同的結貝果,把這種急決策分支畫陽成圖形很像太一棵樹的枝濃干模。本文將使基用決策樹算態(tài)法對給定的害商標進行分成類。其中有云三大類商標典數(shù)據(jù),每大踢類贏使用五分之潛三的數(shù)據(jù)進攔行訓練,使篩用五分之二菜的數(shù)據(jù)進行渴測試雀。我們應用徹Java和鍵MySQl唯數(shù)據(jù)庫進行遙測試。用c溜4.5算法世構造決策樹跨。最終對數(shù)善據(jù)進行準確袋率計算。榮關鍵詞:余決策樹粥分類陷商標刃測試陣Title菊:盟Deci澆sion靠tree畢algor例ithm庫饒ofth罷eapp知licat程ionf唱ortr晉adema莫rkcl幻assif夜icati伙on虎A典bstra圓ct抽:隔辨Thed蓮ecisi膠ontr學eeis和comm槍only斯top-d駕ownt作ogen掀erate毀.Eac運hdec器ision炒ore情vents貢(nam布elyn筋atura蹦lsta烈te)a脈reli喪kely窮toel何icit度twoo仰rmor濤eeve雙nts,磁lead澆todi乎ffere于ntre挪sults趟,唇put跡this抹decis薪ionb騎ranch貴lo擾ser吹grap頁hics霞isli碧kea哭tree過branc閘hes.惹This免artic喉lewi季llus煉ethe展deci素sion起tree犯algor撤ithm脹forg西iven筒thet螺radem理arko店fcla誼ssifi晶catio筐n.Th漢erea帽reth叛reek鋼inds跳oftr州adema音rkda佛ta,e軋acho璃fthe兔grou弄psus福ingt啟hree耍fifth勿sof眠thed管atat琴otra喇in,u伶setw烏ofif變thso斤fthe鑄expe嫂rime撐ntal蠢data.胃Weu攔seJa反vaan的dMy矛SQL膽data屈base感testi饞ng.U齡sec4豬.5de而cisio攔ntre豪ealg值orith德m'sc貞onstr寄uc更tion.歸Fina策lly砍,cal萬culat垮e乏thed境ataa拐ccura總cy冤.營K濤eywor兄ds:顏Decis慚iont移ree虎class肚ifica言tion總bran殼dte俱st引言:忙機器學習一博般分為主3煌種類型:有趣監(jiān)督的、無峽監(jiān)督的以及倘強化學習斷【1】量。樓有監(jiān)督學習賭問題涉及從恢它的輸入和砍輸出的實例季中學習一個遙函數(shù)忠。銀對于完全可頌觀察的環(huán)境半,智能體總敞能夠觀察到奉它的行動所汽帶來的影響看,因此有監(jiān)免督學習是可瀉行的,否則皮會困難一些還。薪獻無監(jiān)督學習魔問題涉及在碎未提供明確憐的輸出值的戴情況下,學兼習輸入的模紫式鵝。爛純粹的無監(jiān)亭督學習智能刷體無法學習摸要做什么,偉因為它沒有掘信息說明什耐么能構成正燥確的行動或豆者所期望的地狀態(tài)千。浩止盜強化學習問麗題,是三類用問題中最普淚遍的一個。豐強化學習是吵從強化物(魂起加強作用春的事物)中辯進行學習,天而不是根據(jù)澡教師所說的各應該做什么幫進行學習姓。正文:頑決策樹方法灘是挖掘分類外規(guī)則的有效核方法,通常稈包括兩個部咸分:臣①喉樹的生成,鎖開始時所有誕的數(shù)據(jù)都在蛾根節(jié)點,然召后根據(jù)設定僻的標準選擇派測試屬性,獨用不同的測枯試屬性遞歸頃進行數(shù)據(jù)分風割。絨②吵樹的修剪,動就是除去一杜些可能是噪草音或異常的歐數(shù)據(jù)?;谲埿畔㈧氐墓螴D3怪算法、牛C4鑒.濫5姥算法都能有寨效地生成決熊策樹,建決隊策樹的關鍵壓在于建立分這支時對記錄獻字段不同取介值的選擇。芬選擇不同的任字段值使劃豪分沉出來的記錄婆子集不同友影響決策樹時生長的快慢忍及決策樹的凳結構,從而積可尋找到規(guī)聲則信息的優(yōu)蝕劣??梢?,彎決策樹算法壘的技術難點納就是選擇一闊個好的分支鑄取值。利用偽好的取值產(chǎn)賢生分支可加脆快決策樹的護生長,更重膛要是產(chǎn)生好惹結構的決策瀉樹,并可得諸到較好的規(guī)劈則信息。相過反,若根據(jù)抹一個差的取再值產(chǎn)生分支李,不但減慢快決策樹的生鹿長速度,而慰且使產(chǎn)生的想決策樹分支鉛過細、結構零差,從而難業(yè)以發(fā)現(xiàn)有用賺的規(guī)則信息廟。隨著訓練黑樣本集中樣器本個數(shù)的不譯斷增多孔(論即樣本集規(guī)挖模不斷擴大洋)督,訓練樣本推集在主存中兵換進換出就龍耗費了大量災的時間,嚴錄重影響了算已法效率。因焰此使算法能嫁有效處理大滋規(guī)模的訓練友樣本集已成勺為決策樹算批法研究的一劣個重要問題溫,也是目前折國內(nèi)對決策峰樹算法研究土的熱點。鑄本文利用決劇策樹C4.風5算法來解肺決圖像的分時類問題。志現(xiàn)在我們引包用下c4.滅5算法的實臘例快【2】絹。淺C4.5救莊算法是構造晌決策樹分類推規(guī)則的一種眾算法,它是彎ID3恥算法的擴展數(shù)。杜ID3騙算法只能處階理離散型的江描述性屬競性透而丈C4.5刮算法還能夠籌處理描述屬漁性取值為連互續(xù)型的情況右。選取節(jié)點趁的標準是最慶大信息增益旋率,具體的債算法步驟如貴下佩:如Stepl欣:耽數(shù)據(jù)源進行煤數(shù)據(jù)預處理味,將連續(xù)型景的屬性變量驕進行離散化竿處理形成決桑策樹的訓練榮集酬(扛如果堤連續(xù)取值的胡屬性則忽略博);帝(1齊)破根據(jù)原始數(shù)垮據(jù),找到該思連續(xù)型屬性勢的最小取值策a減0從大取值安a羅n+1偵;陡(2)盾在款贊區(qū)挨陸間岸[a雖,繪b]插人n己數(shù)值等分為賞n+l巡個小區(qū)間距;蒸(3)兵分別以慧a旦i副,i=1袍,晴2,科?控,監(jiān)n郊。為分段點健,將區(qū)間平[a折0誠,a晴n+1植]越劃分為兩個懷子區(qū)間懂:裹接[a逆0抬,a器j墊]破,膝[(壓a泥i+1拐,a量n+1現(xiàn))婦]攏對應該連續(xù)莖型的屬性變復量的兩類取育值,有途n吊種劃分方式漂;揭Step餅2駕:罷計算每個屬眨性的信息增泥益和信息增狗益率者;揚(1)饑計算屬性模A雪的信息增益值Gain(墓A)蒜信息增益潮Gain俱(A)牌的計算和辰ID3兼算法中的完哭全一致勤;呼(2)悼計習赤算挖粱屬性販A慶的信息增益證率蜂G壺ain特一猾Ratio肝(A)G貪ain糧一梁Ratio舞(A)創(chuàng)=脊G斜a銜in(A)廢/I械(A)纏對于取值連浩續(xù)的屬性而亡言,分別計柜算以垮a珠i雕(狐i=個1,2,鞭…毅,伴n)啄為分割點,司對應分類的謙信息增益率廁,選擇最大悲信息增益率錯對應的懼a么i救,作為該屬異性分類的分緒割點。選擇刺信息里歪增益率最大愧的屬性,作短為當前的屬猴性節(jié)點,得歇到?jīng)Q策樹的雹根節(jié)點。捆Step3訴:客根節(jié)點屬性碑每一個可能罪的取值對應怕一個子集,末對樣本子集魄遞歸地執(zhí)行邁以上駝Step2靜過程,直到臺劃分的每個奮子集中的觀綿測數(shù)據(jù)在分塌類屬性上取巖值都相同,烤生成決策樹娘。酬Step4蛾:飽根據(jù)構造的骨決策樹提取紙分類規(guī)則,討對新的數(shù)據(jù)哨集進行分類綁。鞏類似算法的條主要思想都她是,逐步找脫出能夠為各蠢個層次的分尤類提供最大不信息量的變股量,由此可凱以確定決策夫樹從根到枝沃,再從枝到訓葉的結構。撥決策樹生成疊的過程也就夫是對訓練數(shù)刪據(jù)集迸行分普類的過程紹。奶現(xiàn)在分析給狡出的商標,頓建立數(shù)據(jù)庫僚。并建立表氣:慈其中id是默主鍵。屬性懂包括:ci價rcle、幟recta喉ngle、勻trian胡gle、c維onnec劣t、obj井ect。材分別是圓、潑長方形、三席角形、組合沙行、所屬分撇類。群接著用3/盟5的數(shù)據(jù)作結為訓練集,冠2/5的數(shù)肝據(jù)集作為測偉試集。鬼對所有商標蒜進行定義屬共性,并保存踢到數(shù)據(jù)庫中曉。如下:歡由于數(shù)據(jù)量悔比較大,這峽里就不全部心列出,接著暖用sql語嚇句對數(shù)據(jù)查蜂詢,比如要別查詢從id做1蠟—肝id100橫中circ具le屬性都幟是1的個數(shù)手是多少:泰S赴elect失西sum勻(circ衫le)封F腹romb獻rand新W搶here愚id<10賴1and特id>0涂and戰(zhàn)circl燕e=1攔接著根據(jù)c塑4.5算法沖計算得到:嘆GainR洞ati貪栽circl穗e愛(A)=藝透0.232踐12131是GainR治ati孝族Recta即nge防(A)=站源6.441領23121脹GainR禮ati含喝trian辨gle蔑(A)=是沖2臥.9189織2837爐GainR直atio哥conne罩ct磨(A)=管5.324萬12321結論:鑄根據(jù)c4擇.產(chǎn)5算法,增鄙益率高的作務為分界點,待則我們可以五得到?jīng)Q策樹賭的結構:RRectangle嗎賀淹居鏈浴芒紛R藥=0裝可R圈=1Object2Object2connect饞父爽拌瘦新感為叉婆伐C首=1嚼咸C=偶0Object3Object3Object1延最后結對訓練集和供測試測試集縫進行準確率設計算:祥在數(shù)據(jù)庫中絮使用查詢:蹄S縫elect買*伸F喇romb筑rand歸W關here牙recta達ngle=架0and扣obje肯ct=2羊用球的值除澤以測試集的所60,就是繡正確率。最糖終的結果是漢:還類搞第一類羽第二類扭第三類彼正確率愈71.76撲%敘78.65塊%醋86.6%訓練集勾接著用同樣艘的方法對測羞試集進行測喝試,得:槳類鋸第一類誕第二類鉛第三類謝正

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論