




已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
論文封面畢業(yè)論文(設計)題目:學生姓名:_學 號:_專業(yè)班級:XXXXXX專業(yè) 09?班 指導教師:_職稱_指導教師:_職稱_起止時間: 2013.92014.5誠 信 聲 明我聲明,所呈交的畢業(yè)設計作品和論文是本人經(jīng)過近四年的基礎課程與專業(yè)課程學習的基礎上,在指導老師的指導下,經(jīng)過幾個月集中的畢業(yè)設計學習、實踐和努力工作所取得的成果。據(jù)本人查證,除了文中特別加以標注和致謝的地方外,設計作品和論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果。我承諾,設計作品和論文中的所有內(nèi)容均真實、可信。學生簽名: 簽名日期:2014年月 日一級標題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距計算機與信息學院本科畢業(yè)論文(設計)選題審批表畢業(yè)設計(論文)題目指 導 教 師職 稱指 導 教 師職 稱題 目 來 源(科學研究項目、教學改革項目名稱或企事業(yè)合作單位名稱)選題的依據(jù): (題目背景及可行性分析,要求具體指出該課題所對應的相應知識點) 150字左右教研室審核意見教研室主任簽字: 2013年9月15日系審批意見系主任簽字: 2013年9月20日四號宋體字,加粗,單倍行間距。計算機與信息學院一級標題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距本科畢業(yè)論文(設計)任務書題目:天貓用戶對其品牌的行為分析1主要內(nèi)容及基本要求任務書要求填滿兩頁,行間距可根據(jù)字數(shù)調(diào)整,一定要使頁面飽滿,不要出現(xiàn)半頁紙的現(xiàn)象。1、圖書館及上網(wǎng)搜集相關數(shù)據(jù)挖掘的書籍文獻作為研究參考及一些思路的借鑒;2、從聚類和關聯(lián)分析幾個方面探索天貓用戶購物數(shù)據(jù)的信息,先用excel做簡單的初步分析,再用sas做進一步的數(shù)據(jù)挖掘工作及檢驗結果,以及寫下每個研究階段過程中的日志;3、得出一個具有意義的結論,在18w條數(shù)據(jù)中挖掘出有用的信息,并做出簡要的分析和解釋。2進度計劃2014年11月初,完成在上述內(nèi)容要求中的數(shù)據(jù)搜集及開題報告;2014年12月初,重點參考相關文獻,初步擬定論文框架;2014年12月底之前完成論文初稿;2015年2月底之前完成外文翻譯和文獻綜述;2015年3月-2015年5月,完善作品,修改論文;2015年5月初-2013年5月中旬,論文打??;2015年5月30 日以前答辯完畢并提交所有電子材料。3主要參考文獻1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡購物行為的分析D.云南:云南大學,2011.5.1. 2毛國君.數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學,2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究J.管理工程學報,2004(03):1015.4毛國君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗北京:人民郵電出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J 北京:機械工業(yè)出版社,2009,09(12):1721-1741.指導教師簽名:_ 2013年9月29日學 生 簽 名:_2013年9月30日(此表為教師填寫,內(nèi)容打印,簽名必須手寫。學生要保存好該任務書,與開題報告一同上交指導教師,以備裝訂。)40裝訂 線 浙江萬里學院 畢業(yè)論文(設計)報告紙計算機與信息學院一級標題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距凡是學生所寫東西的頁面,必須有此頁眉。四號宋體字,加粗,單倍行間距。本科畢業(yè)論文(設計)開題報告論文中文題目天貓用戶對其品牌的行為分析論文英文題目Analysis Tmall users to its brand behavior學生姓名沈哲培專業(yè)班級信息與計算科學專業(yè)112班1 題的背景和意義阿里巴巴是中國最大和世界第二大網(wǎng)絡公司,并在2014年9月9日赴美上市,馬云凈財富達219美元成為中國大陸首富,在2013年的雙十一節(jié)日中,1小時67億,6小時不到突破100億;13小時實現(xiàn)191億,追平去年成績;21小時達到300億,超過阿里巴巴官方預期,在2014年的雙十一再創(chuàng)新高,達到了571億元,如此大的交易數(shù)據(jù)正是我們研究分析的最好對象。阿里巴巴如此大的交易,肯定會有不小的回頭客,而我們做數(shù)據(jù)挖掘可以挖掘潛在客戶,以及做出一定的預測,在一定的時期或者時間段,進行及時的促銷活動,挽留住潛在客戶,挖掘出新的客戶,并在其中分析出他們的購物規(guī)律,偏好,需求并根據(jù)這個做出相應的預測,使得未來的利益達到更大化,也更加從容的應對客戶需求的變化。針對品牌企業(yè),通過對用戶行為監(jiān)測獲得的數(shù)據(jù)進行分析,可以讓企業(yè)更加詳細、清楚地了解用戶的行為習慣,從而找出網(wǎng)站、推廣渠道等企業(yè)營銷環(huán)境存在的問題,有助于企業(yè)發(fā)掘高轉化率頁面,讓企業(yè)的營銷更加精準、有效,提高業(yè)務轉化率,從而提升企業(yè)的廣告收益。小標題是小四號加粗宋體字,表格內(nèi)文字要求:小四號仿宋體,首行縮進2字符。2 題基本內(nèi)容,擬解決的主要問題課題基本內(nèi)容是:通過對用戶行為監(jiān)測獲得的數(shù)據(jù)進行分析,可以讓企業(yè)更加詳細、清楚地了解用戶的行為習慣,從而找出網(wǎng)站、推廣渠道等企業(yè)營銷環(huán)境存在的問題,有助于企業(yè)發(fā)掘高轉化率頁面,讓企業(yè)的營銷更加精準、有效,提高業(yè)務轉化率,從而提升企業(yè)的廣告收益。擬解決的主要問題:前期主要通過excel等統(tǒng)計分析軟件,對源數(shù)據(jù)進行初步的統(tǒng)計及分析,去除一些不必要的數(shù)據(jù)項,對有關聯(lián)的數(shù)據(jù)項進行簡單的分析他們的幾何關系,之后主要通過sas軟件進行數(shù)據(jù)挖掘分析,數(shù)據(jù)導入,關聯(lián)分析,建立模型,分析預測,得出結論,主要解決的問題就是針對于天貓官方的,分析用戶購物的心理及相應規(guī)律后,可以快速的反應出每位客戶的需求,我們就可以根據(jù)這些需求,相對應的插入相關的購物鏈接(類似廣告性質(zhì)),達到利益更大化。開題報告字數(shù)不少2000字,行間距可根據(jù)字數(shù)調(diào)整,一定要使頁面飽滿,不要出現(xiàn)半頁紙的現(xiàn)象。寫作方法參見附錄。3 題研究方法及技術路線課題研究方法:1、圖書館及上網(wǎng)搜集相關數(shù)據(jù)挖掘的書籍文獻作為研究參考及一些思路的借鑒;2、從聚類和關聯(lián)分析幾個方面探索天貓用戶購物數(shù)據(jù)的信息,先用excel做簡單的初步分析,再用sas做進一步的數(shù)據(jù)挖掘工作及檢驗結果,以及寫下每個研究階段過程中的日志;3、得出一個具有意義的結論,在18萬條數(shù)據(jù)中挖掘出有用的信息,并做出簡要的分析和解釋。技術路線:通過對數(shù)據(jù)的研究,我們可以找到數(shù)據(jù)之間的聯(lián)系。比如,我們可以通過用戶ID和對品牌ID之間的關系,可以預測用戶下次會不會購買這個品牌的東西。通過對淘寶海量的數(shù)據(jù)研究,可以挖掘其中的一些關聯(lián),從而使我們對用戶推送一些更有針對性的廣告,使用戶在淘寶上更方便的找到自己想要的商品。同樣,也能使商家更方便的找到自己的用戶。這樣能使用戶和商家之間更有效率。4.研究的總體安排和進度計劃小標題加粗仿宋體小四號??傮w安排:我寫的論文題目是天貓用戶對其品牌的行為分析所以在空余時間去收集相關資料,并努力完善論文,在專業(yè)中積極跟上全班的總體論文進度,積極與輔導員及相關輔導老師溝通,不拖拉,在規(guī)定時間完成相應的任務,并在最后交上讓老師滿意的作品。進度計劃:2014年11月初,完成在上述內(nèi)容要求中的數(shù)據(jù)搜集及開題報告;2014年12月初,重點參考相關文獻,初步擬定論文框架;2014年12月底之前完成論文初稿;2015年2月底之前完成外文翻譯和文獻綜述;2015年3月-2015年5月,完善作品,修改論文;2015年5月初-2013年5月中旬,論文打印;2015年5月30 日以前答辯完畢并提交所有電子材料。5.主要參考文獻不少于10個,具體要求同文獻綜述。1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡購物行為的分析D.云南:云南大學,2011.5.1. 2毛國君.數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學,2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究J.管理工程學報,2004(03):1015.4毛國君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗.北京:人民郵電出版社,2010.12.10.6David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J.北京:機械工業(yè)出版社,2009,09(12):1721-1741.7李嶶,李宛州.基于數(shù)據(jù)倉庫技術的進銷存系統(tǒng)的設計與實現(xiàn)J.2001(10):93-948Jiawei Han.數(shù)據(jù)挖掘概念與技術M.機械工業(yè)出版社2001,8 9W.H.Inmon.數(shù)據(jù)倉庫M.機械工業(yè)出版社2000,510林字等編著.數(shù)據(jù)倉庫原理與實踐M.北京:人民郵電出版社,200311張春陽,周繼恩,劉貴全,蔡慶生.基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構建,計算機工程J.2002(4):249-25212陳德軍,盛翊智,陳綿云.基于數(shù)據(jù)倉庫的OLAP在DSS中的應用研究J.2003(1):30-3113朱明,數(shù)據(jù)挖掘M.合肥:中國科技大學出版社2002,514 陳京民等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術M.北京:電子工業(yè)出版社,2002.15 陳文偉等.數(shù)據(jù)挖掘技術M.北京:北京工業(yè)大學出版社,2002.指導教師意見指導教師簽名: 2013年 11月 1日系(教研室)評議意見系(教研室)主任簽名: 2013年 11月 2 日注:開題報告內(nèi)容可以打印,但導師和系(教研室)意見及簽名必須手寫。計算機與信息學院四號宋體字,加粗,單倍行間距。一級標題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距本科畢業(yè)論文(設計)文獻綜述 四號宋體字,加粗,1.5倍行間距,段前段后各0.5行間距。淺談數(shù)據(jù)挖掘0前言隨著網(wǎng)絡的迅猛發(fā)展,依托于網(wǎng)絡的網(wǎng)絡購物做為一種新型的消費方式脫穎而出,在全國乃至全球范圍內(nèi)都在迅猛的發(fā)展。網(wǎng)絡購物行業(yè)也越來越得到更多人的關注,與此同時,各種研究方法、數(shù)據(jù)分析方法也被運用到了關于網(wǎng)絡購物的研究當中。數(shù)據(jù)挖掘技術作為一種新的數(shù)據(jù)分析方法逐步應用到網(wǎng)絡購物的分析中,獲取數(shù)據(jù)、抽取規(guī)律、預測趨勢、建立模式,這對促進網(wǎng)絡購物行業(yè)的健康、有序發(fā)展是十分有益的。本研究使用數(shù)據(jù)挖掘的方法,借助SAS工具,以阿里巴巴大數(shù)據(jù)競賽的真實數(shù)據(jù)為基礎,對天貓用戶購物行為進行了研究分析。1什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。在較淺的層次上,它利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢、檢索及數(shù)據(jù)挖掘功能,與多維分析、統(tǒng)計分析方法相結合,進行聯(lián)機運算分析處理,從而得出可供決策參考的統(tǒng)計分析數(shù)據(jù)的一個有商業(yè)意義的結果,這個結果可以出售給需要的賣家,這就是所謂的大數(shù)據(jù)分析。在深層次上,則從數(shù)據(jù)庫中發(fā)現(xiàn)前所未有的、隱含的知識。例如:在大街上川流不息的車流量,在普通人眼里,當你通過一個十字路口時,可能會看到除了塞車就是車禍,亦或者沒有事的安全通行,沒有其他的信息可能會有,如果是一個數(shù)據(jù)挖掘人員就會發(fā)現(xiàn)其中的數(shù)據(jù)信息,一小時會有橫向會有多少車流量,豎向會有多少車流量,這樣可以得到一組數(shù)據(jù),通過數(shù)據(jù)挖掘分析后得到更有的結果,十字路口的紅綠燈就可以根據(jù)車流量設置時間長短。而從另一個角度,如果在十字路口進行路線測繪的話,就可以得到類似地圖的數(shù)據(jù),手機中的導航軟件就是通過這樣實現(xiàn)的,所以我們生活中數(shù)據(jù)挖掘無處不在,只是在我們不認識數(shù)據(jù)挖掘時,不會去發(fā)現(xiàn)。2數(shù)據(jù)挖掘的任務 數(shù)據(jù)挖掘的兩個高層目標是建立模型和預測。前者指用一些變量或數(shù)據(jù)庫的若干已知字段通過相應的數(shù)據(jù)挖掘分析軟件,以及某些情況下需要實地考察,再結合團隊間的分析,結合數(shù)據(jù)挖掘的相應模塊導出一個比較合理性、可行性、具有預測性的模型,而后者是建立在前面的分析好后,通常,預測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預測。從這種意義上說,預測的目的就是對未來未知變量的預測,這種預測需要時間來驗證,所以他需要更加具體化的分析出一些較為能大眾接受的信息,分析出相應的規(guī)律,總結出相關的報告,來確認驗證這一預測。 3數(shù)據(jù)挖掘的特點 數(shù)據(jù)挖掘技術具有以下特點:(1)數(shù)據(jù)挖掘基本分為3步驟:數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示。 (2)數(shù)據(jù)的主要分析方法有:關聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。(3)需要處理的數(shù)據(jù)規(guī)模十分龐大,達到GB、TB數(shù)量級,甚至更大,所以數(shù)據(jù)挖掘常被較為“大數(shù)據(jù)挖掘”。 (4)在許多些應用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應反應以隨時提供決策支持。(5)數(shù)據(jù)挖掘往往需要把一些無規(guī)律,大數(shù)量級的,含有偏離點的(因特殊因素而導致的不正常的數(shù)值),在有效的時間內(nèi)轉換成有規(guī)律,無瑕疵的,主要預測動向的模型。(6)在某種角度上,數(shù)據(jù)挖掘也是可以與用戶知識庫交互,從用戶的數(shù)據(jù)中尋找規(guī)律,并且規(guī)律是可視化的。4 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘的步驟會隨不同領域的應用可能有所變化,每一種數(shù)據(jù)挖掘技術也會有各自的特性和使用步驟,所以首先需要明確業(yè)務對象清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結構同樣是不可預測的,但要探索的問題應是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會得到理想的結果的。(1)數(shù)據(jù)的準備與選擇。搜索所有與研究對象有關的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù)。(例:在中國統(tǒng)計局官網(wǎng)上就可以搜索到往年的與國家經(jīng)濟有關的數(shù)據(jù)資料)官方的數(shù)據(jù)也較為真實可靠,具有挖掘價值。(2)數(shù)據(jù)的預處理。主要是分析并提高數(shù)據(jù)的質(zhì)量,排除一些因某些特殊因素而引起的特殊值,會影響整個數(shù)據(jù)組的最后預測效果。 (3)模型的建立。通過數(shù)據(jù)挖掘軟件(例如:SAS)將數(shù)據(jù)轉換成一個分析模型,這個分析模型是針對挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關鍵。(4)數(shù)據(jù)的預測。建立模型之后,在模型上會有一些本來用于分析的數(shù)據(jù),也會有未來的一些經(jīng)過分析后預測的數(shù)據(jù),通過這些數(shù)據(jù),我們就可以知道一些即將發(fā)生的現(xiàn)象或者問題,并對其進行提前預防,或其他措施。(5)數(shù)據(jù)預測的結論整理。數(shù)據(jù)挖掘這項任務的工作者,往往不是最后的執(zhí)行者,所以我們需要將預測的結果整理成一份通俗易懂的報告,最好附上圖表,讓上司或領導更易理解,這也是十分關鍵的一步,一個好的結論沒有表述好,可能就會被拋棄。5天貓用戶數(shù)據(jù)挖掘的分析及作用 數(shù)據(jù)挖掘如果運用到天貓、淘寶上,那么他就目的只有一個就是盈利。我們都知道雙十一網(wǎng)購狂歡節(jié),今年2014年1分鐘就交易額突破了1億,如此巨大的交易額,不光需要他龐大的用戶量,還需要就是分析他們的需求信息。天貓用戶那么多,首先一點就是需要明確每一個用戶需要買什么東西,這就是我們數(shù)據(jù)挖掘需要做的,在我們上網(wǎng)點擊的過程,其實就是他們數(shù)據(jù)采集的過程,他們通過你點擊瀏覽的網(wǎng)站就預測你的喜好及可能還會去點擊的網(wǎng)站,并在一個欄目對你播放相對應的廣告,促使你更有欲望去購買這些東西。 6數(shù)據(jù)挖掘的應用領域及前景 與國外相比,國內(nèi)對DMKD的研究稍晚,1993年國家自然科學基金首次開始支持對該領域的研究項目。近年來發(fā)展迅速,進行的大多數(shù)研究項目是由政府資助進行的,如國家自然科學基金、863計劃、“九五”計劃等。所涉及的研究領域很多,一般集中于學習算法的研究、數(shù)據(jù)挖掘的實際應用以及有關數(shù)據(jù)挖掘理論方面的研究。國內(nèi)從事數(shù)據(jù)挖掘研究的機構主要在大學,也有部分在研究所或公司。當前數(shù)據(jù)挖掘應用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。 5 結論 數(shù)據(jù)挖掘技術是一個讓你從無知到有知的探索,商業(yè)利益的強大驅(qū)動力將會不停地促進它的發(fā)展,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入,他也將變得更加具有交互性、可視性。 參考文獻1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡購物行為的分析D.云南:云南大學,2011.5.1. 2毛國君.數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學,2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究J.管理工程學報,2004(03):1015.4毛國君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗北京:人民郵電出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J 北京:機械工業(yè)出版社,2009,09(12):1721-1741.7陳京民,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術M.北京:電子工業(yè)出版社,2002.8陳文偉,等.數(shù)據(jù)挖掘技術M.北京:北京工業(yè)大學出版社,2002.9史忠植.知識發(fā)現(xiàn)D. 北京:清華大學出版社,2002 10蔡元龍.模式識別D.西安:西北電訊工程學院出版社,1986.6通過系統(tǒng)地查閱與所選課題相關的國內(nèi)外文獻,進行收集、整理和加工,從而制定的綜合性敘述和評價的文章(見P42)。字數(shù):20003000字。五號宋體字,1.5倍行間距,除了參考文獻是頂格以外,其余都是首行縮進2字符。參考文獻不少于10個,具體要求同P19正文一致。計算機與信息學院一級標題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距凡是學生所寫東西的頁面,必須有此頁眉。四號宋體字,加粗,單倍行間距。本科畢業(yè)論文(設計)外文文獻翻譯外文文獻譯文數(shù)據(jù)挖掘2應用領域數(shù)據(jù)挖掘是廣泛用于一系列科學學科和業(yè)務場景。一些值得注意的例子:管理、機器學習貝葉斯-伊恩推理、知識獲得專家系統(tǒng)、模糊邏輯、神經(jīng)網(wǎng)絡和遺傳算法。在日常業(yè)務場景的例子:包括航空公司、數(shù)據(jù)庫營銷面板數(shù)據(jù)的研究和創(chuàng)造,基于定制的貿(mào)易出版物為數(shù)百種不同的用戶數(shù)據(jù)用戶組。Piatetsky-Shapiro與相關學術人員在99年提供一個詳細的進一步的使用領域的概述。是另一個國際米蘭毛利分析美國東部時間在數(shù)據(jù)挖掘領域的研究。現(xiàn)代成本會計的幫助下軟件公司可以對個人所得稅進行多維分析物品。由于大量引用(e.g.產(chǎn)品客戶托馬、銷售渠道、區(qū)域)和需要的對象的數(shù)量檢查控制器需要方法自動識別數(shù)據(jù)模式。在這種情況下,這些模式的組合屬性值(e . g?!癉IY商店”和“力量訓練”)以及(e . g .毛利率)措施。一個公司,開發(fā)數(shù)據(jù)挖掘程序必須也考慮到大量數(shù)據(jù)參與。即使在一個中型公司是很常見的,成百上千項流入每月?lián)p益表?;诎咐耐评?CBR)是其中之一數(shù)據(jù)最小的有趣的例子荷蘭國際集團(ING)和機器學習在一起。CBR組件嘗試跟蹤當前問題的問題已經(jīng)解決了過去。幫助桌子,協(xié)助澄清的問題客戶有購買產(chǎn)品,是一個實際的使用類型的過程。盡管一些公司使用幫助臺支持他們的電信電話熱線,其他人給他們定制-人通過遠程數(shù)據(jù)的直接訪問轉移??梢苑浅r值數(shù)據(jù)挖掘在這種情況下,因為它鞏固聚集在成千上萬的信息關鍵的發(fā)現(xiàn)個人歷史病例老年男性。這種方法的優(yōu)點是較短的過程,尋找先例可以用來回答當前客戶的問題。3方法有許多不同類型的方法分析和分類數(shù)據(jù)。一些常見的方法包括聚類分析、貝葉斯推理和歸納學習??梢允褂镁垲惙治龌跀?shù)值以及措施概念聚類的形式。數(shù)據(jù)挖掘系統(tǒng)的結構天生是非常不同的,當然這些都很常見的:因為分析方法,識別和分析模式,是系統(tǒng)的核心。因為輸入可以包括組件原始數(shù)據(jù)等信息數(shù)據(jù)字典、知識的使用場景中,或縮小用戶條目搜索過程。因為輸出包含發(fā)現(xiàn)措施,規(guī)則或信息在一個適當?shù)男问匠尸F(xiàn)給用戶,納入系統(tǒng)作為新知識或集成成一個專家系統(tǒng)。3.1聚類分析不論在其傳統(tǒng)的形式還是概念聚類,聚類分析試圖分裂或合并一組數(shù)字基于誤碼率的對象組接近這些對象之間的存在。集群分組以便有大的對象之間的相似之處類以及大型之間的異同不同的類的對象。3.1.1傳統(tǒng)聚類分析不管的縮放級別對象變量,有多種方法衡量相似性和區(qū)別的距離。基本的例子包括歐幾里得(即平方根總平方差異)和曼哈頓差異(即絕對的總和個體差異變量)。在我們可以檢查指標,名義以及不同數(shù)據(jù)集的混合距離測量。當對象有不同的類型的屬性,例如,考夫曼和Rousseeuw推薦計算個人名義的差異為0屬性值是相同的,和不同的是不同的。指標變量,我們第一次需要建立之間的區(qū)別對象的值。然后我們標準化把他們的最大區(qū)別。結果是一個0和之間的差異。然后我們計算總差異兩個對象之間的向量的總和個體差異(考夫曼和Rousseeuw 990)。我們可以使用這種類型的測量(最終延長individ的重量性屬性)集群生產(chǎn)總值(gdp)數(shù)據(jù)集邊際分析。這些包含名義屬性(如產(chǎn)品、客戶、地區(qū))以及數(shù)值(收入或措施毛利率)。有一個普遍的分化在劃分和層次之間分類方法。簡而言之,合適的婚姻對象一對迭代方法試圖最小化一個給定的初始分配的異質(zhì)性表示“狀態(tài)”的對象到集群。分層方法,這幾乎是重要的,采取一種完全不同的方法。最初,每一個對象都位于自己的俱樂部怪獸。然而,對象,然后結合先后,因此只有最小程度的同質(zhì)性是迷失在每一個步驟。我們可以很容易地生成的層次結構嵌套的集群在一個所謂的系統(tǒng)樹圖。3.3歸納學習讓我們假設有一個給定的一組對象(即一個訓練集)類。歸納學習試圖定義一個規(guī)則,基于其組織一個新對象屬性到一個現(xiàn)有的類。一個常見的方法是可視化作為一個決策樹學習規(guī)則。樹葉而樹的代表類主要降低分支機構代表測試分別檢查一個屬性值。每個測試接收的可能的結果自己的分公司,反過來,導致到另一個分支或熊一片葉子。的ID算法,一個著名的例子這種方法,從這一段開始訓練集,我們可以在幾個迭代建立一個樹與0000集對象和50屬性。ID子結果把剩下的對象的訓練集,如果分類不正確,算法將重啟一個訓練集的擴展部分的對象是不正確的分類(昆蘭986)。銀行,例如,可以使用一個方法構建和維護這樣一個專業(yè)的系統(tǒng)檢查的信用評級個人客戶。如果一個訓練集包含一個大客戶群體高或低信用評級,該算法可以使用規(guī)則來評估未來的貸款申請,銀行員工可以處理在系統(tǒng)中。4關鍵因素以下部分概述了一些與數(shù)據(jù)挖掘相關的問題。在我們認為,這些關鍵因素的成功將為未來打下堅實的基礎研究和發(fā)展。4.1算法的效率關于數(shù)據(jù)挖掘的效率算法,我們應該考慮以下方面。jCalculation時期是一個關鍵因素。如果算法的計算時間增長速度比線性依賴關系的平方數(shù)的數(shù)據(jù)記錄搜索,我們可以假設他們不會適合更大應用程序。我們可以提高計算時間通過限制搜索區(qū)域通過用戶輸入或減少通過有針對性的搜索數(shù)據(jù)量(如基于用戶)選擇和壓縮。最近的進展顯示,算法的計算時間將變得不那么相關了由于技術發(fā)展(e . g .更快的過程-傳感器、并行計算機)。因為算法必須足夠健壯處理不完整和/或有缺陷的數(shù)據(jù)。這里的問題是有缺陷的數(shù)據(jù)產(chǎn)生明顯的模式。如果一個銷售區(qū)域有不小心遺忘了計劃收入的一系列文章,該系統(tǒng)應診斷極高budget-actual方差。然而,系統(tǒng)不應該呈現(xiàn)這些類型的語句的一部分正常的分析結果,而是檢測真實性檢查和報告在一個單獨的不完整的部分報告。1、字數(shù)要求:2000漢字,可以是2篇文檔。2、五號宋體字,首行縮進2字,1.5倍行間距。外文文獻原文Data Mining四號宋體,加粗,居中。一定要指明出處,作者名。翻譯的外文文獻應主要選自學術期刊、學術會議的文章、有關著作及其他相關材料,應與畢業(yè)論文(設計)主題相關,由指導教師對外文文獻的選擇把關,可直接復印。格式要求:(1)打印稿:五號羅馬字體(Times New Roman),首行縮進4英文字符,1.5倍行間距。(2)復印稿:用A4紙復印,要清晰,并留出裝訂線。2 Usage scenariosData mining is widely used in a range of scientific disciplines and business scenarios. Some noteworthy examples include findings in the areas of database management, machine learning, Bayesian inference, knowledge gain for expert systems, fuzzy logic, neural networks, and genetic algorithms.Examples in everyday business scenarios include database marketing for airlines,panel data research as well as the creation of customized trade publications based on subscriber data for hundreds of different user groups. Frawley and Piatetsky-Shapiro (Frawley et al. 99) offer a detailed overview of further areas of usage.Gross margin analysis is another interesting field of research in data mining.With the help of modern cost accounting software, companies can perform multidimensional analysis on individual income items. Fig. 2 lists a few sample questions related to this topic. Due to the numer-ous reference objects (e. g. products, customers, sales channels, regions) and the resulting number of objects that need to be examined, controllers require methods that automatically identify data patterns.In this case, these patterns are a combination of attribute values (e. g. “DIY stores” and “power drills” in Fig. 1) as well as measures (e. g. gross margin). A company that develops a data mining program must also consider the large volumes of data involved. Even in a midsize company, for example, it is common that several hundred-thousand items flow into a monthly income statement.Case Based Reasoning (CBR) is one interesting example of how data mining and machine learning could work together. CBR components attempt to trace current questions to problems that have already been solved in the past. Help desks, which assist in clarifying the questions a customer has about purchased products, are one practical usage of this type of procedure. While some companies use help desks to support their telephone hotlines, others give their customers direct access through a remote data transfer. Data mining can be very valuable in this context because it consolidates the information gathered in thousands of individual historical cases into key findings. The advantage of this procedure is the shorter process of searching for precedents which can be used to answer the current customers question.3 MethodsThere are many different types of methods to analyze and classify data. Some common methods include cluster analysis,Bayesian inference as well as inductive learning. Cluster analysis can be used based on numerical measures as well as in the form of conceptual clustering.The structures of data mining systems are very different by nature. The following configuration, however, is very common:jThe analysis method, which identifies and analyzes patterns, forms the core of the system.jThe input can include components such as raw data, information from adata dictionary, knowledge of the usage scenario, or user entries to narrow the search process.jThe output encompasses the found measures, rules or information which are presented to the user in an appropriate form, incorporated into the system as new knowledge or integrated into an expert system.3.1 Cluster analysisWhether in its traditional form or as conceptual clustering, cluster analysis attempts to divide or combine a set number of objects into groups based on the proximity that exists among these objects.The clusters are grouped so that there are large similarities among the objects of a class as well as large dissimilarities among the objects of different classes.3.1.1 Traditional cluster analysisRegardless of the scaling level of the object variables, there are multiple ways to measure the similarity and difference of the proximity. Basic examples include the Euclidean (i. e. the square root of the total squared difference) and Manhattan differences (i. e. the sum of the absolute differences of individual variables). In general, we can examine metric, nominal as well as mixed data sets by varying the proximity measure.When objects have different types of attributes, for example, Kaufman and Rousseeuw recommend calculating a difference of 0 for the individual nominal attributes when the values are the same,and a difference of when they are different. In the case of metric variables, we first need to establish the difference among the object values.To standardize them we then divide them by the maximum difference.The result is a difference between 0 and.We then calculate the total difference between two object vectors as the sum of the individual differences (Kaufman and Rousseeuw 990).We can use this type of measure (eventually extended by the weight of an individual attribute) to cluster data sets in grossmargin analysis. These contain nominal attributes (e. g. product, customer, region)as well as numerical measures (revenues or gross margin).There is a general differentiation between the partitional and hierarchical classification methods. Simply put, partitional methods try to iteratively minimize the heterogeneity of a given initial allotment of objects into clusters. Hierarchical methods, which are practically significant,take a completely different approach. Initially, each object is located in its own cluster. The objects, however, are then combined successively so that only the smallest level of homogeneity is lost in each step.We can easily present the resulting hierar- chy of nested clusters in a so-called dendrogram.3.1.2 Conceptual clusteringAs described above, traditional forms of cluster analysis can identify groups of similar objects but cannot describe these classes beyond a simple list of the individual objects. The objective of many usage scenarios, however, is to characterize the existing structures that are buried among the volumes of data. Instead of representing object classes through simply listing their objects, conceptual clusters intentionally describe them using terms which classify the individual objects through rules. A group of these rules forms a so-called concept.A basic example of a concept is a program that automatically and logically links individual attribute values. Advanced systems can even establish concepts and concept hierarchies with classification rules.The different concepts in partitional methods of conceptual clustering compete with each other. Ultimately, we have to choose the clustering concept that best meets the performance criteria for a specific method. Some performance criteria include the simplicity of the concept (based on the number of attributes involved) or the discriminatory power (as the number of variables that have values do not overlap beyond the different object classes.)Similar to traditional cluster analysis, there are also hierarchical techniques that form classification trees in a topdown approach. As described
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 直播平臺商業(yè)模式創(chuàng)新-洞察闡釋
- 2025家居智能化改造工程施工合同
- 充分利用存量閑置房屋和低效用地實施方案
- 2025企業(yè)全面股權轉讓協(xié)議標準版
- 2025授權融資租賃合同
- 初中數(shù)學面試試題及答案
- 總工會考試試題及答案
- 自考大專思修考試題庫及答案
- 資產(chǎn)自考試題及答案
- 珠江銀行筆試題庫及答案
- 充電間防火管理制度
- 瓷磚行業(yè)法規(guī)與消費者權益-全面剖析
- 2025年全國安全生產(chǎn)月安全生產(chǎn)知識競賽搶答題庫及答案(共200題)
- 倉庫經(jīng)理轉正述職報告
- 高速公路智能收費系統(tǒng)操作指南
- 設備零故障培訓課件
- 《基于PLC的自動灌溉系統(tǒng)設計(附IO表和程序梯形圖)》14000字
- 2025年授權簽字人考試題及答案
- 中國書法藝術傳承與發(fā)展現(xiàn)狀分析
- 江蘇省徐州市區(qū)部分2025屆中考生物押題試卷含解析
- 水泥粉磨工藝流程
評論
0/150
提交評論