基于關(guān)聯(lián)規(guī)則和決策樹對大眾數(shù)據(jù)的商業(yè)選址的分析與應(yīng)用_第1頁
基于關(guān)聯(lián)規(guī)則和決策樹對大眾數(shù)據(jù)的商業(yè)選址的分析與應(yīng)用_第2頁
基于關(guān)聯(lián)規(guī)則和決策樹對大眾數(shù)據(jù)的商業(yè)選址的分析與應(yīng)用_第3頁
基于關(guān)聯(lián)規(guī)則和決策樹對大眾數(shù)據(jù)的商業(yè)選址的分析與應(yīng)用_第4頁
基于關(guān)聯(lián)規(guī)則和決策樹對大眾數(shù)據(jù)的商業(yè)選址的分析與應(yīng)用_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、課 程 論 文( 2015/ 2016 學年 第一學期)課程名稱數(shù)據(jù)挖掘論文名稱寫作時間年 月 日指導單位計算機學院、軟件學院指導教師 學生姓名班級學號學院(系)管理學院專 業(yè)信息管理與信息系統(tǒng)基于大眾數(shù)據(jù)的商業(yè)選址摘要在經(jīng)濟快速發(fā)展和市場競爭愈演愈烈的同時,不知不覺我們也已進入和生活在數(shù)據(jù)時代,我國各種產(chǎn)業(yè)都進入了一個更為激烈的競爭環(huán)境,尤以商業(yè)和房地產(chǎn)業(yè)為主。而目前我國許多商業(yè)機構(gòu)普遍存在著各種問題,比如效益低下,地理位置不佳、規(guī)劃性不夠等問題。為了解決企業(yè)所面臨的一些問題,本文主要研究了基于大眾數(shù)據(jù)的商業(yè)選址問題以及選址問題背后所隱藏的發(fā)現(xiàn),同時以國內(nèi)非常普及和使用的網(wǎng)站“大眾點評網(wǎng)”作

2、為研究問題的主要數(shù)據(jù)來源,雖然數(shù)據(jù)挖掘方法眾多,但是主要用了關(guān)聯(lián)規(guī)則和分類的方法來進行深入剖析,并利用非常流行小巧且開源的數(shù)據(jù)挖掘軟件Weka做以輔助分析,主要分析地理位置對公司企業(yè)的是否會影響,地理位置對商業(yè)機構(gòu)具有怎樣的重要性,如何正確選擇地址對商業(yè)機構(gòu)的效益是否有增加,同時展示圖表以增加計算結(jié)果的可視化,在將顯示結(jié)果和生活常識的結(jié)合下,預(yù)測商業(yè)選址對房地產(chǎn)產(chǎn)業(yè)開發(fā)是否具有一定的意義和參考價值。關(guān)鍵詞:選址 關(guān)聯(lián)規(guī)則 決策樹The commercial location based on mass dataAbstractIn the rapid development of econom

3、y and the growing competition in the market at the same time, we also have entered imperceptibly and living in the age of data, a variety of industry of our country has entered a more fierce competitive environment, especially in the commercial and real estate. While many of the current commercial i

4、nstitutions in China generally exist various problems, such as low efficiency, poor location, planning is not enough etc. In order to solve some of the problems faced by the enterprises, this paper mainly studies the mass data of commercial location problem and the location problem of hidden behind

5、the discovery based on, at the same time to home is very popular and the use of the site "the masses comments on a net" as the main data source of research problems, although the number of data mining methods, but the main use of the method of correlation analysis and the classification an

6、d prediction of statistical method, to carries on the thorough analysis, and using the very popular small and open source data mining software Weka to do to assist the analysis, the main analysis of the geographic location of the company would affect, geographic location is how important to business

7、es, how to choose the correct address to the commercial institutions benefit if there is an increase in at the same time chart, to increase the visualization of calculation results, combined with the results in displays and common sense of life under the commercial location prediction of whether it

8、has a certain significance and reference value for the development of real estate industry.Key words:Location Statistics Correlation rules Decision tree一、研究問題及背景商業(yè)設(shè)施選址不僅是城市規(guī)劃建設(shè)中不可或缺的一部分,而且對企業(yè)經(jīng)營與商業(yè)戰(zhàn)略的實現(xiàn)有著舉足輕重的地位,商業(yè)地址選擇正確與否在很大程度上影響著企業(yè)未來的發(fā)展與預(yù)定商業(yè)目標的實現(xiàn),同時對商業(yè)地區(qū)周邊的房地產(chǎn)開發(fā)也具有決策性的意義和指導。因為商業(yè)及房地產(chǎn)產(chǎn)業(yè)甚至第三產(chǎn)業(yè)給全國經(jīng)濟帶來的

9、影響日益增大,如何利用社會中現(xiàn)存的各種大量顯見的或是隱藏的知識為整個企業(yè)增加經(jīng)濟效益從而推動經(jīng)濟發(fā)展成為企業(yè)的工作和發(fā)展核心,乃至成為企業(yè)的核心競爭力,而大量有用的知識存在于大量的原始數(shù)據(jù)中,得通過一定技術(shù)和分析發(fā)現(xiàn)和挖掘其中的技術(shù),然后應(yīng)用于企業(yè)發(fā)展。目前的各種數(shù)據(jù)庫系統(tǒng)可以高效的實現(xiàn)大數(shù)據(jù)的錄入、統(tǒng)計、查詢等功能,但無法根據(jù)現(xiàn)有的數(shù)據(jù)發(fā)現(xiàn)其中存在的關(guān)系和規(guī)則,無法對未來的發(fā)展趨勢進行預(yù)測,缺乏挖掘數(shù)據(jù)背后隱藏的知識的方法,存在著“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。因此,這就急需某種方法來完成這個知識發(fā)現(xiàn)的過程,數(shù)據(jù)挖掘是從大量的,不完全的,有噪聲的,模糊的,隨即的數(shù)據(jù)中,提取隱含在其中的,人們事

10、先不知道的,但有潛在的有用信息和知識的過程。 在商業(yè)、房地產(chǎn)、通信等行業(yè)中,集中了大量的數(shù)據(jù),但這些數(shù)據(jù)被分散的儲存于各個業(yè)務(wù)部門的數(shù)據(jù)庫中,而數(shù)據(jù)挖掘需要將這些數(shù)據(jù)以一種有效的集中和統(tǒng)一機制集中起來并統(tǒng)一整理后才能獲取知識。為了研究上述問題,決定采用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘技術(shù)。就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。同時,一些知名的電子商務(wù)站點也從強大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則對

11、規(guī)則進行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。目前在我國,“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。金融業(yè)實施的大多數(shù)數(shù)據(jù)庫只能實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,也能發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢??梢哉f,關(guān)聯(lián)規(guī)則的挖掘技術(shù)在我國的研究與應(yīng)用很廣泛深入。因此,使用關(guān)聯(lián)規(guī)則的挖掘技術(shù)來研究這個問題是非常合適的。2、 數(shù)據(jù)介紹1、數(shù)據(jù)對

12、象1 數(shù)據(jù)標題:超900萬大眾點評網(wǎng)2014年4月份數(shù)據(jù)更新(樣例)。2 數(shù)據(jù)來源:數(shù)據(jù)堂是國內(nèi)首家專業(yè)的科研數(shù)據(jù)共享服務(wù)平臺,致力于為國內(nèi)外高等院校、科研機構(gòu)、研發(fā)企業(yè)及相關(guān)科研人員提供科研數(shù)據(jù)支持。 3 數(shù)據(jù)大?。簶永笮?34KB。(具體數(shù)據(jù)可見附件)。4 數(shù)據(jù)產(chǎn)品概況:本數(shù)據(jù)為大眾點評網(wǎng)在2014年4月份更新后的商家數(shù)據(jù),超過900萬條商家數(shù)據(jù)(因為價格原因無法得到全部數(shù)據(jù),所以只能獲取其中部分數(shù)據(jù)),包括商戶ID、商戶名稱、所處地市區(qū)、具體地址、商戶分類、聯(lián)系電話、營業(yè)時間、平均消費費用、會員卡服務(wù)等數(shù)據(jù)項。5 數(shù)據(jù)背景介紹:隨著互聯(lián)網(wǎng)的出現(xiàn)與飛速發(fā)展,人們的生活方式一直在發(fā)生著巨大

13、的變化。特別是交通、購物、飲食、住宿、教育等各方面均受到來自互聯(lián)網(wǎng)的極大的影響。6 大眾點評便是一個影響人們?nèi)粘I?,方便人們娛樂、飲食的點評網(wǎng)站。大眾點評是中國領(lǐng)先的本地生活信息及交易平臺,也是全球最早建立的獨立第三方消費點評網(wǎng)站。大眾點評不僅為網(wǎng)友提供商戶信息、消費點評及消費優(yōu)惠等信息服務(wù),同時亦提供團購、電子會員卡及餐廳預(yù)訂等O2O(Online To Offline)交易服務(wù)。大眾點評是國內(nèi)最早開發(fā)本地生活移動應(yīng)用的企業(yè),已經(jīng)成長為一家移動互聯(lián)網(wǎng)公司,大眾點評移動客戶端已成為本地生活必備工具。7 數(shù)據(jù)應(yīng)用方向:1)基于大眾消費數(shù)據(jù)的商業(yè)選址 2)基于大眾消費與商家位置分布的交通規(guī)劃 3

14、)一種構(gòu)建電子商務(wù)評論網(wǎng)的交易模式 4)基于大眾消費數(shù)據(jù)與商家位置分布的房地產(chǎn)開發(fā) 5)大眾消費心理分析與研究。8 數(shù)據(jù)應(yīng)用機構(gòu):該數(shù)據(jù)可應(yīng)用于點評網(wǎng)站、電子商務(wù)網(wǎng)站、房地產(chǎn)開發(fā)商、政府規(guī)劃單位以及進行大眾消費相關(guān)研究的高校和研究機構(gòu)等。2、數(shù)據(jù)預(yù)處理9 數(shù)據(jù)預(yù)處理的原因:現(xiàn)實世界中數(shù)據(jù)大體上都是不完整,不一致的臟數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。也就是說,數(shù)據(jù)預(yù)處理(data preprocessing)是指在主要的處理以前對數(shù)據(jù)進行的一些處理。如對大部分地球物理面積性觀測數(shù)據(jù)在進行轉(zhuǎn)換或增強處理之前,首先將不規(guī)則分布的測網(wǎng)經(jīng)過插值轉(zhuǎn)

15、換為規(guī)則網(wǎng)的處理,以利于計算機的運算。另外,對于一些剖面測量數(shù)據(jù),如地震資料預(yù)處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等,早實際的數(shù)據(jù)預(yù)處理過程中,這4種功能不一定都用得到,而且,他們的使用也沒有先后順序,某種預(yù)處理可能先后要多次進行。 這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。10 數(shù)據(jù)清理要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),空缺值,識別刪除孤立點等。第一,噪聲:噪聲是一個測量變量中的隨即錯誤和偏差,包括錯誤的值或偏離期望的孤立點值,對于

16、噪聲數(shù)據(jù)有如下幾種處理方法:分箱法,聚類法識別孤立點,回歸。第二,空缺值的處理:目前最常用的方法是使用最肯定的值填充空缺值,如用一個全局常量替換空缺值,使用屬性的平均值填充空缺值或?qū)⑺性M按照某些 屬性分類,然后用同一類中屬性的平均值填充空缺值。第三,清洗臟數(shù)據(jù):異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫中的數(shù)據(jù)并不都是正確的,常常不可避免的存在著不完整,不一致,不精確和重復的數(shù)據(jù),這些數(shù)據(jù)統(tǒng)稱為“臟數(shù)據(jù)”,臟數(shù)據(jù)能使挖掘過程陷入混亂,導致不可靠的輸出。清洗臟數(shù)據(jù)可采用下面的方式:1手工實現(xiàn)方式,2用專門編寫的應(yīng)用程序,3采用概率統(tǒng)計學遠離查找數(shù)值異常的記錄,4對重復記錄的檢測和刪除.本文例子,由于從網(wǎng)上下載的數(shù)據(jù)形

17、式是excel形式文件,所以結(jié)構(gòu)方面沒有問題。對于缺省值,因為已經(jīng)無法獲取真實的數(shù)據(jù),所以或?qū)⑺性M按照某些屬性分類,然后用同一類中屬性的平均值填充空缺值。對軟件提示錯誤的值為了避免挖掘過程陷入混亂,導致不可靠的輸出,則用手動刪除方式刪除了幾條數(shù)據(jù)。三、研究方法及原理1、數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)

18、據(jù)挖掘也叫知識發(fā)現(xiàn)的過程。2、 J48決策樹J48 即決策樹 C4.5 算法。C4.5 算法一種分類決策樹算法 , 其核心算法是 ID3 算法。C4.5 算法繼承了 ID3 算法的優(yōu)點,并在以下幾方面對 ID3 算法進行了改進:用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;在樹構(gòu)造過程中進行剪枝;能夠完成對連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。C4.5 算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準確率較高。其缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導致算法的低效。3、關(guān)聯(lián)規(guī)則提出背景:1993年,Agrawal等人在首先提出關(guān)

19、聯(lián)規(guī)則概念,同時給出了相應(yīng)的挖掘算法AIS,但是性能較差。1994年,他們建立了項目集格空間理論,并依據(jù)上述兩個定理,提出了著名的Apriori算法,至今Apriori仍然作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法被廣泛討論,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。關(guān)聯(lián)規(guī)則最初提出的動機是針對購物籃分析(Market Basket Analysis)問題提出的。假設(shè)分店經(jīng)理想更多的了解顧客的購物習慣。特別是,想知道哪些商品顧客可能會在一次購物時同時購買?為回答該問題,可以對商店的顧客事物零售數(shù)量進行購物籃分析。該過程通過發(fā)現(xiàn)

20、顧客放入“購物籃”中的不同商品之間的關(guān)聯(lián),分析顧客的購物習慣。這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商了解哪些商品頻繁的被顧客同時購買,從而幫助他們開發(fā)更好的營銷策略。簡要介紹:關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則?;靖拍睿宏P(guān)聯(lián)

21、規(guī)則定義為:假設(shè)是項的集合,給定一個交易數(shù)據(jù)庫, 其中每個事務(wù)(Transaction)t是I的非空子集,即,每一個交易都與一個唯一的標識符TID(Transaction ID)對應(yīng)。關(guān)聯(lián)規(guī)則是形如的蘊涵式, 其中且, 和分別稱為關(guān)聯(lián)規(guī)則的先導(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)包含的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時包含Y的百分比,即條件概率。如果滿足最小支持度閾值和最小置信度閾值,則稱關(guān)聯(lián)規(guī)則是有趣的。這些閾

22、值由用戶或者專家設(shè)定。4、關(guān)聯(lián)規(guī)則算法:Apriori算法Apriori算法的預(yù)備知識關(guān)聯(lián)規(guī)則的挖掘分為兩步:(1)找出所有頻繁項集;(2)由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。而其總體性能由第一步?jīng)Q定。在搜索頻繁項集的時候,最簡單、基本的算法就是Apriori算法。它是R.Agrawal和R.Srikant于1994年提出的為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項集的原創(chuàng)性算法。算法的名字基于這樣一個事實:算法使用頻繁項集性質(zhì)的先驗知識。Apriori使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描數(shù)據(jù)庫,累積每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記作L1。然后

23、,L1用于找頻繁2項集的集合L2,L2用于找L3,如此下去,直到不能再找到頻繁k項集。找每個Lk需要一次數(shù)據(jù)庫全掃描。為提高頻繁項集逐層產(chǎn)生的效率,一種稱作Apriori性質(zhì)的重要性質(zhì)用于壓縮搜索空間。Apriori性質(zhì):頻繁項集的所有非空子集也必須是頻繁的。Apriori性質(zhì)基于如下觀察。根據(jù)定義,如果項集I不滿足最小支持度閾值min_sup,則I不是頻繁的,即P(I)<min_sup。如果項A添加到項集I,則結(jié)果項集(即IA)不可能比I 更頻繁出現(xiàn)。因此,IA也不是頻繁的,即P(IA)<min_sup。Apriori算法的核心思想該算法中有兩個關(guān)鍵步驟連接步和剪枝步。(1) 連

24、接步:為找出Lk(頻繁k項集),通過Lk-1與自身連接,產(chǎn)生候選k項集,該候選項集記作Ck;其中Lk-1的元素是可連接的。(2) 剪枝步:Ck是Lk的超集,即它的成員可以是也可以不是頻繁的,但所有的頻繁項集都包含在Ck中。掃描數(shù)據(jù)庫,確定Ck中每一個候選的計數(shù),從而確定Lk(計數(shù)值不小于最小支持度計數(shù)的所有候選是頻繁的,從而屬于Lk)。然而,Ck可能很大,這樣所涉及的計算量就很大。為壓縮Ck,使用Apriori性質(zhì):任何非頻繁的(k-1)項集都不可能是頻繁k項集的子集。因此,如果一個候選k項集的(k-1)項集不在Lk中,則該候選項也不可能是頻繁的,從而可以由Ck中刪除。這種子集測試可以使用所有

25、頻繁項集的散列樹快速完成。Apriori算法描述 Apriori算法,使用逐層迭代找出頻繁項集。    輸入:事務(wù)數(shù)據(jù)庫D;最小支持度閾值min_sup。    輸出:D 中的頻繁項集L。    1)L1 = find_frequent_1_itemsets(D);    2)for (k = 2; Lk-1  ; k+)     3)Ck = aproiri_gen(Lk-1,min_sup);  

26、60; 4)for each transaction t D /掃描 D 用于計數(shù)    5)Ct = subset(Ck,t); /得到 t 的子集,它們是候選    6)for each candidate c Ct    7)c.count+;    8)    9)Lk=c Ck | c.count min_sup    10) 11)return L = kLk; Procedure a

27、priori_gen (Lk-1:frequent(k-1)-itemsets) 1) for each itemsets l1Lk-1 2) for each itemsets l2Lk-1 3) if (l11=l21) (l12=l22)(l1k-2=l2k-2) (l1k-1<l2k-1) then 4) c=l1l2; / 連接步:產(chǎn)生候選 5) if has_infrequent_subset(c,Lk-1) then 6) delete c; / 剪枝步:刪除非頻繁的候選 7) else add c to Ck; 8) 9) return Ck; Procedure has

28、_infrequent_subset (c:candidate k-itemset;Lk-1:frequent(k-1)-itemsets) /使用先驗知識Apriori算法評價 基于頻繁項集的Apriori算法采用了逐層搜索的迭代的方法,算法簡單明了,沒有復雜的理論推導,也易于實現(xiàn)。但其有一些難以克服的缺點:(1)對數(shù)據(jù)庫的掃描次數(shù)過多。在Apriori算法的描述中,我們知道,每生成一個候選項集,都要對數(shù)據(jù)庫進行一次全面的搜索。如果要生成最大長度為N的頻繁項集,那么就要對數(shù)據(jù)庫進行N次掃描。當數(shù)據(jù)庫中存放大量的事務(wù)數(shù)據(jù)時,在有限的內(nèi)存容量下,系統(tǒng)I/O負載相當大,每次掃描數(shù)據(jù)庫的時間就會很長

29、,這樣其效率就非常低。(2)Apriori算法會產(chǎn)生大量的中間項集。Apriori_gen函數(shù)是用Lk-1產(chǎn)生候選Ck,所產(chǎn)生Ck由個k項集組成。顯然,k越大所產(chǎn)生的候選k項集的數(shù)量呈幾何級數(shù)增加。如頻繁1項集的數(shù)量為104個,長度為2的候選項集的數(shù)量將達到5*107個,如果要生成一個更長規(guī)則,其需要產(chǎn)生的候選項集的數(shù)量將是難以想象的,如同天文數(shù)字。(3)采用唯一支持度,沒有將各個屬性重要程度的不同考慮進去。在現(xiàn)實生活中,一些事務(wù)的發(fā)生非常頻繁,而有些事務(wù)則很稀疏,這樣對挖掘來說就存在一個問題:如果最小支持度閾值定得較高,雖然加快了速度,但是覆蓋的數(shù)據(jù)較少,有意義的規(guī)則可能不被發(fā)現(xiàn);如果最小支

30、持度閾定得過低,那么大量的無實際意義的規(guī)則將充斥在整個挖掘過程中,大大降低了挖掘效率和規(guī)則的可用性。這都將影響甚至誤導決策的制定。Apriori算法改進鑒于Apriori算法本身存在一些缺陷,在實際應(yīng)用中往往不能令人感到滿意。為了提高Apriori算法的性能,已經(jīng)有許多變種對Apriori進一步改進和擴展。可以通過以下幾個方面對Apriori算法進行改進:通過減少掃描數(shù)據(jù)庫的次數(shù)改進I/O的性能。改進產(chǎn)生頻繁項集的計算性能。尋找有效的并行關(guān)聯(lián)規(guī)則算法。引入抽樣技術(shù)改進生成頻繁項集的I/O和計算性能。擴展應(yīng)用領(lǐng)域。如:定量關(guān)聯(lián)規(guī)則、泛化關(guān)聯(lián)規(guī)則及周期性的關(guān)聯(lián)規(guī)則的研究。頻繁樹(FP-Tree)算

31、法在上面介紹的Apriori算法中,由于Apriori方法的固有的缺陷還是無法克服,即使進行了優(yōu)化,其效率也仍然不能令人滿意。Han Jiawei等人提出了基于頻繁模式樹(Frequent Pattern Tree,簡稱為FP-Tree)的發(fā)現(xiàn)頻繁項目集的算法FP-growth。這種方法在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻繁項目集壓縮成一棵頻繁模式樹,同時依然保留其中的管理信息。隨后再將FP-Tree分化成一些條件庫,每個庫和一個長度為L的頻繁項目集相關(guān),然后再對這些條件庫分別進行挖掘。當原始數(shù)據(jù)庫很大時,也可以結(jié)合劃分的方法使得一個FP-Tree可以放入主存中。實驗證明,F(xiàn)P-growth對

32、不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較Apriori算法有巨大的提高。這個算法只進行兩次數(shù)據(jù)庫掃描,它不使用候選項目集,直接壓縮數(shù)據(jù)庫成一個頻繁模式樹,最后通過這棵樹生成關(guān)聯(lián)規(guī)則。4、 計算結(jié)果1、 實驗圖表J48決策樹關(guān)聯(lián)規(guī)則Apriori算法五、結(jié)論和建議1、結(jié)論1 J48決策樹如圖中,Correctly Classified Inatances 為48%,Incorrectly Classified Instances為51%,足以說明J48決策樹對本文所研究的問題來說是一個很不好的模型。2 關(guān)聯(lián)規(guī)則如圖中Apriori / Apriori算法運行結(jié)果Minimum suppor

33、t: 0.25 (249 instances) /最小支持度0.25,即最少需要249個實例Minimum metric <confidence>: 0.9 /最小度量<置信度>: 0.9Number of cycles performed: 15 /進行了15輪搜索Generated sets of large itemsets: /生成的頻繁項集 Size of set of large itemsets L(1): 3 /頻繁1項集:7個Size of set of large itemsets L(2): 3 /頻繁2項集:3個Size of set

34、of large itemsets L(3): 1 /頻繁3項集:1個2、建議1) 選址分析可以幫助你選擇消費頻繁的地區(qū)。想法是:消費的地方離的近一些,組成購物區(qū),以便進一步刺激客戶在這些商業(yè)機構(gòu)的消費狀況。例如,人們在選擇的吃飯或者消費的地方時,肯定希望周邊有多家商店可以同時選擇,所以如果附近有多家商店的話,可能有助于增加消費狀況。這是在選擇同類商品的情況下。2) 如果周邊有多家飯店有不同的美食,可能誘發(fā)來消費的顧客一路挑選其實東西。例如,在吃過主食之后,回去的途中,看到了奶茶或者飯后甜點,可能會決定再買點飯后甜點好了。3) 選址分析也可以幫助不同類的商店具體分布情況,如果奶茶店離主食店很近

35、,那么會同時刺激消費,也會形成地區(qū)影響。如果人們普遍認為這個地區(qū)附近的東西比較好,會比較趨向與經(jīng)常來這邊消費。4) 同時,這也是房地產(chǎn)商非常關(guān)心的問題。如果房地產(chǎn)選擇的開發(fā)區(qū)附近有購物廣場或者購物區(qū),那么這也會為他們的房子增值不少。六、評價1、遇到的問題及解決方案1 數(shù)據(jù)采集問題:由于挖掘結(jié)果、數(shù)據(jù)量大和數(shù)據(jù)權(quán)威性的要求,對我在數(shù)據(jù)采集上造成了困難。解決辦法是:在數(shù)據(jù)堂網(wǎng)站上搜集到了相對完整和準確的大量數(shù)據(jù)。2 Weka中文亂碼的問題:由于Weka的默認字符集編碼是CP1252,所以如果導入的數(shù)據(jù)文件中包含中文字符,就會出現(xiàn)亂碼的情況。解決辦法是:在Weka的安裝目錄下找到RunWeka.in

36、i文件,找到fileEncoding一行,將Cp1252修改為UTF-8,這樣就能正常顯示中文了。若仍有問題,則改為GB2312。3 Weka使用的問題:雖然Weka軟件是非常小巧而且流行的數(shù)據(jù)挖掘軟件,但是由于我之前從未接觸過,因此很不熟悉軟件的使用方法和不習慣使用界面,尤其是由于全英文界面,且對英文版的專業(yè)術(shù)語不懂,所以對數(shù)據(jù)挖掘造成了一定的阻礙和困難。解決辦法是:熟悉軟件的界面和軟件的使用。4 論文寫作經(jīng)驗缺乏的問題。2、對論文的評價首先,說明本篇論文設(shè)計的目的及意義。數(shù)據(jù)挖掘技術(shù)在時代中所起的作用都是有目共睹的,論文的主題是基于大眾數(shù)據(jù)的商業(yè)選址,利用數(shù)據(jù)挖掘算法作為研究的工具符合時代的要求,如果數(shù)據(jù)量足夠完整,能夠為商業(yè)選址問題提供的指導性方法。因此,基于數(shù)據(jù)的商

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論