數(shù)據(jù)挖掘感想_第1頁
數(shù)據(jù)挖掘感想_第2頁
數(shù)據(jù)挖掘感想_第3頁
數(shù)據(jù)挖掘感想_第4頁
數(shù)據(jù)挖掘感想_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)發(fā)掘感想經(jīng)過學(xué)習(xí)一個(gè)學(xué)期的數(shù)據(jù)發(fā)掘課對數(shù)據(jù)發(fā)掘有了必定的理解,也掌握了,理解了一些數(shù)據(jù)發(fā)掘頂用到的重要的算法。在這個(gè)數(shù)據(jù)膨脹的大數(shù)據(jù)時(shí)代我們需要挑選,查問數(shù)據(jù),辦理數(shù)據(jù)。我們看到的聽到的都是數(shù)據(jù),在這互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)更多,信息好多??墒怯行┚W(wǎng)站比方百度,谷歌,雅虎等為我們的學(xué)習(xí)生活帶來了好多便利。我們?yōu)榱烁恼_更有效的利用和辦理數(shù)據(jù)一定要利用數(shù)據(jù)發(fā)掘技術(shù),由于有了這技術(shù)我們此后的數(shù)字化生活變得更方便,不會(huì)由于數(shù)據(jù)多,信息多而感覺討厭。因此我真實(shí)的領(lǐng)會(huì)到了數(shù)據(jù)發(fā)掘的優(yōu)勝性。同時(shí)我學(xué)習(xí)一些算法事后也感覺到了其復(fù)雜性,由于數(shù)據(jù)發(fā)掘算法眾多,掌握起來比較困難。我們主要學(xué)習(xí)了貝葉斯分類算法,決議樹分類算法等算法,這些是比較簡單而且利用比較寬泛的算法。也學(xué)習(xí)了數(shù)據(jù)的觀點(diǎn),數(shù)據(jù)理解包含采集原始數(shù)據(jù)、數(shù)據(jù)描繪、數(shù)據(jù)研究剖析和數(shù)據(jù)質(zhì)量描繪。我們第一采集大批的數(shù)據(jù)而后對此進(jìn)行數(shù)據(jù)描繪分類數(shù)據(jù),而后優(yōu)化凈化數(shù)據(jù),并對此進(jìn)行分類整理,保留查問,搜尋數(shù)據(jù)等。貝葉斯算法:貝葉斯分類鑒于貝葉斯定理,貝葉斯定理是由18世紀(jì)概率論和決議論的早起研究者ThomasBayes發(fā)明的,故用其名字命名為貝葉斯定理。分類算法的比較研究發(fā)現(xiàn),一種稱為樸實(shí)貝葉斯分類法的簡單貝葉斯分類法能夠與決議樹和經(jīng)過精選的神經(jīng)網(wǎng)絡(luò)分類器相媲美。用于大型數(shù)據(jù)庫,貝葉斯分類法也已表現(xiàn)出高正確率和高速度。當(dāng)前研究許多的貝葉斯分類器主要有四種,分別是:NaiveBayes、TAN、BAN和GBN。樸實(shí)貝葉斯分類是一種十分簡單的分類算法,思想基礎(chǔ)是這樣的:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類型出現(xiàn)的概率,哪個(gè)最大,就以為此待分類項(xiàng)屬于哪個(gè)類。貝葉斯定理(Bayes'theorem)是概率論中的一個(gè)結(jié)果,它跟從機(jī)變量的條件概率以及邊沿概率散布相關(guān)。在有些對于概率的解說中,貝葉斯定理能夠見告我們怎樣利用新憑證改正已有的見解。往常,事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下的概率是不相同的;但是,這二者是有確定的關(guān)系,貝葉斯定理就是這類關(guān)系的陳說。貝葉斯公式供給了從先驗(yàn)概率P(A)、P(B)和P(B|A)計(jì)算后驗(yàn)概率P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B),P(A|B)跟著P(A)和P(B|A)的增添而增添,跟著P(B)的增添而減少,即假如B獨(dú)立于A時(shí)被察看到的可能性越大,那么B對A的支持度越小。舉例:一個(gè)天氣預(yù)計(jì)問題兩個(gè)假定H:h1={晴日}、h2={非晴日}可察看到的數(shù)據(jù):溫度高+和溫度低-先驗(yàn)知識p(h)北京晴日的概率:P(h1)=非晴日:P(h2)=察看到的概率P(D|h):P(溫度高|晴日)=P(溫度低|非晴日)=問題:此刻察看到溫度低,判斷能否非晴日?極大似然計(jì)算P(非晴日|溫度低)∝P(溫度低|非晴日)=P(晴日|溫度低)∝P(溫度低|晴日)=答案:非晴日決議樹:決議樹:訓(xùn)練集:數(shù)據(jù)的會(huì)合,用于生成樹(模型)測試集:用于測試樹(模型)的性能決議樹作用:主要就是訓(xùn)練數(shù)據(jù)除掉臟數(shù)據(jù)經(jīng)過訓(xùn)練集算法指導(dǎo)下生成決議樹新數(shù)據(jù)進(jìn)行區(qū)分不然是“三拍”決議N個(gè)切割屬性的訓(xùn)練集數(shù)據(jù)大批產(chǎn)生,技術(shù)的成熟供給基礎(chǔ)數(shù)據(jù)大批產(chǎn)生這一點(diǎn)就不用說了,看看我們每個(gè)人一天的生活里會(huì)有多大的比率泡在網(wǎng)上,再加上將來各種可穿著設(shè)施,物聯(lián)網(wǎng)的普及,數(shù)據(jù)量之大難以想象。我主要想談?wù)劶夹g(shù),或許技術(shù)這個(gè)詞不夠?qū)I(yè),自己在編程,數(shù)據(jù)儲存方面也不是特別認(rèn)識,這里就談?wù)勊惴ㄟ@一部分。記得原來在《數(shù)據(jù)構(gòu)造和算法》一開篇就提到對于等差數(shù)列乞降的計(jì)算機(jī)乞降計(jì)算,我們從小就知道等差數(shù)列的乞降可利用算法公式,該算法利用了首尾兩個(gè)數(shù)據(jù)和是相同的數(shù)據(jù)構(gòu)造特點(diǎn)進(jìn)而更簡短。告訴計(jì)算機(jī)進(jìn)行乞降命令能夠是兩種方法1.一項(xiàng)項(xiàng)的加,2.直接利用算法,利用第一個(gè)方式可能在數(shù)據(jù)量少的時(shí)候計(jì)算速度與第二種對比不會(huì)有太大的差別,但假如數(shù)據(jù)量很大,后者的優(yōu)勝性將很顯然。此后在接觸到Apriori算法時(shí)候里用看到算法會(huì)用到一些剪枝手段減少計(jì)算機(jī)運(yùn)算量的時(shí)候不由得贊不絕口。此外,各式各種的統(tǒng)計(jì)軟件的背后都有著大批的contributors將自己的算法程序包分享到網(wǎng)上,供此后人更便利的調(diào)用使用?;ヂ?lián)網(wǎng)的這類集體智慧的共享創(chuàng)建方式讓此后人站在古人的肩膀上,走的更遠(yuǎn)??墒窃谡{(diào)用這些算法的過程中仍是要對算法自己有一些原理上的理解,算法和數(shù)據(jù)構(gòu)造是鑰匙和鎖,我們在實(shí)質(zhì)操作的過程中還需要依據(jù)詳細(xì)的狀況靈巧和適合的使用,會(huì)在后邊的分享里細(xì)說。信息也是產(chǎn)品很多企業(yè)所擁有的客戶信息不只是對自己有價(jià)值,同時(shí)對別人也相同擁有價(jià)值。此刻好多的淘寶商鋪之間也有了好多的花費(fèi)者數(shù)據(jù)的共享?;ヂ?lián)網(wǎng)也改變了品牌和品牌之間的關(guān)系,一個(gè)擁有好多青少年少兒數(shù)據(jù)的企業(yè)完整能夠?qū)⒆约旱臄?shù)據(jù)分享給做少兒食品的企業(yè),或許更進(jìn)一步,分享相互所擁有的平臺。2.數(shù)據(jù)發(fā)掘for“actionable”insightsdiscovery數(shù)據(jù)發(fā)掘有好多不同的名稱,比如KDD(knowledgediscoveryindatabase),或許BI(businessintelligence),展望建模(predictivemodel)等,但針對我們業(yè)務(wù)感覺,我更愿意把數(shù)據(jù)發(fā)掘定義為發(fā)現(xiàn)能夠讓品牌商產(chǎn)生真實(shí)落地行為的洞察或發(fā)現(xiàn)。以下舉兩個(gè)在項(xiàng)目中的小例子:在電商的數(shù)據(jù)發(fā)掘中,我們經(jīng)過抵花費(fèi)者的表達(dá)研究認(rèn)識花費(fèi)者購置產(chǎn)品的關(guān)著要點(diǎn)是什么,影響產(chǎn)品滿意度的重要要素是什么,其次我們會(huì)抵花費(fèi)者的線上購置行為數(shù)據(jù)進(jìn)行研究,去看花費(fèi)者購置除了買自己品牌的商品同時(shí)還會(huì)購置哪些競品品牌。聯(lián)合這表達(dá)和行為的洞察,再深入研究競品的商品展現(xiàn),宣傳,品牌形象,等等各方面和本品之間的差別點(diǎn)。這樣品牌商在電商營運(yùn)中更能有方向性的去改良產(chǎn)品和花費(fèi)者之間的交流方式。因此,數(shù)據(jù)發(fā)掘是在一項(xiàng)探測大批數(shù)據(jù)以發(fā)現(xiàn)存心義的模式和規(guī)則的業(yè)務(wù)流程,我們關(guān)注的要點(diǎn)在于發(fā)現(xiàn)的知識能否存心義,是否a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論