數(shù)據(jù)分析之道_第1頁
數(shù)據(jù)分析之道_第2頁
數(shù)據(jù)分析之道_第3頁
數(shù)據(jù)分析之道_第4頁
數(shù)據(jù)分析之道_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析之道主要內(nèi)容第一章什么是數(shù)據(jù)分析(道)第二章數(shù)據(jù)分析方法(術(shù))第三章常見統(tǒng)計陷阱第四章PPT蘊(yùn)含的人生哲理主要內(nèi)容第一章什么是數(shù)據(jù)分析(道)數(shù)據(jù)分析是什么?什么是做好數(shù)據(jù)分析的關(guān)鍵?分析要思考業(yè)務(wù),尤其接地氣分析要言之有物,行之有效數(shù)據(jù)分析,一個容易入門,但不容易精通的工種做好的數(shù)據(jù)分析的關(guān)鍵是什么?---數(shù)據(jù)分析的核心能力在方法(統(tǒng)計技術(shù))之外數(shù)據(jù)分析是什么?字面拆解:數(shù)據(jù)+分析有骨有肉方成一個人分析是骨架(主)數(shù)據(jù)是血肉(附)常見錯誤只有數(shù)據(jù):機(jī)器報表不行么?只有分析:你是瞎猜的吧?以分析為骨,數(shù)據(jù)為肉,有理有據(jù)組織報告什么是做好數(shù)據(jù)分析的關(guān)鍵?數(shù)據(jù)分析的核心:思路>方法思路:業(yè)務(wù)調(diào)研+邏輯思考+創(chuàng)新靈感+可行建議方法:匯總統(tǒng)計,MakeitSimple(切忌喧兵奪主)數(shù)據(jù)分析的價值與定位百度的T序列不重視數(shù)據(jù)分析(數(shù)據(jù)分析的能力難以評價)麥肯錫一個分析報告賣了上千萬(僅有簡單統(tǒng)計)數(shù)據(jù)分析對一個企業(yè)有巨大價值,作用于業(yè)務(wù)發(fā)展的前(探索)期或階段性改進(jìn)期(顛覆創(chuàng)新),先有數(shù)據(jù)分析,才能定業(yè)務(wù)模型,再后是建模優(yōu)化(機(jī)器學(xué)習(xí))數(shù)據(jù)分析人才同樣的數(shù)據(jù),仁者見仁智者見智,分析人才的不可復(fù)制性做好數(shù)據(jù)分析的人不一定能當(dāng)老大,但至少能當(dāng)軍師分析要思考業(yè)務(wù),尤其要接地氣數(shù)據(jù)分析要輕方法,重調(diào)研方法上,基本統(tǒng)計即可調(diào)研上,親臨一線去詢問、了解實際情況,切近“數(shù)據(jù)空想”只有熟悉業(yè)務(wù),才能提供有價值的分析和建議網(wǎng)絡(luò)流行語“一線城市的金領(lǐng)總想賺三線城市屌絲的錢”數(shù)據(jù)顯示,三線城市網(wǎng)購分化嚴(yán)重,有很多大買家三線城市中有不少網(wǎng)購發(fā)燒友?。?shù)據(jù)顯示,三線城市不熱衷移動互聯(lián)網(wǎng)是三線城市人群文化程度低吧?客戶流失僅僅是推廣效果不夠理想嗎?嫁了有錢人,不做了,不想辛苦看心情.心情好就上線前陣子北京下大雨,把工廠沖跨了,目前還未恢復(fù)生產(chǎn)客戶自己一個人一個公司,他有事情就去出去不上廣告,有的客戶去上廁所也要暫停廣告老板不在國內(nèi),負(fù)責(zé)人每次都要等余額為零,才申請續(xù)費(fèi),導(dǎo)致拖延帳戶一直斷斷續(xù)續(xù)地上線,維護(hù)問其為何這樣,客戶回答有做seo,所以不會把重心放于花錢推廣沒有時間去銀行轉(zhuǎn)賬,又不相信不相信快遞取款,網(wǎng)銀續(xù)費(fèi)也不會客戶需要時間評估效果,對比推廣時和暫停時的效果差距客戶說太忙了,兩個孩子要上幼兒園要考大學(xué),沒時間不靠推廣帶來客戶,只是讓他的客戶在百度上能找到他的信息就可以客戶說錢全部都買寶馬了生意太好了百度不是不做只是暫時不做,已經(jīng)停了2個多月了客戶沒有給任何理由,打電話告訴他失效需要續(xù)費(fèi)了,客戶說知道,問客戶什么時候續(xù),他說這個是他的自由,不需要我們管要續(xù)的時候自然會續(xù),說我們不要太羅嗦客戶家里出事動手術(shù),花十幾萬,沒錢了懷孕了,沒時間沒精力管感覺或者聽朋友說惡意點擊多有接到電話,但是一直沒成單,客戶只看結(jié)果,不看過程百度太貴做不起,關(guān)鍵詞價格太高了。多次預(yù)算照樣在中午撞線,支出和投入不成正比真正來自一線各種略帶喜感的說法僅坐在辦公室里對著流失客戶數(shù)據(jù)空想可行么?分析要言之有物,行之有效數(shù)據(jù)分析,我們真的是僅僅想分析么?價值分析報告的及格線是“言之有物”---事實優(yōu)秀線是“振聾發(fā)聵”或“醍醐灌頂”---分析滿分線是產(chǎn)生了切實有效的行動方案---建議分析實例:我們處于市場領(lǐng)先地位,針對次位的競爭對手近期發(fā)展進(jìn)行數(shù)據(jù)分析及格線:競爭對手發(fā)展勢頭很猛,市場份額怎樣變化優(yōu)秀線:雖然競爭對手近期勢頭發(fā)展很猛,但實際上他突出的優(yōu)勢在X,劣勢在Y,未來可能會采取什么行動,同時市場上的其它競爭對手也不容忽視滿分線:針對于競爭對手的可能動作,我們有如下方面需要改進(jìn):加強(qiáng)優(yōu)勢A、B、C,與X達(dá)成進(jìn)一步戰(zhàn)略合作關(guān)系,并收購Y等等Whatisyourpoint?CommonsenseAmazing,IneverthoughtthisbeforeLetustakeaction主要內(nèi)容第二章數(shù)據(jù)分析方法(術(shù))匯總統(tǒng)計:起源匯總統(tǒng)計:設(shè)計匯總統(tǒng)計:樣本量匯總統(tǒng)計:分拆技巧OLAP概念機(jī)器學(xué)習(xí)數(shù)據(jù)分析的的基本方法是統(tǒng)計為什么會有統(tǒng)計?怎樣設(shè)計統(tǒng)計指標(biāo)?我們能信任統(tǒng)計結(jié)果么?統(tǒng)計的發(fā)展極致:OLAP與機(jī)器學(xué)習(xí)匯總統(tǒng)計---起源起源:用單個數(shù)或者數(shù)的小集合捕獲可能很大值集的各種特征頻率度量:眾數(shù)位置度量:均值和中位數(shù)散度度量:極差和方差數(shù)據(jù)分布:頻率表、直方圖多元匯總統(tǒng)計:相關(guān)矩陣、協(xié)方差矩陣總不能指望大老板看幾十萬客戶的消費(fèi)變化細(xì)節(jié),來得到公司運(yùn)營狀況吧匯總數(shù)據(jù)的初衷如公司的組織結(jié)構(gòu),高層期望看到工作概要,而不是細(xì)節(jié)匯總統(tǒng)計---設(shè)計標(biāo)準(zhǔn)差:想設(shè)計一個指標(biāo),可以用來衡量數(shù)據(jù)集合的發(fā)散性,經(jīng)過如下思考每個樣本的偏差累加就可以衡量(realnum-mean)加和偏差較大的值應(yīng)該具有更大的權(quán)重(realnum-mean)^2

集合中數(shù)字越多,方差越大,應(yīng)該與集合大小無關(guān)Mean((realnum-mean)^2)量綱與原始數(shù)據(jù)不同,無法比Sqrt(Mean((realnum-mean)^2))最終結(jié)果,RMSE匯總數(shù)據(jù)指標(biāo)的設(shè)計,源于非常樸素的思想貌似這個寬度就可以體現(xiàn)數(shù)據(jù)的波動性大小5次約會,每次遲到10分鐘,與一次遲到50分鐘,哪個更難接受?匯總統(tǒng)計---需要多少樣本在美國總統(tǒng)選舉的各種民意測驗中,關(guān)于支持率的一個常用標(biāo)準(zhǔn)是置信度為95%(誤差在+-2.5%以內(nèi),置信區(qū)間寬度為5%),那么要達(dá)到這樣的標(biāo)準(zhǔn)需要多少人呢?根據(jù)置信度公式:計算出N=1067,至少要一千個樣本以上,才能滿足需求Z0.025=1.96,通過R語句

qnorm(0.025,low=F)得到n是樣本數(shù)量,n越大,置信區(qū)間越小p是真實的概率,p=0.5時候,p(1-p)最小,所需n最大統(tǒng)計概率是真實概率的一個模擬既然是模擬,就期望有方法來描述其準(zhǔn)確性置信度/置信區(qū)間社區(qū)中部分居民進(jìn)行投票,支持率為70%,真實的概率以90%的概率在68%~72%之間Whoissmarter?日久見人心通過智力測驗,鄰居A的兒子比鄰居B的兒子聰明?得分分別為98與104置信區(qū)間+-5匯總統(tǒng)計---細(xì)拆與匯總的權(quán)衡能細(xì)致,越細(xì)致越好收入上漲<<在吉林地區(qū)的收入大幅上漲,其它地域不變?nèi)俗钕矚g穿黑色的鞋子(20%)<<5~10歲的女性最喜歡穿紅色的童皮鞋(70%)越細(xì)致,分類的數(shù)據(jù)更純,信息也更有效(準(zhǔn)確)分類更純:人的更細(xì)致分類,鞋的更細(xì)致分類信息更準(zhǔn)確:只有20%的人最喜歡黑色鞋子,但70%的5~10歲的女性喜歡紅色的童皮鞋但需要保證細(xì)致分類后,分類中的樣本足夠,使統(tǒng)計結(jié)論具有有效性做鞋子喜好的調(diào)研,選取了全中國3000位客戶,為了結(jié)論更加細(xì)致有效,對年齡、性別、居住地點做了分類統(tǒng)計結(jié)論:北京的5-10歲女童,100%喜歡男性旅游鞋可信否?滿足北京、5-10歲、女童這三個條件的樣本數(shù)量是1在數(shù)據(jù)量充足的時候,加一些維度、拆的更細(xì),使得每個小格里的樣本更加類似,結(jié)論更加準(zhǔn)確但數(shù)據(jù)不足或分拆未帶來結(jié)論改變,就不能再拆,以免結(jié)果失去統(tǒng)計意義在機(jī)器學(xué)習(xí)領(lǐng)域,這個問題換了個馬甲OLAP概念---匯總統(tǒng)計的極致工具概念:多維度多層次匯總觀察數(shù)據(jù)的技術(shù)核心概念維維的層次維的成員度量核心操作切片/切塊鉆取/上卷旋轉(zhuǎn)/鉆透實例:Excel數(shù)據(jù)透視表應(yīng)用:交互分析與萬能報表圖:數(shù)據(jù)立方體機(jī)器學(xué)習(xí)---模型為什么work?為什么存在實例“毛澤東抽煙比林彪不抽煙活的久”,還要勸人不要抽煙?概率分布問題,“人事”與“天命”雖然選擇健康的生活方式(盡人事),我們也得聽天命(自己是正態(tài)曲線的好尾巴,還是壞尾巴),但是天命整體分布可以變得更好(正態(tài)曲線的中軸向好的一面偏移)如果沒有附加的抽煙信息,如何從一組壽齡數(shù)據(jù)中作預(yù)測?目標(biāo):MSE做為評價指標(biāo),MSE越小越好方法:數(shù)據(jù)為正態(tài)分布的話,中位數(shù)(即波峰)做為預(yù)測值使得MSE最小通過如上兩點,證明抽煙信息對預(yù)測是有效的,如果一個人抽煙,那么我們預(yù)測他活到70歲,否則75歲如果再多一個酗酒的信息呢?統(tǒng)計、模型、哲學(xué)的統(tǒng)一世界的本源抽煙與否的壽齡統(tǒng)計分布圖主要內(nèi)容第三章常見統(tǒng)計陷阱相關(guān)關(guān)系的誤解精心挑選的平均數(shù)無所不能的圖形缺失或不匹配的比較偏差的抽樣掛羊頭賣狗肉的推理數(shù)據(jù)分析的基本方法是統(tǒng)計,核心是思考與推理統(tǒng)計數(shù)據(jù)+思考推理這個結(jié)合會有很多陷阱,為大家解析下這些“雙刃劍”相關(guān)關(guān)系的誤解實例人的智力vs胳膊長度很多事物表現(xiàn)出相關(guān)性,但之間并不存在著因果關(guān)系(即:兩個事物之間的關(guān)聯(lián)關(guān)系并不能用于說明其中一個變化將引起另一個的變化)。這種情況的出現(xiàn)大都為同受第三方因素的影響。以書思今,學(xué)以致用客戶高消費(fèi),低流失率所以要拔高新戶的月消費(fèi)?精心挑選的平均數(shù)實例:小區(qū)業(yè)主申請減稅vs賣房子當(dāng)數(shù)據(jù)分布呈現(xiàn)正態(tài)分布特點(鐘形的曲線)時,均值、中位數(shù)、眾數(shù)都落在相同的點上。而數(shù)據(jù)分布成有偏差的特征(類似于滑梯)時,那么均值、眾數(shù)、中位數(shù)就相差甚遠(yuǎn)了。以書思今,學(xué)以致用分布與平均數(shù)一樣重要兩個特例往往使得數(shù)據(jù)的統(tǒng)計結(jié)果產(chǎn)生很大的變化小區(qū)房價究竟是多少?即使具有同樣的均值,這兩份數(shù)據(jù)是不是很不一樣呢?數(shù)據(jù)分布與均值同樣重要無所不能的圖形以書思今,學(xué)以致用我們可以利用圖形表達(dá)自己任何的想法,而且誰也無法指責(zé)同樣一份數(shù)據(jù),2010年的前6個月,使用產(chǎn)品的客戶數(shù)量由最初的2w,以每個月100個的速度增長。缺失或不匹配的比較實例1(缺失的比較)臨床顯示,本藥品在10分鐘內(nèi)可以殺死5w個感冒病毒數(shù)據(jù)因為缺失了比較對象,而毫無意義實例2(不匹配的比較)美國海軍的死亡率是0.9%,而同時期紐約市民的死亡率是1.6%,得出結(jié)論參軍是很安全的。比較對象不明確、或者根本不可比,也是常見的以書思今,學(xué)以致用為什么評估策略效果要有對照組?同質(zhì)組的選取特征樣本數(shù)量完全隨機(jī)按行業(yè)分層抽樣1000標(biāo)準(zhǔn)差:0.077+-5%:48.2%+-3%:30.2%+-1%:10.3%標(biāo)準(zhǔn)差:0.055+-5%:63.3%+-3%:41.2%+-1%:14.3%6000標(biāo)準(zhǔn)差:0.032+-5%:88.6%+-3%:65.7%+-1%:24.8%標(biāo)準(zhǔn)差:0.029+-5%:90.8%+-3%:68.8%+-1%:26.4%20000標(biāo)準(zhǔn)差:0.021+-5%:98.0%+-3%:83.8%+-1%:35.9%標(biāo)準(zhǔn)差:0.020+-5%:98.5%+-3%:85.5%+-1%:37.3%可見評估策略收益,但無對照組置信說明,是多么的不靠譜選取與實驗組在前三個月月環(huán)比增長差距<1%的客戶群做為同質(zhì)對照組,不做任何策略,查看實驗組和對照組在之后一個月的自然增長差異的分布這個圖看著很promising,但實際呢?對照組實驗組偏差的抽樣實例10個硬幣拋1000次,總會出現(xiàn)10個正面或9個正面的情況全國人民喜聞樂見油價上漲,水價聽證會大家紛紛反饋價格上漲影響不大采用有偏差的樣本,可以產(chǎn)生任何人需要的任何結(jié)果在抽樣統(tǒng)計的時候,要充分思考抽樣的過程對樣本造成了怎樣的偏差,以及這個偏差對我們的結(jié)論有什么影響以書思今,學(xué)以致用分層抽樣12次策略實驗的收入增長效果策略大漲6%以上真牛!世界人民生活在水深火熱中,國內(nèi)人民幸福無比中國的新聞聯(lián)播是我見過最善于利用這點得出結(jié)論的組織,哦不,可能朝鮮的電視臺運(yùn)用的更加如火純青掛羊頭賣狗肉的推理實例公司與工會發(fā)生了摩擦,于是公司進(jìn)行了一項“調(diào)查”來統(tǒng)計多少職員對工會不滿。公司公布了這樣的結(jié)論:“大多數(shù)(78%)的職員反對工會,所以有必要取消工會。”360打官司老敗訴,騰訊打官司總勝訴,周鴻祎:“真的是東方不?。∨c騰訊強(qiáng)大的法務(wù)相比,我們實力不濟(jì),自愧不如!”最普遍的表現(xiàn)是將看上去極像,而完全不同的兩件事混淆在一起,得出了似是而非的推理。笑一下小品《賣拐》中“腳麻”的橋段主要內(nèi)容第四章PPT蘊(yùn)含的人生哲理拋開PPT清楚自己的目標(biāo)講一個故事形象化思維考慮受眾發(fā)揮想象有了確實的數(shù)據(jù),有了完善的分析,有了創(chuàng)新的建議,但還需要有好的展現(xiàn)因為你需要說服別人!拋開PPT---神重于形不要讓PPT成為負(fù)擔(dān)多數(shù)糟糕的PPT,并不是PPT做的不好,而是本身就不是好故事幫忙往事UE的PPT清楚自己的目標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論