熵值法原理及應(yīng)用實踐_第1頁
熵值法原理及應(yīng)用實踐_第2頁
熵值法原理及應(yīng)用實踐_第3頁
熵值法原理及應(yīng)用實踐_第4頁
熵值法原理及應(yīng)用實踐_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、美商天睿信息系統(tǒng)(北京)有限公司2013年3月熵值法原理及應(yīng)用實踐培訓(xùn)目標(biāo)理解熵值法的原理1.學(xué)會使用熵值賦權(quán)2.領(lǐng)悟熵值應(yīng)用實踐3.熵值法原理及應(yīng)用實踐2 熵值法如何計算權(quán)重?3 怎樣合理應(yīng)用熵值法? 熵值法是做什么用的?143/8/2022Teradata Confidential日常工作中常常需要計算指標(biāo)權(quán)重專家打分法(德爾菲法)層次分析法(AHP)主成份分析法因子分析法多元回歸賦權(quán)法線性回歸邏輯回歸熵值法請大家想一想,你知道的幾種指標(biāo)賦權(quán)方法?請大家想一想,你知道的幾種指標(biāo)賦權(quán)方法?53/8/2022Teradata Confidential賦權(quán)算法分類對于權(quán)重的確定,目前已提出各種不

2、同的方法,可以分為:往往依靠專家打分和定性分析精確性不夠主觀性太強一般采用數(shù)理統(tǒng)計方法和技術(shù)過于依賴數(shù)據(jù),缺乏業(yè)務(wù)指導(dǎo)很多方法不能反映指標(biāo)對目標(biāo)的影響方向主觀賦權(quán)客觀賦權(quán) 二者結(jié)合二者結(jié)合使用最有效使用最有效63/8/2022Teradata Confidential“熵”是一種客觀的賦權(quán)方法“熵”原本是物理中熱力學(xué)概念,后來發(fā)展為信息論的熵值法理論,在指標(biāo)賦權(quán)指標(biāo)賦權(quán)方面的應(yīng)用比較廣泛?!办亍笔遣淮_定性信息的度量(就好比人的身高、體重,可以用來衡量人的體格):信息量越大,不確定性就越小,熵也就越?。恍畔⒘吭叫?,不確定性越大,熵也越大。熵大熵大越不確定信息量小影響小權(quán)重小小熵小熵小越確定信息量

3、大影響大權(quán)重大大73/8/2022Teradata Confidential指標(biāo)賦權(quán)中熵值法的一般原理根據(jù)熵的特性,我們可以用熵值來判斷某用熵值來判斷某個指標(biāo)的離散個指標(biāo)的離散程度程度:指標(biāo)指標(biāo)熵值越小,熵值越小,離離散散程度越大,該指標(biāo)對綜合評價的影響程度越大,該指標(biāo)對綜合評價的影響(即權(quán)重)也就越大(即權(quán)重)也就越大。熵值法原理及應(yīng)用實踐2 熵值法如何計算權(quán)重?3 怎樣合理應(yīng)用熵值法? 熵值法是做什么用的?193/8/2022Teradata Confidential“熵”的一般計算公式nffHniiiln)ln(1niiiiXXf1其中:,n為總樣本數(shù),iX為指標(biāo)值 一個規(guī)劃求一個規(guī)劃求

4、極值問題極值問題103/8/2022Teradata Confidential“權(quán)”的一般計算公式miijjHHw1)1()1(其中:為第j個指標(biāo)(維度)的熵,m為指標(biāo)總數(shù)jH113/8/2022Teradata Confidential利用樣本數(shù)據(jù)上感受下熵的變化請大家動一動手,用請大家動一動手,用EXCEL計算出樣本數(shù)據(jù)的熵!計算出樣本數(shù)據(jù)的熵!感受下不同分布的指標(biāo)數(shù)據(jù)算出來的熵值會怎樣變化?感受下不同分布的指標(biāo)數(shù)據(jù)算出來的熵值會怎樣變化? 詳見附錄詳見附錄1123/8/2022Teradata Confidential熵值法的一般步驟步驟一步驟一確立指標(biāo)體系確立指標(biāo)體系步驟二步驟二清洗指

5、標(biāo)極值清洗指標(biāo)極值步驟三步驟三歸一化指標(biāo)處理歸一化指標(biāo)處理步驟四步驟四計算指標(biāo)計算指標(biāo)“熵熵”和和“權(quán)權(quán)”步驟五步驟五指標(biāo)加權(quán)計算得分指標(biāo)加權(quán)計算得分133/8/2022Teradata Confidential熵值法的一般步驟之一:確立指標(biāo)體系案例解說案例解說 我們用手游認(rèn)知客戶挖掘模型實例來解說熵值法計算指標(biāo)權(quán)重的全過程。下圖是手游認(rèn)知客戶挖掘模型的二級二級指標(biāo)指標(biāo)評評價價體系體系,其中各個維度指標(biāo)對應(yīng)的權(quán)重系數(shù)均是通過熵值法計算出來的。 下面具體看下模型中 “手游認(rèn)知能力手游認(rèn)知能力”部分指標(biāo)權(quán)重的計算過程。一一級級二二級級143/8/2022Teradata Confidential熵

6、值法的一般步驟之二:清洗指標(biāo)極值案例解說案例解說方法方法:即剔除各指標(biāo)中極大或者極小的值,一般用比較合理的上下限值替換這些極值。目的是減少極值數(shù)據(jù)對該指標(biāo)的熵的影響;原則原則:剔除占樣本總數(shù)不到1-2%但指標(biāo)值貢獻(xiàn)率超過20-30%以上的極值樣本樣本id游戲流量(K)貢獻(xiàn)率98163580.8%98264010.8%98366310.8%98466350.8%98571930.9%98674320.9%98779931.0%98883851.0%98986911.1%990100381.2%991102631.3%992104171.3%993109361.3%994113071.4%9951

7、42541.8%996150731.9%997153261.9%998164802.0%999165422.0%1000615737.6%樣本id游戲流量(K)貢獻(xiàn)率98161070.9%98261070.9%98361070.9%98461070.9%98561070.9%98661070.9%98761070.9%98861070.9%98961070.9%99061070.9%99161070.9%99261070.9%99361070.9%99461070.9%99561070.9%99661070.9%99761070.9%99861070.9%99961070.9%10006107

8、0.9%去極值后153/8/2022Teradata Confidential熵值法的一般步驟之三:歸一化指標(biāo)處理案例解說案例解說方法方法:指標(biāo)歸一化過程也稱之為指標(biāo)的無量綱化,即將指標(biāo)實際值轉(zhuǎn)化為不受量綱影響的指標(biāo)平價值。方法比較多,具體見附錄無綱量化方法一覽;原則原則:比較常用的是臨界值法和Z-score法(更合理,保持了更合理,保持了數(shù)據(jù)的連續(xù)性,減少數(shù)據(jù)信息丟失數(shù)據(jù)的連續(xù)性,減少數(shù)據(jù)信息丟失),最終將所有指標(biāo)轉(zhuǎn)化為正區(qū)間里面,二者具體處理如下:sxxzii_iiiiixxxxyminmaxmin分箱處理邏輯處理臨界值法臨界值法Z-score法法1,2,3 ,100(0,1163/8/2

9、022Teradata Confidential熵值法的一般步驟之四:計算指標(biāo)“熵”和“權(quán)”案例解說案例解說nffHniiiln)ln(1手游歷史付費類似,按此公式還可以繼續(xù)計算出訪問次數(shù)手游H訪問天數(shù)手游H和)1()1()1()1(手游訪問天數(shù)手游訪問次數(shù)手游歷史付費手游歷史付費手游歷史付費HHHHw同理可以計算出和訪問次數(shù)手游W訪問天數(shù)手游W熵權(quán)173/8/2022Teradata Confidential熵值法的一般步驟之五:指標(biāo)加權(quán)計算得分案例解說案例解說 利用以上3個指標(biāo)的權(quán)重和歸一化指標(biāo)值,計算上級指標(biāo)的分?jǐn)?shù):手游認(rèn)知能力得分= 0.336*手游歷史付費金額 +0.212*手游訪問

10、次數(shù) +0.452*手游訪問天數(shù)。 當(dāng)然,模型其他部分的底層指標(biāo)權(quán)重和一級指標(biāo)權(quán)重均可以按以上步驟計算得到,并一層層由下往上進(jìn)行加權(quán),最終得到模型的綜合得分。方法方法:計算綜合得分就是指標(biāo)合成的過程,一般可以采用加法原理和乘法原理;原則原則:最常用的是加法合成法,其具體處理如下:加法合成法加法合成法熵值法原理及應(yīng)用實踐2 熵值法如何計算權(quán)重?3 怎樣合理應(yīng)用熵值法? 熵值法是做什么用的?1193/8/2022Teradata Confidential熵值法的優(yōu)點在于其客觀、準(zhǔn)確和簡便優(yōu)點優(yōu)點 熵值法能深刻反映出指標(biāo)的區(qū)分能力,進(jìn)而確定權(quán)重。這種思想和我們的得分評價模型指標(biāo)選擇的機理是機理是一致

11、的一致的; 是一種客觀賦權(quán)法,有理論依據(jù),相對主觀賦權(quán)具有較高的可信度和精確度較高的可信度和精確度; 算法簡單,實踐起來比較方便操作方便操作,無需借助其他分析軟件實現(xiàn)。203/8/2022Teradata Confidential熵值法不是萬能賦權(quán)法缺缺點點 智能程度不夠智能程度不夠高高。與多元回歸和主成份等統(tǒng)計方法不同,它不能考慮指標(biāo)與指標(biāo)間橫向的影響(如:相關(guān)性),更不能確定指標(biāo)對目標(biāo)/得分的影響方向(如:正相關(guān)或負(fù)相關(guān)); 同其他客觀賦權(quán)法一樣,若無業(yè)務(wù)經(jīng)驗的指導(dǎo),權(quán)重權(quán)重可能失真可能失真; 對樣本的依賴性比較大對樣本的依賴性比較大,隨著建模樣本變化,權(quán)重會有一定波動;213/8/202

12、2Teradata Confidential項目中合理應(yīng)用熵值法的幾點個人經(jīng)驗: 必須結(jié)合結(jié)合專家打分專家打分法法才可以發(fā)揮熵值法的優(yōu)勢。事實上,指標(biāo)評價體系建立的基礎(chǔ)就是專家經(jīng)驗; 在確定權(quán)重前,需要完全確定指標(biāo)對目標(biāo)得分的影響指標(biāo)對目標(biāo)得分的影響方向方向。非線性的指標(biāo)要么剔除,要么進(jìn)行預(yù)處理; 熵值法對底層指標(biāo)比較適用對底層指標(biāo)比較適用,而對上層指標(biāo)權(quán)重需要重點借助專家經(jīng)驗; 不要怕麻煩,好好處理所有指標(biāo)的極值問題,對權(quán)重的優(yōu)化有好處;個人經(jīng)驗個人經(jīng)驗223/8/2022Teradata Confidential附錄1. 計算熵值的數(shù)據(jù)樣本2. 熵值法的SQL實現(xiàn)腳本3.無綱量方法一覽233/8/2022Teradata Confidential附錄附錄1. 計算熵值的數(shù)據(jù)樣本附錄2. 熵值法的SQL實現(xiàn)腳本243/8/2022Teradata Confi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論