




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、美商天睿信息系統(tǒng)(北京)有限公司2013年3月熵值法原理及應(yīng)用實(shí)踐培訓(xùn)目標(biāo)理解熵值法的原理1.學(xué)會(huì)使用熵值賦權(quán)2.領(lǐng)悟熵值應(yīng)用實(shí)踐3.熵值法原理及應(yīng)用實(shí)踐2 熵值法如何計(jì)算權(quán)重?3 怎樣合理應(yīng)用熵值法? 熵值法是做什么用的?143/8/2022Teradata Confidential日常工作中常常需要計(jì)算指標(biāo)權(quán)重專家打分法(德爾菲法)層次分析法(AHP)主成份分析法因子分析法多元回歸賦權(quán)法線性回歸邏輯回歸熵值法請(qǐng)大家想一想,你知道的幾種指標(biāo)賦權(quán)方法?請(qǐng)大家想一想,你知道的幾種指標(biāo)賦權(quán)方法?53/8/2022Teradata Confidential賦權(quán)算法分類對(duì)于權(quán)重的確定,目前已提出各種不
2、同的方法,可以分為:往往依靠專家打分和定性分析精確性不夠主觀性太強(qiáng)一般采用數(shù)理統(tǒng)計(jì)方法和技術(shù)過于依賴數(shù)據(jù),缺乏業(yè)務(wù)指導(dǎo)很多方法不能反映指標(biāo)對(duì)目標(biāo)的影響方向主觀賦權(quán)客觀賦權(quán) 二者結(jié)合二者結(jié)合使用最有效使用最有效63/8/2022Teradata Confidential“熵”是一種客觀的賦權(quán)方法“熵”原本是物理中熱力學(xué)概念,后來發(fā)展為信息論的熵值法理論,在指標(biāo)賦權(quán)指標(biāo)賦權(quán)方面的應(yīng)用比較廣泛。“熵”是不確定性信息的度量(就好比人的身高、體重,可以用來衡量人的體格):信息量越大,不確定性就越小,熵也就越??;信息量越小,不確定性越大,熵也越大。熵大熵大越不確定信息量小影響小權(quán)重小小熵小熵小越確定信息量
3、大影響大權(quán)重大大73/8/2022Teradata Confidential指標(biāo)賦權(quán)中熵值法的一般原理根據(jù)熵的特性,我們可以用熵值來判斷某用熵值來判斷某個(gè)指標(biāo)的離散個(gè)指標(biāo)的離散程度程度:指標(biāo)指標(biāo)熵值越小,熵值越小,離離散散程度越大,該指標(biāo)對(duì)綜合評(píng)價(jià)的影響程度越大,該指標(biāo)對(duì)綜合評(píng)價(jià)的影響(即權(quán)重)也就越大(即權(quán)重)也就越大。熵值法原理及應(yīng)用實(shí)踐2 熵值法如何計(jì)算權(quán)重?3 怎樣合理應(yīng)用熵值法? 熵值法是做什么用的?193/8/2022Teradata Confidential“熵”的一般計(jì)算公式nffHniiiln)ln(1niiiiXXf1其中:,n為總樣本數(shù),iX為指標(biāo)值 一個(gè)規(guī)劃求一個(gè)規(guī)劃求
4、極值問題極值問題103/8/2022Teradata Confidential“權(quán)”的一般計(jì)算公式miijjHHw1)1()1(其中:為第j個(gè)指標(biāo)(維度)的熵,m為指標(biāo)總數(shù)jH113/8/2022Teradata Confidential利用樣本數(shù)據(jù)上感受下熵的變化請(qǐng)大家動(dòng)一動(dòng)手,用請(qǐng)大家動(dòng)一動(dòng)手,用EXCEL計(jì)算出樣本數(shù)據(jù)的熵!計(jì)算出樣本數(shù)據(jù)的熵!感受下不同分布的指標(biāo)數(shù)據(jù)算出來的熵值會(huì)怎樣變化?感受下不同分布的指標(biāo)數(shù)據(jù)算出來的熵值會(huì)怎樣變化? 詳見附錄詳見附錄1123/8/2022Teradata Confidential熵值法的一般步驟步驟一步驟一確立指標(biāo)體系確立指標(biāo)體系步驟二步驟二清洗指
5、標(biāo)極值清洗指標(biāo)極值步驟三步驟三歸一化指標(biāo)處理歸一化指標(biāo)處理步驟四步驟四計(jì)算指標(biāo)計(jì)算指標(biāo)“熵熵”和和“權(quán)權(quán)”步驟五步驟五指標(biāo)加權(quán)計(jì)算得分指標(biāo)加權(quán)計(jì)算得分133/8/2022Teradata Confidential熵值法的一般步驟之一:確立指標(biāo)體系案例解說案例解說 我們用手游認(rèn)知客戶挖掘模型實(shí)例來解說熵值法計(jì)算指標(biāo)權(quán)重的全過程。下圖是手游認(rèn)知客戶挖掘模型的二級(jí)二級(jí)指標(biāo)指標(biāo)評(píng)評(píng)價(jià)價(jià)體系體系,其中各個(gè)維度指標(biāo)對(duì)應(yīng)的權(quán)重系數(shù)均是通過熵值法計(jì)算出來的。 下面具體看下模型中 “手游認(rèn)知能力手游認(rèn)知能力”部分指標(biāo)權(quán)重的計(jì)算過程。一一級(jí)級(jí)二二級(jí)級(jí)143/8/2022Teradata Confidential熵
6、值法的一般步驟之二:清洗指標(biāo)極值案例解說案例解說方法方法:即剔除各指標(biāo)中極大或者極小的值,一般用比較合理的上下限值替換這些極值。目的是減少極值數(shù)據(jù)對(duì)該指標(biāo)的熵的影響;原則原則:剔除占樣本總數(shù)不到1-2%但指標(biāo)值貢獻(xiàn)率超過20-30%以上的極值樣本樣本id游戲流量(K)貢獻(xiàn)率98163580.8%98264010.8%98366310.8%98466350.8%98571930.9%98674320.9%98779931.0%98883851.0%98986911.1%990100381.2%991102631.3%992104171.3%993109361.3%994113071.4%9951
7、42541.8%996150731.9%997153261.9%998164802.0%999165422.0%1000615737.6%樣本id游戲流量(K)貢獻(xiàn)率98161070.9%98261070.9%98361070.9%98461070.9%98561070.9%98661070.9%98761070.9%98861070.9%98961070.9%99061070.9%99161070.9%99261070.9%99361070.9%99461070.9%99561070.9%99661070.9%99761070.9%99861070.9%99961070.9%10006107
8、0.9%去極值后153/8/2022Teradata Confidential熵值法的一般步驟之三:歸一化指標(biāo)處理案例解說案例解說方法方法:指標(biāo)歸一化過程也稱之為指標(biāo)的無量綱化,即將指標(biāo)實(shí)際值轉(zhuǎn)化為不受量綱影響的指標(biāo)平價(jià)值。方法比較多,具體見附錄無綱量化方法一覽;原則原則:比較常用的是臨界值法和Z-score法(更合理,保持了更合理,保持了數(shù)據(jù)的連續(xù)性,減少數(shù)據(jù)信息丟失數(shù)據(jù)的連續(xù)性,減少數(shù)據(jù)信息丟失),最終將所有指標(biāo)轉(zhuǎn)化為正區(qū)間里面,二者具體處理如下:sxxzii_iiiiixxxxyminmaxmin分箱處理邏輯處理臨界值法臨界值法Z-score法法1,2,3 ,100(0,1163/8/2
9、022Teradata Confidential熵值法的一般步驟之四:計(jì)算指標(biāo)“熵”和“權(quán)”案例解說案例解說nffHniiiln)ln(1手游歷史付費(fèi)類似,按此公式還可以繼續(xù)計(jì)算出訪問次數(shù)手游H訪問天數(shù)手游H和)1()1()1()1(手游訪問天數(shù)手游訪問次數(shù)手游歷史付費(fèi)手游歷史付費(fèi)手游歷史付費(fèi)HHHHw同理可以計(jì)算出和訪問次數(shù)手游W訪問天數(shù)手游W熵權(quán)173/8/2022Teradata Confidential熵值法的一般步驟之五:指標(biāo)加權(quán)計(jì)算得分案例解說案例解說 利用以上3個(gè)指標(biāo)的權(quán)重和歸一化指標(biāo)值,計(jì)算上級(jí)指標(biāo)的分?jǐn)?shù):手游認(rèn)知能力得分= 0.336*手游歷史付費(fèi)金額 +0.212*手游訪問
10、次數(shù) +0.452*手游訪問天數(shù)。 當(dāng)然,模型其他部分的底層指標(biāo)權(quán)重和一級(jí)指標(biāo)權(quán)重均可以按以上步驟計(jì)算得到,并一層層由下往上進(jìn)行加權(quán),最終得到模型的綜合得分。方法方法:計(jì)算綜合得分就是指標(biāo)合成的過程,一般可以采用加法原理和乘法原理;原則原則:最常用的是加法合成法,其具體處理如下:加法合成法加法合成法熵值法原理及應(yīng)用實(shí)踐2 熵值法如何計(jì)算權(quán)重?3 怎樣合理應(yīng)用熵值法? 熵值法是做什么用的?1193/8/2022Teradata Confidential熵值法的優(yōu)點(diǎn)在于其客觀、準(zhǔn)確和簡(jiǎn)便優(yōu)點(diǎn)優(yōu)點(diǎn) 熵值法能深刻反映出指標(biāo)的區(qū)分能力,進(jìn)而確定權(quán)重。這種思想和我們的得分評(píng)價(jià)模型指標(biāo)選擇的機(jī)理是機(jī)理是一致
11、的一致的; 是一種客觀賦權(quán)法,有理論依據(jù),相對(duì)主觀賦權(quán)具有較高的可信度和精確度較高的可信度和精確度; 算法簡(jiǎn)單,實(shí)踐起來比較方便操作方便操作,無需借助其他分析軟件實(shí)現(xiàn)。203/8/2022Teradata Confidential熵值法不是萬能賦權(quán)法缺缺點(diǎn)點(diǎn) 智能程度不夠智能程度不夠高高。與多元回歸和主成份等統(tǒng)計(jì)方法不同,它不能考慮指標(biāo)與指標(biāo)間橫向的影響(如:相關(guān)性),更不能確定指標(biāo)對(duì)目標(biāo)/得分的影響方向(如:正相關(guān)或負(fù)相關(guān)); 同其他客觀賦權(quán)法一樣,若無業(yè)務(wù)經(jīng)驗(yàn)的指導(dǎo),權(quán)重權(quán)重可能失真可能失真; 對(duì)樣本的依賴性比較大對(duì)樣本的依賴性比較大,隨著建模樣本變化,權(quán)重會(huì)有一定波動(dòng);213/8/202
12、2Teradata Confidential項(xiàng)目中合理應(yīng)用熵值法的幾點(diǎn)個(gè)人經(jīng)驗(yàn): 必須結(jié)合結(jié)合專家打分專家打分法法才可以發(fā)揮熵值法的優(yōu)勢(shì)。事實(shí)上,指標(biāo)評(píng)價(jià)體系建立的基礎(chǔ)就是專家經(jīng)驗(yàn); 在確定權(quán)重前,需要完全確定指標(biāo)對(duì)目標(biāo)得分的影響指標(biāo)對(duì)目標(biāo)得分的影響方向方向。非線性的指標(biāo)要么剔除,要么進(jìn)行預(yù)處理; 熵值法對(duì)底層指標(biāo)比較適用對(duì)底層指標(biāo)比較適用,而對(duì)上層指標(biāo)權(quán)重需要重點(diǎn)借助專家經(jīng)驗(yàn); 不要怕麻煩,好好處理所有指標(biāo)的極值問題,對(duì)權(quán)重的優(yōu)化有好處;個(gè)人經(jīng)驗(yàn)個(gè)人經(jīng)驗(yàn)223/8/2022Teradata Confidential附錄1. 計(jì)算熵值的數(shù)據(jù)樣本2. 熵值法的SQL實(shí)現(xiàn)腳本3.無綱量方法一覽233/8/2022Teradata Confidential附錄附錄1. 計(jì)算熵值的數(shù)據(jù)樣本附錄2. 熵值法的SQL實(shí)現(xiàn)腳本243/8/2022Teradata Confi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年項(xiàng)目管理誤區(qū)及糾正試題及答案
- 2025年深圳市房屋買賣合同(公寓型)
- 努力提升水利水電工程應(yīng)試能力試題及答案
- 2025年農(nóng)村集體土地使用權(quán)轉(zhuǎn)讓合同范本
- 遺產(chǎn)繼承家庭調(diào)解合同(2篇)
- 行政管理專科公共關(guān)系學(xué)的綜合批判研究及試題及答案
- 2024年南平交通一卡通有限公司招聘真題
- 2024年臨滄市滄源縣檢驗(yàn)檢測(cè)所招聘真題
- 市政工程執(zhí)業(yè)能力試題及答案
- 2024水利水電工程考試攻略及試題答案
- 中醫(yī)內(nèi)科學(xué):汗證
- 房產(chǎn)土地稅培訓(xùn)課件
- 電子行業(yè)研發(fā)工程師勞動(dòng)合同范本
- 法律法規(guī)合規(guī)性評(píng)價(jià)記錄表
- 能源英語面面觀 知到智慧樹網(wǎng)課答案
- 電腦時(shí)代需要練字辯論材料
- MOOC 職業(yè)生涯開發(fā)與管理-南京郵電大學(xué) 中國(guó)大學(xué)慕課答案
- 中國(guó)書法藝術(shù)智慧樹知到期末考試答案2024年
- 2024年4月自考00015英語(二)試題
- 上汽大眾電子說明書
- 數(shù)學(xué)建模與系統(tǒng)仿真智慧樹知到期末考試答案2024年
評(píng)論
0/150
提交評(píng)論