




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、.:.;經(jīng)過呼叫中心電子郵件整合顧客的聲音進入決策支持系統(tǒng),為客戶流失預(yù)測Kristof Coussement, Dirk Van den Poel比利時根特大學(xué),經(jīng)濟及工商管理學(xué)院,市場營銷系,比利時根特Tweekerkenstraat 2, 9000 Ghent,2006年10月9日收到;2007年8月7日收到修正方式, 2021年1月21日被接受;2021年三月十七日在線提供摘要:我們研討流失預(yù)測決策支持系統(tǒng)性能優(yōu)化的問題。 特別是,我們調(diào)查以下措施的有利影響,即經(jīng)過呼叫中心的電子郵件參與顧客的聲音, 即文字信息 到一個只運用傳統(tǒng)營銷信息的客戶流失預(yù)測系統(tǒng)。 我們發(fā)現(xiàn),參與非構(gòu)造化文本信
2、息到傳統(tǒng)的流失預(yù)測模型,使預(yù)測性能顯著添加。 從管理的角度來看,這個綜合框架協(xié)助 營銷決策者更好確實定最容易改動的客戶。 因此,針對他們的客戶保管活動能更有效,由于這個預(yù)測方法能更好得預(yù)測客戶誰更有能夠分開。關(guān)鍵詞: 客戶關(guān)系管理CRM , 數(shù)據(jù)發(fā)掘 , 客戶流失預(yù)測 , 文本發(fā)掘 , 呼叫中心電子郵件 , 顧客的聲音VOC , 二元分類模型簡介在過去,公司專注于銷售產(chǎn)品、知識甚少的效力或針對購買產(chǎn)品客戶的有關(guān)戰(zhàn)略。今天的商業(yè)正在從這種“以產(chǎn)品為中心演化到“以客戶為中心的環(huán)境。企業(yè)需求找到方法來獲得和提高市場份額,同時降低本錢7。因此,現(xiàn)有企業(yè)必需重新思索與客戶的業(yè)務(wù)關(guān)系24??蛻絷P(guān)系管理CR
3、M正在成為在今天的商業(yè)環(huán)境中勝利的關(guān)鍵要素2,16。目前正經(jīng)過實施數(shù)據(jù)發(fā)掘從構(gòu)造化數(shù)據(jù)倉庫獲得客戶信息35。管理客戶流失的一種方法,是預(yù)測哪些客戶最有能夠分開,然后針對性實施鼓勵措施使他們留下來。因此,這些是支持營銷決策者對正確的客戶實施正確的營銷活動。一個由Burez和Van den Poel進展的田間實驗9曾經(jīng)闡明,公司從大范圍轉(zhuǎn)向針對性的營銷戰(zhàn)略轉(zhuǎn)變,可以提高盈利才干。堅持和滿足現(xiàn)有的客戶比高耗費地吸引新客戶利潤更高26。確定哪些顧客最容易改動很重要17。為了建立一個有效的客戶挽留方案,公司必需建立一個模型,該模型應(yīng)盡能夠地準確;現(xiàn)實上Van den Poel and Lariviere
4、 36的研討闡明堅持率的一個小變化能夠會導(dǎo)致盈利才干的顯著變化。我們決議有必要經(jīng)過呼叫中心電子郵件整合客戶的聲音進入一個傳統(tǒng)的客戶流失預(yù)測模型使其成為更好的模型:一個具有較高的預(yù)測性能的模型。資訊科技的急速開展和互聯(lián)網(wǎng)使客戶與公司溝通更加方便,呼叫中心正在迅速擴展范圍,數(shù)量和規(guī)模1,由于許多公司依托他們處理客戶關(guān)懷的問題,提供產(chǎn)品信息25。然而,市場營銷經(jīng)理往往忽視這些有價值的信息,由于i它不能直接適用于傳統(tǒng)營銷環(huán)境;ii很少關(guān)注內(nèi)部知識如何轉(zhuǎn)換為文字信息分析的方式;iii并無隨時可以運用的框架整合信息。我們開發(fā)了一個客戶流失預(yù)測決策支持系統(tǒng),它從營銷數(shù)據(jù)庫的客戶電子郵件中集成了自在格式的文字
5、資料。雖然以前的研討中曾經(jīng)過VOC了解客戶的需求和行為如文獻10,11,21,仍沒有在流失預(yù)測模型中運用VOC的先例。方法論Fig. 1. An integrated churn-modeling system that uses structured, database-related information and free-formatted, textual information.采用構(gòu)造化的、數(shù)據(jù)庫相關(guān)信息和自在格式的、文本信息的一個完好的流失模型系統(tǒng)LSI:潛在語義索引CV:交叉驗證數(shù)據(jù)搜集構(gòu)造化的營銷信息可以從普通的營銷數(shù)據(jù)庫中提獲得到,普通營銷數(shù)據(jù)庫中一切事務(wù)和與市場營銷相關(guān)
6、的信息都已儲存。相比之下,呼叫中心的電子郵件是高度非構(gòu)造化的。因此,從電子郵件中提取信息,需求細致的前期處置,獲得相關(guān)細節(jié)并列入流失檢測/預(yù)測決策支持系統(tǒng)。預(yù)處置數(shù)據(jù)和文本預(yù)處置構(gòu)造化信息內(nèi)部可以在一個非常低的本錢下,預(yù)加工和整合到我們的模型中。但是原始電子郵件本質(zhì)上是非構(gòu)造化的。他們經(jīng)過索爾頓的向量空間被轉(zhuǎn)換成一個構(gòu)造化表示31: 電子郵件是被描畫為一個向量加權(quán)頻率指定的單詞。因此電子郵件是n維向量,在字典中有n個不同的項。每個向量部分反映的遵守電子郵件6語義的相應(yīng)項的重要性,并且假設(shè)項存在,每個組件有一個分量,否那么為零。因此,電子郵件的搜集用一個電子郵件項的矩陣表示。Fig. 2 sho
7、ws the steps in this pre-processing phase whereby raw emails become a term-by- matrix.raw text cleaning:原始文本清洗word-token separation:單詞標志分別tokenization:標志化case conversion:實例轉(zhuǎn)換part-of-speech taggingPOS:詞類標注stemming:變形term filtering:項過濾stopwords removal:無用詞移除manual check:人工檢查term vector weighting:向量項加權(quán)
8、document vector aggregation:文檔向量聚集 第一步,原始文本清洗,從文字中刪除特殊字符和標點符號,與參考運用的代名詞數(shù)據(jù)集的字典中的單詞比較,拼寫錯誤糾正。將輸入流標志化轉(zhuǎn)換成記號或文字。它對將被轉(zhuǎn)換為小寫大小寫轉(zhuǎn)換的單詞運用空白分隔符。詞性標注單詞語法類別:有益的名詞,動詞,描畫詞和副詞或者無益的。其次,項被他們的詞干所取代,例如connect是 connected, connecting, connection, 等的詞干,顯著減少項數(shù)量5和提高檢索性能19。一個基于字典的詞干被運用。當一個項是不能識別的,規(guī)范的決策規(guī)那么適用于給這個項正確的詞干。 這個過程的結(jié)果
9、是高維電子郵件的矩陣,有許多不同的項。這個矩陣經(jīng)過懇求項過濾而減少:生僻字被淘汰,由于他們在未來的分類中很少有用。詞頻按照Zipf分布37:因此,其中一半只出現(xiàn)一次或兩次。消除這些閾值內(nèi)的單詞,往往產(chǎn)生很大的節(jié)約22。無用詞如“the或a也將被刪除。下一步,講話的無益的部分被排除在外。一個項過濾階段的最后一步是手動檢查暫時字典,刪除不相關(guān)的字詞。 在項的矢量加權(quán)階段,構(gòu)造每封電子郵件的加權(quán)項向量。到如今為止,在電子郵件項矩陣的值只是原始的項在一封電子郵件中出現(xiàn)的頻率。Spark Jones33闡明當運用加權(quán)的項矢量時,檢索性能顯著改善,。項權(quán)重往往是經(jīng)過確定產(chǎn)品的項的頻率TF和逆電子郵件頻率I
10、DF27-29,34。結(jié)果是一個高維加權(quán)電子郵件矩陣。附錄A詳細引見了項的矢量加權(quán)階段。 在最后一步,產(chǎn)生聚合電子郵件的矩陣即電子郵件向量聚合。其目的是使屬于同一客戶的電子郵件向量聚集。這是必要的,由于客戶可以在察看期間發(fā)送多個電子郵件,當從一個角度預(yù)測點出發(fā),預(yù)測每個個人客戶。作為這樣一個聚集同一客戶的一切電子郵件信息是必要的。一切郵件第i項的聚合權(quán)重Awij,屬于下標j每個不同的項運用作為流失建模階段特征會導(dǎo)致解釋變量無力。此外,由于高維特征空間,一個電子郵件大部分權(quán)重是零。因此,運用大而稀疏的電子郵件矩陣將在預(yù)測建模方面適得其反。 維度縮減電子郵件矩陣匯總加權(quán)維度經(jīng)過運用潛在語義索引LS
11、I被減少。組合在一同相關(guān)項減少了特征空間的維數(shù) 12。 Deerwester等人12利用奇數(shù)值分解SVD的方式從電子郵件語義上概括。它運用的某些項,出如今類似的電子郵件中建立項之間的關(guān)系。因此,SVD工程,從高維項空間的電子郵件到一個規(guī)范正交,語義,概念組合在一同的類似項的潛在的子空間。因此,每一個概念可以用許多不同的關(guān)鍵字來描畫,由于相對于降低的特征空間中其他概念,它具有較高的區(qū)分才干。更詳細的LSI運用SVD的信息,請參見附錄B。最正確維度選擇降維過程中的SVD階段的強度是至關(guān)重要的。理想的情況下,數(shù)的概念k,必需足夠大,以適宜在電子郵件中搜集的一切根底和相關(guān)的概念,又必需足夠小,以防止模
12、型出現(xiàn)擬合抽樣誤差和不重要的細節(jié)。此外,獲得最優(yōu)的k必需是從一個角度預(yù)測點出發(fā)是可行的。在要素分析的文獻中,這樣的選擇依然是一個懸而未決的問題。 Deerwester等人12建議運用業(yè)務(wù)規(guī)范,即K值,產(chǎn)生良好的性能。在我們的運用程序,我們對SVD的輸出預(yù)測性能特別感興趣。最初的預(yù)測模型驗證時,不能夠知道什么K值將導(dǎo)致一個最正確的處理方案時。因此,假設(shè)包含太少的概念,參數(shù)k的選擇不當是無效的;假設(shè)有太多不相關(guān)的概念納入,那么計算會很昂貴,。因此,參數(shù)選擇程序是必要的。我們構(gòu)建幾個rank- K模型和最有利的rank- K模型基于交叉驗證的性能保管作進一步分析。因此,最正確的K值是在運用了五倍交叉
13、驗證的訓(xùn)練集上獲得。訓(xùn)練集分為5個大小相等的子集。反復(fù)地,每個部分是用于驗證,而其他部分用于訓(xùn)練。因此,在每一種情況下 訓(xùn)練集預(yù)測一次。交叉驗證性能更好地反映了看不見的數(shù)據(jù)的真正性能。最后,它是可以選擇最有利的交叉驗證模型的根底上最正確的k值。kim18指出,對數(shù)據(jù)分析師來說思索信息量和預(yù)測模型的復(fù)雜性之間的關(guān)系是非常重要的,由于緊湊的信息模型顯示了在預(yù)測性能和魯棒性方面的大大提高。建模2.3.1. 建模技術(shù)與變量的選擇運用邏輯回歸。在運用它時, 為了變成一個適當?shù)臄?shù)據(jù)3,一個極大似然函數(shù)生成并最大化。利用訓(xùn)練集T = (xi,yi)和i = 1,2,N 和輸入數(shù)據(jù)的xiRn代碼和相應(yīng)二進制目
14、的分類yi 0,1 ,邏輯回歸是用來估計概率P(y = 1|x)經(jīng)過以下公式:xiRn是一個n維輸入向量,w為參數(shù)向量和w0為攔截。Neslin等23表示,運用這種技術(shù)是由于它的概念很簡單8,后驗概率的封鎖方式的處理方案是可用的,它提供了在流失預(yù)測中的快速和穩(wěn)定的結(jié)果。變量選擇是根據(jù)他們的預(yù)測性能消除一些變量的一個子集選擇的過程。Kim等人18指出,運用一個變量選擇技術(shù)的主要有三個緣由:節(jié)省計算時間,從最少的變量中提取盡能夠多的信息,提高模型的可了解性和使決策模型更好地概括。我們的研討采用了前瞻性的選拔程序:該算法在一定時間內(nèi)添加一個變量。第一個進入模型的變量,具有最高的X2統(tǒng)計。在每一步中,
15、其他的變量被以為是列入最終模型,直到停頓規(guī)那么觸發(fā),前瞻性選擇添加變量停頓。本規(guī)范的變量選擇技術(shù)的選擇,使得它很容易實施,而更復(fù)雜的算法計算更加昂貴,并且需求額外的參數(shù)設(shè)置。2.3.2.評價規(guī)范為了評價分類模型的性能,運用兩種常用的規(guī)范是:接納操作曲線AUC下的電梯和地域。電梯是最常用的績效衡量規(guī)范評價分類模型。它反映了事件的流失密度在總數(shù)據(jù)庫中的密度相對添加。電梯越高,預(yù)測模型越好。在市場營銷運用中,它的添加是有趣的,尤其是在排名前10的情況下最有能夠流失。營銷決策者通常是在整個營銷數(shù)據(jù)庫中只需10的權(quán)益,由于預(yù)算往往是有限的,為減少流失通常涉及的行動在整個客戶數(shù)據(jù)庫中只需10。實踐上,一切
16、的案件都是按照從最有能夠流失到最不容易流失。之后,排名前10的情況下最有能夠流失的密度與整個客戶搜集的流失的密度相比。這種密度的添加,被稱為頂級等分電梯。直觀地說,等分電梯的兩種手段,在排名前10的情況下最有能夠流失,流失的密度是在整個數(shù)據(jù)庫中的流失的密度的兩倍。AUC是思索與該事件的真正類的事件的預(yù)測類,思索一切能夠的臨界值。因此,AUC思索到能夠的是閾值范圍的個人級的性能。假設(shè)真陽性TP是正確識別的陽性數(shù),假陽性FP是歸類為陽性陰性數(shù),假陰性FN被確定為陰性的真正陽性案例數(shù),真陰性TN是歸類為陰性的案例數(shù)然后靈敏度TP /TP + FN:預(yù)測為陽性的陽性例的比例;特異性TN /TN + F
17、P:預(yù)測為陰性的陰性例的比例對于這些多種多樣不同的閾值。接納機操作特性曲線ROC是一個相對于1-特異性靈敏度的二維圖。為了比較兩個或更多分類模型,接納機操作特性曲線下計算面積的。這項措施是用來評價二進制分類系統(tǒng)的性能15。為了測試,假設(shè)兩個AUCS 是不同的,可以懇求非參數(shù)檢驗等。 13。閱歷證明研討資料在我們的研討中,我們運用了一個大型的比利時報紙出版公司獲得的數(shù)據(jù)。用戶支付一個固定的價錢,他們的報紙根據(jù)認購的長度而定套餐和促銷優(yōu)惠。公司不允許用戶屆滿日期前終了其認購。因此,客戶流失預(yù)測問題涉及預(yù)測客戶能否將在到期后的4周內(nèi)重新訂閱。在此期間,報紙出版公司還提供報紙,為了讓用戶在規(guī)定時間更新
18、其認購,公司擁有一個構(gòu)造化的營銷數(shù)據(jù)庫,買賣和認購的相關(guān)信息都存儲在其中,他們保管一切客戶的電子郵件發(fā)送到呼叫中心。圖3顯示我們的研討分析中的時間窗口 Fig.3. Time window of analysis從2002年1月至2005年9月的訂閱數(shù)據(jù)進展了分析,因此,它是能夠的定義依賴和解釋變量。2004年7月和2005年7月之間對一切重建點進展了審議。一位顧客被視為一個流失客戶,未在到期日的4周后重新訂閱。解釋變量構(gòu)建了兩個可用的信息類型。這些都是用來預(yù)測能否將重新訂閱。第一種類型的變量包含構(gòu)造化營銷數(shù)據(jù)庫中的信息。這些變量包含在30個月內(nèi)的信息。他們被分為4個類別見附錄C:客戶端/公司
19、的互動變量訂閱相關(guān)變量重建和特定變量社會經(jīng)濟人口統(tǒng)計第二類信息,包括他/她在去年同期經(jīng)過電子郵件發(fā)送的一切認購信息。由于這些信息是高度非構(gòu)造化,郵件預(yù)處置代表他們在我們的客戶流失預(yù)測模型中。為了比較從客戶流失預(yù)測模型的呼叫中心電子郵件中獲得的非構(gòu)造化信息的有利影響,可以思索在認購的最后任期內(nèi)至少發(fā)送一個電子郵件訂閱。表1和表2總結(jié)了隨機分成訓(xùn)練和測試集的數(shù)據(jù)特征。訓(xùn)練集,以獲得最正確的SVD維和模型估計,而測試集是用來驗證和比較不同的模型。 選擇最優(yōu)維度文本預(yù)處置階段,生成高維電子郵件矩陣。從預(yù)測的觀念來看,這是行不通的。其最正確的降低范圍是經(jīng)過在訓(xùn)練數(shù)據(jù)上運用一個交叉驗證程序獲得的。圖4顯示
20、了這種交叉驗證的結(jié)果; X軸和Y軸代表的AUC交叉驗證。很顯然,在1-100范圍內(nèi),交叉驗證的性能顯著提高。從100單位開場,交叉驗證的AUC增長速度減慢,而在約170單位,交叉驗證的性能穩(wěn)定。包括超越170單位,導(dǎo)致一個更復(fù)雜的流失模型的預(yù)測性能,而難以提高。因此170的單位是在我們的研討文本信息中的最正確選擇。此時,在單位數(shù)和預(yù)測性能之間到達一個良好的平衡。Fig. 4. The cross-validated AUC during the optimal dimension selection phase.定義最正確的構(gòu)造性銷售變量 構(gòu)造化的營銷信息模型的預(yù)測性能和模型性能比較值錢,結(jié)合
21、構(gòu)造化的營銷信息和文字信息構(gòu)造化非構(gòu)造化模型,構(gòu)造化的營銷變量的最優(yōu)集合是經(jīng)過采用前瞻性選擇方法建立的。它產(chǎn)生一個有20個營銷變量的最優(yōu)子集見表3。構(gòu)造化模型經(jīng)過運用20個營銷變量建立,而構(gòu)造化非構(gòu)造化模型是經(jīng)過20個營銷變量和以文字信息為代表的變量結(jié)合建立的,如170個附加變量。表3. 運用前瞻性選擇發(fā)現(xiàn)的最優(yōu)構(gòu)造化銷售變量步驟步驟變量名1間隔 上次贊揚時長2貨幣價值3間隔 最后一次暫停時間4當前訂閱時間長度5當前平均訂閱贊揚定位6先前訂閱到期前能否更新7用戶能否是女人8到期前更新日期的差別天數(shù)9更新點數(shù)量10報紙版天性否是x111用戶能否公共機構(gòu)12先前訂閱更新到到期所差的天數(shù)13懸架的x
22、次方的數(shù)量14平均懸架時間長度的x次方15懸架數(shù)量16平均懸架時間長度17購買鼓勵能否是直接營銷活動18報紙能否被商店收錄19最后一次支付方式轉(zhuǎn)變到當期的時間長度20支付方式轉(zhuǎn)變X:可變性訂閱長度折算步驟。決議了20個最正確銷售變量預(yù)測性能比較表 4, 圖 5 ,6闡明構(gòu)造化非構(gòu)造化模型性能顯著超越構(gòu)造化模型的。在傳統(tǒng)的預(yù)測模型中參與文本信息,AUC從73.80增長到77.75.這樣的提高是顯而易見的(x2 = 23.1, d.f. = 1, p 0.001).構(gòu)造化非構(gòu)造化模型的接納機操作特性曲線ROC比隨機構(gòu)造化模型曲線定位得更遠,雖然覆蓋的區(qū)域構(gòu)造化非構(gòu)造化模型ROC比構(gòu)造化模型大得多。
23、構(gòu)造化非構(gòu)造化模型可以更好的區(qū)別流失客戶和非流失客戶。此外,文本信息在預(yù)測性能模型上的有效影響在top-decile lift得到確認。構(gòu)造化-非構(gòu)造化模型累積提升曲線在構(gòu)造化模型之上,構(gòu)造化-非構(gòu)造化模型可以比構(gòu)造化模型更好確實認處于危險邊緣的消費者。Lift在第一等分或10的頂級等分,即10的點 - 從2.69添加到3.07。我們的研討提供了一個現(xiàn)實的框架,為文本信息可獲取的用戶添加了流失的預(yù)測性能模型。表4. 構(gòu)造化模型和構(gòu)造化-非構(gòu)造化模型性能: 測試集上的AUC and top-decile lift AUC Top-decile liftTop-decile lift構(gòu)造化模型73
24、.802.69構(gòu)造化-非構(gòu)造化模型77.753.07Fig. 5. 構(gòu)造化模型,構(gòu)造化-非構(gòu)造化模型的ROC曲線 和隨機模型(或零信息模型).構(gòu)造化模型和構(gòu)造化-非構(gòu)造化模型建立在那些和公司堅持最少一次郵件聯(lián)絡(luò),和多次聯(lián)絡(luò),不聯(lián)絡(luò)的訂閱用戶上的。必需核實那些至少發(fā)送一次電子郵件的用戶的單獨流失模型是建立最優(yōu)預(yù)測模型的最好戰(zhàn)略。實踐上,經(jīng)過隨機選擇訂閱的客戶拓展當前訂閱者訓(xùn)練集,誰沒有發(fā)送任何電子郵件構(gòu)造化模型-k,k是隨機選擇的訂閱數(shù)量,即K =0;5000;10000 ;100000與建立目前的測試集上具有更好的預(yù)測性能的流失模型的意圖。 Fig. 7靈敏的表示了這種結(jié)果。程度線闡明了構(gòu)造化
25、模型 和 構(gòu)造化-非構(gòu)造化模型的績效,同時包括可比較的緣由。雖然,現(xiàn)實上他們相互獨立于k。從Fig. 7上察看到的一點,為那些至少發(fā)過一次電子郵件的用戶單獨建立一個流失模型確實更好。構(gòu)造化模型預(yù)測模型通常比構(gòu)造化模型-k要高。這明晰的闡明具有文本信息的用戶很能夠具有獨特的流失方式。構(gòu)造化-非構(gòu)造化模型比構(gòu)造化模型 和構(gòu)造化模型-k更具有主導(dǎo)位置。Fig. 6. 構(gòu)造化模型 和 構(gòu)造化-非構(gòu)造化模型 累積提升圖表.Fig. 7. 構(gòu)造化-非構(gòu)造化模型, 構(gòu)造化模型 和 構(gòu)造化模型-k 的AUC 性能結(jié)論經(jīng)過呼叫中心電子郵件向規(guī)范流失預(yù)測系統(tǒng)添加voc,協(xié)助 營銷決策者較準確的找出哪些顧客最容易轉(zhuǎn)
26、變。因此向這些顧客保管活動更具有針對性??蚣苁沟脧暮艚兄行膫鱽淼泥]件文本信息和傳統(tǒng)市場信息更加的協(xié)調(diào)。將無組織的呼叫中心電子郵件轉(zhuǎn)化為有組織方式,更適宜流失預(yù)測及專業(yè)的預(yù)處置要求和降維的步驟此外,我們的研討證明,經(jīng)過沉思熟慮的電子郵件處置戰(zhàn)略的重要性。它提供了一種方法,經(jīng)過提供向市場決策者提供有用的用戶文本信息的模型,這能夠會添加呼叫中心的盈利才干。經(jīng)過呼叫中心傳來的非構(gòu)造化信息豐富流失模型,市場營銷經(jīng)理能夠提高保管活動的有效性。致謝:我們要贊賞匿名的比利時公司,為我們提供了數(shù)據(jù)。此外,我們也要贊賞BOF (01D26705)對Kristof phd工程的財政支持,BOF (011B5901)
27、對計算根底設(shè)備提供的資金支持,以及Jonathan Burez, Bart Lariviere 和 Ilse Bellinck在工程執(zhí)行期間的建議和洞察力。這個工程用SAS v9.1.3, SAS Text Miner v5.2 和Matlab v7.0.4.實現(xiàn)的附錄A 項項頻率tf衡量了郵件文本中項索引詞出現(xiàn)的頻率。一個項越多,這個項在表征郵件內(nèi)容上就越重要。像這些實義詞出現(xiàn)的頻率被用來指示項內(nèi)容的表現(xiàn)意義。根據(jù)我們的研討,項頻率是在將傳統(tǒng)項頻率經(jīng)過對數(shù)變換獲得的。經(jīng)過對數(shù)變換,降低了未加工項頻率的重要性,對變化郵件的搜集具有重要的作用。逆文檔頻率idf也被合并,所以項在郵件信息中出現(xiàn)越少
28、就越容易識別。因此一個項的重要性相反地,與這個項在郵件中出現(xiàn)的次數(shù)有關(guān)。逆文檔的對數(shù)是用來降低未加工的逆文檔要素的影響。最后,一個項i在郵件中的權(quán)重被下面的式子給出:其中,tfij等于電子郵件j中第i項的頻率;idfi等于第i項的逆電子郵件頻率在數(shù)學(xué)上,其中,nij等于電子郵件j中第i項的頻率其中,n等于整個電子郵件搜集到的電子郵件總數(shù),dfi等于第i項存在的電子郵件數(shù)量附錄B:運用基于SVD奇數(shù)值分解的LSI潛在語義索引降維第i項一個高維的電子郵件矩陣A被構(gòu)造使位置i,j用email j表示wij第i組的權(quán)重。SVD用 把A因式分解成三個不同的矩陣其中等于一個包含奇特值矩陣A的對角矩陣,U等
29、于項的概念的類似矩陣,而且V等于電子郵件的概念上的類似矩陣。在數(shù)學(xué)上,當時是奇特值矩陣,其中U和V是列正交矩陣。原始矩陣的權(quán)重依賴于的潛在的概念 B.2基于SVD的LSI允許一個簡單的戰(zhàn)略用A的r列和當k=r的k來近似估計原始矩陣A。因此,LSI經(jīng)過只保管已決議的等于或大于k如的奇特值,而無視在中的更小的值,只需U和V中第一個k列得到保管。其中Uk,k,Vk等于U,V各自k列的近似值矩陣近似VK 是k列概念電子郵件的類似矩陣。在矩陣VK的一個項代表一個特定的電子郵件裝載的K概念之一。這個矩陣包含信息一個確定的電子郵件如何裝載不同的k的概念。這個概念反映在文本數(shù)據(jù)的隱藏方式中。因此,這些概念在流失預(yù)測模型中被作為解釋變量,由于他們代表了流失預(yù)測模型潛在語義方式的文本信息。重要的是,從訓(xùn)練向量上加載的概念與測試矢量是相當?shù)?。在測試過程中的概念的含義應(yīng)該和訓(xùn)練時堅持一樣。 因此,測試集的郵件被投射進潛在語義子空間就像在訓(xùn)練期間發(fā)明的一樣。為了比較測試電子郵件d和訓(xùn)練中的電子郵
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文化產(chǎn)業(yè)管理考試模式試題與答案總結(jié)
- 激光技術(shù)工程師證書考試的溫馨提示試題及答案
- 深入解析2024年專利考試試題及答案
- 激光焊接中的氣體保護技術(shù)試題及答案
- 藥師考試策略性試題及答案
- 行政組織學(xué)試題及答案
- 川大拔尖計劃試題及答案
- 小升初直播測試題及答案
- 學(xué)習(xí)2025年公共營養(yǎng)師考試時的備考資源分析試題及答案
- 激光項目技術(shù)支持試題及答案
- 土石壩設(shè)計計算書
- 重慶市兩江新區(qū)2023-2024學(xué)年七年級下學(xué)期期末考試語文試題
- 福建省廈門市第一中學(xué)2022-2023學(xué)年八下期中考試數(shù)學(xué)試卷(解析版)
- 中國痔病診療指南(2020版)
- 神經(jīng)病學(xué)(第8版)第六章-周圍神經(jīng)疾病
- 國際標準《風(fēng)險管理指南》(ISO31000)的中文版
- 學(xué)習(xí)興稅-稅收基礎(chǔ)知識考試參考題庫及答案
- 印刷服務(wù)投標方案(技術(shù)方案)
- 2024年愛國知識競賽考試題庫400題(供參考)
- (高清版)DZT 0004-2015 重力調(diào)查技術(shù)規(guī)范(150 000)
- 永磁同步電機直接轉(zhuǎn)矩控制
評論
0/150
提交評論