![大數(shù)據(jù)搜索與挖掘_第1頁](http://file4.renrendoc.com/view6/M01/1A/32/wKhkGWedECmAUPXpAAEegetHqR0522.jpg)
![大數(shù)據(jù)搜索與挖掘_第2頁](http://file4.renrendoc.com/view6/M01/1A/32/wKhkGWedECmAUPXpAAEegetHqR05222.jpg)
![大數(shù)據(jù)搜索與挖掘_第3頁](http://file4.renrendoc.com/view6/M01/1A/32/wKhkGWedECmAUPXpAAEegetHqR05223.jpg)
![大數(shù)據(jù)搜索與挖掘_第4頁](http://file4.renrendoc.com/view6/M01/1A/32/wKhkGWedECmAUPXpAAEegetHqR05224.jpg)
![大數(shù)據(jù)搜索與挖掘_第5頁](http://file4.renrendoc.com/view6/M01/1A/32/wKhkGWedECmAUPXpAAEegetHqR05225.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)搜索與挖掘:知著-見微-曉意
BigDataSearchandMing:macro-modeling
,micro-viewandsemantics從棱鏡手機監(jiān)控看大數(shù)據(jù)下的隱私…楊達才啟示:大數(shù)據(jù)時代無隱私大數(shù)據(jù):榮光也將不堪回首綱要IIIIIIIV大數(shù)據(jù)時代背景與特征NLPIR大數(shù)據(jù)搜索挖掘平臺
NLPIR大數(shù)據(jù)挖掘案例分享大數(shù)據(jù)搜索挖掘大數(shù)據(jù)搜索挖掘應對之道什么是大數(shù)據(jù)Wiki:Bigdata
isthetermforacollectionof
datasets
solargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.
維克托《大數(shù)據(jù)時代》:大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。什么是大數(shù)據(jù)我們的見解:大數(shù)據(jù)是指從客觀存在的全量超大規(guī)模、多源異構(gòu)、實時變化的微觀數(shù)據(jù)中,利用自然語言處理、信息檢索、機器學習等技術抽取知識,轉(zhuǎn)化為智慧的方法學。是一場新的科技革命,也是思想方法的革命。(全量分析,讓數(shù)據(jù)說話;承認并客觀地認識世界的混雜性;相關性挖掘替代因果推斷)大數(shù)據(jù)時代的特征美國國家戰(zhàn)略:大數(shù)據(jù),大事業(yè)!Facebook上線不足8年,已擁有超過9億的用戶,是第三大“人口國”Facebook:9億Twitter:5億騰訊微博:3.3億新浪微博:3億網(wǎng)絡大數(shù)據(jù)應用的迅猛發(fā)展網(wǎng)絡大數(shù)據(jù)應用的迅猛發(fā)展綱要IIIIIIIV大數(shù)據(jù)時代背景與特征NLPIR大數(shù)據(jù)搜索挖掘平臺
NLPIR大數(shù)據(jù)挖掘案例分享大數(shù)據(jù)搜索挖掘大數(shù)據(jù)搜索挖掘應對之道大數(shù)據(jù)應對之道:知著、見微、曉意見微曉意知著小小小小小小小小小小小小小小小小小小小不“曉意”的尷尬不“曉意”的尷尬WhowasChinesePresidentin2012?Hu.Who?WhoisChinesePresident?Xi.She?HuJintaoXiJinping機器理解自然語言?我們做雞對了。我們就是做雞的.我們行使了雞的權利.右面的雞才是最好的我們只做雞的右側(cè).我們公正的做雞!我們的材料是正宗的雞肉.右面的雞才是最好的我們一定要把雞打成右派!!!我們只做右撇子雞(要吃左撇子雞請去麥當勞)客觀世界->思維->自然語言衰減效應:思維最多只能反映80%的客觀世界;自然語言只能反映80%的思維:詞不達意,答非所問;聽眾最多只能聽懂80%;聽懂的部分只有80%能反映到思維中;分析客觀世界的最多只能利用80%。什么是數(shù)據(jù)挖掘從大型數(shù)據(jù)庫中提取有趣的(非平凡的、蘊含的、先前未知的并且潛在有用的)信息或模式數(shù)據(jù)挖掘的分類結(jié)構(gòu)化數(shù)據(jù)挖掘;文本數(shù)據(jù)挖掘(新聞、微博、評論、報告)Web挖掘DNA數(shù)據(jù)分析數(shù)據(jù)挖掘的商業(yè)應用市場分析和管理風險分析和管理欺騙檢測和管理輿情分析和管理數(shù)據(jù)挖掘基本概念數(shù)據(jù)挖掘的市場分析應用客戶訂單數(shù)據(jù)會員卡用戶數(shù)據(jù)客戶服務數(shù)據(jù)信用卡交易數(shù)據(jù)市場調(diào)研數(shù)據(jù)顧客細分(分類、聚類)根據(jù)用戶特征(身份、興趣、收入水平)和消費行為進行分類或聚類。潛在客戶發(fā)掘和流失預警(分類)對流失客戶和新客戶的特征進行監(jiān)督學習,得到發(fā)掘或預警模型。識別顧客需求(分類、推薦)根據(jù)用戶特征和消費行為預測用戶喜好。交叉銷售分析(關聯(lián)規(guī)則挖掘)根據(jù)大量訂單數(shù)據(jù)發(fā)掘產(chǎn)品之間的促進或抑制關系。TargetMarketing客戶開發(fā)客戶挽留個性化產(chǎn)品推薦關聯(lián)營銷策略數(shù)據(jù)源數(shù)據(jù)挖掘決策支持大數(shù)據(jù)更大意義上是非結(jié)構(gòu)化內(nèi)容理解綱要IIIIIIIV大數(shù)據(jù)時代背景與特征NLPIR大數(shù)據(jù)搜索挖掘平臺
NLPIR大數(shù)據(jù)挖掘案例分享大數(shù)據(jù)搜索挖掘大數(shù)據(jù)搜索挖掘應對之道搜索基本功能:多字段關聯(lián)搜索、指定字段排序、精確搜索與模糊搜索搜索特色功能:內(nèi)嵌正負面情感等極性分析、語義聯(lián)想搜索、臨近搜索、搜索結(jié)果去重;內(nèi)嵌了ICTCLAS智能分詞系統(tǒng);數(shù)據(jù)庫實時同步:數(shù)據(jù)庫增刪改10秒內(nèi)即可同步到搜索;搜索維護功能:單點故障容錯;支持增量索引;自動備份與恢復機制;自動緩存機制;自動優(yōu)化機制;搜索屏蔽與恢復;JZSearch大數(shù)據(jù)精準搜索JZSearch內(nèi)部語法示例[FIELD]*[NEAR]尚福林##負面JZSearch##12[FIELD]price[RANG]1.09.0[FIELD]name[AND]牛奶兒童[FIELD]name[PREF]張姓名字段name必須以“張”作為前綴開頭[FIELD]id[PREC]123字段id必須以“123”精準匹配,如“1234”或者“0123”均不作為匹配結(jié)果;[field]content[complex]統(tǒng)計局||中國統(tǒng)計局||CPI騙人||磚家10要求content字段內(nèi),同時出現(xiàn){統(tǒng)計局||中國統(tǒng)計局||CPI}{騙人||磚家},且兩者之間的距離必須在10個詞內(nèi)。ICTCLASIndexerSearcherAdapterindex1docindex2indexnManager….
MySQL
SQLServer/OracleHbase/MongoDBusersadminMergeReloadSaaSAPIappsDeleteStat.deleteddeletedEditSimDictLexiconJZSearch
BigDataSearchEngineArchitecture搜索結(jié)果自動分組統(tǒng)計我們的工作:JZSearch精準搜索引擎我們的工作:JZSearch精準搜索引擎我們的工作:JZSearch精準搜索引擎NLPIR大數(shù)據(jù)搜索與挖掘技術開發(fā)平臺NLPIR網(wǎng)絡搜索與挖掘共享開發(fā)平臺,針對語言信息內(nèi)容處理的全技術鏈條的共享開發(fā)平臺。12年專業(yè)研究與工程積累,提供應用軟件及各平臺下的二次開發(fā)包,非商用永久免費。下載。核心功能包括:搜索類:全文精準檢索;語言類:新詞發(fā)現(xiàn),分詞標注,統(tǒng)計分析與術語翻譯;關鍵詞提??;文檔類:文本聚類及熱點分析;分類過濾;自動摘要;文檔去重;情感分析NLPIR大數(shù)據(jù)搜索與挖掘技術開發(fā)平臺NLPIR之關鍵詞提取關鍵語義標引的交叉熵原理
文本聚類:發(fā)現(xiàn)熱門事件NLPIR之大數(shù)據(jù)聚類A片的識別-世博A片區(qū)內(nèi),人們歡聲雷動;臺灣國的過濾-臺灣國語歌曲NLPIR之大數(shù)據(jù)過濾分類綱要IIIIIIIV大數(shù)據(jù)時代背景與特征NLPIR大數(shù)據(jù)搜索挖掘平臺
NLPIR大數(shù)據(jù)挖掘案例分享大數(shù)據(jù)搜索挖掘大數(shù)據(jù)搜索挖掘應對之道數(shù)據(jù)挖掘主要方法概念描述:特征和區(qū)分概化,匯總,和比較數(shù)據(jù)特征,例如,干燥和潮濕的地區(qū)關聯(lián)
(相關和因果關系)多維和單維關聯(lián)age(X,“20..29”)^income(X,“20..29K”)
buys(X,“PC”) [support=2%,confidence=60%]contains(T,“computer”)
contains(T,“software”) [support=1%,confidence=75%]分類和預測找出描述和識別類或概念的模型(函數(shù)),用于將來的預測例如根據(jù)消費行為特征對客戶分類,或根據(jù)單位里程的耗油量對汽車分類表示:決策樹(decision-tree),分類規(guī)則,神經(jīng)網(wǎng)絡預測:預測某些未知或遺漏的屬性值數(shù)據(jù)挖掘主要方法聚類分析無監(jiān)督學習方法類標號(Classlabel)未知:對數(shù)據(jù)分組,形成新的類。例如,新聞自動聚類、客戶細分。聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性孤立點(Outlier)分析孤立點:一個數(shù)據(jù)對象,它與數(shù)據(jù)的一般行為不一致孤立點可以被視為例外,但對于欺騙檢測和罕見事件分析,它是相當有用的趨勢和演變分析趨勢和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計的分析關聯(lián)規(guī)則挖掘關聯(lián)分析就是發(fā)現(xiàn)關聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關聯(lián)分析廣泛用于購物籃或事務數(shù)據(jù)分析。動機:發(fā)現(xiàn)數(shù)據(jù)中蘊含的內(nèi)在規(guī)律那些產(chǎn)品經(jīng)常被一起購買?買了PC之后接著都會買些什么?不同癥狀之間的并發(fā)關系DNA序列的內(nèi)部聯(lián)系應用購物籃分析、WEB日志(點擊流)分析、捆綁銷售、DNA序列分析等關聯(lián)挖掘類型根據(jù)規(guī)則處理的值的類型,分為布爾的和量化的。根據(jù)規(guī)則中數(shù)據(jù)的維,分為單維和多維的。根據(jù)規(guī)則涉及的抽象層,分為單層和多層的。關聯(lián)規(guī)則挖掘采用LOGIT回歸模型對新入網(wǎng)用戶在4個月內(nèi)流失進行預警分類預測案例:客戶流失預警模型基本情況語音通話情況數(shù)據(jù)業(yè)務使用情況品牌ARPU余額套餐名稱…本地通話次數(shù)長途通話次數(shù)漫游通話次數(shù)…數(shù)據(jù)業(yè)務費用數(shù)據(jù)業(yè)務消費占比數(shù)據(jù)業(yè)務使用種類數(shù)…3月4月5月6月7月8月9月10月11月3月4月5月6月7月8月9月10月11月3月4月5月6月7月8月9月10月11月3月4月5月6月7月8月9月10月11月建模時間窗口測試時間窗口入網(wǎng)月份取數(shù)月份流失月份流失觀察月份建模變量客戶流失預警模型所有的數(shù)據(jù)經(jīng)過對數(shù)變換和標準化變換,消除不同變量和不同月份對模型的影響模型的結(jié)果為對數(shù)流失風險比的線性擬合表達式,應用模型時輸入為用戶當前在建模變量上的值,輸出為用戶的流失概率
下圖展示了建模變量的重要性(調(diào)整后的實際建模變量)余額通話次數(shù)套餐名稱本地被叫次數(shù)欠費金額本地主叫次數(shù)網(wǎng)內(nèi)通話對端數(shù)網(wǎng)外通話對端數(shù)彩鈴訂購標志通話時長大于5分鐘標志多次充值標志欠費標志ARPU大于0標志長途通話次數(shù)漫游通話次數(shù)新業(yè)務費通話標志包打套餐標志手機報費用本地主叫通話標志撥打10086次數(shù)重入網(wǎng)標志客戶流失預警模型用戶集:09年07月入網(wǎng)、08月仍然正常的用戶;模型篩選用戶:通過模型篩選出的用戶集中20%的用戶,其中,
包含了用戶集中52.2%的9月流失用戶;模型篩選用戶9月、10月和11月的流失率(模型準確率)分別為16%、34%和48%,比用戶集中用戶的流失率(不使用模型篩選的準確率)提升度分別為2.4、2.5和3.2倍。52.2%*提升度=模型篩選用戶流失率/用戶集中用戶流失率聚類分析將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。聚類是一種無指導的學習:沒有預定義的類編號。聚類(簇):數(shù)據(jù)對象的集合在同一個聚類(簇)中的對象彼此相似不同簇中的對象則相異聚類算法的選擇取決于數(shù)據(jù)類型,主要包括:劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法聚類分析的應用模式識別、空間數(shù)據(jù)分析(主題地圖、空間聚類)按客戶特征、消費行為聚類,實現(xiàn)客戶細分。Web日志聚類,發(fā)現(xiàn)用戶行為模式.Web新聞、博客等文檔內(nèi)容,實現(xiàn)主題挖掘。聚類分析聚類案例:用戶細分模型根據(jù)用戶基礎數(shù)據(jù)和消費行為數(shù)據(jù)采用TwoStep聚類法對用戶進行細分聚類數(shù)據(jù)集為2009年1-9月新增用戶入網(wǎng)后第二個月,且第二月狀態(tài)正常的用戶的基礎數(shù)據(jù)和消費行為數(shù)據(jù)使用細分矩陣,按照語音消費行為和數(shù)據(jù)業(yè)務消費行為兩次聚類的方法分別聚類,多維聚類的方法較傳統(tǒng)單維聚類方法,聚類后的用戶細分特征更明顯本地通話次數(shù)長途通話次數(shù)計費通話時長漫游通話次數(shù)ARPU低端中低端長途突出本地突出漫游突出商務GPRS流量新業(yè)務費新業(yè)務使用種類數(shù)彩信條數(shù)短信條數(shù)新業(yè)務費占比使用少占比高興趣短信突出上網(wǎng)突出發(fā)燒友大數(shù)據(jù)挖掘:解讀十八屆三中全會詞頻統(tǒng)計:制度156;完善113;改革103;機制99;社會95;健全92;體制85;管理70;體系68;市場56;建設54;文化54;經(jīng)濟54;企業(yè)45;發(fā)展43;國家43;服務41;政府41;發(fā)展40;保障39;國有36;改革35;資本34;人民33;黨33;資源31;干部30;政策30;領導29;創(chuàng)新28;監(jiān)督27;形成27;實行26;地方26;機構(gòu)26;依法25;經(jīng)營24;行政24;中央24;保護23;監(jiān)管23;基層23;教育22;關系22;安全22;協(xié)商21大數(shù)據(jù)挖掘:解讀十八屆三中全會大數(shù)據(jù)挖掘:解讀十八屆三中全會關鍵語義:中國特色社會主義15.77;社會組織11.81;領導干部11.38;事業(yè)單位10.19;行政執(zhí)法9.81;非公有制經(jīng)濟9.34;轉(zhuǎn)移支付9.3;資源配置8.79;混合所有制經(jīng)濟8.74;宏觀調(diào)控8.58;高校畢業(yè)生8.21;自然資源資產(chǎn)8.05;社會主義市場經(jīng)濟體制7.91;稅收優(yōu)惠政策7.91;高校畢業(yè)生就業(yè)7.91;生態(tài)文明制度7.91;一般性轉(zhuǎn)移支付7.91;收入分配7.73;中國特色7.69;保險制度7.59;基礎設施7.5;所有制經(jīng)濟7.32;發(fā)展7.25;社會7.22;企事業(yè)單位7.06;管理6.84;文化6.82;生態(tài)文明6.79;社會主義市場經(jīng)濟6.73;優(yōu)惠政策6.73;承包經(jīng)營權6.66;特許經(jīng)營6.66;經(jīng)濟6.62;政府6.61;制度6.6;推進6.58;市場6.57;創(chuàng)新6.49;大數(shù)據(jù)挖掘:政治報告解讀美國2011.01.25奧巴馬總統(tǒng)國情咨文演說我們87;我20;美國18;人14;人民12;國家11;努力10;新10;協(xié)議8;能夠7;阿富汗7;開始7;已經(jīng)6;必須5;今晚5;世界5;就業(yè)5;公司5;政府5;組織5;力量4;成功4;國會4;全球4;未來4;我國4;要求4;大數(shù)據(jù)挖掘:政治報告解讀2008.5.20臺灣地區(qū)領導人馬英九就職演說
我們55;臺灣47;民主21;兩岸15;國際13;人民12;全球11;社會11;中華民國9;政治9;一定8;關系8;和平8;未來7;歷史7;經(jīng)濟7;英九7;共同6;發(fā)展6;協(xié)商5;憲政5;國家5;價值5;政府5;大陸5;核心4大數(shù)據(jù)挖掘:臺灣政治生態(tài)解讀2012馬英九就職演說我們80;臺灣42;兩岸21;國際19;經(jīng)濟19;文化18;產(chǎn)業(yè)16;未來14;社會13;中華民國12;發(fā)展12;民主11;人民11;國家10;自由10;成長10;競爭力9;和平9;政府8;人才8;關系8;人8;創(chuàng)造8;開放8;安全7;我國7;推動7;環(huán)境7;機會7;司法7;支柱7;幸福7;合作7;大陸6;憲法6;全球6;政策6;世界6;公民6;改革6;投資6;民眾6;價值6;大數(shù)據(jù)挖掘:甄嬛體?汪峰體?天氣公報的自動生成51大數(shù)據(jù)時代無隱私締元信為國內(nèi)主流的門戶網(wǎng)站提供網(wǎng)絡統(tǒng)計服務,每日新增數(shù)據(jù)500G,采用我們的大數(shù)據(jù)挖掘技術,提供商情精準營銷增值服務。大數(shù)據(jù)時代無隱私!華為大數(shù)據(jù)挖掘作為華為大數(shù)據(jù)搜索與挖掘的戰(zhàn)略合作伙伴,全面提供采集、搜索與挖掘技術組件產(chǎn)品,已經(jīng)應用于華為手機。不同類型用戶的影響力分析數(shù)值加V非V男女男V女V平均粉絲512.236965.11337.23600.75440.427887.365833.1平均微博774.921435.41704.89685.26854.061202.991524.11平均關注176.66342.19171.08181.32172.41362.67313
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- NR-11c-生命科學試劑-MCE-9201
- 6-O-Sulfo-β-cyclodextrin-sodium-生命科學試劑-MCE-5754
- 2025年度高端火鍋店品牌連鎖合作協(xié)議
- 二零二五年度經(jīng)濟補償協(xié)議書-產(chǎn)品責任賠償協(xié)議
- 2025年度員工解除勞動合同關系協(xié)議書(技術崗位)
- 施工單位關于項目驗收的聯(lián)絡函
- 小額金融科技化營銷戰(zhàn)略-以農(nóng)村貸款市場為例
- 《用正比例解決問題》教學設計(人教版六年級數(shù)學下冊)
- 個人雇傭合同協(xié)議模板
- 上海市短期勞務合同模板
- ISO17025經(jīng)典培訓教材
- 消防設施操作和維護保養(yǎng)規(guī)程
- 餐飲行業(yè)品牌介紹商務宣傳PPT模板
- 關于中小企業(yè)人才流失的調(diào)查分析報告畢業(yè)論文
- 東南大學宣講介紹
- 2023年菏澤醫(yī)學??茖W校單招綜合素質(zhì)題庫及答案解析
- 九年級下冊-2023年中考歷史總復習知識點速查速記(部編版)
- GB/T 18103-2022實木復合地板
- 釀酒工藝教案
- 地形圖的識別及應用涉密地圖的保密管理課件
- 小學四年級語文閱讀理解專項訓練
評論
0/150
提交評論