下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
淺析:從LinkedIn看大數(shù)據(jù)挖掘應(yīng)重視的四個(gè)變量
創(chuàng)事記:能否簡要介紹一下LinkedIn?李玥:LinkedIn是一家面向商業(yè)客戶的社交服務(wù)網(wǎng)站,2003年正式開通啟動,距今已經(jīng)10年的歷史。2011年5月份,LinkedIn在美國納斯達(dá)克上市。目前市值接近170億美元。LinkedIn基本上有三個(gè)比較主流的商業(yè)模式:第一個(gè)渠道是人才招聘解決方案,最主要是解決公司招聘和人員求職的供需關(guān)系,這部分業(yè)務(wù)貢獻(xiàn)了超過50%的收入;第二是,廣告業(yè)務(wù),企業(yè)可以在LinkedIn網(wǎng)站上瞄準(zhǔn)不同人進(jìn)行廣告的精準(zhǔn)投放;第三是,高級付費(fèi)訂閱服務(wù),LinkedIn會提供更高級的產(chǎn)品,用戶在付費(fèi)訂閱之后,可以利用高級數(shù)據(jù)提高工作效率。創(chuàng)事記:LinkedIn中國現(xiàn)狀是怎樣的?李玥:關(guān)于中國的策略,我能說的非常非常有限,因?yàn)長inkedIn還沒有正式進(jìn)入中國市場?,F(xiàn)在我們在中國有超過300萬注冊用戶。LinkedIn非常了解,中國是一個(gè)非常非常有潛力的市場。我們在探索到底應(yīng)該是以怎樣的方式進(jìn)入中國,但是現(xiàn)在沒有定論。我們最終的目的是讓中國的職業(yè)人員能夠在職場上更成功,這一點(diǎn)準(zhǔn)則不會有任何變化。創(chuàng)事記:LinkedIn的數(shù)據(jù)分析團(tuán)隊(duì)的工作是什么?李玥:這個(gè)團(tuán)隊(duì)在LinkedIn上市前一年(2010年)開始創(chuàng)建,兩年之內(nèi)團(tuán)隊(duì)已經(jīng)達(dá)到50人。這是在LinkedIn里面成長最最快速度的團(tuán)隊(duì),現(xiàn)在我們還在不斷的成長當(dāng)中。我們的責(zé)任范圍最大的一部分就是支持所有與LinkedIn運(yùn)營盈利相關(guān)的服務(wù)?,F(xiàn)在LinkedIn有近4000名員工,70%的人是通過我們來提供服務(wù)的。我們的團(tuán)隊(duì)組成是:一個(gè)數(shù)據(jù)采集的專門團(tuán)隊(duì),一個(gè)專門做數(shù)據(jù)挖掘的團(tuán)隊(duì),在這之上我們還有分析的團(tuán)隊(duì)和每個(gè)商業(yè)渠道掛鉤起來,這樣會更接近他們的業(yè)務(wù)。我們跟LinkedIn所有相關(guān)的職能部門一起合作,包括銷售部門、市場營銷部門、產(chǎn)品部門、工程部門,還有運(yùn)營部門。我們所有的數(shù)據(jù)挖掘全部是通過一個(gè)技術(shù)平臺做出來的,但是在這之上,會對不同的商業(yè)應(yīng)用、商業(yè)需求單獨(dú)去做處理。創(chuàng)事記:每次商業(yè)分析需要處理多大的數(shù)據(jù)?李玥:一般的數(shù)據(jù)處理起來,至少要到TB(1TB=1024GB)的水平。比如說,我們做一個(gè)預(yù)測的模型,基本上要準(zhǔn)備的數(shù)據(jù)達(dá)到幾個(gè)TB,然后再做數(shù)據(jù)挖掘,最后做出最后的預(yù)測。最后的預(yù)測可能看起來很簡單,比如說是Yes或者是No,但是后臺數(shù)據(jù)采集、數(shù)據(jù)處理,創(chuàng)建模型是要花費(fèi)很多很多時(shí)間。創(chuàng)事記:LinkedIn如何獲取這么多的數(shù)據(jù),這些數(shù)據(jù)都是免費(fèi)的嗎?李玥:很多的數(shù)據(jù)實(shí)際上是LinkedIn本身的數(shù)據(jù)。我們有自己的用戶,他們每天會在上面發(fā)布不同的信息,會更改自己的數(shù)據(jù)。我們也會花錢獲取其他數(shù)據(jù)。根據(jù)商業(yè)需求不同,我們會跟業(yè)界比較知名的數(shù)據(jù)服務(wù)商來合作,比如Gartner。創(chuàng)事記:LinkedIn大數(shù)據(jù)解決方案采用哪種基礎(chǔ)架構(gòu)?李玥:LinkedIn整個(gè)數(shù)據(jù)分析解決方案里主要有三個(gè)非常重要的組成部分,一個(gè)是Teradata數(shù)據(jù)倉庫解決方案,它支持很多報(bào)表系統(tǒng),可靠性高;第二個(gè)是TeradataAster,Aster有很多已經(jīng)設(shè)置好的函數(shù),可以讓分析更簡單、更快速,而且讓我們做大量分析時(shí),變得更有效率;第三部分就是Hadoop,應(yīng)用于真正特別巨大的數(shù)據(jù)處理和存儲。我們將這三種產(chǎn)品和平臺作為一個(gè)整體,在此基礎(chǔ)上做出集中的數(shù)據(jù)結(jié)構(gòu)架構(gòu)。Teradata為客戶提供是企業(yè)級解決方案,有專門為大公司設(shè)計(jì)定制功能,而且在這個(gè)系統(tǒng)里起著非常重要的作用。創(chuàng)事記:能否舉一個(gè)簡單的大數(shù)據(jù)挖掘案例?李玥:在做分析和預(yù)測的時(shí)候,怎么樣的一個(gè)過程才能做出對將來最好的預(yù)測?我舉一個(gè)例子。比如說,市場營銷過程中你想去給特定的人群發(fā)一些消息,說我給可以給你們你一些優(yōu)惠,讓你們?nèi)ベ徺I某些產(chǎn)品。但你怎么知道有哪些人會更傾向于去接受你的信息,或者說接受你的介紹?那我們就會看,以前發(fā)生的事情。了解以前發(fā)生的事情,了解為什么這些事情會發(fā)生,以及它背后的原因,然后再用這些去解釋將來會發(fā)生的事情??傮w上就是這樣一個(gè)大的方法。創(chuàng)事記:LinkedIn在做大數(shù)據(jù)挖掘時(shí)會重點(diǎn)參考的變量是什么?李玥:一般性我們看三大塊。一塊是,所有用戶相關(guān)的屬性。比如說你是男性還是女性,年齡是多少,或者說工作方式是什么,在哪家公司,在哪個(gè)行業(yè),在哪個(gè)地點(diǎn)。這些數(shù)據(jù)就是相關(guān)信息。這些信息基本上屬于一種比較靜態(tài)的東西,也是所有行業(yè)到現(xiàn)在為止,可能最成型的一種數(shù)據(jù)變量。這一塊我們看得最多。然后是用戶的行為數(shù)據(jù)。很多公司逐漸看到這部分?jǐn)?shù)據(jù),但以前并沒有太重視。比如說,我決定去買一個(gè)投影儀,我可能之前會做很多很多的事情,最后才會決定買它。如果只是看我買它的一條記錄,那么它只是一條數(shù)據(jù)記錄,但是之前為什么決定買這個(gè)東西,可能會有幾千條、幾萬條不同的信息記錄下來。這里邊就有很多不同的東西,包括你是不是某一種一系列的行為,才導(dǎo)致最后的購買決定。這一塊數(shù)據(jù)量上要大很多,從分析量上來講,難度也高很多。但根據(jù)我們的經(jīng)驗(yàn),這個(gè)對你的預(yù)測的準(zhǔn)確性貢獻(xiàn),其實(shí)也增加了很多很多,所以這一塊是非常非常重要的。第三塊是,與社交網(wǎng)絡(luò)相關(guān)的信息。它對你的預(yù)測也會造成非常非常大的影響。舉個(gè)例子,你在LinkedIn上或者Facebook、微博上,跟你相似的人往往會做出與你接近的決定。一個(gè)最原始的理論,物以類聚,人以群分。跟你相連接的這些人,往往他們喜歡的東西,或者他們做過的事情,是你以后可能會去做的。根據(jù)以往的經(jīng)驗(yàn),你連接的人當(dāng)中,已經(jīng)做過這些事情,如果我告訴你他們做過這些事情的話,你會更加的可能也會做這些事情。創(chuàng)事記:還有其他變量么?李玥:這三大變量基本組成了我們看的最多的數(shù)據(jù)。當(dāng)然每一個(gè)分類里面,又會有很多很多的數(shù)據(jù)。其實(shí)我們會花很多的精力去采集這些數(shù)據(jù),然后不斷地?cái)U(kuò)充我們的變量倉庫。因?yàn)殡S著數(shù)據(jù)的增加,預(yù)測的準(zhǔn)確度也會越來越高。此外,時(shí)間序列也是非常重要的。很多時(shí)候你做的這件事情離現(xiàn)在有多久,會對你的預(yù)測產(chǎn)生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度專業(yè)牧場代牧服務(wù)標(biāo)準(zhǔn)合同4篇
- 2025年度臨時(shí)停車場帳篷搭建施工合同范本3篇
- 2024物流包裝與裝卸合同
- 2025年度智慧家居產(chǎn)品研發(fā)承包經(jīng)營合同書范文4篇
- 2025年度桉樹種植與生物質(zhì)能利用技術(shù)研發(fā)合同3篇
- 2025年個(gè)人汽車抵押貸款抵押權(quán)設(shè)立及轉(zhuǎn)讓合同4篇
- 2025年度住宅小區(qū)地下車庫車位使用權(quán)購買合同范本4篇
- 2025年度文化產(chǎn)業(yè)園開發(fā)承包合同股東內(nèi)部合作協(xié)議4篇
- 2024年甲乙雙方石材供需合同
- 2025年度新能源項(xiàng)目地質(zhì)鉆孔工程承包協(xié)議4篇
- 中國大百科全書(第二版全32冊)08
- 初中古詩文言文背誦內(nèi)容
- 天然氣分子篩脫水裝置吸附計(jì)算書
- 檔案管理項(xiàng)目 投標(biāo)方案(技術(shù)方案)
- 蘇教版六年級上冊100道口算題(全冊完整版)
- 2024年大學(xué)試題(宗教學(xué))-佛教文化筆試考試歷年典型考題及考點(diǎn)含含答案
- 計(jì)算機(jī)輔助設(shè)計(jì)智慧樹知到期末考試答案章節(jié)答案2024年青島城市學(xué)院
- 知識庫管理規(guī)范大全
- 電腦耗材實(shí)施方案、供貨方案、售后服務(wù)方案
- 環(huán)衛(wèi)項(xiàng)目年終工作總結(jié)
- 弘揚(yáng)教育家精神爭做四有好老師心得10篇
評論
0/150
提交評論