大數(shù)據(jù)應(yīng)用案例分析_第1頁
大數(shù)據(jù)應(yīng)用案例分析_第2頁
大數(shù)據(jù)應(yīng)用案例分析_第3頁
大數(shù)據(jù)應(yīng)用案例分析_第4頁
大數(shù)據(jù)應(yīng)用案例分析_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)應(yīng)用案例分析目錄大數(shù)據(jù)概念1大數(shù)據(jù)處理辦法2大數(shù)據(jù)應(yīng)用案例31大數(shù)據(jù)概念大數(shù)據(jù)時代到

來隨著智能手機(jī)的普及,網(wǎng)民參與互聯(lián)網(wǎng)產(chǎn)品和使用各種手機(jī)應(yīng)用的程度越來越深,用戶的行為、位置、甚至身體生理等每一點(diǎn)變化都成為了可被記錄和分析的數(shù)據(jù),數(shù)據(jù)量呈現(xiàn)爆炸式增長。地球上至今總共的數(shù)據(jù)量:在2006年,個人用戶才剛剛邁進(jìn)TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);據(jù)IDC研究機(jī)構(gòu)預(yù)測:到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達(dá)到35.2ZB(1ZB=10億TB)!1PB=

2^50字節(jié)1EB=

2^60字節(jié)1ZB=

2^70字節(jié)GB在2011年,這個數(shù)字達(dá)到了1.8ZB。TBPBEB ZB01大

數(shù)

據(jù)

構(gòu)

成大數(shù)據(jù)

=海量數(shù)據(jù)(交易數(shù)據(jù)、交互數(shù)據(jù))+針對海量數(shù)據(jù)處理的解決方案海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、微博、及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。注:大數(shù)據(jù)不僅僅指的是數(shù)據(jù)量龐大,更為重要的是數(shù)據(jù)類型復(fù)雜想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。02大

數(shù)

據(jù)

4V特征03結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,對數(shù)據(jù)的處理能力提出了更高要求實(shí)時獲取需要的信息比如:在客戶每次瀏覽頁面,每次下訂單過程中都會對用戶進(jìn)行實(shí)時的推薦,決策已經(jīng)變得實(shí)時數(shù)據(jù)量巨大全球在2010年正式進(jìn)入ZB時代,IDC預(yù)計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量沙里淘金,價值密度低雖然數(shù)據(jù)量很大,但是價值密度較低,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)價值“提純”,是目前大數(shù)據(jù)亟待解決的難題大數(shù)據(jù)產(chǎn)品市場價值解決方案轉(zhuǎn)化1.海量(Volume)3.速度(

Velocity)4.價值(value)2.多樣(Variety)2大數(shù)據(jù)處理辦法用戶畫像體系01每個企業(yè)都不可以避免的要對用戶進(jìn)行畫像,用戶畫像的提出,根本上是源于企業(yè)對用戶認(rèn)知的需求。產(chǎn)品經(jīng)理,需要了解用戶的特征,對產(chǎn)品進(jìn)行功能的完善。內(nèi)容運(yùn)營人員,需要篩選目標(biāo)用戶,對內(nèi)容進(jìn)行精準(zhǔn)投放?;钴S程度如何?年齡分布、區(qū)域分布是什么樣的?消費(fèi)習(xí)慣和特征是什么?公司在哪?對什么感興趣?常去的商圈是哪兒?贏利點(diǎn)在哪?職業(yè)是什么?常住地在哪兒?購買能力如何?基本特征?用戶畫像體系02駕駛行為數(shù)據(jù)將構(gòu)建精準(zhǔn)的車險用戶畫像性別年齡國籍地理位置開車地點(diǎn)職業(yè)駕照類別開車頻率開車原因健庩?duì)顩r醫(yī)療條件感知力學(xué)習(xí)周期消費(fèi)習(xí)慣民族特征教育水平婚姻狀態(tài)共用車輛情況生活方式使用藥物情況酒駕經(jīng)歷疲勞駕駛收入情況碰撞事故車輛維修犯罪記錄違章駕駛記錄駕駛時間通過對用戶不同維度的大數(shù)據(jù)分析,最終得出可執(zhí)行的業(yè)務(wù)決策?;緦傩孕袨榱?xí)慣購買能力心理特征社交網(wǎng)絡(luò)興趌愛好基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘及分類基本識別流程03訓(xùn)練樣本數(shù)據(jù)源分詞特征選擇特征權(quán)重計算模型訓(xùn)練是模型評估是否通過待預(yù)測類別文本庫文本打上類別標(biāo)簽否訓(xùn)練及測試過程預(yù)測過程訓(xùn)練生成的模型訓(xùn)練生成的模型待預(yù)測類別文本原始庫數(shù)據(jù)預(yù)處理訓(xùn)練樣本庫數(shù)據(jù)預(yù)處理a.去除營銷博文干擾b.去除提及人的干擾(@)c.去除如門戶的作者的干擾大數(shù)據(jù)的處理04數(shù)據(jù)去重空值處理數(shù)據(jù)去噪格式統(tǒng)一對齊融合融合信息數(shù)據(jù)庫融合信息數(shù)據(jù)庫里程數(shù)據(jù)工況數(shù)據(jù)充電數(shù)據(jù)行駛軌跡車輛信息將空值更改為對應(yīng)的默認(rèn)值使用UGC算法去除無用數(shù)據(jù)

使用基于密度的聚類去除異常數(shù)據(jù)將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)表達(dá)形式去除異常的數(shù)據(jù)項(xiàng)匯聚多源異構(gòu)數(shù)據(jù)中的一致部分?jǐn)?shù)據(jù)挖掘分類的過程3大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)是做好音樂平臺的一把利器01爽歪的麻雀,在電線桿上裸睡削個椰子皮,你卻TM給個梨撒米拉帶帶,哇嘎哇嘎哎喲想聽的歌記不起名字???呀馬大叔與小舅舅四斤大豆,三根皮帶艾薇,莎啦啦,艾瑞噢喔噢喔,手剎多情咱切抱劉繼芬鋼鐵鍋,含眼淚喊修瓢鍋啊瑞寧瑞寧瑞寧瑞寧瑞寧產(chǎn)品競爭04*聽歌進(jìn)入社交化時代,聽歌單、聽歌看評論成為流行聽歌行為;*個性化推薦已覆蓋多數(shù)聽歌用戶,越來越多用戶通過個性化推薦發(fā)現(xiàn)好音樂;*聽歌進(jìn)入多元化時代,民謠、電音、二次元音樂崛起;*獨(dú)立音樂人迅速崛起,社交互動助推音樂人漲粉;*90后已成為音樂消費(fèi)主力人群;*用戶付費(fèi)意識明顯提高,付費(fèi)會員數(shù)和數(shù)字專輯售賣增長迅猛;*綜藝影視對音樂的影響依舊強(qiáng)大,熱門歌曲中7成來源于綜藝或影視;*偶像流行樂保持高熱度,歐美歌曲受眾提升;*音樂市場正在構(gòu)建一種新的評價體系,評論數(shù)成為歌曲熱度重要評價指標(biāo);*男歌手受喜愛度高于女歌手,女性歌迷消費(fèi)群體經(jīng)濟(jì)崛起;截至2016年7月呈現(xiàn)2億音樂用戶聽歌行為以及2萬音樂人活躍行為用戶分析05目標(biāo)用戶細(xì)分群體用戶特征需求音樂消費(fèi)者

學(xué)生年輕,時間寬裕,喜歡新鮮,愛評論愛分享愛展示,有個性1、個性化推薦音樂2、對音樂有評論等互動行為3、分享展示喜歡的音樂白領(lǐng)時間碎片化,有一定壓力,會關(guān)注娛樂界動態(tài)4、迅速找到喜歡的音樂5、推薦潮流音樂6、有明星動態(tài)IT從業(yè)者壓力大,需要更多消遣和心理慰藉

時尚人士熱愛音樂和潮流,有個性7、分享自己的口味主要需求(音樂消費(fèi)者)1、播放音樂2、發(fā)現(xiàn)音樂(喜歡的、特別的、潮流的)3.展示自我,有基于音樂的互動。—目標(biāo)用戶:熱愛音樂,對音樂有較高需求的高素質(zhì)年輕人群。用戶分析05—目標(biāo)用戶:熱愛音樂,對音樂有較高需求的高素質(zhì)年輕人群。通過數(shù)據(jù)可以發(fā)現(xiàn)網(wǎng)易云音樂用戶群中19-30歲年齡段用戶最多,占比達(dá)到48%,整體用戶群偏年輕化。職業(yè)分布:學(xué)生和IT從業(yè)者占據(jù)絕大用戶群,企業(yè)中高層管理人員所占比例最少,另外的專業(yè)工作人員所占比例區(qū)別不大,用戶群體整體受教育程度普遍較高。05目標(biāo)用戶細(xì)分群體用戶特征需求音樂內(nèi)容產(chǎn)生者

音樂人/DJ作品找不到渠道,希望建立個人品牌,更好的運(yùn)營個人品牌1、傳播自己的音樂,讓更多的人知道2、與粉絲有互動歌手有一定知名度,有粉絲基礎(chǔ)3、進(jìn)一步提高知名度,吸引更多粉絲唱片公司商業(yè)機(jī)構(gòu),營利是最重要的目的。4、提高收入音樂愛好者喜歡分享音樂,評論音樂5、希望得到更多展示(專欄)主要需求(音樂內(nèi)容產(chǎn)生者)1、宣傳音樂(新歌、特別的口味)2、宣傳個人品牌(演播廳、采訪直播、互動等)3.盈利(版權(quán)收費(fèi)、會員收費(fèi)等)用戶分析—目標(biāo)用戶:(內(nèi)容產(chǎn)生者是活躍音樂社區(qū)的關(guān)鍵)用戶分析05用戶分析0502推薦歌單—3種推薦維度和2種推薦算法通過微信微博等社區(qū)軟件進(jìn)行傳播分享網(wǎng)易音樂編輯人員人工推薦的歌單和電臺。朋友推薦人工推薦通過大數(shù)據(jù)分析計算后的智能推薦歌單智能推薦以人為本算法以歌為本算法“喜歡這首歌的人,也喜歡XX”喜歡:點(diǎn)擊“喜歡”、評論、下載、收藏到歌單的人所聽歌曲的標(biāo)簽在其它歌曲也包含則推薦該歌曲02計算公式潛在因子(LatentFactor)算法:這種算法是在NetFlix(沒錯,就是用大數(shù)據(jù)捧火《紙牌屋》的那家公司)的推薦算法競賽中獲獎的算法,最早被應(yīng)用于電影推薦中。這種算法在實(shí)際應(yīng)用中比現(xiàn)在排名第一的@邰原朗所介紹的算法誤差(RMSE)會小不少,效率更高。我下面僅利用基礎(chǔ)的矩陣知識來介紹下這種算法。這種算法的思想是這樣:每個用戶(user)都有自己的偏好,比如A喜歡帶有小清新的、吉他伴奏的、王菲等元素(latentfactor),如果一首歌(item)帶有這些元素,那么就將這首歌推薦給該用戶,也就是用元素去連接用戶和音樂。每個人對不同的元素偏好不同,而每首歌包含的元素也不一樣。矩陣計算得分的方式TNANKYOU!樹立質(zhì)量法制觀念、提高全員質(zhì)量意識。24.7.1024.7.10Wednesday,July10,2024人生得意須盡歡,莫使金樽空對月。14:46:0714:46:0714:467/10/20242:46:07PM安全象只弓,不拉它就松,要想保安全,常把弓弦繃。24.7.1014:46:0714:46Jul-2410-Jul-24加強(qiáng)交通建設(shè)管理,確保工程建設(shè)質(zhì)量。14:46:0714:46:0714:46Wednesday,July10,2024安全在于心細(xì),事故出在麻痹。24.7.1024.7.1014:46:0714:46:07July10,2024踏實(shí)肯干,努力奮斗。2024年7月10日下午2時46分24.7.1024.7.10追求至善憑技術(shù)開拓市場,憑管理增創(chuàng)效益,憑服務(wù)樹立形象。2024年7月10日星期三下午2時46分7秒14:46:0724.7.10嚴(yán)格把控質(zhì)量關(guān),讓生產(chǎn)更加有保障。2024年7月下午2時46分24.7.1014:46July10,2024作業(yè)標(biāo)準(zhǔn)記得牢,駕輕就熟除煩惱。2024年7月10日星期三14時46分7秒14:46:0710July2024好的事

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論