大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)-第15章-大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用_第1頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)-第15章-大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用_第2頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)-第15章-大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用_第3頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)-第15章-大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用_第4頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)-第15章-大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第15章大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用

提綱大數(shù)據(jù)應(yīng)用概覽第15章大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用15.1推薦系統(tǒng)概述15.2推薦算法–協(xié)同過濾15.3協(xié)同過濾實踐–電影推薦系統(tǒng)第16章大數(shù)據(jù)在生物醫(yī)學領(lǐng)域的應(yīng)用16.1基于大數(shù)據(jù)的綜合健康服務(wù)平臺第17章大數(shù)據(jù)的其他應(yīng)用17.1大數(shù)據(jù)在物流領(lǐng)域中的應(yīng)用本PPT是如下教材的配套講義:《大數(shù)據(jù)技術(shù)原理與應(yīng)用大數(shù)據(jù)應(yīng)用概覽推薦系統(tǒng):為用戶推薦相關(guān)商品生物醫(yī)學流行病預(yù)測智慧醫(yī)療:利用醫(yī)療大數(shù)據(jù),促進優(yōu)質(zhì)醫(yī)療資源共享、避免患者重復(fù)檢查、促進醫(yī)療智能化生物信息學:利用生物大數(shù)據(jù),深入了解生物學過程、疾病致病基因等物流:基于大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的智能物流,可以提高物流信息化和智能化水平,降低物流成本和提高物流效率城市管理智能交通:利用交通大數(shù)據(jù),實現(xiàn)交通實時監(jiān)控、交通智能誘導(dǎo)、公共車輛管理、旅行信息服務(wù)、車輛輔助控制等各種應(yīng)用環(huán)保監(jiān)測:監(jiān)測分析大氣和水污染情況,為污染治理提供依據(jù)城市規(guī)劃:比如,利用住房銷售和出租數(shù)據(jù),可以評價一個城區(qū)的住房分布安防領(lǐng)域:基于視頻監(jiān)控、人口信息、地理數(shù)據(jù)信息等,利用大數(shù)據(jù)技術(shù)實現(xiàn)智能化信息分析、預(yù)測和報警大數(shù)據(jù)應(yīng)用概覽大數(shù)據(jù)應(yīng)用概覽金融高頻交易:是指從那些人們無法利用的極為短暫的市場變化中尋求獲利的計算機化交易。采用大數(shù)據(jù)技術(shù)決定交易市場情緒分析和信貸風險分析汽車:無人駕駛汽車,實時采集車輛各種行駛數(shù)據(jù)和周圍環(huán)境,利用大數(shù)據(jù)分析系統(tǒng)高效分析,迅速做出各種駕駛動作,引導(dǎo)車輛安全行駛零售行業(yè):發(fā)現(xiàn)關(guān)聯(lián)購買行為、進行客戶群體細分餐飲行業(yè):利用大數(shù)據(jù)為用戶推薦消費內(nèi)容、調(diào)整線下門店布局、控制店內(nèi)人流量電信行業(yè):客戶離網(wǎng)分析能源行業(yè):智能電網(wǎng),以海量用戶用電信息為基礎(chǔ)進行大數(shù)據(jù)分析,可以更好理解電力客戶用電行為,優(yōu)化提升短期用電負荷預(yù)測系統(tǒng),提前預(yù)知未來2-3個月的電網(wǎng)需求電量、用電高峰和低谷,合理設(shè)計電力需求響應(yīng)系統(tǒng)體育娛樂:2014巴西世界杯,基于海量比賽數(shù)據(jù)和球員訓(xùn)練數(shù)據(jù),指定有針對性球隊訓(xùn)練計劃,幫助德國國家隊問鼎2014世界杯冠軍安全領(lǐng)域:應(yīng)用大數(shù)據(jù)技術(shù)防御網(wǎng)絡(luò)攻擊,警察應(yīng)用大數(shù)據(jù)工具預(yù)防犯罪政府領(lǐng)域:利用大數(shù)據(jù)改進選舉策略15.1 推薦系統(tǒng)概述15.1.1 什么是推薦系統(tǒng)15.1.2 長尾理論15.1.3 推薦方法15.1.4 推薦系統(tǒng)模型15.1.5 推薦系統(tǒng)的應(yīng)用15.1.1什么是推薦系統(tǒng)互聯(lián)網(wǎng)的飛速發(fā)展使我們進入了信息過載的時代,搜索引擎可以幫助我們查找內(nèi)容,但只能解決明確的需求為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統(tǒng)應(yīng)運而生。推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用,它可以通過分析用戶的歷史記錄來了解用戶的喜好,從而主動為用戶推薦其感興趣的信息,滿足用戶的個性化推薦需求推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具,和搜索引擎相比,推薦系統(tǒng)通過研究用戶的興趣偏好,進行個性化計算。推薦系統(tǒng)可發(fā)現(xiàn)用戶的興趣點,幫助用戶從海量信息中去發(fā)掘自己潛在的需求推薦系統(tǒng)可以創(chuàng)造全新的商業(yè)和經(jīng)濟模式,幫助實現(xiàn)長尾商品的銷售“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商務(wù)網(wǎng)站的商業(yè)和經(jīng)濟模式電子商務(wù)網(wǎng)站銷售種類繁多,雖然絕大多數(shù)商品都不熱門,但這些不熱門的商品總數(shù)量極其龐大,所累計的總銷售額將是一個可觀的數(shù)字,也許會超過熱門商品所帶來的銷售額因此,可以通過發(fā)掘長尾商品并推薦給感興趣的用戶來提高銷售額。這需要通過個性化推薦來實現(xiàn)15.1.2長尾理論熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜。但熱門推薦的主要缺陷在于推薦的范圍有限,所推薦的內(nèi)容在一定時期內(nèi)也相對固定。無法實現(xiàn)長尾商品的推薦個性化推薦可通過推薦系統(tǒng)來實現(xiàn)。推薦系統(tǒng)通過發(fā)掘用戶的行為記錄,找到用戶的個性化需求,發(fā)現(xiàn)用戶潛在的消費傾向,從而將長尾商品準確地推薦給需要它的用戶,進而提升銷量,實現(xiàn)用戶與商家的雙贏15.1.2長尾理論推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推薦方法包括如下幾類:專家推薦:人工推薦,由資深的專業(yè)人士來進行物品的篩選和推薦,需要較多的人力成本基于統(tǒng)計的推薦:基于統(tǒng)計信息的推薦(如熱門推薦),易于實現(xiàn),但對用戶個性化偏好的描述能力較弱基于內(nèi)容的推薦:通過機器學習的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容協(xié)同過濾推薦:應(yīng)用最早和最為成功的推薦方法之一,利用與目標用戶相似的用戶已有的商品評價信息,來預(yù)測目標用戶對特定商品的喜好程度混合推薦:結(jié)合多種推薦算法來提升推薦效果15.1.3推薦方法一個完整的推薦系統(tǒng)通常包括3個組成模塊:用戶建模模塊、推薦對象建模模塊、推薦算法模塊:用戶建模模塊:對用戶進行建模,根據(jù)用戶行為數(shù)據(jù)和用戶屬性數(shù)據(jù)來分析用戶的興趣和需求推薦對象建模模塊:根據(jù)對象數(shù)據(jù)對推薦對象進行建模推薦算法模塊:基于用戶特征和物品特征,采用推薦算法計算得到用戶可能感興趣的對象,并根據(jù)推薦場景對推薦結(jié)果進行一定調(diào)整,將推薦結(jié)果最終展示給用戶15.1.4推薦系統(tǒng)模型圖11-1推薦系統(tǒng)基本架構(gòu)目前推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂、社交網(wǎng)絡(luò)等各類網(wǎng)站和應(yīng)用中如亞馬遜網(wǎng)站利用用戶的瀏覽歷史記錄來為用戶推薦商品,推薦的主要是用戶未瀏覽過,但可能感興趣、有潛在購買可能性的商品15.1.5推薦系統(tǒng)的應(yīng)用圖

亞馬遜網(wǎng)站根據(jù)用戶的瀏覽記錄來推薦商品推薦系統(tǒng)在在線音樂應(yīng)用中也逐漸發(fā)揮作用。音樂相比于電影數(shù)量更為龐大,個人口味偏向也更為明顯,僅依靠熱門推薦是遠遠不夠的蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏記錄來分析用戶的音樂偏好,以進行推薦。例如,推薦同一風格的歌曲,或是推薦同一歌手的其他歌曲15.1.5推薦系統(tǒng)的應(yīng)用圖蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏來推薦歌曲推薦技術(shù)從被提出到現(xiàn)在已有十余年,在多年的發(fā)展歷程中誕生了很多新的推薦算法。協(xié)同過濾作為最早、最知名的推薦算法,不僅在學術(shù)界得到了深入研究,而且至今在業(yè)界仍有廣泛的應(yīng)用協(xié)同過濾可分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾15.2.1 基于用戶的協(xié)同過濾(UserCF)15.2.2 基于物品的協(xié)同過濾(ItemCF)15.2.3 UserCF算法和ItemCF算法的對比15.2協(xié)同過濾基于用戶的協(xié)同過濾算法(簡稱UserCF算法)在1992年被提出,是推薦系統(tǒng)中最古老的算法UserCF算法符合人們對于“趣味相投”的認知,即興趣相似的用戶往往有相同的物品喜好:當目標用戶需要個性化推薦時,可以先找到和目標用戶有相似興趣的用戶群體,然后將這個用戶群體喜歡的、而目標用戶沒有聽說過的物品推薦給目標用戶UserCF算法的實現(xiàn)主要包括兩個步驟:第一步:找到和目標用戶興趣相似的用戶集合第二步:找到該集合中的用戶所喜歡的、且目標用戶沒有聽說過的物品推薦給目標用戶15.2.1基于用戶的協(xié)同過濾(UserCF)15.2.1基于用戶的協(xié)同過濾(UserCF)圖

基于用戶的協(xié)同過濾(UserCF)實現(xiàn)UserCF算法的關(guān)鍵步驟是計算用戶與用戶之間的興趣相似度。目前較多使用的相似度算法有:泊松相關(guān)系數(shù)(PersonCorrelationCoefficient)余弦相似度(Cosine-basedSimilarity)調(diào)整余弦相似度(AdjustedCosineSimilarity)給定用戶u和用戶v,令N(u)表示用戶u感興趣的物品集合,令N(v)為用戶v感興趣的物品集合,則使用余弦相似度進行計算用戶相似度的公式為:15.2.1基于用戶的協(xié)同過濾(UserCF)由于很多用戶相互之間并沒有對同樣的物品產(chǎn)生過行為,因此其相似度公式的分子為0,相似度也為0我們可以利用物品到用戶的倒排表(每個物品所對應(yīng)的、對該物品感興趣的用戶列表),僅對有對相同物品產(chǎn)生交互行為的用戶進行計算15.2.1基于用戶的協(xié)同過濾(UserCF)圖

物品到用戶倒排表及用戶相似度矩陣用戶物品物品用戶用戶用戶得到用戶間的相似度后,再使用如下公式來度量用戶u對物品i的興趣程度Pui:其中,S(u,K)是和用戶u興趣最接近的K個用戶的集合,N(i)是喜歡物品i的用戶集合,Wuv是用戶u和用戶v的相似度,rvi是隱反饋信息,代表用戶v對物品i的感興趣程度,為簡化計算可令rvi=1對所有物品計算Pui后,可以對Pui進行降序處理,取前N個物品作為推薦結(jié)果展示給用戶u(稱為Top-N推薦)15.2.1基于用戶的協(xié)同過濾(UserCF)基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法。無論是亞馬遜還是Netflix,其推薦系統(tǒng)的基礎(chǔ)都是ItemCF算法ItemCF算法是給目標用戶推薦那些和他們之前喜歡的物品相似的物品。ItemCF算法主要通過分析用戶的行為記錄來計算物品之間的相似度該算法基于的假設(shè)是:物品A和物品B具有很大的相似度是因為喜歡物品A的用戶大多也喜歡物品B。例如,該算法會因為你購買過《數(shù)據(jù)挖掘?qū)д摗范o你推薦《機器學習實戰(zhàn)》,因為買過《數(shù)據(jù)挖掘?qū)д摗返挠脩舳鄶?shù)也購買了《機器學習實戰(zhàn)》15.2.2基于物品的協(xié)同過濾(ItemCF)15.2.2基于物品的協(xié)同過濾(ItemCF)圖

基于物品的協(xié)同過濾(ItemCF)ItemCF算法與UserCF算法類似,計算也分為兩步:第一步:計算物品之間的相似度;第二步:根據(jù)物品的相似度和用戶的歷史行為,給用戶生成推薦列表。15.2.2基于物品的協(xié)同過濾(ItemCF)ItemCF算法通過建立用戶到物品倒排表(每個用戶喜歡的物品的列表)來計算物品相似度15.2.2基于物品的協(xié)同過濾(ItemCF)圖

用戶到物品倒排表及物品相似度矩陣用戶物品物品物品ItemCF計算的是物品相似度,再使用如下公式來度量用戶u對物品j的興趣程度Puj(與UserCF類似):15.2.2基于物品的協(xié)同過濾(ItemCF)其中,S(j,K)是和物品j最相似的K個物品的集合,N(u)是用戶u喜歡的物品的集合,wji物品i和物品j的相似度,rui是隱反饋信息,代表用戶u對物品i的感興趣程度,為簡化計算可令rvi=1UserCF算法和ItemCF算法的思想、計算過程都相似兩者最主要的區(qū)別:UserCF算法推薦的是那些和目標用戶有共同興趣愛好的其他用戶所喜歡的物品ItemCF算法推薦的是那些和目標用戶之前喜歡的物品類似的其他物品UserCF算法的推薦更偏向社會化,而ItemCF算法的推薦更偏向于個性化15.2.3UserCF算法和ItemCF算法的對比圖

基于用戶的協(xié)同過濾(UserCF)圖

基于物品的協(xié)同過濾(ItemCF)UserCF算法的推薦更偏向社會化:適合應(yīng)用于新聞推薦、微博話題推薦等應(yīng)用場景,其推薦結(jié)果在新穎性方面有一定的優(yōu)勢UserCF缺點:隨著用戶數(shù)目的增大,用戶相似度計算復(fù)雜度越來越高。而且UserCF推薦結(jié)果相關(guān)性較弱,難以對推薦結(jié)果作出解釋,容易受大眾影響而推薦熱門物品ItemCF算法的推薦更偏向于個性化:適合應(yīng)用于電子商務(wù)、電影、圖書等應(yīng)用場景,可以利用用戶的歷史行為給推薦結(jié)果作出解釋,讓用戶更為信服推薦的效果ItemCF缺點:傾向于推薦與用戶已購買商品相似的商品,往往會出現(xiàn)多樣性不足、推薦新穎度較低的問題15.2.3UserCF算法和ItemCF算法的對比16.1基于大數(shù)據(jù)的綜合健康服務(wù)平臺大數(shù)據(jù)存儲數(shù)據(jù)源層技術(shù)支撐層業(yè)務(wù)層交互層用戶層個人用戶網(wǎng)絡(luò)醫(yī)院獨立體檢機構(gòu)社區(qū)衛(wèi)生服務(wù)機構(gòu)區(qū)域醫(yī)療信息平臺新農(nóng)合醫(yī)保社保大數(shù)據(jù)處理基于大數(shù)據(jù)的健康評估技術(shù)基于大數(shù)據(jù)的個性化診療技術(shù)面向普遍人群的通用型健康服務(wù)面向特定人群的主題式健康服務(wù)面向決策、科研等機構(gòu)的循證醫(yī)學數(shù)據(jù)服務(wù)面向健康服務(wù)機構(gòu)的信息服務(wù)醫(yī)療衛(wèi)生機構(gòu)專業(yè)健康服務(wù)機構(gòu)決策機構(gòu)科研機構(gòu)健康服務(wù)相關(guān)機構(gòu)個人用戶疾控中心門戶網(wǎng)站呼叫中心移動終端平臺接入API開放應(yīng)用平臺服務(wù)第三方檢測機構(gòu)大數(shù)據(jù)集成、存儲安全隱私數(shù)據(jù)標準目標:構(gòu)建覆蓋全生命周期、內(nèi)涵豐富、結(jié)構(gòu)合理的以人為本全面連續(xù)的綜合健康服務(wù)體系,利用大數(shù)據(jù)技術(shù)和智能設(shè)備技術(shù),提供線上線下相結(jié)合的公眾健康服務(wù),實現(xiàn)“未病先防、已病早治、既病防變、愈后防復(fù)”,滿足社會公眾多層次、多方位的健康服務(wù)需求,提升人民群眾的身心健康水平。17.1大數(shù)據(jù)在物流領(lǐng)域的應(yīng)用菜鳥網(wǎng)絡(luò)到底是什么

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論