大數據基礎與實務(商科版)PPT完整全套教學課件_第1頁
大數據基礎與實務(商科版)PPT完整全套教學課件_第2頁
大數據基礎與實務(商科版)PPT完整全套教學課件_第3頁
大數據基礎與實務(商科版)PPT完整全套教學課件_第4頁
大數據基礎與實務(商科版)PPT完整全套教學課件_第5頁
已閱讀5頁,還剩335頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據基礎與實務項目一走進大數據項目一走進大數據能夠運用數據相關基礎知識,做好數據分析的全面準備工作能根據學習需要查閱相關資料能對大數據國家戰(zhàn)略、“新經濟”等概念有更準確的認知養(yǎng)成對事物分析的客觀、敏感的職業(yè)思維養(yǎng)成用大數據思維去看待問題的習慣職業(yè)能力職業(yè)素養(yǎng)知識圖譜認識數據任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述現如今社會高速發(fā)展,信息技術愈加發(fā)達,隨著云時代的來臨,大數據越來越受到人們的關注。大數據已成為各國政府和企業(yè)的重要戰(zhàn)略資源,就像計算機和互聯網一樣,大數據即將成為新一輪的技術革命。大數據不僅是信息時代的產物,反之,它更是信息產業(yè)持續(xù)高速增長的新引擎,各行各業(yè)的決策正在由傳統(tǒng)的“業(yè)務驅動”轉變?yōu)椤皵祿寗印?。張明是電子商務專業(yè)的在校大學生,對大數據知識非常感興趣,張明認為要想深入了解大數據,首先要掌握數據的基礎知識。知識準備品牌:華為型號:P40Pro屏幕尺寸:6.58英寸其他參數:攝像頭5個,10倍光學變焦,100倍數字變焦,運行內存8G,機身內容512G

數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合,是可識別的、抽象的符號。定義數據的概念一圖片由圖形、圖像等構成的平面媒體音頻可分為聲音文件和MIDI文件視頻各種動態(tài)影像的存儲文件文本記載和儲存文字信息知識準備數據的類型二知識準備在計算機中,文件是以文件系統(tǒng)進行管理的,而在文件系統(tǒng)中,數據按其內容、結構和用途組成若干命名的文件。文件一般為某個用戶或用戶組所有,但可與其他用戶共享。數據的組織形式三文件系統(tǒng)知識準備文件系統(tǒng)的缺點編寫應用程序不方便數據冗余不可避免應用程序的維護量很大文件系統(tǒng)不支持對文件的并發(fā)訪問數據缺少統(tǒng)一管理知識準備數據的組織形式數據庫是“按照數據結構來組織、存儲和管理數據的倉庫”。是一個長期存儲在計算機內的、有組織的、可共享的、統(tǒng)一管理的大量數據的集合。數據

庫三知識準備數據的生命周期數據采集數據存儲數據處理指組織機構在內部針對動態(tài)數據進行的一系列活動的組合指非動態(tài)數據以任何數字格式進行物理存儲的階段指新的數據產生或現有數據內容發(fā)生顯著改變或更新的階段四知識準備數據傳輸數據交換數據銷毀指數據在組織機構內部從一個實體通過網絡流動到另一個實體的過程指數據經由組織機構內部與外部組織機構及個人交互過程中提供數據的階段指通過對數據及數據的存儲介質通過相應的操作手段,使數據徹底丟失且無法通過任何手段恢復的過程數據的生命周期四知識準備數據傳輸能力數據資產能力數據計算能力數據算法能力1234數據傳輸性能決定了部分應用場景的實現,數據實時的調用、加工、算法推薦和預測等計算速度就像造血速度一樣,決定了供應量。數據資產直接變現的價值通過數據資產作為資源加工后提供數據服務的業(yè)務價值最直接應用于業(yè)務場景且更容易被用戶感知的數據能力數據的價值五課堂研討請舉例說明大數據對人們日常生活的影響。拓展訓練0102數據有哪些類型?請簡述數據生命周期的各個階段。大數據概述任務二任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR張明很喜歡聽音樂,他發(fā)現軟件會自動推薦一些歌曲,而這些歌曲的風格大多與他平時常聽的類似,非常貼近他喜歡的類型;購物軟件也是如此,張明喜歡的電子產品、運動品牌以及書籍的相關鏈接,也都出現在頁面最顯眼的地方。那么,這些軟件的精準推薦跟大數據是否有聯系呢?任務描述知識準備大數據(bigdata),IT行業(yè)術語,是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合。定義一大數據的概念知識準備大數據的特征數據量大Volume價值密度低Value數據類型繁多Variety處理速度快Velocity知識準備二大數據的發(fā)展歷程萌芽時期(1990s~2000)1998年,《Science》雜志發(fā)表了一篇題為《大數據科學的可視化》的文章,大數據作為一個專用名詞正式出現在公共期刊上。在這一階段,大數據只是作為一個概念或假設,少數學者對其進行了研究和討論,其意義僅限于數據量的巨大。知識準備發(fā)展時期(2000~2010)在這一階段,大數據作為一個新名詞,開始受到理論界的關注,其概念和特點得到進一步豐富,相關的數據處理技術層出不窮,大數據開始顯現出活力。2010200820072001美國Gartner公司率先開發(fā)了大型數據模型。同年,DougLenny提出了大數據的3V特性數據密集型科學的出現,不僅為科學界提供了一種新的研究范式,而且為大數據的發(fā)展提供了科學依據Hadoop技術應運而生,成為數據分析的主要技術美國信息技術顧問委員會發(fā)布了一份題為“規(guī)劃數字化未來”的報告,詳細描述了政府工作中大數據的收集和使用?!禨cience》雜志推出了一系列大數據??敿氂懻摿艘幌盗写髷祿膯栴}。知識準備2005知識準備興盛時期(2011~至今)在2010年以后,大數據應用滲透到各行各業(yè),數據驅動決策,信息社會智能化程度大幅提高。2011年,通用商用機械公司開發(fā)了沃森超級計算機,通過每秒掃描和分析4TB數據打破了世界紀錄,大數據計算達到了一個新的高度。知識準備三大數據的影響對大數據的處理分析正成為新一代信息技術融合應用的結點大數據是信息產業(yè)持續(xù)高速增長的新引擎大數據利用將成為提高核心競爭力的關鍵因素大數據時代科學研究的方法手段將發(fā)生重大改變14322課堂研討相對于傳統(tǒng)數據,大數據對于推動人類社會發(fā)展有哪些突出貢獻?拓展訓練0102大數據有哪些特征?簡述大數據的發(fā)展歷程。大數據國家戰(zhàn)略任務三任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR張明經常關注國際時政,他注意到大數據對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力等方面產生越來越深遠的影響。早在2015年10月26日至29日,中國共產黨第十八屆中央委員會第五次全體會議(黨的十八屆五中全會)上,“十三五”規(guī)劃建議提出實施國家大數據戰(zhàn)略,旨在全面推進我國大數據發(fā)展和應用,加快建設數據強國,推動數據資源開放共享,釋放技術紅利、制度紅利和創(chuàng)新紅利,促進經濟轉型升級。至此,大數據戰(zhàn)略上升為國家戰(zhàn)略。世界各國的大數據國家戰(zhàn)略是怎樣的呢?任務描述知識準備視大數據為重要的戰(zhàn)略資源促進經濟發(fā)展和社會變革提升國家整體競爭力知識準備商業(yè)概念實施“三步走”戰(zhàn)略全球領先優(yōu)勢美國大數據技術研發(fā)商業(yè)應用保障國家安全國家戰(zhàn)略加大大數據研發(fā)投入強化頂層設計聚焦部分應用領域進行重點突破英國結合本國特點和需求借鑒美國經驗和做法知識準備發(fā)展創(chuàng)新性解決方案并應用于實踐信息化戰(zhàn)略大數據產業(yè)法國社會經濟生活國家功能(城市管理、公共管理)推動第四次工業(yè)革命智能終端普及率世界前列韓國大數據發(fā)展戰(zhàn)略:世界先進以大數據等技術為核心應對移動互聯網接入速度數據產出量知識準備開放公共數據,夯實應用開發(fā)黨的十八屆五中全會將大數據上升為國家戰(zhàn)略,加快建設數字強國已發(fā)揮了重要作用日本中國大數據發(fā)展日新月異,我們應該審時度勢、精心謀劃、超前布局、力爭主動,深入了解大數據發(fā)展現狀和趨勢及其對經濟社會發(fā)展的影響,分析我國大數據發(fā)展取得的成績和存在的問題,推動實施國家大數據戰(zhàn)略,加快完善數字基礎設施,推進數據資源整合和開放共享,保障數據安全,加快建設數字中國,更好服務我國經濟社會發(fā)展和人民生活改善。知識準備課堂研討舉例說明大數據國家戰(zhàn)略對相關領域產生的影響。拓展訓練01請同學們課后查閱資料,了解國家已經發(fā)布的大數據戰(zhàn)略相關文件。大數據催生“新經濟”任務四任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR大數據、云計算、無人機、3D打印、虛擬現實、人工智能……日新月異、層出不窮的新技術、新業(yè)態(tài)、新產品,引領著未來經濟發(fā)展的方向。電子商務專業(yè)的張明意識到現在越來越多的行業(yè)發(fā)生了翻天覆地的變化,大數據對于經濟社會與人們日常生活的影響深入到各個層面,社會對于數據處理能力的需求急劇增長?!靶陆洕币灿纱苏Q生。于是,張明開始在網上搜尋有關“新經濟”的資料。任務描述新經濟是指新的經濟形式。社會主導產業(yè)形態(tài)的差異決定了社會經濟形態(tài)的差異。在不同的歷史時期,新經濟有不同的內涵。目前,新經濟是指創(chuàng)新知識主導知識、創(chuàng)新型產業(yè)成為產業(yè)領導者的智能經濟形式。新經濟的概述知識準備新經濟的標志知識準備信息化和網絡的快速發(fā)展經濟呈現全球一體化趨勢傳統(tǒng)交通運輸業(yè)大進步新經濟的基本特征與整個人類社會環(huán)境發(fā)生的深刻變化相對應呈現給人們的是一個全新經濟時代新經濟的影響與內涵知識準備新經濟時代的出現不僅給各國的經濟發(fā)展帶來了新的機遇,也給經濟不發(fā)達國家的企業(yè)帶來了新的挑戰(zhàn)。事實上,歷次經濟技術革命都在資源配置的手段、方式和效率上產生了巨大的變化,對人們的生活方式產生了深遠的影響。新經濟的影響與內涵知識準備創(chuàng)新的技術與實體經濟相結合經濟發(fā)展的核心動力進而產生新的業(yè)態(tài)和新的生產方式。創(chuàng)新的技術帶動行業(yè)和產業(yè)發(fā)展,新經濟必然是圍繞創(chuàng)新并引領時代發(fā)展的。內涵新經濟背景下的商科教育傳統(tǒng)商科是培養(yǎng)“商業(yè)技術人才”的。例如財務管理專業(yè)的學生往往將自己定義為財務技術人員,人力資源管理專業(yè)的學生則將自己局限為人力專業(yè)的技術人才。但是,隨著時代的進步,僅僅關注財務知識或人力資源管理知識本身已經解決不了問題,還需要進一步了解行業(yè)發(fā)展現狀甚至是國際、國內市場的競爭態(tài)勢。新商科是與傳統(tǒng)商科對應的一個概念是順應經濟社會發(fā)展的需要產生的商科教育模式知識準備新經濟背景下的商科教育新一輪的科技革命和產業(yè)革命正在進行,互聯網、云計算、大數據等新興技術與模式正深刻改變人們的思維、生產、學習方式。共同探討、支持新商科人才培養(yǎng)事業(yè)的發(fā)展,共建現代學習體系,培養(yǎng)大批創(chuàng)新人才,已經成為應對諸多復雜挑戰(zhàn)、實現可持續(xù)發(fā)展的關鍵。新商科要根據實體經濟供給側的需求,走市場化、企業(yè)化的合作之路。知識準備課堂研討為什么說“新商科,是在現有商科發(fā)展的基礎上,回應科技、社會、經濟所帶來的挑戰(zhàn)”?大數據是怎樣催生“新經濟”的呢?拓展訓練01請同學們課后查閱有關資料,了解更多有關新經濟、新商科的相關內容。謝謝觀看大數據基礎與實務項目二大數據與云計算、物聯網、人工智能項目二大數據與云計算、物聯網、人工智能能夠運用云計算、物聯網和人工智能等知識,做好全面準備工作能根據學習需要查閱相關資料能夠掌握大數據與云計算、物聯網和人工智能間的關系養(yǎng)成對事物分析的客觀、敏感的職業(yè)思維學會思考大數據技術在各個領域的應用潛能和發(fā)展前景職業(yè)能力職業(yè)素養(yǎng)知識圖譜云計算任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR華為早在2008年就開始在云計算領域進行投入與發(fā)展,目前在全國已經有多個云計算節(jié)點,是領先的云計算提供商。華為在襄陽的云計算數據中心已經投產使用,此外,華為與英國ColtDCS達成合作協議,共同迎接云時代下數據中心基礎設施領域新挑戰(zhàn);華為與北京市供銷合作總社達成全球合作協議,共建云計算數據中心。張明想知道什么是云計算,以及云計算有哪些應用。任務描述知識準備云計算的概念一理解云計算的前提與基礎:了解什么是軟件以及IT系統(tǒng)是如何構成的軟件其實就是程序員寫得讓CPU完成某項任務的步驟,這個步驟包括“輸入—計算—輸出”。知識準備需要注意的是:服務器、虛擬機就包括了CPU、內存,而網絡、硬盤其實也是一種計算資源。IT系統(tǒng)知識準備在傳統(tǒng)電腦中輸入一個命令,程序會在這臺電腦中進行計算,最后輸出到自己的電腦上,比如用鼠標點擊運行瀏覽器這個命令。而云計算是把整個計算資源放在云端,也就是輸入輸出與計算分離。輸入一個命令后通過網絡傳輸到云端,計算好后再傳回來,這就是通俗云計算的概念。定義知識準備云計算的服務模式和類型二基礎設施即服務(IaaS)平臺即服務(PaaS)云服務提供商把IT系統(tǒng)的基礎設施建設好,并對計算設備進行池化,然后直接對外出租硬件服務器、虛擬主機、存儲或網絡設施等。云服務提供商把基礎設施層和平臺軟件層都搭建好,然后在平臺軟件層上劃分“小塊”(習慣稱之為容器)并對外出租,相當于買了一臺有操作系統(tǒng)的計算機,可以在這基礎上進行應用軟件的開發(fā)。服務模式知識準備軟件即服務(SaaS)云服務提供商把IT系統(tǒng)的應用軟件層作為服務出租出去,而消費者可以使用任何云終端設備接入計算機網絡,然后通過網頁瀏覽器或者編程接口使用云端的軟件,相當于用戶直接擁有一臺安裝了自己需要的應用程序的計算機。服務模式類型知識準備公有云私有云混合云3混合云在使用私有云作為基礎的同時結合了公有云的服務策略,用戶可自主切換2私有云私有云只為特定用戶提供服務1公有云云計算服務由第三方提供商完全承載和管理,為用戶提供價格合理的計算資源訪問服務基礎設施即服務(IaaS)平臺即服務(PaaS)軟件即服務(SaaS)

張明想喝橙汁給家里安了自來水,并購買了橘子粉知識準備把水凈化、燒開,加點橘子粉直接買了樓下已經處理好的純凈水,加點橘子粉打電話讓樓下的飲料店把張明需要的飲料送到家舉例說明知識準備云計算數據中心三云計算數據中心是一種基于云計算架構的,計算、存儲、服務及網絡資源的松耦合,各種IT設備虛擬化、模塊化程度、自動化程度和綠色節(jié)能程度較高的新型數據中心。定義知識準備云計算數據中心三高度虛擬化自動化模塊化綠色節(jié)能特點云計算的應用四教育云醫(yī)療云金融云存儲云知識準備教育云實質上是指教育信息化的一種發(fā)展提供互聯網處理和運行服務共享互聯網資源高效、低成本使用“云計算”來創(chuàng)建醫(yī)療健康服務云平臺,實現醫(yī)療資源的共享和醫(yī)療范圍的擴大以數據存儲和管理為核心的云計算系統(tǒng)方便了使用者對資源的管理云計算產業(yè)五PART1云計算服務業(yè)PART2云計算制造業(yè)PART3基礎設施服務業(yè)PART4支持產業(yè)知識準備知識準備企業(yè)應用、娛樂應用和辦公應用等SaaS服務數據庫平臺、開發(fā)測試、應用部署和行業(yè)應用等PaaS服務虛擬機、WebHosting和虛擬存儲等IaaS服務云計算服務業(yè)云計算制造業(yè)①軟件方面,比如系統(tǒng)集成、軟件產業(yè)、應用軟件、基礎軟件和中間軟件等②硬件方面,比如服務器、網絡設備、終端設備和存儲設備等?;A設施服務業(yè)包括網絡和數據中心。支持產業(yè)包括計算的評估認證、設計和咨詢等?;A設施服務業(yè)支持產業(yè)知識準備課堂研討圍繞云計算在其他領域的應用展開討論拓展訓練01簡述云計算的服務模式和類型物聯網任務二任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR一位護山員在家里手機上看著千里之外的山林,一旦發(fā)現那里起火,他就可以遙控直升飛機前去滅火;消防員可以不用再等待火警電話,因為只要城市里面任何一個區(qū)域的溫度異常,該區(qū)域就會在他們的手機屏幕上顯現;駕駛員開車進車庫的時候,汽車會告訴房間里面的燈該亮了,或者窗戶該打開了。張明非常好奇,這是怎樣做到的呢?任務準備知識準備物聯網的概念一指將互聯網的概念擴展到物理設備和日常對象之間的連接中。這些設備嵌入了電子設備、網絡連接和其他形式的硬件(如傳感器),可以通過網絡與其他人通信和交互,并且可以遠程監(jiān)控。定義物聯網的關鍵技術二知識準備射頻識別(RFID)技術傳感器技術人工智能技術無線網絡技術云計算技術通過無線電訊號識別特定目標并讀寫相關數據,無需識別系統(tǒng)與特定目標之間建立機械或光學接觸能感受規(guī)定的被測量,如溫濕度、電壓和電流,并按照一定的規(guī)律轉換成可用輸出信號。高速、可進行大批量數據傳輸的無線網絡研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學云計算是把一些相關網絡技術和計算機發(fā)展融合在一起的產物知識準備物聯網的應用三制造家居物流交通安防能源醫(yī)療建筑零售農業(yè)知識準備下一代的工業(yè)革命已經開始,而這樣的興起正是由物聯網驅動的。產品和設備都能在使用過程中反饋數據。66%的先行者認為物聯網是他們在競爭中取得優(yōu)勢的關鍵。物聯網產業(yè)四制造業(yè)醫(yī)療人口的增加與老齡化正在給醫(yī)療帶來沉重的負擔,而物聯網可以起到緩解作用。通過物聯網,病人可以選擇在家中進行治療。知識準備能源和公共事業(yè)運輸及配送物聯網能夠將更多的能源來源與越來越多的需求建立聯系,它還能集成可再生能源實現清潔發(fā)電。通過物聯網,人們可以實時了解設備的信息,從而減少臨時停電造成的影響。物聯網將軌跡追蹤提高到了一個全新的水平,它使得發(fā)貨過程中的各個參數都能被記錄下來,不僅限于位置,還有溫度、濕度、振動和傾斜等等。知識準備農業(yè)科技物聯網有助于實現精準農業(yè),使播種、灌溉和化肥的使用更加準確。智慧城市物聯網可以被用來減少能源使用、管理交通、增加公民安全性。物聯網能幫助占全球人口總數一半的城市居民,使其生活變得更輕松、更清潔、更安全、也更愉快。6知識準備零售7金融服務8智能家居9物聯網一直在改變零售業(yè),使得店內購物體驗變得更加個性化,還能通過購買歷史行為向顧客推薦“可能喜歡”的頻道。在數據驅動的全球金融環(huán)境中,物聯網有助于提高智能化、降低風險并提供更好的數字化體驗。2018年80%的家電廠商都做了智能家居方面的研發(fā),例如常見的家用掃地機器人,有一半都接入了物聯網。知識準備課堂研討圍繞物聯網在其他領域的應用展開討論。拓展訓練01簡述物聯網的關鍵技術。人工智能任務三任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務準備當消費者申請信用卡或貸款時,消費者的信用評分將起到至關重要的作用。在過去,貸款工作人員審查了這些貸款和信用卡申請。雖然仍有很多工作人員,但許多關于信用卡的決定或者是否接受消費者的申請,都是由人工智能中的機器學習系統(tǒng)做出來的。銀行管理人員可以設置他們希望當前信貸標準是寬松還是緊縮的參數。但他們希望銀行的機器學習系統(tǒng)能夠隨著時間的推移而學習,以便更密切地確定哪些申請人是安全的借貸者。張明想要知道,除了機器學習,人工智能還涉及到哪些關鍵技術。人工智能的概念一人工智能(ArtificialIntelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新技術科學。定義任務準備人工智能的關鍵技術二機器學習知識圖譜自然語言處理人機交互計算機視覺生物特征識別VR/AR任務準備機器學習是一門涉及統(tǒng)計學、系統(tǒng)辨識、逼近理論、神經網絡、優(yōu)化理論、計算機科學、腦科學等諸多領域的交叉學科知識圖譜本質上是結構化的語義知識庫,是一種由節(jié)點和邊組成的圖數據結構,以符號形式描述物理世界中的概念及其相互關系自然語言處理研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法人機交互主要研究人和計算機之間的信息交換,主要包括人到計算機和計算機到人的兩部分信息交換任務準備計算機視覺使用計算機模仿人類視覺系統(tǒng)的科學,讓計算機擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。人機交互通過個體生理特征或行為特征對個體身份進行識別認證的技術。人機交互以計算機為核心的新型視聽技術。結合相關科學技術,在一定范圍內生成與真實環(huán)境在視覺、聽覺、觸感等方面高度近似的數字化環(huán)境。任務準備人工智能的應用三任務準備虛擬個人助理人臉識別打拐無人汽車物流機器人智能醫(yī)院課堂研討除了機器學習,銀行業(yè)還在哪些方面運用到人工智能?拓展訓練0102人工智能與人的智能有什么區(qū)別和聯系?簡述人工智能的相關技術。大數據與云計算、物聯網、人工智能的關系任務四任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務準備學習了云計算、物聯網和人工智能相關知識后,張明很好奇,大數據和這三者有哪些關系呢?從技術上來看,大數據和云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等。從應用角度上講,云計算給大數據提供信息化的基礎設施,能更有效利用資源;從產業(yè)發(fā)展的角度上講,運用云平臺,每天可以處理大批量的數據,并對這些數據進行科學、快速、智能的檢索。人工智能的應用一知識準備知識準備大數據與物聯網的關系二目前,物聯網正在支撐起社會活動和人們生活方式的變革,被稱為繼計算機、互聯網之后沖擊現代社會的第三次信息化發(fā)展浪潮。物聯網在將物品和互聯網連接起來,進行信息交換和通信,以實現智能化識別、定位、跟蹤、監(jiān)控和管理。大數據與人工智能的關系三知識準備大數據分析云計算體系AIoT體系課堂研討結合云計算、物聯網和人工智能相關知識,展望這三種技術的綜合應用前景,并展開討論。拓展訓練01大數據與云計算和物聯網有哪些區(qū)別和聯系。謝謝觀看大數據基礎與實務項目三大數據采集與清洗項目三大數據采集與清洗能運用大數據采集與清洗的知識,做好大數據清洗與采集的全面準備工作能準確把握數據清洗的內容和目的能使用大數據采集工具采集所需數據熟練使用數據清洗工具能分析數據并定義清洗規(guī)則、搜尋并標識錯誤實例、糾正發(fā)現的錯誤職業(yè)能力職業(yè)素養(yǎng)具備大數據平臺實踐能力知識圖譜數據采集任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述大數據開啟了一個大規(guī)模生產、分享和應用數據的時代,它給技術和商業(yè)帶來了巨大的變化。麥肯錫研究表明,在醫(yī)療、零售和制造業(yè)領域,大數據每年可以提高勞動生產率0.5%~1%。大數據在核心領域的滲透速度有目共睹,然而調查顯示,未被使用的信息比例高達99.4%,很大程度都是由于高價值的信息無法獲取采集。因此在大數據時代背景下,如何從大數據中采集出有用的信息已經是大數據發(fā)展的關鍵因素之一。勤奮好學的張明找到老師并提問:什么是數據采集呢?知識準備

數據采集就是使用某種技術或手段,將數據收集起來并存儲在某種設備上。數據采集處于大數據生命周期中的第一個環(huán)節(jié),之后的分析挖掘都建立在數據采集的基礎上。數據采集技術廣泛應用在各個領域,比如攝像頭和麥克風,都是數據采集工具。定義數據采集的概念一知識準備數據采集的三大要點二全面性01多維性02高效性03知識準備數據采集的數據源三1線上行為數據2內容數據頁面數據、交互數據、表單數據、會話數據等應用日志、電子文檔、機器數據、語音數據、社交媒體數據等新數據源的歸納與分類知識準備數據采集的數據源三商業(yè)數據互聯網數據傳感器數據商業(yè)數據主要來源于公司業(yè)務平臺的日志文件以及業(yè)務處理系統(tǒng)互聯網數據的采集通常是借助于網絡爬蟲來完成的。所謂“網絡爬蟲”,就是一個在網上到處或定向抓取網頁數據的程序。傳感器是一種檢測裝置,能感受到被測量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲、顯示、記錄和控制等要求。課堂研討在一些專業(yè)二手平臺上,網售大數據采集和定制業(yè)務頗為盛行。有些從事信息販賣的“商家”,正大肆兜售著覆蓋諸多行業(yè)的用戶信息,內容頗為龐雜,可謂五花八門,無所不包。有的還以行業(yè)明碼標價,成行成市。這些人打著“專業(yè)定制”的旗號,無論需要哪類信息,只要客戶提出要求,其都能從網上為你采集到。這些數據商的背后隱藏著一條非法獲取用戶數據的產業(yè)鏈。他們通過專業(yè)的“爬蟲軟件”,侵入搜索引擎、企業(yè)網頁、公眾號及微信朋友圈等,采集各類個人信息及實時數據,經過匯總、整理然后生成所謂大數據產品出售。思考:如果任由此類行業(yè)繼續(xù)發(fā)展,將會帶來怎樣的后果?拓展訓練01請在網上查找有關數據采集的企業(yè)應用實例。數據采集工具及采集方法任務二任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR近年來,由于互聯網大數據技術的快速發(fā)展,以及消費者需求不斷發(fā)生變化,對企業(yè)的營銷方式也提出了更高的要求,以“產品為中心”的營銷觀念和手段無法適應目前市場和消費者需求多樣化發(fā)展的形勢。某煙草企業(yè)就面臨這樣的問題,想要找到基于大數據采集技術的企業(yè)營銷的創(chuàng)新模式,能夠實現對消費者的需求變化及時把控,真正做到以消費者為導向,從而進行有針對性的市場營銷活動。任務描述作為一名普通大學生,張明也想為該煙草公司籌謀劃策,并準備從尋找合適的數據采集工具與方法開始入手。在上一任務中,張明了解到數據采集的數據源主要分為商業(yè)數據、互聯網數據、傳感器數據三大類,根據煙草公司的特性,張明想知道,可以采集到商業(yè)數據、互聯網數據的工具及方法有哪些呢?任務描述知識準備Scribe是Facebook開源的日志收集系統(tǒng),在Facebook內部已經得到的應用,其體系架構如圖3-1所示。它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng)(可以是NFS,分布式文件系統(tǒng)等)上,以便于進行集中統(tǒng)計分析處理。(一)Scribe一日志收集系統(tǒng)圖3-1Scribe體系架構圖知識準備Flume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸的系統(tǒng),Flume支持在日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。(二)Flume一日志收集系統(tǒng)圖3-2Flume體系架構圖知識準備Chukwa是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數據收集系統(tǒng)。這是構建在Hadoop的HDFS和Mapreduce框架之上的,繼承了Hadoop的可伸縮性和健壯性。Chukwa還包含了一個強大和靈活的工具集,可用于展示、監(jiān)控和分析已收集的數據。(三)Chukwa一日志收集系統(tǒng)圖3-3Chukwa結構圖知識準備二網絡爬蟲(一)Python網絡爬蟲Python語法和動態(tài)類型,以及解釋型語言的本質,使它成為多數平臺上寫腳本和快速開發(fā)應用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用于獨立的、大型項目的開發(fā)。網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。知識準備二網絡爬蟲(二)八爪魚采集器八爪魚采集器是一款可視化免編程的網頁采集軟件,可以從不同網站中快速提取規(guī)范化數據,幫助用戶實現數據的自動化采集、編輯以及規(guī)范化,降低工作成本。圖3-4八爪魚采集器工作流程知識準備二網絡爬蟲(三)集搜客集搜客采集器是一款簡單易用的網頁信息抓取軟件,能夠抓取網頁文字、圖表、超鏈接等多種網頁元素。同樣可以通過簡單可視化流程進行采集,服務于任何對數據有采集需求的人群。圖3-5集搜客使用向導知識準備二網絡爬蟲圖3-6集搜客工作臺課堂研討哪一種數據采集工具更適合張明?理由是什么?拓展訓練01嘗試使用至少兩種工具,采集“鏈家”平臺廣州地區(qū)的租房信息數據。數據清洗任務三任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR數據質量的高低嚴重影響了工業(yè)、經濟等社會的方方面面,數據質量問題及其所導致的知識和決策錯誤已經在全球范圍內造成了惡劣的后果,嚴重困擾著信息社會,大數據的廣泛應用對數據質量的保障提出了迫切需求。數據清洗是數據質量管理的重要問題,其內容十分豐富,包括缺失值處理、實體識別與真值發(fā)現,錯記的主動發(fā)現和修復等問題。張明對此產生了疑惑:什么是數據清洗呢?如何清洗“臟數據”呢?任務描述知識準備

數據清洗是一種對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。定義數據清洗的概念一知識準備“臟數據”的類型二殘缺數據重復數據“臟數據”的類型錯誤數據這一類數據主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配等。這一類錯誤產生的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數據庫造成的,比如:數值數據輸成全角數字字符、字符串數據后面有一個回車操作、日期格式不正確、日期越界等。對于這一類數據需將重復數據記錄的所有字段導出來,讓客戶確認并整理。知識準備數據清洗流程三在實際操作中,數據清洗通常會占據分析過程的50%~80%的時間。圖3-7為淺層次的數據清洗流程圖。知識準備三數據清洗流程(一)預處理階段查看數據看元數據抽取一部分數據,使用人工查看方式將數據導入處理工具12知識準備三數據清洗流程(二)階段1:缺失值清洗缺失值是最常見的數據問題,處理缺失值也有很多方法。首先,確定缺失值范圍。對每個字段都計算其缺失值比例,然后按照缺失比例和字段重要性,分別制定策略,可用圖3-8表示。圖3-8

數據的重要性與缺失率關系比例圖知識準備三數據清洗流程(三)階段2:格式內容清洗時間、日期、數值、全半角等顯示格式不一致內容中含有不該存在的字符內容與該字段應有內容不符知識準備三數據清洗流程(四)階段3:邏輯錯誤清洗這部分的工作是去掉一些使用簡單邏輯推理就可以直接發(fā)現問題的數據,防止分析結果走偏。主要包含去重、去除不合理值以及修正矛盾內容。去重A去除不合理值B修正矛盾內容C知識準備三數據清洗流程(五)階段4:非需求數據清洗在進行數據清洗時人們往往會把看上去不需要但實際上對業(yè)務很重要的字段刪了,又或者某個字段覺得有用,但又沒想好怎么用,不知道是否該刪。此時,如果數據量沒有大到不刪該字段就無法處理,則能不刪的字段盡量不刪。此外,應該勤備份數據,以免誤刪數據影響后續(xù)分析。(六)階段5:關聯性驗證如果數據有多個來源,則有必要進行關聯性驗證。例如,同時獲得某品牌汽車的線下購買信息,以及相應汽車品牌的電話客服問卷信息,兩者通過姓名和手機號關聯。同一個人線下登記的車輛信息和線上問卷問出來的車輛信息如果不是同一輛,則該條數據需要調整或去除數據。課堂研討張明現在收集到一份“鏈家”平臺廣州地區(qū)的房屋出租信息,但不知道該用什么工具對這份數據進行清洗,請你幫幫他。拓展訓練01請使用至少兩種工具對采集后的“鏈家”平臺數據進行數據清洗。謝謝觀看大數據基礎與實務項目四數據存儲和管理項目四存儲和管理能運用數據存儲和管理技術等知識做好準備工作能根據學習需要查閱資料能夠區(qū)分傳統(tǒng)的數據存儲和管理技術與大數據時代的數據存儲和管理技術間的區(qū)別養(yǎng)成對事物分析的客觀、敏感的職業(yè)思維養(yǎng)成對數據進行存儲與管理的職業(yè)習慣職業(yè)能力職業(yè)素養(yǎng)知識圖譜數據存儲概述任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述自人類誕生以來,數據的存儲就一直伴隨人們左右。最早的原始人類采用結繩記事的方式實現數據的記錄與存儲,后來商代利用甲骨文記錄信息,西周和春秋時期則利用竹簡作為信息記錄的載體,再到東漢造紙術的成功出現都持續(xù)地體現了數據存儲對人類生活的重要性。從公元1900年到現在,人們相對較快地經歷了機器打孔、電子存儲計算器、在線數據庫、關系型數據庫、多類型數據處理5個階段后,正式進入了大數據處理階段。張明不禁有些疑惑,該怎樣向學弟學妹們解釋數據存儲的概念呢?數據存儲的方式又有哪些?它們有什么異同呢?知識準備

數據存儲是指數據流在加工過程中產生的臨時文件或加工過程中需要查找的信息。定義數據存儲的概念一數據以某種格式記錄在計算機內部或外部存儲介質上。常用的存儲介質為磁盤和磁帶。知識準備數據存儲的方式二(一)DAS(DirectAttachedStorage)直接附加存儲

DAS這種存儲方式與普通的PC存儲架構一樣,外部存儲設備都是直接掛接在服務器內部總線上,數據存儲設備是整個服務器結構的一部分。

DAS存儲方式主要適用的環(huán)境小型網絡地理位置分散的網絡提高DAS存儲性能特殊應用服務器知識準備數據存儲的方式二(二)NAS(NetworkAttachedStorage)數據存儲方式

NAS(網絡附加存儲)方式全面改進了以前低效的DAS存儲方式。NAS是通過網線連接的磁盤陣列,具備磁盤陣列的所有主要特征:高容量、高效能、高可靠。NAS是部件級的存儲方法。NAS的缺點真正的即插即用存儲部署簡單存儲設備位置非常靈活管理容易且成本低NAS的優(yōu)點存儲性能較低可靠度不高知識準備數據存儲的方式二(三)SAN(StorageAreaNetwork)存儲方式

SAN存儲方式創(chuàng)造了存儲的網絡化。存儲網絡化順應了計算機服務器體系結構網絡化的趨勢。SAN的支撐技術是光纖通道(FCFiberChannel)技術。它是ANSI為網絡和通道/O接口建立的一個標準集成。SAN的硬件基礎設施是光纖通道,用光纖通道構建的SAN由以下三個部分組成:包括備份軟件、存儲資源管理軟件和存儲設備管理軟件

包括磁帶、磁盤和光盤庫等

包括主機總線適配卡、驅動程序、光纜、集線器、交換機、光纖通道和SCSI間的橋接器1.存儲和備份設備2.光纖通道網絡連接部件3.應用和管理軟件知識準備數據存儲的方式二(三)SAN(StorageAreaNetwork)存儲方式

SAN的優(yōu)勢網絡部署容易高速存儲性能因為SAN采用了光纖通道技術,所以它具有更高的存儲帶寬,存儲性能明顯提高。SAN的光纖通道使用全雙工串行通信原理傳輸數據,傳輸速率高達1062.5Mb/s。良好的擴展能力由于SAN采用了網絡結構,擴展能力更強。光纖接口提供了10公里的連接距離,這使得實現物理上分離,不在本地機房的存儲變得非常容易。知識準備數據存儲方式的比較三

DAS、NAS和SAN三種存儲方式比較存儲應用最大的特點是沒有標準的體系結構,這三種存儲方式共存,互相補充,已經很好滿足企業(yè)信息化應用。從連接方式上看:DASNASSAN采用了存儲設備直接連接應用服務器,具有一定的靈活性和限制性通過網絡(TCPIP,ATMFDD)技術連接存儲設備和應用服務器,存儲設備位置靈活,隨著萬兆網的出現,傳輸速率有了很大的提高通過光纖通道(FibreChannel)技術連接存儲設備和應用服務器,具有很好的傳輸速率和擴展性能課堂研討數據存儲方式的變化給人們的生活帶來了哪些變化?拓展訓練01簡述你所了解的生活中數據存儲的情形。傳統(tǒng)的數據存儲和管理技術任務二任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR張明發(fā)現,由于云計算、物聯網、社交網絡的發(fā)展使人類社會的數據產生方式發(fā)生了變化,社會數據的規(guī)模正在以前所未有的速度增長,數據的種類不勝枚舉。這種海量、異構的數據不僅改變人們的生活,也帶來了數據存儲技術的變革與發(fā)展。那么在傳統(tǒng)的數據存儲中用到了哪些管理技術呢?任務描述知識準備文件系統(tǒng)是操作系統(tǒng)用于明確存儲設備(常見的是磁盤,也有基于NANDFlash的固態(tài)硬盤)或分區(qū)上的文件的方法和數據結構;即在存儲設備上組織文件的方法。操作系統(tǒng)中負責管理和存儲文件信息的軟件機構稱為文件管理系統(tǒng),簡稱文件系統(tǒng)。定義一文件系統(tǒng)文件系統(tǒng)由三部分組成:文件系統(tǒng)的接口對對象操縱和管理的軟件集合對象及屬性知識準備二關系數據庫

目前市場上常見的關系數據庫產品包括Oracle、SQLServer、MySQL、DB2等。一個關系數據庫可以看成是許多關系表的集合,每個關系表可以看成一張二維表格,如表4-1學生信息表所示。知識準備二關系數據庫

關系數據庫的特點序號項目內容1存儲方式采用表格的儲存方式,數據以行和列的方式進行存儲,要讀取和查詢都十分方便2存儲結構按照結構化的方法存儲數據,每個數據表的結構都必須事先定義好,然后再根據表的結構存入數據,但數據模型不夠靈活,存入后修改困難3存儲規(guī)范把數據按照最小關系表的形式進行存儲。當存在多個表時,表和表之間通過主外鍵關系發(fā)生關聯,并通過連接查詢獲得相關結果。4擴展方式一般的關系型數據庫只具備有限的縱向擴展能力5查詢方式采用結構化查詢語言(即SQL:StructuredQueryLanguage)來對數據庫進行查詢6事務性可以支持事務的ACID特性(原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability))7連接方式不同的關系數據庫產品都遵守一個統(tǒng)一的數據庫連接接口標準,即ODBC(OpenDatabaseConnectivity)知識準備三數據倉庫

數據倉庫(DataWarehouse)是一個數據集合,用于支持管理決策。特點數據倉庫中的數據是按照一定的主題域進行組織,一個主題通常與多個操作型信息系統(tǒng)相關。面向主題在構建數據倉庫時,會每隔一定的時間(比如每周、每天或每小時)從數據源抽取數據并加載到數據倉庫。反映歷史變化數據倉庫是不可更新的,數據倉庫主要是為決策分析提供數據,所涉及的操作主要是數據的查詢。相對穩(wěn)定數據倉庫的數據來自于分散的操作型數據,將所需數據從原來的數據中抽取出來,進行加工與集成、統(tǒng)一與綜合之后才能進入數據倉庫。集成知識準備三數據倉庫

如圖4-1所示,一個典型的數據倉庫系統(tǒng)通常包含數據源、數據存儲和管理、OLAP服務器、前端工具和應用等四個部分。圖4-1數據倉庫體系架構知識準備四并行數據庫定義:在無共享的體系結構中進行數據操作的數據庫系統(tǒng)。關系表的水平劃分和SQL查詢的分區(qū)執(zhí)行兩個關鍵技術高性能和高可用性目標沒有較好的彈性系統(tǒng)的容錯性較差主要缺點并行數據庫課堂研討傳統(tǒng)的數據存儲與管理技術有哪些特點?拓展訓練01請在網上查找有關傳統(tǒng)的數據存儲與管理技術的應用實例。大數據時代的數據存儲和管理技術任務三任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR存儲本身就是大數據中一個很重要的組成部分,隨著大數據技術的到來,對于結構化、半結構化、非結構化的數據存儲也呈現出新的要求,特別對統(tǒng)一存儲也有了新的變化。大數據集容易消耗巨大的時間和成本,從而造成非結構化數據的雪崩。也即是說如果沒有合適的大數據存儲方式,就不能輕松訪問或部署大量數據。于是張明想知道大數據時代的數據存儲與管理技術優(yōu)勢是怎樣的呢?任務描述知識準備

分布式文件系統(tǒng)(DistributedFileSystem)是一種通過網絡實現文件在多臺主機上進行分布式存儲的文件系統(tǒng)。定義分布式文件系統(tǒng)一作用:可以有效解決數據的存儲和管理難題:將固定于某個地點的某個文件系統(tǒng),擴展到任意多個地點/多個文件系統(tǒng),眾多的節(jié)點組成一個文件系統(tǒng)網絡。知識準備分布式文件系統(tǒng)一分布式文件系統(tǒng)的發(fā)展的三個階段第一階段是網絡文件系統(tǒng)第二階段是共享SAN文件系統(tǒng)第三階段是面向對象的并行文件系統(tǒng)知識準備分布式文件系統(tǒng)一圖4-2分布式文件系統(tǒng)的整體結構知識準備NewSQL和NoSQL數據庫二(一)NewSQL數據庫

NewSQL是對各種新的可擴展、高性能數據庫的簡稱,這類數據庫不僅具有對海量數據的存儲管理能力,還保持了傳統(tǒng)數據庫支持ACID和SQL等特性。定義目前具有代表性的NewSQL數據庫主要包括Spanner、Clustrix、GenieDB、ScalArc、Schooner、VoltDB、RethinkDB、ScaleDB、Akiban、CodeFutures、ScaleBase、Translattice、NimbusDB、Drizzle、Tokutek、JustOneDB等。知識準備NewSQL和NoSQL數據庫二(二)NoSQL數據庫

NoSQL是一種不同于關系數據庫的數據庫管理系統(tǒng)設計方式,是對非關系型數據庫的統(tǒng)稱,它所采用的數據模型并非傳統(tǒng)關系數據庫的關系模型,而是類似鍵/值、列族、文檔等非關系模型。定義NoSQL數據庫沒有固定的表結構,通常也不存在連接操作,也沒有嚴格遵守ACID約束,因此,與關系數據庫相比,NoSQL具有靈活的水平可擴展性,可以支持海量數據存儲。知識準備NewSQL和NoSQL數據庫二(三)大數據引發(fā)數據庫架構變革美國著名數據庫科學家邁克爾·斯通布雷克(Michael·Stonebraker)指出,行業(yè)技術的發(fā)展趨勢是由一種架構支持所有應用轉變?yōu)橛枚喾N架構支持多類應用。在大數據和云計算的背景下,這一理論導致了數據庫市場的大裂變:數據庫市場分化為三大陣營,包括OldSQL(傳統(tǒng)數據庫)、NewSQL(新型數據庫)和NoSQL(非關系型數據庫)。邁克爾·斯通布雷克知識準備NewSQL和NoSQL數據庫二(三)大數據引發(fā)數據庫架構變革圖4-3大數據引發(fā)數據庫架構變革知識準備云數據庫三研究機構IDC預言,大數據將按照每年60%的速度增加,其中包含結構化和非結構化數據。如何方便、快捷、低成本地存儲這些海量數據,是許多企業(yè)和機構面臨的一個嚴峻挑戰(zhàn)。云數據庫就是一個非常好的解決方案。通過云技術推出更多可在公有云中托管數據庫的方法,將用戶從繁瑣的數據庫硬件定制中解放出來讓用戶擁有強大的數據庫擴展能力,滿足海量數據的存儲需求能夠很好地滿足企業(yè)動態(tài)變化的數據存儲需求和中小企業(yè)的低成本數據存儲需求云數據庫優(yōu)點123知識準備云數據庫三圖4-4關系數據庫、NoSQL、NewSQL和云數據庫產品分類課堂研討比較傳統(tǒng)的數據存儲與管理技術與大數據時代的數據存儲與管理技術有什么異同。拓展訓練01請在網上查找有關大數據時代的數據存儲與管理技術的應用實例。謝謝觀看大數據基礎與實務項目五數據挖掘和分析項目四存儲和管理能夠掌握數據挖掘和機器學習的含義會運用決策樹模型解決實際問題能夠掌握大數據處理與分析技術養(yǎng)成對事物分析的客觀、敏感的職業(yè)思維養(yǎng)成對大數據挖掘和分析的職業(yè)習慣職業(yè)能力職業(yè)素養(yǎng)知識圖譜數據挖掘和機器學習算法任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述張明經常去超市并發(fā)現一個規(guī)律,他在購物清單上列舉好的某些商品可能會被超市阿姨擺放在相鄰的區(qū)域。例如,面包柜臺旁邊會擺上黃油、面條柜臺附近一定會有老干媽等等。這樣的物品擺放會讓他的購物過程更加快捷、輕松。那么如何知道哪些物品該擺放在一塊?又或者用戶在購買某一個商品的情況下購買另一個商品的概率有多大?這就要利用關聯數據挖掘的相關算法來解決。知識準備數據挖掘一(一)數據挖掘的定義數據挖掘(DataMining),又稱之為數據庫文件的專業(yè)知識發(fā)覺(Knowledge-DiscoveryinDatabases,KDD),它是指從大量的數據中通過算法搜索隱藏于其中信息的過程。定義數據挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)和模式識別等諸多方法來實現上述目標。知識準備數據挖掘一(二)數據挖掘體系知識準備數據挖掘一(三)數據挖掘的流程KDD過程迭代序列1數據清理消除噪聲和刪除不一致數據2數據集成多種數據源可以組合在一起3數據選擇從數據庫中提取與分析任務相關數據4數據變換通過匯總或聚集操作,把數據變換和統(tǒng)一成適合挖掘的形式5數據挖掘使用一定的模型算法提取數據模式6模式評估根據某種興趣度度量,識別代表知識的真正有趣的模式7知識表示使用可視化和知識表示技術,向用戶提供挖掘的知識知識準備數據挖掘一(三)數據挖掘的流程

圖5-1數據挖掘視為知識發(fā)現過程的一個步驟知識準備數據挖掘一(四)數據挖掘的應用市場分析和管理1風險分析和管理2欺騙檢測和異常模式的監(jiān)測(孤立點)3文本挖掘4知識準備機器學習二(一)機器學習的定義機器學習是一門多領域交叉學科。涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。定義利用機器學習的模型算法,從現實世界的海量數據里提煉出有價值的知識,規(guī)則和模式。并應用到前臺系統(tǒng),輔助業(yè)務的進行。例如:用戶推薦、預測結果、精準分類等,使到業(yè)務能產生更大的效益。知識準備機器學習二(二)機器學習的方法監(jiān)督學習(1)KNN(K近鄰法)(2)決策樹(3)支持向量機(4)樸素貝葉斯(5)Logistics回歸無監(jiān)督式學習(1)層次聚類(2)k均值聚類(3)PCA(主成分分析)半監(jiān)督式學習(1)基于概率的算法;(2)在現有監(jiān)督算法基礎上作修改的方法;(3)直接依賴于聚類假設的方法;(4)基于多視圖的方法;(5)基于圖的方法。強化學習(1)Q-Learning(2)時間差學習知識準備數據挖掘和機器學習的關系三(一)相同點01020304都使用數據都用于解決復雜的問題均屬于數據科學的范疇機器學習有時被用作進行有用數據挖掘的一種手段知識準備數據挖掘和機器學習的關系三(二)不同點聯系能力實用性因素目的使用時間課堂研討我們寫一段程序讓計算機自己進行一個學習過程,直到達到一個滿意程度。那么學習的目的是什么?怎樣學習?滿意程度又是如何定義的呢?拓展訓練01請闡述數據挖掘的概念。02機器學習領域有幾種主要學習方式?03請闡述數據挖掘和機器學習的關系?大數據分析技術任務二任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR與往屆世界杯不同的是:數據分析成為巴西世界杯賽事外的精彩看點。伴隨賽場上球員的奮力角逐,大數據也在全力演繹世界杯背后的分析故事。一向以嚴謹著稱的德國隊引入專門處理大數據的足球解決方案,進行比賽數據分析,優(yōu)化球隊配置,并通過分析對手數據找到比賽的“制敵”方式;谷歌、微軟、Opta等通過大數據分析預測賽果……大數據,不僅成為賽場上的“第12人”,也在某種程度上充當了世界杯的“預言帝”。大數據分析邂逅世界杯,是大數據時代的必然發(fā)生,那么張明想要知道大數據分析技術在我們的生活中還有哪些作用呢?任務描述知識準備一大數據分析概述大數據分析技術(已有數據)分布式統(tǒng)計分析技術分布式挖掘、深度學習技術(未知數據)數據處理技術數據分析階段聚類與分類關聯分析深度學習知識準備二大數據分析模型常見的大數據分析模型。選擇了數據結構,算法也隨之確定,系統(tǒng)構造的關鍵因素是數據而不是算法。這種洞見導致了許多種軟件設計方法和程序設計語言的出現,面向對象的程序設計語言就是其中之一。數據模型業(yè)務模型常見的數據分析模型區(qū)分知識準備二大數據分析模型(一)數據模型統(tǒng)計數據視角的實體模型通常指的是統(tǒng)計分析或大數據挖掘、深度學習、人工智能技術等種類的實體模型,這些模型是從科學研究視角去往界定的。6.時間序列2.回歸1.降維5.關聯3.聚類7.異常數據檢測4.分類知識準備二大數據分析模型(二)業(yè)務模型業(yè)務流程實體模型指的是對于某一業(yè)務流程情景而界定的,用以解決困難的某些實體模型,這種實體模型跟上邊實體模型的差別取決于情景化的運用。知識準備二大數據分析模型(二)業(yè)務模型序號模型類型1會員數據化運營分析模型會員細分模型、會員價值模型、會員活躍度模型、會員流失預測模型、會員特征分析模型、市場營銷回應預測模型。2商品數據化運營分析模型商品價格敏感度模型、新產品市場定位模型、銷售預測模型、商品關聯銷售模型、異常訂單檢測模型、商品規(guī)劃的最優(yōu)組合。3流量數據化運營分析模型流量波動檢測、渠道特征聚類、廣告整合傳播模型、流量預測模型。4內容數據化運營分析模型情感分析模型、搜索優(yōu)化模型、文章關鍵字模型、主題模型、垃圾信息檢測模型。知識準備三大數據分析的作用(一)現狀分析分析此階段企業(yè)的整體運營情況分析企業(yè)每個業(yè)務的組成呈現形式:報告(每日、每周和每月)知識準備三大數據分析的作用(二)原因分析在對第一階段的現狀進行分析之后,就對公司的運營有了基本的了解,但仍不知道是什么因素促使該公司保持現有的優(yōu)勢,又是什么導致了公司存在這樣的不足。這時需要進行原因分析,以進一步確定業(yè)務變更的具體原因。原因分析通常通過主題分析進行。知識準備三大數據分析的作用(三)預測分析了解公司運營的現狀后,有時需要對公司的未來發(fā)展趨勢做出預測,為公司制定業(yè)務目標,并提供有效的戰(zhàn)略參考和決策依據,以確保公司的持續(xù)健康發(fā)展。預測分析通常是通過主題分析完成的,主題分析通常是在制定公司的季度和年度計劃時進行的。預測分析發(fā)展頻率不如現狀分析和原因分析高。知識準備四大數據分析的應用(一)數據分析對互聯網的作用對海量用戶數據進行挖掘分析,發(fā)現用戶的個性喜好,從而對用戶的消費行為進行準確把握。將用戶上網行為與業(yè)務支撐系統(tǒng)數據進行結合分析,展現了用戶動態(tài)與靜態(tài)數據的互補性,為市場營銷人員尋找目標客戶打下了良好的基礎,提升了營銷準確率。知識準備四大數據分析的應用(二)數據分析對電商的作用營銷管理客戶管理智能推薦知識準備四大數據分析的應用(三)數據分析對金融的作用數據技術對金融行業(yè)的影響巨大,金融業(yè)對信息系統(tǒng)的實際應用前景還是非常大的,金融業(yè)對信息系統(tǒng)的實用性要求很高,且積累了大量的客戶交易數據。金融業(yè)主要信息需求010203金融分析防堵詐騙客戶行為分析知識準備四大數據分析的應用(四)數據分析對其他行業(yè)的作用旅游行業(yè)進行人流、車流量等統(tǒng)計,了解用戶的想法和需求電信行業(yè)進行增值業(yè)務推薦和新套餐科學定價分析房地產行業(yè)做出投資決策建議課堂研討如何正確看待大數據安全和傳統(tǒng)數據安全之間的關系?拓展訓練01針對大數據處理的主要計算模型有哪些?02大數據分析技術主要包括有哪些?謝謝觀看大數據基礎與實務項目六大數據可視化項目六大數據可視化掌握數據可視化的概念了解數據可視化的工具了解數據可視化的作用養(yǎng)成對事物分析的客觀、敏感的職業(yè)思維養(yǎng)成對大數據進行可視化分析的職業(yè)習慣職業(yè)能力職業(yè)素養(yǎng)知識圖譜數據可視化的概念任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR張明是一名電子商務專業(yè)的在校大學生,應一家保溫杯生產廠家的要求,要對保溫杯銷售情況進行分析。由于廠家數據的日久累計,廠家生產的數據無論從數量空間還是從維度層次上都日益繁雜。面對大量數據,張明望洋興嘆:要么企業(yè)內部的大量數據不能有效利用,無法提供決策依據;要么數據展示模式繁雜晦澀,無法快速甄別有效信息。如何將海量數據經過抽取、加工、提煉,通過可視化方式展示出來,改變傳統(tǒng)的文字描述識別模式,讓決策者更高效地掌握重要信息和了解重要細節(jié),這關系到企業(yè)重大決策的制定和發(fā)展方向的研判。因此張明想了解到底什么是數據可視化。任務描述知識準備大數據可視化,就是指將結構或非結構數據轉換成適當的可視化圖表,然后將隱藏在數據中的信息直接展現在人們面前。數據可視化分析是將數據呈現給用戶以易于感知的圖形符號,讓用戶交互地理解數據。也就是說,數據可視化可以看到交互界面,更適合于探索性地分析數據。知識準備數據可視化是指以柱狀圖、餅狀圖、線型圖等圖形方式展示數據,讓決策者更高效地了解企業(yè)的重要信息和細節(jié)層次。大量研究結果表明,人類通過圖形獲取信息的速度比通過閱讀文字獲取信息的速度要快很多,因此可以通過可視化方式幫助用戶改變傳統(tǒng)的數據識別模式。知識準備一數據認知人們對數據的認知,一般都經過從數據模型到概念模型的過程,最后得到數據在實際中的具體語義。數據模型是對數據的底層描述及相關的操作。概念模型是對數據的高層次描述,對應于人們對數據的具體認知。根據數據分析要求,不同的應用可以釆用不同的數據分類方法。例如,根據數據模型,可以分為浮點數、整數、字符等;根據概念模型,可以定義數據所對應的實際意義或者對象,例如汽車、摩托車、自行車等分類數據。二數據類型知識準備在科學計算中,通常根據測量標度,將數據分為四類:類別型數據、有序型數據、區(qū)間型數據和比值型數據。如下表:排名姓名時間性別1小趙3分10秒男2小錢3分12秒男3小孫3分18秒男4小李3分40秒女5小周3分52秒男6小吳4分10秒女知識準備知識準備有序型數據用來表示對象間的順序關系比值型數據用于比較數值間的比例關系類別型數據用于區(qū)分物體區(qū)間型數據用于得到對象間的定量比較課堂研討有的人可以在短時間內記住成百上千個毫無規(guī)律的手機號碼,其實沒有什么奧秘,只是因為他們通過數據表達將原本毫無意義的符號,變成了有聯系的圖形信息。比如他們在記憶183492761這樣的數字時,會將數字放入到類似于手機解鎖的九宮格中,這樣他們就能將記憶數字改變?yōu)橛洃泩D形,會大大提高記憶效果。這是為什么呢?拓展訓練01通常很多人做報表時都會給老板用Excel表格的方式呈現,但是這種方式僅僅是將數據進行了羅列,沒有辦法表達出真正的主體信息,老板也沒辦法從這樣的數據中找出什么規(guī)律和特征。你可以利用數據可視化將數據進行轉化嗎?讓老板獲取信息的效率會更快,也能從數據中找出事物變化的趨勢與規(guī)律,幫助老板進行決策。數據可視化的重要作用任務二任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述2020年初新冠疫情全球肆虐,而首例肺炎病例,早在2019年就已出現,當時的患者還未出現傳染跡象,未能獲得醫(yī)生、研究人員的特別關注。在新冠疫情專題的央視采訪中,張繼先醫(yī)生說:“我們醫(yī)生寫病歷,有病歷系統(tǒng),填出來的時候就發(fā)現了,這些人的共同點都是在華南海鮮待過。”張醫(yī)生提到的電子病歷是患者所有健康相關的完整數據檔案,患者被治療的全過程都會被記錄下來,這意味著醫(yī)院在診療病人的同時,能獲取更加完整的數據。EMR是國家推動的醫(yī)院信息化升級中的一個核心系統(tǒng)。在2018年到2019年,國務院和國家衛(wèi)健委的推動下,全國總計有7000多家醫(yī)院申報了國家的電子病歷評級。正是因為有了升級,系統(tǒng)對數據的采集更加完善,才有更快發(fā)現傳染的可能。如果沒有這樣的數據,我們發(fā)現疫情可能會更晚,影響會更大。發(fā)現傳染病只是開始,疫情的防控才是重中之重。而在十四億人口、交通高度發(fā)達的國家,要找到傳染源,需要大量的數據支撐。所以在這場抗疫戰(zhàn)爭中,人們見到了各式各樣的數據:公共交通數據(飛機、高鐵、火車、客車、出租)、三大運營商數據、社區(qū)采集和個人舉報數據(個人體溫、個人路徑軌跡、個人密切接觸者、集會活動)、社交數據(微博、微信、微信運動、QQ)、互聯網數據(搜索、在線問診)、其他數據……任務描述任務描述將醫(yī)療小數據與各式各樣的大數據結合,就能夠創(chuàng)造出不少實用的抗疫數據應用:同行航班查詢、同行車次查詢、周邊社區(qū)確診查詢、疫情全國分布(如圖6-2所示)等等,多數應用的推廣都離不開數據的可視化,除了常規(guī)的柱狀圖、折線圖、餅圖之外,這次最讓人關注的始終都是疫情地圖。除此之外,相關的病例數據還會進入到科研中,醫(yī)生、科研人員將對患者的病例數據進行分析,發(fā)表研究性論文,得出對于疾病的準確認知。由于人類對于病毒的恐懼,多數是來自于未知。而張明通過上面分析對于新冠肺炎的理解越來越深入,對于它也就逐漸不再害怕。一數據可視化的優(yōu)勢知識準備大數據可視化技術的主要攻堅對象是如何在不貶抑數據價值的同時將數據從“數字、文字”轉換為簡潔的圖表,方便數據挖掘和數據展示。一個經典的可視化實現流程,是先對采集的數據進行加工處理和變換,轉變成視覺可表達的形式(可視化映射),然后再渲染成用戶可見的視圖(用戶感知)。二數據可視化在企業(yè)中的應用知識準備1342在龐大的數據團中快速消化吸收有用的信息對搶占先機有很大的幫助幫助企業(yè)快速消化信息幫助公司在比較短的時間內對數據進行分析、快速做出業(yè)務以及產品決策,改進產品,推動業(yè)務增長,從而使其更好地適應市場發(fā)展趕超競爭對手了解日常工作進度,分析業(yè)務表現找到改變整體業(yè)務的方式掌握業(yè)務增長、下滑的原因觀察數據變化,指導決策從市場中發(fā)現發(fā)展趨勢并以此調整經營策略的時候,往往該企業(yè)的發(fā)展速率會超乎同行的百分之三十發(fā)展市場趨勢課堂研討你還知道數據可視化在生活中有哪些影響嗎?拓展訓練01簡述你了解的生活中可以用于大數據可視化分析的情形。初識可視化工具任務三任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述張明需要對保溫杯廠家的銷售數據進行可視化,通過查閱資料,他發(fā)現可用于數據可視化的工具有很多種。與此同時,財務部門主管想要利用可視化工具更好地呈現財務數據,方便公司老板更快地掌握財務信息,為此找到了張明,希望能夠獲得幫助。那么每種可視化工具都有什么區(qū)別呢?一PowerBI連接到任意數據準備數據并建模借助Excel的熟悉度提供高級分析創(chuàng)建企業(yè)的交互式報表隨時隨地創(chuàng)作特點知識準備二FineBI自助式數據準備Spider引擎,大量數據秒級呈現業(yè)務數據可視化效果全場景多屏應用方案企業(yè)級權限管控知識準備FineBI的特點三Tableau快速分析大數據任何數據簡單易用智能儀表板瞬時共享自動更新Tableau的特點知識準備四DataV專業(yè)級大數據可視化多種數據源支持圖形化編輯界面靈活部署和發(fā)布特點知識準備五Sugar知識準備圖表豐富多場景大屏模板拖拽組件,所見即所得的編輯體驗平臺支持直連多種數據源Sugar是百度云推出的敏捷BI和數據可視化平臺,目標是解決報表和大屏的數據BI分析和可視化問題,解放數據可視化系統(tǒng)的開發(fā)人力六騰訊云圖酷炫大屏自由布局實時數據靈活多端安全發(fā)布云監(jiān)控集成知識準備知識準備七SmartbiSmartbi可滿足用戶在企業(yè)級報表、數據可視化分析、自助分析平臺、數據挖掘建模、AI智能分析等大數據分析需求。致力于打造產品銷售、產品整合、產品應用的生態(tài)系統(tǒng),與上下游廠商、專業(yè)實施伙伴和銷售渠道伙伴共同為最終用戶服務,通過Smartbi應用商店(BI+行業(yè)應用)為客戶提供場景化、行業(yè)化數據分析應用。八GoogleChart知識準備GoogleChart提供了大量的可視化類型,從簡單的餅圖、時間序列一直到多維交互矩陣。圖表具有很可供調整的選項,將生成的圖表以HTML5/SVG呈現,因此它們可以與任何瀏覽器兼容。知識準備九D3.jsD3.js是一個基于數據操作文檔的JavaScript庫。D3可以將強大的可視化組件和數據驅動的DOM操作方法完美結合。具有強大的SVG操作能力,可以非常容易地將數據映射為SVG屬性,集成了大量數據處理、布局算法和計算圖形的工具方法。課堂研討訪問PowerBI、FineBI、Tableau、DataV、Sugar、騰訊云圖、Smartbi、GoogleChart、D3.js網站,分別簡述大數據可視化的特點。拓展訓練01你還知道哪些可視化工具呢?請查閱資料,另外列舉幾個。謝謝觀看大數據基礎與實務項目七大數據安全項目四存儲和管理會區(qū)分大數據安全與傳統(tǒng)大數據安全的不同能夠根據國家安全存在的問題提出對策建議能夠根據個人信息安全存在的問題提出相應對策、建議對可能存在的安全問題能提出預警對數據安全保持應有的重視職業(yè)能力職業(yè)素養(yǎng)知識圖譜大數據安全與傳統(tǒng)數據安全任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述當前,全球大數據產業(yè)正值活躍發(fā)展期,技術演進和應用創(chuàng)新并行加速推進,非關系型數據庫、分布式并行計算以及機器學習、深度挖掘等新型數據存儲、計算和分析關鍵技術應運而生并快速演進,大數據挖掘分析在電信、互聯網、金融、交通、醫(yī)療等行業(yè)創(chuàng)造商業(yè)價值和應用價值的同時,開始向傳統(tǒng)第一、第二產業(yè)傳導滲透,大數據逐步成為國家基礎戰(zhàn)略資源和社會基礎生產要素。任務描述與此同時,大數據安全問題逐漸暴露。大數據因其蘊藏的巨大價值和集中化的存儲管理模式成為網絡攻擊的重點目標,針對大數據的勒索攻擊和數據泄露問題日趨嚴重,比如重要財務數據等商業(yè)機密的泄露會給企業(yè)帶來不可估量的損失,全球大數據安全事件呈頻發(fā)態(tài)勢。相應的,大數據安全需求已經催生相關安全技術、解決方案及產品的研發(fā)和生產,但與產業(yè)發(fā)展相比,存在滯后現象。因此張明想了解到底什么是數據安全,大數據安全與傳統(tǒng)數據安全又有什么不同之處。知識準備大數據安全的定義一數據安全防護是指平臺為支撐數據流動安全所提供的安全功能,包括數據分類分級、元數據管理、質量管理、數據加密、數據隔離、防泄露、追蹤溯源、數據銷毀等內容。定義大數據促使數據生命周期由傳統(tǒng)的單鏈條逐漸演變成為復雜多鏈條形態(tài),增加了共享、交易等環(huán)節(jié),且數據應用場景和參與角色愈加多樣化,在復雜的應用環(huán)境下,保證國家重要數據、企業(yè)機密數據以及用戶個人隱私數據等敏感數據不發(fā)生外泄,是數據安全的首要需求。知識準備傳統(tǒng)數據安全的定義二12數據本身的安全采用現代密碼算法對數據進行主動保護,如數據保密、數據完整性、雙向強身份認證等數據防護的安全采用現代信息存儲手段對數據進行主動防護,如通過磁盤陣列、數據備份、異地容災等手段保證數據的安全信息安全或數據安全有對立的兩方面的含義知識準備大數據安全與傳統(tǒng)數據安全的不同三目標對象理念以數據的安全防護,不受攻擊為目標以區(qū)域隔離、安全域劃分為目標面向內部或準內部人員,以這些人員行為的安全管控為主要對象大數據安全以大數據的安全使用為目標傳統(tǒng)數據安全面向外部黑客,以對外部黑客或入侵者的防控為主要對象以數據分級分類為基礎,以信息合理、安全流動為目標知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論