1.2數(shù)據(jù)管理與分析簡(jiǎn)介教學(xué)設(shè)計(jì)人教-中圖版高中信息技術(shù)選擇性必修3數(shù)據(jù)管理與分析_第1頁(yè)
1.2數(shù)據(jù)管理與分析簡(jiǎn)介教學(xué)設(shè)計(jì)人教-中圖版高中信息技術(shù)選擇性必修3數(shù)據(jù)管理與分析_第2頁(yè)
1.2數(shù)據(jù)管理與分析簡(jiǎn)介教學(xué)設(shè)計(jì)人教-中圖版高中信息技術(shù)選擇性必修3數(shù)據(jù)管理與分析_第3頁(yè)
1.2數(shù)據(jù)管理與分析簡(jiǎn)介教學(xué)設(shè)計(jì)人教-中圖版高中信息技術(shù)選擇性必修3數(shù)據(jù)管理與分析_第4頁(yè)
1.2數(shù)據(jù)管理與分析簡(jiǎn)介教學(xué)設(shè)計(jì)人教-中圖版高中信息技術(shù)選擇性必修3數(shù)據(jù)管理與分析_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章數(shù)據(jù)與數(shù)據(jù)科學(xué)1.2數(shù)據(jù)管理與分析簡(jiǎn)介教學(xué)設(shè)計(jì)教學(xué)背景信息科技是現(xiàn)代科學(xué)技術(shù)領(lǐng)域的重要部分,主要研究以數(shù)字形式表達(dá)的信息及其應(yīng)用中的科學(xué)原理、思維方法、處理過(guò)程和工程實(shí)現(xiàn)。當(dāng)代高速發(fā)展的信息科技對(duì)全球經(jīng)濟(jì)、社會(huì)和文化發(fā)展起著越來(lái)越重要的作用。義務(wù)教育信息科技課程具有基礎(chǔ)性、實(shí)踐性和綜合性,為高中階段信息技術(shù)課程的學(xué)習(xí)奠定基礎(chǔ)。信息科技課程旨在培養(yǎng)科學(xué)精神和科技倫理,提升自主可控意識(shí),培育社會(huì)主義核心價(jià)值觀,樹(shù)立總體國(guó)家安全觀,提升數(shù)字素養(yǎng)與技能。教材分析本節(jié)課的教學(xué)內(nèi)容選自人教/地圖出版社選擇性必修3數(shù)據(jù)管理與分析第1章數(shù)據(jù)與數(shù)據(jù)科學(xué)1.2數(shù)據(jù)管理與分析簡(jiǎn)介。自然界的各種現(xiàn)象,植物的生長(zhǎng)、動(dòng)物的習(xí)性、人類(lèi)的思想行為......都可以用數(shù)據(jù)的形式存儲(chǔ)在各類(lèi)載體之中。隨著大數(shù)據(jù)、云計(jì)算和人工智能技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)已經(jīng)成為信息社會(huì)的重要資源,成為支撐科學(xué)研究、技術(shù)進(jìn)步和社會(huì)發(fā)展不可或缺的基礎(chǔ)。因此,我們可以從社會(huì)生產(chǎn)生活中提取數(shù)據(jù),然后利用計(jì)算思維、運(yùn)算方法、算法模型等,研究這些數(shù)據(jù)的類(lèi)型、狀態(tài)、屬性以及變化形式和規(guī)律,并通過(guò)科學(xué)的管理和分析,獲取有價(jià)值的信息,從而構(gòu)建知識(shí)、獲得智慧,為社會(huì)經(jīng)濟(jì)發(fā)展提供決策依據(jù)。教學(xué)目標(biāo)1.了解數(shù)據(jù)管理的發(fā)展階段及數(shù)據(jù)管理方式。2.認(rèn)識(shí)大數(shù)據(jù)的存儲(chǔ)與管理。3.了解數(shù)據(jù)分析的內(nèi)涵、工具以及基本過(guò)程。4.感受數(shù)據(jù)分析對(duì)科學(xué)決策的作用和意義。教學(xué)重點(diǎn)與難點(diǎn)教學(xué)重點(diǎn):了解數(shù)據(jù)管理的發(fā)展階段及數(shù)據(jù)管理方式。教學(xué)難點(diǎn):了解數(shù)據(jù)分析的內(nèi)涵、工具以及基本過(guò)程。教學(xué)方法與教學(xué)手段案例分析法、講授法、任務(wù)驅(qū)動(dòng)法。教學(xué)過(guò)程問(wèn)題導(dǎo)入體驗(yàn)探索讓數(shù)據(jù)變得更有價(jià)值美國(guó)亞馬遜公司從用戶購(gòu)買(mǎi)行為中獲得數(shù)據(jù),如用戶在頁(yè)面的停留時(shí)間、是否查看評(píng)論、搜索的關(guān)鍵詞、瀏覽的商品等。分析人員通過(guò)數(shù)據(jù)分析,發(fā)現(xiàn)潛在的購(gòu)買(mǎi)行為,然后進(jìn)行專(zhuān)門(mén)的方案設(shè)計(jì),讓數(shù)據(jù)發(fā)揮應(yīng)有的價(jià)值。默克公司創(chuàng)建了制造和分析智能系統(tǒng),旨在使非技術(shù)性業(yè)務(wù)分析人員能夠在可視化軟件中直觀地瀏覽和查看數(shù)據(jù)。專(zhuān)業(yè)人士表示,他們花很少的時(shí)間進(jìn)行數(shù)據(jù)的移動(dòng)和報(bào)告,但會(huì)花更多的時(shí)間使用數(shù)據(jù)來(lái)獲得有意義的成果。我國(guó)很多金融機(jī)構(gòu)很早就開(kāi)始聘請(qǐng)精通數(shù)據(jù)分析的專(zhuān)家來(lái)設(shè)計(jì)金融產(chǎn)品。國(guó)際商業(yè)機(jī)器(IBM)公司在全球聘請(qǐng)了很多數(shù)學(xué)家,旨在把他們數(shù)據(jù)分析的才能應(yīng)用于石油勘探、醫(yī)療健康等各個(gè)領(lǐng)域。易貝(eBay)公司通過(guò)數(shù)據(jù)分析,精確計(jì)算出廣告中的每個(gè)關(guān)鍵字,優(yōu)化廣告的投放,大幅降低了產(chǎn)品銷(xiāo)售的廣告費(fèi)用。思考討論:數(shù)據(jù)管理與分析技術(shù)的發(fā)展,對(duì)數(shù)據(jù)價(jià)值的發(fā)現(xiàn)起到了什么作用?數(shù)據(jù)隱含著巨大的社會(huì)、經(jīng)濟(jì)、科研價(jià)值,如果能被有效地管理、分析和利用,將對(duì)社會(huì)、經(jīng)濟(jì)和科學(xué)研究產(chǎn)生積極的推動(dòng)作用,給社會(huì)發(fā)展帶來(lái)前所未有的機(jī)遇。然而,數(shù)據(jù)本身并不會(huì)自動(dòng)產(chǎn)生價(jià)值,價(jià)值是需要通過(guò)專(zhuān)業(yè)的管理和分析才能被挖掘出來(lái)的。因此,數(shù)據(jù)管理與分析是使數(shù)據(jù)變得有價(jià)值的重要原因。據(jù)管理的發(fā)展數(shù)據(jù)管理主要指對(duì)數(shù)據(jù)進(jìn)行分類(lèi)、組織、編碼、存儲(chǔ)、檢索、維護(hù)和應(yīng)用,它是數(shù)據(jù)處理的核心環(huán)節(jié),其目的在于充分挖掘數(shù)據(jù)的價(jià)值并有效地利用。從信息技術(shù)應(yīng)用與發(fā)展的角度看,數(shù)據(jù)管理經(jīng)歷了人工管理、文件系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)等發(fā)展階段。人工管理20世紀(jì)50年代中期以前,計(jì)算機(jī)主要用于科學(xué)計(jì)算。硬件方面,計(jì)算機(jī)的外存只有磁帶、卡片、紙帶,沒(méi)有磁盤(pán)等直接存取的存儲(chǔ)設(shè)備,存儲(chǔ)量非常小。軟件方面,沒(méi)有操作系統(tǒng),計(jì)算機(jī)一次處理一批數(shù)據(jù),直到運(yùn)算完成才能進(jìn)行另外一批數(shù)據(jù)的處理,中間不能被打斷,原因是此時(shí)的外存(如磁帶、卡片等)只能順序輸入。這一階段的數(shù)據(jù)管理具有以下特點(diǎn)。沒(méi)有專(zhuān)門(mén)的應(yīng)用軟件來(lái)管理數(shù)據(jù),而是由調(diào)用數(shù)據(jù)的程序自行管理。數(shù)據(jù)往往作為程序的組成部分,即程序和數(shù)據(jù)是一個(gè)不可分割的整體,數(shù)據(jù)和程序同時(shí)提供給計(jì)算機(jī)運(yùn)算使用。數(shù)據(jù)不具有獨(dú)立性。程序依賴于數(shù)據(jù),當(dāng)數(shù)據(jù)類(lèi)型、格式或輸入輸出方式等發(fā)生變化時(shí),就必須修改相應(yīng)的程序。數(shù)據(jù)不能共享。由于數(shù)據(jù)與程序關(guān)系緊密,往往是一組數(shù)據(jù)對(duì)應(yīng)著指定的一組程序(圖1.2.1),因此程序中的數(shù)據(jù)原則上無(wú)法與其他程序共享使用。思考活動(dòng)人工管理數(shù)據(jù)的主要弊端在人工管理數(shù)據(jù)階段,你認(rèn)為還存在哪些主要弊端?與周?chē)瑢W(xué)交流自己的看法,并寫(xiě)出幾點(diǎn)。文件系統(tǒng)20世紀(jì)60年代,隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)管理發(fā)展進(jìn)入文件系統(tǒng)階段。此時(shí)計(jì)算機(jī)有了磁盤(pán)、磁鼓等直接存取的外部存儲(chǔ)設(shè)備,操作系統(tǒng)中有了專(zhuān)門(mén)管理數(shù)據(jù)的文件系統(tǒng)。從處理方式上看,能夠聯(lián)機(jī)實(shí)時(shí)處理,即在需要時(shí)隨時(shí)從存儲(chǔ)設(shè)備中查詢、修改、更新數(shù)據(jù)。文件系統(tǒng)管理數(shù)據(jù)具有以下特點(diǎn)。數(shù)據(jù)可以長(zhǎng)期保存在外部存儲(chǔ)介質(zhì)上并能反復(fù)使用。即數(shù)據(jù)可以進(jìn)行查詢、修改和刪除等操作。數(shù)據(jù)具有了一定的獨(dú)立性。但數(shù)據(jù)文件仍然依賴于指定的程序,一個(gè)文件基本對(duì)應(yīng)一個(gè)應(yīng)用程序。數(shù)據(jù)共享性差。當(dāng)不同的應(yīng)用程序所需的數(shù)據(jù)有部分相同時(shí),仍需建立各自獨(dú)立的數(shù)據(jù)文件,而不能共享這些數(shù)據(jù)(圖1.2.2),致使數(shù)據(jù)冗余度較大,浪費(fèi)存儲(chǔ)空間。數(shù)據(jù)庫(kù)系統(tǒng)從20世紀(jì)60年代后期開(kāi)始,計(jì)算機(jī)的應(yīng)用逐步展開(kāi),數(shù)據(jù)量快速增長(zhǎng)。各種應(yīng)用、不同程序語(yǔ)言互相包容的數(shù)據(jù)共享要求日益迫切,以文件系統(tǒng)作為數(shù)據(jù)管理的方式已經(jīng)無(wú)法滿足需要。為此,用于數(shù)據(jù)管理的數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)運(yùn)而生,而數(shù)據(jù)庫(kù)管理系統(tǒng)是其一個(gè)組成部分。利用數(shù)據(jù)庫(kù)系統(tǒng)管理數(shù)據(jù)主要具有以下幾個(gè)優(yōu)勢(shì)。數(shù)據(jù)結(jié)構(gòu)化。數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)整體數(shù)據(jù)的結(jié)構(gòu)化,這是數(shù)據(jù)庫(kù)系統(tǒng)與文件系統(tǒng)的本質(zhì)區(qū)別。數(shù)據(jù)易于共享。數(shù)據(jù)的共享大大降低了數(shù)據(jù)的冗余度,節(jié)約了存儲(chǔ)空間,更便于擴(kuò)展。數(shù)據(jù)具有獨(dú)立性。數(shù)據(jù)與應(yīng)用程序相對(duì)獨(dú)立,數(shù)據(jù)庫(kù)中數(shù)據(jù)的物理存儲(chǔ)結(jié)構(gòu)與邏輯結(jié)構(gòu)改變時(shí),應(yīng)用程序不必改變(圖1.2.4)。數(shù)據(jù)的安全性高。由數(shù)據(jù)庫(kù)管理系統(tǒng)統(tǒng)一管理和控制數(shù)據(jù),能夠?qū)崿F(xiàn)數(shù)據(jù)的安全性控制、數(shù)據(jù)的完整性控制及并發(fā)控制、數(shù)據(jù)恢復(fù)等功能。實(shí)踐活動(dòng)探究火車(chē)售票系統(tǒng)數(shù)據(jù)庫(kù)學(xué)校要組織學(xué)生去外地進(jìn)行社會(huì)實(shí)踐,老師請(qǐng)張曄同學(xué)一起組織這個(gè)活動(dòng)。首先是網(wǎng)上購(gòu)買(mǎi)火車(chē)票。張曄在購(gòu)票過(guò)程中對(duì)火車(chē)售票系統(tǒng)的內(nèi)部運(yùn)行原理產(chǎn)生了興趣。一直在思考:這個(gè)系統(tǒng)中這么大量的數(shù)據(jù),是如何保存和管理的呢?請(qǐng)你和張曄同學(xué)一起探究以下兩個(gè)問(wèn)題。1.火車(chē)售票系統(tǒng)需要存儲(chǔ)和管理哪些數(shù)據(jù)?請(qǐng)舉出一些例子。2.如果你想創(chuàng)建一個(gè)簡(jiǎn)單的數(shù)據(jù)庫(kù),需要做哪些基本的工作?大數(shù)據(jù)存儲(chǔ)與管理隨著大數(shù)據(jù)的興起,數(shù)據(jù)管理與分析的相關(guān)技術(shù)也在快速發(fā)展,如數(shù)據(jù)管理過(guò)程中的數(shù)據(jù)采集、存儲(chǔ)、加工、轉(zhuǎn)換和傳輸?shù)燃夹g(shù),數(shù)據(jù)分析過(guò)程中的數(shù)據(jù)組織、計(jì)算、檢索、統(tǒng)計(jì)等技術(shù)。下面介紹大數(shù)據(jù)的主要存儲(chǔ)技術(shù)與方式。對(duì)于大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),關(guān)系數(shù)據(jù)庫(kù)已無(wú)法滿足存儲(chǔ)以及復(fù)雜的數(shù)據(jù)挖掘和分析的要求,目前通常采用分布式文件系統(tǒng)、非關(guān)系數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)等對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)與管理。分布式文件系統(tǒng)分布式文件系統(tǒng)有效解決了大數(shù)據(jù)時(shí)代數(shù)據(jù)存儲(chǔ)和管理的問(wèn)題,它將固定于某個(gè)地點(diǎn)的某個(gè)文件系統(tǒng)擴(kuò)展到任意多個(gè)地點(diǎn)或多個(gè)文件系統(tǒng),眾多的節(jié)點(diǎn)數(shù)據(jù)塊組成文件系統(tǒng)的數(shù)據(jù)網(wǎng)絡(luò),分布在不同地點(diǎn)的多個(gè)節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行傳輸。人們使用分布式文件系統(tǒng)時(shí),不需要關(guān)心數(shù)據(jù)存儲(chǔ)在哪個(gè)節(jié)點(diǎn)上或從哪個(gè)節(jié)點(diǎn)獲取,只需像使用本地文件系統(tǒng)一樣進(jìn)行操作。隨著數(shù)據(jù)規(guī)模的增長(zhǎng),系統(tǒng)只需在節(jié)點(diǎn)集群中增加更多的數(shù)據(jù)節(jié)點(diǎn)即可,具有很強(qiáng)的可擴(kuò)展性。數(shù)據(jù)的分布式存儲(chǔ)可以提高大數(shù)據(jù)量的并行訪問(wèn)能力與計(jì)算能力,適應(yīng)了當(dāng)前大批量數(shù)據(jù)存儲(chǔ)與管理的需求。分布式文件系統(tǒng)示意圖如圖1.2.5所示。非關(guān)系數(shù)據(jù)庫(kù)非關(guān)系數(shù)據(jù)庫(kù)是對(duì)關(guān)系數(shù)據(jù)庫(kù)局限性的補(bǔ)充,通過(guò)放棄部分復(fù)雜處理能力的方式,支持將數(shù)據(jù)分散存儲(chǔ)在不同服務(wù)器上,解決了關(guān)系數(shù)據(jù)庫(kù)在大量數(shù)據(jù)寫(xiě)入操作上的瓶頸。通過(guò)采用緩存技術(shù)較好地支持對(duì)同一個(gè)數(shù)據(jù)的頻繁處理,提高了數(shù)據(jù)簡(jiǎn)單處理的效率。同時(shí),遵循“數(shù)據(jù)在先,模式在后”的設(shè)計(jì)方式,設(shè)計(jì)出來(lái)的數(shù)據(jù)模型可以很好地支持網(wǎng)絡(luò)應(yīng)用。其常用數(shù)據(jù)模型主要有四種(表1.2.1)。云數(shù)據(jù)庫(kù)云數(shù)據(jù)庫(kù)是基于云計(jì)算技術(shù)發(fā)展起來(lái)的一種共享基礎(chǔ)架構(gòu)的存儲(chǔ)方法,主要指被優(yōu)化或部署到一個(gè)虛擬計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)。例如,把一個(gè)現(xiàn)有數(shù)據(jù)庫(kù)優(yōu)化到云環(huán)境中后,可以使用戶按照存儲(chǔ)容量和帶寬需求付費(fèi)使用,可以將數(shù)據(jù)庫(kù)從一個(gè)地方移到另一個(gè)地方(云的可移植性),可以實(shí)現(xiàn)按需擴(kuò)展等。云數(shù)據(jù)庫(kù)并非一種全新的數(shù)據(jù)庫(kù)技術(shù),而只是以服務(wù)的方式提供的數(shù)據(jù)庫(kù)存儲(chǔ)、計(jì)算與管理功能。可為用戶提供數(shù)據(jù)備份與恢復(fù)、安全管理、監(jiān)控與消息通知、故障自動(dòng)切換等服務(wù)支持。大型企業(yè)將分散的多個(gè)數(shù)據(jù)庫(kù)部署到云,還可以在云環(huán)境中整合成一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)(圖1.2.6),實(shí)現(xiàn)存儲(chǔ)整合,從而推動(dòng)數(shù)據(jù)資源共享。數(shù)據(jù)分析及其基本過(guò)程數(shù)據(jù)分析主要指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)所獲取的數(shù)據(jù)進(jìn)行比較、篩選、梳理,提取有用信息,形成結(jié)論,并對(duì)數(shù)據(jù)進(jìn)行深入研究和概括歸納的過(guò)程。其目的是把隱藏在看似雜亂分散數(shù)據(jù)中的信息提煉出來(lái),從而發(fā)現(xiàn)研究對(duì)象的內(nèi)在規(guī)律。數(shù)據(jù)分析的結(jié)果可幫助人們做出對(duì)一些事物的判斷或?qū)ο乱徊叫袨榈臎Q策。例如:約翰尼斯·開(kāi)普勒(JohannesKepler)通過(guò)對(duì)觀測(cè)數(shù)據(jù)的分析,獲得了行星的運(yùn)動(dòng)定律;某企業(yè)領(lǐng)導(dǎo)通過(guò)市場(chǎng)調(diào)查、分析獲得數(shù)據(jù),判定市場(chǎng)動(dòng)向,并進(jìn)一步制訂合理的生產(chǎn)與銷(xiāo)售計(jì)劃。數(shù)據(jù)分析工具有多種。電子表格軟件和數(shù)據(jù)統(tǒng)計(jì)軟件是人們?nèi)粘J褂玫臄?shù)據(jù)分析工具。用電子表格軟件分析數(shù)據(jù)的操作比較簡(jiǎn)單,繪制圖表的功能也很便捷,但能夠分析的數(shù)據(jù)量有限,比較適合數(shù)據(jù)量較小的場(chǎng)合。SPSS是IBM公司推出的數(shù)據(jù)統(tǒng)計(jì)軟件,由一系列用于統(tǒng)計(jì)學(xué)分析運(yùn)算、數(shù)據(jù)挖掘、預(yù)測(cè)分析和決策支持任務(wù)的功能及相關(guān)服務(wù)組成。只需掌握一定的操作技能,了解基本的統(tǒng)計(jì)分析知識(shí),就可以使用該軟件進(jìn)行數(shù)據(jù)分析與研究。此外,還有一些專(zhuān)用的數(shù)據(jù)分析工具,例如,在商業(yè)智能領(lǐng)域常用的Cognos、StyleIntelligence、Microstrategy、Brio、Oracle和國(guó)產(chǎn)的YonghongZSuiteBI套件等。數(shù)據(jù)分析,主要是指對(duì)已采集回來(lái)的、經(jīng)過(guò)定處理的現(xiàn)成數(shù)據(jù)進(jìn)行分析,但實(shí)質(zhì)上,在數(shù)據(jù)處理任何環(huán)節(jié)中都會(huì)發(fā)生數(shù)據(jù)分析,無(wú)法嚴(yán)格界定。根據(jù)數(shù)據(jù)科學(xué)的方法論,一個(gè)數(shù)據(jù)分析項(xiàng)目的團(tuán)隊(duì)在進(jìn)行數(shù)據(jù)分析時(shí),基本過(guò)程通常可以用圖1.2.7來(lái)表示。了解目標(biāo)問(wèn)題。首先要充分了解需要解決的問(wèn)題,包括描述項(xiàng)目問(wèn)題,提供數(shù)據(jù)集,確定項(xiàng)目目標(biāo)等。數(shù)據(jù)獲取。有些數(shù)據(jù)可能來(lái)自項(xiàng)目?jī)?nèi)部,但用于分析的數(shù)據(jù)最好不要局限于項(xiàng)目本身的數(shù)據(jù),可以包含來(lái)自外部的各種數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù)),并盡可能多地獲取有用的數(shù)據(jù)。數(shù)據(jù)整理與清洗。規(guī)范、嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)整理是后續(xù)工作的保障,將原始數(shù)據(jù)清洗并轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)的形式也很關(guān)鍵。同時(shí),清洗轉(zhuǎn)換過(guò)程中做好記錄日志,以備數(shù)據(jù)再利用時(shí)參考。數(shù)據(jù)計(jì)算與統(tǒng)計(jì)。主要指用統(tǒng)計(jì)方法和數(shù)據(jù)可視化技術(shù)來(lái)嘗試發(fā)現(xiàn)數(shù)據(jù)中潛在的特征和發(fā)展趨勢(shì)。這一過(guò)程往往需要對(duì)數(shù)據(jù)進(jìn)行深入、反復(fù)的研究和探索,以免遺漏、錯(cuò)過(guò)重要的特征和線索。數(shù)據(jù)建模及其應(yīng)用。主要指選擇適于解決問(wèn)題的機(jī)器學(xué)習(xí)算法,對(duì)多種機(jī)器學(xué)習(xí)類(lèi)型進(jìn)行測(cè)試,從而篩選出適合用于特定應(yīng)用項(xiàng)目的算法。事實(shí)上,一種算法對(duì)特定的數(shù)據(jù)可能最有效,而另一種算法在其他數(shù)據(jù)上則表現(xiàn)更好,選擇最佳算法是數(shù)據(jù)分析項(xiàng)目實(shí)踐中最具挑戰(zhàn)性的一個(gè)環(huán)節(jié)。數(shù)據(jù)拓展及數(shù)據(jù)可視化。數(shù)據(jù)分析的最終結(jié)果往往是一份具有一定拓展的數(shù)據(jù)報(bào)告,并通過(guò)精心設(shè)計(jì)可視化作品來(lái)獲得最佳的呈現(xiàn)效果。設(shè)計(jì)制作可視化作品需要根據(jù)數(shù)據(jù)分析結(jié)果,以生動(dòng)直觀的形式將數(shù)據(jù)所表達(dá)的意義呈現(xiàn)出來(lái),因此要求制作者具備一定的創(chuàng)造思維和藝術(shù)修養(yǎng)。解決目標(biāo)問(wèn)題。數(shù)據(jù)經(jīng)過(guò)上述處理后,獲得了預(yù)設(shè)信息,而這些信息需要進(jìn)一步進(jìn)行數(shù)據(jù)挖掘、價(jià)值評(píng)估,轉(zhuǎn)化為有效的預(yù)測(cè)和決策,這個(gè)過(guò)程有時(shí)還需要再次進(jìn)行數(shù)據(jù)分析。目前,基于大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析時(shí),分析的不是樣本數(shù)據(jù),而是所有數(shù)據(jù),即采用的不是傳統(tǒng)的抽樣模式,而是全數(shù)據(jù)模式。需要采用新的分布式系統(tǒng)架構(gòu),把大規(guī)模數(shù)據(jù)變成小規(guī)模數(shù)據(jù),分配給數(shù)臺(tái)機(jī)器進(jìn)行處理。近年來(lái),數(shù)據(jù)分析技術(shù)在兩個(gè)方面取得了突破。一是對(duì)體量龐大的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,挖掘隱性知識(shí),如從自然語(yǔ)言構(gòu)成的文本網(wǎng)頁(yè)中理解和識(shí)別語(yǔ)義、情感、意圖等;二是對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,將復(fù)雜多源的語(yǔ)音、圖像和視頻數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識(shí)別的、具有明確語(yǔ)義的信息,進(jìn)而提取有用的知識(shí)。數(shù)據(jù)分析助力科學(xué)決策閱讀拓展交易記錄分析與預(yù)測(cè)案例很多大型零售公司的數(shù)據(jù)庫(kù)都會(huì)記錄每個(gè)客戶的購(gòu)物清單及消費(fèi)額,包括購(gòu)物車(chē)中的物品、具體購(gòu)買(mǎi)時(shí)間,甚至購(gòu)買(mǎi)當(dāng)日的天氣情況。這些公司會(huì)對(duì)“歷史交易記錄”這個(gè)龐大數(shù)據(jù)庫(kù)里的海量交易數(shù)據(jù)進(jìn)行分析,挖掘新的業(yè)務(wù)增長(zhǎng)點(diǎn)。例如,一家商品零售公司發(fā)現(xiàn),每當(dāng)在季節(jié)性颶風(fēng)來(lái)臨之前,不僅手電筒銷(xiāo)量增加了,而且蛋撻的銷(xiāo)量也增加了。因此,每當(dāng)季節(jié)性風(fēng)暴來(lái)臨,該公司就會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,以節(jié)約客戶的購(gòu)物時(shí)間。以上材料讓我們感受到數(shù)據(jù)分析對(duì)商業(yè)決策的重要作用。事實(shí)上,數(shù)據(jù)分析的目的就是利用數(shù)據(jù)進(jìn)行科學(xué)決策。人類(lèi)越來(lái)越依賴數(shù)據(jù)分析進(jìn)行決策。數(shù)據(jù)分析對(duì)決策的支持主要體現(xiàn)在以下幾點(diǎn)。提升決策的準(zhǔn)確性??茖W(xué)發(fā)展觀要求按科學(xué)發(fā)展的規(guī)律辦事。數(shù)據(jù)是科學(xué)的基礎(chǔ),也是科學(xué)的度量標(biāo)準(zhǔn)。數(shù)據(jù)挖掘、數(shù)據(jù)分析和可視化技術(shù)為快速、準(zhǔn)確地做決策提供了數(shù)據(jù)支撐。隨著大數(shù)據(jù)分析技術(shù)的不斷成熟,數(shù)據(jù)分析極大提升了社會(huì)各領(lǐng)域決策的能力和決策的準(zhǔn)確性,使決策越來(lái)越靠近科學(xué)發(fā)展的規(guī)律。例如,在醫(yī)療領(lǐng)域,我國(guó)部分省市正在實(shí)施病歷檔案的數(shù)字化,配合臨床醫(yī)療數(shù)據(jù)與病人體征數(shù)據(jù)的收集分析,可以用于遠(yuǎn)程診療、醫(yī)療研發(fā),甚至可以結(jié)合保險(xiǎn)數(shù)據(jù)分析用于商業(yè)及公共政策制定等。優(yōu)化管理決策。管理決策是一個(gè)需要不斷優(yōu)化的過(guò)程,決策過(guò)程需要大量數(shù)據(jù)的智能輔助。管理者在掌握大量數(shù)據(jù)和信息后,借助數(shù)據(jù)分析技術(shù),通過(guò)客觀、理性的邏輯分析和經(jīng)驗(yàn)判斷,做出決策并在實(shí)施過(guò)程中不斷優(yōu)化、調(diào)整決策??茖W(xué)的決策優(yōu)化需要大量的歷史數(shù)據(jù)、即時(shí)數(shù)據(jù)和關(guān)聯(lián)數(shù)據(jù),而大數(shù)據(jù)環(huán)境為分析這些數(shù)據(jù)創(chuàng)造了條件。隨著人工智能技術(shù)的發(fā)展,還可以讓智能系統(tǒng)幫助人們完成動(dòng)態(tài)監(jiān)測(cè)、趨勢(shì)判斷、語(yǔ)音咨詢、即時(shí)翻譯乃至醫(yī)療診斷等。對(duì)決策結(jié)果進(jìn)行模擬。大數(shù)據(jù)分析模型還能夠?qū)Q策的結(jié)果進(jìn)行模擬或仿真效果呈現(xiàn),幫助決策者有針對(duì)性地改進(jìn)決策的整體方案和細(xì)節(jié)。例如,交通管理部門(mén)往往需要對(duì)擁堵路段進(jìn)行模擬和預(yù)判,分析產(chǎn)生擁堵的原因,以便通過(guò)調(diào)整交通控制系統(tǒng)疏通擁堵路段。我國(guó)一些城市安裝了自適應(yīng)交通控制系統(tǒng),這些系統(tǒng)能夠根據(jù)路口的車(chē)流數(shù)據(jù)、人流數(shù)據(jù)、地理位置和監(jiān)控?cái)z像頭傳來(lái)的數(shù)據(jù),自動(dòng)調(diào)整紅綠燈持續(xù)的時(shí)間,實(shí)現(xiàn)對(duì)交通流量的實(shí)時(shí)配置和控制。實(shí)時(shí)反饋數(shù)據(jù)。決策實(shí)施過(guò)程中,往往會(huì)因?yàn)槟硞€(gè)影響因素的改變或新要素的加入,導(dǎo)致決策的結(jié)果產(chǎn)生偏差,因此需要實(shí)時(shí)的數(shù)據(jù)反饋來(lái)調(diào)整決策,從而及時(shí)把握事件發(fā)展的趨勢(shì),發(fā)現(xiàn)新的問(wèn)題。決策不是孤立的,而是相輔相成的,一個(gè)決策實(shí)施的數(shù)據(jù)反饋往往會(huì)成為另一個(gè)決策的依據(jù)??偨Y(jié)評(píng)價(jià)1.總結(jié)本章的核心概念與關(guān)鍵能力。2.根據(jù)自己的掌握情況填寫(xiě)下表。學(xué)習(xí)內(nèi)容掌握程度數(shù)據(jù)與大數(shù)據(jù)的含義□不了解□了解□理解數(shù)據(jù)、信息、知識(shí)與智慧的關(guān)系□不了解□了解□理解大數(shù)據(jù)的基本特征及其應(yīng)用價(jià)值□不了解□了解□理解數(shù)據(jù)科學(xué)的內(nèi)涵□不了解□了解□理解數(shù)據(jù)管理的發(fā)展階段和管理方式□不了解□了解□理解大數(shù)據(jù)的存儲(chǔ)與管理□不了解□了解□理解數(shù)據(jù)分析的基本過(guò)程□不了解□了解□理解數(shù)據(jù)分析對(duì)科學(xué)決策的作用□不了解□了解□理解3.思考以下問(wèn)題,完成學(xué)習(xí)過(guò)程的反思。(1)美國(guó)數(shù)據(jù)科學(xué)領(lǐng)域?qū)<蚁@铩っ飞℉illaryMason)認(rèn)為:“數(shù)據(jù)科學(xué)家是懂得獲取、清洗、探索、建模、解釋數(shù)據(jù)的人,還要融合入侵技術(shù)、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。他們不僅要

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論