




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章
概述《數(shù)據(jù)采集與處理:基于Python》2024/5/1112024/5/112教學(xué)目標(biāo)本章學(xué)習(xí)目標(biāo)1、了解數(shù)據(jù)科學(xué)相關(guān)概念及數(shù)據(jù)分析完整過(guò)程;2、理解數(shù)據(jù)采集與存儲(chǔ)與其他學(xué)科和課程關(guān)系;3、理解數(shù)據(jù)類型、數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)相關(guān)技術(shù);4、了解Python相關(guān)數(shù)據(jù)科學(xué)及數(shù)據(jù)采集與存儲(chǔ)工具等。本章提綱1、數(shù)據(jù)科學(xué)與數(shù)據(jù)采集及存儲(chǔ)2、數(shù)據(jù)采集概述3、數(shù)據(jù)存儲(chǔ)概述4、數(shù)據(jù)集成ETL概述5、Python相關(guān)數(shù)據(jù)科學(xué)工具數(shù)據(jù)科學(xué)概述2024/5/113什么是數(shù)據(jù)科學(xué)Data
Science?本世紀(jì)最性感的工作—哈佛商業(yè)評(píng)論HarvardBuisnessReview
數(shù)據(jù)科學(xué)家要比任何軟件工程師更擅長(zhǎng)統(tǒng)計(jì),相比任何統(tǒng)計(jì)學(xué)家又更擅長(zhǎng)軟件工程。學(xué)術(shù)研究領(lǐng)域(如管理學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)等)及產(chǎn)業(yè)界(如互聯(lián)網(wǎng)公司、金融業(yè)等)缺乏大量數(shù)據(jù)分析師。當(dāng)然數(shù)據(jù)科學(xué)家收入也很可觀?。?!2024/5/114什么是數(shù)據(jù)科學(xué)Data
Science?數(shù)據(jù)科學(xué)是一個(gè)跨學(xué)科的領(lǐng)域,研究從各種形式的數(shù)據(jù)中提取知識(shí)或見(jiàn)解的過(guò)程和系統(tǒng)。[維基百科。]數(shù)據(jù)科學(xué)將從收集真實(shí)世界的數(shù)據(jù),到處理和分析數(shù)據(jù),再到影響真實(shí)世界的循環(huán)閉合起來(lái),對(duì)應(yīng)的數(shù)據(jù)分析過(guò)程為:從現(xiàn)實(shí)世界或應(yīng)用系統(tǒng)中進(jìn)行數(shù)據(jù)抽取,然后進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與可視化、機(jī)器學(xué)習(xí)與統(tǒng)計(jì)建模、模型校驗(yàn)及應(yīng)用部署和生成報(bào)告。2024/5/115什么是數(shù)據(jù)科學(xué)Data
Science?俗話說(shuō)“巧婦難為無(wú)米之炊”,數(shù)據(jù)是數(shù)據(jù)科學(xué)和數(shù)據(jù)分析的基礎(chǔ)和前提,如何獲取和存儲(chǔ)數(shù)據(jù)則是數(shù)據(jù)科學(xué)與大數(shù)據(jù)的基本功。當(dāng)然,數(shù)據(jù)科學(xué)家的收入也很可觀。根據(jù)Glassdoor網(wǎng)站統(tǒng)計(jì)的美國(guó)2022年平均薪資數(shù)據(jù),數(shù)據(jù)科學(xué)家的年薪中位數(shù)達(dá)到12.2萬(wàn)美元左右。此外,根據(jù)KDnuggets網(wǎng)站2022年數(shù)據(jù)科學(xué)職業(yè)的調(diào)研,美國(guó)勞工統(tǒng)計(jì)局2020年預(yù)測(cè)未來(lái)十年數(shù)據(jù)分析相關(guān)工作需求將有31%左右的增長(zhǎng),而2022年與數(shù)據(jù)分析相關(guān)的開(kāi)放工作崗位在Indeed網(wǎng)站就有7萬(wàn)個(gè),LinkedIn網(wǎng)站則有39萬(wàn)個(gè)左右。國(guó)內(nèi)職友集網(wǎng)站2022年的數(shù)據(jù)統(tǒng)計(jì)顯示,有3~5年工作經(jīng)驗(yàn)的北京數(shù)據(jù)科學(xué)家月薪平均達(dá)到3萬(wàn)~5萬(wàn)元。2024/5/116數(shù)據(jù)度量國(guó)際數(shù)據(jù)公司(IDC)發(fā)布的《數(shù)據(jù)時(shí)代2025》報(bào)告顯示,全球每年產(chǎn)生的數(shù)據(jù)將從2018年的33ZB(Zettabyte)增長(zhǎng)到2025年的175ZB,相當(dāng)于每天產(chǎn)生491EB(Exabyte)的數(shù)據(jù)?;ヂ?lián)網(wǎng)及物聯(lián)網(wǎng)時(shí)代,每天都有巨量的數(shù)據(jù)產(chǎn)生,那么如何度量這些數(shù)據(jù)呢?下面是部分?jǐn)?shù)據(jù)度量單位:Kilobyte(KB)=1024bytesMegabyte(MB)=1024KilobytesGigabyte(GB)=1024MegabytesTerabyte(TB)=1024GigabytesPetabyte(PB)=1024TerabytesExabyte(EB)=1024PetabytesZettabyte(ZB)=1024ExabytesYottabyte(YB)=1024Zettabytes2024/5/117數(shù)據(jù)利用在大數(shù)據(jù)時(shí)代,數(shù)據(jù)也是有待挖掘的資產(chǎn)和金礦,各行各業(yè)都已經(jīng)或正在利用大數(shù)據(jù)服務(wù)于自身的業(yè)務(wù),例如:通過(guò)有針對(duì)性的訓(xùn)練來(lái)提高身體素質(zhì)。改進(jìn)產(chǎn)品。改善決策。提供判斷以選擇正確的藥品、更好的餐館或更佳的路線等。預(yù)測(cè):選舉,流行疾病,群體行為,經(jīng)濟(jì)活動(dòng)等。精準(zhǔn)營(yíng)銷:消費(fèi)者畫像,行為分析,個(gè)性化推薦等。生物識(shí)別:指紋識(shí)別,人臉識(shí)別,虹膜識(shí)別,聲音識(shí)別等。2024/5/118數(shù)據(jù)資源
在互聯(lián)網(wǎng)時(shí)代,各行各業(yè)都在產(chǎn)生大量的數(shù)據(jù),因此數(shù)據(jù)來(lái)源豐富多樣,如政府、互聯(lián)網(wǎng)企業(yè)、第三方機(jī)構(gòu)、商業(yè)企業(yè)等。下面是部分公開(kāi)數(shù)據(jù)來(lái)源的網(wǎng)址。IDataHub(http://datahub.io/dataset)WorldHealthOrganization(/research/en/)D()EuropeanUnionOpenDataPortal(http://open-data.europa.eu/en/data/)AmazonWebServicepublicdatasets(/datasets)FacebookGraph(/docs/graph-api)H()GoogleTrends(/trends/explore)GoogleFinance(/finance)GoogleBooksNgrams(/books/ngrams/books/datasetsv2.html)MachineLearningRepository(/ml/)OPENICPSR(/openicpsr/repository/)2024/5/119數(shù)據(jù)采集概述2024/5/1110數(shù)據(jù)采集定義數(shù)據(jù)采集又稱為數(shù)據(jù)獲取,是指利用一種裝置,將來(lái)自各種數(shù)據(jù)源的數(shù)據(jù)自動(dòng)收集到該裝置中。被采集數(shù)據(jù)是已被轉(zhuǎn)換為電訊號(hào)的各種物理量(如溫度、水位、風(fēng)速、壓力等),可以是模擬量,也可以是數(shù)字量。數(shù)據(jù)采集一般是采樣方式,即間隔一定時(shí)間(稱為采樣周期)對(duì)同一點(diǎn)數(shù)據(jù)重復(fù)采集。采集的數(shù)據(jù)大多是瞬時(shí)值,也可以是某段時(shí)間內(nèi)的一個(gè)特征值。準(zhǔn)確的數(shù)據(jù)測(cè)量是數(shù)據(jù)采集的基礎(chǔ)。數(shù)據(jù)測(cè)量方法有接觸式和非接觸式,檢測(cè)元件多種多樣。不論哪種方法和元件,均以不影響被測(cè)對(duì)象狀態(tài)和測(cè)量環(huán)境為前提,以保證數(shù)據(jù)的正確性。數(shù)據(jù)采集是從真實(shí)世界對(duì)象中獲得原始數(shù)據(jù)的過(guò)程。不準(zhǔn)確的數(shù)據(jù)采集將影響后續(xù)的數(shù)據(jù)處理并且最終得到無(wú)效的結(jié)果。數(shù)據(jù)采集方法的選擇不但依賴于數(shù)據(jù)源的物理性質(zhì),而且要考慮數(shù)據(jù)分析的目標(biāo)。2024/5/1111數(shù)據(jù)采集步驟在大數(shù)據(jù)價(jià)值鏈中,數(shù)據(jù)采集階段的任務(wù)是以數(shù)字形式將信息聚合,以待存儲(chǔ)和分析處理。數(shù)據(jù)采集過(guò)程可分為三個(gè)步驟,如圖所示。首先是數(shù)據(jù)收集(datacollection),數(shù)據(jù)來(lái)源包括日志文件、傳感器、Web爬蟲(chóng)等;其次是數(shù)據(jù)傳輸(datatransmission),經(jīng)過(guò)物理層和網(wǎng)絡(luò)層;最后是數(shù)據(jù)預(yù)處理(datapreprocessing),包括數(shù)據(jù)整合、清洗和冗余消除等。數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理沒(méi)有嚴(yán)格的次序,數(shù)據(jù)預(yù)處理可以在數(shù)據(jù)傳輸之前或之后。2024/5/1112數(shù)據(jù)分類按照數(shù)據(jù)的形態(tài),可以把數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩種。結(jié)構(gòu)化數(shù)據(jù)(如傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù))的字段有固定的長(zhǎng)度和語(yǔ)義,計(jì)算機(jī)程序可以直接處理。非結(jié)構(gòu)化數(shù)據(jù)有文本數(shù)據(jù)、圖像數(shù)據(jù)、自然語(yǔ)言數(shù)據(jù)等,計(jì)算機(jī)程序無(wú)法直接處理,需要進(jìn)行格式轉(zhuǎn)換或信息提取。按照數(shù)據(jù)連接的方式,數(shù)據(jù)又可分為本地?cái)?shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)等。2024/5/1113數(shù)據(jù)類型描述不同的實(shí)體,其數(shù)據(jù)類型可能不同,可分為:1.類別(categorical)數(shù)據(jù)●名義(nominal)數(shù)據(jù):類別沒(méi)有大小順序的數(shù)據(jù),如民族、性別、種族、顏色、院系、專業(yè)等。●序數(shù)(ordinal)數(shù)據(jù):類別有大小順序的數(shù)據(jù),如成績(jī)等級(jí)、行業(yè)排名等。2.數(shù)值(numerical)數(shù)據(jù)●離散(discrete)數(shù)據(jù):是指其數(shù)值只能用自然數(shù)或整數(shù)單位計(jì)算的數(shù)據(jù),如企業(yè)個(gè)數(shù)、職工人數(shù)、設(shè)備臺(tái)數(shù)等。●連續(xù)(continuous)數(shù)據(jù):是指一定區(qū)間內(nèi)可以任意取值的數(shù)據(jù),其數(shù)值是連續(xù)不斷的,相鄰兩個(gè)數(shù)值之間可做無(wú)限分割,即可取無(wú)限個(gè)數(shù)值,如身高、體重、里程等。2024/5/1114數(shù)據(jù)采集方式按照不同的視角,數(shù)據(jù)采集有不同的方式。1.主動(dòng)/被動(dòng)視角按照數(shù)據(jù)采集的主動(dòng)還是被動(dòng)視角,數(shù)據(jù)采集可分為推(push)方式和拉(pull)方式。推方式的主動(dòng)權(quán)在數(shù)據(jù)源系統(tǒng)方,數(shù)據(jù)源系統(tǒng)方根據(jù)自己數(shù)據(jù)產(chǎn)生的方式、頻率以及數(shù)據(jù)量,采用一種適合數(shù)據(jù)源系統(tǒng)的方式將數(shù)據(jù)推送到數(shù)據(jù)處理系統(tǒng),其特點(diǎn)是數(shù)據(jù)量、數(shù)據(jù)格式以及數(shù)據(jù)提供頻率與數(shù)據(jù)生成方式相關(guān)。拉方式的主動(dòng)權(quán)則掌握在數(shù)據(jù)處理端,數(shù)據(jù)獲取的頻率、數(shù)據(jù)量和獲取方式完全由數(shù)據(jù)處理端決定。2024/5/1115數(shù)據(jù)采集方式2.即時(shí)性視角按照數(shù)據(jù)采集的即時(shí)性視角,數(shù)據(jù)采集又可分為實(shí)時(shí)采集與離線采集。實(shí)時(shí)采集是指在數(shù)據(jù)產(chǎn)生時(shí)立即對(duì)其進(jìn)行處理和分析,并將結(jié)果傳遞到目標(biāo)系統(tǒng)中。該方法通常用于需要快速響應(yīng)和即時(shí)分析的場(chǎng)景,如金融交易、在線廣告等。實(shí)時(shí)采集需要具備高速度、高可靠性和高擴(kuò)展性等特點(diǎn),以確保數(shù)據(jù)能夠及時(shí)傳輸和處理。離線采集是指將數(shù)據(jù)存儲(chǔ)在本地或遠(yuǎn)程存儲(chǔ)設(shè)備中,并在后續(xù)時(shí)間段內(nèi)對(duì)其進(jìn)行處理和分析。該方法通常用于需要大規(guī)模數(shù)據(jù)處理、長(zhǎng)時(shí)間分析和歷史數(shù)據(jù)回顧的場(chǎng)景,如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。離線采集需要具備高容量、高效率和高靈活性等特點(diǎn),以確保能夠完成大規(guī)模數(shù)據(jù)的存儲(chǔ)和分析。2024/5/1116數(shù)據(jù)采集方法數(shù)據(jù)采集的對(duì)象和來(lái)源多種多樣,如傳感器、系統(tǒng)日志、數(shù)據(jù)庫(kù)和Web爬蟲(chóng)等,它們對(duì)應(yīng)的數(shù)據(jù)采集方法也存在差異。下面介紹幾種常見(jiàn)的數(shù)據(jù)來(lái)源及相應(yīng)采集方法。1.傳感器傳感器常用于測(cè)量物理環(huán)境變量并將其轉(zhuǎn)化為可讀的數(shù)字信號(hào)以待處理,根據(jù)測(cè)量類型的不同,分為壓力、振動(dòng)、位移、紅外光、紫外光、溫度、濕敏、離子、微生物等傳感器。信息通過(guò)有線或無(wú)線網(wǎng)絡(luò)傳送到數(shù)據(jù)采集點(diǎn)。有線傳感器網(wǎng)絡(luò)通過(guò)網(wǎng)線收集傳感器的信息,這種方式適用于傳感器易于部署和管理的場(chǎng)景。無(wú)線傳感器網(wǎng)絡(luò)(wirelesssensornetwork,WSN)利用無(wú)線網(wǎng)絡(luò)作為信息傳輸?shù)妮d體,適用于沒(méi)有能量或通信的基礎(chǔ)設(shè)施的場(chǎng)合。無(wú)線傳感器網(wǎng)絡(luò)通常由大量微小傳感器節(jié)點(diǎn)構(gòu)成,微小傳感器由電池供電,被部署在應(yīng)用指定的地點(diǎn)收集感知數(shù)據(jù)。當(dāng)節(jié)點(diǎn)部署完成后,基站將發(fā)布網(wǎng)絡(luò)配置/管理或收集命令,來(lái)自不同節(jié)點(diǎn)的感知數(shù)據(jù)將被匯集并轉(zhuǎn)發(fā)到基站以待處理。基于傳感器的數(shù)據(jù)采集系統(tǒng)被認(rèn)為是一個(gè)信息物理系統(tǒng)。2024/5/1117數(shù)據(jù)采集方法2.系統(tǒng)日志日志由數(shù)據(jù)源系統(tǒng)產(chǎn)生,以特殊的文件格式記錄系統(tǒng)的活動(dòng)。幾乎所有在數(shù)字設(shè)備上運(yùn)行的應(yīng)用的日志文件都非常有用,例如,Web服務(wù)器通常要在日志文件中記錄網(wǎng)站用戶的點(diǎn)擊、鍵盤輸入、訪問(wèn)行為以及其他屬性。用于捕獲用戶在網(wǎng)站上的活動(dòng)的Web服務(wù)器日志文件格式有三種類型:NCSA通用日志文件格式、W3C擴(kuò)展日志文件格式和MicrosoftIIS日志文件格式。數(shù)據(jù)庫(kù)也可以用來(lái)替代文本文件存儲(chǔ)日志信息,以提高海量日志的查詢效率。在大數(shù)據(jù)領(lǐng)域,還可基于分布式的海量日志采集、聚合和傳輸系統(tǒng)Flume及支持高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)進(jìn)行日志采集。2024/5/1118數(shù)據(jù)采集方法3.數(shù)據(jù)庫(kù)傳統(tǒng)企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)(如MySQL和Oracle等)來(lái)存儲(chǔ)數(shù)據(jù)。隨著大數(shù)據(jù)時(shí)代的到來(lái),Redis、MongoDB和HBase等NoSQL數(shù)據(jù)庫(kù)(泛指非關(guān)系型數(shù)據(jù)庫(kù))逐漸在互聯(lián)網(wǎng)企業(yè)中得到廣泛使用。數(shù)據(jù)庫(kù)一般可通過(guò)應(yīng)用程序編程接口(applicationprogramminginterface,API)以主動(dòng)或被動(dòng)方式采集數(shù)據(jù),采集策略可基于定時(shí)或者數(shù)據(jù)庫(kù)觸發(fā)機(jī)制增量獲取或完整刷新等。獨(dú)立的ETL(extract-transform-load)技術(shù)可完整處理常見(jiàn)數(shù)據(jù)來(lái)源的采集、轉(zhuǎn)換和處理,通過(guò)對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、加載,最終挖掘數(shù)據(jù)的潛在價(jià)值。2024/5/1119數(shù)據(jù)采集方法4.Web爬蟲(chóng)Web爬蟲(chóng)(也稱網(wǎng)絡(luò)爬蟲(chóng))是指從搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序。Web爬蟲(chóng)按順序訪問(wèn)初始隊(duì)列中的一組統(tǒng)一資源定位符(uniformresourcelocator,URL),并為所有URL分配一個(gè)優(yōu)先級(jí),然后從隊(duì)列中獲得具有一定優(yōu)先級(jí)的URL,下載該網(wǎng)頁(yè),隨后解析網(wǎng)頁(yè)中包含的所有URL并添加這些新的URL到隊(duì)列中。這個(gè)過(guò)程一直重復(fù),直到爬蟲(chóng)程序停止為止。Web爬蟲(chóng)是網(wǎng)站應(yīng)用(如搜索引擎)的主要數(shù)據(jù)采集方式。Web爬蟲(chóng)數(shù)據(jù)采集過(guò)程由選擇策略、重訪策略、禮貌策略以及并行策略決定。選擇策略決定哪個(gè)網(wǎng)頁(yè)將被訪問(wèn);重訪策略決定何時(shí)檢查網(wǎng)頁(yè)是否更新;禮貌策略防止過(guò)度訪問(wèn)網(wǎng)站;并行策略則用于協(xié)調(diào)分布的爬蟲(chóng)程序。2024/5/1120數(shù)據(jù)傳輸原始數(shù)據(jù)采集后必須將其傳送到數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施(如數(shù)據(jù)中心)等待進(jìn)一步處理。數(shù)據(jù)傳輸過(guò)程可以分為兩個(gè)階段:IP骨干網(wǎng)傳輸和數(shù)據(jù)中心傳輸,如圖所示。2024/5/1121數(shù)據(jù)傳輸1.IP骨干網(wǎng)傳輸IP骨干網(wǎng)提供高容量主干線路將大數(shù)據(jù)從數(shù)據(jù)源傳遞到數(shù)據(jù)中心。傳輸速率和容量取決于物理媒體和鏈路管理方法。(1)物理媒體:通常由許多光纜合并在一起增加容量,并需要擁有多條路徑以確保路徑失效時(shí)能進(jìn)行重路由。(2)鏈路管理:決定信號(hào)如何在物理媒體上傳輸。過(guò)去20年間,IPoverWDM技術(shù)得到了深入研究。波分復(fù)用技術(shù)(wavelengthdivisionmultiplexing,WDM)是在單根光纖上復(fù)用多個(gè)不同波長(zhǎng)的光載波信號(hào)。為了解決電信號(hào)帶寬的瓶頸問(wèn)題,正交頻分復(fù)用(orthogonalfrequencydivisionmultiplexing,OFDM)被認(rèn)為是未來(lái)的高速光傳輸技術(shù)的候選者。OFDM允許單個(gè)子載波的頻譜重疊,構(gòu)建數(shù)據(jù)流更靈活、資源有效使用的光網(wǎng)絡(luò)。2024/5/1122數(shù)據(jù)傳輸2.數(shù)據(jù)中心傳輸數(shù)據(jù)傳遞到數(shù)據(jù)中心后,將在數(shù)據(jù)中心內(nèi)部進(jìn)行存儲(chǔ)位置的調(diào)整和其他處理,這個(gè)過(guò)程稱為數(shù)據(jù)中心傳輸,涉及數(shù)據(jù)中心體系架構(gòu)和傳輸協(xié)議。(1)數(shù)據(jù)中心體系架構(gòu)。數(shù)據(jù)中心由多個(gè)裝備了若干服務(wù)器的機(jī)架構(gòu)成,服務(wù)器通過(guò)數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)連接。許多數(shù)據(jù)中心基于權(quán)威的2層或3層fat-tree結(jié)構(gòu)的商用交換機(jī)構(gòu)建。一些其他的拓?fù)浣Y(jié)構(gòu)也用于構(gòu)建更為高效的數(shù)據(jù)中心網(wǎng)絡(luò)。由于電子交換機(jī)的固有缺陷,在增加通信帶寬的同時(shí)減少能量消耗非常困難。數(shù)據(jù)中心網(wǎng)絡(luò)中的光互連技術(shù)能夠提高吞吐量、降低延遲和減少能量消耗,被認(rèn)為是有前途的解決方案。(2)傳輸協(xié)議。TCP和UDP是數(shù)據(jù)傳輸最重要的兩種協(xié)議,但是它們的性能在傳輸大量的數(shù)據(jù)時(shí)并不令人滿意。一些增強(qiáng)TCP功能的方法的目標(biāo)是提高鏈路吞吐率,并對(duì)長(zhǎng)短不一的混合TCP流提供可預(yù)測(cè)的小延遲。例如,DCTCP利用顯示擁塞通知對(duì)端主機(jī)提供多比特反饋。UDP協(xié)議適用于傳輸大量數(shù)據(jù),但是缺乏擁塞控制。因此高帶寬的UDP應(yīng)用必須自己實(shí)現(xiàn)擁塞控制機(jī)制,這是一項(xiàng)困難的任務(wù)并且會(huì)導(dǎo)致風(fēng)險(xiǎn)。2024/5/1123數(shù)據(jù)預(yù)處理數(shù)據(jù)源具有多樣性,數(shù)據(jù)集因干擾、冗余和一致性因素的影響而具有不同的質(zhì)量。從需求的角度來(lái)看,一些數(shù)據(jù)分析工具和應(yīng)用對(duì)數(shù)據(jù)質(zhì)量有著嚴(yán)格的要求。因此,在大數(shù)據(jù)系統(tǒng)中需要使用數(shù)據(jù)預(yù)處理技術(shù)來(lái)提高數(shù)據(jù)的質(zhì)量。主要的數(shù)據(jù)預(yù)處理技術(shù)包括數(shù)據(jù)整合、數(shù)據(jù)清洗、冗余消除、數(shù)據(jù)歸約等。1.數(shù)據(jù)整合數(shù)據(jù)整合是指在邏輯上和物理上把來(lái)自不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進(jìn)行連接合并,為用戶提供一個(gè)統(tǒng)一的數(shù)據(jù)視圖。這些不同來(lái)源的異構(gòu)數(shù)據(jù)可能存在命名和格式不統(tǒng)一、數(shù)據(jù)重復(fù)、數(shù)據(jù)類型不一致等問(wèn)題,因此,需要根據(jù)一定的規(guī)則將這些數(shù)據(jù)進(jìn)行必要的處理和格式轉(zhuǎn)換,然后進(jìn)行連接合并,形成統(tǒng)一的數(shù)據(jù)視圖。2.數(shù)據(jù)清洗數(shù)據(jù)清洗(cleaning)是指在數(shù)據(jù)集中發(fā)現(xiàn)不準(zhǔn)確、不完整或不合理的數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行修補(bǔ)或刪除以提高數(shù)據(jù)質(zhì)量。一個(gè)通用的數(shù)據(jù)清洗過(guò)程由5個(gè)步驟構(gòu)成:定義錯(cuò)誤類型,搜索并標(biāo)識(shí)錯(cuò)誤實(shí)例,改正錯(cuò)誤,文檔記錄錯(cuò)誤實(shí)例和錯(cuò)誤類型,修改數(shù)據(jù)錄入程序以減少未來(lái)的錯(cuò)誤。2024/5/1124數(shù)據(jù)預(yù)處理此外,格式檢查、完整性檢查、合理性檢查和極限檢查也在數(shù)據(jù)清洗過(guò)程中完成。數(shù)據(jù)清洗對(duì)保持?jǐn)?shù)據(jù)的一致和更新起著重要作用,因此被用于銀行、保險(xiǎn)、零售、電信和交通等多個(gè)領(lǐng)域。在電子商務(wù)領(lǐng)域,盡管大多數(shù)數(shù)據(jù)通過(guò)電子方式收集,但仍存在數(shù)據(jù)質(zhì)量問(wèn)題。影響數(shù)據(jù)質(zhì)量的因素包括技術(shù)、業(yè)務(wù)和管理三個(gè)方面,技術(shù)因素涉及數(shù)據(jù)來(lái)源、數(shù)據(jù)采集、數(shù)據(jù)傳輸和數(shù)據(jù)裝載等方面,業(yè)務(wù)因素涉及業(yè)務(wù)不清晰、輸入不規(guī)范、數(shù)據(jù)造假等方面,管理因素涉及人員素質(zhì)、管理機(jī)制、數(shù)據(jù)規(guī)范、流程制度等方面。數(shù)據(jù)清洗對(duì)隨后的數(shù)據(jù)分析非常重要,因?yàn)樗芴岣邤?shù)據(jù)分析的準(zhǔn)確性。但是數(shù)據(jù)清洗依賴復(fù)雜的關(guān)系模型,這會(huì)帶來(lái)額外的計(jì)算和延遲開(kāi)銷,因此,必須在數(shù)據(jù)清洗模型的復(fù)雜性和分析結(jié)果的準(zhǔn)確性之間進(jìn)行平衡。2024/5/1125數(shù)據(jù)預(yù)處理3.冗余消除數(shù)據(jù)冗余是指數(shù)據(jù)的重復(fù)或過(guò)剩,這是許多數(shù)據(jù)集的常見(jiàn)問(wèn)題。數(shù)據(jù)冗余無(wú)疑會(huì)增加傳輸開(kāi)銷,浪費(fèi)存儲(chǔ)空間,導(dǎo)致數(shù)據(jù)不一致,降低可靠性。因此許多研究提出了數(shù)據(jù)冗余減少機(jī)制,例如冗余檢測(cè)和數(shù)據(jù)壓縮。由廣泛部署的攝像頭收集的圖像和視頻數(shù)據(jù)存在大量的數(shù)據(jù)冗余。在視頻監(jiān)控?cái)?shù)據(jù)中,大量的圖像和視頻數(shù)據(jù)存在著時(shí)間、空間和統(tǒng)計(jì)上的冗余。視頻壓縮技術(shù)被用于減少視頻數(shù)據(jù)的冗余,許多重要的標(biāo)準(zhǔn)(如MPEG-2,MPEG-4,H.263,H.264/AVC)已被應(yīng)用以減少存儲(chǔ)和傳輸?shù)呢?fù)擔(dān)。對(duì)于普遍的數(shù)據(jù)傳輸和存儲(chǔ),數(shù)據(jù)去重技術(shù)是專用的數(shù)據(jù)壓縮技術(shù),用于消除重復(fù)數(shù)據(jù)的副本。數(shù)據(jù)去重技術(shù)能夠顯著地減少存儲(chǔ)空間的占用,對(duì)大數(shù)據(jù)存儲(chǔ)系統(tǒng)具有非常重要的作用。2024/5/1126數(shù)據(jù)預(yù)處理4.數(shù)據(jù)歸約數(shù)據(jù)整合與清洗無(wú)法改變數(shù)據(jù)集的規(guī)模,依然需要通過(guò)技術(shù)手段降低數(shù)據(jù)規(guī)模,這就是數(shù)據(jù)歸約。數(shù)據(jù)歸約采用編碼方案,通過(guò)小波變換或主成分分析來(lái)有效地壓縮原始數(shù)據(jù),或者通過(guò)特征提取技術(shù)進(jìn)行屬性子集的選擇或重造。除了前面提到的數(shù)據(jù)預(yù)處理方法,還有一些對(duì)特定數(shù)據(jù)對(duì)象(這些數(shù)據(jù)對(duì)象通常具有高維特征矢量)進(jìn)行預(yù)處理的技術(shù),如特征提取技術(shù),在多媒體搜索和域名系統(tǒng)(DNS)分析中起著重要作用。數(shù)據(jù)變形技術(shù)則通常用于處理分布式數(shù)據(jù)源產(chǎn)生的異構(gòu)數(shù)據(jù),對(duì)商業(yè)數(shù)據(jù)的處理非常有用。然而,沒(méi)有一個(gè)統(tǒng)一的數(shù)據(jù)預(yù)處理過(guò)程和單一的技術(shù)能夠用于多樣化的數(shù)據(jù)集,必須考慮數(shù)據(jù)集的特性、需要解決的問(wèn)題、性能需求和其他因素來(lái)選擇合適的數(shù)據(jù)預(yù)處理方案。2024/5/1127數(shù)據(jù)存儲(chǔ)概述2024/5/1128什么是數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)是指數(shù)據(jù)以某種格式記錄在計(jì)算機(jī)內(nèi)部或外部存儲(chǔ)介質(zhì)上。因此,它包括兩部分,即存儲(chǔ)格式與存儲(chǔ)介質(zhì)。1.存儲(chǔ)格式文件:文字文件,壓縮文件,圖形圖像,動(dòng)畫,音頻、視頻文件等。數(shù)據(jù)庫(kù):關(guān)系型數(shù)據(jù)庫(kù),非關(guān)系型數(shù)據(jù)庫(kù)。2.存儲(chǔ)介質(zhì)磁盤和磁帶都是常用的存儲(chǔ)介質(zhì)。數(shù)據(jù)存儲(chǔ)組織方式因存儲(chǔ)介質(zhì)而異。在磁帶上數(shù)據(jù)僅采用順序存取方式;在磁盤上則可按使用要求采用順序存取或直接存取方式。數(shù)據(jù)存儲(chǔ)方式與數(shù)據(jù)文件組織密切相關(guān),其關(guān)鍵在于建立記錄的邏輯與物理順序間的對(duì)應(yīng)關(guān)系,確定存儲(chǔ)地址,以提高數(shù)據(jù)存取速度。2024/5/1129存儲(chǔ)格式(一)文件形式1.本地文件文件存儲(chǔ)在本地節(jié)點(diǎn),可不通過(guò)網(wǎng)絡(luò)直接訪問(wèn)。文字文件類型:如txt,csv,xml,html,doc等。壓縮文件類型:如zip,rar等。圖形圖像類型:如jpg,gif,bmp等。動(dòng)畫類型:如gif,swf等。音頻、視頻類型:如wav,mp3,mp4,avi等。2.分布式文件系統(tǒng)分布式文件系統(tǒng)(distributedfilesystem)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接在本地節(jié)點(diǎn)上,而是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)的設(shè)計(jì)基于客戶端/服務(wù)器模式。一個(gè)典型的網(wǎng)絡(luò)可能包括多個(gè)供多用戶訪問(wèn)的服務(wù)器。另外,對(duì)等特性允許一些系統(tǒng)扮演客戶端和服務(wù)器的雙重角色。分布式文件系統(tǒng)可以有效解決數(shù)據(jù)的存儲(chǔ)和管理難題:將固定于某個(gè)地點(diǎn)的某個(gè)文件系統(tǒng)擴(kuò)展到任意多個(gè)地點(diǎn)/多個(gè)文件系統(tǒng),眾多節(jié)點(diǎn)組成一個(gè)文件系統(tǒng)網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)可以分布在不同的地點(diǎn),通過(guò)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)間的通信和數(shù)據(jù)傳輸。2024/5/1130存儲(chǔ)格式(二)數(shù)據(jù)庫(kù)形式數(shù)據(jù)庫(kù)在結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和管理方面應(yīng)用非常廣泛,它大致可分為兩類,即關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)。常見(jiàn)的關(guān)系型數(shù)據(jù)庫(kù)有Oracle、DB2、MySQL等,常見(jiàn)的非關(guān)系型數(shù)據(jù)庫(kù)有MongoDB、HBase等。下圖以思維導(dǎo)圖形式展示了數(shù)據(jù)庫(kù)的大致分類。2024/5/1131存儲(chǔ)格式(三)大數(shù)據(jù)形式1.分布式系統(tǒng)分布式系統(tǒng)包含多個(gè)自主的處理單元,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)互連來(lái)協(xié)作完成分配的任務(wù),其分而治之的策略能夠更好地處理大規(guī)模的數(shù)據(jù)分析問(wèn)題。分布式系統(tǒng)主要包含以下兩類:(1)分布式文件系統(tǒng):存儲(chǔ)管理需要多種技術(shù)的協(xié)同工作,文件系統(tǒng)為其提供最底層存儲(chǔ)能力的支持。其中Hadoop分布式文件系統(tǒng)(Hadoopdistributedfilesystem,HDFS)是一個(gè)高度容錯(cuò)性系統(tǒng),適用于批量處理,能夠提供高吞吐量的數(shù)據(jù)訪問(wèn)。(2)分布式鍵值系統(tǒng):分布式鍵值系統(tǒng)用于存儲(chǔ)關(guān)系簡(jiǎn)單的半結(jié)構(gòu)化數(shù)據(jù)。典型的分布式鍵值系統(tǒng)有AmazonDynamo,獲得廣泛應(yīng)用和關(guān)注的對(duì)象存儲(chǔ)(objectstorage)技術(shù)也可以視為分布式鍵值系統(tǒng),其存儲(chǔ)和管理的是對(duì)象而不是數(shù)據(jù)塊。2024/5/1132存儲(chǔ)格式2.NoSQL數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿足Web2.0的需求。主要表現(xiàn)為:無(wú)法滿足海量數(shù)據(jù)的管理需求和數(shù)據(jù)高并發(fā)的需求,不太具備高可擴(kuò)展性和高可用性。相比之下,NoSQL數(shù)據(jù)庫(kù)的優(yōu)勢(shì)為:可以支持超大規(guī)模的數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型可以很好地支持Web2.0的應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等。典型的NoSQL數(shù)據(jù)庫(kù)包含以下幾種:鍵值數(shù)據(jù)庫(kù)、列數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)。3.云數(shù)據(jù)庫(kù)云數(shù)據(jù)庫(kù)是一種基于云計(jì)算技術(shù)發(fā)展的共享基礎(chǔ)架構(gòu)的方法,是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)。云數(shù)據(jù)庫(kù)并非一種全新的數(shù)據(jù)庫(kù)技術(shù),而只是以服務(wù)的方式提供數(shù)據(jù)庫(kù)功能。云數(shù)據(jù)庫(kù)所采用的數(shù)據(jù)模型可以是關(guān)系型數(shù)據(jù)庫(kù)所使用的關(guān)系模型(如華為、阿里巴巴和微軟的云數(shù)據(jù)庫(kù)都采用了關(guān)系模型)。2024/5/1133存儲(chǔ)方式數(shù)據(jù)存儲(chǔ)方式主要有三類,即直接附加存儲(chǔ)、網(wǎng)絡(luò)附加存儲(chǔ)及存儲(chǔ)區(qū)域網(wǎng)絡(luò)。1.直接附加存儲(chǔ)直接附加存儲(chǔ)(directattachedstorage,DAS)方式與普通的計(jì)算機(jī)存儲(chǔ)架構(gòu)一樣,外部存儲(chǔ)設(shè)備都是直接掛接在服務(wù)器內(nèi)部總線上,數(shù)據(jù)存儲(chǔ)設(shè)備是整個(gè)服務(wù)器結(jié)構(gòu)的一部分。DAS方式的主要適用環(huán)境有小型網(wǎng)絡(luò)(數(shù)據(jù)存儲(chǔ)量小,簡(jiǎn)單經(jīng)濟(jì))、地理位置分散的網(wǎng)絡(luò)、特殊應(yīng)用服務(wù)器(如微軟的集群服務(wù)器或某些數(shù)據(jù)庫(kù)使用的原始分區(qū),均要求存儲(chǔ)設(shè)備直接連接到應(yīng)用服務(wù)器)。DAS的優(yōu)點(diǎn)在于簡(jiǎn)單經(jīng)濟(jì),它的缺點(diǎn)包括效率低,不方便進(jìn)行數(shù)據(jù)保護(hù),無(wú)法共享。2024/5/1134存儲(chǔ)方式2.網(wǎng)絡(luò)附加存儲(chǔ)網(wǎng)絡(luò)附加存儲(chǔ)(networkattachedstorage,NAS)方式全面改進(jìn)了以前低效的DAS方式。它采用一種單獨(dú)為網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)開(kāi)發(fā)的獨(dú)立于服務(wù)器的文件服務(wù)器來(lái)連接所存儲(chǔ)的設(shè)備,自形成一個(gè)網(wǎng)絡(luò),數(shù)據(jù)存儲(chǔ)不再是服務(wù)器的附屬,而是作為獨(dú)立網(wǎng)絡(luò)節(jié)點(diǎn)存在于網(wǎng)絡(luò)之中,可被所有網(wǎng)絡(luò)用戶共享。NAS的優(yōu)點(diǎn)包括:真正的即插即用;存儲(chǔ)部署簡(jiǎn)單;存儲(chǔ)設(shè)備位置非常靈活;管理容易且成本低。NAS的缺點(diǎn)包括存儲(chǔ)性能較低,可靠度不高。2024/5/1135存儲(chǔ)方式3.存儲(chǔ)區(qū)域網(wǎng)絡(luò)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(storageareanetwork,SAN)方式創(chuàng)造了存儲(chǔ)的網(wǎng)絡(luò)化。存儲(chǔ)網(wǎng)絡(luò)化順應(yīng)了計(jì)算機(jī)服務(wù)器體系結(jié)構(gòu)網(wǎng)絡(luò)化的趨勢(shì)。SAN的支撐技術(shù)是光纖通道(fiberchannel,FC)技術(shù),它是美國(guó)國(guó)家標(biāo)準(zhǔn)協(xié)會(huì)(AmericanNationalStandardsInstitute,ANSI)為網(wǎng)絡(luò)和通道I/O接口建立的一個(gè)標(biāo)準(zhǔn)集成。FC技術(shù)支持HIPPI、IPI、SCSI、IP、ATM等多種高級(jí)協(xié)議,其最大特性是將網(wǎng)絡(luò)和設(shè)備的通信協(xié)議與傳輸物理介質(zhì)隔離開(kāi),這樣多種協(xié)議可在同一個(gè)物理連接上同時(shí)傳送。SAN的硬件基礎(chǔ)設(shè)施是光纖通道,用光纖通道構(gòu)建的SAN由以下三個(gè)部分組成:存儲(chǔ)和備份設(shè)備:包括磁帶、磁盤和光盤庫(kù)等;光纖通道網(wǎng)絡(luò)連接部件:包括主機(jī)總線適配卡、驅(qū)動(dòng)程序、光纜、集線器、交換機(jī)、光纖通道和SCSI間的橋接器;應(yīng)用和管理軟件:包括備份軟件、存儲(chǔ)資源管理軟件和存儲(chǔ)設(shè)備管理軟件。SAN的優(yōu)點(diǎn)包括網(wǎng)絡(luò)部署容易,具有高速的存儲(chǔ)性能和良好的擴(kuò)展能力等。2024/5/1136存儲(chǔ)方式4.三類存儲(chǔ)方式比較從連接方式上對(duì)比,DAS采用了存儲(chǔ)設(shè)備直接連接應(yīng)用服務(wù)器的方式,具有一定的靈活性和限制性;NAS通過(guò)網(wǎng)絡(luò)技術(shù)連接存儲(chǔ)設(shè)備和應(yīng)用服務(wù)器,存儲(chǔ)設(shè)備位置靈活,隨著萬(wàn)兆網(wǎng)的出現(xiàn),傳輸速率有了很大的提高;SAN則是通過(guò)光纖通道技術(shù)連接存儲(chǔ)設(shè)備和應(yīng)用服務(wù)器,具有很高的傳輸速率和很好的擴(kuò)展性能。三種存儲(chǔ)方式各有優(yōu)勢(shì),相互共存,占據(jù)了磁盤存儲(chǔ)市場(chǎng)的70%以上。SAN和NAS產(chǎn)品的價(jià)格仍然遠(yuǎn)遠(yuǎn)高于DAS,許多用戶出于價(jià)格考慮選擇低效率的直連存儲(chǔ)而不是高效率的共享存儲(chǔ)。2024/5/1137Python相關(guān)數(shù)據(jù)科學(xué)工具2024/5/1138Python相關(guān)數(shù)據(jù)科學(xué)工具根據(jù)KDnuggets()2017—2019年的調(diào)研結(jié)果(見(jiàn)下圖),Python已然是數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)領(lǐng)域使用排名第一的軟件工具。因此,我們有必要了解一下Python相關(guān)數(shù)據(jù)科學(xué)工具。2024/5/1139Python相關(guān)開(kāi)發(fā)環(huán)境與工具可用于Python的代碼編輯器有Vim、ATOM、VisualStudioCode等,集成開(kāi)發(fā)環(huán)境(integrateddevelopmentenvironment,IDE)有PyCharm、LiClipse、Spyder、基于交互式IPython的JupyterNotebook等。1.Anaconda——一站式數(shù)據(jù)科學(xué)工具Anaconda內(nèi)置集成了豐富的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)模塊,如NumPy、pandas、matplotlib、SciPy、JupyterNotebook、spyder等,如圖所示。如何安裝Anaconda,請(qǐng)參考:/anaconda/install/windows/。2024/5/1140Python相關(guān)開(kāi)發(fā)環(huán)境與工具本書使用Anaconda3中基于Python3的JupyterNotebook作為開(kāi)發(fā)環(huán)境,如圖1-8所示。當(dāng)在瀏覽器中編輯JupyterNotebook時(shí),JupyterNotebook的內(nèi)容被寫入文件后綴名為“.ipynb”的文件。2024/5/1141Python數(shù)據(jù)科學(xué)相關(guān)模塊1.pandaspandas是Python強(qiáng)大、靈活的數(shù)據(jù)分析和探索工具,包含Series、DataFrame等高級(jí)數(shù)據(jù)結(jié)構(gòu)和工具,安裝pandas可使Python處理數(shù)據(jù)變得非常快速和簡(jiǎn)單。pandas是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的,它納入了大量的庫(kù)和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效的操作大型數(shù)據(jù)集所需要的工具。pandas還包含了高級(jí)數(shù)據(jù)結(jié)構(gòu)以及讓數(shù)據(jù)分析變得快速、簡(jiǎn)單的工具。pandas的主要優(yōu)點(diǎn)如下:建立在numpy之上,使得應(yīng)用numpy變得簡(jiǎn)單。數(shù)據(jù)結(jié)構(gòu)帶有坐標(biāo)軸,支持自動(dòng)或明確的數(shù)據(jù)對(duì)齊。這能防止由于數(shù)據(jù)結(jié)構(gòu)沒(méi)有對(duì)齊以及處理不同來(lái)源、采用不同索引的數(shù)據(jù)而產(chǎn)生的常見(jiàn)錯(cuò)誤。更容易處理缺失數(shù)據(jù),是進(jìn)行數(shù)據(jù)清洗/整理的最好工具??珊喜⒘餍袛?shù)據(jù)庫(kù)(如基于SQL的數(shù)據(jù)庫(kù))。2024/5/1142Python數(shù)據(jù)科學(xué)相關(guān)模塊2.numpynumpy提供數(shù)組支持以及相應(yīng)的高效處理函數(shù),是Python數(shù)據(jù)分析的基礎(chǔ),也是scipy、pandas等數(shù)據(jù)處理和科學(xué)計(jì)算庫(kù)最基本的函數(shù)功能庫(kù),其數(shù)據(jù)類型對(duì)Python數(shù)據(jù)分析十分有用。numpy提供了兩種基本對(duì)象:ndarray和ufunc。ndarray是存儲(chǔ)單一數(shù)據(jù)類型的多維數(shù)組,而ufunc是能夠?qū)?shù)組進(jìn)行處理的函數(shù)。numpy的功能如下:可對(duì)n維數(shù)組(一種快速、高效使用內(nèi)存的多維數(shù)組)提供矢量化數(shù)學(xué)運(yùn)算??梢圆皇褂醚h(huán)就對(duì)整個(gè)數(shù)組內(nèi)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)數(shù)學(xué)運(yùn)算。便于將數(shù)據(jù)傳送到用低級(jí)語(yǔ)言(C/C)編寫的外部庫(kù),也便于外部庫(kù)以numpy數(shù)組形式返回?cái)?shù)據(jù)。不提供高級(jí)數(shù)據(jù)分析功能,但可以更加深刻地理解numpy數(shù)組和面向數(shù)組的計(jì)算。2024/5/1143Python數(shù)據(jù)科學(xué)相關(guān)模塊3.Web爬蟲(chóng)(1)Scrapy。Scrapy是專為爬蟲(chóng)而生的工具,具有URL讀取、HTML解析、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中介合作協(xié)議書范本
- 微生物檢驗(yàn)質(zhì)量控制試題及答案
- 一雙兒女夫妻離婚協(xié)議書
- 2025年證券從業(yè)資格考試全面總結(jié)試題及答案
- 品牌發(fā)展中的法律合規(guī)性計(jì)劃
- 采購(gòu)與供應(yīng)鏈協(xié)同法律法規(guī)重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 微生物檢驗(yàn)中的技術(shù)創(chuàng)新與應(yīng)用實(shí)例試題及答案
- 項(xiàng)目管理考試中的評(píng)估標(biāo)準(zhǔn)與方法試題及答案
- 提高注冊(cè)會(huì)計(jì)師考試綜合能力試題及答案
- 特許金融分析師考試重要理論探討試題及答案
- 《冠心病》課件(完整版)
- 幼兒園紅色小故事PPT:抗日小英雄王二小的故事
- 高校招聘復(fù)習(xí)高等教育學(xué)考點(diǎn)
- 三輪車駕駛安全操作規(guī)程(機(jī)動(dòng)三輪車和電動(dòng)三輪車)
- 防腐涂裝施工方案(22頁(yè))
- 2022年天津市中考道德與法治試題及答案解析
- 招商代理及運(yùn)營(yíng)管理服務(wù)合同(共9頁(yè))
- 工程竣工照片檔案樣式01
- 福建省普通高等學(xué)校畢業(yè)生就業(yè)協(xié)議書A雙面打印
- 院校代表推廣手冊(cè)
- 連山易斷卦法(共60頁(yè))
評(píng)論
0/150
提交評(píng)論