建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件_第1頁(yè)
建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件_第2頁(yè)
建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件_第3頁(yè)
建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件_第4頁(yè)
建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件_第5頁(yè)
已閱讀5頁(yè),還剩92頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)、數(shù)據(jù)挖掘與暖通專業(yè)HVAC-relatedBigdata,datamining大數(shù)據(jù)、數(shù)據(jù)挖掘與暖通專業(yè)HVAC-relatedBig一、大數(shù)據(jù)的故事一、大數(shù)據(jù)的故事1.1

數(shù)據(jù)的由來記錄信息的能力是人類文明的標(biāo)志之一;計(jì)量和記錄是數(shù)據(jù)的起點(diǎn),是數(shù)據(jù)化最早的根基;1.1數(shù)據(jù)的由來數(shù)字時(shí)代和數(shù)據(jù)爆炸人類存儲(chǔ)信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快9倍。其中非數(shù)字?jǐn)?shù)據(jù)不到2%。數(shù)字時(shí)代和數(shù)據(jù)爆炸人類存儲(chǔ)信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速大數(shù)據(jù)的特征——“量”大指數(shù)增長(zhǎng),從0.8zb(2009)到35zb(2020)Exponentialincreaseincollected/generated

data阿里數(shù)據(jù)擁有5000臺(tái)服務(wù)器,攢下了超過100PB已處理過的數(shù)據(jù),等于104857600個(gè)GB,相當(dāng)于4萬個(gè)西雅圖中央圖書館,580億本藏書。僅淘寶和天貓兩個(gè)子公司每日新增的數(shù)據(jù)量,就足以讓一個(gè)人連續(xù)不斷看上28年的電影。大數(shù)據(jù)的特征——“量”大指數(shù)增長(zhǎng),從0.8zb(2009)到大數(shù)據(jù)的特征——種類繁雜不同格式、類型、結(jié)構(gòu)…文本、數(shù)字、圖片、錄音影像、時(shí)序信號(hào)、社交媒體數(shù)據(jù)…靜態(tài)數(shù)據(jù)、流數(shù)據(jù)簡(jiǎn)單的應(yīng)用程序可以產(chǎn)生、收集多種類型的數(shù)據(jù)注意數(shù)字化和數(shù)據(jù)化的區(qū)別大數(shù)據(jù)的特征——種類繁雜大數(shù)據(jù)的來源數(shù)據(jù)收集自身不再成為了解世界的障礙->任性的時(shí)代!關(guān)鍵問題:->數(shù)據(jù)管理、分析、整理、可視化和新知識(shí)的獲得大數(shù)據(jù)的來源數(shù)據(jù)收集自身不再成為了解世界的障礙->任性的時(shí)代大數(shù)據(jù)帶給我們的新研究理念①傳統(tǒng)隨機(jī)采樣技術(shù)的結(jié)束->小數(shù)據(jù)時(shí)代大數(shù)據(jù)帶給我們的新研究理念①傳統(tǒng)隨機(jī)采樣技術(shù)的結(jié)束->小數(shù)據(jù)缺陷:受采樣條件的制約,即隨機(jī)性自身的影響;不適合子項(xiàng)的深入研究;忽略細(xì)節(jié);不能脫離事先設(shè)計(jì)、傳統(tǒng)思維的影響缺陷:樣本=總體。只有獲得所有數(shù)據(jù),才有真正認(rèn)識(shí)事物的可能;不單純意味著數(shù)據(jù)一定要“多”,重要的是所有細(xì)節(jié)的涵蓋;樣本=總體。只有獲得所有數(shù)據(jù),才有真正認(rèn)識(shí)事物的可能;大數(shù)據(jù)帶給我們的新研究理念②追求精確的時(shí)代結(jié)束大數(shù)據(jù)帶給我們的新研究理念②追求精確的時(shí)代結(jié)束只有5%左右的數(shù)據(jù)是結(jié)構(gòu)化的;不精確不再是缺點(diǎn),大數(shù)據(jù)決定了適當(dāng)?shù)娜蒎e(cuò)是可能的;不再需要對(duì)數(shù)據(jù)進(jìn)行仔細(xì)的事先清理和篩選,不再為誤差精度而擔(dān)心,“概率”>>準(zhǔn)確度;大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效->為什么谷歌翻譯系統(tǒng)最出色?接受混亂是數(shù)據(jù)的標(biāo)準(zhǔn)狀態(tài),不要想法去避免它->開放性、多樣性的數(shù)據(jù)庫(kù)建立和分析方法只有5%左右的數(shù)據(jù)是結(jié)構(gòu)化的;大數(shù)據(jù)帶給我們的新研究理念③注重機(jī)理(因果)研究時(shí)代的結(jié)束大數(shù)據(jù)帶給我們的新研究理念③注重機(jī)理(因果)研究時(shí)代的結(jié)束相比于內(nèi)在機(jī)理的挖掘,在大數(shù)據(jù)時(shí)代,相關(guān)關(guān)系的尋找更重要->“是什么”>>“為什么”;相比之下,相關(guān)關(guān)系的發(fā)現(xiàn)更準(zhǔn)確、更快速,更不易受誤導(dǎo)->機(jī)理研究存在很大風(fēng)險(xiǎn);是大數(shù)據(jù)預(yù)測(cè)技術(shù)的核心思想->只要找好關(guān)聯(lián)物即可;相比于內(nèi)在機(jī)理的挖掘,在大數(shù)據(jù)時(shí)代,相關(guān)關(guān)系的尋找更重要-大數(shù)據(jù)的應(yīng)用①——人類行動(dòng)學(xué)表面:看起來隨機(jī)而無規(guī)律的每個(gè)人的移動(dòng)潛在價(jià)值:提供定制廣告;預(yù)測(cè)交通狀況和人員聚集情況;消除潛在的傳染病危害;利用:GPS各種相關(guān)設(shè)備、移動(dòng)車輛、移動(dòng)通信、銀行信息…大數(shù)據(jù)的應(yīng)用①——人類行動(dòng)學(xué)大數(shù)據(jù)的應(yīng)用②——人類社交活動(dòng)表面:尋找和維持朋友、同事關(guān)系,發(fā)泄情緒;潛在價(jià)值:個(gè)體的喜好、商務(wù)信用;營(yíng)銷策略;利用:Facebook,

Twitter,

微信,QQ…大數(shù)據(jù)的應(yīng)用②——人類社交活動(dòng)大數(shù)據(jù)的應(yīng)用③——人類商務(wù)活動(dòng)表面:基本商務(wù)信息(購(gòu)物、金融貿(mào)易…);潛在價(jià)值:新的商務(wù)類型;利用:電商(阿里巴巴、Amazon、ebay)、大型銷售商、政府部門的數(shù)據(jù)大數(shù)據(jù)的應(yīng)用③——人類商務(wù)活動(dòng)大數(shù)據(jù)的應(yīng)用④——人體健康? 表面:測(cè)量身體各部位數(shù)據(jù);? 潛在價(jià)值:提供個(gè)性化醫(yī)療服務(wù);? 利用:各種傳感器大數(shù)據(jù)的應(yīng)用④——人體健康? 表面:測(cè)量身體各部位數(shù)據(jù);一般性的結(jié)論未來的世界,數(shù)據(jù)將無處不在。世界不再是各種事件的構(gòu)成,而是信息組合;所有數(shù)據(jù)均有其價(jià)值,而且數(shù)據(jù)的真實(shí)價(jià)值可能遠(yuǎn)遠(yuǎn)大于表象價(jià)值,就像冰山藏在海洋下面的部分一樣;與自然界的物質(zhì)不同,數(shù)據(jù)的價(jià)值不會(huì)隨著使用而減少,關(guān)鍵是如何評(píng)估和挖掘數(shù)據(jù)的潛在價(jià)值;數(shù)據(jù)的總和比部分更有價(jià)值->數(shù)據(jù)重組技術(shù);數(shù)據(jù)的價(jià)值是動(dòng)態(tài)變化的;要格外關(guān)注數(shù)據(jù)噪聲(數(shù)據(jù)廢氣)的重要價(jià)值;引領(lǐng)大數(shù)據(jù)時(shí)代的關(guān)鍵因素不是技能,而是思維的創(chuàng)新。一般性的結(jié)論可怕的結(jié)論大數(shù)據(jù)時(shí)代,“專家”或“行業(yè)工程師”可能要讓位于數(shù)據(jù)科學(xué)家、統(tǒng)計(jì)學(xué)家和分析家,因?yàn)楹笳邲]有傳統(tǒng)觀念的束縛,更注意把握數(shù)據(jù)內(nèi)在的規(guī)律;原因:專業(yè)技能是小數(shù)據(jù)時(shí)代的產(chǎn)物!思考:我們會(huì)失業(yè)么?可怕的結(jié)論大數(shù)據(jù)時(shí)代,“專家”或“行業(yè)工程師”可能要讓位于數(shù)大數(shù)據(jù)的局限性大數(shù)據(jù)的預(yù)測(cè)可能是不全面、不準(zhǔn)確的;大數(shù)據(jù)只能提供參考答案,不能給出準(zhǔn)確答案;真正的創(chuàng)新是超越于數(shù)據(jù)之上的!大數(shù)據(jù)的局限性二、數(shù)據(jù)分析和數(shù)據(jù)挖掘二、數(shù)據(jù)分析和數(shù)據(jù)挖掘數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別共同點(diǎn):都是從收集到的數(shù)據(jù)中提取有用信息,對(duì)數(shù)據(jù)進(jìn)行處理后發(fā)現(xiàn)知識(shí)的過程;區(qū)別:數(shù)據(jù)量不同(數(shù)據(jù)分析->小、數(shù)據(jù)挖掘->大);數(shù)據(jù)類型不同(數(shù)據(jù)分析->規(guī)范化數(shù)據(jù);數(shù)據(jù)挖掘->規(guī)范化和非規(guī)范化數(shù)據(jù));目的不同(數(shù)據(jù)分析->假設(shè)檢驗(yàn);數(shù)據(jù)挖掘->挖掘新的知識(shí)和信息);手段不同(數(shù)據(jù)分析->統(tǒng)計(jì)學(xué);數(shù)據(jù)挖掘->還需要機(jī)器學(xué)習(xí)的算法)常規(guī)的Excel數(shù)據(jù)處理過程是數(shù)據(jù)分析!數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別共同點(diǎn):都是從收集到的數(shù)據(jù)中提取有用數(shù)據(jù)挖掘的9大定律BusinessGoalsLawBusinessKnowledgeLawDataPreparationLawNFL

LawWatkins’LawInsightLawPredictionLawValueLawLawof

Change數(shù)據(jù)挖掘的9大定律數(shù)據(jù)挖掘的挑戰(zhàn)如何選擇數(shù)據(jù)挖掘的方案?如何規(guī)避和有效利用數(shù)據(jù)噪聲?如何面對(duì)數(shù)據(jù)不斷更新的影響?數(shù)據(jù)挖掘的挑戰(zhàn)數(shù)據(jù)挖掘的基本流程信息收集(數(shù)據(jù)倉(cāng)庫(kù))數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)清理數(shù)據(jù)變換數(shù)據(jù)挖掘模式評(píng)估知識(shí)表示數(shù)據(jù)預(yù)處理,至少占60%工作量至少占60%費(fèi)用數(shù)據(jù)挖掘的基本流程信息收集(數(shù)據(jù)倉(cāng)庫(kù))數(shù)據(jù)預(yù)處理,至少占60(1)數(shù)據(jù)挖掘的基礎(chǔ)——數(shù)據(jù)倉(cāng)庫(kù)(data

warehouse)數(shù)據(jù)存放、組織歸類、提供使用的集成平臺(tái);主要用于支持決策,可以對(duì)多個(gè)異構(gòu)的數(shù)據(jù)來源有效集成,集成后可按照主題重組,包括歷史數(shù)據(jù);傳統(tǒng)的一體式、云存儲(chǔ)等不同形式;內(nèi)涵不同于現(xiàn)有的企業(yè)型數(shù)據(jù)庫(kù)(data

base),表現(xiàn)在:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)更靈活,包含了過去的、綜合的、集成的、提煉的信息;數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),修改或更新的操作較少知名數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品:Oracle(Oracle),Teradata(Teradata),DB2(IBM),SQLServer(Microsoft)…(1)數(shù)據(jù)挖掘的基礎(chǔ)——數(shù)據(jù)倉(cāng)庫(kù)(datawarehous數(shù)據(jù)倉(cāng)庫(kù)的基本結(jié)構(gòu)ETL(ExtractTransformLoad):數(shù)據(jù)抽取、轉(zhuǎn)換、裝載過程;OLAP(OnLineAnalyticalProcessing):對(duì)數(shù)據(jù)進(jìn)行有效集成和分析;Reporting:報(bào)表數(shù)據(jù)倉(cāng)庫(kù)的基本結(jié)構(gòu)(2)數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)(以數(shù)據(jù)庫(kù)為代表)結(jié)合起來存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)(以數(shù)據(jù)倉(cāng)庫(kù)為代表)中的過程;目的:進(jìn)行數(shù)據(jù)匯總和數(shù)據(jù)概化;需要利用專業(yè)知識(shí)來檢測(cè)并解決數(shù)據(jù)值的識(shí)別和沖突問題;(2)數(shù)據(jù)集成數(shù)據(jù)預(yù)處理目的:提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)挖掘的過程更加有效,更加便捷,提高結(jié)果的精度和可靠性;此過程重要、不可或缺;針對(duì)對(duì)象:噪聲數(shù)據(jù)、空缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和不一致數(shù)據(jù);背景太多雜亂的數(shù)據(jù)->屬性信息不完整、夾雜噪聲值(錯(cuò)誤、孤立點(diǎn))、重復(fù)值(屬性和數(shù)據(jù)冗余)、異常值、格式不符合要求…數(shù)據(jù)挖掘需要高質(zhì)量的數(shù)據(jù)數(shù)據(jù)預(yù)處理目的:提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)挖掘的過程更加有效,更加(3)數(shù)據(jù)清理通過填寫缺失的數(shù)據(jù)、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來對(duì)數(shù)據(jù)進(jìn)行處理的過程。目標(biāo):格式標(biāo)準(zhǔn)化異常數(shù)據(jù)剔除錯(cuò)誤糾正重復(fù)數(shù)據(jù)去除(3)數(shù)據(jù)清理通過填寫缺失的數(shù)據(jù)、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離(3-1)

處理缺失數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)很多是不完整的;空缺(遺漏)屬性值:簡(jiǎn)單地將存在空缺(遺漏)屬性值的數(shù)據(jù)記錄刪除->有風(fēng)險(xiǎn)人工方式填寫、補(bǔ)齊空缺值->可行性差將空缺(遺漏)屬性值作為一種特殊屬性值處理;采用統(tǒng)計(jì)學(xué)原理,根據(jù)信息表中其余數(shù)據(jù)在該屬性上的分布情況對(duì)空缺(遺漏)屬性值進(jìn)行估計(jì)補(bǔ)充。具體做法:平均值、同類樣本最可能值、貝葉斯公式或判定樹->有風(fēng)險(xiǎn)時(shí)空序列缺失:時(shí)間段局部性缺失->線性插值補(bǔ)缺;缺失時(shí)間段較長(zhǎng)->利用歷史數(shù)據(jù);空間缺失->周圍數(shù)據(jù)點(diǎn)代替(3-1)處理缺失數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)很多是不完整的;空缺(3-2)處理重復(fù)數(shù)據(jù)真正重復(fù)性的數(shù)據(jù);屬性冗余:通過因子分析或經(jīng)驗(yàn)方法確信部分屬性的相關(guān)數(shù)據(jù)足以對(duì)信息進(jìn)行挖掘和決策,可通過專業(yè)常識(shí)或相關(guān)數(shù)學(xué)方法找出具有最大影響屬性因子的屬性數(shù)據(jù),其余屬性刪除;屬性數(shù)據(jù)冗余:若某屬性的部分?jǐn)?shù)據(jù)足以反映該問題信息,則其余可刪除。若經(jīng)過分析,這部分冗余數(shù)據(jù)可能還有他用,則先保留。數(shù)據(jù)集成可以部分解決該問題。(3-2)處理重復(fù)數(shù)據(jù)真正重復(fù)性的數(shù)據(jù);(3-3)處理噪聲數(shù)據(jù)數(shù)據(jù)隨機(jī)誤差或偏差;利用分箱技術(shù)(平滑箱算法)來檢測(cè)周圍相應(yīng)屬性值進(jìn)行局部數(shù)據(jù)平滑;利用聚類技術(shù),根據(jù)要求檢測(cè)孤立點(diǎn)數(shù)據(jù)并進(jìn)行修正;利用回歸函數(shù)和時(shí)間序列分析進(jìn)行修正;(3-3)處理噪聲數(shù)據(jù)數(shù)據(jù)隨機(jī)誤差或偏差;(3-4)處理異常數(shù)據(jù)專指不遵循數(shù)據(jù)模型的一般規(guī)律的數(shù)據(jù)。注意異常點(diǎn)不同于噪聲,前者是數(shù)據(jù)固有可變性的結(jié)果。有時(shí)異常點(diǎn)隱含著重要的信息,甚至于其本身就是重點(diǎn)尋找的對(duì)象。方法:針對(duì)時(shí)間序列數(shù)據(jù),采用移動(dòng)窗口理論等實(shí)現(xiàn)檢測(cè);針對(duì)空間數(shù)據(jù),采取移動(dòng)曲面擬合法等實(shí)現(xiàn)檢測(cè);針對(duì)多維數(shù)據(jù),采取聚類分析法等實(shí)現(xiàn)檢測(cè)。(3-4)處理異常數(shù)據(jù)專指不遵循數(shù)據(jù)模型的一般規(guī)律的數(shù)據(jù)。(4)數(shù)據(jù)轉(zhuǎn)換分為常規(guī)數(shù)據(jù)轉(zhuǎn)換和非常規(guī)數(shù)據(jù)轉(zhuǎn)換兩類,實(shí)現(xiàn)定性問題定量化、定量問題定性化。常規(guī)數(shù)據(jù)轉(zhuǎn)換:通過線性或非線性數(shù)學(xué)變換方法等消除數(shù)據(jù)在空間、屬性、時(shí)間及精度等特征表現(xiàn)上的差異,將數(shù)據(jù)轉(zhuǎn)換為適用于數(shù)據(jù)挖掘的形式。常用方法:最小-最大規(guī)范化、Z-score規(guī)范化即零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化;目的:減少數(shù)據(jù)復(fù)雜度;數(shù)據(jù)規(guī)范化,使數(shù)據(jù)按比例縮放,落入特定區(qū)域;進(jìn)行屬性構(gòu)造,通過一個(gè)或多個(gè)屬性變換計(jì)算構(gòu)造出新的屬性等。(4)數(shù)據(jù)轉(zhuǎn)換分為常規(guī)數(shù)據(jù)轉(zhuǎn)換和非常規(guī)數(shù)據(jù)轉(zhuǎn)換兩類,實(shí)現(xiàn)定性數(shù)據(jù)標(biāo)準(zhǔn)化處理后的所有數(shù)據(jù)的平均值為0,標(biāo)準(zhǔn)差為1。把區(qū)間較大的數(shù)據(jù)整合到一個(gè)相對(duì)較規(guī)則的區(qū)間中。常用方法:標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化:標(biāo)準(zhǔn)差數(shù)據(jù)標(biāo)準(zhǔn)化處理后的所有數(shù)據(jù)的平均值為0,標(biāo)準(zhǔn)差為1。把區(qū)間較極差標(biāo)準(zhǔn)化:處理后的所有數(shù)據(jù)的極差為1。極差正規(guī)化:處理后的所有數(shù)據(jù)都在0~1之間。最小-最大規(guī)范化:把所有數(shù)據(jù)轉(zhuǎn)化到新設(shè)定的最小值和最大值區(qū)間內(nèi)極差極差標(biāo)準(zhǔn)化:極差非常規(guī)數(shù)據(jù)轉(zhuǎn)換如音頻、視頻數(shù)據(jù)轉(zhuǎn)換為文本格式的數(shù)據(jù)等,方法多樣。非常規(guī)數(shù)據(jù)轉(zhuǎn)換如音頻、視頻數(shù)據(jù)轉(zhuǎn)換為文本格式的數(shù)據(jù)等,方法多(5)數(shù)據(jù)規(guī)約目的:一般的數(shù)據(jù)預(yù)處理之前,對(duì)數(shù)據(jù)集進(jìn)行壓縮,以便后續(xù)的數(shù)據(jù)挖掘工作更高效、精度更高、更簡(jiǎn)便;可以沒有該步驟;特點(diǎn):損失原始數(shù)據(jù)->與數(shù)據(jù)清理、數(shù)據(jù)變換的不同之處;主要方法:維數(shù)消減模型->慎用,以免犧牲數(shù)據(jù)質(zhì)量(5)數(shù)據(jù)規(guī)約數(shù)據(jù)挖掘的主要算法①——聚類算法把有共同特征的對(duì)象聚成一類,又稱群分析;是數(shù)據(jù)挖掘的核心技術(shù),也可作為數(shù)據(jù)挖掘系列過程中的預(yù)處理算法;把所有的對(duì)象數(shù)據(jù)按相異度(距離)分成不同的群組;特點(diǎn):劃分前不知道數(shù)據(jù)要分成幾組,也不知道依賴哪些變量來進(jìn)行劃分。聚類后要結(jié)合專業(yè)知識(shí)予以合理解釋;代表算法:K-means算法、K-medoids算法、PAM算法等。區(qū)別只在于每個(gè)聚類中心點(diǎn)的確定方法。數(shù)據(jù)挖掘的主要算法①——聚類算法建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件數(shù)據(jù)挖掘的主要算法②——分類算法目的:如何找出同類事物共同性質(zhì)的特征性知識(shí)和不同事物之間的差異性知識(shí);代表算法:KNN算法;決策樹算法;神經(jīng)網(wǎng)絡(luò)算法;支持向量機(jī)SVM算法;分類不會(huì)百分百準(zhǔn)確,每個(gè)算法都有其準(zhǔn)確率表述。數(shù)據(jù)挖掘的主要算法②——分類算法數(shù)據(jù)挖掘的主要算法③——關(guān)聯(lián)算法概念:關(guān)聯(lián):兩個(gè)或多個(gè)變量的數(shù)據(jù)之間存在某種規(guī)律性;支持度:數(shù)據(jù)集中包含某幾個(gè)特定項(xiàng)的概率,反映關(guān)聯(lián)規(guī)則在數(shù)據(jù)集中的重要性;置信度:數(shù)據(jù)集中出現(xiàn)A時(shí),B發(fā)生的概率,用于衡量關(guān)聯(lián)規(guī)則的可信程度;目的:尋找海量數(shù)據(jù)各屬性之間隱含的關(guān)聯(lián)性;代表算法:Apriori算法、Eclat算法、FP-Growth算法數(shù)據(jù)挖掘的主要算法③——關(guān)聯(lián)算法概念:數(shù)據(jù)挖掘的主要算法④——序列挖掘從一個(gè)序列中的數(shù)據(jù)找出統(tǒng)計(jì)規(guī)律,一般用于預(yù)測(cè);序列可以是字符串、基因排列等,更常見的是時(shí)間序列;代表算法:Autoregressive

Model、Integrated

Model、movingaverage…數(shù)據(jù)挖掘的主要算法④——序列挖掘數(shù)據(jù)挖掘工具R語(yǔ)言:;;免費(fèi)開源的數(shù)據(jù)挖掘工具函數(shù)式編程;向量化運(yùn)算算法全、數(shù)據(jù)展示多樣;用戶:Facebook,

Google,LinkedIn,Microsoft…MATLAB:數(shù)值計(jì)算軟件;高效的數(shù)學(xué)表達(dá)式、符號(hào)運(yùn)算功能SPSSModeler,SASEnterpriseMiner,IBMIntelligentMiner,

…左為Ross

Ihaka

右為Robert

Gentleman數(shù)據(jù)挖掘工具R語(yǔ)言:;免費(fèi)開源的數(shù)據(jù)挖掘工具LinkedInR語(yǔ)言的鏡像站,包含了R的執(zhí)行文檔、源代碼和說明文件,還有各種用戶自己撰寫的軟件包/R語(yǔ)言的鏡像站,包含了R的執(zhí)行文檔、源代碼和說明文件,還有數(shù)據(jù)挖掘的結(jié)果顯示原則:直觀加美觀;MSOffice是遠(yuǎn)遠(yuǎn)不夠的;更為專業(yè)的數(shù)據(jù)可視化工具:Google

Chart,

TableauSoftware…數(shù)據(jù)挖掘的結(jié)果顯示Software…三、數(shù)據(jù)挖掘與建筑HVAC三、數(shù)據(jù)挖掘與建筑HVAC影響建筑環(huán)境和能耗的因素、影響因素具體內(nèi)容氣象條件大氣溫濕度、風(fēng)速風(fēng)向、太陽(yáng)輻射、PM2.5…建筑本體外形尺寸、總體及局部功能或用途、圍護(hù)結(jié)構(gòu)物性參數(shù)朝向、窗墻比…能源形式化石能源、自然能源或可再生能源利用…建筑設(shè)備集中或分散式供熱、空調(diào)系統(tǒng)自身性能、運(yùn)行…用戶行為開閉各種建筑設(shè)備(供熱空調(diào)、電器、照明)、通風(fēng)換氣…社會(huì)因素當(dāng)?shù)乜傮w生活水平、用戶文化和收入水平、能源價(jià)格…相關(guān)標(biāo)準(zhǔn)環(huán)境質(zhì)量、節(jié)能…理論上,搞清楚以上所有因素及所攜帶信息(數(shù)據(jù)),就可以實(shí)現(xiàn)環(huán)境保障和節(jié)能減排的目的影響建筑環(huán)境和能耗的因素、影響因素具體內(nèi)容氣象條件大氣溫濕度存在問題現(xiàn)有的技術(shù)手段或模型不能涵蓋所有的影響因素和相應(yīng)數(shù)據(jù)信息,同時(shí)這些技術(shù)手段也不能很方便地為用戶所用;各影響因素同時(shí)作用于建筑,又存在相互作用。有的影響因素自身極為復(fù)雜,很難把握其規(guī)律->point:

人員行為;海量(同時(shí)伴隨質(zhì)劣)數(shù)據(jù)自身如何校正、檢驗(yàn)?如何提取出有價(jià)值的信息來應(yīng)對(duì)建筑環(huán)境和能耗需求?存在問題常規(guī)數(shù)據(jù)分析方法①——指標(biāo)法人為定義各種簡(jiǎn)單的評(píng)價(jià)指標(biāo)單位建筑面積能耗(EUI):建筑總體或建筑特定能源系統(tǒng)用能量,一般用單位建筑面積表示;用于比較不同建筑間或同一建筑不同時(shí)期能源使用效率能源系統(tǒng)能效比(COP):能源系統(tǒng)產(chǎn)出和投入比;用于能源系統(tǒng)自身在不同工況下的性能評(píng)價(jià)優(yōu)點(diǎn):簡(jiǎn)便;缺陷:作為數(shù)據(jù)分析太不充分常規(guī)數(shù)據(jù)分析方法①——指標(biāo)法人為定義各種簡(jiǎn)單的評(píng)價(jià)指標(biāo)常規(guī)數(shù)據(jù)分析方法②——統(tǒng)計(jì)分析法回歸分析(線性、非線性):建立建筑能耗或環(huán)境參數(shù)與各影響因素之間的關(guān)系式,預(yù)測(cè)建筑能耗或環(huán)境參數(shù)的動(dòng)態(tài)變化相關(guān)分析:研究建筑能耗或環(huán)境參數(shù)與各影響因素之間的相關(guān)性和重要度優(yōu)點(diǎn):簡(jiǎn)便易于使用;缺陷:只能處理較為簡(jiǎn)單的問題,多變量處理技術(shù)比較復(fù)雜;由于數(shù)據(jù)噪音存在,統(tǒng)計(jì)分析結(jié)果可能存在比較大偏差常規(guī)數(shù)據(jù)分析方法②——統(tǒng)計(jì)分析法回歸分析(線性、非線性):建常規(guī)數(shù)據(jù)分析方法③——數(shù)值模擬利用自主開發(fā)或商用軟件進(jìn)行建筑環(huán)境或用能的穩(wěn)態(tài)/動(dòng)態(tài)評(píng)價(jià);優(yōu)點(diǎn):工況自定義,不受外界影響,可重復(fù),易于深入研究問題實(shí)質(zhì);缺陷:影響因素的細(xì)微變化,如人員行為等的影響不易考慮常規(guī)數(shù)據(jù)分析方法③——數(shù)值模擬利用自主開發(fā)或商用軟件進(jìn)行建筑針對(duì)暖通專業(yè)的數(shù)據(jù)挖掘具體流程針對(duì)暖通專業(yè)的數(shù)據(jù)挖掘具體流程數(shù)據(jù)倉(cāng)庫(kù)——日本居住建筑能源調(diào)查(2002~2004)數(shù)據(jù)倉(cāng)庫(kù)——日本居住建筑能源調(diào)暖通專業(yè)數(shù)據(jù)挖掘技術(shù)框架體系①暖通專業(yè)數(shù)據(jù)挖掘技術(shù)框架體系①分類算法:對(duì)相關(guān)數(shù)據(jù)各種屬性進(jìn)行分類或預(yù)測(cè),從而更好地進(jìn)行建筑節(jié)能設(shè)計(jì)或運(yùn)行調(diào)節(jié);聚類算法:計(jì)算數(shù)據(jù)(如建筑屬性和人員行為屬性)之間的相似度,用于深入了解建筑環(huán)境或用能的形成機(jī)理,確定各影響因素的影響度;關(guān)聯(lián)算法:發(fā)現(xiàn)測(cè)試數(shù)據(jù)(如HVAC系統(tǒng)各參數(shù),如送風(fēng)溫度、送風(fēng)量、風(fēng)機(jī)壓降等)之間的關(guān)聯(lián)度,深入了解建筑系統(tǒng)運(yùn)行規(guī)律,建立更合理的環(huán)境或用能控制策略。分類算法:對(duì)相關(guān)數(shù)據(jù)各種屬性進(jìn)行分類或預(yù)測(cè),從而更好地進(jìn)行建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系②建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系②建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系③建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系③應(yīng)用案例①——辦公建筑開窗行為現(xiàn)有的建筑節(jié)能不能完全達(dá)到預(yù)期目標(biāo),部分原因在于技術(shù)本身,部分則在于人員行為;人員和建筑本體、能源系統(tǒng)之間的互動(dòng)關(guān)系對(duì)能耗影響極大;現(xiàn)有的能耗模擬工具對(duì)人員行為的定義過于死板,實(shí)際上是高度隨機(jī)復(fù)雜、多學(xué)科交叉的過程;利用數(shù)據(jù)挖掘技術(shù)研究辦公室人員開窗行為,加深對(duì)人員行為和用能之間的關(guān)系的理解,從而可以有效解決預(yù)測(cè)和實(shí)際能耗之間差別很大的問題應(yīng)用案例①——辦公建筑開窗行為多層辦公建筑面積17,402

m2(8585

m2

heated)人員~350德國(guó)法蘭克福(溫和海洋型氣候)滿足建筑圍護(hù)結(jié)構(gòu)節(jié)能標(biāo)準(zhǔn)(U-values:墻體0.24-0.5W/m2K,窗體1.5W/m2K)年一次能源消耗<100Wh/m22層地下車庫(kù)、4層辦公、頂層公寓測(cè)試房間:辦公室建設(shè)時(shí)間:2002窗體朝向:Eand

W窗體開閉、遮陽(yáng):自動(dòng)BMS、人員行為多層辦公建筑測(cè)試對(duì)象辦公室數(shù)

16(11東向;5個(gè)西向)實(shí)測(cè)期間

2006and2007面積

20m2人員數(shù)

1or2persons/房間實(shí)測(cè)項(xiàng)目->取樣時(shí)間間隔均為10min室外溫濕度、太陽(yáng)輻射、風(fēng)速風(fēng)向、降雨量室內(nèi)溫濕度、CO2(只測(cè)3個(gè)房間)能源系統(tǒng)(供熱供冷、通風(fēng)、照明)人員行為(窗戶開閉狀態(tài)、遮陽(yáng)狀態(tài)、照明使用時(shí)間)測(cè)試對(duì)象辦公室數(shù)16(11東向;5個(gè)西向)數(shù)據(jù)格式數(shù)字化變量室內(nèi)外溫度室內(nèi)外相對(duì)濕度水平面太陽(yáng)輻射照度風(fēng)速風(fēng)向非數(shù)字化變量季節(jié)(春夏秋冬)星期一~星期日時(shí)間(早晨、上午、中午、下午、晚上)窗戶狀態(tài)(關(guān):0;開:1)人員狀態(tài)(在:0;不在:1)窗戶狀態(tài)變化人員狀態(tài)變化降雨(0~1)數(shù)據(jù)利用極差正規(guī)化進(jìn)行標(biāo)準(zhǔn)化處理數(shù)據(jù)格式數(shù)字化變量室內(nèi)外溫度非數(shù)字化變量窗戶開閉的標(biāo)準(zhǔn)化回歸分析(R語(yǔ)言)窗戶開閉的標(biāo)準(zhǔn)化回歸分析(R語(yǔ)言)聚類分析——總體類型、開閉驅(qū)動(dòng)力的前5個(gè)主要影響因素(Thek-means,RapidMiner

6.0)熱驅(qū)動(dòng)熱-時(shí)間驅(qū)動(dòng)時(shí)間驅(qū)動(dòng)熱-時(shí)間驅(qū)動(dòng)時(shí)間驅(qū)動(dòng)聚類分析——總體類型、開閉驅(qū)動(dòng)力的前5個(gè)主要影響因素?zé)狎?qū)動(dòng)熱聚類分析——開閉時(shí)間聚類分析——開閉時(shí)間聚類分析——開閉次數(shù)聚類分析——開閉次數(shù)聚類分析——開啟角度(日)聚類分析——開啟角度(日)開啟角度(季節(jié))開啟角度(季節(jié))關(guān)聯(lián)算法((FP

growth,

Rapid

Miner)supportof30%,confidenceof

80%關(guān)聯(lián)算法((FPgrowth,RapidMiner)s應(yīng)用案例②——居住建筑人員行為與能耗居住者的社會(huì)和經(jīng)濟(jì)水平、室內(nèi)外環(huán)境決定人員行為,進(jìn)而影響建筑能耗。通過數(shù)據(jù)分析,識(shí)別居住者行為對(duì)建筑能耗的影響度,從而可加深對(duì)能耗內(nèi)在機(jī)理的認(rèn)識(shí),通過改善人員行為實(shí)現(xiàn)節(jié)能目的。應(yīng)用案例②——居住建筑人員行為與能耗測(cè)試對(duì)象日本80戶(6個(gè)不同城市)住宅;2002.12~2004.11,不良數(shù)據(jù)進(jìn)行了處理現(xiàn)場(chǎng)測(cè)試:末端用能電力(每分鐘)燃?xì)猓?分鐘)煤油(每5分鐘)室內(nèi)溫度(1.1m高,每15分鐘)問卷調(diào)查:建筑本體信息、生活規(guī)律、設(shè)備使用情況、收入等(僅一次)測(cè)試對(duì)象日本80戶(6個(gè)不同城市)住宅;2002.12~20末端用能構(gòu)成HVAC;生活熱水HWS;廚房(炊事,相關(guān)設(shè)備)KITC;照明LIGHT;冰箱REF;信息設(shè)備(電視、電話、計(jì)算機(jī))A&I;家務(wù)用設(shè)備(洗衣機(jī)、吸塵器…)HOUSE;其他OTHER數(shù)據(jù)經(jīng)過最大-最小極差標(biāo)準(zhǔn)化處理末端用能構(gòu)成影響因素氣象條件年均氣溫T、相對(duì)濕度RH、風(fēng)速WS、太陽(yáng)輻射RA建筑本體建筑類型(非數(shù)字)HT、建筑面積BA、當(dāng)量滲風(fēng)面積ELA、熱損失系數(shù)HLC居住者人數(shù)NO建筑設(shè)備供熱供冷HC、生活熱水HWS、廚房設(shè)備(非數(shù)字)KE影響因素氣象條件灰色關(guān)聯(lián)度分析——月用能的地區(qū)影響(WEKA)灰色關(guān)聯(lián)度分析——月用能的地區(qū)影響(WEKA)聚類分析——住宅的影響因素特征聚類(K-means,

WEKA)聚類分析——住宅的影響因素特征聚類(K-means,WEK年均EUI的構(gòu)成年均EUI的構(gòu)成不同聚類的月末端用能變化不同聚類的月末端用能變化不同聚類的月均居室溫度不同聚類的月均居室溫度應(yīng)用案例③——樓宇自動(dòng)化系統(tǒng)的數(shù)據(jù)挖掘大量建筑利用樓宇自動(dòng)化系統(tǒng)(BAS)監(jiān)測(cè)和控制建筑內(nèi)環(huán)境參數(shù)以及能源系統(tǒng)運(yùn)行;采集數(shù)據(jù)的有效利用不好:包含大量數(shù)據(jù)噪聲、異常點(diǎn);給出利用數(shù)據(jù)挖掘技術(shù)進(jìn)行BAS數(shù)據(jù)庫(kù)數(shù)據(jù)處理的技術(shù)框架并予以實(shí)際應(yīng)用;應(yīng)用案例③——樓宇自動(dòng)化系統(tǒng)的數(shù)據(jù)挖掘大量建筑利用樓宇自動(dòng)化建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件BAS原始數(shù)據(jù)香港最高的商業(yè)建筑,2011年被亞洲智能建筑協(xié)會(huì)評(píng)為智能建筑;設(shè)置先進(jìn)的BAS,超過500以上的功率表實(shí)時(shí)(15min間隔)測(cè)量各種電力數(shù)據(jù);數(shù)據(jù)收集2012.1~2012.8;數(shù)據(jù)包括:時(shí)間、室內(nèi)外物理參數(shù)(溫濕度、室內(nèi)CO2濃度)、各種電量(冷機(jī)、空調(diào)機(jī)組、水泵、風(fēng)機(jī)、電梯、照明…);BAS原始數(shù)據(jù)數(shù)據(jù)前處理包含大量缺失值和異常值;缺失值->移動(dòng)平均進(jìn)行處理;“死”值(長(zhǎng)時(shí)間不發(fā)生變化)->1h不變化則剔除;異常值->四分位數(shù)間距法則(interquartilerangerule)處理->通過數(shù)據(jù)清理,22974數(shù)據(jù)剩下19,962將數(shù)據(jù)重新歸納分為早晨(7~12點(diǎn))、下午(13~19點(diǎn))和晚上(20~翌日6點(diǎn))三部分,再考慮平均、最大值、最小值三種情況。->通過數(shù)據(jù)規(guī)約,將數(shù)據(jù)維度從96降為12。數(shù)據(jù)前處理包含大量缺失值和異常值;關(guān)聯(lián)算法所需的數(shù)據(jù)轉(zhuǎn)換處理需要將目前的電量和氣象數(shù)據(jù)從數(shù)字轉(zhuǎn)為類型;氣象數(shù)據(jù)->氣溫范圍低于10~高于30℃,分為6檔,每檔5℃;相對(duì)濕度范圍低于70%~高于90%,分為6檔,每檔5%;電量數(shù)據(jù)->等頻bin法,高中低3檔(一次冷凍水泵、冷凝水泵由于定流量除外)。關(guān)聯(lián)算法所需的數(shù)據(jù)轉(zhuǎn)換處理不同聚類分析方法的驗(yàn)證(R語(yǔ)言)不同聚類分析方法的驗(yàn)證(R語(yǔ)言)熵權(quán)K-means算法結(jié)果(左);特征相對(duì)重要度的熱力圖(右)熵權(quán)K-mean

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論