版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
無監(jiān)督學(xué)習(xí)—Clustering&AssociationRule能源系統(tǒng)人工智能方法
第三節(jié)能源系統(tǒng)運行過程中會產(chǎn)生海量的數(shù)據(jù)數(shù)據(jù)特點:變量種類多、數(shù)據(jù)體量大、價值密度低、數(shù)據(jù)標(biāo)簽稀缺背景如何從繁雜的數(shù)據(jù)中提取有用的信息?2數(shù)據(jù)挖掘技術(shù)被認(rèn)為是解決這一問題的方法背景DataminingHVACsystemoperationdata高價值數(shù)據(jù)3背景無監(jiān)督學(xué)習(xí)算法是常用的數(shù)據(jù)挖掘方法:無監(jiān)督學(xué)習(xí):樣本的標(biāo)記信息未知,通過對樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律的過程對數(shù)據(jù)做進(jìn)一步分析有價值知識4背景無監(jiān)督學(xué)習(xí)算法典型能源應(yīng)用場景:5背景無監(jiān)督學(xué)習(xí)的一般流程:數(shù)據(jù)預(yù)處理無監(jiān)督數(shù)據(jù)挖掘知識后挖掘6背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱7聚類的定義數(shù)據(jù)聚類結(jié)果示意圖聚類結(jié)果:算法自動生成簇的意義:由使用者定義聚類(Clustering):將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個“簇”(cluster)三個聚類簇8數(shù)學(xué)表達(dá)樣本集D:包含m個樣本每個樣本xi:為一個包含n個數(shù)的向量聚類過程:基于樣本間的相似程度將樣本集中的樣本劃分為k個子集(聚類簇)聚類目的:得到包含每個樣本歸屬于哪個簇的簇標(biāo)記向量
x聚類簇數(shù)目k=2x1x3x2x4x5x6聚類算法1x2x3x4x5x6樣本集(樣本數(shù)m=6)聚類簇1聚類簇2x11x12含n=2個數(shù)9相似性度量相似性度量:用于定量估計樣本間的相似程度分類:幾何距離的性質(zhì):非負(fù)性:樣本之間的距離大于等于0同一性:相同樣本間的距離為0對稱性:樣本互相交換位置不改變結(jié)果直遞性:兩點之間直線距離最短10相似性度量-幾何距離-閔可夫斯基距離閔可夫斯基距離:范圍∈(0,∞),越大越不相似樣本和的距離計算公式:p值不同時,具有不同的名稱以及計算公式:幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)
p=∞:切比雪夫距離p=2:歐式距離p=1:曼哈頓距離11二維空間中的三種距離展示紅色點劃線:曼哈頓距離,溫濕度差值絕對值之和黃色直線:歐氏距離,兩點之間的直線距離藍(lán)色虛線:切比雪夫距離,溫濕度差值絕對值的最大值相似性度量-幾何距離-閔可夫斯基距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)12馬拉哈諾比斯距離:適用于衡量量綱存在顯著差異的樣本間的相似度實例展示:相似性度量-幾何距離-馬拉哈諾比斯距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)使用歐氏距離進(jìn)行聚類d1
將納入綠點使用馬拉哈諾比斯距離進(jìn)行聚類d2
將納入綠點d1d2d1d2d1<d2d1>d225~35℃40~90%40~90%可看作是歐氏距離的推廣取值差異過大13馬拉哈諾比斯距離計算示例:數(shù)據(jù)來源:7個房間同一天的室內(nèi)信息房間平均溫度(oC)平均相對濕度(%)房間123.969.0房間227.361.0房間325.170.1房間428.365.2房間526.267.0房間624.872.4房間727.766.5相似性度量-幾何距離-馬拉哈諾比斯距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)計算公式:樣本向量樣本矩陣的協(xié)方差矩陣14馬拉哈諾比斯距離計算示例:將表中數(shù)據(jù)寫入一個7×2的矩陣計算Xt的協(xié)方差矩陣S以及它的逆S-1:計算xi和xj之間的馬拉哈諾比斯距離相似性度量-幾何距離-馬拉哈諾比斯距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)15余弦距離:通過計算兩個樣本向量的夾角余弦值評估兩者相似度幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)相似性度量-幾何距離-余弦距離三個樣本計算公式實例展示:角α<角β→cos(α)>cos(β)→distS(x1
,x2)<
distS(x1
,x3)→x1與x2更相似相似不相似16余弦距離計算示例:余弦距離的計算公式房間1的室內(nèi)環(huán)境向量:x1=
(23.9,69)
房間2的室內(nèi)環(huán)境向量:x2=(27.3,61)x1與x2的余弦距離:幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)相似性度量-幾何距離-余弦距離17皮爾遜相關(guān)系數(shù):衡量兩個樣本之間的線性相關(guān)性取值∈(-1,1)
正值表示正相關(guān),負(fù)值表示負(fù)相關(guān)相似性度量-相關(guān)系數(shù)-皮爾遜相關(guān)系數(shù)幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)相關(guān)性強(qiáng)相關(guān)性弱18協(xié)方差Cov(Xi,Xj)標(biāo)準(zhǔn)差σXi*σXj皮爾遜相關(guān)系數(shù)計算示例:時間建筑1能耗(kW)建筑2能耗(kW)9:005.89.210:007.611.211:007.813.912:0010.414.813:008.915.614:005.911.515:004.19.2建筑1的能耗向量x1建筑1的能耗向量x2相似性度量-相關(guān)系數(shù)-皮爾遜相關(guān)系數(shù)相關(guān)系數(shù):19斯皮爾曼相關(guān)系數(shù):用途:衡量樣本之間的單調(diào)相關(guān)性幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)單調(diào)性與線性的區(qū)別:計算示例:房間1溫度房間2溫度滿足點調(diào)性不滿足線性原始樣本元素轉(zhuǎn)化為降序位置作差相似性度量-相關(guān)系數(shù)-斯皮爾曼相關(guān)系數(shù)20斯皮爾曼相關(guān)系數(shù)計算示例:時間建筑1能耗(kW)建筑1能耗降序位次建筑2能耗(kW)建筑2能耗降序位次9:005.869.26.510:007.6411.2511:007.8313.9312:0010.4114.8213:008.9215.6114:005.9511.5415:004.179.26.5相似性度量-相關(guān)系數(shù)-斯皮爾曼相關(guān)系數(shù)建筑2原始能耗向量x2,位次向量x2’
建筑1原始能耗向量x1,位次向量x1’
計算式:21相似性度量-總結(jié)相似性度量總結(jié):距離度量閔可夫斯基距離:基礎(chǔ)的距離指標(biāo),p值不同計算公式不同曼哈頓距離:折線距離歐氏距離:直線距離切比雪夫距離:橫向距離馬拉哈諾比斯距離:在閔可夫斯基距離的基礎(chǔ)上,消除了由于變量取值范圍不同造成的影響余弦距離:兩個樣本向量的夾角,與位置無關(guān)相關(guān)系數(shù)度量皮爾遜相關(guān)系數(shù):衡量線性相關(guān)性斯皮爾曼相關(guān)系數(shù):衡量正負(fù)相關(guān)性(包括線性與非線性相關(guān))22三個聚類簇23聚類性能評價如何用數(shù)學(xué)公式(或者程序流程)來定義什么是好的聚類?聚類性能評價:對聚類結(jié)果進(jìn)行評估內(nèi)部評價指標(biāo):根據(jù)聚類簇之間的相似度來評價聚類結(jié)果外部評價指標(biāo):根據(jù)聚類結(jié)果與真實結(jié)果進(jìn)行比較來評價聚類結(jié)果指標(biāo)分類:聚類性能評價24輪廓系數(shù)(SilhouetteCoefficient):對于一個樣本集合,它的輪廓系數(shù)是所有樣本輪廓系數(shù)的平均值。輪廓系數(shù)的取值范圍是[-1,1],同類別樣本距離越相近不同類別樣本距離越遠(yuǎn),分?jǐn)?shù)越高。聚類性能評價-內(nèi)部評價指標(biāo)-輪廓系數(shù)樣本i的輪廓系數(shù)計算式ai:樣本i與簇內(nèi)其他樣本的平均距離(圖中紅色線段長度的均值)bi:樣本i與其他簇樣本的平均距離(圖中綠色線段長度的均值)樣本i與其他簇樣本的距離i內(nèi)部評價指標(biāo):輪廓系數(shù)戴維森堡丁指數(shù)鄧恩指數(shù)外部評價指標(biāo)純度蘭德系數(shù)F值樣本i與簇內(nèi)其他樣本的距離25計算示例:使用輪廓系數(shù)評價聚類結(jié)果的好壞10個樣本的聚類結(jié)果如下評價指標(biāo)中樣本間距離計算均使用歐式距離房間平均溫度(oC)平均相對濕度(%)聚類簇房間137.868.61房間237.268.51房間336.769.91房間423.974.62房間522.876.12房間621.185.22房間720.081.72房間830.163.73房間928.367.13房間1027.865.23聚類性能評價-計算示例26輪廓系數(shù)計算示例:以聚類簇1中的樣本1為例:樣本1與同簇其他樣本的平均距離為:聚類性能評價-計算示例-輪廓系數(shù)與聚類簇2(C2)內(nèi)樣本的平均距離為:與聚類簇3(C3)內(nèi)樣本的平均距離為:與聚類簇2和3的平均距離的最小值為:樣本1的輪廓系數(shù):27所有樣本的輪廓系數(shù)計算結(jié)果樣本序號aibisi11.169.770.8821.059.180.8931.599.320.8346.9710.470.3355.7912.310.5367.9621.290.6376.0118.560.6883.308.920.6392.919.160.68102.3610.200.77聚類性能評價-計算示例-輪廓系數(shù)聚類結(jié)果的輪廓系數(shù)等于si列的平均值:28兩個聚類簇中心的距離:戴維森堡丁指數(shù)(Davies-bouldinIndex,DBI):該指標(biāo)用來衡量任意兩個簇的簇內(nèi)距離之后與簇間距離之比。該指標(biāo)越小表示簇內(nèi)距離越小,簇內(nèi)相似度越高,簇間距離越大,簇間相似度低。取值∈(0,∞),值越小聚類效果越好聚類性能評價-內(nèi)部評價指標(biāo)-戴維森堡丁指數(shù)簇內(nèi)樣本與簇中心距離,其均值:內(nèi)部評價指標(biāo):輪廓系數(shù)戴維森堡丁指數(shù)鄧恩指數(shù)外部評價指標(biāo)純度蘭德系數(shù)F值29計算示例:使用戴維森堡丁評價聚類結(jié)果的好壞10個樣本的聚類結(jié)果如下評價指標(biāo)中樣本間距離計算均使用歐式距離房間平均溫度(oC)平均相對濕度(%)聚類簇房間137.868.61房間237.268.51房間336.769.91房間423.974.62房間522.876.12房間621.185.22房間720.081.72房間830.163.73房間928.367.13房間1027.865.23聚類性能評價-計算示例30戴維森堡丁指數(shù)計算示例:各聚類簇的中心點:聚類性能評價-計算示例-戴維森堡丁指數(shù)每個聚類簇內(nèi)各樣本到該簇中心點的平均距離:31各聚類簇中心點之間的距離:聚類性能評價-計算示例-戴維森堡丁指數(shù)該聚類結(jié)果的戴維森堡丁指數(shù):32簇內(nèi)的最遠(yuǎn)距離:鄧恩指數(shù):(DunnIndex)如果一個簇的質(zhì)心與該簇中的點之間的距離很小,則意味著這些點彼此靠近。取值∈(0,∞),值越大聚類效果越好聚類性能評價-內(nèi)部評價指標(biāo)-鄧恩指數(shù)簇間的最近距離:內(nèi)部評價指標(biāo):輪廓系數(shù)戴維森堡丁指數(shù)鄧恩指數(shù)外部評價指標(biāo)純度蘭德系數(shù)F值33計算示例:使用鄧恩指數(shù)評價聚類結(jié)果的好壞10個樣本的聚類結(jié)果如下評價指標(biāo)中樣本間距離計算均使用歐式距離房間平均溫度(oC)平均相對濕度(%)聚類簇房間137.868.61房間237.268.51房間336.769.91房間423.974.62房間522.876.12房間621.185.22房間720.081.72房間830.163.73房間928.367.13房間1027.865.23聚類性能評價-計算示例34鄧恩指數(shù)指數(shù)計算示例:計算兩兩聚類簇樣本間距離的最小值,以聚類簇1和聚類簇2為例聚類簇1樣本序號聚類簇2樣本序號4567115.1416.7723.5522.10214.6316.2823.2021.68313.6415.2221.8520.45聚類性能評價-計算示例-鄧恩指數(shù)最小值不同簇樣本間的最小值:各聚類簇內(nèi)樣本間的最遠(yuǎn)距離:聚類結(jié)果的鄧恩指數(shù):35基本原理——聚類性能聚類性能總結(jié):內(nèi)部評價指標(biāo):僅從聚類結(jié)果的角度評價聚類效果輪廓系數(shù):范圍∈(-1~1),值越大聚類效果越好戴維森堡丁指數(shù):范圍∈(0~∞),值越小聚類效果越好鄧恩指數(shù):范圍∈(0~∞),值越大聚類效果越好外部評價指標(biāo):需要有標(biāo)準(zhǔn)的分類結(jié)果作參考純度蘭德系數(shù)F值36在能源領(lǐng)域,聚類任務(wù)的性能基本不采用外部評價指標(biāo)進(jìn)行評估,因此不再詳細(xì)展開介紹背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱37原型聚類原型:樣本空間中具有代表性的點簇中心的十字表示原型位置定義:原型聚類旨在找到一組能夠最大可能刻畫原始樣本分布的原型原理:隨機(jī)選取一組原型。然后對原型進(jìn)行迭代更新,直到得到一組穩(wěn)定的原型適用領(lǐng)域:不同類型的樣本間差異較大的任務(wù),如識別控制策略、區(qū)分運行狀態(tài)、劃分系統(tǒng)用能水平、揭示不同的用能行為代表算法:k-means算法、學(xué)習(xí)向量量化、高斯混合聚類原型38原型聚類聚類目標(biāo):最小化各簇內(nèi)的點與其原型間的歐氏距離之和39示例分析:基于k-means的建筑用能模式識別數(shù)據(jù)來源:某辦公建筑30個樣本數(shù)據(jù),樣本由2個維度組成聚類目的:揭露建筑不同室外溫度下的建筑用能模式樣本序號室外溫度(oC)建筑冷負(fù)荷(kW)014.961201115.891224………2930.178318量綱差異過大,聚類前需先進(jìn)行歸一化樣本序號室外溫度建筑冷負(fù)荷00.060.0410.110.05………290.930.9940示例分析:基于k-means的建筑用能模式識別不同聚類簇數(shù)量下聚類結(jié)果輪廓系數(shù)曲線基于k-means算法的建筑用能模式識別結(jié)果聚類數(shù)目∈(2,9)最佳輪廓系數(shù)三種常見的用能模式聚類步驟:確定聚類數(shù)量、分析聚類結(jié)果41背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱42密度聚類定義:基于密度的聚類簡稱密度聚類原型聚類結(jié)果與密度聚類結(jié)果的區(qū)別原理:根據(jù)樣本密度分布,將相鄰的樣本聚合到一起,形成多個聚類簇適用領(lǐng)域:密度聚類算法能夠發(fā)現(xiàn)任意形狀的聚類簇,具有更高的靈活性,常應(yīng)用于離群點異常檢測任務(wù)代表算法:DBSCAN、OPTICS、DENCLUE43密度聚類:DBSCAN算法基本概念:
ε鄰域:對某樣本點,以其為圓心,半徑為ε的領(lǐng)域MinPts=3
x3由x2密度直達(dá)x3由x1密度可達(dá)x3與x4密度相連ε鄰域噪聲核心對象:ε鄰域內(nèi)包含的樣本點數(shù)量大于等于某一閾值(MinPts)的樣本密度直達(dá):若樣本p是核心對象,樣本q在其ε鄰域內(nèi),則稱q由p密度直達(dá)密度可達(dá):若樣本p與q之間存在一組可連續(xù)密度直達(dá)的樣本,稱p與q密度可達(dá)密度相連:若存在樣本o使得p與q均由o密度可達(dá),稱p與q密度相連注:密度直達(dá)與密度可達(dá)均有方向,密度相連無方向核心對象44密度聚類:DBSCAN算法DBSCAN算法的步驟:DBSCAN算法流程圖DBSCAN將聚類簇的定義為最大的密度相連的樣本集合45示例分析:基于DBSCAN的建筑異常用能模式識別數(shù)據(jù)來源:某辦公建筑30個樣本數(shù)據(jù),聚類目的:找出該建筑的異常用能模式樣本序號室外溫度(oC)建筑冷負(fù)荷(kW)022.513165122.443182………2924.028318量綱差異過大,聚類前需先進(jìn)行歸一化樣本序號室外溫度建筑冷負(fù)荷00.080.2310.060.23………290.560.9046示例分析:基于DBSCAN的建筑異常用能模式識別綠色叉號:正常樣本點橙色圓形:異常用能點基于DBSCAN算法的建筑異常用能模式識別結(jié)果47示例分析:基于DBSCAN的建筑異常用能模式識別對比k-means算法和DBSCAN算法的差異僅能識別一個異常用能模式k-means算法聚類結(jié)果輪廓系數(shù)曲線基于k-means算法的建筑異常用能模式識別最佳輪廓系數(shù)正常用能模式異常用能模式48背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱49樣本的空間位置基于層次樹的聚類過程進(jìn)行可視化層次聚類定義:基于層次的聚類簡稱層次聚類原理:將每個樣本視作一個簇,不停合并最相似的兩個簇,直至收斂123123適用領(lǐng)域:需要可視化聚類過程的問題,應(yīng)用場景與原型聚類基本一致代表算法:AGNES、DIANA50層次聚類簇間距離計算方法:最小連接距離:兩個簇中距離最近的兩個樣本間的距離最大連接距離:兩個簇中距離最遠(yuǎn)的兩個樣本間的距離平均連接距離:兩個簇中所有樣本間的距離平均值最小連接距離最大連接距離平均連接距離51層次聚類:AGNES算法AGNES算法:采用自下向上的策略收斂條件:所有樣本都被劃分成一個簇聚類簇的數(shù)量等于某一閾值最相似的兩個簇之間的距離大于等于某一閾值A(chǔ)GNES算法流程圖123123樣本的空間位置基于層次樹的聚類過程進(jìn)行可視化52層次聚類:DIANA算法DIANA算法:采用自上向下的策略123基于層次樹的聚類過程進(jìn)行可視化123樣本的空間位置53示例分析:基于AGNES的區(qū)域供熱系統(tǒng)控制策略識別數(shù)據(jù)來源:某區(qū)域供熱系統(tǒng)熱源處采集的30個樣本數(shù)據(jù)聚類目的:識別該建筑的異常用能模式樣本序號供水溫度(oC)供水流量(kg/s)室外溫度(oC)094.10886.11-3.00194.00850.00-4.00…………2979.00850.4020.00量綱差異過大,聚類前需先進(jìn)行歸一化樣本序號供水溫度供水流量室外溫度00.940.530.1510.940.120.11…………290.300.121.0054示例分析:基于AGNES的區(qū)域供熱系統(tǒng)控制策略識別AGNES生成的層次樹1234聚類順序(倒數(shù))5聚類簇1聚類簇2聚類簇3根據(jù)經(jīng)驗可劃分為三個聚類簇層次聚類結(jié)果展示55示例分析:基于AGNES的區(qū)域供熱系統(tǒng)控制策略識別基于AGNES的區(qū)域供熱系統(tǒng)熱源控制策略識別結(jié)果室外溫度降低供水溫度升高通過調(diào)整供水溫度來增加供熱量稱作“質(zhì)調(diào)節(jié)”56背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱57關(guān)聯(lián)規(guī)則起源美國中西部的一家連鎖店發(fā)現(xiàn),男人們會在周四購買尿布和啤酒。這樣商店可以將尿布與啤酒放在一塊,以確保在周四全價銷售從而獲利典型的例子是購物籃分析,從大量的訂單中發(fā)現(xiàn)商品潛在的關(guān)聯(lián)聚類算法當(dāng)前的相似性度量難以有效量化高維變量之間的相關(guān)性,無法自動抽取出有效變量,因此對能源領(lǐng)域的復(fù)雜數(shù)據(jù)挖掘場景無法適用58關(guān)聯(lián)規(guī)則定義關(guān)聯(lián)規(guī)則挖掘算法被廣泛用于高維變量的數(shù)據(jù)挖掘任務(wù),其核心思想為通過遍歷所有可能發(fā)現(xiàn)其中存在強(qiáng)相關(guān)性的變量組合。項(i)是關(guān)聯(lián)規(guī)則挖掘中的最小分析單元,通常為變量本身或者變量和數(shù)值的組合。通??捎肐={i1,i2,…,im}表示項的全集。e.g“冷水機(jī)組”或“冷水機(jī)組出水溫度7.1oC”
e.g.
{“冷機(jī)功率653.1kW”,“冷機(jī)冷凍出水溫度6.9oC”,“冷機(jī)冷凍回水
溫度12.3oC”}事務(wù)(T)是關(guān)聯(lián)規(guī)則挖掘中數(shù)據(jù)庫的最小采樣單元,通常為多個項的集合(T?I)。D={T1,T2,…,Tn}表示數(shù)據(jù)挖掘任務(wù)的事務(wù)集合。
e.g
{“冷機(jī)功率653.1kW”}→{“冷機(jī)冷凍出水溫度6.9oC”,“冷機(jī)冷凍回水溫度12.3oC”}
59關(guān)聯(lián)規(guī)則定義,
項集I={milk,bread,butter,beer,diapers}{butter,bread}?{milk}是一條關(guān)聯(lián)規(guī)則,表示如果butter和bread同時被購買了,milk也會被購買。每一個條目中,1表示項出現(xiàn)在相應(yīng)的事務(wù)中,0表示項沒有出現(xiàn)在事務(wù)中。練習(xí)在實際應(yīng)用中,數(shù)據(jù)庫通常包含成千上萬的事務(wù),一條規(guī)則需要上百個事務(wù)的支持才能被認(rèn)為是統(tǒng)計顯著的。60關(guān)聯(lián)規(guī)則屬性
支持度(support)是一種衡量關(guān)聯(lián)規(guī)則重要程度的指標(biāo)。關(guān)聯(lián)規(guī)則“A→B”的支持度為事務(wù)集D中A和B同時存在的事務(wù)T所占的比例。為了從所有可能的規(guī)則集中選出有用的規(guī)則需要用到各種性能指標(biāo),如:支持度、置信度、提升度、重要度、興趣度等。置信度(confidence)是一種衡量關(guān)聯(lián)規(guī)則可信程度的指標(biāo)。關(guān)聯(lián)規(guī)則“A→B”的置信度為事務(wù)集D中同時包含A和B的事務(wù)占只包含A的事務(wù)的比例。支持度范圍介于0%~100%之間,某關(guān)聯(lián)規(guī)則的支持度越大,則該規(guī)則在事務(wù)集合中出現(xiàn)的概率越大。反之,該規(guī)則出現(xiàn)的概率越小。置信度范圍介于0%至100%之間,某關(guān)聯(lián)規(guī)則的置信度越大,則該規(guī)則的結(jié)論與前提之間的相關(guān)性越強(qiáng)。反之,該規(guī)則的結(jié)論與前提之間的相關(guān)性越弱。61關(guān)聯(lián)規(guī)則屬性,
關(guān)聯(lián)規(guī)則{“冷機(jī)功率1200-1300kW”}→{“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”}練習(xí):事務(wù)序號事務(wù)內(nèi)容1“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”2“冷機(jī)功率1100-1200kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度11-12oC”3“冷機(jī)功率1600-1700kW”,“冷機(jī)冷凍出水溫度8-9oC”,“冷機(jī)冷凍回水溫度9-10oC”4“冷機(jī)功率1100-1200kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”5“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”6“冷機(jī)功率1600-1700kW”,“冷機(jī)冷凍出水溫度6-7oC”,“冷機(jī)冷凍回水溫度9-10oC”7“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”8“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度10-11oC”9“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”10“冷機(jī)功率1100-1200kW”,“冷機(jī)冷凍出水溫度6-7oC”,“冷機(jī)冷凍回水溫度9-10oC”支持度計算:統(tǒng)計該關(guān)聯(lián)規(guī)則在事務(wù)集合中出現(xiàn)的次數(shù):4次(事務(wù)1,5,7和9)該關(guān)聯(lián)規(guī)則的支持度等于該規(guī)則出現(xiàn)次數(shù)4除以事務(wù)總數(shù)10,即support=40%。置信度計算:統(tǒng)計該關(guān)聯(lián)規(guī)則前提{“冷機(jī)功率1200-1300kW”}在事務(wù)集合中出現(xiàn)的次數(shù):5次(事務(wù)1,5,7,8和9)。統(tǒng)計該關(guān)聯(lián)規(guī)則在事務(wù)集合中出現(xiàn)的次數(shù):4次(事務(wù)1,5,7和9)。該關(guān)聯(lián)規(guī)則的置信度等于該關(guān)聯(lián)規(guī)則在事務(wù)集合中出現(xiàn)的次數(shù)4除以前提在事務(wù)集合中出現(xiàn)的次數(shù)5,即confidence=80%。62關(guān)聯(lián)規(guī)則屬性
強(qiáng)/弱關(guān)聯(lián)規(guī)則依據(jù)支持度閾值和置信度的閾值進(jìn)行區(qū)分。例3-9:設(shè)支持度閾值0.8,置信度閾值0.9。關(guān)聯(lián)規(guī)則1-3的支持度和置信度分別為0.85和0.95、0.25和0.55、0.45和0.95。答:關(guān)聯(lián)規(guī)則1為強(qiáng)關(guān)聯(lián)規(guī)則;關(guān)聯(lián)規(guī)則2、3為弱關(guān)聯(lián)規(guī)則(非)頻繁項集、頻繁項依據(jù)支持度閾值區(qū)分。頻繁項集兩個重要的性質(zhì)性質(zhì)1:頻繁項集的所有非空子集也是頻繁的性質(zhì)2:非頻繁項集的所有超集也是非頻繁的例3-10:設(shè)支持度閾值為60%。項{“冷機(jī)冷凍出水溫度7-8oC”}支持度為70%,大于支持度閾值,是頻繁項。項集{“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”}支持度為50%,小于支持度閾值,不是頻繁項集。關(guān)聯(lián)規(guī)則挖掘的步驟:(1)找出事務(wù)集合中所有的頻繁項集
(2)由頻繁項集組成強(qiáng)關(guān)聯(lián)規(guī)則。63背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱64Apriori算法
1.設(shè)支持度閾值為50%,置信度閾值為80%。2.生成所有1項集的集合構(gòu)成候選1項集,并構(gòu)成頻繁1項集的集合。3.對頻繁1項集的集合進(jìn)行連接,生成候選2項集的集合。對候選2項集的集合進(jìn)行剪枝和遍歷計數(shù),產(chǎn)生頻繁2項集的集合。4.判斷頻繁2項集的集合是否為空集,若為空集則停止迭代,若不為空集則進(jìn)入迭代(k=k+1)。65Apriori算法
5.k=2,因此對所有頻繁2項集進(jìn)行連接,生成候選3項集的集合。對候選3項集的集合進(jìn)行剪枝,產(chǎn)生頻繁3項集的集合。
8.根據(jù)每個頻繁項集生成關(guān)聯(lián)規(guī)則。66Apriori算法
通過“自底向上”的逐層搜索策略對事務(wù)集合進(jìn)行遍歷以生成強(qiáng)關(guān)聯(lián)規(guī)則。其兩大核心:“連接”和“剪枝”
67基于Apriori的冷機(jī)控制策略識別
采用Apriori算法對以上25個樣本進(jìn)行關(guān)聯(lián)規(guī)則挖掘以揭示該冷機(jī)的冷凍閥控制策略和出水溫度設(shè)定點。練習(xí):樣本序號采樣時間冷機(jī)啟停冷凍閥啟停冷凍水出水溫度(oC)010/3016:20OffOff15.42110/3016:30OffOff15.43210/3016:40OffOn11.96310/3016:50OnOn8.16410/3017:00OnOn7.68510/3017:10OnOn7.58610/3017:20OnOn7.51710/3017:30OnOn7.51810/3017:40OnOn7.51910/3017:50OnOn7.511010/3018:00OnOn7.511110/3018:10OnOn7.521210/3018:20OnOn7.511310/3018:30OnOn7.491410/3018:40OnOn7.521510/3018:50OnOn7.511610/3019:00OnOn7.521710/3019:10OffOff9.31810/3019:20OffOff9.61910/3019:30OffOff10.032010/3019:40OffOff10.472110/3019:50OffOff10.792210/3020:00OffOff11.132310/3020:10OffOff11.472410/3020:20OffOff11.79由于Apriori算法僅對分類型變量有效,而表中的冷凍水出水溫度為連續(xù)型變量。因此,需要對冷凍水出水溫度進(jìn)行離散化,本例采用等寬法將該變量的數(shù)值劃分到間隔為1oC的區(qū)間。同時,為便于理解,將部分變量名直接與其采樣值進(jìn)行拼接。例如若冷機(jī)啟停的采樣值為On,可以將其被轉(zhuǎn)換為“冷機(jī)On”。轉(zhuǎn)換后的冷機(jī)運行數(shù)據(jù)見表3-21。68基于Apriori的冷機(jī)控制策略識別
69基于Apriori的冷機(jī)控制策略識別
支持度和置信度的閾值分別設(shè)置為40%和90%。70基于Apriori的冷機(jī)控制策略識別
最終得到的所有頻繁項集見表3-22。由頻繁項集生成的強(qiáng)關(guān)聯(lián)規(guī)則見表3-23。揭示出冷凍閥門的控制策略和冷凍出水溫度的設(shè)定點:1)根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則0和5:冷凍閥門隨冷機(jī)的啟動而打開,隨冷機(jī)的停機(jī)而關(guān)閉。2)根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則8:冷機(jī)的冷凍出水溫度設(shè)定點介于7-8oC之間。71背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱72頻繁模式增長算法
Apriori算法本質(zhì)是時間換空間,在計算的過程中有以下缺點:可能產(chǎn)生大量的候選集。因為采用排列組合的方式,把可能的項集都組合出來了;每次計算都需要重新掃描數(shù)據(jù)集,來計算每個項集的支持度。Han等提出了FP-Growth算法(空間換時間):只進(jìn)行2次數(shù)據(jù)庫掃描;無候選集;直接壓縮數(shù)據(jù)庫成?個頻繁模式樹FP-tree;通過這棵樹生成關(guān)聯(lián)規(guī)則相比Apriori算法的重復(fù)掃描,它具有更高的計算效率(約快1個數(shù)量級)。73頻繁模式增長算法
1.設(shè)置支持度閾值為40%,置信度閾值為80%。2.遍歷事務(wù)集合,找出所有項并計算它們在事務(wù)集合中的支持度,找出所有支持度大于或等于支持度閾值的項,構(gòu)成頻繁項的集合。假想事務(wù)集合的項見表3-25,其中的頻繁項見表3-26。74頻繁模式增長算法3.掃描原始事務(wù)集合,對每個事務(wù)創(chuàng)建根節(jié)點下的一個分支,最終組成一棵FP-tree。4.按頻繁項的支持度,由低到高依次生成對應(yīng)的條件FP-tree并對它進(jìn)行挖掘。為方便遍歷,通??梢詣?chuàng)建一個降序排序的頻繁項項頭表,每個頻繁項通過節(jié)點鏈連接FP-tree中的一個或多個節(jié)點。75頻繁模式增長算法
76頻繁模式增長算法
5.輸出所有頻繁項集。6.根據(jù)每個頻繁項集生成關(guān)聯(lián)規(guī)則,生成過程參照Apriori算法的第八步。77基于FP-growth的教室照明能源浪費行為識別
采用FP-growth算法對以上24個樣本進(jìn)行關(guān)聯(lián)規(guī)則挖掘,以旨在揭示該教室在使用過程中的照明能源浪費行為。練習(xí):78基于FP-growth的教室照明能源浪費行為識別
使用FP-growth算法對表中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘。支持度和置信度的閾值分別設(shè)置為30%和90%。79基于FP-growth的教室照明能源浪費行為識別
構(gòu)建“課程有”的條件FP-tree并進(jìn)行遞歸挖掘,得到頻繁項集。構(gòu)建“房間空閑”的條件FP-tree進(jìn)行遞歸挖掘,得到頻繁項集。80基于FP-growth的教室照明能源浪費行為識別
構(gòu)建“時間段晚上”的條件FP-tree并進(jìn)行遞歸挖掘得到頻繁項集。構(gòu)建“燈光開啟”的條件FP-tree進(jìn)行遞歸挖掘,得到頻繁項集。81基于FP-growth的教室照明能源浪費行為識別
構(gòu)建“燈光關(guān)閉”的條件FP-tree并進(jìn)行遞歸挖掘得到頻繁項集?!胺块g占用”的條件模式基不存在頻繁項,因此不存在條件FP-tree,其頻繁項集只有它本身。82基于FP-growth的教室照明能源浪費行為識別
“課程無”不存在條件模式基,其頻繁項集只有它本身。最終得到的所有頻繁項集見表3-40。由頻繁項集生成的強(qiáng)關(guān)聯(lián)規(guī)則見表3-41.83基于FP-growth的教室照明能源浪費行為識別
最終的關(guān)聯(lián)規(guī)則中應(yīng)該含有時間段、房間占用情況、課程和燈光的取值情況。時間段、房間占用情況和課程直接導(dǎo)致燈光開啟與否。因此,這三個變量應(yīng)該包含在前提中,而燈光應(yīng)該包含在結(jié)論中。符合這一條件的強(qiáng)關(guān)聯(lián)規(guī)則僅有一條,即關(guān)聯(lián)規(guī)則22。84背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱85關(guān)聯(lián)規(guī)則應(yīng)用案例[1]ZhangC,XueX,ZhaoY,ZhangX,LiT.Animprovedassociationrulemining-basedmethodforrevealingoperationalproblemsofbuildingheating,ventilationandairconditioning(HVAC)systems.ApplEnergy2019;253./10.1016/j.apenergy.2019.113492.[2]ZhangC,ZhaoY,ZhangX.AnAssociationRule-BasedOnlineDataAnalysisMethodforImprovingBuildingEnergyEfficiencyBT-Proceedingsofthe11thInternationalSymposiumonHeating,VentilationandAirConditioning(ISHVAC2019).In:WangZ,ZhuY,WangF,WangP,ShenC,LiuJ,editors.,Singapore:SpringerSingapore;2020,p.375–83.DiscoveringabnormaloperationpatternsofHVACsystemsusingAssociationRule86136measuredvariablesforchillerplants5minutessamplinginterval40thousandmeasurementsperday14millionmeasurementsperyearAHVACsysteminacommercialcenterinShenzhen(chillerplants)Valuableinformation?項目簡介87The
dataismeasuredfromthechillerplantsoftheHVACsysteminacommercialcenterinShenzhen,China.項目簡介88136measuredvariables:TemperatureHumidityPowerFrequencyControlsignalDataproblem:MissingvaluesOutliers……項目簡介89TransactionIDItemsT1beef,chicken,milk,cheeseT2beef,cheeseT3beef,cheese,bootT4beef,chicken,cheeseT5beef,chicken,cheese,milkT6chicken,clothes,milkCan
betheassociationruleminingusedtotheoperationdataoftheHVACsystem?NumericalCategoricalTransformthenumericalmeasurementsintocategoricalmeasurements.數(shù)據(jù)轉(zhuǎn)換90ThedatatransformationmethodTimeTSCOW2016/3/10:0918.92016/3/11:0918.82016/3/12:0918.8……2016/9/42:5029.62016/9/42:5529.62016/9/43:0029.6……DensitySupplycoolingwatertemperature(℃)ProbabilitydensityfunctionThe
probability
that
thetemperatureis30℃is14%.
Statisticalmethod數(shù)據(jù)轉(zhuǎn)換91ThedatatransformationmethodDensitySupplycoolingwatertemperature(℃)CharacteristicsoftheprobabilitydestinyfunctionPeaksandvalleysareexisted.Thedestinyofsomemeasurementsisverysmall.Somepeaksmaybecausedbynoises.PeakValleyOutliersNoise
Transformthemeasurementsaroundthesamepeakintothesameform.數(shù)據(jù)轉(zhuǎn)換92ThedatatransformationmethodDensitySupplycoolingwatertemperature(℃)CharacteristicsoftheprobabilitydestinyfunctionPeaksandvalleysareexisted.Thedestinyofsomemeasurementsisverysmall.Somepeaksmaybecausedbynoises.
Transformthemeasurementsaroundthesamepeakintothesameform.DeletetheoutliersDatacategoryCategory1Category2Category3Category4CategorymergingCategory3數(shù)據(jù)轉(zhuǎn)換93TheresultforatypicalcontinuousvariableTimeTSCOW……2016/3/1611:0515.5……2016/3/2016:1920.9……2016/9/42:5529.6……TSCOW…TSCOW,OTCT
_8.9_18.4…TSCOW,OTCT
_18.4_23.1…TSCOW,OTCT
_23.1_33.0…OriginaldataTransformeddataDatatransformationSupplycoolingwatertemperatureTSCOW(℃)Density15.520.929.6SupplycoolingwatertemperatureTSCOW數(shù)據(jù)轉(zhuǎn)換94TheresultforatypicalnoncontinuousvariableTimeFCHWP4……2016/3/19:0144.7……2017/3/1812:4035.4……2016/8/1417:350……2016/9/69:2541……OriginaldataTransformeddataDatatransformationFCHWP4(Hz)DensityFrequencyofthefourthchilledwaterpumpFCHWP4FCHWP4…FCHWP4_44.7_45.6…FCHWP4_34.9_36.0…FCHWP4_0.0_1.7…FCHWP4_39.9_42.2…035.444.741數(shù)據(jù)轉(zhuǎn)換95Totalknowledge:2514one-to-onerules({onevariable}{onevariable})AbnormalpatternofHVACsystems=InterestingruleChiller1Chiller2Chiller3Chiller46.1℃12.1℃6.2℃8.4℃6.5℃11.9℃5.9℃12.9℃規(guī)則挖掘96Only1411
rules(56%ofthetotalrules)areleft.…TSCHW,
C1
_5.9_8.3TRCHW,
C1
_11.9_13.4TSCHW,
C2
_5.7_7.6TRCHW,
C2
_8.1_10.1TSCHW,
C3
_6.1_8.7TRCHW,
C3
_10.9_13.5TSCHW,
C4
_6.0_8.5TRCHW,
C4
_11.2_13.9…………PC1
_27.1_37.4TSCHW,
C1
_5.9_8.3FCHWP1
_40.1_41.4FCHWP2
_41.1_42.1TSCOW1
_12.1_15.7TRCOW1
_17.1_20.2TSCHW,
C1
_5.9_8.3TRCHW,
C1
_11.9_13.4TSCHW,
C2
_5.7_7.6TRCHW,
C2
_8.1_10.1TSCHW,
C3
_6.1_8.7TRCHW,
C3
_10.9_13.5TSCHW,
C4
_6.0_8.5TRCHW,
C4
_11.2_13.90.250.390.320.870.760.85TSCHW,
C1
_0.07_0.87TRCHW,
C1
_0.66_0.91TSCHW,
C2
_0_0.63TRCHW,
C2
_0_0.34TSCHW,
C3
_0.13_1TRCHW,
C3
_0.48_0.93TSCHW,
C4
_0.1_0.93TRCHW,
C4
_0.53_1Associationrules規(guī)則挖掘97supplychilledwatertemperaturereturnchilledwatertemperatureAbnormalpattern1:Thesupplychilledwatertemperatureishigherthanthereturnwatertemperatureforthethirdandfourthchillers.TRCHW,CC3&4_4.8_8.6TSCHW,CC3&4_11.5_19.6AbnormalruleNormalruleTRCHW,CC1&2_6.4_12.6TSCHW,CC1&2_4.6
_9.7returnchilledwatertemperaturesupplychilledwatertemperatureTheresultsoftheruleextractionmethod規(guī)則挖掘98Abnormalpattern2:Thereturnchilledwatertemperatureoftheseconddistrictisusuallyhigherthanthatofthefirstdistrict.TRCHW,D1_8.8_14.0TRCHW,D2_11.2
_21.5AbnormalruleNormalruleTRCHW,D1_8.8_14.0TRCHW,D3_8.6
_13.3returnchilledwatertemperatureoftheseconddistrictreturnchilledwatertemperatureofthefirstdistrictreturnchilledwatertemperatureofthethirddistrictTheresultsoftheruleextractionmethod規(guī)則挖掘99背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱100引言無監(jiān)督學(xué)習(xí)本身不具有解釋知識的能力,需要借助專家的工程經(jīng)驗對無監(jiān)督學(xué)習(xí)得到的知識進(jìn)行深度解讀后,才能提取出知識背后的價值。能源領(lǐng)域常用的三種知識后挖掘方法:知識可視化、知識降維、知識篩選。聚類:散點圖、折線圖、熱圖、箱型圖和小提琴圖;關(guān)聯(lián)規(guī)則挖掘:因為規(guī)則本身具有可解釋性,因此一般不需要對其進(jìn)行可視化;關(guān)聯(lián)規(guī)則的數(shù)量巨大,進(jìn)行可視化十分困難。知識降維常用于對高維空間中的聚類結(jié)果進(jìn)行可視化,通過線性或非線性映射將高維空間的聚類結(jié)果映射到低維空間。知識篩選通過預(yù)先設(shè)定準(zhǔn)則,自動剔除海量知識中的無用知識,大幅提高知識的價值濃度,助力專家實現(xiàn)更高效和更精準(zhǔn)的知識解讀。101聚類后挖掘-聚類結(jié)果可視化散點圖:聚類結(jié)果可視化的首選,可以顯示二維和三維樣本在空間中的分布情況。102聚類后挖掘-聚類結(jié)果可視化箱型圖:對不同維度聚類結(jié)果單獨進(jìn)行可視化。中位數(shù)和上下四分位數(shù)需要通過對樣本進(jìn)行升序排序得到,排在第25%、第50%、第75%的數(shù)稱為下四分位數(shù)(Q1)、中位數(shù)(Q2)和上四分位數(shù)(Q3)。四分位距IQR=Q3-Q1,上邊緣(Q3+1.5IQR)和下邊緣(Q3-1.5IQR)。上下邊緣并非最大最小值,而是通過大量統(tǒng)計實驗得到的正常樣本范圍,超出這一范圍的樣本通常為異常值。103聚類后挖掘-聚類結(jié)果可視化表3-42為35個住宅建筑的年分項用電負(fù)荷。每個建筑記錄了6項用電負(fù)荷。1)由于表中不同用電負(fù)荷取值范圍之間差異較大,在聚類前需要對表中數(shù)據(jù)進(jìn)行最大最小歸一化。2)使用k-means算法對表中的住宅分項用能負(fù)荷進(jìn)行聚類,旨在揭示不同建筑的用能特征。3)根據(jù)輪廓系數(shù)對聚類數(shù)進(jìn)行優(yōu)化,最佳聚類數(shù)為3,最終的聚類結(jié)果見右表。練習(xí):104聚類后挖掘-聚類結(jié)果可視化基于箱型圖,可以很直觀地看出不同聚類簇中的分項用電負(fù)荷高低。105聚類后挖掘-聚類結(jié)果可視化小提琴圖:展示了變量在任意取值位置出的密度(箱型圖的一種改進(jìn))。小提琴圖在展示分位數(shù)位置的同時,也展示了變量在不同取值時的出現(xiàn)頻率。相較于箱型圖,小提琴圖可以提供更詳細(xì)的數(shù)據(jù)分布信息。106聚類后挖掘-聚類結(jié)果可視化折線圖:時序樣本的聚類任務(wù)表3-43為某辦公建筑14天的小時冷負(fù)荷數(shù)據(jù)。使用k-means算法對表中的日負(fù)荷曲線進(jìn)行聚類。根據(jù)輪廓系數(shù)對聚類數(shù)進(jìn)行優(yōu)化,最佳聚類數(shù)為2。9/2、9/3、9/9和9/10的日負(fù)荷曲線被歸為聚類簇1,其余負(fù)荷曲線歸為聚類簇2。練習(xí):107聚類后挖掘-聚類結(jié)果可視化聚類簇1冷負(fù)荷曲線顯著低于聚類簇2:由于聚類簇1中的冷負(fù)荷曲線采集自周末,而聚類簇2中冷負(fù)荷曲線采集自工作日。部分員工周末不上班,因此周末的冷負(fù)荷顯著低于工作日。108聚類后挖掘-聚類結(jié)果可視化熱圖:時序樣本聚類結(jié)果的同時使用顏色深淺來表示目標(biāo)變量數(shù)值高低。使用熱圖對表3-43中數(shù)據(jù)的聚類結(jié)果進(jìn)行可視化。練習(xí):相比折線圖3-35,熱圖3-36和3-37還可以呈現(xiàn)出不同日期的冷負(fù)荷分布,因此能夠反映更多信息。但是熱圖不如折線圖直觀,可讀性較差。109聚類后挖掘-聚類結(jié)果降維t-SNE的基本思想是保證高維空間中距離相近的樣本映射到低維空間時距離也相近。降維后的聚類結(jié)果損失原有聚類變量物理意義,所以僅能提供聚類結(jié)果的可視化圖表無法進(jìn)行解釋。1.設(shè)存在N個高維聚類樣本,構(gòu)建之間的概率分布P。110聚類后挖掘-聚類結(jié)果降維2.設(shè)存在N個低維(通常為二維或三維),它們的概率分布Q如下式所示:3.使用梯度下降算法最小化低維分布Q與高維分布P之間的KL散度。KL散度定義如下:使用t-SNE對表3-40中數(shù)據(jù)的聚類結(jié)果進(jìn)行降維,維度設(shè)置為2。練習(xí):111背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱112關(guān)聯(lián)規(guī)則后挖掘
基于變量約束的篩選若分析人員對知識目標(biāo)明確,可以人為對關(guān)聯(lián)規(guī)則前提和結(jié)論的變量進(jìn)行約束僅適用于變量組合數(shù)較少,不適用于變量組合數(shù)巨大的關(guān)聯(lián)規(guī)則挖掘任務(wù)?;谠u價指標(biāo)的篩選提升度(lift)能夠反映前提A對結(jié)論B出現(xiàn)概率的提升作用,從而判斷兩者是否存在相關(guān)性。通常認(rèn)為提升度大于1的關(guān)聯(lián)規(guī)則更有價值。關(guān)聯(lián)規(guī)則為{“冷機(jī)功率1200-1300kW”}→{“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”}
練習(xí):答:1.計算該關(guān)聯(lián)規(guī)則的結(jié)論在前提條件下的發(fā)生概率,可知發(fā)生概率為4/5=80%。2.計算該關(guān)聯(lián)規(guī)則的結(jié)論,可知它在事務(wù)集中的發(fā)生概率為5/10=50%。3.該關(guān)聯(lián)規(guī)則的提升度等于上述兩個概率的比值,即lift=80%/50%=1.6。113通過聚類等算法,分析建筑運行數(shù)據(jù),發(fā)現(xiàn)典型工況提交說明文檔和代碼文件:說明文檔需介紹使用的聚類方法和關(guān)鍵細(xì)節(jié),模型的輸入,最終結(jié)論等(展示發(fā)現(xiàn)的典型工況并作出解釋)課后作業(yè)歡迎交流!監(jiān)督學(xué)習(xí)方法上能源系統(tǒng)大數(shù)據(jù)分析理論與實踐第四節(jié)116背景能源預(yù)測是指對各種能源的需求量及其比例關(guān)系的未來狀況的推測。能源預(yù)測的主要內(nèi)容有:煤炭、石油、天然氣、薪柴、核電等各種能源的未來需求量各種能源需求量之間的比例關(guān)系生活能耗和生活人均能耗…能源預(yù)測按供需關(guān)系分,包括能源需求預(yù)測和能源供應(yīng)預(yù)測兩個方面。前者是根據(jù)社會和國民經(jīng)濟(jì)發(fā)展目標(biāo),經(jīng)濟(jì)結(jié)構(gòu)的調(diào)整,科學(xué)技術(shù)的進(jìn)步,能源價格的趨勢以及消費方式的變化估計未來規(guī)劃年份國民經(jīng)濟(jì)各部門所需要的能源數(shù)量及能源品種的構(gòu)成;后者是根據(jù)能源資源可獲得性及其開發(fā)利用的工藝技術(shù)條件,能源價格的趨勢和能源投資與外貿(mào)的前景,預(yù)測未來規(guī)劃年份能源分品種的供應(yīng)量及能源供應(yīng)的技術(shù)構(gòu)成。背景通過能源預(yù)測,可以建立能源消耗與環(huán)境保護(hù)之間的關(guān)系,結(jié)合環(huán)境保護(hù)要求,有針對性地調(diào)整能源結(jié)構(gòu)和工業(yè)布局,達(dá)到經(jīng)濟(jì)與環(huán)境的協(xié)調(diào)發(fā)展。對建筑能耗進(jìn)行可靠的預(yù)測是實現(xiàn)建筑能耗管理任務(wù)的重要基礎(chǔ),包括:能耗異常發(fā)現(xiàn)故障檢測與診斷需求側(cè)管理控制優(yōu)化運行能源規(guī)劃調(diào)度…背景基于物理模型的方法利用建筑本身的物理特性和傳熱原理,通過仿真軟件建立建筑的熱力學(xué)模型來模擬建筑實際運行中的能耗過程,從而實現(xiàn)準(zhǔn)確的能耗預(yù)測。目前應(yīng)用最多的物理建模軟件有EnergyPlus、TRNSYS、DeST等。在利用熱力學(xué)原理建立理想化的建筑運行模型時,需要輸入大量的建筑參數(shù)和環(huán)境參數(shù),建模時間成本較高。同時,由于實際工程中不同建筑的建筑參數(shù)和環(huán)境參數(shù)均不相同,每一棟建筑都需要重新建立物理模型來進(jìn)行能耗預(yù)測。背景建筑能耗預(yù)測方法可分為兩類:基于物理模型的方法和數(shù)據(jù)驅(qū)動的方法基于數(shù)據(jù)驅(qū)動的方法通過對歷史數(shù)據(jù)的挖掘來實現(xiàn)對建筑能耗的預(yù)測。該方法摒棄了物理建模大量參數(shù)輸入的弊端,將收集到的建筑能耗相關(guān)數(shù)據(jù)作為輸入,對應(yīng)的能耗作為輸出,訓(xùn)練得到對應(yīng)的數(shù)據(jù)驅(qū)動的能耗預(yù)測模型,該建模方式比較簡潔且預(yù)測精度高,在建立好算法模型后便可依據(jù)建筑相關(guān)數(shù)據(jù)來進(jìn)行預(yù)測,增加了模型的可復(fù)制性。常見的數(shù)據(jù)驅(qū)動方法有:人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)支持向量機(jī)(SupportVectorMachine,SVM)決策樹(DecisionTree,DT)…背景122提綱總論特征工程模型選擇與優(yōu)化模型評價方法模型解讀監(jiān)督學(xué)習(xí)基礎(chǔ)概念監(jiān)督學(xué)習(xí)通過學(xué)習(xí)若干輸入變量的協(xié)同關(guān)系對輸出變量進(jìn)行預(yù)測。根據(jù)輸出變量的數(shù)據(jù)類型,可以分為回歸模型和分類模型;監(jiān)督學(xué)習(xí)包含各類統(tǒng)計和機(jī)器學(xué)習(xí)建模算法,常見算法包括:在實踐中并非采用越復(fù)雜的監(jiān)督學(xué)習(xí)算法效果越好,應(yīng)從數(shù)據(jù)源質(zhì)量、計算能力和解讀需求等多角度出發(fā)選擇最合適的算法。Output人工神經(jīng)網(wǎng)絡(luò)支持向量回歸123能源領(lǐng)域典型應(yīng)用場景監(jiān)督學(xué)習(xí)算法典型能源應(yīng)用場景:124典型能源應(yīng)用場景實例——故障診斷與檢測建筑系統(tǒng)在運行過程中存在多種故障,會導(dǎo)致室內(nèi)溫度失調(diào)、空氣品質(zhì)降低、設(shè)備能耗增加等問題,嚴(yán)重時甚至?xí)l(fā)安全事故:冷媒循環(huán)回風(fēng)溫度傳感器溫度傳感器表冷器壓縮機(jī)膨脹閥蒸發(fā)器冷卻塔冷凝器送風(fēng)放熱吸熱放熱末端(空氣-空氣)冷水機(jī)組(水-制冷劑-水)新風(fēng)排風(fēng)空氣處理機(jī)組(水-空氣)7種主要隱性故障制冷劑泄漏存在不凝結(jié)氣體冷凝器結(jié)垢冷卻水流量過少制冷劑充注過多冷凍水流量過少蒸發(fā)器結(jié)垢
68種故障新風(fēng)風(fēng)閥故障混風(fēng)風(fēng)閥故障表冷器閥門故障加熱器閥門故障…10種故障風(fēng)閥閥門故障流量傳感器故障溫度傳感器故障控制器故障…125典型能源應(yīng)用場景實例——故障診斷與檢測根據(jù)美國RP-1403項目調(diào)研,冷水機(jī)組典型故障可以總結(jié)為7類,運行中往往難以察覺:冷卻水不足制冷劑充注過量不凝性氣體冷凝器結(jié)垢16.2%21.3%20.0%8.2%制冷劑泄露蒸發(fā)器結(jié)垢126典型能源應(yīng)用場景實例——故障診斷與檢測據(jù)美國RP-1312項目統(tǒng)計,一個典型的AHU中共有68類故障[1]:6個受控設(shè)備有25類故障5個設(shè)備中有11類故障8個控制器中有8類故障12個傳感器中有24類故障案例:阿姆斯特丹博物館AHU故障冷卻盤管閥持續(xù)處于最大開度,熱水負(fù)荷抵消了冷水負(fù)荷。室內(nèi)環(huán)境溫度沒有受到影響,持續(xù)三周后才被發(fā)現(xiàn),浪費了大量的能源冷負(fù)荷熱負(fù)荷[1]J.WenandS.Li,2011.ASHRAE1312-RP:ToolsforEvaluatingFaultDetectionandDiagnosticMethodsforAir-HandlingUnits-Finalreport,DrexelUniversity,PA,UnitedStates.127典型能源應(yīng)用場景實例——故障診斷與檢測[1]J.Y.Qin,S.W.Wang,AfaultdetectionanddiagnosisstrategyofVAVair-conditioningsystemsforimprovedenergyandcontrolperformances,EnergyandBuildings37(2005)1035-1048.一個典型VAVBox有10類故障,香港理工團(tuán)隊對香港某商用建筑的1251個VAVbox核查,發(fā)現(xiàn)20.9%存在故障[1]:期望故障征兆調(diào)適實際變風(fēng)量系統(tǒng)風(fēng)閥卡死冷/熱量不足定風(fēng)量系統(tǒng)調(diào)整送風(fēng)溫度實際應(yīng)用中,大部分變風(fēng)量系統(tǒng)最終變成了定風(fēng)量系統(tǒng)128129典型能源應(yīng)用場景實例——故障診斷與檢測數(shù)據(jù)驅(qū)動的監(jiān)督學(xué)習(xí)模型原理:基于歷史數(shù)據(jù),通過分類算法建立起征兆與故障的潛在關(guān)系神經(jīng)網(wǎng)絡(luò)實現(xiàn)故障診斷支持向量機(jī)實現(xiàn)故障診斷相比傳統(tǒng)人工方法,自動化水平高,人力和時間成本大大降低基于監(jiān)督學(xué)習(xí)的預(yù)測建模流程監(jiān)督學(xué)習(xí)算法“五步走”建模流程:數(shù)據(jù)預(yù)處理、特征工程、模型設(shè)計與優(yōu)化、模型表現(xiàn)評估和模型解讀基于監(jiān)督學(xué)習(xí)的預(yù)測建模過程示意圖130131提綱總論特征工程模型選擇與優(yōu)化模型評價方法模型解讀引言輸入變量對監(jiān)督學(xué)習(xí)算法影響很大,需要使用特征工程從原始數(shù)據(jù)中構(gòu)建模型的輸入變量,提高算法精度:特征工程方法總述132引言133ANN輸出冷負(fù)荷預(yù)測區(qū)間輸入量重要性排序ZhangC,ZhaoY,FanC,LiT,ZhangX,LiJ.Agenericpredictionintervalestimationmethodforquantifyingtheuncertaintiesinultra-short-termbuildingcoolingloadprediction.ApplThermEng2020;173./10.1016/j.applthermaleng.2020.115261.基于專家知識的特征篩選方法原理:基于專家對預(yù)測任務(wù)的理解,手動篩選特征變量缺點:理解難度高,專業(yè)性強(qiáng);批量化建模耗時耗力。134能效水平預(yù)測專家判斷示例基于變量相關(guān)性的特征篩選方法原理:采用統(tǒng)計方法計算輸出和輸入變量間的相關(guān)性
類別型輸入連續(xù)型輸入類別型輸出克萊姆V系數(shù)點二列相關(guān)系數(shù)、邏輯回歸連續(xù)型輸出方差分析(ANOVA)、點二列相關(guān)系數(shù)皮爾森相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)135基于變量相關(guān)性的特征篩選方法匯總連續(xù)數(shù)值型輸入輸出變量的相關(guān)性計算方法皮爾森相關(guān)系數(shù)(Pearsoncorrelationc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度獵頭人才篩選與服務(wù)合同2篇
- 二零二五年碎石開采與精細(xì)加工技術(shù)合作承包合同3篇
- 2025年全球及中國ROV船體清潔服務(wù)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 二零二五年度炊事員技能提升與勞務(wù)派遣合同3篇
- 二零二五年度不銹鋼貨架定制及安裝工程承包合同3篇
- 二零二五年度門窗行業(yè)技術(shù)標(biāo)準(zhǔn)制定合同
- 發(fā)廊翻新意向金合同樣本
- 電子產(chǎn)品批發(fā)居間合同范本
- 食品加工居間合同格式
- 鋼筋制作綁扎勞務(wù)分包合同
- 福建省泉州市晉江市2024-2025學(xué)年七年級上學(xué)期期末生物學(xué)試題(含答案)
- 2025年春新人教版物理八年級下冊課件 第十章 浮力 第4節(jié) 跨學(xué)科實踐:制作微型密度計
- 貨運車輛駕駛員服務(wù)標(biāo)準(zhǔn)化培訓(xùn)考核試卷
- 財務(wù)BP經(jīng)營分析報告
- 三年級上冊體育課教案
- 2024高考物理二輪復(fù)習(xí)電學(xué)實驗專項訓(xùn)練含解析
- 2024年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ卷)含答案
- 高中英語:倒裝句專項練習(xí)(附答案)
- 2025屆河北衡水?dāng)?shù)學(xué)高三第一學(xué)期期末統(tǒng)考試題含解析
- 2024年山東省青島市普通高中自主招生物理試卷(含解析)
- 2024信息技術(shù)數(shù)字孿生能力成熟度模型
評論
0/150
提交評論