基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范_第1頁(yè)
基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范_第2頁(yè)
基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范_第3頁(yè)
基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范_第4頁(yè)
基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國(guó)國(guó)際科技促進(jìn)會(huì)發(fā)布ICS35.240.99CCSL73團(tuán)體標(biāo)準(zhǔn)XTechnicalspecificationsforsmarttransportationbasedonmachinelearning(征求意見(jiàn)稿)在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專(zhuān)利連同支持性文件一并附上。IT/CIXXXX—XXXX 性引用文件 1 5基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)框架 16數(shù)據(jù)采樣與預(yù)處理 27基于機(jī)器學(xué)習(xí)的特征學(xué)習(xí) 3 9基于機(jī)器學(xué)習(xí)的智慧出行應(yīng)用場(chǎng)景 8 T/CIXXXX—XXXX前言本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專(zhuān)利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專(zhuān)利的責(zé)任。本文件由南方科技大學(xué)提出。本文件由中國(guó)國(guó)際科技促進(jìn)會(huì)歸口。本文件起草單位:南方科技大學(xué)、長(zhǎng)春理工大學(xué)、中國(guó)第一汽車(chē)集團(tuán)有限公司、北京大學(xué)、華為技術(shù)有限公司、重慶大學(xué)、浪潮集團(tuán)有限公司、同濟(jì)大學(xué)、中國(guó)檢驗(yàn)認(rèn)證集團(tuán)深圳有限公司、深圳市駿嘉科技發(fā)展有限公司、深圳市鎧碩達(dá)科技有限公司、深圳渾沌數(shù)字化實(shí)驗(yàn)室科技有限公司、深圳樹(shù)米網(wǎng)絡(luò)科技有限公司、汕頭大學(xué)、吉林省卡思特科技有限公司、吉林省中云數(shù)訊股份有限公司、超智研發(fā)中心 (深圳)有限公司、碳獵研發(fā)中心(深圳)有限公司、深圳安視信息技術(shù)有限公司、蘇州奇盈半導(dǎo)體科技有限公司、維旭長(zhǎng)電科技(深圳)有限公司。本文件主要起草人:宋軒、陳紀(jì)元、王宏俊、楊華民、王興山、趙衛(wèi)東、朱津萱、謝洪彬、張浩然、張家祺、馮德帆、宋歌、張嘉暉、李昊洋、吳季泫、陳孫兵、陳天樂(lè)、張凌宇、賈云健、張昕、宋小龍、劉妍、周時(shí)瑩、李長(zhǎng)龍、孫宗姚、王中一、謝奕、高亮、陳欣、陳瑤、袁飛。1T/CIXXXX—XXXX基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范1范圍本文件確立了基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范,規(guī)定了數(shù)據(jù)采樣、預(yù)處理、流程邏輯、智能決策、智慧交通出行應(yīng)用以及性能評(píng)估指標(biāo)的要求。本文件適用于基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)規(guī)范,適合以機(jī)器學(xué)習(xí)技術(shù)為基礎(chǔ)的智慧交通出行應(yīng)用。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語(yǔ)T/ZGCSC004-2022城市時(shí)空預(yù)測(cè)智能模型的數(shù)據(jù)要求3術(shù)語(yǔ)和定義GB/T35295-2017、T/ZGCSC004-2022界定的以及下列術(shù)語(yǔ)和定義適用于本文件。鄰接矩陣adjacentmatrix用以表示交通圖數(shù)據(jù)中不同節(jié)點(diǎn)的空間相關(guān)性權(quán)重的二維正方形矩陣。符合現(xiàn)實(shí)物理世界定義的距離評(píng)判標(biāo)準(zhǔn)。注意力機(jī)制attentionmechanism通過(guò)額外的神經(jīng)網(wǎng)絡(luò)參數(shù)控制網(wǎng)絡(luò)關(guān)注點(diǎn)的一種手段。4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。GPS:全球定位系統(tǒng)(GlobalPositioningSystem)APP:應(yīng)用程序(Application)OD:起點(diǎn)-終點(diǎn)(OriginDestination)HMM:隱馬爾可夫模型(HiddenMarkovModel)RNN:循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork)LSTM:長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShort-TermMemory)CNN:卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork)Attention:注意力機(jī)制(Attention)RMSE:均方根誤差(RootMeanSquareError)MAPE:平均絕對(duì)百分比誤差(MeanAbsolutePercentageError)GCN:圖卷積網(wǎng)絡(luò)(GraphConvolutionalNetwork)TCN:時(shí)間卷積網(wǎng)絡(luò)(TemporalConvolutionalNetwork)POI:興趣點(diǎn)位置(PointofInterest)5基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)框架2T/CIXXXX—XXXX以機(jī)器學(xué)習(xí)為基礎(chǔ)的智慧出行技術(shù)規(guī)范中包含了數(shù)據(jù)采樣層、數(shù)據(jù)處理層、機(jī)器學(xué)習(xí)層和智能決策層,具體見(jiàn)圖1。該規(guī)范符合現(xiàn)代技術(shù)的要求和常規(guī)流程,可以為與廣大人民群眾日常生活緊密相連的如規(guī)劃行程路線(xiàn),選擇交通方式,避開(kāi)擁堵地段等等應(yīng)用提供一個(gè)完整、統(tǒng)一、規(guī)范的標(biāo)準(zhǔn),為智慧城市面臨的挑戰(zhàn)提供智能化和科學(xué)化的支持。圖1基于機(jī)器學(xué)習(xí)的智慧交通出行技術(shù)體系6數(shù)據(jù)采樣與預(yù)處理數(shù)據(jù)采樣來(lái)源6.1.1傳統(tǒng)交通數(shù)據(jù)包括控制信號(hào)數(shù)據(jù)和路網(wǎng)數(shù)據(jù)等已結(jié)構(gòu)化的數(shù)據(jù)。6.1.2開(kāi)放數(shù)據(jù)如公交卡數(shù)據(jù)和車(chē)載GPS數(shù)據(jù),具體為包括OD流和交通時(shí)間公交卡數(shù)據(jù),其中應(yīng)包括車(chē)輛的位置、密集度和速度的車(chē)載GPS數(shù)據(jù)。6.1.3監(jiān)控設(shè)備數(shù)據(jù)數(shù)據(jù)形式為視頻,數(shù)據(jù)內(nèi)容應(yīng)包括車(chē)輛的位置、密集度和速度,還有對(duì)車(chē)輛的識(shí)別。6.1.4傳感器數(shù)據(jù)路邊傳感器數(shù)據(jù)、流動(dòng)車(chē)輛傳感器數(shù)據(jù)和廣域傳感器數(shù)據(jù)。傳感器數(shù)據(jù)內(nèi)容應(yīng)與監(jiān)控設(shè)備的數(shù)據(jù)內(nèi)容相同。6.1.5APP數(shù)據(jù)包括了出行軟件數(shù)據(jù)和社交媒體數(shù)據(jù),其中社交媒體數(shù)據(jù)即在社交媒體中發(fā)布的地理信息。6.1.6其他數(shù)據(jù)3T/CIXXXX—XXXX如智能電網(wǎng),數(shù)據(jù)內(nèi)容應(yīng)包括用電量信息。數(shù)據(jù)預(yù)處理6.2.1軌跡壓縮為減輕通信、計(jì)算和數(shù)據(jù)存儲(chǔ)的成本損耗,對(duì)收集的軌跡進(jìn)行壓縮處理是常見(jiàn)的處理手段。軌跡壓縮任務(wù)可以選擇離線(xiàn)執(zhí)行,也可以在線(xiàn)執(zhí)行。離線(xiàn)時(shí)可采用道格拉斯-普克算法過(guò)擬合等算法;在線(xiàn)時(shí)可采用滑動(dòng)窗口等算法。使用軌跡壓縮前需根據(jù)情況規(guī)定誤差范圍,并明確壓縮后的目標(biāo)數(shù)據(jù)量大小。注:道格拉斯-普克算法過(guò)擬合是將曲線(xiàn)近似表示為一系列點(diǎn),并減少點(diǎn)的數(shù)量的一種算法。6.2.2數(shù)據(jù)清洗數(shù)據(jù)清洗可分為四個(gè)子問(wèn)題:數(shù)據(jù)缺失,數(shù)據(jù)噪聲,數(shù)據(jù)異常,和數(shù)據(jù)不均衡。a)數(shù)據(jù)缺失:數(shù)據(jù)缺失問(wèn)題廣泛存在,早期的處理方法是用固定值或上下文均值進(jìn)行填充,現(xiàn)在多用RNN、HMM以及矩陣補(bǔ)全等機(jī)器學(xué)習(xí)方法填充。b)數(shù)據(jù)噪聲:指與原數(shù)據(jù)無(wú)關(guān)的額外數(shù)據(jù),應(yīng)通過(guò)時(shí)域和頻域的濾波方法(如卡爾曼濾波,SG濾波法)來(lái)過(guò)濾噪聲。注1:卡爾曼濾波是一種利用線(xiàn)性系統(tǒng)狀態(tài)方程,通過(guò)系統(tǒng)輸入輸出觀測(cè)數(shù)據(jù),對(duì)系統(tǒng)狀態(tài)進(jìn)行最優(yōu)估計(jì)的算法。注2:SG濾波法是一種對(duì)窗口內(nèi)的數(shù)據(jù)進(jìn)行加權(quán)濾波的算法,在濾波平滑的同時(shí),能夠更有效地保留信號(hào)的變化信息。息c)數(shù)據(jù)異常:指那些在時(shí)空度量下與空間或時(shí)間鄰域離群的數(shù)據(jù),通常使用異常檢測(cè)算法(如概率密度估計(jì)法)來(lái)修復(fù)異常數(shù)據(jù),并在計(jì)算異常分?jǐn)?shù)時(shí)需要明確異常分?jǐn)?shù)的計(jì)算公式與臨界值。注:概率密度估計(jì)法是通過(guò)對(duì)時(shí)間序列中的點(diǎn)進(jìn)行概率密度估計(jì)以確定異常變化點(diǎn)的方法。d)數(shù)據(jù)不均衡:包括數(shù)據(jù)在分布和標(biāo)簽中存在的不均衡,如不同路段車(chē)流量在數(shù)據(jù)分布上的不均衡,和人與車(chē)輛標(biāo)簽在數(shù)據(jù)標(biāo)簽上的不均衡。應(yīng)采取過(guò)采樣、欠采樣等采樣技術(shù)解決。6.2.3地圖匹配地圖匹配是將位置數(shù)據(jù)關(guān)聯(lián)到路網(wǎng)上的技術(shù),是預(yù)處理中不可或缺的一步。地圖匹配目前包含以下兩大類(lèi)技術(shù):基于采樣點(diǎn)的技術(shù)和添加額外信息的技術(shù)?;诓蓸狱c(diǎn)的技術(shù)包括點(diǎn)距離方法和路徑距離方法,添加額外信息的技術(shù)包括添加幾何、拓?fù)?、概率、模型等方法。在進(jìn)行地圖匹配步時(shí),應(yīng)至少選用上述任一方法或類(lèi)似的方法。6.2.4信息提取軌跡中針對(duì)信息的預(yù)處理包括停駐點(diǎn)識(shí)別和軌跡分割。停駐點(diǎn)識(shí)別通常通過(guò)時(shí)間信息確定,也可使用相應(yīng)的停駐點(diǎn)檢測(cè)算法。軌跡分割包括以時(shí)間信息、空間信息以及停駐點(diǎn)進(jìn)行分割。如果下游任務(wù)有此類(lèi)需要,則在數(shù)據(jù)預(yù)處理中需要進(jìn)行此步驟。7基于機(jī)器學(xué)習(xí)的特征學(xué)習(xí)特征處理7.1.1特征處理必要性在機(jī)器學(xué)習(xí)中,特征預(yù)處理是指對(duì)原始數(shù)據(jù)進(jìn)行一系列處理步驟,以便于機(jī)器學(xué)習(xí)算法更好地處理數(shù)據(jù)。特征預(yù)處理的主要目的是為了提高模型的準(zhǔn)確性和性能,并且可以幫助避免模型過(guò)度擬合或欠擬合的問(wèn)題。7.1.2z-score均值化z-score均值化是一種常見(jiàn)的特征縮放方法,也叫標(biāo)準(zhǔn)化(Standardization),它將原始數(shù)據(jù)進(jìn)行線(xiàn)性變換,使得變換后的數(shù)據(jù)滿(mǎn)足均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。這種方法可以使得不同特征的數(shù)據(jù)具有相同的尺度,從而方便機(jī)器學(xué)習(xí)算法處理。z-score均值化的具體方法是:對(duì)于每個(gè)特征,計(jì)算其所有樣本的均值和標(biāo)準(zhǔn)差,然后將該特征的每個(gè)樣本數(shù)值減去均值,再除以標(biāo)準(zhǔn)差。4T/CIXXXX—XXXX7.1.3線(xiàn)性歸一化線(xiàn)性歸一化(也稱(chēng)為Min-MaxScaling)是一種常見(jiàn)的特征縮放方法,它將原始數(shù)據(jù)進(jìn)行線(xiàn)性變換,使得變換后的數(shù)據(jù)在一定范圍內(nèi),通常是[0,1]或[-1,1]之間。這種方法可以使得不同特征的數(shù)據(jù)具有相同的尺度,從而方便機(jī)器學(xué)習(xí)算法處理。線(xiàn)性歸一化的具體方法是:對(duì)于每個(gè)特征,計(jì)算其所有樣本的最小值和最大值,然后將該特征的每個(gè)樣本數(shù)值減去最小值,再除以最大值和最小值之差。7.1.4標(biāo)簽編碼標(biāo)簽編碼(LabelEncoding)是一種常見(jiàn)的特征處理方法,它將分類(lèi)變量(CategoricalVariables)轉(zhuǎn)換為數(shù)字,從而方便機(jī)器學(xué)習(xí)算法處理。具體來(lái)說(shuō),標(biāo)簽編碼將每個(gè)不同的分類(lèi)值賦予一個(gè)唯一的整數(shù)標(biāo)簽。標(biāo)簽編碼的優(yōu)點(diǎn)是簡(jiǎn)單易實(shí)現(xiàn),適用于一些算法的輸入要求為數(shù)字的情況。7.1.5獨(dú)熱編碼獨(dú)熱編碼(One-HotEncoding)是一種常見(jiàn)的特征處理方法,用于將分類(lèi)變量(CategoricalVariables)轉(zhuǎn)換為數(shù)字,以便機(jī)器學(xué)習(xí)算法處理。獨(dú)熱編碼的優(yōu)點(diǎn)是可以處理分類(lèi)變量,并且不會(huì)引入任何順序偏差。此外,在某些機(jī)器學(xué)習(xí)算法中,獨(dú)熱編碼也可以改善模型的性能。7.1.6時(shí)間特征組合為了充分利用歷史數(shù)據(jù)中的有用信息,將年、月、星期、日、小時(shí)、分鐘、秒、節(jié)假日/工作日等時(shí)間日期特征進(jìn)行編碼組合,聯(lián)合交通特征輸入到模型中,幫助模型挖掘出更準(zhǔn)確有用的時(shí)間特征。7.1.7額外特征嵌入現(xiàn)實(shí)世界中,還有各種其他信息可以作為額外特征嵌入到特征緯度,如興趣點(diǎn)位置(POI)、天氣、經(jīng)緯度、區(qū)域類(lèi)型等。學(xué)習(xí)策略7.2.1集中學(xué)習(xí)策略集中學(xué)習(xí)策略(CentralizedLearningStrategy)是一種機(jī)器學(xué)習(xí)模型訓(xùn)練的策略,它是在一個(gè)中央服務(wù)器上進(jìn)行的,其中所有的數(shù)據(jù)都被集中在同一地點(diǎn),并由該服務(wù)器處理和存儲(chǔ)。在這種情況下,模型可以訪(fǎng)問(wèn)所有數(shù)據(jù),并使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練,從而提高模型的準(zhǔn)確性和性能。集中學(xué)習(xí)策略的主要優(yōu)點(diǎn)是可以更好地保護(hù)數(shù)據(jù)隱私,因?yàn)閿?shù)據(jù)不需要離開(kāi)服務(wù)器且數(shù)據(jù)可以被加密或脫敏,以減少泄露敏感信息的風(fēng)險(xiǎn)。7.2.2聯(lián)邦學(xué)習(xí)策略聯(lián)邦學(xué)習(xí)策略(FederatedLearningStrategy)是一種分散式學(xué)習(xí)策略,它允許多個(gè)設(shè)備或數(shù)據(jù)所有者在本地訓(xùn)練模型,并將本地模型的更新上傳到中央服務(wù)器以進(jìn)行全局模型的訓(xùn)練。在這個(gè)過(guò)程中,所有數(shù)據(jù)都保留在本地設(shè)備上,不需要將其上傳到中央服務(wù)器,從而保護(hù)數(shù)據(jù)隱私。聯(lián)邦學(xué)習(xí)在移動(dòng)設(shè)備和物聯(lián)網(wǎng)等場(chǎng)景中具有廣泛的應(yīng)用前景。7.2.3遷移學(xué)習(xí)策略遷移學(xué)習(xí)(TransferLearning)是一種利用已經(jīng)訓(xùn)練好的模型來(lái)解決新的問(wèn)題的機(jī)器學(xué)習(xí)策略。它的基本思想是將一個(gè)已經(jīng)在一個(gè)任務(wù)上學(xué)習(xí)好的模型(源領(lǐng)域)應(yīng)用到另一個(gè)相關(guān)任務(wù)中(目標(biāo)領(lǐng)域)來(lái)提高目標(biāo)領(lǐng)域的學(xué)習(xí)效果。遷移學(xué)習(xí)的優(yōu)勢(shì)在于可以利用已有的模型來(lái)減少新模型的訓(xùn)練時(shí)間和資源成本,同時(shí)可以提高模型的準(zhǔn)確性和泛化能力。此外,遷移學(xué)習(xí)還可以解決數(shù)據(jù)集稀缺的問(wèn)題,特別是在一些小樣本學(xué)習(xí)的場(chǎng)景中。7.2.4元學(xué)習(xí)策略元學(xué)習(xí)(Meta-Learning)是一種學(xué)習(xí)如何學(xué)習(xí)的機(jī)器學(xué)習(xí)策略。它的基本思想是通過(guò)學(xué)習(xí)多個(gè)任務(wù)的共性和差異,來(lái)提高模型在新任務(wù)上的學(xué)習(xí)能力。元學(xué)習(xí)可以分為兩種類(lèi)型:基于模型的元學(xué)習(xí)和5T/CIXXXX—XXXX基于優(yōu)化的元學(xué)習(xí)。元學(xué)習(xí)的優(yōu)勢(shì)在于可以通過(guò)學(xué)習(xí)多個(gè)任務(wù)的共性和差異,來(lái)提高模型的泛化能力和學(xué)習(xí)效率。元學(xué)習(xí)可以幫助模型快速適應(yīng)新任務(wù),并且可以在樣本數(shù)量較少的情況下完成學(xué)習(xí)。7.2.5對(duì)比學(xué)習(xí)策略對(duì)比學(xué)習(xí)(ContrastiveLearning)是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)策略,它通過(guò)將同一樣本的不同視圖或不同樣本的相似性進(jìn)行比較,來(lái)學(xué)習(xí)數(shù)據(jù)的表示。對(duì)比學(xué)習(xí)可以分為兩種類(lèi)型:基于相似性的對(duì)比學(xué)習(xí)和基于差異性的對(duì)比學(xué)習(xí)。對(duì)比學(xué)習(xí)的優(yōu)勢(shì)在于可以在無(wú)監(jiān)督的情況下學(xué)習(xí)數(shù)據(jù)的表示,從而可以減少數(shù)據(jù)標(biāo)注的工作量。對(duì)比學(xué)習(xí)可以通過(guò)比較同一樣本的不同視圖或不同樣本之間的相似性或差異性,來(lái)學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和語(yǔ)義信息,從而可以提高模型的泛化能力和魯棒性。7.2.6多路學(xué)習(xí)策略多路學(xué)習(xí)(Multi-TaskLearning)是一種機(jī)器學(xué)習(xí)策略,旨在通過(guò)讓模型同時(shí)學(xué)習(xí)多個(gè)相關(guān)的任務(wù)來(lái)提高模型的泛化能力和效果。傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常只能解決一個(gè)任務(wù),而多路學(xué)習(xí)則可以在同一個(gè)模型中同時(shí)解決多個(gè)任務(wù)。多路學(xué)習(xí)的優(yōu)勢(shì)在于可以將相關(guān)任務(wù)之間的共同點(diǎn)和差異點(diǎn)進(jìn)行學(xué)習(xí)和利用,從而可以提高模型的泛化能力和效果,同時(shí)減少數(shù)據(jù)標(biāo)注的工作量,節(jié)省時(shí)間和成本。學(xué)習(xí)方法7.3.1支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)是一種經(jīng)典的監(jiān)督學(xué)習(xí)算法,廣泛應(yīng)用于分類(lèi)、回歸和異常檢測(cè)等領(lǐng)域。SVM的基本思想是在特征空間中構(gòu)造一個(gè)最優(yōu)超平面,將不同類(lèi)別的樣本分開(kāi)。具體來(lái)說(shuō),SVM在訓(xùn)練數(shù)據(jù)中尋找一個(gè)超平面,使得在超平面上離它最近的樣本點(diǎn)到該超平面的距離最大,這個(gè)距離被稱(chēng)為“間隔”(margin)。這個(gè)過(guò)程可以轉(zhuǎn)化為求解一個(gè)二次規(guī)劃問(wèn)題,可以使用各種優(yōu)化算法進(jìn)行求解。7.3.2隨機(jī)森林隨機(jī)森林(RandomForest)是一種基于決策樹(shù)的集成學(xué)習(xí)算法,可以用于分類(lèi)、回歸和特征選擇等任務(wù)。隨機(jī)森林是由多棵決策樹(shù)組成的集成模型。在隨機(jī)森林中,每棵決策樹(shù)的訓(xùn)練數(shù)據(jù)是從原始數(shù)據(jù)集中隨機(jī)采樣得到的,同時(shí)每個(gè)節(jié)點(diǎn)的特征也是從原始特征集合中隨機(jī)選擇一部分特征進(jìn)行評(píng)估,這樣可以減少?zèng)Q策樹(shù)的過(guò)擬合風(fēng)險(xiǎn)。在隨機(jī)森林中,最終的分類(lèi)結(jié)果是由所有決策樹(shù)的結(jié)果投票決定的。7.3.3梯度提升樹(shù)梯度提升樹(shù)(GradientBoostingTree)是一種基于決策樹(shù)的集成學(xué)習(xí)算法,通過(guò)將多棵決策樹(shù)相加來(lái)提高模型的預(yù)測(cè)能力。與隨機(jī)森林不同,梯度提升樹(shù)是一種序列化的算法,每棵樹(shù)都是在上一棵樹(shù)的殘差基礎(chǔ)上構(gòu)建的。在梯度提升樹(shù)中,每棵樹(shù)的訓(xùn)練數(shù)據(jù)是根據(jù)上一棵樹(shù)的預(yù)測(cè)結(jié)果和真實(shí)值之間的殘差來(lái)計(jì)算的。每棵樹(shù)都是在減小上一棵樹(shù)的殘差的基礎(chǔ)上構(gòu)建的,因此最終的預(yù)測(cè)結(jié)果是所有樹(shù)的結(jié)果之和。7.3.4Adaboost樹(shù)AdaBoost樹(shù)(AdaptiveBoostingTree)是一種集成學(xué)習(xí)模型,通過(guò)多個(gè)弱分類(lèi)器的組合來(lái)構(gòu)建一個(gè)強(qiáng)分類(lèi)器。在AdaBoost樹(shù)模型中,每個(gè)弱分類(lèi)器的訓(xùn)練數(shù)據(jù)都是根據(jù)前一個(gè)弱分類(lèi)器的錯(cuò)誤率來(lái)確定的,即對(duì)錯(cuò)誤分類(lèi)的樣本進(jìn)行加權(quán),以使得下一個(gè)弱分類(lèi)器能夠更加關(guān)注這些難分類(lèi)的樣本。7.3.5聚類(lèi)算法聚類(lèi)算法是一種無(wú)監(jiān)督學(xué)習(xí)算法,它將相似的樣本歸為一類(lèi),不同的樣本歸為不同的類(lèi)別。聚類(lèi)算法主要用于探索數(shù)據(jù)的內(nèi)部結(jié)構(gòu),尋找數(shù)據(jù)中的模式和規(guī)律,以及幫助人們理解數(shù)據(jù)的本質(zhì)特征。常見(jiàn)的聚類(lèi)算法有以下幾種:a)K均值聚類(lèi)算法:將數(shù)據(jù)集分成K個(gè)簇,每個(gè)簇由與其它樣本距離最近的點(diǎn)組成;b)層次聚類(lèi)算法:將樣本逐層劃分成簇,形成一個(gè)樹(shù)形結(jié)構(gòu),可以按照需要截取不同的簇;c)密度聚類(lèi)算法:根據(jù)數(shù)據(jù)點(diǎn)的密度來(lái)進(jìn)行聚類(lèi),同一簇內(nèi)的點(diǎn)密度要大于一定閾值,不同簇之間的密度要有明顯差異;6T/CIXXXX—XXXXd)均值漂移聚類(lèi)算法:基于樣本點(diǎn)密度的梯度方向不斷迭代,直到所有樣本點(diǎn)都收斂到密度最大的點(diǎn)上;e)DBSCAN聚類(lèi)算法:基于樣本點(diǎn)的密度,將樣本點(diǎn)分為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn),并通過(guò)核心點(diǎn)的連通性來(lái)劃分簇。7.3.6EM算法EM算法(Expectation-MaximizationAlgorithm)是一種常見(jiàn)的統(tǒng)計(jì)學(xué)習(xí)方法,用于解決含有隱變量的概率模型的參數(shù)估計(jì)問(wèn)題。其基本思想是,通過(guò)對(duì)數(shù)據(jù)進(jìn)行觀察,得到數(shù)據(jù)的概率分布,從而推斷出模型的參數(shù)。EM算法分為兩步,分別是Expectation步驟和Maximization步驟。7.3.7卷積神經(jīng)網(wǎng)絡(luò)由于交通網(wǎng)絡(luò)無(wú)法使用二維矩陣表達(dá),許多研究者將不同時(shí)刻的城市交通網(wǎng)絡(luò)轉(zhuǎn)換成圖像格式,因而使得卷積神經(jīng)網(wǎng)絡(luò)得以被用來(lái)提取每個(gè)時(shí)間片下網(wǎng)格數(shù)據(jù)中不同網(wǎng)格區(qū)域中的空間特征。與現(xiàn)實(shí)世界相同,每個(gè)網(wǎng)格與周邊網(wǎng)格有所相連,周邊網(wǎng)格的位置根據(jù)網(wǎng)格劃分?jǐn)?shù)據(jù)的經(jīng)緯度來(lái)決定。根據(jù)特定的周邊區(qū)域順序與距離,不同位置的訓(xùn)練權(quán)重在卷積神經(jīng)網(wǎng)絡(luò)計(jì)算的過(guò)程中被體現(xiàn)出來(lái)。7.3.8循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和它的變體LSTM,GRU等神經(jīng)網(wǎng)絡(luò)被設(shè)計(jì)以應(yīng)對(duì)序列數(shù)據(jù)。為了提取交通數(shù)據(jù)中的非線(xiàn)性特征,循環(huán)神經(jīng)網(wǎng)絡(luò)可以從長(zhǎng)時(shí)間序列中提取多時(shí)間步長(zhǎng)周期的特征信號(hào)并且支持針對(duì)其中隱藏特征傳遞單元,遺忘單元等各個(gè)組合構(gòu)件進(jìn)行改造。循環(huán)神經(jīng)網(wǎng)絡(luò)的可塑性極高,支持跟各種其他方法論組合出新的模塊,因而至今都在繼續(xù)迭代。7.3.9注意力神經(jīng)網(wǎng)絡(luò)注意力機(jī)制是一種類(lèi)似于人類(lèi)視覺(jué)系統(tǒng)的模式識(shí)別機(jī)制,可以用來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)在處理輸入序列或圖像時(shí)的關(guān)注度和權(quán)重。注意力機(jī)制的主要思想是在處理輸入序列或圖像時(shí),網(wǎng)絡(luò)能夠有選擇性地將注意力集中在相關(guān)的部分,而忽略無(wú)關(guān)的部分,從而提高模型的準(zhǔn)確性和效率。基于這種思想,注意力神經(jīng)網(wǎng)絡(luò)(AttentionNeuralNetwork)就應(yīng)運(yùn)而生。它是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,可以將注意力機(jī)制引入到神經(jīng)網(wǎng)絡(luò)的各個(gè)層級(jí)中,使得網(wǎng)絡(luò)能夠有選擇地關(guān)注輸入的不同部分,以此提高模型的表現(xiàn)能力。7.3.10TransformerTransformer類(lèi)模型不僅在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中火熱發(fā)展,交通數(shù)據(jù)挖掘預(yù)測(cè)領(lǐng)域中同樣衍生出許多變體模型。集成了多頭注意力機(jī)制,注意力計(jì)算,編碼器解碼器和反向回饋層的Transformer架構(gòu),可以在其中各個(gè)組件中改造或者加入串并聯(lián)方式的其他特征提取單元。7.3.11圖卷積神經(jīng)網(wǎng)絡(luò)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)只能處理歐式數(shù)據(jù)類(lèi)型,而交通路網(wǎng)本質(zhì)上也是非歐式的圖關(guān)系,為處理非歐式數(shù)據(jù)計(jì)算設(shè)計(jì)的圖卷積網(wǎng)絡(luò)非常適合各類(lèi)交通數(shù)據(jù)挖掘問(wèn)題。圖卷積計(jì)算方法主要有譜域圖卷積和空域圖卷積。譜域圖卷積的定義為通過(guò)從圖信號(hào)處理的角度引入濾波器來(lái)定義圖卷積,其中圖卷積運(yùn)算被解釋為從圖信號(hào)中去除噪聲。空域圖卷積的定義為通過(guò)圖卷積公式從鄰居節(jié)點(diǎn)聚合節(jié)點(diǎn)特征。交通數(shù)據(jù)的空間關(guān)系復(fù)雜,也使得圖卷積網(wǎng)絡(luò)從普通構(gòu)造逐漸發(fā)展演變出多種變體:a)單圖卷積:最初始發(fā)展出的譜域圖卷積或者空域圖卷積版本;b)多圖卷積:多種鄰接矩陣作為圖的空間表示,多個(gè)圖卷積模塊提取特征后聚合特征;c)自適應(yīng)圖卷積:固有的鄰接矩陣作為交通數(shù)據(jù)的空間表示并不可靠,因而使用可學(xué)習(xí)的學(xué)習(xí)策略來(lái)重新學(xué)習(xí)鄰接矩陣,進(jìn)而輸入到圖卷積網(wǎng)絡(luò)中提取空間特征;d)圖注意力網(wǎng)絡(luò):為了防止固有鄰接矩陣中錯(cuò)誤信息對(duì)特征提取過(guò)程造成負(fù)面干擾,使用注意力機(jī)制去學(xué)習(xí)不受固有鄰接矩陣影響的注意力分?jǐn)?shù),排除固有鄰接矩陣的噪聲的同時(shí),也使得長(zhǎng)遠(yuǎn)距離的圖節(jié)點(diǎn)也有機(jī)會(huì)參與到空間特征提取過(guò)程中;e)動(dòng)態(tài)自適應(yīng)多圖卷積:集成了多圖策略,自適應(yīng)學(xué)習(xí)策略和圖卷積的一種綜合體;7T/CIXXXX—XXXXf)偏微分圖卷積:上述各類(lèi)圖卷積僅僅是考慮的空間層面的影響,未考慮到不同時(shí)間片的狀態(tài)影響。引入偏微分使得不同時(shí)間片的圖卷積操作可以上下文呼應(yīng),使得圖卷積也變得可以持續(xù)學(xué)習(xí)。7.3.12圖生成神經(jīng)網(wǎng)絡(luò)圖生成神經(jīng)網(wǎng)絡(luò)(GraphGenerativeNeuralNetwork)是一類(lèi)基于深度學(xué)習(xí)的圖生成模型,用于生成符合特定條件的圖結(jié)構(gòu)。與傳統(tǒng)的圖生成方法相比,圖生成神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)特征表示和生成規(guī)則,不需要手工設(shè)計(jì)特征和生成算法,因此具有很大的靈活性和適用性。圖生成神經(jīng)網(wǎng)絡(luò)主要包括基于圖神經(jīng)網(wǎng)絡(luò)和基于變分自編碼器(VariationalAutoencoder,VAE)的兩類(lèi)模型?;趫D神經(jīng)網(wǎng)絡(luò)的模型是一種基于圖卷積網(wǎng)絡(luò)(GraphConvolutionalNetwork,GCN)的圖生成模型,基于VAE的模型是一種基于概率模型的圖生成模型。評(píng)價(jià)指標(biāo)7.4.1RMSE均方根誤差該指標(biāo)對(duì)應(yīng)于平方誤差的預(yù)期值,公式見(jiàn)(1)。2RMSEy,=x1yi?i…………………(1)該指標(biāo)對(duì)應(yīng)于平方誤差的預(yù)期值,公式見(jiàn)(1)。2式中:yi——預(yù)測(cè)值;yi——預(yù)測(cè)值;N——預(yù)測(cè)節(jié)點(diǎn)個(gè)數(shù)。7.4.2MAPE平均絕對(duì)百分比誤差MAPEy,=xMAPEy,=x1yii………(2)式中:yi——預(yù)測(cè)值;yi——預(yù)測(cè)值;N——預(yù)測(cè)節(jié)點(diǎn)個(gè)數(shù)。7.4.3KL離散度KL=xxPKL=xxPx(logPx?logQ(x))……(3)式中:P(x)——P在x處的概率密度函數(shù);Q(x)——Q在x處的概率密度函數(shù)。7.4.4交叉熵交叉熵是一種用來(lái)衡量?jī)蓚€(gè)概率分布之間相似度的度量方法。通常用來(lái)衡量分類(lèi)模型的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的差異,公式見(jiàn)(4)。CE=?xxPxlogQx………(4)真實(shí)標(biāo)簽之間的差異,公式見(jiàn)(4)。式中:P(x)——P在x處的概率密度函數(shù);Q(x)——Q在x處的概率密度函數(shù)。7.4.5精確率8T/CIXXXX—XXXX該指標(biāo)是分類(lèi)器預(yù)測(cè)的正樣本中預(yù)測(cè)正確的比例,取值范圍為[0,1],取值越大,模型預(yù)測(cè)能力越好。公式見(jiàn)(5)。P=TP/(TP+FP)……(5)式中:TP——預(yù)測(cè)正樣本正確;FP——預(yù)測(cè)正樣本錯(cuò)誤。7.4.6召回率該指標(biāo)是分類(lèi)器所預(yù)測(cè)正確的正樣本占所有正樣本的比例,取值范圍為[0,1],取值越大,模型預(yù)測(cè)能力越好。公式見(jiàn)(6)。R=TP/(TP+FN)……(6)式中:TP——預(yù)測(cè)正樣本正確;FN——預(yù)測(cè)負(fù)樣本錯(cuò)誤8智能決策以個(gè)人習(xí)慣決策在智能決策中,個(gè)人習(xí)慣可以作為一種重要的決策依據(jù)。個(gè)人習(xí)慣是指在個(gè)人日常生活、工作中形成的一種習(xí)慣性的行為方式或思維方式,是個(gè)人經(jīng)驗(yàn)、知識(shí)、情感等的綜合反映。個(gè)人習(xí)慣作為一種重要的決策依據(jù),在智能決策中具有重要的應(yīng)用價(jià)值,可以提高決策的準(zhǔn)確性和個(gè)性化程度。例如,在路線(xiàn)規(guī)劃時(shí),我們可以通過(guò)收集用戶(hù)歷史行駛數(shù)據(jù)來(lái)學(xué)習(xí)他們的個(gè)人偏好,包括他們喜歡的道路類(lèi)型、行駛速度等。這些信息可以用于個(gè)性化路徑規(guī)劃,幫助用戶(hù)更好地滿(mǎn)足自己的需求。以資源分配決策以資源分配決策在智慧決策中是一種常用的策略,資源多的地方通常更受用戶(hù)的青睞。例如在規(guī)劃地鐵出行的場(chǎng)景中,座位(空間)即是資源,智慧決策可以根據(jù)機(jī)器學(xué)習(xí)算法的預(yù)測(cè)結(jié)果,選擇人流更少的路線(xiàn)以給予用戶(hù)舒適的出行體驗(yàn)。以時(shí)間長(zhǎng)短決策以出行損耗時(shí)間長(zhǎng)度為決策指標(biāo)。以距離遠(yuǎn)近決策以出行路線(xiàn)遠(yuǎn)近為決策指標(biāo)。以最小損耗決策以最小損耗決策是另一種較為常見(jiàn)的決策選擇,損耗的定義是多種多樣的,比如出行中花費(fèi)的金錢(qián)也為損耗。比如,在為用戶(hù)推薦從A城市到B城市的交通工具搭配上,我們可以利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)的未來(lái)價(jià)格波動(dòng),計(jì)算出最小金錢(qián)損耗的搭配給予用戶(hù)參考。9基于機(jī)器學(xué)習(xí)的智慧出行應(yīng)用場(chǎng)景路徑規(guī)劃路徑規(guī)劃是旅游者準(zhǔn)備行程的重要步驟。雖然用戶(hù)可以搜索相關(guān)的旅游指南和游記,但它們提供的信息通常是非結(jié)構(gòu)化的,并且因人而異。在這種情況下,非常需要一種自動(dòng)的、交互式的旅游路線(xiàn)規(guī)劃服務(wù),以根據(jù)用戶(hù)的喜好來(lái)規(guī)劃定制的旅行。推薦旅游路線(xiàn)的流行方法是找到與給定背景相似的現(xiàn)有旅行,如空間鄰近性、文本相關(guān)性和照片。例如,可以利用現(xiàn)有的出行,通過(guò)將熱點(diǎn)區(qū)域與路線(xiàn)聯(lián)系起來(lái)構(gòu)建一個(gè)旅游網(wǎng)絡(luò),然后通過(guò)交通流量檢測(cè)算法從網(wǎng)絡(luò)中發(fā)現(xiàn)熱門(mén)路線(xiàn)。9T/CIXXXX—XXXX實(shí)時(shí)導(dǎo)航智慧出行可以通過(guò)傳感器、GPS等技術(shù),實(shí)時(shí)監(jiān)測(cè)交通狀況,并且通過(guò)機(jī)器學(xué)習(xí)技術(shù)對(duì)未來(lái)可能情況進(jìn)行預(yù)測(cè),為用戶(hù)提供最快、最安全的路線(xiàn)導(dǎo)航。例如,可以通過(guò)觀測(cè)現(xiàn)有車(chē)流量并計(jì)算未來(lái)可能發(fā)生擁堵的路段,從而引導(dǎo)用戶(hù)提前

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論