版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于多因素的公共自行車(chē)需求量預(yù)測(cè)1選題背景近年來(lái),公共自行車(chē)作為自行車(chē)出行模式的創(chuàng)新應(yīng)用,不但能夠促進(jìn)環(huán)境可持續(xù)發(fā)展、減少空氣污染,而且為用戶(hù)出行提供了便利的交通方式。用戶(hù)可以在起點(diǎn)附近的公共自行車(chē)站點(diǎn)租用自行車(chē),并在終點(diǎn)附近的站點(diǎn)將其歸還。最早的公共自行車(chē)項(xiàng)目發(fā)源于20世紀(jì)60、70年代的丹麥,歐洲公共自行車(chē)系統(tǒng)發(fā)展最早,運(yùn)營(yíng)經(jīng)驗(yàn)豐富,目前發(fā)展到第三代,已達(dá)到較為完善的發(fā)展水平,并在美國(guó)西雅圖、紐約、華盛頓等城市廣泛應(yīng)用。我國(guó)公共自行車(chē)發(fā)展起步雖然較晚,但大量的需求極大地推動(dòng)了系統(tǒng)的快速發(fā)展與完善。公共自行車(chē)系統(tǒng)運(yùn)營(yíng)的關(guān)鍵在于滿(mǎn)足用戶(hù)對(duì)公共自行車(chē)的出行需求,在不同的自行車(chē)站點(diǎn)對(duì)自行車(chē)數(shù)量進(jìn)行
2、合理的調(diào)度安排則是滿(mǎn)足用戶(hù)使用需求的關(guān)鍵途徑,而且能夠充分發(fā)揮公共自行車(chē)系統(tǒng)綜合效益。目前公共自行車(chē)進(jìn)入旺盛的發(fā)展周期,然而相關(guān)公共自行車(chē)需求預(yù)測(cè)的研究卻寥寥無(wú)幾,使得調(diào)度公共自行車(chē)的相關(guān)研究方案缺乏科學(xué)充分的理論支撐。因此,公共自行車(chē)的合理調(diào)度的問(wèn)題亟待解決,本文將從公共自行車(chē)系統(tǒng)借還需求預(yù)測(cè)展開(kāi)研究,希望通過(guò)建立多因素的預(yù)測(cè)模型對(duì)公共自行車(chē)借還需求的進(jìn)行相對(duì)精確的預(yù)測(cè)從而積極推動(dòng)公共自行車(chē)的普及與發(fā)展,提高公共自行車(chē)的整體使用率,推動(dòng)綠色、健康的出行方式,推動(dòng)低碳生活的發(fā)展。2研究方法2.1廣義加性模型經(jīng)典的線(xiàn)性回歸模型假定因變量與自變量量、是線(xiàn)性形式:E(Y|XhX2r.,Xp)二血+內(nèi)
3、兀+0風(fēng)+其中,!,,|JT通過(guò)最小二乘法獲得。加性模型擴(kuò)展了線(xiàn)性模型:&nxLFx3Xp)=fo+i(x1)+52(x2)+4(Xp)其中,:y二I*P是光滑函數(shù),注兒!二門(mén),通過(guò)backfitting算法獲得廣義加性模型是廣義線(xiàn)性模型的擴(kuò)展:(川二呦+Ji(XL)4辺優(yōu)分+.+Sp(XF)H二印十丁二卉(X其中,n、兒-V-1,.為線(xiàn)性預(yù)測(cè)值,是非參數(shù)光滑函數(shù),它可以是光滑樣條函數(shù)、核函數(shù)或者局部回歸光滑函數(shù),它的非參數(shù)形式使得模型非常靈活,揭示出自變量的非線(xiàn)性效應(yīng)。模型不需要節(jié)對(duì)x的任何假設(shè),由隨機(jī)部分丁(randomcomponent)、加性部;(additivecomponent)及
4、聯(lián)結(jié)兩者的連接函數(shù)T(linkfunction)組成,反應(yīng)變量廠的分布屬于指數(shù)分布族,可以是二項(xiàng)分布、Poisson分布、Gamma分布等。2.2隨機(jī)森林決策樹(shù)是用樹(shù)的結(jié)構(gòu)來(lái)構(gòu)建分類(lèi)模型,每個(gè)節(jié)點(diǎn)代表著一個(gè)屬性,根據(jù)這個(gè)屬性的劃分,進(jìn)入這個(gè)節(jié)點(diǎn)的兒子節(jié)點(diǎn),直至葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)都表征著一定的類(lèi)別,從而達(dá)到分類(lèi)的目的。常用的決策樹(shù)有ID4,C4.5,CART等。在生成樹(shù)的過(guò)程中,需要選擇用那個(gè)特征進(jìn)行剖分,一般來(lái)說(shuō),選取的原則是,分開(kāi)后能盡可能地提升純度,可以用信息增益,增益率,以及基尼系數(shù)等指標(biāo)來(lái)衡量。如果是一棵樹(shù)的話(huà),為了避免過(guò)擬合,還要進(jìn)行剪枝(prunning),取消那些可能會(huì)導(dǎo)致驗(yàn)
5、證集誤差上升的節(jié)點(diǎn)。隨機(jī)森林實(shí)際上是一種特殊的bagging方法,它將決策樹(shù)用作bagging中的模型。首先,用bootstrap方法生成m個(gè)訓(xùn)練集,然后,對(duì)于每個(gè)訓(xùn)練集,構(gòu)造一顆決策樹(shù),在節(jié)點(diǎn)找特征進(jìn)行分裂的時(shí)候,并不是對(duì)所有特征找到能使得指標(biāo)(如信息增益)最大的,而是在特征中隨機(jī)抽取一部分特征,在抽到的特征中間找到最優(yōu)解,應(yīng)用于節(jié)點(diǎn),進(jìn)行分裂。隨機(jī)森林的方法由于有了bagging,也就是集成的思想在,實(shí)際上相當(dāng)于對(duì)于樣本和特征都進(jìn)行了采樣(如果把訓(xùn)練數(shù)據(jù)看成矩陣,就像實(shí)際中常見(jiàn)的那樣,那么就是一個(gè)行和列都進(jìn)行采樣的過(guò)程),所以可以避免過(guò)擬合。3數(shù)據(jù)集介紹這里我們選用kaggle比賽中公共自
6、行車(chē)需求量預(yù)測(cè)的一個(gè)數(shù)據(jù)集。jJl1-dat.Ef.iri01e曰刃旳nholidayvorkingdsweath日teiphuriidityiFLndEPEeccasualregistmrEUCiunt0Ci19.8414.395Bl031316辮料曲將10010213.635BO0B3240100113.635BQ052732|11v:1-1.z.i1:It:-10019.8414.395750011100293412.SB756L00320111(11)19.0213.6358002021(11)18,213.aeBi012310019.3414.39575017S11100113.12
7、17.425760B614II:皿:吋111!.iH.:-.IL-:-l-100114.T616.逓Bl15.001226so56q100117.2221.217719.0012295584-101?ZIS.3S2Z.7257Z19.歸5474T陽(yáng)1ljriQ1口aQ9791=;79-iann-iQ:只711皿項(xiàng)目數(shù)據(jù)描述如下:datetime:代表數(shù)據(jù)日期,以年-月-日小時(shí)的形式給出。season:數(shù)據(jù)記錄時(shí)的季節(jié)。1為春季,2為夏季,3為秋季,4為冬季。hodliday:當(dāng)日是否為假期。1代表是,0代表不是。workingday:當(dāng)日是否為工作日,即既不是周末也不是假期。1代表是,0代表不
8、是。weather:當(dāng)日天氣:1:天氣晴朗或者少云/部分有云。2:有霧和云/風(fēng)等。3:小雪/小雨,閃電及多云。4:大雨/冰雹/閃電和大霧/大雪。temp-當(dāng)日攝氏溫度。atemp-當(dāng)日人們感覺(jué)的溫度。humidity-當(dāng)日濕度。windspeed-風(fēng)速。casual-會(huì)員租賃自行車(chē)數(shù)registered-非會(huì)員租賃自行車(chē)數(shù)。count-總租車(chē)數(shù),我們需要預(yù)測(cè)的值。即casual+registered數(shù)目4多因素分析4.1數(shù)據(jù)預(yù)處理在原始數(shù)據(jù)集中,我們可以看到datetime(代表數(shù)據(jù)日期),以年-月-日小時(shí)的形式給出。為了后續(xù)的分析我們將年月日與小時(shí)分離。首先我們使用read.csv函數(shù)讀入我
9、們的數(shù)據(jù)。tralnIUD1011Itd.U!LII-d1liyhead(train)UULH冃1IIIIIIHJL1UU1IUAfibble:6x12datetimeaeaaonholidaywKirkingdayweathertempatemphumiditywindspeedcasualisie刖w如A2011-01-0100:00:001001.8414.403132011-01-0101:00:0010019.02S00S322011-01-0102:00:0010019.02im五S005272011-01-0103:00:0010019.8414.47503102011-01-0
10、104:00:0010019.8414.475002011-01-0105:00:0010029.8412.9756.000L從上述提升中,我們可以看到R將datetime列以datatime的形式進(jìn)行解析season、holiday等列按照整數(shù)進(jìn)行解析,temp、atemp等列按照浮點(diǎn)數(shù)進(jìn)行解析。為了減輕缺失數(shù)據(jù)帶來(lái)的影響,我們使用na.omit()函數(shù)。b-wi兀丄morevariaoie:c卜train-na.omit(train)我們使用factor來(lái)創(chuàng)建因子變量rralndseasonr,-all,,rw1TerD)tralnSwEiihc-ficto-(trainher,label
11、s-cftDod,Nomal,Bd,VeryEadtradnlhour-facto-(hou(ymd_hms(trainldatetime)j我們使用as.POSIXct()函數(shù)來(lái)將時(shí)間格式化,同時(shí)我們添加該日期屬于周幾的字段,用于后面的分析。tralntTlmes-rosixctfstrfr1me(yrd_lini5(tra1nldarerlre)Pformat-KH:W:?6SP,)Bformat-,r%HW%SP,)train電kdayIrannSNeekday1254冋N門(mén)1211451屈三四五亠J-n曰周凰周盡同周眉冏亠八日二三四五丸日周凰周周周周fafl亠八日二三四五亠八日周ffl
12、周周周周周.H亠八日一三四五亠八日周3周S周周周S亠八日-四aA日胃S周周.H周Hja孟日-二三五A日旦.S.3月周a號(hào)亠艸日一二三四-K日S.S.S.1周周.i.aAB二二四五亠周凰周盡同周眉冏亠八日一二三四五.亠用凰周周周周faflAB一二三四五A周咼周周周周周咼亠八日一二三四五亠.SSS用周周周S孟日一二三凹五A胃國(guó).S1-周周H博為日-二三四五六蠱同.層用S號(hào)亠!日二二四五亠丈日一二三四五亠II罔罔周周hi;周Ja/AB一二三四五.亠周周.(9周周周周.A日一二三四五A胃as.8周周s?aAB一二三四五盒周S.S.S.S周SS一二三四五Ag.arHEj*.g.g.g.afi六日一二三四
13、五六-iHEf.i周fl周.a貢日一二三四五.亠眉周盡月周網(wǎng)網(wǎng)貢日_一一三四五亠.H3周周3周網(wǎng)同亠八日一二三四五亠周咼.周周周周.亠八日一二三四五亠八H廚.用H周周S4.2天氣因素分析weather_sum論maxher_suniGoadNormalBadveryBad719228348591GoadNormalbadVerybad從圖中我們可以看到,這兩年中好天氣的居多。公共自行車(chē)的使用極容易受天氣條件的影響,在不同天氣條件下對(duì)需求的影響不同。因此在此部分我們對(duì)天氣因素進(jìn)行分析,首先對(duì)這兩年來(lái)每小時(shí)的自行車(chē)使用量進(jìn)行分析。ddply和aggregate是R語(yǔ)言中兩個(gè)用來(lái)整合數(shù)據(jù)的功能強(qiáng)大的
14、函數(shù)。ddply函數(shù)的用法如下:ddply(.data,.variables,.fun=NULL,.,.progress=none,.inform=FALSE,.drop=TRUE,.parallel=FALSE,.paropts=NULL)weather_summary-ddply(train,.(weather,hour),summarise,count=mean(count)利用ddply函數(shù),根據(jù)weather和hour進(jìn)行分組,然后求每一組的平均值。我們可以看到分組后的結(jié)果如下圖1224567weatherhourcountjood01158SB158Good1八020270GOiO
15、id25.0823323aweanher_summary3/ss39404189ID1.112丄3111516Go-od32.7439446Good41.2733564Good51.6156463Good64.6438356Good711.8607143GoodB22.87B5714Good934.2435424Good1052,5000000jood1169.996+789Good1Z7S.7122S07&3iod1285.17B0E22Go-od1486.6633333Good1585.647749242斗斗斗546417484950冋5midINormalNormalNormalNorm
16、almomalNormalNormalNormalNormalNornalNormalBadBadBadJL上UWMFF丄勺ggplot(train,aesfx=hour,/=count,colonr=weather)+十geom_point(data=weather-summary,aes(group=weather)+geom_lineCdata=weather_siiuiniairy,aesCgroup=weathe+十seale_M_discrere(Hour)十4-seale_y_continuousfCount)+十匸heme_mininial+ggtitlefPeoplerent
17、bikesmci記whentheweatheriscor.nScount?trann$temp)Pearmorisproduct-momentcorrelationdata:tra-inScountandtrain$tenpt=44.?82:df=10B84?p-value-=2.2e-16alternafivehypothesis:truec&rrelafianisnotequalto095percentconfidence1nterva.1:.37847260.41019?Csampleesfimates:cor.3944526我們可以看到自行車(chē)的租賃量和溫度之間的相關(guān)系數(shù)為0.39445
18、36cortest(tradn$courit,tr-ann$atemp)Pearson1sproduct-momentcorre1ationdata:traiH$countandtrain$atempt=44.157,elf=10BB4fp-valueseson_summaryggpHot(trsri門(mén),aesCx=hour,y=count,colour=season)+geom_point(data=season_summary,aes(group=season)+geom_lineCdata=season_sunimary,aesCgroup=season)+seale_x_discrwt
19、w(Hour)+seale_y_confinuous(count,r)+theme_mindmal0+ggfitle(PeoplerentbiIkesinorEinFal1,andmuch1essinspring.nr)+theme(plot.fitle=element_textCsize=LB)430PanseasonSuinmsiWinter23斗&a78910111213141S1617181920212223Hour從圖中我們可以看出,人們更喜歡在夏天租賃自行車(chē)。在春天租賃自行車(chē)相對(duì)其他季節(jié)次數(shù)較少。4.5會(huì)員和非會(huì)員因素分析我們利用boxplot分別畫(huà)出注冊(cè)用戶(hù)租車(chē)數(shù)與小時(shí)之間的關(guān)系
20、和非注冊(cè)用戶(hù)租車(chē)數(shù)與小時(shí)之間的關(guān)系。:boxplot(tr耳Tn$rEgister亡日-tridn$hour,xlab=Egsterd,yab=rcount,r)boxplot(tr耳rn$casualtr耳Tn$hour,xlab=rcasual,yab=countJ01234507891D121斗16Ifl2D22012345678910121斗16192D22CH5USI從圖中我們可以看出,會(huì)員集中在11時(shí)到18時(shí)進(jìn)行租車(chē),非會(huì)員集中在7時(shí)到8時(shí),17到18時(shí)進(jìn)行租車(chē)。這里我們使用density函數(shù),首先求出分布情況,然后利用plot函數(shù)畫(huà)出圖。總觀賈吐核密度閣N=10686Barkdw
21、dth=25.33我們可以看出總租賃量很大部分分布在100左右。會(huì)乩租値楚核匪麼圖ON=10886Bandwidth-4.71我們可以看到會(huì)員租賃量量的分布在近30左右。II會(huì)欽機(jī)賃量核靈度閤0200400600800富匸*口N-10886Bandwidth-1947我們可以看到非會(huì)員租賃量量的分布在90左右。從上圖我們可以看出,自行車(chē)的租賃人群中,很大一部分是非會(huì)員4.6風(fēng)度因素分析原假設(shè):風(fēng)度和會(huì)員租賃自行車(chē)量是相互獨(dú)立的achisq.testCtrainSwindspeed,trainScasual)Pearson5chi-squaredtestdata:trainfwindspeeda
22、ndtrainfcasualX-squared=89S3.8,df=8316,p-value=2.139e-07warnlngmessAge:Lnchisq.testCtPAinfwindspeed,tralnJ匸鼻51&1):chi-squaredii似算法有可能不難P-valuevO.Ol,所以我們拒絕了風(fēng)度和會(huì)員租賃自行車(chē)量相互獨(dú)立的原假設(shè),選擇了備著假設(shè),即風(fēng)度和會(huì)員租賃自行車(chē)量不相互獨(dú)立。原假設(shè):風(fēng)度和非會(huì)員租賃自行車(chē)量是相互獨(dú)立的chisq.test(trn$wnndspeed,trann$registered)Pearsonschi-squaredtestdat:traln$wi
23、ndspeedandtraln$reg1sxeredx-squarecl=17609,df=1710,p-vjilue=1warnnngmessage:inchisq.re5T(Train5wind5peed,rrainjreglsrered):ch-i-squard3iDlM法有可微不準(zhǔn)P-Value0.05,所以我們接受了風(fēng)度和非會(huì)員租賃自行車(chē)量相互獨(dú)立的原假設(shè)histws-ggplot(data-train9ass(trainSwindspeed)i-geom_histog1111-ccxint)5breaks=seq(5a50)+seale_f1ll_grad1enL(count!Ps
24、low=np5Teelbluerrsh1gh=,FRed!r)+labs(t1tl=Histagzmforwiindspeed,r)41abs(K=,rwiindspeedr,ay=CQ4jnit,r)Histogramforwindsp&dGaunt!9DO!-iDOlrlii從圖中我們可以看出,人們更喜歡在風(fēng)度小于20時(shí),租賃自行車(chē)。histAtemp=ggp1otCdata=traii,aesftrainSatenp)4-geom_histogramCaesCfil=.ccunz.cale_-f-ill_gradintCcouit1,1ow-5telblue,high-Red)+labs
25、(z-itle-H-i5Lograniforfeels1iketenpj+1dLs(x=FeelLiketemp,y=count)HistogramforfeelsliKetemp0102030HQFeelLiketemp從圖中我們可以看出,人們喜歡在體感溫度為10到35度時(shí)租賃自行車(chē)。4.7濕度因素分析原假設(shè):濕度和自行車(chē)需求量的Person相關(guān)系數(shù)為0cor匸亡st(匸口廿門(mén)$liunrichty,Pearson1sproduct-momentcorrelatnondata:tralnjhuwidltyandtralnScountt=-34.915:df=10884,p-valueplot
26、(tralni$hum1ditzy,tralfifcasual)ao10Q租賃自行車(chē)。oa2D60irainShumidity從圖中我們可以看到會(huì)員喜歡在濕度30到80時(shí),JT11IVHIIIIwiIJ-JWSbI十MlXaTLMlpl。匸(匸rainShiniidity,匸raintregistered)020-4060SO1DOtraiinShunudltyon-n-8AA-S.UqoAa0_o塔8Psq從圖中我們可以看出非會(huì)員喜歡在濕度35到85,租賃自行車(chē)。4.8周幾因素分析aboxplotrainScasu-al-trann$Weekclay,xlab=,rcas=ual,ylab=
27、count)周日周一周二周三周四周五周龍呂旳呂l?sl呂lJ-3-JJcasual從圖中我們可以看出,會(huì)員喜歡在周六周日租車(chē),非會(huì)員在周一到周五租車(chē)較多。4.9各種因素與租賃量的相關(guān)性train.countirainribtefQdrraincasualtrainlempmain別emptrainhumidityb-am.windspead可見(jiàn),count與temp、atemp是正相關(guān),不過(guò)按照常識(shí)一般溫度太高或太低,人們一般不會(huì)使用共享單車(chē);count與registered的相關(guān)度要比casual高,registered、casual與count是正相關(guān);count與humidity負(fù)相關(guān),
28、說(shuō)明濕度太大,單車(chē)使用次數(shù)會(huì)減少;count與windspeed關(guān)聯(lián)度不太明顯。4.10決策樹(shù)分析為了研究非會(huì)員和小時(shí)之間的關(guān)系,我們選用決策樹(shù)進(jìn)行分析。train$hour1dtreedtreejcptablecpnspllx0.2B85507800.0632B14310.0612169220.0426503B30.0254545340.017707425O.DIOOOOOO6rQerrorl.aoooooo0.7114492:0.648丄石0.5B695090.54430050.51884600.5011.3B5XEror1.0002651.71165380.6474631.5875138
29、O.54500310.5198261O.5023346xstd0.0206181820.0168249250.015B634240.0134&09210.0121635590.0105037430.009727536這里cptable值中包括不同大小的樹(shù)對(duì)應(yīng)的預(yù)測(cè)誤差。plotcpCdtree我們借助plotcp()函數(shù)畫(huà)出交叉驗(yàn)證誤差與復(fù)雜度參數(shù)的關(guān)系圖。這里我們可以看最小的交叉驗(yàn)證誤差為0.502標(biāo)準(zhǔn)差0.009,則最優(yōu)樹(shù)的交叉驗(yàn)證誤差在0.493-0.51之間,因此我們選擇七個(gè)終端節(jié)點(diǎn)。library(rpart.plot)rpartplcit(dtr芒e)hourl11013%3051
30、7%hurl=20hOLirlc1819742%rhOUM十10hour!fit-stl(tsuml)Errorinstl(t5unl):序列浚有周期,或其周期小于二t丁*h我們對(duì)其進(jìn)行季節(jié)性分解,發(fā)現(xiàn)其并沒(méi)有周期。對(duì)數(shù)據(jù)進(jìn)行處理,求出每一個(gè)月的租賃量。5tl-as.charactertrannSdateyear-strsplitCstl,yearl-pHsreCsapplytyear,rE.1D,5apply(year,rE,2),sep=-,r)trainSymyearly(n_sumnarytsLw-tstyrn_summaryjcou門(mén)匸匸=c(20LL,11),frequency=L
31、2)tslanF&b23552328445633266?69MzirAprMayJunJnilAugSep387355051779713897769204883296791049476611688512OH4130957171769130220133425OctNov79522708891279121D5551Dec611839897700000ooooffisscs從圖中可以看出,從總體來(lái)看每個(gè)月總的趨勢(shì)是在上升的。我們對(duì)其進(jìn)行季節(jié)分解進(jìn)行了可視化,從圖中我們可以看到,2012年每月的租賃量都比2011對(duì)應(yīng)的租賃量多。4.12聚類(lèi)分析為了深入研究數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)內(nèi)部的關(guān)系,我們首先根據(jù)日期進(jìn)行
32、分類(lèi)。suml-ddplyftrain,Cdare,summarise,huaity=nwii由于數(shù)據(jù)太多不利于我們計(jì)算,因此我們選擇截取前十條數(shù)據(jù),以局部來(lái)觀察總體數(shù)據(jù)。jj-_rRm|亠fUi_4|_IJf%JIIRL.4.IIIg、%-!UJdJ,7l3l|mj.Hsum?-suml1:10,1:5sCsum2-3um23datesum?-sum22:5在其樣本之前距離,我們首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化5um2,scale=seale(sum2)然后求樣本之間距離,并進(jìn)行聚類(lèi)。d-cH5t(sum2.5cale)fit.average-hclusT(daniethod=avera
33、ge,r)2011-01-022ttii-oi-oa2011-01-042011-01-052011-01-062011-01-072G11-01-02oii-oi-og2011-01-102011-01-011.0263&S44.3.66501764.22451663.991795a.05.2gwB4.OH73115.106200斗.60321142O11-O1-G24.0fi964QO1-65303501-93475941-76BBD4-23B5B235O3.77196724閔404酉g4.35350342011-QI-oa2DLl-01-Qi2O11-O1-D52D11-D1-O6201
34、1-01-G72011-01-062011-01-031355C9B2(h1.03302670.62724K1.7265i2.1S7-00.W877551-5227732Ou6&SH1430.765963A0755165乙闿胡鋪1,5靠胡刪0.7283714-0.73390nc-NbcllslCsuniz.scaleFd1SLance=reucl1dean,r,m1n.nc=2,ntax.nc=5,niei:hixj=averagetable(nc$Eest.icl,P023529104barplot(tableCnc$Be5t.rc丄,)xlEb=NumbEufclusteraylaj=rN
35、umberufCriLefia)C=3從圖中我們可以看出,10個(gè)判定準(zhǔn)則贊同聚類(lèi)個(gè)數(shù)為3,因此在這里我們選取聚類(lèi)的個(gè)數(shù)為3個(gè)。:=-clusters-cutrtiritavEr亂gftab!e(dU5ter5)clusters123253pl匸尸彳匸.average,hang=-1,cex=O.8)rec匸.hclUEtlfrt.,k=3)從圖上我們可以看到2011-01-01和2011-01-02屬于一類(lèi),2011-01-04、06、07、03、05屬于一類(lèi)。2011-01-09、08、10屬于一類(lèi),總共三個(gè)聚簇。sund.rempatempcountdatehunriry1Z011-01-
36、0180583331斗.11083318.181250斗10斗1石F22011-01-0269.6087014.90260917.686S5734.8260S32011-01-0343.72727S.0R9095.47022761.3181842011-01-0459.043488.2OOOOOID.60608767.9130452011-01-0543.695659.30521711.46347869.5652262Q11-&1-0651.826098.37826111.66043569.8260372Q11-Q1-0749.869578.05739110.44195765.65217820
37、11-01-0853.583336.7650008.11270839.95833g2Q11-Q1-0943.416675.6716675.80875034.25000102011-01-1048.291676.1841677.54437555.04167從數(shù)據(jù)來(lái)看,我們可以發(fā)現(xiàn)第一類(lèi)的濕度,溫度、體感溫度較高,租車(chē)人數(shù)居中,第二類(lèi)的濕度集中50左右,溫度在8到9度左右,體感溫度在十度左右,租車(chē)人數(shù)較多,第三類(lèi)濕度和溫度、體感溫度都較低,租車(chē)的人數(shù)也相對(duì)較少。從中我們可以發(fā)現(xiàn)濕度、溫度、體感溫度對(duì)租車(chē)人數(shù)存在著巨大的影響。從上面分析情況可知:1、共享單車(chē)秋天使用次數(shù)最多,其次時(shí)夏天,春天明顯少于
38、其他季節(jié);2、工作日早晚高峰(早8點(diǎn)、晚17點(diǎn))使用最多,周六日主要集中在12點(diǎn)到17點(diǎn);3、溫度在20C左右,濕度在4060,共享單車(chē)使用最多;4、天氣越好,單車(chē)使用越多。綜上所述:對(duì)于共享單車(chē)運(yùn)營(yíng)公司,要在夏天、秋天、早晚高峰等需求量大的階段,提供充足的單車(chē),提高運(yùn)營(yíng)效率;在春天、壞天氣等需求低谷階段,一方面可以通過(guò)一些活動(dòng)提高客戶(hù)使用率,另一方面可以將重點(diǎn)放到車(chē)輛進(jìn)行保養(yǎng)或更新?lián)Q代。對(duì)于普通用戶(hù)來(lái)說(shuō),要注意避開(kāi)高峰階段,合理選擇交通工具。比如工作日可以早點(diǎn)出發(fā),或乘坐公共交通等。5租賃量預(yù)測(cè)模型建立5.1回歸預(yù)測(cè)這里我們使用廣義相加模型進(jìn)行回歸預(yù)測(cè)。這樣我們不用假設(shè)模型是線(xiàn)性回歸還是非線(xiàn)
39、性回歸。首先導(dǎo)入廣義相加模型包libraryset.sccd(丄)然后將數(shù)據(jù)集劃分為測(cè)試集和訓(xùn)練集sample.indextrainl-tzrainsamp!e.index,test!y-train-samp!e.indtx,-I然后進(jìn)行廣義相加模型的建立XLTZJI.丄一LII|r)(intercept)-3.27528g.54688-0.3430.731553seasoiriSumer2B.EB3424.777298.13946216支seasonFall23.S96966.100953.9179.05e-05glm5i:EpevianteAlt&3S6O12492S13-temp1937
40、5829592819-atemp1&38234-5592S24-winclspeecl1&402346392840-hunficlity19762835993125-season39B1DS67393158-hour231&239602397S09下圖中的黑點(diǎn)代表實(shí)際的數(shù)據(jù)、紅點(diǎn)代表預(yù)測(cè)的數(shù)據(jù)。GeneralizedLinearModel050D10001b0020Q02500MOOindexrdo迺匸住芯巴蠱一5.2隨機(jī)森林首先我們對(duì)數(shù)據(jù)進(jìn)行分割,建立測(cè)試集和訓(xùn)練集-11brary(randomForestz)setseed1)sample,index-sanpleCnrcywCtrann),10066*0.1,repiace=FALSE)trln丄fitfit乜Call:raimdaiTiForest(farmula二countseasoni-fhou十temp十humidity十且=tra1nl)Typeofrandomforest:regressioniNumberoftrees:500eachsplit:2vmindspeed十a(chǎn)temp!datNo.ofvariablestriedatMeanofsquared%va.iTresiduals:10744.46explalned:&目3;查變量的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 與保潔員簽勞動(dòng)合同模板
- 公司聘書(shū)合同模板
- 企業(yè)委托核酸檢測(cè)合同范例
- 山林承包合同范例
- 建筑鋁范例租賃合同范例
- 園區(qū)合租轉(zhuǎn)租合同范例
- 培訓(xùn)機(jī)構(gòu)工作合同范例
- 廢紙場(chǎng)地收購(gòu)合同范例
- 室外盆栽出租合同模板
- 商鋪抽成合同范例
- 鋁合金壓鑄件檢驗(yàn)標(biāo)準(zhǔn)20160426
- 三級(jí)配電箱電路圖(共2頁(yè))
- 第三講 DPS應(yīng)用(5、專(zhuān)業(yè)試驗(yàn)統(tǒng)計(jì))
- 工具式懸挑防護(hù)棚安全專(zhuān)項(xiàng)施工方案
- 初中音樂(lè)江蘇民歌ppt課件
- 《2021國(guó)標(biāo)暖通圖集資料》14K117-3 錐形風(fēng)帽
- 機(jī)動(dòng)車(chē)維修企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化考評(píng)方法和考評(píng)實(shí)施細(xì)則(完整版)
- 江西省職業(yè)培訓(xùn)補(bǔ)貼范圍及標(biāo)準(zhǔn)-江西省職業(yè)技能鑒定指導(dǎo)中心
- 七年級(jí)生物上冊(cè)(濟(jì)南版)知識(shí)點(diǎn)歸納
- 應(yīng)急聯(lián)防聯(lián)動(dòng)協(xié)議
- D600變頻器說(shuō)明書(shū)
評(píng)論
0/150
提交評(píng)論