ArcGIS平臺下的大數(shù)據(jù)挖掘_第1頁
ArcGIS平臺下的大數(shù)據(jù)挖掘_第2頁
ArcGIS平臺下的大數(shù)據(jù)挖掘_第3頁
ArcGIS平臺下的大數(shù)據(jù)挖掘_第4頁
ArcGIS平臺下的大數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

掃題答題ArcGIS平臺下的大數(shù)據(jù)挖掘Esri(中國)盧萌概念的進(jìn)化從數(shù)據(jù)挖掘說起數(shù)據(jù)分析傳奇故事:“啤酒與尿布”——這僅僅是一個都市傳說,一個數(shù)據(jù)分析界的心靈雞湯進(jìn)階為大數(shù)據(jù)分析交通廣播電視電力氣象公共設(shè)施農(nóng)業(yè)城市管理貨單市場消費者運營……空間數(shù)據(jù)挖掘空間數(shù)據(jù)挖掘空間大數(shù)據(jù)大數(shù)據(jù)IOEInternetofEverything智慧、歷程、足跡……onesmallstepforaman,

onegiantleapformankind歷史記錄方式時間:1880年姓名:詹姆斯.加菲爾德事件:美國第20任總統(tǒng)

直到現(xiàn)在,歷史學(xué)家還是以一種總體的形式來研究一個國家,他們只能給我們講述帝王將相以及戰(zhàn)爭的歷史,但關(guān)于人民本身—我們龐大社會中每個生命的成長、各種力量、細(xì)節(jié)及其規(guī)律,歷史學(xué)家說不出太多的東西……而普查把我們的觀察放大到民房、家庭、工廠、煤礦、田野、監(jiān)獄、醫(yī)院等集中展示人性之強(qiáng)大及脆弱的所有地方,這讓新的歷史記錄成為可能。數(shù)據(jù)記錄歷史,平臺講述故事空間數(shù)據(jù)挖掘數(shù)據(jù)挖掘十大經(jīng)典算法分類C4.5支持向量機(jī)AdaBoost樸素貝葉斯模型CART:分類與回歸樹聚類K最近鄰K-Means關(guān)聯(lián)分析Apriori相似搜索及評價最大期望(EM)算法PageRank數(shù)據(jù)挖掘十大經(jīng)典算法 Theactualcompanyvalues,asopposedtothenice-soundingvalues,areshownbywhogetsrewarded,promoted,orletgo

公司真正的價值觀和那些動聽的表態(tài)完全相反,它們具體通過那些人被獎勵、被提升和被解雇來體現(xiàn)。

——Netflix數(shù)據(jù)挖掘——直指核心以人為本誠信第一重視人才正直善良與時俱進(jìn)尊重個性空間數(shù)據(jù)挖掘能解決的問題空駛率:34.7%>300,000,000 Areductionofjustonemileadayperdriverwouldsavethecompanyasmuchas$50million.

——每人每天少開1英里,公司每年省下5000萬($)。

5.5萬條道路

1萬條已經(jīng)完成優(yōu)化

150萬加侖汽油

1.4萬立方噸二氧化碳UPS的成功——截止到2015年因果抽三分樣本,人生無常似概率驗七分總體,世事歸宗皆統(tǒng)計回歸本源:地理分析在什么地方,發(fā)生了什么事情?任何技術(shù)都是存在于人和計算機(jī)之間,人和計算機(jī)都發(fā)揮著重要的作用人機(jī)每個過程都將留下獨特的足跡,我們將解釋這些足跡的意義。足跡上至無窮的太空,下至最深的地底,人類已知的所有位置范圍關(guān)于世界的一個獨特的視角視角地理分析核心:空間統(tǒng)計學(xué)空間概率概率密度不確定性統(tǒng)計推斷經(jīng)典統(tǒng)計學(xué)VS空間統(tǒng)計學(xué)樣本獨立性屬性A發(fā)生變化,屬性B被影響空間異質(zhì)性空間位置發(fā)生變化,分析結(jié)果也會發(fā)生變化多變量影響被鄰居影響,引發(fā)結(jié)果偏差空間自相關(guān)空間異質(zhì)性插值分析:NoMapReduceArcGIS+Hadoop實現(xiàn)海量數(shù)據(jù)

熱度圖GIStoolsforhadoopjsonHadoopTools.pytGISToolsforHadoopSpatialFrameworkforHadoopGeoprocessingToolsforHadoopGeometryAPIJavahivespatial-sdk-hive.jarspatial-sdk-json.jaresri-geometry-api.jarsamplestoolsEsrionGitHub整個包中包括了所有的工具和示例,都是開源的。空間框架中包含了hive的UDF和JSON相關(guān)的SDK。Hadoop的一些GP工具,包括了數(shù)據(jù)上傳下載,工作流的調(diào)用等。Javageometrylibrary,用于JAVA開發(fā)空間分析功能。EsriJavaGeometryAPIequalsdisjointtouchescrosseswithincontainsoverlapsbuffercutclipconvexHullintersectuniondifference使用hadoop進(jìn)行分析的流程HadoopCluster.jar把空間數(shù)據(jù)加入到Hadoop中空間數(shù)據(jù)在hadoop中可以表現(xiàn)為多種不同的方式。點模式是空間大數(shù)據(jù)的主要分析模式ONTARIO,34.0544,-117.6058RANCHOCUCAMONGA,34.1238,-117.5702REDLANDS,34.0579,-117.1709RIALTO,34.1136,-117.387RUNNINGSPRINGS,34.2097,-117.1135ONTARIO POINT(34.0544,-117.6058)RANCHOCUCAMONGA POINT(34.1238,-117.5702)REDLANDS

POINT(34.0579,-117.1709)RIALTO

POINT(34.1136,-117.387)RUNNINGSPRINGS POINT(34.2097,-117.1135)由指定符號分隔數(shù)據(jù)由制表符分隔的數(shù)據(jù){{‘a(chǎn)ttr’:{‘name’=‘ONTARIO’},’geometry’:{‘x’:34.05,’y’:-117.60}}{{‘a(chǎn)ttr’:{‘name’=‘RANCHO…’},’geometry’:{‘x’:34.12,’y’:-117.57}}{{‘a(chǎn)ttr’:{‘name’=‘REDLANDS’},’geometry’:{‘x’:34.05,’y’:-117.17}}{{‘a(chǎn)ttr’:{‘name’=‘RIALTO’},’geometry’:{‘x’:34.11,’y’:-117.38}}{{‘a(chǎn)ttr’:{‘name’=‘RUNNING…’},’geometry’:{‘x’:34.20,’y’:-117.11}}JSON…類似于well-knowntext(WKT)的定義方式Esri’sJSON定義的方式用多個位置來定義多個字段編程順序條件定義階段加載分析條件Setup方法分析數(shù)據(jù)加載階段從集群中分解待分析的數(shù)據(jù)K-V格式映射Map方法初步處理階段初步排序和組合聚合分析階段最終聚合結(jié)果前提條件:待分析的數(shù)據(jù)已經(jīng)存儲到HDFS中。MR模式下的分析示例MR模式下的分析示例定義條件:在可視化情況下定義分析條件轉(zhuǎn)化為hadoop可以識別的數(shù)據(jù)流EsriJsonWKTTextHadoopToolsCopytoHDFSCopyfromHDFSExecuteWorkflowFeaturestoJSONJSONtoFeaturesMR模式下的分析示例在運算集群上加載查詢條件HadoopClusterJSONJSONJSONJSONMR模式下的分析示例按照格式讀取數(shù)據(jù),進(jìn)行格式化解析MR模式下的分析示例利用Geometry模型進(jìn)行空間計算將結(jié)果處理為K-V模式MR模式下的分析示例進(jìn)行最終聚合計算MR模式下的分析示例計算完成,將結(jié)果轉(zhuǎn)換為可識別的空間數(shù)據(jù)MR模式下的分析示例利用聚合完成的空間數(shù)據(jù),進(jìn)行空間密度分析回顧總體過程自定義聚合:K值設(shè)定最重要2567325673Count3Min2Max6Count2Min3Max7256Count3Min2Max673Count2Min3Max725673Count5Min2Max71.使用Map/Reduce對點進(jìn)行分區(qū)聚合2.使用Map/Reduce進(jìn)行全局?jǐn)?shù)據(jù)聚合3.在桌面軟件中進(jìn)行空間分析,并且渲染成圖走向SparkHadoop生態(tài)系統(tǒng)示意圖(2.0)HDFS(HadoopDistributedFileSystem)YARNResourceSchedulingandNegotiationHbaseNonrelationalDatabaseMapReduceDestributedProcessingOtherYARNframeworkHcatalogMetadataServicesPIGScriptOtherProjectsAmbari,Avro,Oozie,Zookeeper,etcHiveQuerySpark傳統(tǒng)調(diào)度模式用戶JobTrackerTaskTrackerTaskTaskTaskTrackerTaskTask1.0HDFS用戶ResourceManager

NodeManagerNodeManagerApplicationMaster

ContainerApplicationMaster

Container2.0NodeManagerContainerContainerYARN是干嘛的?HDFSSparkSpark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng),目的是讓數(shù)據(jù)分析更加快速。Spark非常小巧玲瓏,由加州伯克利大學(xué)AMP實驗室的Matei為主的小團(tuán)隊所開發(fā)。使用的語言是ScalaSpark核心調(diào)度技術(shù)用戶ResourceManager

NodeManagerNodeManagerApplicationMaster

ContainerApplicationMaster

ContainerSpark+YarnNodeManag

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論