基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第1頁
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第2頁
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第3頁
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第4頁
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究

隨著經(jīng)濟的發(fā)展,尤其是城市化進程的推進,中國的文化區(qū)受到了諸多因素的影響和大量減少,這將不可避免地帶來許多問題,影響到可持續(xù)和可持續(xù)發(fā)展。它的關(guān)鍵是中國的糧食危機,以及我們的生存。針對經(jīng)濟發(fā)展帶來耕地非農(nóng)化的問題,國內(nèi)外學者從不同角度對其進行了較為全面系統(tǒng)的研究,研究方法主要集中在定性和定量兩個方面。定性的研究偏多,而這僅停留在表面的分析,不能確鑿地給出數(shù)據(jù)解釋。定量分析目前也主要是采用統(tǒng)計學的方法。數(shù)據(jù)庫技術(shù)的快速發(fā)展積累了大量的數(shù)據(jù),面臨如何從海量數(shù)據(jù)里發(fā)掘有用的知識,數(shù)據(jù)挖掘技術(shù)由此而生。經(jīng)歷多年的發(fā)展,數(shù)據(jù)挖掘技術(shù)已日趨穩(wěn)定、成熟,且易于操作和理解,數(shù)據(jù)挖掘的研究也逐漸偏向應用領(lǐng)域。其在商業(yè)、金融等領(lǐng)域的應用已積累了不少成功經(jīng)驗,可在農(nóng)業(yè)領(lǐng)域的應用卻還鮮見。本文分別采用統(tǒng)計分析和數(shù)據(jù)挖掘兩種方法來討論耕地非農(nóng)化的問題,通過對比研究兩種方法的優(yōu)缺點,旨在為類似的相關(guān)問題進而為農(nóng)業(yè)領(lǐng)域其他問題提供一種新的解決方法和思路。1分析工具的介紹1.1統(tǒng)計學處理ss、模型分析、科研設(shè)計SPSS(StatisticalProductandServiceSolution)和SAS、BMDP被國際上稱為三大最有影響的統(tǒng)計軟件。SPSS作為三大統(tǒng)計軟件之一,其功能強大、界面友好、易用、易學,包含了大多尖端的統(tǒng)計分析法,具有良好的數(shù)據(jù)定義、開放的數(shù)據(jù)接口、美觀靈活的統(tǒng)計圖表輸出。其被各類科研結(jié)構(gòu)和院校廣泛地應用。本文選用它作為統(tǒng)計分析的工具。1.2基于過度挖掘的算法的數(shù)據(jù)庫磺化Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費的,非商業(yè)化(與之對應的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品-Clementine)的,基于JAVA環(huán)境下開源的機器學習(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務(wù)的機器學習算法,包括對數(shù)據(jù)進行預處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。本文選用它作為數(shù)據(jù)挖掘分析的工具。2分析2.1數(shù)據(jù)收集本文數(shù)據(jù)來源于《2007年中國農(nóng)業(yè)發(fā)展報告》和《2007年中國統(tǒng)計年鑒》,結(jié)合實驗的目的對數(shù)據(jù)進行集成和清洗獲得實驗數(shù)據(jù)表1。2.2統(tǒng)計分析2.2.1凈減耕地與其他經(jīng)濟發(fā)展因素的相關(guān)分析及回歸模型根據(jù)分析目標旨在解釋耕地非農(nóng)化與經(jīng)濟發(fā)展因素之間的相關(guān)性,這里適宜采用多元線性回歸模型進行統(tǒng)計分析。作為因果關(guān)系分析的基礎(chǔ),首先對表1的數(shù)據(jù)進行簡單相關(guān)分析,了解一下各個變量之間的一般相關(guān)性。然后依據(jù)表1的數(shù)據(jù)建立年內(nèi)凈減耕地面積與其他相關(guān)驅(qū)動因子的多元線性回歸方程,由此確定各種經(jīng)濟發(fā)展因素對耕地面積的影響力。具體思路包括相關(guān)分析、多元回歸方程的建立、多元回歸關(guān)系的假設(shè)測驗、偏回歸系數(shù)的假設(shè)測驗、結(jié)果的解釋,其中兩個假設(shè)測驗是為了驗證建立的回歸關(guān)系的真實性。2.2.2農(nóng)業(yè)和社會服務(wù)、農(nóng)業(yè)成災面積、深度經(jīng)濟指標的分析用SPSS軟件對表1各個因子(除年份外)的相關(guān)性做簡單分析,結(jié)果見表2。其中Y、X1、X2、X3、X4、X5、X6分別代表年內(nèi)凈減耕地面積、農(nóng)業(yè)從業(yè)人員占社會從業(yè)人員的比重、農(nóng)業(yè)各稅占財政收入的比重、用于農(nóng)業(yè)支出占財政支出的比重、成災面積占受災面積、年末農(nóng)村住房面積、農(nóng)村居民家庭恩格爾系數(shù)。從表中看出“年內(nèi)凈減耕地面積”分別與“用于農(nóng)業(yè)支出占財政支出的比重”、“農(nóng)村居民家庭恩格爾系數(shù)”兩個因子的相關(guān)系數(shù)為-0.551、-0.557,雙尾檢驗概率p值為0.018、0.016(均小于0.05),故它們之間在0.05水平上顯著相關(guān)。其次,還可以看出其他因子之間也存在一定的相關(guān)性。2.2.3回歸模型a.c.a根據(jù)表2分析結(jié)果剔除部分跟因變量Y(年內(nèi)凈減耕地面積)不相關(guān)且和其他自變量有相關(guān)性的因素,保留農(nóng)業(yè)從業(yè)人員占社會從業(yè)人員的比重、農(nóng)業(yè)各稅占財政收入的比重、用于農(nóng)業(yè)支出占財政支出的比重、農(nóng)村居民家庭恩格爾系數(shù)。把表1作為數(shù)據(jù)來源,用SPSS對其做多元線性回歸分析,方法設(shè)為向后(準則:F-to-remove>=.100的概率)。統(tǒng)計分析結(jié)果如下:a.已輸入所有請求的變量。b.因變量:年內(nèi)凈減耕地面積。a.因變量:年內(nèi)凈減耕地面積表4給出了回歸模型的擬合優(yōu)度(R方)、調(diào)整的優(yōu)度、估計標準差。從結(jié)果看,兩種模型回歸的可決系數(shù)分別為0.681和0.615,說明擬合優(yōu)度比較接近。表5給出了回歸模型的方差分析表。結(jié)果顯示,F統(tǒng)計值分別為6.927、7.461,對應的p值均為0.003,小于0.05,表明在0.05的顯著水平下兩種模型的整體回歸關(guān)系是顯著真實的。表6給出了回歸系數(shù)、標準化的回歸系數(shù)以及各個回歸系數(shù)的顯著性t測驗。T測驗的結(jié)果表明,在0.05的顯著水平下,模型2所有變量的p值均小于0.05,通過了t測驗,說明該模型里所有變量對的回歸關(guān)系是相對真實的。因此模型2比模型1較優(yōu)化,由表6的回歸系數(shù)可得到對應的回歸方程:Y=2633.079+108.931X1+388.661X2-173.050X3式中,Y表示年內(nèi)凈減耕地面積(千公頃),X1表示農(nóng)業(yè)從業(yè)人員占社會從業(yè)人員的比重(%),X2表示農(nóng)業(yè)各稅占財政收入的比重(%),X3表示農(nóng)村居民家庭恩格爾系數(shù)(%)。2.3數(shù)據(jù)提取分析2.3.1基于關(guān)聯(lián)規(guī)則挖掘的多維立體數(shù)據(jù)挖掘(DM,DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。具體包括陳述問題、搜集信息、預處理、挖掘數(shù)據(jù)(評估模型)、解釋模型。按任務(wù)分類可將數(shù)據(jù)挖掘分為:關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類數(shù)據(jù)挖掘、分類數(shù)據(jù)挖掘、偏差分析挖掘和預測挖掘等類型??紤]到目標數(shù)據(jù)包含多個屬性,選取多維關(guān)聯(lián)規(guī)則挖掘技術(shù)進行分析。挖掘流程如圖1。其中D為數(shù)據(jù)集,R為挖出的關(guān)聯(lián)規(guī)則集合。用戶通過指定最小支持度和最小可信度分別與頻繁項集和關(guān)聯(lián)規(guī)則挖掘算法交互,并通過與R的交互對挖掘結(jié)果進行解釋與評估,從而得出耕地非農(nóng)化與經(jīng)濟發(fā)展因素之間的相關(guān)性結(jié)論。2.3.2農(nóng)業(yè)互作及其分配由于目標數(shù)據(jù)是連續(xù)的,為了方便關(guān)聯(lián)規(guī)則挖掘必須對數(shù)據(jù)離散化,這里采用自然劃分分段法。分別用A、B、C、D、E、F、G代表年內(nèi)凈減耕地面積、農(nóng)業(yè)從業(yè)人員占社會從業(yè)人員的比重、農(nóng)業(yè)各稅占財政收入的比重、用于農(nóng)業(yè)支出占財政支出的比重、成災面積占受災面積、年末農(nóng)村住房面積、農(nóng)村居民家庭恩格爾系數(shù),分段如表7。對照表7由表1得到事務(wù)數(shù)據(jù)庫表8。2.3.3對耕地流失面積的經(jīng)濟發(fā)展模型將表8作為數(shù)據(jù)源,利用WEKA軟件選取Apriori算法進行關(guān)聯(lián)規(guī)則挖掘,設(shè)定最小支持度lowerBoundMinSupport=0.15,最小置信度minMetric=0.9。挖掘結(jié)果如圖2。挖掘結(jié)果顯示產(chǎn)生的各項頻繁謂詞集的大小為:L1(18)、L2(55)、L3(55)、L4(20)、L5(3),總為151個;獲取的關(guān)聯(lián)規(guī)則為176條。其中含有大量的無趣的規(guī)則,因為我們分析的最終目的是了解A屬性受其他屬性的影響力,即哪些經(jīng)濟發(fā)展因子對耕地流失面積有影響,所以我們感興趣的有趣規(guī)則的后件應該只包含A。通過查看,有趣的規(guī)則只有12條。例如:47.agr-finaexp=D33==>reduce-land=A23conf:(1)48.engel=G33==>reduce-land=A23conf:(1)47條規(guī)則表明用于農(nóng)業(yè)支出占財政支出的比重在10%~12%之間時年內(nèi)凈減耕地面積在0~1000千公頃范圍內(nèi)(支持度=0.17,置信度=1.0),48條則表明農(nóng)村居民家庭恩格爾系數(shù)在50%~55%之間時年內(nèi)凈減耕地面積在0~1000千公頃范圍內(nèi)(支持度=0.17,置信度=1.0)。這兩條規(guī)則表明了影響耕地面積的單個因子為農(nóng)業(yè)投資的比重和農(nóng)村居民恩格爾系數(shù),且從數(shù)值范圍可以看出它們對耕地面積的影響均是負相關(guān)。其他更多規(guī)則反映了多因子對耕地面積減少的綜合影響。3比較試驗結(jié)果的分析3.1回歸關(guān)系分析相關(guān)分析的結(jié)果基本跟數(shù)據(jù)挖掘結(jié)果保持一致,但回歸分析結(jié)果雖然顯示整體經(jīng)濟發(fā)展因子跟耕地凈減面積之間呈顯性線性回歸關(guān)系,逐步回歸后各自變量偏回歸關(guān)系也顯示顯著真實,但結(jié)果跟數(shù)據(jù)挖掘不太一致。究其原因是統(tǒng)計分析存在先天不足,即統(tǒng)計分析往往是建立在人為假設(shè)的前提下,回歸模型是事先假設(shè)存在的,想要得出深層次的真實因果關(guān)系,往往需要對回歸模型進行修正,改變相應的函數(shù)關(guān)系重新統(tǒng)計,這項工作可能要重復多次。3.2經(jīng)濟發(fā)展因子關(guān)聯(lián)規(guī)則挖掘的結(jié)果跟統(tǒng)計簡單相關(guān)分析存在一定的吻合,這種吻合從某種程度上證實實驗結(jié)果的真實性。挖掘結(jié)果不但給出了影響耕地面積減少的單個因子,更為主要的是還給出了多個因子對耕地面積的綜合影響力,這和現(xiàn)實情況相吻合。事實上影響耕地面積不單是個別因子,而是多種因子綜合對耕地面積的變化發(fā)揮作用,甚至是對立的幾個因子互相消長形成結(jié)果。另外,雖然結(jié)果包含大量無趣規(guī)則,但這些規(guī)則也顯示了經(jīng)濟發(fā)展因子間的相關(guān)關(guān)系,這和統(tǒng)計相關(guān)分析的結(jié)果也有一定的吻合。當然,挖掘結(jié)果不一定能完全反映現(xiàn)實的真實情況,這和數(shù)據(jù)集的大小、數(shù)據(jù)屬性的選擇以及挖掘算法都有很大的關(guān)系。數(shù)據(jù)挖掘是一門新型技術(shù),它適合從大量信息中發(fā)現(xiàn)有用知識,許多算法還有待改進,從而提高挖掘效率、減少無趣結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論