基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第1頁(yè)
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第2頁(yè)
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第3頁(yè)
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第4頁(yè)
基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)挖掘的耕地非農(nóng)化研究

隨著經(jīng)濟(jì)的發(fā)展,尤其是城市化進(jìn)程的推進(jìn),中國(guó)的文化區(qū)受到了諸多因素的影響和大量減少,這將不可避免地帶來許多問題,影響到可持續(xù)和可持續(xù)發(fā)展。它的關(guān)鍵是中國(guó)的糧食危機(jī),以及我們的生存。針對(duì)經(jīng)濟(jì)發(fā)展帶來耕地非農(nóng)化的問題,國(guó)內(nèi)外學(xué)者從不同角度對(duì)其進(jìn)行了較為全面系統(tǒng)的研究,研究方法主要集中在定性和定量?jī)蓚€(gè)方面。定性的研究偏多,而這僅停留在表面的分析,不能確鑿地給出數(shù)據(jù)解釋。定量分析目前也主要是采用統(tǒng)計(jì)學(xué)的方法。數(shù)據(jù)庫(kù)技術(shù)的快速發(fā)展積累了大量的數(shù)據(jù),面臨如何從海量數(shù)據(jù)里發(fā)掘有用的知識(shí),數(shù)據(jù)挖掘技術(shù)由此而生。經(jīng)歷多年的發(fā)展,數(shù)據(jù)挖掘技術(shù)已日趨穩(wěn)定、成熟,且易于操作和理解,數(shù)據(jù)挖掘的研究也逐漸偏向應(yīng)用領(lǐng)域。其在商業(yè)、金融等領(lǐng)域的應(yīng)用已積累了不少成功經(jīng)驗(yàn),可在農(nóng)業(yè)領(lǐng)域的應(yīng)用卻還鮮見。本文分別采用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘兩種方法來討論耕地非農(nóng)化的問題,通過對(duì)比研究?jī)煞N方法的優(yōu)缺點(diǎn),旨在為類似的相關(guān)問題進(jìn)而為農(nóng)業(yè)領(lǐng)域其他問題提供一種新的解決方法和思路。1分析工具的介紹1.1統(tǒng)計(jì)學(xué)處理ss、模型分析、科研設(shè)計(jì)SPSS(StatisticalProductandServiceSolution)和SAS、BMDP被國(guó)際上稱為三大最有影響的統(tǒng)計(jì)軟件。SPSS作為三大統(tǒng)計(jì)軟件之一,其功能強(qiáng)大、界面友好、易用、易學(xué),包含了大多尖端的統(tǒng)計(jì)分析法,具有良好的數(shù)據(jù)定義、開放的數(shù)據(jù)接口、美觀靈活的統(tǒng)計(jì)圖表輸出。其被各類科研結(jié)構(gòu)和院校廣泛地應(yīng)用。本文選用它作為統(tǒng)計(jì)分析的工具。1.2基于過度挖掘的算法的數(shù)據(jù)庫(kù)磺化Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對(duì)應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品-Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。本文選用它作為數(shù)據(jù)挖掘分析的工具。2分析2.1數(shù)據(jù)收集本文數(shù)據(jù)來源于《2007年中國(guó)農(nóng)業(yè)發(fā)展報(bào)告》和《2007年中國(guó)統(tǒng)計(jì)年鑒》,結(jié)合實(shí)驗(yàn)的目的對(duì)數(shù)據(jù)進(jìn)行集成和清洗獲得實(shí)驗(yàn)數(shù)據(jù)表1。2.2統(tǒng)計(jì)分析2.2.1凈減耕地與其他經(jīng)濟(jì)發(fā)展因素的相關(guān)分析及回歸模型根據(jù)分析目標(biāo)旨在解釋耕地非農(nóng)化與經(jīng)濟(jì)發(fā)展因素之間的相關(guān)性,這里適宜采用多元線性回歸模型進(jìn)行統(tǒng)計(jì)分析。作為因果關(guān)系分析的基礎(chǔ),首先對(duì)表1的數(shù)據(jù)進(jìn)行簡(jiǎn)單相關(guān)分析,了解一下各個(gè)變量之間的一般相關(guān)性。然后依據(jù)表1的數(shù)據(jù)建立年內(nèi)凈減耕地面積與其他相關(guān)驅(qū)動(dòng)因子的多元線性回歸方程,由此確定各種經(jīng)濟(jì)發(fā)展因素對(duì)耕地面積的影響力。具體思路包括相關(guān)分析、多元回歸方程的建立、多元回歸關(guān)系的假設(shè)測(cè)驗(yàn)、偏回歸系數(shù)的假設(shè)測(cè)驗(yàn)、結(jié)果的解釋,其中兩個(gè)假設(shè)測(cè)驗(yàn)是為了驗(yàn)證建立的回歸關(guān)系的真實(shí)性。2.2.2農(nóng)業(yè)和社會(huì)服務(wù)、農(nóng)業(yè)成災(zāi)面積、深度經(jīng)濟(jì)指標(biāo)的分析用SPSS軟件對(duì)表1各個(gè)因子(除年份外)的相關(guān)性做簡(jiǎn)單分析,結(jié)果見表2。其中Y、X1、X2、X3、X4、X5、X6分別代表年內(nèi)凈減耕地面積、農(nóng)業(yè)從業(yè)人員占社會(huì)從業(yè)人員的比重、農(nóng)業(yè)各稅占財(cái)政收入的比重、用于農(nóng)業(yè)支出占財(cái)政支出的比重、成災(zāi)面積占受災(zāi)面積、年末農(nóng)村住房面積、農(nóng)村居民家庭恩格爾系數(shù)。從表中看出“年內(nèi)凈減耕地面積”分別與“用于農(nóng)業(yè)支出占財(cái)政支出的比重”、“農(nóng)村居民家庭恩格爾系數(shù)”兩個(gè)因子的相關(guān)系數(shù)為-0.551、-0.557,雙尾檢驗(yàn)概率p值為0.018、0.016(均小于0.05),故它們之間在0.05水平上顯著相關(guān)。其次,還可以看出其他因子之間也存在一定的相關(guān)性。2.2.3回歸模型a.c.a根據(jù)表2分析結(jié)果剔除部分跟因變量Y(年內(nèi)凈減耕地面積)不相關(guān)且和其他自變量有相關(guān)性的因素,保留農(nóng)業(yè)從業(yè)人員占社會(huì)從業(yè)人員的比重、農(nóng)業(yè)各稅占財(cái)政收入的比重、用于農(nóng)業(yè)支出占財(cái)政支出的比重、農(nóng)村居民家庭恩格爾系數(shù)。把表1作為數(shù)據(jù)來源,用SPSS對(duì)其做多元線性回歸分析,方法設(shè)為向后(準(zhǔn)則:F-to-remove>=.100的概率)。統(tǒng)計(jì)分析結(jié)果如下:a.已輸入所有請(qǐng)求的變量。b.因變量:年內(nèi)凈減耕地面積。a.因變量:年內(nèi)凈減耕地面積表4給出了回歸模型的擬合優(yōu)度(R方)、調(diào)整的優(yōu)度、估計(jì)標(biāo)準(zhǔn)差。從結(jié)果看,兩種模型回歸的可決系數(shù)分別為0.681和0.615,說明擬合優(yōu)度比較接近。表5給出了回歸模型的方差分析表。結(jié)果顯示,F統(tǒng)計(jì)值分別為6.927、7.461,對(duì)應(yīng)的p值均為0.003,小于0.05,表明在0.05的顯著水平下兩種模型的整體回歸關(guān)系是顯著真實(shí)的。表6給出了回歸系數(shù)、標(biāo)準(zhǔn)化的回歸系數(shù)以及各個(gè)回歸系數(shù)的顯著性t測(cè)驗(yàn)。T測(cè)驗(yàn)的結(jié)果表明,在0.05的顯著水平下,模型2所有變量的p值均小于0.05,通過了t測(cè)驗(yàn),說明該模型里所有變量對(duì)的回歸關(guān)系是相對(duì)真實(shí)的。因此模型2比模型1較優(yōu)化,由表6的回歸系數(shù)可得到對(duì)應(yīng)的回歸方程:Y=2633.079+108.931X1+388.661X2-173.050X3式中,Y表示年內(nèi)凈減耕地面積(千公頃),X1表示農(nóng)業(yè)從業(yè)人員占社會(huì)從業(yè)人員的比重(%),X2表示農(nóng)業(yè)各稅占財(cái)政收入的比重(%),X3表示農(nóng)村居民家庭恩格爾系數(shù)(%)。2.3數(shù)據(jù)提取分析2.3.1基于關(guān)聯(lián)規(guī)則挖掘的多維立體數(shù)據(jù)挖掘(DM,DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識(shí)的過程。具體包括陳述問題、搜集信息、預(yù)處理、挖掘數(shù)據(jù)(評(píng)估模型)、解釋模型。按任務(wù)分類可將數(shù)據(jù)挖掘分為:關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類數(shù)據(jù)挖掘、分類數(shù)據(jù)挖掘、偏差分析挖掘和預(yù)測(cè)挖掘等類型。考慮到目標(biāo)數(shù)據(jù)包含多個(gè)屬性,選取多維關(guān)聯(lián)規(guī)則挖掘技術(shù)進(jìn)行分析。挖掘流程如圖1。其中D為數(shù)據(jù)集,R為挖出的關(guān)聯(lián)規(guī)則集合。用戶通過指定最小支持度和最小可信度分別與頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則挖掘算法交互,并通過與R的交互對(duì)挖掘結(jié)果進(jìn)行解釋與評(píng)估,從而得出耕地非農(nóng)化與經(jīng)濟(jì)發(fā)展因素之間的相關(guān)性結(jié)論。2.3.2農(nóng)業(yè)互作及其分配由于目標(biāo)數(shù)據(jù)是連續(xù)的,為了方便關(guān)聯(lián)規(guī)則挖掘必須對(duì)數(shù)據(jù)離散化,這里采用自然劃分分段法。分別用A、B、C、D、E、F、G代表年內(nèi)凈減耕地面積、農(nóng)業(yè)從業(yè)人員占社會(huì)從業(yè)人員的比重、農(nóng)業(yè)各稅占財(cái)政收入的比重、用于農(nóng)業(yè)支出占財(cái)政支出的比重、成災(zāi)面積占受災(zāi)面積、年末農(nóng)村住房面積、農(nóng)村居民家庭恩格爾系數(shù),分段如表7。對(duì)照表7由表1得到事務(wù)數(shù)據(jù)庫(kù)表8。2.3.3對(duì)耕地流失面積的經(jīng)濟(jì)發(fā)展模型將表8作為數(shù)據(jù)源,利用WEKA軟件選取Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)定最小支持度lowerBoundMinSupport=0.15,最小置信度minMetric=0.9。挖掘結(jié)果如圖2。挖掘結(jié)果顯示產(chǎn)生的各項(xiàng)頻繁謂詞集的大小為:L1(18)、L2(55)、L3(55)、L4(20)、L5(3),總為151個(gè);獲取的關(guān)聯(lián)規(guī)則為176條。其中含有大量的無趣的規(guī)則,因?yàn)槲覀兎治龅淖罱K目的是了解A屬性受其他屬性的影響力,即哪些經(jīng)濟(jì)發(fā)展因子對(duì)耕地流失面積有影響,所以我們感興趣的有趣規(guī)則的后件應(yīng)該只包含A。通過查看,有趣的規(guī)則只有12條。例如:47.agr-finaexp=D33==>reduce-land=A23conf:(1)48.engel=G33==>reduce-land=A23conf:(1)47條規(guī)則表明用于農(nóng)業(yè)支出占財(cái)政支出的比重在10%~12%之間時(shí)年內(nèi)凈減耕地面積在0~1000千公頃范圍內(nèi)(支持度=0.17,置信度=1.0),48條則表明農(nóng)村居民家庭恩格爾系數(shù)在50%~55%之間時(shí)年內(nèi)凈減耕地面積在0~1000千公頃范圍內(nèi)(支持度=0.17,置信度=1.0)。這兩條規(guī)則表明了影響耕地面積的單個(gè)因子為農(nóng)業(yè)投資的比重和農(nóng)村居民恩格爾系數(shù),且從數(shù)值范圍可以看出它們對(duì)耕地面積的影響均是負(fù)相關(guān)。其他更多規(guī)則反映了多因子對(duì)耕地面積減少的綜合影響。3比較試驗(yàn)結(jié)果的分析3.1回歸關(guān)系分析相關(guān)分析的結(jié)果基本跟數(shù)據(jù)挖掘結(jié)果保持一致,但回歸分析結(jié)果雖然顯示整體經(jīng)濟(jì)發(fā)展因子跟耕地凈減面積之間呈顯性線性回歸關(guān)系,逐步回歸后各自變量偏回歸關(guān)系也顯示顯著真實(shí),但結(jié)果跟數(shù)據(jù)挖掘不太一致。究其原因是統(tǒng)計(jì)分析存在先天不足,即統(tǒng)計(jì)分析往往是建立在人為假設(shè)的前提下,回歸模型是事先假設(shè)存在的,想要得出深層次的真實(shí)因果關(guān)系,往往需要對(duì)回歸模型進(jìn)行修正,改變相應(yīng)的函數(shù)關(guān)系重新統(tǒng)計(jì),這項(xiàng)工作可能要重復(fù)多次。3.2經(jīng)濟(jì)發(fā)展因子關(guān)聯(lián)規(guī)則挖掘的結(jié)果跟統(tǒng)計(jì)簡(jiǎn)單相關(guān)分析存在一定的吻合,這種吻合從某種程度上證實(shí)實(shí)驗(yàn)結(jié)果的真實(shí)性。挖掘結(jié)果不但給出了影響耕地面積減少的單個(gè)因子,更為主要的是還給出了多個(gè)因子對(duì)耕地面積的綜合影響力,這和現(xiàn)實(shí)情況相吻合。事實(shí)上影響耕地面積不單是個(gè)別因子,而是多種因子綜合對(duì)耕地面積的變化發(fā)揮作用,甚至是對(duì)立的幾個(gè)因子互相消長(zhǎng)形成結(jié)果。另外,雖然結(jié)果包含大量無趣規(guī)則,但這些規(guī)則也顯示了經(jīng)濟(jì)發(fā)展因子間的相關(guān)關(guān)系,這和統(tǒng)計(jì)相關(guān)分析的結(jié)果也有一定的吻合。當(dāng)然,挖掘結(jié)果不一定能完全反映現(xiàn)實(shí)的真實(shí)情況,這和數(shù)據(jù)集的大小、數(shù)據(jù)屬性的選擇以及挖掘算法都有很大的關(guān)系。數(shù)據(jù)挖掘是一門新型技術(shù),它適合從大量信息中發(fā)現(xiàn)有用知識(shí),許多算法還有待改進(jìn),從而提高挖掘效率、減少無趣結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論