第三屆泰迪杯全國大學生數(shù)據(jù)挖掘競賽試題_第1頁
第三屆泰迪杯全國大學生數(shù)據(jù)挖掘競賽試題_第2頁
第三屆泰迪杯全國大學生數(shù)據(jù)挖掘競賽試題_第3頁
第三屆泰迪杯全國大學生數(shù)據(jù)挖掘競賽試題_第4頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第三屆泰迪杯全國大學生數(shù)據(jù)挖掘競賽試題說明:1、參賽選手可從下述試題中任選一題作答,并在論文報告中標明2、論文等級會綜合考慮論文質(zhì)量和難度系數(shù)試題一 基于電商平臺家電設備的消費者需求及產(chǎn)品數(shù)據(jù)挖掘分析(難度系數(shù):1.0) 試題來源:背景:隨著互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)的快速發(fā)展,截止2014年6月,我國的網(wǎng)民規(guī)模達6.32億,互聯(lián)網(wǎng)普及率為46.9%,2015年中國網(wǎng)民的滲透率將接近50%。2014年天貓雙十一的交易額達571億,網(wǎng)上購物將成為人民生活的一部分。網(wǎng)民在電商平臺上瀏覽和購物,產(chǎn)生了海量的數(shù)據(jù),如何利用好這些碎片化、非結(jié)構化的數(shù)據(jù),將直接影響到企業(yè)產(chǎn)品在電商平臺上的發(fā)展,也是大數(shù)據(jù)在實際企

2、業(yè)經(jīng)營中的應用。對于用戶在電商平臺上留下的評論數(shù)據(jù),運用文本分析方法,了解用戶的需求、抱怨,購買原因以及產(chǎn)品的優(yōu)點、缺點,對于改善家電設備產(chǎn)品及用戶體驗有著重要的意義。據(jù)觀研天下行業(yè)分析:近年來我國家電設備銷量增長迅速,以電熱水器為例,2011年電熱水器市場銷量比2010年增長2.29%,銷售額增長5.23%;2013年熱水器零售量達到2842萬臺,零售額達到459億元,2014年熱水器整體規(guī)模向上,但增速較2013年有所回落,零售量達到2985萬臺,零售額達到504億元。需求:1、 分析用戶對于熱水器/凈水器產(chǎn)品的個性化需求;2、 分析現(xiàn)有電商熱水器/凈水器的產(chǎn)品劣勢(用戶抱怨點)及產(chǎn)品優(yōu)勢

3、(用戶贊點);3、 分析各品牌的產(chǎn)品間的差異,進行差異化賣點提煉;4、 分析用戶購買的原因;5、 對用戶的購買行為進行分析挖掘(搜索關鍵字、購買時關注點、購買步驟、使用、評價)(此部分可選擇來做)。 提示:1、 在電商平臺進行評論數(shù)據(jù)抓?。捎没疖囶^采集器進行評論爬蟲);2、 對評論數(shù)據(jù)進行預處理(處理掉水軍及隨意發(fā)表的評論數(shù)據(jù));3、 可分品類進行細化分析(熱水器:電熱熱水器、燃氣熱水器;凈水器:凈水機、純水機);4、 對評論數(shù)據(jù)進行文本分析(好評、差評、中文分詞、詞頻統(tǒng)計、情感分析、語義網(wǎng)絡);5、 可利用百度指數(shù)、淘寶指數(shù)等互聯(lián)網(wǎng)工具對熱水器和凈水器的消費人群及搜索關注點進行分析;6、

4、建議在國內(nèi)外相關文獻的基礎上盡量選擇新技術手段進行挖掘,比如基于深度學習理論模型完成情感分析,參見文獻:基于深度學習的微博情感分析、基于深度學習的文本情感分類研究等。說明:1、 附件一_電熱水器及凈水器評論數(shù)據(jù)集.zip是電熱水器和凈水器的評論數(shù)據(jù),參賽者也可去電商平臺進行數(shù)據(jù)爬蟲,爬取最新的評論數(shù)據(jù)(若自行爬取的數(shù)據(jù),提交論文成果時請一并提交);2、 參賽者可以選擇熱水器或者凈水器任一一個品類進行分析挖掘;3、 參賽者可以從以上需求選擇部分或所有主題進行建模分析,也可提出自已的分析主題。試題二 基于數(shù)據(jù)挖掘技術的市財政收入分析預測模型(難度系數(shù):0.8)試題來源:背景:在我國現(xiàn)行的分稅制財政

5、管理體制下,地方財政收入不僅是國家財政收入的重要組成部分,而且具有其相對獨立的構成內(nèi)容。地方財政收入是區(qū)域國民經(jīng)濟的綜合反映,也是市場經(jīng)濟國家的政府進行宏觀調(diào)控的基礎??茖W、合理地預測地方財政收人,對于克服年度地方預算收支規(guī)模確定的隨意性和盲目性,正確處理地方財政與經(jīng)濟的相互關系具有十分重要的意義。廣州市作為廣東省的省會,改革開放的前沿城市,交通便利,擁有中國大陸三大國際航空樞紐機場之一的廣州白云國際機場和中國第三大港口、港口貨物吞吐量居世界港口第五位的廣州港。廣州號稱“千年商埠”,歷史上一直是中國最重要的商業(yè)中心之一,商業(yè)網(wǎng)點多、行業(yè)齊全、輻射面廣、信息靈、流通渠道通順,擁有商業(yè)網(wǎng)點10萬多

6、個,為中國十大城市之冠。廣州市在實現(xiàn)經(jīng)濟快速發(fā)展,地區(qū)生產(chǎn)總值飛躍的同時,也意味著財政收入的增收。2013年,廣州實現(xiàn)地區(qū)生產(chǎn)總值(GDP)15420.14億元,增長11.6%。其中,第一產(chǎn)業(yè)增加值228.87億元,增長2.7 %;第二產(chǎn)業(yè)增加值5227.38億元,增長9.2%;第三產(chǎn)業(yè)增加值9963.89億元,增長13.3%。第一、二、三產(chǎn)業(yè)增加值的比例為1.4833.9064.62。三種產(chǎn)業(yè)對經(jīng)濟增長的貢獻率分別為0.4%、29.0%和70.6%。廣州地方公共財政預算收入1141.79億元,增長10.8%;如何做出下一年有效的財政收入預算,為下一年的政策提供指導依據(jù),是一個具有重大意義的問

7、題。需求:1、梳理影響廣州市財政收入關聯(lián)指標的有關數(shù)據(jù),分析、識別影響財政收入的關鍵影響因素;2、結(jié)合需求1的因素分析,利用相關的數(shù)據(jù)挖掘技術對廣州市2015年的財政總收入及各個類別收入進行預測;3、結(jié)合社會經(jīng)濟發(fā)展和廣州市近幾年的財政收入及支出等情況,從財政收入和支出預算的角度,向廣州市財政局提出幾點建議。提示:1、可在廣州市統(tǒng)計信息網(wǎng)(2、在稅收方面,可進行細化分析,如增值稅、營業(yè)稅、企業(yè)所得稅、個人所得稅等;3、在向廣州市財政局提建議時,考慮經(jīng)濟因素和非經(jīng)濟因素;4、建議查找多方面的數(shù)據(jù),進行綜合分析。說明:1、 附件二_相關資料.zip為財政收入影響因素的參考資料,參賽者也可自行查找相

8、關資料。試題三 城市供水處理混凝投藥過程的建模與控制(難度系數(shù):0.9) 試題來源:背景:水是生命的源泉,是人類生活不可缺少的成分,然而隨著工業(yè)發(fā)展迅速,人類活動范圍的快速擴大,水資源受到的污染日益嚴重。因此,怎么樣有效地對水進行凈化處理,成為了當今國內(nèi)外學者研究的熱點問題。對水進行凈化處理要經(jīng)過混合、絮凝、沉淀、過濾和消毒五個階段,絮凝沉淀是水處理的初始環(huán)節(jié),是懸浮顆粒、膠體等雜質(zhì)處理的必需工藝。影響絮凝效果的因素很多,包括原水流量、原水濁度、原水pH值、原水溫度、混凝劑投加量和原水中藻類等等。投藥控制就是綜合考慮這些因素進行混凝劑最少最經(jīng)濟投加,而達到最優(yōu)的絮凝效果。濁度為水的清亮程度,是

9、水質(zhì)指標的重要參數(shù),單位為NTU。混凝就是用混凝劑把水中膠體粒子以及微小懸浮物的聚集過程,是凝聚和絮凝的總稱,凝聚是膠體失去穩(wěn)定性的過程,絮凝是脫穩(wěn)膠體相互聚集,沉淀則是將混凝后的水中凝聚物實現(xiàn)下降、沉積,減少上層水中的凝聚物數(shù)量。通過混凝和沉淀就可以減少水中懸浮顆粒的數(shù)量和大小,也就能實現(xiàn)濁度降低,投藥控制的目的是使沉淀池的出水濁度符合相關標準。此外由于混凝沉淀池是一個大容積對象,因此對于混凝劑投加與對應水絮凝沉淀后的濁度存在一段較長的時間差,造成控制滯后。圖 1展示了投藥控制流程。圖 1投藥控制流程水處理混凝投加過程是一個復雜的物理、化學反應過程,具有時滯和非線性特性。目前的混凝投藥控制方

10、法中總有一些不足之處,如燒杯實驗法需要每天或每周進行頻繁試驗,耗時很多且對輸出水質(zhì)影響很大;流動電流法中的流動電流檢測器在使用過程中會逐漸降低精度,且在高濁度水或某些污染較嚴重的水質(zhì)和絮凝劑是有機陰離子高分子時不能適用;數(shù)學模型法因混凝過程復雜,難以建立高精度和高可靠性的過程模型導致控制不能適應控制情況的變化,所以總的來說目前的投藥控制方法都是難以適應水質(zhì)的變化,魯棒性較差、抗干擾能力較弱。本案例的水廠在抽取原水后會進行化學預氧處理,達到除去微量有機污染、除藻、除臭味、控制氯化消毒副產(chǎn)物、氧化助凝和除去鐵錳等目的。水廠選用混凝劑是PAC,添加混凝劑后的水在反應池進行絮凝,流入3號和4號沉淀池,

11、取3號和4號沉淀池出水濁度的平均值作為沉淀池出水濁度,沉淀池出水濁度的合格標準為不大于1.10NTU。在歷史數(shù)據(jù)中,存在藥劑反應效果不好,沉淀池出水濁度不合格的數(shù)據(jù)。一般情況下,原水添加混凝劑反應到沉淀結(jié)束出水需要70min到120min。需求:1、 根據(jù)歷史原水水質(zhì)數(shù)據(jù)、原水流量數(shù)據(jù)、混凝劑投加量和沉淀池出水濁度數(shù)據(jù),求出原水添加混凝劑反應到沉淀結(jié)束出水需要的時間。2、 考慮需求1結(jié)果的滯后性,根據(jù)歷史原水水質(zhì)數(shù)據(jù)、原水流量數(shù)據(jù)和混凝劑投加量數(shù)據(jù),建立數(shù)學模型,求出最佳混凝劑投藥量。3、 考慮需求1結(jié)果的滯后性,考慮增加沉淀池濁度作為輸入?yún)?shù),結(jié)合歷史原水水質(zhì)數(shù)據(jù)、原水流量數(shù)據(jù)和混凝劑投加量數(shù)據(jù),建立數(shù)學模型,求出最佳混凝劑投藥量;4、 通常而言,溫度也是影響化學反映速度的一個重要因素。原數(shù)據(jù)中并未包含溫度數(shù)據(jù)。請做出相應的嘗試引入溫度數(shù)據(jù),并分析其對最佳投藥量的影響。 提示:1、 水處理過程的最終目標是通過對原水水質(zhì)參數(shù)的分析,在線實時控制藥劑的投加量,以適應原水水質(zhì)的不斷變化,使出水滿足各項水質(zhì)指標。即根據(jù)歷史數(shù)據(jù)辨識建立進水流量、濁度、PH值、加藥量和沉淀池出水濁度之間的數(shù)學模型,實時確定最佳混凝劑投藥量。說明:1、 附件三_投藥控

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論