

下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一分鐘了解互聯(lián)網(wǎng)數(shù)據(jù)挖掘流程1、爬蟲抓取網(wǎng)絡(luò)數(shù)據(jù)真實(shí)的數(shù)據(jù)挖掘項(xiàng)目,一定是從獲取數(shù)據(jù)開始的,除了通過一些渠道購買或者下載專業(yè)數(shù)據(jù)外,常常需要大家自己動(dòng)手爬互聯(lián)網(wǎng)數(shù)據(jù),這個(gè)時(shí)候,爬蟲就顯得格外重要了。Nutch爬蟲的主要作用是從網(wǎng)絡(luò)上抓取網(wǎng)頁數(shù)據(jù)并建立索引。我們只需指定網(wǎng)站的頂級(jí)網(wǎng)址,如,爬蟲可以自動(dòng)探測(cè)出頁面內(nèi)容里新的網(wǎng)址,從而進(jìn)一步抓取鏈接網(wǎng)頁數(shù)據(jù)。nutch支持把抓取的數(shù)據(jù)轉(zhuǎn)化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)轉(zhuǎn)換成純文字字符。Nutch與Hadoop集成,可以將下載的數(shù)據(jù)保存到hdfs,用于后續(xù)離線分析。使用步驟為:?向hdfs中存入待抓取的網(wǎng)站url$hadoopfs-puturldirurldir注:第一個(gè)urldir為本地文件夾,存放了url數(shù)據(jù)文件,每行一個(gè)url地址第二個(gè)urldir為hdfs的存儲(chǔ)路徑。?啟動(dòng)nutch,在NUTCH_HONE目錄下執(zhí)行以下命令$bin/nutchcrawlurldir-dircrawl-depth3-topN10命令成功執(zhí)行后,會(huì)在hdfs中生成crawl目錄。2、MapReduce預(yù)處理數(shù)據(jù)對(duì)于下載的原始文本文檔,無法直接進(jìn)行處理,需要對(duì)文本內(nèi)容進(jìn)行預(yù)處理,包括文檔切分、文本分詞、去停用詞(包括標(biāo)點(diǎn)、數(shù)字、單字和其它一些無意義的詞)、文本特征提取、詞頻統(tǒng)計(jì)、文本向量化等操作。常用的文本預(yù)處理算法是TF-IDF,其主要思想是,如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來做分類。?輸入原始文本內(nèi)容:Againitseemsthatcocoadelivered?執(zhí)行TF-IDF預(yù)處理:hadoopjar$JARSparseVectorsFromSequenceFiles???輸出文本向量:9219:0.246453:0.09810322:0.2111947:0.272??每一列是詞及其權(quán)重,使用冒號(hào)分隔,例如“9219:0.246”表示編號(hào)為9219的詞,對(duì)應(yīng)原始單詞為“Again”,其權(quán)重值為0.246。3、Mahout數(shù)據(jù)挖掘預(yù)處理后的數(shù)據(jù)就可以用來做數(shù)據(jù)挖掘。Mahout是一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具,是分布式機(jī)器學(xué)習(xí)算法的集合,包括:協(xié)同過濾、分類、聚類等。以LDA算法為例,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。它是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)不需要手工標(biāo)注主題,需要的僅僅是指定主題的數(shù)量K。此外LDA的另一個(gè)優(yōu)點(diǎn)則是,對(duì)于每一個(gè)主題均可找出一些詞語來描述它。輸入預(yù)處理后的數(shù)據(jù):9219:0.246453:0.098??執(zhí)行LDA挖掘算法:mahoutcvb-k20輸出挖掘結(jié)果:topic1{computer,technology,system,internet,machine}topic2{play,film,movie,star,director,production,stage}我們可以獲知用戶的偏好是哪些主題,這些主題是由一些關(guān)鍵詞組成。4、Sqoop導(dǎo)出到關(guān)系數(shù)據(jù)庫在某些場(chǎng)景下,需要把數(shù)據(jù)挖掘的結(jié)果導(dǎo)出到關(guān)系數(shù)據(jù)庫,用于及時(shí)響應(yīng)外部應(yīng)用查詢。sqoop是一個(gè)用來把hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle等)中的數(shù)據(jù)導(dǎo)入到hadoop的hdfs中,也可以將hdfs的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫中:sqoopexport-connectjdbc:mysql://localhost:3306/zxtest-usernameroot-passwordroot-tableresult_test-export-dir/user/mr/lda/outexport操作實(shí)現(xiàn)把hdfs目錄/user/mr/lda/out下數(shù)據(jù)導(dǎo)出到mysql的result_test表。編輯推薦】大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)給傳統(tǒng)企業(yè)和現(xiàn)有互
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中式面點(diǎn)制作(視頻課)知到課后答案智慧樹章節(jié)測(cè)試答案2025年春洛浦縣中等職業(yè)技術(shù)學(xué)校
- 海南外國語職業(yè)學(xué)院《建筑設(shè)計(jì)與構(gòu)造(2)》2023-2024學(xué)年第二學(xué)期期末試卷
- 長沙民政職業(yè)技術(shù)學(xué)院《大氣污染控制工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 柳州職業(yè)技術(shù)學(xué)院《材料連接原理與技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 廈門海洋職業(yè)技術(shù)學(xué)院《工程地質(zhì)(一)》2023-2024學(xué)年第二學(xué)期期末試卷
- 淮北職業(yè)技術(shù)學(xué)院《漆畫創(chuàng)作》2023-2024學(xué)年第二學(xué)期期末試卷
- 古代輿論溝通機(jī)制
- 構(gòu)建人類命運(yùn)共同體的重要性與必要性
- 高壓水槍沖洗施工方案
- 牌樓建筑修繕施工方案
- 巧繪節(jié)氣圖(教學(xué)設(shè)計(jì))-2024-2025學(xué)年二年級(jí)上冊(cè)綜合實(shí)踐活動(dòng)蒙滬版
- 《2024年 《法學(xué)引注手冊(cè)》示例》范文
- 2022年4月07138工程造價(jià)與管理試題及答案含解析
- 氣管插管操作并發(fā)癥
- JT∕T 795-2023 事故汽車修復(fù)技術(shù)規(guī)范
- 預(yù)防接種門診驗(yàn)收表4-副本
- 2024年交管12123學(xué)法減分考試題庫及完整答案(典優(yōu))
- 數(shù)智時(shí)代的AI人才糧倉模型解讀白皮書(2024版)
- (2024年)高中化學(xué)校本課程教材《綠色化學(xué)》
- 中醫(yī)-血家藥方四物湯
- 2024年北師大版八年級(jí)下冊(cè)數(shù)學(xué)第二章綜合檢測(cè)試卷及答案
評(píng)論
0/150
提交評(píng)論