《信息分析實(shí)驗(yàn)教程》處理編_第1頁
《信息分析實(shí)驗(yàn)教程》處理編_第2頁
《信息分析實(shí)驗(yàn)教程》處理編_第3頁
《信息分析實(shí)驗(yàn)教程》處理編_第4頁
《信息分析實(shí)驗(yàn)教程》處理編_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

信息分析實(shí)驗(yàn)教程處理編PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

數(shù)據(jù)處理數(shù)據(jù)預(yù)處理活動(dòng)及其效果示意基礎(chǔ)知識(shí)

數(shù)據(jù)預(yù)處理的范疇數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約基礎(chǔ)知識(shí)數(shù)據(jù)預(yù)處理的必要性數(shù)據(jù)質(zhì)量評估數(shù)據(jù)準(zhǔn)確性數(shù)據(jù)完整性數(shù)據(jù)一致性數(shù)據(jù)及時(shí)性數(shù)據(jù)覆蓋性數(shù)據(jù)可信性數(shù)據(jù)質(zhì)量問題數(shù)據(jù)不完整數(shù)據(jù)不一致數(shù)據(jù)重復(fù)噪聲基礎(chǔ)知識(shí)

數(shù)據(jù)預(yù)處理活動(dòng)簡述數(shù)據(jù)清洗缺失值處理刪除缺失值填補(bǔ)法噪聲數(shù)據(jù)處理分箱聚類回歸數(shù)據(jù)集成模式集成和對象匹配冗余檢測數(shù)據(jù)值沖突檢測與處理數(shù)據(jù)變換數(shù)據(jù)規(guī)范化數(shù)據(jù)離散化數(shù)據(jù)泛化屬性構(gòu)造基礎(chǔ)知識(shí)數(shù)據(jù)預(yù)處理活動(dòng)簡述數(shù)據(jù)規(guī)約維規(guī)約小波變換主成分分析數(shù)值規(guī)約參數(shù)化數(shù)據(jù)規(guī)約非參數(shù)化數(shù)據(jù)規(guī)約小波變換示意主成分分析示意軟件工具編號工具名稱開發(fā)者技術(shù)特性功能簡述類型1OpenRefine(GoogleRefine)谷歌跨平臺(tái);B/S架構(gòu);需要Java環(huán)境一類數(shù)據(jù)轉(zhuǎn)換工具,對數(shù)據(jù)進(jìn)行可視化操作處理(面向列和字段),用于數(shù)據(jù)的清洗與整合開源免費(fèi)2NumPyNumPy團(tuán)隊(duì)Python包;跨平臺(tái)用于數(shù)值型數(shù)據(jù)的清洗、缺失值處理和異常值檢測處理開源免費(fèi)3pandaspandas團(tuán)隊(duì)開源免費(fèi)4plyrHadleyWickhamR包;跨平臺(tái)開源免費(fèi)5dplyrHadleyWickham等開源免費(fèi)6tidyr開源免費(fèi)7PowerQuery微軟Excel插件,需要Excel用于多種數(shù)據(jù)的清洗、缺失值處理和異常值檢測處理商業(yè)免費(fèi)8QualityKnowledgeBaseSAS工業(yè)級產(chǎn)品;圖形化界面軟件提供11種清洗流程,每種流程包括若干處理算法,用于多種數(shù)據(jù)的清洗商業(yè)收費(fèi)常見的數(shù)值型數(shù)據(jù)清洗處理軟件實(shí)驗(yàn)2:數(shù)據(jù)清洗實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理主要環(huán)節(jié)去重糾錯(cuò)統(tǒng)一規(guī)格修正邏輯轉(zhuǎn)換構(gòu)造數(shù)據(jù)壓縮……本實(shí)驗(yàn)的核心工作流程導(dǎo)入數(shù)據(jù)統(tǒng)一規(guī)格添加與調(diào)整變量名稱數(shù)據(jù)類型調(diào)整數(shù)據(jù)格式調(diào)整……轉(zhuǎn)換構(gòu)造數(shù)據(jù)離散化(合并數(shù)據(jù))提煉新字段數(shù)據(jù)粒度轉(zhuǎn)換……實(shí)驗(yàn)2:數(shù)據(jù)清洗實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)在做數(shù)據(jù)類型檢測和格式修整(即去除變量值前后可能對數(shù)據(jù)分析產(chǎn)生影響的空格等多余字符)時(shí),應(yīng)先單擊“格式”下拉菜單,選擇“修整”命令,再檢測數(shù)據(jù)類型。如果先檢測數(shù)據(jù)類型,再選擇“修整”命令,那么修整過后會(huì)造成每一列數(shù)據(jù)的類型被重置為“任意”類型。此時(shí),需要重新檢測數(shù)據(jù)類型。如果某個(gè)類別型變量有n種取值,則為其創(chuàng)建虛擬變量時(shí),要?jiǎng)?chuàng)建n-1個(gè)虛擬變量。實(shí)驗(yàn)3:缺失值處理實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理數(shù)據(jù)缺失的可能原因未被采集到數(shù)據(jù)提取錯(cuò)誤數(shù)據(jù)存儲(chǔ)異常一般處理方法刪除含缺失值樣本刪除值缺失嚴(yán)重的變量使用默認(rèn)值填充(如平均數(shù))使用預(yù)測模型給出的預(yù)測值本實(shí)驗(yàn)的核心工作流程分析缺失值產(chǎn)生的原因判定缺失值的含義缺失現(xiàn)象本身已經(jīng)含有特定意義缺失值需要被特殊處理選擇一種處理缺失值的方法刪除樣本刪除變量使用默認(rèn)值填充使用預(yù)測值填充使用相應(yīng)的方法完成缺失值處理實(shí)驗(yàn)3:缺失值處理實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)實(shí)驗(yàn)中所展示的刪除含有缺失值的方法,是缺失值處理中最簡單和直接的方法,也盡最大努力保證了數(shù)據(jù)樣本的完整性,但被刪除樣本也可蘊(yùn)含能有十分珍貴的其他價(jià)值。因此,刪除含有缺失值的方法建議在數(shù)據(jù)集中缺失值較少的場景中應(yīng)用。實(shí)驗(yàn)4:異常值處理實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理異常值和其他樣本數(shù)據(jù)有顯著差異的值(離群點(diǎn))統(tǒng)計(jì)學(xué)上指一組測定值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值;而與平均值的偏差超過三倍標(biāo)準(zhǔn)差的測定值,稱為高度異常的異常值在數(shù)據(jù)分析中,對于區(qū)間型變量,異常值指過大過小的取值,也可以結(jié)合統(tǒng)計(jì)學(xué)的定義,把超過均值n個(gè)標(biāo)準(zhǔn)差以上的取值定義為異常值,n的取值由具體情況而定;對于類別型變量,異常值指過于罕見的類別值實(shí)驗(yàn)4:異常值處理實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理異常值的檢測方法基于統(tǒng)計(jì)的方法基于距離的方法基于密度的方法基于假設(shè)檢驗(yàn)的異常檢測支持向量機(jī)的預(yù)測排除異常值處理的一般方法識(shí)別后剔除本實(shí)驗(yàn)的核心工作流程根據(jù)變量類型采取相應(yīng)方法識(shí)別異常值區(qū)間型變量根據(jù)統(tǒng)計(jì)學(xué)定義,或觀察極值(最大值、最小值等)類別型變量出現(xiàn)頻率過低的一部分類別值剔除/修正異常值實(shí)驗(yàn)4:異常值處理實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)不能簡單認(rèn)為異常值就是對數(shù)據(jù)挖掘和數(shù)據(jù)分析“有害的值”。盡管在大多數(shù)情況下,選擇剔除異常值作為處理它的方式,但在欺詐識(shí)別等部分應(yīng)用場景中,異常值本身反而是被重點(diǎn)關(guān)注的對象。PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

第3章文本處理基礎(chǔ)知識(shí)

文本處理通過詞性標(biāo)注、分詞、共詞等技術(shù)從數(shù)據(jù)源中抽取有用的信息主要特征多學(xué)科交叉抽取的知識(shí)是直接可用的處理對象有著較強(qiáng)的領(lǐng)域特征文本挖掘高度依賴于文本(預(yù))處理技術(shù)基礎(chǔ)知識(shí)

文本處理的一般過程文本預(yù)處理分詞對于詞與詞之間不存在空格等界限的語言(如漢語)文本進(jìn)行按詞切分的處理過程例:他從東經(jīng)過我家→他/從/東/經(jīng)過/我家基礎(chǔ)知識(shí)

文本處理的一般過程文本預(yù)處理詞性標(biāo)注為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確詞性的過程基礎(chǔ)知識(shí)文本處理的一般過程文本預(yù)處理停用詞過濾過濾對文本特征無任何貢獻(xiàn)作用的詞,如“a”“啊”等英語常見停用詞基礎(chǔ)知識(shí)

文本處理的一般過程文本預(yù)處理同義替換將同義詞進(jìn)行轉(zhuǎn)換,以統(tǒng)一的一個(gè)詞表達(dá)同義詞詞林:層次越深,詞義刻畫越細(xì)哈工大擴(kuò)展版同義詞詞林層次結(jié)構(gòu)基礎(chǔ)知識(shí)文本處理的一般過程文本特征構(gòu)造特征表示詞袋模型例:蘇寧易購/是/國內(nèi)/著名/的/B2C/電商/之一詞袋模型示意1詞袋模型示意2基礎(chǔ)知識(shí)

文本處理的一般過程文本特征構(gòu)造特征表示詞向量模型,例:例句1:天氣預(yù)報(bào)說,明天會(huì)下雨,你明天早上去上班的時(shí)候記得帶上傘?!鞖忸A(yù)報(bào)/說/明天/會(huì)/下雨/你/明天/早上/去/上班/時(shí)候/記得/帶上/傘例句2:你明天早上去上班的時(shí)候記得帶上雨傘,天氣預(yù)報(bào)說的可能會(huì)下雨?!魈欤缟希ィ习啵瘯r(shí)候/記得/帶上/雨傘/天氣預(yù)報(bào)/說/可能/會(huì)/下雨得到詞集合:{天氣預(yù)報(bào),說,明天,會(huì),下雨,你,早上,去,上班,時(shí)候,記得,帶上,傘,雨傘,可能}使用獨(dú)熱碼構(gòu)建例句1的詞向量:[1,1,2,1,1,1,1,1,1,1,1,1,1,0,0]使用獨(dú)熱碼構(gòu)建例句2的詞向量:[1,1,1,1,1,0,1,1,1,1,1,1,0,1,1]基礎(chǔ)知識(shí)

基礎(chǔ)知識(shí)

基礎(chǔ)知識(shí)

基礎(chǔ)知識(shí)

文本處理的一般過程文本信息抽取命名實(shí)體識(shí)別從文本中識(shí)別出諸如人名、組織名、日期、時(shí)間、地點(diǎn)、特定的數(shù)字形式等內(nèi)容,并為之添加相應(yīng)的標(biāo)注信息方法:基于詞典、基于規(guī)則、基于機(jī)器學(xué)習(xí)指代消解回指:當(dāng)前的照應(yīng)語與上文出現(xiàn)的詞、短語或句子存在密切的語義關(guān)聯(lián)性共指:多個(gè)名詞(包括代名詞、名詞短語)指向真實(shí)世界中的同一參照體方法:基于句法、基于語料庫基礎(chǔ)知識(shí)

文本處理的一般過程文本信息抽取關(guān)系抽取抽取實(shí)體之間的語義關(guān)系按關(guān)系類型是否提前定義分為封閉式和開放式兩類關(guān)系抽取方法:有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)事件抽取事件:在某個(gè)特定的時(shí)間段及地域范圍內(nèi)所發(fā)生的,由一個(gè)或多個(gè)角色參與,由一個(gè)或多個(gè)動(dòng)作所組成的一件事情元事件抽取:基于句子的基礎(chǔ)級的事件抽取,指一次動(dòng)作的發(fā)生或狀態(tài)的轉(zhuǎn)變,其抽取目標(biāo)包括時(shí)間、地點(diǎn)、人物、動(dòng)作等主題事件抽?。阂粋€(gè)主題事件由多個(gè)動(dòng)作或狀態(tài)組成,其描述信息通常分散在一個(gè)或多個(gè)文檔中基礎(chǔ)知識(shí)

文本處理的應(yīng)用前景文本處理的應(yīng)用現(xiàn)狀主題導(dǎo)航優(yōu)化研究競爭對手識(shí)別研究非物質(zhì)文化遺產(chǎn)研究數(shù)字人文范式研究網(wǎng)絡(luò)健康社區(qū)研究現(xiàn)實(shí)社會(huì)問題研究基礎(chǔ)知識(shí)

文本處理的應(yīng)用前景文本處理新進(jìn)展自動(dòng)問答、機(jī)器翻譯知識(shí)結(jié)構(gòu)化軟件工具

接下頁編號工具名稱開發(fā)者技術(shù)特性功能簡述類型1jiebaSunJunyiPython包;跨平臺(tái)用于中文文本分詞開源免費(fèi)2similarityxumingJava包;跨平臺(tái)用于詞語、短語、句子的文本相似度計(jì)算開源免費(fèi)3genismRadim?eh??ekPython包;跨平臺(tái)用于文本相似度計(jì)算和文檔關(guān)聯(lián)度計(jì)算開源免費(fèi)4NLPIR張華平跨平臺(tái);支持Python等多種語言用于中文文本分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等開源免費(fèi)5LTP哈工大社會(huì)計(jì)算與信息檢索研究中心用于中文文本分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語義角色標(biāo)注等開源免費(fèi)(商用除外)6THULAC孫茂松等用于中文文本分詞和詞性標(biāo)注開源免費(fèi)常見的文本型數(shù)據(jù)清洗處理軟件軟件工具

編號工具名稱開發(fā)者技術(shù)特性功能簡述類型7ROSTCM武漢大學(xué)ROST虛擬學(xué)習(xí)團(tuán)隊(duì)圖形化界面,一鍵傻瓜式操作用于中文文本分詞、詞頻統(tǒng)計(jì)、詞性識(shí)別、聚類、社會(huì)網(wǎng)絡(luò)語義網(wǎng)絡(luò)、情感計(jì)算等免費(fèi)8文本挖掘工具包華東師范大學(xué)商業(yè)分析實(shí)驗(yàn)教學(xué)中心圖形化界面,一鍵傻瓜式操作;部分功能需要MySQL數(shù)據(jù)庫、UciNet社會(huì)網(wǎng)絡(luò)分析工具的支持用于中文文本分詞、詞頻統(tǒng)計(jì)、高頻詞提取、文檔相似度計(jì)算、共現(xiàn)分析、情感分析等免費(fèi)9NVivoQSRInternationalPtyLtd圖形化界面用于整理、分析非結(jié)構(gòu)化數(shù)據(jù)(如采訪、開放式調(diào)查回答、文章、社交媒體和網(wǎng)頁內(nèi)容),適用于問卷分析、定性研究商業(yè)收費(fèi)

續(xù)表實(shí)驗(yàn)5:文本分詞實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理對于一段文本,根據(jù)語料庫樣本建立起的統(tǒng)計(jì)概率,計(jì)算各種文本切分方式對應(yīng)的聯(lián)合分布概率通過找到最大的概率所對應(yīng)的切分方式,實(shí)現(xiàn)分詞文本預(yù)處理導(dǎo)入詞典執(zhí)行分詞文本后處理本實(shí)驗(yàn)的核心工作流程實(shí)驗(yàn)5:文本分詞實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)文本挖掘工具包運(yùn)行所依賴的各文本文件(包括用戶詞典文件、停用詞詞典文件和同義詞詞典文件)和需要由工具包進(jìn)行分詞處理的文件,均應(yīng)以UTF-8格式編碼保存,以避免出現(xiàn)“亂碼”現(xiàn)象如果分詞結(jié)果需要作為后續(xù)詞頻統(tǒng)計(jì)模塊(參見實(shí)驗(yàn)6詞頻統(tǒng)計(jì))的輸入,則分詞時(shí)不應(yīng)選擇輸出詞語的詞性,否則會(huì)造成詞頻統(tǒng)計(jì)結(jié)果出現(xiàn)異常待分詞文件的大小,建議控制在5MB以內(nèi)實(shí)驗(yàn)6:詞頻統(tǒng)計(jì)實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理詞頻統(tǒng)計(jì)即統(tǒng)計(jì)一篇文本中各個(gè)詞語的出現(xiàn)頻次對中文語料,在統(tǒng)計(jì)詞頻前需要做文本分詞處理實(shí)際操作中,高頻詞選取的標(biāo)準(zhǔn)多是在結(jié)合領(lǐng)域語料庫的前提下選取TOP10或TOP20的詞語文本數(shù)據(jù)預(yù)處理文本分詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論