




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
信息分析實驗教程第一編獲取編第1編_獲取編.pptx第2編_處理編.pptx第3編_分析編.pptx第4編_可視化編.pptx全套可編輯PPT課件第1章數(shù)據(jù)獲取基礎(chǔ)知識
數(shù)據(jù)獲取概述數(shù)據(jù)獲取是在不觸犯相關(guān)法律法規(guī)的基礎(chǔ)上,通過一定的技術(shù)手段、方式方法所開展的搜集、捕獲原始數(shù)據(jù)資料以支撐相關(guān)研究或業(yè)務(wù)開展的系列活動的統(tǒng)稱??赡苁艿降南拗瓶赡苁艿将@取數(shù)據(jù)的工具、渠道、外界的數(shù)據(jù)封鎖、數(shù)據(jù)量太大而無法容納的限制;客觀事物反映在數(shù)據(jù)上是模糊的,難以清晰描述或界定邊界;信息模型的局限或者獲取信息的成本太高的限制等。基礎(chǔ)知識
數(shù)據(jù)獲取來源與方法數(shù)據(jù)獲取來源基礎(chǔ)知識
數(shù)據(jù)獲取來源與方法數(shù)據(jù)獲取方法線上數(shù)據(jù)獲取方法網(wǎng)絡(luò)數(shù)據(jù)采集電子郵件采集線下數(shù)據(jù)獲取方法調(diào)查實驗基礎(chǔ)知識
數(shù)據(jù)獲取來源與方法數(shù)據(jù)獲取流程基礎(chǔ)知識
數(shù)據(jù)隱私與數(shù)據(jù)資源共享隱私:“單個用戶的某一些屬性”公開群體用戶的信息不屬于隱私泄漏但若能從數(shù)據(jù)中能準確推測出個體的信息,則屬于隱私泄漏討論隱私保護的情景為學(xué)術(shù)研究和數(shù)據(jù)交流開放用戶數(shù)據(jù)服務(wù)提供商為了提高服務(wù)質(zhì)量,主動收集用戶的數(shù)據(jù)軟件工具序號工具名稱開發(fā)者技術(shù)特性功能簡述類型1CrawleyCamporezPython爬蟲框架;跨平臺可個性定制化開發(fā),用于網(wǎng)頁中任意類型數(shù)據(jù)的采集開源,支持二次開發(fā)2ScrapyScrapinghub開源,支持二次開發(fā)3SkyCaiji南昌卓藍科技有限公司跨平臺;支持本地或云端采集;需要PHP環(huán)境用于網(wǎng)頁中多種數(shù)據(jù)的采集開源,部分支持二次開發(fā)4后羿采集器杭州快憶科技有限公司圖形化界面;更貼近使用者的選擇;一鍵傻瓜式操作,適合初學(xué)者用于網(wǎng)頁中多種數(shù)據(jù)的采集提供有個人免費版,但功能受限5八爪魚采集器深圳視界信息技術(shù)有限公司圖形化界面;更貼近使用者的選擇;一鍵傻瓜式操作,適合初學(xué)者用于網(wǎng)頁中多種數(shù)據(jù)的采集部分功能免費6火車采集器合肥樂維信息技術(shù)有限公司圖形化界面;用戶需要掌握一定的HTML知識部分功能免費7WebScraperWebScraperChrome瀏覽器插件,一鍵傻瓜式操作用于網(wǎng)頁中多種數(shù)據(jù)的采集商業(yè)免費8Excel微軟
“數(shù)據(jù)”選項卡提供網(wǎng)頁數(shù)據(jù)采集功能多用于采集網(wǎng)頁中的表格型數(shù)據(jù)商業(yè)收費常見的網(wǎng)絡(luò)數(shù)據(jù)采集軟件實驗1:網(wǎng)絡(luò)數(shù)據(jù)采集實驗操作流程詳見教材實驗原理將分散的、各種類型的互聯(lián)網(wǎng)數(shù)據(jù)獲取到本地需要借助網(wǎng)絡(luò)爬蟲關(guān)鍵在于搜尋目標數(shù)據(jù)在互聯(lián)網(wǎng)上的位置(即網(wǎng)址)并分析被采數(shù)據(jù)所在頁面的分布特征,繼而設(shè)置相應(yīng)的采集規(guī)則本實驗的核心工作流程實驗1:網(wǎng)絡(luò)數(shù)據(jù)采集實驗操作流程詳見教材注意事項使用WebScraper采集網(wǎng)頁數(shù)據(jù)時,Chrome開發(fā)者模式必須處于上下分屏的顯示狀態(tài)中,且不能處于模擬移動設(shè)備的模式中。每個選擇器及全局預(yù)留給頁面加載的延遲時間值必須充足,否則將可能造成無法采集數(shù)據(jù),或采集到的數(shù)據(jù)不完整;可根據(jù)實際網(wǎng)絡(luò)通暢情況,進行個性化設(shè)置。啟動采集后自動彈出的小窗口不能手動關(guān)閉,否則會造成采集中止。信息分析實驗教程第二編處理編第2章數(shù)據(jù)處理數(shù)據(jù)預(yù)處理活動及其效果示意基礎(chǔ)知識
數(shù)據(jù)預(yù)處理的范疇數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約基礎(chǔ)知識數(shù)據(jù)預(yù)處理的必要性數(shù)據(jù)質(zhì)量評估數(shù)據(jù)準確性數(shù)據(jù)完整性數(shù)據(jù)一致性數(shù)據(jù)及時性數(shù)據(jù)覆蓋性數(shù)據(jù)可信性數(shù)據(jù)質(zhì)量問題數(shù)據(jù)不完整數(shù)據(jù)不一致數(shù)據(jù)重復(fù)噪聲基礎(chǔ)知識
數(shù)據(jù)預(yù)處理活動簡述數(shù)據(jù)清洗缺失值處理刪除缺失值填補法噪聲數(shù)據(jù)處理分箱聚類回歸數(shù)據(jù)集成模式集成和對象匹配冗余檢測數(shù)據(jù)值沖突檢測與處理數(shù)據(jù)變換數(shù)據(jù)規(guī)范化數(shù)據(jù)離散化數(shù)據(jù)泛化屬性構(gòu)造基礎(chǔ)知識數(shù)據(jù)預(yù)處理活動簡述數(shù)據(jù)規(guī)約維規(guī)約小波變換主成分分析數(shù)值規(guī)約參數(shù)化數(shù)據(jù)規(guī)約非參數(shù)化數(shù)據(jù)規(guī)約小波變換示意主成分分析示意軟件工具編號工具名稱開發(fā)者技術(shù)特性功能簡述類型1OpenRefine(GoogleRefine)谷歌跨平臺;B/S架構(gòu);需要Java環(huán)境一類數(shù)據(jù)轉(zhuǎn)換工具,對數(shù)據(jù)進行可視化操作處理(面向列和字段),用于數(shù)據(jù)的清洗與整合開源免費2NumPyNumPy團隊Python包;跨平臺用于數(shù)值型數(shù)據(jù)的清洗、缺失值處理和異常值檢測處理開源免費3pandaspandas團隊開源免費4plyrHadleyWickhamR包;跨平臺開源免費5dplyrHadleyWickham等開源免費6tidyr開源免費7PowerQuery微軟Excel插件,需要Excel用于多種數(shù)據(jù)的清洗、缺失值處理和異常值檢測處理商業(yè)免費8QualityKnowledgeBaseSAS工業(yè)級產(chǎn)品;圖形化界面軟件提供11種清洗流程,每種流程包括若干處理算法,用于多種數(shù)據(jù)的清洗商業(yè)收費常見的數(shù)值型數(shù)據(jù)清洗處理軟件實驗2:數(shù)據(jù)清洗實驗操作流程詳見教材實驗原理主要環(huán)節(jié)去重糾錯統(tǒng)一規(guī)格修正邏輯轉(zhuǎn)換構(gòu)造數(shù)據(jù)壓縮……本實驗的核心工作流程導(dǎo)入數(shù)據(jù)統(tǒng)一規(guī)格添加與調(diào)整變量名稱數(shù)據(jù)類型調(diào)整數(shù)據(jù)格式調(diào)整……轉(zhuǎn)換構(gòu)造數(shù)據(jù)離散化(合并數(shù)據(jù))提煉新字段數(shù)據(jù)粒度轉(zhuǎn)換……實驗2:數(shù)據(jù)清洗實驗操作流程詳見教材注意事項在做數(shù)據(jù)類型檢測和格式修整(即去除變量值前后可能對數(shù)據(jù)分析產(chǎn)生影響的空格等多余字符)時,應(yīng)先單擊“格式”下拉菜單,選擇“修整”命令,再檢測數(shù)據(jù)類型。如果先檢測數(shù)據(jù)類型,再選擇“修整”命令,那么修整過后會造成每一列數(shù)據(jù)的類型被重置為“任意”類型。此時,需要重新檢測數(shù)據(jù)類型。如果某個類別型變量有n種取值,則為其創(chuàng)建虛擬變量時,要創(chuàng)建n-1個虛擬變量。實驗3:缺失值處理實驗操作流程詳見教材實驗原理數(shù)據(jù)缺失的可能原因未被采集到數(shù)據(jù)提取錯誤數(shù)據(jù)存儲異常一般處理方法刪除含缺失值樣本刪除值缺失嚴重的變量使用默認值填充(如平均數(shù))使用預(yù)測模型給出的預(yù)測值本實驗的核心工作流程分析缺失值產(chǎn)生的原因判定缺失值的含義缺失現(xiàn)象本身已經(jīng)含有特定意義缺失值需要被特殊處理選擇一種處理缺失值的方法刪除樣本刪除變量使用默認值填充使用預(yù)測值填充使用相應(yīng)的方法完成缺失值處理實驗3:缺失值處理實驗操作流程詳見教材注意事項實驗中所展示的刪除含有缺失值的方法,是缺失值處理中最簡單和直接的方法,也盡最大努力保證了數(shù)據(jù)樣本的完整性,但被刪除樣本也可蘊含能有十分珍貴的其他價值。因此,刪除含有缺失值的方法建議在數(shù)據(jù)集中缺失值較少的場景中應(yīng)用。實驗4:異常值處理實驗操作流程詳見教材實驗原理異常值和其他樣本數(shù)據(jù)有顯著差異的值(離群點)統(tǒng)計學(xué)上指一組測定值中與平均值的偏差超過兩倍標準差的測定值;而與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值在數(shù)據(jù)分析中,對于區(qū)間型變量,異常值指過大過小的取值,也可以結(jié)合統(tǒng)計學(xué)的定義,把超過均值n個標準差以上的取值定義為異常值,n的取值由具體情況而定;對于類別型變量,異常值指過于罕見的類別值實驗4:異常值處理實驗操作流程詳見教材實驗原理異常值的檢測方法基于統(tǒng)計的方法基于距離的方法基于密度的方法基于假設(shè)檢驗的異常檢測支持向量機的預(yù)測排除異常值處理的一般方法識別后剔除本實驗的核心工作流程根據(jù)變量類型采取相應(yīng)方法識別異常值區(qū)間型變量根據(jù)統(tǒng)計學(xué)定義,或觀察極值(最大值、最小值等)類別型變量出現(xiàn)頻率過低的一部分類別值剔除/修正異常值實驗4:異常值處理實驗操作流程詳見教材注意事項不能簡單認為異常值就是對數(shù)據(jù)挖掘和數(shù)據(jù)分析“有害的值”。盡管在大多數(shù)情況下,選擇剔除異常值作為處理它的方式,但在欺詐識別等部分應(yīng)用場景中,異常值本身反而是被重點關(guān)注的對象。第3章文本處理基礎(chǔ)知識
文本處理通過詞性標注、分詞、共詞等技術(shù)從數(shù)據(jù)源中抽取有用的信息主要特征多學(xué)科交叉抽取的知識是直接可用的處理對象有著較強的領(lǐng)域特征文本挖掘高度依賴于文本(預(yù))處理技術(shù)基礎(chǔ)知識
文本處理的一般過程文本預(yù)處理分詞對于詞與詞之間不存在空格等界限的語言(如漢語)文本進行按詞切分的處理過程例:他從東經(jīng)過我家→他/從/東/經(jīng)過/我家基礎(chǔ)知識
文本處理的一般過程文本預(yù)處理詞性標注為分詞結(jié)果中的每個單詞標注一個正確詞性的過程基礎(chǔ)知識文本處理的一般過程文本預(yù)處理停用詞過濾過濾對文本特征無任何貢獻作用的詞,如“a”“啊”等英語常見停用詞基礎(chǔ)知識
文本處理的一般過程文本預(yù)處理同義替換將同義詞進行轉(zhuǎn)換,以統(tǒng)一的一個詞表達同義詞詞林:層次越深,詞義刻畫越細哈工大擴展版同義詞詞林層次結(jié)構(gòu)基礎(chǔ)知識文本處理的一般過程文本特征構(gòu)造特征表示詞袋模型例:蘇寧易購/是/國內(nèi)/著名/的/B2C/電商/之一詞袋模型示意1詞袋模型示意2基礎(chǔ)知識
文本處理的一般過程文本特征構(gòu)造特征表示詞向量模型,例:例句1:天氣預(yù)報說,明天會下雨,你明天早上去上班的時候記得帶上傘。→天氣預(yù)報/說/明天/會/下雨/你/明天/早上/去/上班/時候/記得/帶上/傘例句2:你明天早上去上班的時候記得帶上雨傘,天氣預(yù)報說的可能會下雨?!魈欤缟希ィ习啵瘯r候/記得/帶上/雨傘/天氣預(yù)報/說/可能/會/下雨得到詞集合:{天氣預(yù)報,說,明天,會,下雨,你,早上,去,上班,時候,記得,帶上,傘,雨傘,可能}使用獨熱碼構(gòu)建例句1的詞向量:[1,1,2,1,1,1,1,1,1,1,1,1,1,0,0]使用獨熱碼構(gòu)建例句2的詞向量:[1,1,1,1,1,0,1,1,1,1,1,1,0,1,1]基礎(chǔ)知識
基礎(chǔ)知識
基礎(chǔ)知識
基礎(chǔ)知識
文本處理的一般過程文本信息抽取命名實體識別從文本中識別出諸如人名、組織名、日期、時間、地點、特定的數(shù)字形式等內(nèi)容,并為之添加相應(yīng)的標注信息方法:基于詞典、基于規(guī)則、基于機器學(xué)習(xí)指代消解回指:當前的照應(yīng)語與上文出現(xiàn)的詞、短語或句子存在密切的語義關(guān)聯(lián)性共指:多個名詞(包括代名詞、名詞短語)指向真實世界中的同一參照體方法:基于句法、基于語料庫基礎(chǔ)知識
文本處理的一般過程文本信息抽取關(guān)系抽取抽取實體之間的語義關(guān)系按關(guān)系類型是否提前定義分為封閉式和開放式兩類關(guān)系抽取方法:有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)事件抽取事件:在某個特定的時間段及地域范圍內(nèi)所發(fā)生的,由一個或多個角色參與,由一個或多個動作所組成的一件事情元事件抽?。夯诰渥拥幕A(chǔ)級的事件抽取,指一次動作的發(fā)生或狀態(tài)的轉(zhuǎn)變,其抽取目標包括時間、地點、人物、動作等主題事件抽?。阂粋€主題事件由多個動作或狀態(tài)組成,其描述信息通常分散在一個或多個文檔中基礎(chǔ)知識
文本處理的應(yīng)用前景文本處理的應(yīng)用現(xiàn)狀主題導(dǎo)航優(yōu)化研究競爭對手識別研究非物質(zhì)文化遺產(chǎn)研究數(shù)字人文范式研究網(wǎng)絡(luò)健康社區(qū)研究現(xiàn)實社會問題研究基礎(chǔ)知識
文本處理的應(yīng)用前景文本處理新進展自動問答、機器翻譯知識結(jié)構(gòu)化軟件工具
接下頁編號工具名稱開發(fā)者技術(shù)特性功能簡述類型1jiebaSunJunyiPython包;跨平臺用于中文文本分詞開源免費2similarityxumingJava包;跨平臺用于詞語、短語、句子的文本相似度計算開源免費3genismRadim?eh??ekPython包;跨平臺用于文本相似度計算和文檔關(guān)聯(lián)度計算開源免費4NLPIR張華平跨平臺;支持Python等多種語言用于中文文本分詞、詞性標注、命名實體識別等開源免費5LTP哈工大社會計算與信息檢索研究中心用于中文文本分詞、詞性標注、命名實體識別、依存句法分析、語義角色標注等開源免費(商用除外)6THULAC孫茂松等用于中文文本分詞和詞性標注開源免費常見的文本型數(shù)據(jù)清洗處理軟件軟件工具
編號工具名稱開發(fā)者技術(shù)特性功能簡述類型7ROSTCM武漢大學(xué)ROST虛擬學(xué)習(xí)團隊圖形化界面,一鍵傻瓜式操作用于中文文本分詞、詞頻統(tǒng)計、詞性識別、聚類、社會網(wǎng)絡(luò)語義網(wǎng)絡(luò)、情感計算等免費8文本挖掘工具包華東師范大學(xué)商業(yè)分析實驗教學(xué)中心圖形化界面,一鍵傻瓜式操作;部分功能需要MySQL數(shù)據(jù)庫、UciNet社會網(wǎng)絡(luò)分析工具的支持用于中文文本分詞、詞頻統(tǒng)計、高頻詞提取、文檔相似度計算、共現(xiàn)分析、情感分析等免費9NVivoQSRInternationalPtyLtd圖形化界面用于整理、分析非結(jié)構(gòu)化數(shù)據(jù)(如采訪、開放式調(diào)查回答、文章、社交媒體和網(wǎng)頁內(nèi)容),適用于問卷分析、定性研究商業(yè)收費
續(xù)表實驗5:文本分詞實驗操作流程詳見教材實驗原理對于一段文本,根據(jù)語料庫樣本建立起的統(tǒng)計概率,計算各種文本切分方式對應(yīng)的聯(lián)合分布概率通過找到最大的概率所對應(yīng)的切分方式,實現(xiàn)分詞文本預(yù)處理導(dǎo)入詞典執(zhí)行分詞文本后處理本實驗的核心工作流程實驗5:文本分詞實驗操作流程詳見教材注意事項文本挖掘工具包運行所依賴的各文本文件(包括用戶詞典文件、停用詞詞典文件和同義詞詞典文件)和需要由工具包進行分詞處理的文件,均應(yīng)以UTF-8格式編碼保存,以避免出現(xiàn)“亂碼”現(xiàn)象如果分詞結(jié)果需要作為后續(xù)詞頻統(tǒng)計模塊(參見實驗6詞頻統(tǒng)計)的輸入,則分詞時不應(yīng)選擇輸出詞語的詞性,否則會造成詞頻統(tǒng)計結(jié)果出現(xiàn)異常待分詞文件的大小,建議控制在5MB以內(nèi)實驗6:詞頻統(tǒng)計實驗操作流程詳見教材實驗原理詞頻統(tǒng)計即統(tǒng)計一篇文本中各個詞語的出現(xiàn)頻次對中文語料,在統(tǒng)計詞頻前需要做文本分詞處理實際操作中,高頻詞選取的標準多是在結(jié)合領(lǐng)域語料庫的前提下選取TOP10或TOP20的詞語文本數(shù)據(jù)預(yù)處理文本分詞詞頻統(tǒng)計高頻詞提取本實驗的核心工作流程實驗6:詞頻統(tǒng)計實驗操作流程詳見教材注意事項“詞頻統(tǒng)計演示”按鈕的使用,不屬于對文本文件進行詞頻統(tǒng)計的必須步驟。但是,對于簡單、少量文本的詞頻統(tǒng)計,推薦使用該按鈕以簡化操作步驟。高頻詞提取依賴于詞頻統(tǒng)計的結(jié)果。因此,進行高頻詞統(tǒng)計之前,首先要進行詞頻統(tǒng)計。實驗7:文本相似度計算實驗操作流程詳見教材實驗原理文本相似度計算的核心是比較兩個給定的文本之間的差異在相似度計算前,須通過預(yù)處理將文本轉(zhuǎn)換成計算機能夠處理的數(shù)據(jù)文本挖掘工具包對詞賦權(quán)重的方法是常用的TF-IDF方法文本挖掘工具包計算文本相似度的方法是余弦相似度法,即用一組向量表示對應(yīng)的一組文本,一個向量各維度上的值對應(yīng)特定詞語在相應(yīng)文本中出現(xiàn)的頻率,若兩個向量夾角的余弦值越大,則代表兩個文本越相似本實驗的核心工作流程實驗7:文本相似度計算實驗操作流程詳見教材注意事項在文本挖掘工具包中,須根據(jù)待計算文檔數(shù)量手動調(diào)整文檔總數(shù)參數(shù),默認為10,即僅對1.txt、2.txt、……10.txt這10篇文檔進行計算。文本向量空間的維度多少(由“統(tǒng)計詞頻不小于□特征詞”文本框中的值決定),依據(jù)實際樣本情況而自行設(shè)定,其中默認為1。本實驗僅展示了基于經(jīng)典統(tǒng)計的文本相似度計算過程,基于語義等高階的文本相似度計算,同學(xué)們?nèi)舾信d趣,可以通過“拓展學(xué)習(xí)”小節(jié)提供的資源等自行學(xué)習(xí)。信息分析實驗教程第三編分析編第4章信息分析基礎(chǔ)知識
信息分析概述信息分析定義以社會用戶的特定需求為依托,以定性和定量研究方法為手段,通過對信息的收集、整理、鑒別、評價、分析、綜合等系列化加工過程,轉(zhuǎn)換為新的、增值的知識產(chǎn)品,最終為不同層次的科學(xué)決策服務(wù)的一項具有科研性質(zhì)的智能活動要素成因:存在社會需求方法:情報學(xué)和軟科學(xué)研究方法過程:程序化的環(huán)節(jié)成果:新的增值信息產(chǎn)品目的:為科學(xué)決策服務(wù)基礎(chǔ)知識
信息分析概述大數(shù)據(jù)背景下的信息分析大數(shù)據(jù)一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,特征如下:大量化快速化多樣化價值化大數(shù)據(jù)對信息分析的影響研究范式的演進研究方法論的更新研究質(zhì)量的提升基礎(chǔ)知識
信息分析概述信息分析流程基礎(chǔ)知識
信息分析概述信息分析應(yīng)用領(lǐng)域經(jīng)濟信息分析科技信息分析社會信息分析基礎(chǔ)知識
信息分析常用方法基礎(chǔ)知識
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分有監(jiān)督方法有監(jiān)督的分析方法中,數(shù)據(jù)集是有標簽的,也就是說對于給出的樣本我們是知道答案的分類是預(yù)測某一樣本所對應(yīng)的類別(離散的)回歸是預(yù)測某一樣本所對應(yīng)的實數(shù)輸出(連續(xù)的)基礎(chǔ)知識
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分有監(jiān)督方法基礎(chǔ)知識
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分無監(jiān)督方法在無監(jiān)督的方法中,數(shù)據(jù)集是完全沒有標簽的,依據(jù)相似樣本在數(shù)據(jù)空間中一般距離較近這一假設(shè),將樣本分類。關(guān)聯(lián)分析是指發(fā)現(xiàn)不同事物之間同時出現(xiàn)的概率聚類是指將相似的樣本劃分為一個簇,與分類問題不同,聚類問題預(yù)先并不知道類別,自然訓(xùn)練數(shù)據(jù)也沒有類別的標簽維度約減顧名思義是指在不丟失有意義信息的前提下,減少數(shù)據(jù)維度基礎(chǔ)知識
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分無監(jiān)督方法軟件工具
編號工具名稱開發(fā)者技術(shù)特性功能簡述類型1IBMSPSSStatisticsIBM圖形化界面;需要Java環(huán)境用于線性回歸等統(tǒng)計分析工作商業(yè)收費2IBMSPSSModelerIBM用于聚類、決策樹等數(shù)據(jù)挖掘建模工作商業(yè)收費3KNIMEMichaelBerthold團隊圖形化界面;需要Java環(huán)境提供較為完備的數(shù)據(jù)挖掘方法,并支持第三方工具、資源庫的集成開源免費4Weka懷卡托大學(xué)跨平臺;圖形化界面;需要Java環(huán)境用于文本相似度計算,并實現(xiàn)文本聚類開源免費5SnowNLPRuiWangPython包,需要Python環(huán)境;跨平臺用于中文文本分詞、詞性標注、情感分析、文本分類、提取文本關(guān)鍵詞、提取文本摘要、文本相似度計算等開源免費6pandaspandas團隊Python包,需要Python環(huán)境;跨平臺pandas豐富的功能,支持構(gòu)建共現(xiàn)矩陣開源免費7書目共現(xiàn)分析系統(tǒng)BICOMB中國醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系圖形化界面;需要Excel生成報表和AdobeFlashPlayer的支持用于字段抽取、字段統(tǒng)計、共現(xiàn)分析、聚類分析、網(wǎng)絡(luò)分析等文獻記錄處理工作免費8UCINETSteveBorgatti等圖形化界面,處理矩陣格式的數(shù)據(jù)社會網(wǎng)絡(luò)分析軟件包,提供了大量數(shù)據(jù)管理和轉(zhuǎn)化工具試用免費常見的信息分析軟件實驗8:時間序列分析實驗操作流程詳見教材實驗原理時間序列是同一現(xiàn)象在不同時間上的相繼觀察值排列而成的序列,用于描述現(xiàn)象隨時間發(fā)展變化的特征在信息分析活動中,時間是很重要的維度,通過時間窗口的逐次推進,人們可以動態(tài)直觀地認識到同一事物的變化過程,能夠更為全面地了解過去、把握現(xiàn)狀甚至預(yù)測/感知未來,而缺失時間信息,則僅能宏觀反映事物的基本情況,難以細粒度感知采集含有時間維度信息的文本數(shù)據(jù)將文本數(shù)據(jù)按時間維度歸納到合適的粒度對文本進行統(tǒng)計匯總(基于詞頻、主題等)可視化呈現(xiàn)與解讀本實驗的核心工作流程實驗8:時間序列分析實驗操作流程詳見教材注意事項數(shù)據(jù)獲取過程中,如果擬獲取的數(shù)據(jù)包含有時間維度信息,不論后續(xù)分析是否用到,建議將包含時間維度信息的數(shù)據(jù)一并采集回來,避免因遺漏對時間維度信息相關(guān)數(shù)據(jù)的采集而限制后續(xù)分析活動和深度,并由此帶來返工等?;ヂ?lián)網(wǎng)數(shù)據(jù)的半衰期本來就短、易消失,在獲取該類數(shù)據(jù)時,事先須考慮全面(如第1點的時間信息等),避免給信息分析活動帶來不可逆的影響,在網(wǎng)絡(luò)中數(shù)據(jù)的“刪除”“修改”是極其常見的事情。常見的時間維度信息包括事物的題錄特征信息(發(fā)表時間、更新時間、轉(zhuǎn)載時間等)和事物內(nèi)部的描述信息(文本描述中所蘊含的時間)。前者需要在數(shù)據(jù)采集時一并選擇采集(易獲取、易忽視),而后者則需要利用命名實體識別方法或工具進行提?。y獲取)。兩類時間維度信息,均值得引起注意。實驗9:關(guān)聯(lián)規(guī)則實驗操作流程詳見教材
實驗9:關(guān)聯(lián)規(guī)則實驗操作流程詳見教材實驗原理其中,典型的關(guān)聯(lián)規(guī)則算法是由R.Agrawal等人于1994年提出的Apriori算法,算法核心包括兩部分,即:找出所有頻繁數(shù)據(jù)項集,即找出所有支持度超過指定閾值的數(shù)據(jù)項集利用頻繁數(shù)據(jù)項集,生成侯選的關(guān)聯(lián)規(guī)則,并驗證其可信度,同時如果可信度超過指定閾值,則該侯選關(guān)聯(lián)規(guī)則為要找的關(guān)聯(lián)規(guī)則實驗9:關(guān)聯(lián)規(guī)則實驗操作流程詳見教材注意事項除了Apriori算法,關(guān)聯(lián)規(guī)則挖掘的常用算法還有FP-growth。對于SPSSModeler,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則是比較消耗時間和計算機性能的步驟。如果計算機的內(nèi)存足夠大,Apriori節(jié)點對話框“模型”選項卡下的“優(yōu)化”設(shè)置應(yīng)保持默認不變(即選中“速度”單選框),反之則選中“內(nèi)存”單選框。實驗10:回歸分析實驗操作流程詳見教材
實驗10:回歸分析實驗操作流程詳見教材實驗原理1、確定自變量(解釋變量)和因變量(被解釋變量)2、確定回歸模型,從樣本數(shù)據(jù)出發(fā)確定變量之間的數(shù)學(xué)關(guān)系式3、建立回歸方程,對回歸方程的各個參數(shù)進行估計4、對回歸方程進行各種統(tǒng)計檢驗5、利用回歸方程進行預(yù)測本實驗的核心工作流程實驗10:回歸分析實驗操作流程詳見教材
實驗10:回歸分析實驗操作流程詳見教材實驗原理一元線性回歸模型最小二乘法(OLS)評估模型的方法:擬和優(yōu)度檢驗(判定系數(shù)R2):體現(xiàn)了回歸方程所能解釋的因變量變差的比例;它是評價兩個變過量之間線性相關(guān)關(guān)系強弱的一個重要指標t檢驗:檢驗自變量對因變量的線性影響是否顯著F檢驗:檢驗自變量與因變量之間的線性關(guān)系是否顯著,即是否可用線性模型來表示實驗10:回歸分析實驗操作流程詳見教材注意事項缺失值和異常值都會對回歸計算結(jié)果產(chǎn)生影響,應(yīng)當特別重視計算之前的文本處理工作。其中具體處理思路與方法,可以參考實驗3、4。實驗11:文本聚類實驗操作流程詳見教材實驗原理文本聚類:根據(jù)同類的文本相似度較大、異類文本相似度較小的假設(shè),通過一些針對文本比對的規(guī)則對數(shù)據(jù)進行相應(yīng)的處理,將文本集中相似度較大的文本劃分至同一個容器中儲存,而將文本集中相似度較小的文本分配至不同的容器中儲存文本聚類是一種無監(jiān)督的方法,聚類算法是不必進行“訓(xùn)練”的,包括:基于劃分的方法(如K-MEANS算法)、基于層次的方法(如BIRCH算法)、基于密度的方法(如DBSCAN算法)、基于網(wǎng)格的方法(如WAVE-CLUSTR算法)、基于模型的方法(如關(guān)聯(lián)規(guī)則方法、決策樹方法等)實驗11:文本聚類實驗操作流程詳見教材實驗原理文本聚類的過程:將同一類的文本指派到同一類簇中,指派的依據(jù)是文本中詞的語義關(guān)系或相似性的關(guān)系文本聚類的前提:文本結(jié)構(gòu)化,包括文本預(yù)處理、特征降維和文本表示模型等文本聚類的實質(zhì):將各份文本以高維空間點的形式展現(xiàn)出來,通過計算哪些點的距離比較近,來將這些點聚成一個簇。簇的中心叫做簇心,好的聚類要保證簇內(nèi)點的距離盡可能近,但簇與簇之間的點要盡可能遠文本預(yù)處理文本分詞詞頻統(tǒng)計特征降維特征項選取文本表示相似度計算文本聚類聚類結(jié)果聚類評估本實驗的核心工作流程實驗11:文本聚類實驗操作流程詳見教材注意事項本實驗主要演示了在Ucinet軟件中進行文本聚類(層次聚類法)的過程,而文本聚類的方法,本身還有很多,如:基于劃分的方法(K-Means算法、K-MEDOIDS算法、CLARANS算法等)、基于密度的方法(DBSCAN算法、OPTICS算法、DENCLUE算法等)、基于網(wǎng)格的方法(STING算法、CLIQUE算法、WAVE-CLUSTER算法等)和基于模型的方法(關(guān)聯(lián)規(guī)則方法、決策樹方法等),需要結(jié)合文本特征和實際使用場景,綜合選擇(或自編)工具完成。實驗12:文本情感分析實驗操作流程詳見教材實驗原理文本情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程文本情感分析的三大主要任務(wù):情感信息抽取、情感信息分類、情感信息的檢索與歸納當前大多數(shù)文本情感分析都是針對一段文本判斷其總體的情感極性。主要是對文本中的情感詞語進行提取與歸納匯總,多依賴于情感字典(積極、中性、消極等情感詞匯)、特征數(shù)據(jù)(表情符號、否定詞等特征)完成。文本預(yù)處理分詞去停用詞加載詞典情感信息抽取情感詞語評價對象情感信息分類計算詞語權(quán)重計算情感指數(shù)情感信息檢索與歸納本實驗的核心工作流程實驗12:文本情感分析實驗操作流程詳見教材注意事項如果同學(xué)們不希望在計算機中部署的Python3環(huán)境占用過多磁盤空間,則可以選擇使用較為精簡的Python發(fā)行版——Miniconda3(官方下載頁面:https://docs.conda.io/en/latest/miniconda.html)。使用pip工具的命令安裝SnowNLP時,可能會因安裝源位于國外而導(dǎo)致傳輸速度慢、安裝耗時長。此時可以嘗試在命令中添加參數(shù)“-i[源地址]”,將安裝源地址更換為國內(nèi)的鏡像源以快速下載安裝。以使用清華鏡像為例,完整的SnowNLP安裝命令如下:
pipinstallsnownlp–i/simple實驗13:詞共現(xiàn)分析實驗操作流程詳見教材實驗原理詞共現(xiàn)反映的是有關(guān)兩事物的描述在同一樣本中出現(xiàn)的現(xiàn)象,用于識別事物間親疏遠近關(guān)系基本原則先統(tǒng)計一組關(guān)鍵詞中任意兩個詞在一組文檔里某一篇中是否共同出現(xiàn)再統(tǒng)計這種共同出現(xiàn)情況的次數(shù)并構(gòu)建對稱關(guān)鍵詞共現(xiàn)矩陣實驗13:詞共現(xiàn)分析實驗操作流程詳見教材實驗原理基本原則在共現(xiàn)矩陣中關(guān)鍵詞共現(xiàn)次數(shù)可能相差較大不利于數(shù)據(jù)分析,還可根據(jù)需要把關(guān)鍵詞共現(xiàn)矩陣進行歸一化處理轉(zhuǎn)化為關(guān)鍵詞相關(guān)矩陣。本實驗的核心工作流程實驗13:詞共現(xiàn)分析實驗操作流程詳見教材注意事項BICOMB支持ANSI格式編碼的文本文件,因此如果在提取過程中遇到亂碼等問題,請嘗試將有待詞共現(xiàn)分析的文本文件另存為ANSI編碼。在步驟5中,如果待分析的文檔不在同一目錄下,則應(yīng)單擊“選擇文檔”按鈕逐一添加待分析的文檔。步驟7往往會耗費大量時間,這取決于選擇的詞頻范圍內(nèi)詞數(shù)量的多少和文檔篇數(shù)。在查看導(dǎo)出的詞共現(xiàn)矩陣文本文件時,應(yīng)將記事本或其他編輯器的“自動換行”功能關(guān)閉,否則將影響詞共現(xiàn)矩陣的顯示效果。信息分析實驗教程第四編可視化編第5章信息可視化基礎(chǔ)知識
信息可視化概述將數(shù)據(jù)、概念、知識、技術(shù)等進行可視化呈現(xiàn)表現(xiàn)形式文本表格圖形地圖基礎(chǔ)知識
信息可視化概述信息可視化與數(shù)據(jù)可視化數(shù)據(jù)可視化的含義廣義:對狹義的數(shù)據(jù)可視化、信息可視化和科學(xué)可視化等領(lǐng)域的統(tǒng)稱狹義:將數(shù)據(jù)用統(tǒng)計圖表等形式呈現(xiàn),重在傳遞信息信息可視化與(狹義)數(shù)據(jù)可視化的區(qū)別前者是將數(shù)字或非數(shù)字的信息進行可視化,重在表現(xiàn)抽象或復(fù)雜的信息基礎(chǔ)知識
信息可視化概述信息可視化所面臨的常見數(shù)據(jù)類型一維數(shù)據(jù)二維數(shù)據(jù)三維數(shù)據(jù)多維數(shù)據(jù)時態(tài)數(shù)據(jù)層次數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)基礎(chǔ)知識
信息可視化概述信息可視化的研究方向信息可視化和數(shù)據(jù)挖掘的緊密結(jié)合協(xié)同可視化人機交互可視化……基礎(chǔ)知識
圖表設(shè)計知識信息可視化基本流程Card模型基礎(chǔ)知識
圖表設(shè)計知識圖表設(shè)計的常見方法基礎(chǔ)的繪圖方法基本步驟“三部曲”基礎(chǔ)知識
圖表設(shè)計知識圖表制作一般思路基礎(chǔ)知識線圖圖表設(shè)計知識多維信息的可視化方法基于點的方法基于線的方法平行坐標圖雷達圖基礎(chǔ)知識堆疊柱狀圖圖表設(shè)計知識多維信息的可視化方法基于區(qū)域的方法熱力圖馬賽克圖基礎(chǔ)知識切爾諾夫臉譜圖圖表設(shè)計知識多維信息的可視化方法基于樣本的方法基礎(chǔ)知識詞云圖圖表設(shè)計知識文本可視化方法星系視圖主題地圖新聞地圖基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)概述可視化技術(shù)提供了有效的方法來理解復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu),并從中挖掘有效信息復(fù)雜網(wǎng)絡(luò)的研究內(nèi)容:通過實證方法度量網(wǎng)絡(luò)的統(tǒng)計性質(zhì)構(gòu)建相應(yīng)的網(wǎng)絡(luò)模型來理解上述統(tǒng)計性質(zhì)在已知網(wǎng)絡(luò)結(jié)構(gòu)特征及其形成規(guī)則的基礎(chǔ)上預(yù)測網(wǎng)絡(luò)系統(tǒng)的行為基礎(chǔ)知識
基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)統(tǒng)計特征網(wǎng)絡(luò)直徑網(wǎng)絡(luò)中路徑概念表示從節(jié)點i出發(fā)到節(jié)點j的節(jié)點和邊交替的一條通路,無權(quán)網(wǎng)絡(luò)中這條通路中邊的數(shù)量就表示這條路徑的長度,而在有權(quán)網(wǎng)絡(luò)中這條通路中邊的權(quán)值之和表示這條路徑的長度。其中,節(jié)點之間所有通路中長度最大的路徑就是網(wǎng)絡(luò)直徑。基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)統(tǒng)計特征平均路徑長度在節(jié)點間所有的路徑之中,路徑長度最短的那條稱之為節(jié)點i和節(jié)點j之間的最短路徑,節(jié)點間的距離就是節(jié)點間的最短路徑長度,網(wǎng)絡(luò)的平均路徑長度則表示任意節(jié)點間距離的平均值。基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)統(tǒng)計特征聚集系數(shù)網(wǎng)絡(luò)的聚集系數(shù)表示網(wǎng)絡(luò)中節(jié)點的聚集程度,它反映了網(wǎng)絡(luò)中節(jié)點的親密度。如在反映人際關(guān)系的社會網(wǎng)絡(luò)中,某個體a的朋友b的朋友c,很可能也是該個體a的朋友。顯然,當網(wǎng)絡(luò)中的所有節(jié)點之間都存在邊的話,即是一個全連通網(wǎng)絡(luò),此時任意一個節(jié)點的聚集系數(shù)都為1。基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)統(tǒng)計特征節(jié)點介數(shù)和邊介數(shù)介數(shù)有節(jié)點介數(shù)和邊介數(shù)兩種,分別用于評估網(wǎng)絡(luò)中的節(jié)點和邊在網(wǎng)絡(luò)中的重要性程度。某個節(jié)點介數(shù)的定義為網(wǎng)絡(luò)中任意兩個頂點之間的最短路徑中,經(jīng)過該節(jié)點的最短路徑比例;某條邊的介數(shù)則定義為網(wǎng)絡(luò)中任意兩個節(jié)點之間的最短路徑中,經(jīng)過該邊的最短路徑比例。它們的定義也可以說是經(jīng)過該節(jié)點或邊的最短路徑條數(shù),介數(shù)反映了節(jié)點或者邊在網(wǎng)絡(luò)中所有節(jié)點或者邊中的地位和重要性,具有非常重要的現(xiàn)實意義?;A(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)統(tǒng)計特征度分布節(jié)點的度表示與該節(jié)點連接的邊的條數(shù)。對有向網(wǎng)絡(luò),節(jié)點的度等于出度與入度之和;對無向網(wǎng)絡(luò),節(jié)點的度等于節(jié)點的入度或者出度。需要說明的是,現(xiàn)實世界中許多網(wǎng)絡(luò)的節(jié)點度分布滿足冪律分布,相比于隨機圖,無標度網(wǎng)絡(luò)更能反應(yīng)網(wǎng)絡(luò)的真實情況?;A(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)統(tǒng)計特征網(wǎng)絡(luò)彈性復(fù)雜網(wǎng)絡(luò)的彈性,定義為刪除某個節(jié)點后對網(wǎng)絡(luò)的連通性的影響。網(wǎng)絡(luò)彈性的測量,有兩種分析方法:一種是隨機刪除,稱之為網(wǎng)絡(luò)的魯棒性分析;另一種是選擇刪除,稱之為網(wǎng)絡(luò)的脆弱性分析。基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)表示模型規(guī)則網(wǎng)絡(luò)基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)表示模型隨機網(wǎng)絡(luò)基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)表示模型小世界網(wǎng)絡(luò)基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)表示模型無標度網(wǎng)絡(luò)基礎(chǔ)知識
網(wǎng)絡(luò)圖與知識發(fā)現(xiàn)網(wǎng)絡(luò)可視化應(yīng)用可視化信息檢索網(wǎng)絡(luò)拓撲可視化社會關(guān)系網(wǎng)絡(luò)可視化其它領(lǐng)域的應(yīng)用軟件工具
編號工具名稱開發(fā)者技術(shù)特性功能簡述類型1echarts百度ECharts團隊開源可視化庫;兼容多種瀏覽器用于實現(xiàn)折線圖、柱狀圖、散點圖、餅圖、熱力圖等常見的數(shù)據(jù)可視化形式開源免費2highchartsHighsoft純JavaScript編寫的圖表庫用于實現(xiàn)折線圖、柱狀圖、散點圖、餅圖、熱力圖等常見的數(shù)據(jù)可視化形式非商業(yè)用途免費3CiteSpace陳超美圖形化界面;需要Java環(huán)境以樹形圖及連線等表示各個主題關(guān)系強弱,繪制共被引圖譜、關(guān)鍵詞圖譜、時區(qū)視圖等免費4Sci2Tool印第安納大學(xué)信息與圖書館學(xué)系跨平臺;圖形化界面;需要Java環(huán)境通過構(gòu)建知識單元來可視化地形成科技創(chuàng)新關(guān)系網(wǎng)絡(luò),將不同級別的關(guān)鍵詞通過不同大小的節(jié)點和連線形象地表示出來免費5VosViewer萊頓大學(xué)科技研究中心圖形化界面;需要Java環(huán)境;基于VOS及VxOrd可視化技術(shù)開發(fā)通過標簽、密度、聚類密度、分散4個視圖展示科技創(chuàng)新路徑圖譜免費6SupersetAirbnb開源數(shù)據(jù)挖掘平臺;Python運行環(huán)境,須本地化部署;支持多源數(shù)據(jù)快速創(chuàng)建可交互的、直觀形象的數(shù)據(jù)集合;擁有豐富的可視化方法來分析數(shù)據(jù),具有靈活的擴展能力開源免費常見的信息可視化軟件
接下頁軟件工具
編號工具名稱開發(fā)者技術(shù)特性功能簡述類型7TableauPublicTableau端到端數(shù)據(jù)分析平臺;支持多源數(shù)據(jù);圖形化界面創(chuàng)建出交互式圖表和圖片、地圖、實時儀表板,并允許在線分享商業(yè)免費8BibexcelPersoon圖形化界面具有文獻計量分析、引文分析、共引分析、耦合分析、聚類分析和數(shù)據(jù)可視化等功能免費9HistCiteEugeneGarfield等人跨平臺;圖形化界面揭示文獻之間的引用關(guān)系、主題的宗譜關(guān)系、作者歷史傳承關(guān)系、科學(xué)知識發(fā)展演進等免費10ArnetMiner清華大學(xué)KEG實驗室圖形化界面;開源數(shù)據(jù)挖掘平臺進行學(xué)術(shù)研究合作者的社交網(wǎng)絡(luò)挖掘與可視化免費11CFinderG.Palla跨平臺;圖形化界面;支持多源數(shù)據(jù)有效定位和可視化處理大規(guī)模稀疏網(wǎng)絡(luò)社群并定量描述社會網(wǎng)絡(luò)演變開源免費
續(xù)表實驗14:圖表制作實驗操作流程詳見教材實驗原理五類常見的信息圖表實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟確定需要表達的信息,圖表的樣式會由其決定。然后,將主要的信息作為圖表標題。標題須簡潔且切中關(guān)鍵。實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟確定相對關(guān)系,主要是厘清數(shù)據(jù)背后所蘊含的關(guān)系。五類基本關(guān)系的特點見表格。相對關(guān)系類型具體含義常見關(guān)鍵詞舉例成分相對關(guān)系各部分占總體的百分比份額;百分比;預(yù)計達到百分比在5月份,A產(chǎn)品預(yù)計占到公司總銷售額的最大份額;2005年市場份額少于行業(yè)10%。項目相對關(guān)系不同元素的排序大于;小于;大致相當在5月份,A產(chǎn)品的銷售額相當于B、C消費額之和;銷售額中顧客的回報排名第四。時間序列關(guān)系一定時間的變化變化;增長;提高;下降;減少;下跌;上下波動從1月以來銷售額穩(wěn)定增長;投資回報在過去的5年急劇下跌;利率在過去的7季度里起伏不定。頻率分布關(guān)系各數(shù)值范圍內(nèi)各包含了多少項目從X到Y(jié);集中;頻率與分布在5月,大多數(shù)地區(qū)的銷售額在100萬到200萬之間;我司員工年齡分布與競爭對手相比很大不同。相關(guān)性關(guān)系兩個變量之間的關(guān)系與…有關(guān);隨…而增長;隨…而下降;隨…而改變5月份銷售業(yè)績顯示銷售業(yè)績與銷售員的經(jīng)驗沒有關(guān)系;CEO的薪水并不隨著公司規(guī)模的變化而改變。實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟根據(jù)確定的相對關(guān)系,選擇圖表類型。實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟根據(jù)確定的相對關(guān)系,選擇圖表類型。①成分相對關(guān)系一般以餅圖呈現(xiàn)實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟根據(jù)確定的相對關(guān)系,選擇圖表類型。②項目相對關(guān)系一般以條形圖呈現(xiàn)實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟根據(jù)確定的相對關(guān)系,選擇圖表類型。③時間序列關(guān)系是隨著時間變化而變化的關(guān)系,一般使用柱形圖或折線圖表示實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟根據(jù)確定的相對關(guān)系,選擇圖表類型。③時間序列關(guān)系是隨著時間變化而變化的關(guān)系,一般使用柱形圖或折線圖表示如果折線圖中折線的數(shù)量太多致使難以閱讀,還可以將其轉(zhuǎn)化為分組折線圖→實驗14:圖表制作實驗操作流程詳見教材實驗原理制作以數(shù)據(jù)為基礎(chǔ)的圖表步驟根據(jù)確定的相對關(guān)系,選擇圖表類型。④頻率分布關(guān)系主要展示有多少項目會落入一個具有一定特征的數(shù)據(jù)段當中,其中數(shù)據(jù)段不宜少于5組,且不宜多于20組。分組時應(yīng)盡量使用規(guī)模大致相當?shù)慕M,只有在特殊情況下才使用不等的間距。組的數(shù)量較少時宜采用柱形圖,較多時宜采用折線圖。實驗14:圖表制作實驗操作流程詳見教
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 木板采購合同范本
- 無紡布采購合同范本
- (完整)建設(shè)工程施工合同履約保證保險費率表(2015版)
- 托管合同和中介合同范本
- 企業(yè)臨時員工合同范本
- 基于硫代酰胺官能化構(gòu)建C-N鍵的反應(yīng)研究
- 基于經(jīng)筋理論刃針松解治療面癱后遺聯(lián)帶運動的臨床研究
- 涉及Domb數(shù)和Franel數(shù)的同余式猜想的若干研究
- 四翅濱藜與殘次蘋果發(fā)酵物混貯及飼用價值初步評定
- 2022中國海歸就業(yè)調(diào)查報告
- 2025年七臺河職業(yè)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 【MOOC】數(shù)據(jù)庫系統(tǒng)(上):模型與語言-哈爾濱工業(yè)大學(xué) 中國大學(xué)慕課MOOC答案
- 高教版2023年中職教科書《語文》(基礎(chǔ)模塊)下冊教案全冊
- HCCDP 云遷移認證理論題庫
- 麻風病科普知識培訓(xùn)課件
- 四環(huán)素合成工藝課件
- 初中數(shù)學(xué)人教八年級上冊軸對稱-課題學(xué)習(xí)最短路徑問題將軍飲馬PPT
- 外語教師科研立項申報及特點分析課件
- 質(zhì)量管理小組活動準則TCAQ10201-2020
- 支氣管肺炎完整版課件
- 譯林英語五年級下冊單詞表(孩子自己默寫不用提)
評論
0/150
提交評論