數(shù)據(jù)挖掘-第二章認(rèn)識(shí)數(shù)據(jù)_第1頁
數(shù)據(jù)挖掘-第二章認(rèn)識(shí)數(shù)據(jù)_第2頁
數(shù)據(jù)挖掘-第二章認(rèn)識(shí)數(shù)據(jù)_第3頁
數(shù)據(jù)挖掘-第二章認(rèn)識(shí)數(shù)據(jù)_第4頁
數(shù)據(jù)挖掘-第二章認(rèn)識(shí)數(shù)據(jù)_第5頁
已閱讀5頁,還剩106頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)對(duì)象數(shù)據(jù)集由數(shù)據(jù)對(duì)象構(gòu)成一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體例子:銷售數(shù)據(jù)庫salesdatabase:客戶/顧客,商店物品,sales醫(yī)學(xué)數(shù)據(jù)庫:patients,treatments大學(xué)數(shù)據(jù)庫:students,professors,courses又稱為

樣本,事例,實(shí)例,數(shù)據(jù)點(diǎn),對(duì)象,元組tuples.數(shù)據(jù)對(duì)象由屬性來描述Databaserows->dataobjects;columns->attributes.第一頁,共111頁。屬性屬性Attribute(or維度,特征,變量):一個(gè)數(shù)據(jù)字段,表示一個(gè)數(shù)據(jù)對(duì)象的某個(gè)特征.E.g.,customer_ID,name,address類型:名詞性Nominal二元的數(shù)字的Numeric:數(shù)量的Interval-scaledRatio-scaled第二頁,共111頁。屬性類型

名詞性Nominal:類別,狀態(tài),or“名目”Hair_color={auburn,black,blond,brown,grey,red,white}婚姻狀態(tài),職業(yè)occupation,IDnumbers,zipcodes二元只有2個(gè)狀態(tài)的名詞性屬性(0and1)對(duì)稱二元Symmetricbinary:同樣重要的兩相e.g.,gender非對(duì)稱Asymmetricbinary:非同等重要

e.g.,醫(yī)療檢查(positivevs.negative)慣例Convention:assign1tomostimportantoutcome(e.g.,HIVpositive)順序的Ordinal值有一個(gè)有意義的順序(排序)但連續(xù)值之間的大小未知.Size={small,medium,large},等級(jí),軍隊(duì)排名第三頁,共111頁。數(shù)值屬性的類型

數(shù)量Quantity(integerorreal-valued)區(qū)間Interval在某個(gè)同等大小的一個(gè)尺度單位上Measuredonascaleofequal-sizedunits值有序E.g.,temperatureinC?orF?,calendardates沒有真正的零點(diǎn)Ratio有真正的零點(diǎn)可以講值是被測(cè)量單位一個(gè)數(shù)量級(jí)(10K?istwiceashighas5K?).e.g.,溫度在開爾文,長(zhǎng)度,計(jì)數(shù),貨幣的數(shù)量第四頁,共111頁。離散vs.連續(xù)屬性

DiscreteAttribute一個(gè)有限的或可數(shù)無限集值E.g.,zipcodes,thesetofwordsinacollectionofdocuments有時(shí),表示為整數(shù)變量注:二元屬性是離散屬性的一個(gè)特殊情況

ContinuousAttribute屬性值為實(shí)數(shù)E.g.,temperature,height,orweight實(shí)際上,實(shí)值只能使用有限位數(shù)進(jìn)行測(cè)量和代表連續(xù)屬性通常表示為浮點(diǎn)變量第五頁,共111頁。數(shù)據(jù)概述第六頁,共111頁。數(shù)據(jù)的計(jì)量與類型數(shù)據(jù)的計(jì)量尺度數(shù)據(jù)的類型數(shù)據(jù)的表現(xiàn)形式第七頁,共111頁。數(shù)據(jù)的計(jì)量尺度數(shù)據(jù)的計(jì)量尺度(LevelsofMeasurement)一般認(rèn)為,數(shù)據(jù)是對(duì)客觀現(xiàn)象計(jì)量的結(jié)果。按照對(duì)事物計(jì)量的精確程度,可將所采用的計(jì)量尺度由低級(jí)到高級(jí)分為四個(gè)層次:定類尺度(NominalLevel)定序尺度(OrdinalLevel)定距尺度(IntervalLevel)定比尺度(RatioLevel)第八頁,共111頁。定類尺度定類尺度(列名尺度):按照事物的某種屬性對(duì)其進(jìn)行平行的分類或分組。例:人口的性別(男、女);企業(yè)的所有制性質(zhì)(國(guó)有、集體、私營(yíng)等)計(jì)量層次最低對(duì)事物進(jìn)行平行的分類各類別可以指定數(shù)字代碼表示具有=或的數(shù)學(xué)特性數(shù)據(jù)表現(xiàn)為“類別”第九頁,共111頁。定類尺度定類尺度只測(cè)度了事物之間的類別差,而對(duì)各類之間的其他差別卻無法從中得知,因此各類地位相同,順序可以任意改變。對(duì)定類尺度的計(jì)量結(jié)果,可以且只能計(jì)算每一類別中各元素個(gè)體出現(xiàn)的頻數(shù)(frequency)。對(duì)事物進(jìn)行分類時(shí),必須符合窮盡(exhaustive)和互斥(mutuallyexclusive)要求。第十頁,共111頁。定序尺度定序尺度(順序尺度):是對(duì)事物之間等級(jí)或順序差別的一種測(cè)度。例:產(chǎn)品等級(jí)(一等品、二等品…);考試成績(jī)(優(yōu)、良、中、可、差)對(duì)事物分類的同時(shí)給出各類別的順序比定類尺度精確不僅可以測(cè)度類別差(分類),還可以測(cè)度次序差(比較優(yōu)劣或排序)數(shù)據(jù)表現(xiàn)為“類別”,但有序第十一頁,共111頁。定序尺度無法測(cè)出類別之間的準(zhǔn)確差值該尺度的計(jì)量結(jié)果只能排序,不能進(jìn)行算術(shù)運(yùn)算。具有>或<的數(shù)學(xué)特性第十二頁,共111頁。定距尺度定距尺度(間隔尺度):是對(duì)事物類別或次序之間間距的測(cè)度。例:100分制考試成績(jī);攝氏溫度對(duì)不同地區(qū)溫度的測(cè)量不僅能將事物區(qū)分為不同類型并進(jìn)行排序,而且可準(zhǔn)確指出類別之間的差距是多少比定序尺度精確定距尺度通常以自然或物理單位為計(jì)量尺度,因此數(shù)據(jù)表現(xiàn)為“數(shù)值”沒有絕對(duì)零點(diǎn);“0”是測(cè)量尺度上的一個(gè)測(cè)量點(diǎn),并不代表“沒有”計(jì)量結(jié)果可以進(jìn)行加減運(yùn)算,具有+或-的數(shù)學(xué)特性第十三頁,共111頁。定比尺度定比尺度(比率尺度):是能夠測(cè)算兩個(gè)測(cè)度值之間比值的一種計(jì)量尺度。例:職工月收入;企業(yè)產(chǎn)值;公制的距離、重量與定距尺度屬于同一層次,計(jì)量結(jié)果也表現(xiàn)為數(shù)值;除了具有其他三種計(jì)量尺度的全部特點(diǎn)外,還具有可計(jì)算兩個(gè)測(cè)度值之間比值的特點(diǎn);“0”表示“沒有”,即它有一固定的絕對(duì)“零點(diǎn)”,因此它可進(jìn)行加、減、乘、除運(yùn)算(而定距尺度只可進(jìn)行加減運(yùn)算)第十四頁,共111頁。四種計(jì)量尺度的比較四種計(jì)量尺度的比較定類尺度定序尺度定距尺度定比尺度

分類(=,≠)排序(<,>)

間距(+,-)比值(×,÷)√√√√√√√√√√“√”表示該尺度所具有的特性第十五頁,共111頁。四種計(jì)量尺度的區(qū)別與聯(lián)系高層次的計(jì)量尺度具有低層次計(jì)量尺度的全部特性,但反之不行可將高層次計(jì)量尺度的計(jì)量結(jié)果轉(zhuǎn)換為低層次計(jì)量尺度的計(jì)量結(jié)果,但不能反過來練習(xí):指出下面變量的測(cè)量尺度:學(xué)生住址距學(xué)校的距離學(xué)生某門課的一次測(cè)驗(yàn)成績(jī)(5分制)學(xué)生的出生地按年級(jí)分類的高校學(xué)生每周學(xué)生學(xué)習(xí)的小時(shí)數(shù)第十六頁,共111頁。數(shù)據(jù)分布特征的描述第十七頁,共111頁。數(shù)據(jù)分布的特征集中趨勢(shì)(位置)離中趨勢(shì)

(分散程度)第十八頁,共111頁。集中趨勢(shì)的測(cè)度定類數(shù)據(jù):眾數(shù)定序數(shù)據(jù):中位數(shù)和四分位數(shù)定距和定比數(shù)據(jù):平均數(shù)(均值)眾數(shù)、中位數(shù)和均值的比較第十九頁,共111頁。集中趨勢(shì)(Centraltendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)一般水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值低層次數(shù)據(jù)的集中趨勢(shì)測(cè)度值適用于高層次的測(cè)量數(shù)據(jù),反過來,高層次數(shù)據(jù)的集中趨勢(shì)測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù)選用哪一個(gè)測(cè)度值來反映數(shù)據(jù)的集中趨勢(shì),要根據(jù)所掌握的數(shù)據(jù)的類型來確定第二十頁,共111頁。定類數(shù)據(jù):眾數(shù)(mode)出現(xiàn)次數(shù)最多的變量值用Mo表示不受極端值的影響可能沒有眾數(shù)或有幾個(gè)眾數(shù)主要用于定類數(shù)據(jù),也可用于定序數(shù)據(jù)和數(shù)值型數(shù)據(jù)第二十一頁,共111頁。眾數(shù)的不唯一性無眾數(shù)

原始數(shù)據(jù):10591268一個(gè)眾數(shù)

原始數(shù)據(jù):659855多于一個(gè)眾數(shù)

原始數(shù)據(jù):252828364242第二十二頁,共111頁。眾數(shù)的例子例

某城市居民關(guān)注廣告類型的頻數(shù)分布

廣告類型人數(shù)(人)比例頻率(%)商品廣告服務(wù)廣告金融廣告房地產(chǎn)廣告招生招聘廣告其他廣告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合計(jì)2001100解:這里的變量為“廣告類型”,這是個(gè)定類變量,不同類型的廣告就是變量值。我們看到,在所調(diào)查的200人當(dāng)中,關(guān)注商品廣告的人數(shù)最多,為112人,占總被調(diào)查人數(shù)的56%,因此眾數(shù)為“商品廣告”這一類別,即

Mo=商品廣告第二十三頁,共111頁。定序數(shù)據(jù):中位數(shù)(median)排序后處于中間位置上的值用Me表示不受極端值的影響主要用于定序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于定類數(shù)據(jù)各變量值與中位數(shù)的離差絕對(duì)值之和最小,即最小第二十四頁,共111頁。中位數(shù)第二十五頁,共111頁。中位數(shù)的例子(定序數(shù)據(jù))解:中位數(shù)的位置為:

300/2=150從累計(jì)頻數(shù)看,中位數(shù)的在“一般”這一組別中。因此

Me=一般例

甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)非常不滿意不滿意一般滿意非常滿意2410893453024132225270300合計(jì)300—第二十六頁,共111頁。中位數(shù)的例子(數(shù)值型數(shù)據(jù))原始數(shù)據(jù): 2422212620排序: 2021222426位置: 123 45中位數(shù)22第二十七頁,共111頁。中位數(shù)的例子(數(shù)值型數(shù)據(jù))原始數(shù)據(jù):105 91268排序: 56891012位置: 123

456位置N+126+123.5中位數(shù)8+928.5第二十八頁,共111頁。定序數(shù)據(jù):四分位數(shù)(quartile)排序后處于25%和75%位置上的值用ML和MU表示不受極端值的影響主要用于定序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于定類數(shù)據(jù)第二十九頁,共111頁。四分位數(shù)方法2:較準(zhǔn)確算法方法1:定義算法第三十頁,共111頁。四分位數(shù)其中[]表示中位數(shù)的位置取整。這樣計(jì)算出的四分位數(shù)的位置,要么是整數(shù),要么在兩個(gè)數(shù)之間0.5的位置上方法3:第三十一頁,共111頁。四分位數(shù)的例子(定序數(shù)據(jù))解:QL位置=(300)/4=75QU位置=(3×300)/4=225

從累計(jì)頻數(shù)看,QL在“不滿意”這一組別中;QU在“一般”這一組別中四分位數(shù)為

QL

=不滿意

QU

=一般甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)非常不滿意不滿意一般滿意非常滿意

24108934530

24132225270300合計(jì)300—第三十二頁,共111頁。四分位數(shù)的例子(數(shù)值型數(shù)據(jù))9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456

789方法1第三十三頁,共111頁。四分位數(shù)的例子(數(shù)值型數(shù)據(jù))9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789方法2第三十四頁,共111頁。四分位數(shù)的例子(數(shù)值型數(shù)據(jù))9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:

123456789方法3第三十五頁,共111頁。數(shù)值型數(shù)據(jù):平均數(shù)(mean)一組數(shù)相加后除以數(shù)據(jù)的個(gè)數(shù)而得到的結(jié)果,也稱為均值集中趨勢(shì)的最常用測(cè)度值易受極端值的影響根據(jù)總體數(shù)據(jù)計(jì)算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為x第三十六頁,共111頁。簡(jiǎn)單平均數(shù)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn

(總體數(shù)據(jù)xN)樣本平均數(shù)總體平均數(shù)第三十七頁,共111頁。加權(quán)平均數(shù)設(shè)各組的組中值為:M1,M2,…,Mk

相應(yīng)的頻數(shù)為:f1,f2,…,fk樣本加權(quán)平均總體加權(quán)平均第三十八頁,共111頁。加權(quán)平均數(shù)簡(jiǎn)單平均數(shù)的大小只和變量值的大小有關(guān)加權(quán)平均數(shù)的大小不僅受各組組中值(Mi)大小的影響,而且受各組變量值出現(xiàn)的頻數(shù)即權(quán)數(shù)(fi)大小的影響。甲乙兩組各有10名學(xué)生,他們的考試成績(jī)及其分布數(shù)據(jù)如下 甲組:考試成績(jī)(x): 020100 人數(shù)分布(f): 118 乙組:考試成績(jī)(x): 020100 人數(shù)分布(f): 811第三十九頁,共111頁。平均數(shù)的數(shù)學(xué)性質(zhì)各變量值與平均數(shù)的離差之和等于零

各變量值與平均數(shù)的離差平方和最小第四十頁,共111頁。幾何平均數(shù)

n個(gè)變量值乘積的

n次方根適用于對(duì)比率數(shù)據(jù)的平均主要用于計(jì)算平均增長(zhǎng)率計(jì)算公式為5.可看作是平均數(shù)的一種變形第四十一頁,共111頁。幾何平均數(shù)的例子例一位投資者購持有一種股票,在2000、2001、2002和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計(jì)算該投資者在這四年內(nèi)的平均收益率

算術(shù)平均:

幾何平均:第四十二頁,共111頁。眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系左偏分布均值

中位數(shù)

眾數(shù)對(duì)稱分布

均值=中位數(shù)=

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值第四十三頁,共111頁。眾數(shù)、中位數(shù)、平均數(shù)的特點(diǎn)和應(yīng)用眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)應(yīng)用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用第四十四頁,共111頁。數(shù)據(jù)類型與集中趨勢(shì)測(cè)度值數(shù)據(jù)類型和所適用的集中趨勢(shì)測(cè)度值數(shù)據(jù)類型定類數(shù)據(jù)定序數(shù)據(jù)定距數(shù)據(jù)定比數(shù)據(jù)適用的測(cè)度值※眾數(shù)※中位數(shù)※平均數(shù)※平均數(shù)—四分位數(shù)眾數(shù)幾何平均數(shù)—眾數(shù)中位數(shù)中位數(shù)——四分位數(shù)四分位數(shù)———眾數(shù)第四十五頁,共111頁。離散程度的度量定類數(shù)據(jù):異眾比率定序數(shù)據(jù):四分位差定距和定比數(shù)據(jù):方差和標(biāo)準(zhǔn)差相對(duì)離散程度:離散系數(shù)第四十六頁,共111頁。離中趨勢(shì)離中趨勢(shì)的各測(cè)度值是對(duì)數(shù)據(jù)離散程度所作的描述反映各變量值遠(yuǎn)離其中心值的程度,因此也稱為離中趨勢(shì)從另一個(gè)側(cè)面說明了集中趨勢(shì)測(cè)度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測(cè)度值第四十七頁,共111頁。定類數(shù)據(jù):異眾比率

(variationratio)非眾數(shù)組的頻數(shù)占總頻數(shù)的比例用于衡量眾數(shù)的代表性第四十八頁,共111頁。異眾比率的例子解:

在所調(diào)查的50人當(dāng)中,購買其他品牌飲料的人數(shù)占70%,異眾比率比較大。因此,用“可口可樂”代表消費(fèi)者購買飲料品牌的狀況,其代表性不是很好不同品牌飲料的頻數(shù)分布

飲料品牌頻數(shù)比例百分比(%)可口可樂旭日升冰茶百事可樂匯源果汁露露15119690.300.220.180.120.183022181218合計(jì)501100第四十九頁,共111頁。定序數(shù)據(jù):四分位差

(quartiledeviation)也稱為內(nèi)距或四分間距上四分位數(shù)與下四分位數(shù)之差

Qd=QU

–QL反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性第五十頁,共111頁。四分位差的例子解:設(shè)非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5

。已知

QL

=不滿意=2

QU

=一般=3四分位差為

Qd

=QU

-

QL

=3–2

=1甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)非常不滿意不滿意一般滿意非常滿意

24108934530

24132225270300合計(jì)300—第五十一頁,共111頁。數(shù)值型數(shù)據(jù):極差(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布

R

=max(xi)-min(xi)第五十二頁,共111頁。平均差(meandeviation)各變量值與其平均數(shù)離差絕對(duì)值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學(xué)性質(zhì)較差,實(shí)際中應(yīng)用較少未分組數(shù)據(jù)組距分組數(shù)據(jù)第五十三頁,共111頁。平均差的例子某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表按銷售量分組組中值(Mi)頻數(shù)(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235

49162720171084540302010010203040501602703202700170200240160250合計(jì)—120—2040Md=2040/120=17第五十四頁,共111頁。方差和標(biāo)準(zhǔn)差

(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測(cè)度值反映了各變量值與均值的平均差異方差:各變量值與其平均數(shù)離差平方的平均數(shù)標(biāo)準(zhǔn)差:方差的平方根根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差或標(biāo)準(zhǔn)差,記為2()根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差或標(biāo)準(zhǔn)差,記為s2(s)第五十五頁,共111頁。總體方差和標(biāo)準(zhǔn)差未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式第五十六頁,共111頁。樣本方差和標(biāo)準(zhǔn)差未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式第五十七頁,共111頁。樣本方差的例子某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表按銷售量分組組中值(Mi)頻數(shù)(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235

491627201710845160090040010001004009001600250064008100640027000170040007200640012500合計(jì)—120—55400第五十八頁,共111頁。樣本方差的例子

含義:每一天的銷售量與平均數(shù)相比,平均相差21.58臺(tái)第五十九頁,共111頁。相對(duì)位置的度量:標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore)也稱標(biāo)準(zhǔn)化值對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)用于對(duì)變量的標(biāo)準(zhǔn)化處理第六十頁,共111頁。標(biāo)準(zhǔn)分?jǐn)?shù)的性質(zhì)均值等于0方差等于1第六十一頁,共111頁。標(biāo)準(zhǔn)分?jǐn)?shù)的性質(zhì)標(biāo)準(zhǔn)分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個(gè)數(shù)據(jù)在改組數(shù)據(jù)中的位置,也沒有改變?cè)摻M數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標(biāo)準(zhǔn)差為1第六十二頁,共111頁。經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)在三個(gè)標(biāo)準(zhǔn)差之外的數(shù)據(jù),稱為異常值或離群點(diǎn)第六十三頁,共111頁。切比雪夫不等式對(duì)于任意分布形態(tài)的數(shù)據(jù),切比雪夫不等式指出:至少有1-1/k2的數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi)。至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)第六十四頁,共111頁。相對(duì)離散程度:離散系數(shù)(coefficientofvariation)標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響用于對(duì)不同組別數(shù)據(jù)離散程度的比較第六十五頁,共111頁。離散系數(shù)的例子某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤(rùn)的離散程度某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號(hào)產(chǎn)品銷售額(萬元)x1銷售利潤(rùn)(萬元)x2123456781702203904304806509501000

8.112.518.022.026.540.064.069.0第六十六頁,共111頁。離散系數(shù)的例子結(jié)論:計(jì)算結(jié)果表明,v1<v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤(rùn)的離散程度v1=536.25309.19=0.577v2=32.521523.09=0.710第六十七頁,共111頁。數(shù)據(jù)類型與離散程度測(cè)度值數(shù)據(jù)類型和所適用的離散程度測(cè)度值數(shù)據(jù)類型定類數(shù)據(jù)定序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測(cè)度值※異眾比率※四分位差

※方差或標(biāo)準(zhǔn)差—異眾比率

※離散系數(shù)(比較時(shí)用)——平均差——極差——四分位差——異眾比率第六十八頁,共111頁。定類數(shù)據(jù)的整理與顯示基本過程:列出各類別計(jì)算各類別的頻數(shù)制作頻數(shù)分布表用圖形顯示數(shù)據(jù)主要指標(biāo):頻數(shù):落在各類別中的數(shù)據(jù)個(gè)數(shù)比例:某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值比率:不同類別數(shù)值的比值百分比:將對(duì)比的基數(shù)作為100而計(jì)算的比值第六十九頁,共111頁。定類數(shù)據(jù)的顯示—頻數(shù)分布表例:為研究廣告市場(chǎng)的狀況,一家廣告公司在某城市隨機(jī)抽取200人就廣告問題做了郵寄問卷調(diào)查,其中的一個(gè)問題是“您比較關(guān)心下列哪一類廣告?”

1.商品廣告;2.服務(wù)廣告;3.金融廣告;4.房地產(chǎn)廣告;5.招生招聘廣告;6.其他廣告。

某城市居民關(guān)注廣告類型的頻數(shù)分布

廣告類型人數(shù)(人)比例頻率(%)商品廣告服務(wù)廣告金融廣告房地產(chǎn)廣告招生招聘廣告其他廣告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合計(jì)2001100第七十頁,共111頁。定類數(shù)據(jù)的顯示—條形圖條形圖是用寬度相同的條形的高度或長(zhǎng)短來表示數(shù)據(jù)變動(dòng)的圖形在表示定類數(shù)據(jù)的分布時(shí),是用條形圖的高度來表示各類別數(shù)據(jù)的頻數(shù)或頻率繪制時(shí),各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖第七十一頁,共111頁。定類數(shù)據(jù)的顯示—條形圖人數(shù)(人)5191610211204080120

商品廣告

服務(wù)廣告

金融廣告

房地產(chǎn)廣告

招生招聘廣告

其他廣告廣告類型

某城市居民關(guān)注不同類型廣告的人數(shù)分布第七十二頁,共111頁。定類數(shù)據(jù)的顯示—柱形圖15119690481216頻數(shù)第七十三頁,共111頁。定類數(shù)據(jù)的顯示—對(duì)比柱形圖電腦銷售量的對(duì)比條形圖2562852475634683973286880100200300400500600700800聯(lián)想IBM康柏戴爾電腦品牌銷售量一季度二季度

分類變量在不同時(shí)間或不同空間上有多個(gè)取值對(duì)比分類變量的取值在不同時(shí)間或不同空間上的差異或變化趨勢(shì)第七十四頁,共111頁。定類數(shù)據(jù)的顯示—Pareto圖按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的柱形圖

第七十五頁,共111頁。定類數(shù)據(jù)的顯示—圓形圖也稱餅圖,是用圓形及園內(nèi)扇形的面積來表示數(shù)值大小的圖形主要用于表示總體中各組成部分所占的比例,對(duì)于研究結(jié)構(gòu)性問題十分有用在繪制圓形圖時(shí),總體中各部分所占的百分比用圓內(nèi)的各個(gè)扇形面積表示,這些扇形的中心角度,是按各部分百分比占3600的相應(yīng)比例確定的例如,關(guān)注服務(wù)廣告的人數(shù)占總?cè)藬?shù)的百分比為25.5%,那么其扇形的中心角度就應(yīng)為3600×25.5%=91.80

,其余類推。第七十六頁,共111頁。定類數(shù)據(jù)的顯示—圓形圖

其他廣告1.0%

房地產(chǎn)廣告8.0%

商品廣告56.0%

金融廣告4.5%

服務(wù)廣告25.5%

招生招聘廣告5.8%某城市居民關(guān)注不同類型廣告的人數(shù)構(gòu)成第七十七頁,共111頁。定序數(shù)據(jù)的整理與顯示主要指標(biāo):累計(jì)頻數(shù):將各類別的頻數(shù)逐級(jí)累加累計(jì)頻率:將各類別的頻率(百分比)逐級(jí)累加例:在一項(xiàng)城市住房問題的研究中,研究人員在甲乙兩個(gè)城市各抽樣調(diào)查300戶,其中的一個(gè)問題是:“您對(duì)您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。

甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)向上累積

向下累積

戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計(jì)300100.0————第七十八頁,共111頁。定序數(shù)據(jù)的顯示—累計(jì)頻數(shù)分布圖243001322252700100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(a)向上累積27616830300750100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(b)向下累積甲城市家庭對(duì)住房狀況評(píng)價(jià)的累積頻數(shù)分布第七十九頁,共111頁。定序數(shù)據(jù)的顯示—環(huán)形圖環(huán)形圖中間有一個(gè)“空洞”,總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別圓形圖只能顯示一個(gè)總體各部分所占的比例環(huán)形圖則可以同時(shí)繪制多個(gè)總體的數(shù)據(jù)系列,每一個(gè)總體的數(shù)據(jù)系列為一個(gè)環(huán)環(huán)形圖可用于進(jìn)行比較研究環(huán)形圖可用于展示定類和定序的數(shù)據(jù)第八十頁,共111頁。定序數(shù)據(jù)的顯示—環(huán)形圖8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

甲乙兩城市家庭對(duì)住房狀況的評(píng)價(jià)第八十一頁,共111頁。數(shù)值型數(shù)據(jù)的整理與顯示按照研究需要,將原始經(jīng)濟(jì)數(shù)據(jù)按照某種標(biāo)準(zhǔn)化分成不同的組別,稱為數(shù)據(jù)分組數(shù)據(jù)分組的方法:?jiǎn)巫兞恐捣纸M:把每一個(gè)變量值作為一組組距分組:將全部變量值依次劃分為若干個(gè)區(qū)間,并將這一區(qū)間的變量值作為一組第八十二頁,共111頁。單變量值分組將一個(gè)變量值作為一組適合于離散變量適合于變量值較少的情況例:某生產(chǎn)車間50名工人日加工零件數(shù)如下(單位:個(gè))。試采用單變量值對(duì)數(shù)據(jù)進(jìn)行分組。117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121第八十三頁,共111頁。單變量值分組某車間50名工人日加工零件數(shù)分組表零件數(shù)(個(gè))頻數(shù)(人)零件數(shù)(個(gè))頻數(shù)(人)零件數(shù)(個(gè))頻數(shù)(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112第八十四頁,共111頁。組距分組組距分組方法分為:等距分組異距分組特點(diǎn):將變量值的一個(gè)區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況必須遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組第八十五頁,共111頁。組距分組的步驟確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實(shí)際分組時(shí),可以按Sturges提出的經(jīng)驗(yàn)公式來確定組數(shù)K確定各組的組距:組距(ClassWidth)是一個(gè)組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即

組距=(最大值-最小值)÷組數(shù)

根據(jù)分組整理成頻數(shù)分布表

第八十六頁,共111頁。組距分組的幾個(gè)概念下限:一個(gè)組的最小值上限:一個(gè)組的最大值組距:上限與下限之差組中值:下限與上限之間的中點(diǎn)值下限值+上限值2組中值=第八十七頁,共111頁。等距分組表(上下組限重疊)某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)頻率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合計(jì)50100第八十八頁,共111頁。等距分組表(上下組限間斷)某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)頻率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合計(jì)50100第八十九頁,共111頁。等距分組表(使用開口組)某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)頻率(%)110以下110~114115~119120~124125~129130~134135以上358141064610162820128合計(jì)50100第九十頁,共111頁。組距分組與異距分組等距分組由于各組組距相同,各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對(duì)頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律異距分組各組頻數(shù)的分布受組距大小不同的影響各組絕對(duì)頻數(shù)的多少不能反映頻數(shù)分布的實(shí)際狀況需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實(shí)際狀況第九十一頁,共111頁。數(shù)值型數(shù)據(jù)的顯示分組數(shù)據(jù)的顯示原始數(shù)據(jù)的顯示時(shí)間序列數(shù)據(jù)的顯示多變量數(shù)據(jù)的顯示第九十二頁,共111頁。分組數(shù)據(jù)的顯示—直方圖用矩形的寬度和高度來表示頻數(shù)分布的圖形,實(shí)際上是用矩形的“面積”來表示各組的頻數(shù)分布在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖(Histogram)直方圖下的總面積等于1第九十三頁,共111頁。分組數(shù)據(jù)的顯示—直方圖頻數(shù)(人)1512963105110115120125130135140直方圖下的面積之和等于1某車間工人日加工零件數(shù)的直方圖第九十四頁,共111頁。分組數(shù)據(jù)的顯示—直方圖條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列第九十五頁,共111頁。分組數(shù)據(jù)的顯示—折線圖折線圖也稱頻數(shù)多邊形圖(Frequencypolygon)在直方圖的基礎(chǔ)上,把直方圖頂部的中點(diǎn)(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個(gè)終點(diǎn)要與橫軸相交,具體的做法是第一個(gè)矩形的頂部中點(diǎn)通過豎邊中點(diǎn)(即該組頻數(shù)一半的位置)連接到橫軸,最后一個(gè)矩形頂部中點(diǎn)與其豎邊中點(diǎn)連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的第九十六頁,共111頁。分組數(shù)據(jù)的顯示—折線圖1512963105110115120125130135140日加工零件數(shù)(個(gè))頻數(shù)(人)折線圖下的面積與直方圖的面積相等!某車間工人日加工零件數(shù)的折線圖第九十七頁,共111頁。原始數(shù)據(jù)的顯示—莖葉圖用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉對(duì)于n(20≤n≤300)個(gè)數(shù)據(jù),莖葉圖最大行數(shù)不超過

L=[10×log10n

]莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可大體上看出一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息第九十八頁,共111頁。原始數(shù)據(jù)的顯示—莖葉圖樹莖樹葉788022347778889013344579910111213數(shù)據(jù)個(gè)數(shù)3132410某車間工人日加工零件數(shù)的莖葉圖第九十九頁,共111頁。原始數(shù)據(jù)的顯示—箱線圖用于顯示未分組的原始數(shù)據(jù)或分組數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個(gè)特征值繪制而成,它由一個(gè)箱子和兩條線段組成其繪制方法是:首先找出一組數(shù)據(jù)的5個(gè)特征值,即最大值、最小值、中位數(shù)Me和兩個(gè)四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU

)連接兩個(gè)四分(位)數(shù)畫出箱子,再將兩個(gè)極值點(diǎn)與箱子相連接第一百頁,共111頁。原始數(shù)據(jù)的顯示—箱線圖中位數(shù)4681012QUQL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論