版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘?qū)д撜n后習(xí)題答案-第?章最近在讀《IntroductiontoDataMining》這本書,發(fā)現(xiàn)課后答案只有英?版,于是打算結(jié)合??的理解將答案翻譯?下,其中難免有錯(cuò)誤,歡迎?家指正和討論。侵刪。第?章字段3×3≈字段2。字段2和字段3很有可能包含相同的信息,盡管從?個(gè)很?的樣本中得出結(jié)論是?常不可靠的?為。(a)?元的,定性的,序數(shù)的(b)連續(xù)的,定量的,?率的(c)離散的,定性的,序數(shù)的(d)連續(xù)的,定量的,?率的(?如描述?了半圈就是?個(gè)?度中?例的概念)(e)離散的,定性的,序數(shù)的(f)連續(xù)的,定量的,?率的/區(qū)間的(取決于海平?的概念定義)(g)離散的,定量的,?率的(h)離散的,定性的,標(biāo)稱的(i)離散的,定性的,序數(shù)的(j)離散的,定性的,序數(shù)的(k)連續(xù)的,定量的,?率的/區(qū)間的(l)離散的,定量的,?率的(這個(gè)離散我也很疑惑,難道不可以有實(shí)數(shù)的密度嗎)(m)離散的,定性的,標(biāo)稱的(a)當(dāng)然是?板對(duì)了。銷售主管錯(cuò)的很離譜,就好?說(shuō)?部?億票房電影差評(píng)數(shù)??部?百萬(wàn)票房電影差評(píng)多,但是評(píng)論數(shù)根本不是?個(gè)量級(jí)的,因此應(yīng)該?差評(píng)率=差評(píng)數(shù)/評(píng)論數(shù)這個(gè)概念來(lái)評(píng)估滿意度,各?電影?站也是這么做的。(b)毫?意義。理由同上。(a)是的。假如出現(xiàn)1>2,2>3,3>1的情況那不就傻了。(b)當(dāng)1>2,2>3這種已經(jīng)能建?序數(shù)的情況下,就不做第三次?較了;當(dāng)1>2,2<3這種情況才做第三次?較。這種創(chuàng)建序數(shù)度量的?法通常來(lái)說(shuō)不太準(zhǔn)確,因?yàn)?較的維度可能不太?樣,?如1>2是因?yàn)?價(jià)格?2便宜,?2>3是因?yàn)?質(zhì)量?3好。通過(guò)學(xué)?的學(xué)號(hào)來(lái)預(yù)測(cè)學(xué)?哪?年畢業(yè)。(a)Q=A:001Q=B:011Q=C:101Q=D:111…………Q=A:00100QQQQ=A:00=B:01=C:10=D:11100100100100(b)400個(gè)?對(duì)稱的?進(jìn)制屬性。??溫。?檔-詞矩陣第i?第j列的元素表?單詞j在?檔i中出現(xiàn)的次數(shù)。?部分?檔都只包含了??部分?零元素,因此,?論是在描述?個(gè)?檔還是?較?檔的不同時(shí),零元素都是?意義的。所以說(shuō)?檔-詞矩陣有?對(duì)稱離散的特征。如果以TF-IDF算法(以詞頻和逆?檔頻率相乘得到的值當(dāng)作矩陣元素,某個(gè)詞越重要?jiǎng)tTF-IDF值越?,可見(jiàn)第16題)應(yīng)?到單詞上,并且規(guī)范化?檔的L范數(shù)=1,這樣的?檔-詞矩陣就是2連續(xù)的,但這樣的轉(zhuǎn)換并不影響之前就為0的元素,因此它還是?對(duì)稱的,0元素仍?意義。觀測(cè)科學(xué)并不能控制觀察到的數(shù)據(jù)的質(zhì)量。舉個(gè)例?,?如已經(jīng)可以使?現(xiàn)在的地球軌道衛(wèi)星技術(shù)了,但是測(cè)量海洋表?溫度仍然還是依靠船舶,類似的,測(cè)量天?的數(shù)據(jù)也依靠地?上的基站。因此,可?的數(shù)據(jù)是必不可少的。在這層意義上,觀測(cè)科學(xué)的數(shù)據(jù)分析?作與數(shù)據(jù)挖掘?分類似。浮點(diǎn)數(shù)精度是最?的精度。更直接地說(shuō),精度通常?來(lái)表?有效數(shù)字的數(shù)量,單精度只能表?有效數(shù)字低于32位的值,約等于?進(jìn)制的九位數(shù)字。通常使?32位(64位)的時(shí)候?qū)嶋H表?精度是低于32位(64位)的。(1)?本?件我們可以直接通過(guò)?本編輯器查看,但?進(jìn)制?件我們?法看懂(計(jì)算機(jī)專家除外)(2)跨系統(tǒng)或項(xiàng)?時(shí)?本?件更加便攜。(3)?本?件更容易修改。(a)根據(jù)定義,噪聲并不令?感興趣。但離群點(diǎn)有研究的意義。(b)可能。隨機(jī)數(shù)據(jù)的失真通常歸咎于離群點(diǎn)。(c)并不。(d)不,離群點(diǎn)只代表?類和正常點(diǎn)不同的點(diǎn)。(e)可以。(a)第?,在最近鄰列表中,重復(fù)元素的順序取決于算法細(xì)節(jié)和集合中元素順序。第?,如果有很多的重復(fù)元素,返回的列表中可能只有重復(fù)元素。第三,?個(gè)元素可能不是它??的最近鄰。(b)去重復(fù)。這些屬性都是數(shù)值型的,但是都有?泛的取值范圍,這取決于測(cè)量的刻度。此外,這些屬性都是對(duì)稱的。將歐??得距離標(biāo)準(zhǔn)化會(huì)更合適。第?種抽獎(jiǎng)是分層抽樣,可以保證從每組抽出的元素相等。第?組是簡(jiǎn)單隨機(jī)抽樣,但從平均意義上來(lái)說(shuō),從每組中抽出的元素和第?種?案?樣。(a)如果?個(gè)詞僅出現(xiàn)在?個(gè)?檔中,會(huì)賦予它最?的權(quán)重;如果出現(xiàn)在每個(gè)?檔中,則權(quán)重為0。(b)每個(gè)?檔中都出現(xiàn)的詞不能區(qū)分?檔,因此,這樣的變換可以更好地區(qū)分?檔。(a)(a2,b2)(b)y=x2(a)L=3Jaccard=2/51(b)漢明距離更類似于簡(jiǎn)單匹配系數(shù),實(shí)際上,SMC=1-漢明距離/位數(shù)。Jaccard相似度更類似于余弦度量,因?yàn)閮烧叨己雎粤?-0匹配。(c)Jaccard度量更合適,因?yàn)閮烧叨紱](méi)有的基因(即0-0匹配)并不能?來(lái)?較有機(jī)體的相似性,我們更加關(guān)注1-1匹配。(d)漢明距離更合適。因?yàn)槲覀冴P(guān)注兩者不同的基因(即1-0和0-1匹配)。(a)cos(x,y)=1;corr(x,y)=0/0;Euclidean(x,y)=2(b)cos(x,y)=0;corr(x,y)=-1;Euclidean(x,y)=2;Jaccard=0?cos(x,y)=0;corr(x,y)=0;Euclidean(x,y)=2(d)cos(x,y)=0.75;corr(x,y)=0.25;Jaccard=0.6(e)cos(x,y)=0;corr(x,y)=0(a)[-1,1]。在很多情況下只有?負(fù)的屬性值,這時(shí)的范圍是[0,1]。(b)不?定。例如x=(1,0),y=(2,0)(c)當(dāng)x與y的均值為0時(shí),cos(x,y)與corr(x,y)相等。(d)基于這100000點(diǎn),兩者有相反的關(guān)系。如果余弦相似度=1,則歐??得距離=0;如果歐??得距離?較?,則余弦相似度接近于0。注意所有的數(shù)據(jù)點(diǎn)都來(lái)?正的象限,因此所有的余弦值都為?負(fù)的。(e)同上。(f)(g)(a)顯然,d(A,B)≥0。當(dāng)A=B時(shí),d(A,B)=0。(b)d(A,B)=d(B,A)也很顯然。(c)?先,d(A,B)=size(A)+size(B)-2size(A∩B)則d(A,B)+d(B,C)=size(A)+size?+2size(B)-2size(A∩B)-2size(B∩C)?size(A∩B)≤size(B),size(B∩C)≤size(B)?size(A∩B)≤size(B),size(B∩C)≤size(B)所以d(A,B)+d(B,C)≥size(A)+size?+2size(B)-2size(B)=size(A)+size?≥size(A)+size?-2size(A∩C)=d(A,C)三?不等式證畢。對(duì)于第?個(gè)應(yīng)?對(duì)時(shí)間序列聚類,具有?的正相關(guān)性的時(shí)間序列應(yīng)該放在?起,因此?較合適。對(duì)于第?個(gè)應(yīng)?,需要考慮強(qiáng)的負(fù)相關(guān)關(guān)系,因此取絕對(duì)值更加合適,即sim=|corr|。假設(shè)s是在區(qū)間[0,1]取值的相似性度量,d=(1-s)/s,d=-logs。(a)兩兩?較,取最?的鄰近度或者最?的鄰近度;基于所有的點(diǎn)算出?個(gè)歐??得空間?的質(zhì)?,取所有點(diǎn)到質(zhì)?的距離之和或取平均值。(b)分別算出兩個(gè)點(diǎn)集的質(zhì)?,定義兩個(gè)質(zhì)?的距離就是兩個(gè)點(diǎn)集的距離。(c)?個(gè)?法是計(jì)算每個(gè)點(diǎn)到另?個(gè)對(duì)象集中所有點(diǎn)的距離取平均值,另?個(gè)?法是取最?值或最?值。(a)可以參考第四章的Hint算法。d(y,z)≤d(y,x)+d(x,z)如果d(x,y)≤ε/2,d(x,z)≤ε/2,那么d(y,z)?需計(jì)算。d(y,z)≥d(y,x)-d(x,z)如果d(y,x)-d(x,z)≥ε,那么d(y,z)?需計(jì)算。(b)如果x,y之間距離為0那么就?需其他計(jì)算了,如果x與y距離較?的話,就需要更多的計(jì)算。(c)設(shè)x,y是S‘?的點(diǎn),x*和y*是S’?距離x,y最近的點(diǎn)。如果d(x*,y*)+2ε≤β,那么d(x,y)≤β.如果d(x*,y*)-2ε≤β,那么d(x,y)≥β.(a)由J(x,y)≤1,?即得d(x,y)≥0;J(x,x)=1時(shí)有d(x,y)=0.(b)由J(x,y)=J(y,x),?即得d(x,y)=d(y,x)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025標(biāo)前合作協(xié)議合同范本下載6篇
- 二零二五年度設(shè)備租賃合同范本6篇
- 2025年度廣告代理提成合同協(xié)議3篇
- 個(gè)人與公司之間的2024年度勞動(dòng)合同2篇
- 二零二五年度設(shè)備采購(gòu)項(xiàng)目投標(biāo)擔(dān)保委托保證合同3篇
- 二零二五年度高等教育教師職稱評(píng)定聘用協(xié)議2篇
- 二零二五年度酒店餐飲用品一站式供應(yīng)合同3篇
- 二零二五年度物流運(yùn)輸及倉(cāng)儲(chǔ)服務(wù)合同2篇
- 學(xué)科本質(zhì)認(rèn)知視角下的初高中化學(xué)銜接教學(xué)研究
- 2024年防盜安全門承攬協(xié)議標(biāo)準(zhǔn)格式版B版
- 服務(wù)重點(diǎn)客戶
- 工業(yè)濾芯行業(yè)利潤(rùn)分析
- 2023年四川成都市初中學(xué)業(yè)水平考試生物試卷真題(答案詳解)
- 橋梁工程施工現(xiàn)場(chǎng)監(jiān)測(cè)方案
- 帝國(guó)主義:資本主義發(fā)展的最高最后階段
- 江蘇省蘇州市2023-2024學(xué)年高一上學(xué)期期末學(xué)業(yè)質(zhì)量陽(yáng)光指標(biāo)調(diào)研生物試題
- 閱讀理解:如何找文章線索 課件
- 2024年廣西北部灣港集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 科技館改造室內(nèi)裝修工程 投標(biāo)方案(技術(shù)方案)
- (外研版)高一英語(yǔ)必修1(全冊(cè))同步練習(xí)匯總
- 朱熹文公世系通譜
評(píng)論
0/150
提交評(píng)論