世界上十大終極數(shù)據(jù)庫_第1頁
世界上十大終極數(shù)據(jù)庫_第2頁
世界上十大終極數(shù)據(jù)庫_第3頁
世界上十大終極數(shù)據(jù)庫_第4頁
世界上十大終極數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

10.美國國會圖書館不管是不是在數(shù)字時代,全球最大的圖書館——美國國會圖書館都可以榮登這一列表。國會圖書館的藏書數(shù)量之高——1.4億多冊,范圍之廣——從烹飪書籍到殖民地時期的報紙到美國政府刊物。據(jù)估計,如果把國會圖書館的文字以數(shù)字形式存儲,其總量將達20TB。www.jobB如果你(特指老美)在互聯(lián)網(wǎng)上找東西又找不到時,那么國會圖書館應(yīng)是你要去的地方。對于研究美國歷史的用戶來說,國會圖書館是個必去之處,用戶訪問國會圖書館網(wǎng)站的“美國記憶”目錄,該目錄下大約有5百萬冊相關(guān)資料。但不幸的是,國會圖書館并無計劃把所有的館藏內(nèi)容都數(shù)字化,并且有些館藏是限制查閱人群,只對最高法院法官、國會議員、館內(nèi)工作人員和其他政府官員。但是,只要你有國會圖書館的借閱卡,就可以借閱(大部分)資料。(編者注:該圖書館的資料不能外借,讀者只能在館內(nèi)查閱。)國會圖書館數(shù)據(jù)庫概括:館藏資料總量1.3億份;(包括書籍、照片和地圖等)2900萬冊書;每天新增1萬館藏;書架長度共有530英里;5百萬份數(shù)字文檔;文字數(shù)據(jù)總量20TB。9.美國中央情報局(CIA)CIA的任務(wù)(之一)就是收集和散發(fā)各種信息和資料,所以CIA能上榜就不足為奇了。雖然CIA數(shù)據(jù)庫的總量外界不得而知,但下面這個說法是十分肯定的。這個機構(gòu)一定收集了大量的公共信息和私人信息。(編者注:其收集信息的手段十分多樣化。)CIA數(shù)據(jù)庫對公眾開放的部分有:“信息自由法”電子閱覽室、“世界概況”和其他情報相關(guān)出版物。在“信息自由法”電子閱覽室中,公眾可以看到成千上萬的美國政府官方文檔(也有已解密的文檔)。電子閱覽室每月新增100份文檔,文檔主題內(nèi)容范圍很廣,從巴基斯坦核發(fā)展到“韓戰(zhàn)”(西方皆稱“韓戰(zhàn)”,大陸稱“抗美援朝”)中的啤酒種類。“世界概況”收藏了各個國家和地區(qū)的信息,包括地圖、人口數(shù)量和軍事能力等。編者注:美國中央情報局圖書館電子閱覽室網(wǎng)站根據(jù)《美國信息自由法》,美國政府公布了大批中央情報局國家情報評估等情報檔案。在該網(wǎng)站“文件搜索”框中輸入關(guān)鍵詞便可搜尋所需檔案,也可按地理、功能和形式分類查詢。CIA數(shù)據(jù)庫概括:電子閱覽室每個月新增100份文檔;覆蓋全球250多個國家和地區(qū)的統(tǒng)計數(shù)據(jù);數(shù)目不詳?shù)臋C密資料8.Amazon亞馬遜Amazon,全球最大的零售網(wǎng)站,“收藏”了5900萬活躍用戶的信息,包括個人信息(電話號碼等)、收據(jù)/發(fā)票、清單和還有其他能從用戶那提取的數(shù)據(jù)。Amazon也有25萬多的在線書籍(可以全文閱讀的),并允許用戶在其各個頁面進行評論和交互。因此,Amazon躋身為全球最大的在線社區(qū)之一。(不知你有注意Amazon的Logo上的箭頭么?有2層意思:1.從A到Z是指其物品繁多;2.笑臉。)上述這些數(shù)據(jù)和Amazon每年的數(shù)百萬巨額銷售量,再加上Amazon合伙人的巨額銷售量,造就了一個超大數(shù)據(jù)庫。Amazon最大的2個數(shù)據(jù)庫的數(shù)據(jù)量加起來有42TB,這還只是開始。如果Amazon公開其所有的數(shù)據(jù)庫數(shù)量和每個數(shù)據(jù)庫的數(shù)據(jù)量,這就不僅是42TB了。盡管如此,我們暫且就算它42TB吧。42TB數(shù)據(jù),如果換算成論壇帖子的話,應(yīng)該是37萬億個帖子。編者注:我猜想,這里所說的帖子,應(yīng)該是主題帖和回帖的統(tǒng)稱,不是特指主題帖。另外,Amazon賣出的第一本書是道格拉斯?霍夫斯塔特的《FluidConceptsandCreativeAnalogies:ComputerModelsoftheFundamentalMechanismsofThought》。Amazon數(shù)據(jù)庫概括:5900萬活躍用戶;數(shù)據(jù)量超過42TB。YouTube在經(jīng)過這些年的積累發(fā)展,YouTube已經(jīng)成為全球最大的視頻庫(視頻網(wǎng)站)。如今,YouTube上每日視頻播放次數(shù)高達1億次,60%的視頻是在線觀看的。2006年8月,《華爾街日報》稱YouTube的視頻總量已有45TB。相對互聯(lián)網(wǎng)上數(shù)據(jù)量來說,這個數(shù)字聽起來不是很高,但自從這個數(shù)字公布以來,YouTube正經(jīng)歷了一段大幅增長時期,(每天有65000段視頻上傳至YouTube,)所以在過去五個月中,YouTube的數(shù)據(jù)庫大小很可能已經(jīng)翻倍了。因為YouTube上的每段視頻的大小不一,所以要估計YouTube的數(shù)據(jù)庫大小并非易事。不過,也可以大膽來預(yù)測一下:每天上傳6500段視頻,故每個月共有65000*30=1,950,000段視頻;假設(shè)每段視頻大小為1MB,每月將有1.95TB;假設(shè)每段視頻大小為10MB,每月將有19.5TB。所以,YouTube下個月將增加近20TB數(shù)據(jù)。(編者注:YouTube上的第一段視頻是Youtube的聯(lián)合創(chuàng)始人JawedKarim上傳的,視頻名稱《Meatthezoo》。)YouTube數(shù)據(jù)庫概括:每日的視頻播放量為1億次;每日新增65000段視頻;60%的視頻是在線觀看的;視頻總量大小至少是45TB。6.ChoicePoint設(shè)想一下:在一本10億頁的電話本上找一個電話號碼。這是一項什么的工作。當你有求于ChoicePoint的時候,ChoicePoint的員工就得干這活。如果把ChoicePoint的數(shù)據(jù)庫資料全部打印出來,在不這些紙張連起來,其長度足以在地月之間往返77回。ChoicePoint是一家信息服務(wù)機構(gòu),你可以通過它查詢美國的人口數(shù)量、地址和電話號碼、駕駛記錄和犯罪記錄等。在大多數(shù)情況下,Choicepoint數(shù)據(jù)庫中的數(shù)據(jù)是只賣給出價最高的買主,包括美國政府。ChoicePoint到底知道多少呢?2002年,借助ChoicePoint數(shù)據(jù)中的DNA和個人記錄數(shù)量,政府成功破獲了費城和柯林斯堡的一起系列強/奸案。2001年,世貿(mào)中心有很多遇難者已無法辨別身份,在提取遇難者的DNA后,通過比對ChoicePoint數(shù)據(jù)庫中的遇難者家屬的數(shù)據(jù),才得以確認遇難者身份。ChoicePoint數(shù)據(jù)庫概括:個人數(shù)據(jù)總量為250TB;信息覆蓋2.5億人。Sprint斯普林特導(dǎo)讀:看了上篇的回復(fù)評論,有朋友說自家電腦上的影片都是TB級的。一般來說,明智的管理員是不大可能把視頻和圖片之類的文件保存在數(shù)據(jù)庫中的。Sprint是全球最大的通信公司之一,向5300萬客戶提供服務(wù)。在和Nextel合并之前,提供本地和長途通信服務(wù)。(SprintNextel公司現(xiàn)已是全美第3大通信公司,僅次于Verizon和AT&T。)www.jobBSprintTogetherwithNEXTEL像Sprint這樣的大型通信公司,均有龐大的數(shù)據(jù)庫,以追蹤客戶呼叫請求。Sprint的數(shù)據(jù)庫每天要處理多達3.65億次呼叫記錄。其數(shù)據(jù)庫已擴展到2.85萬億行。在頂峰期間,每秒有7萬次呼叫詳細記錄新增到數(shù)據(jù)庫中。Sprint數(shù)據(jù)庫概括:數(shù)據(jù)庫有2.85萬億行;每日平均處理3.65億個呼叫詳細記錄;頂峰期間,每秒插入7萬次呼叫詳細記錄。Google盡管目前外界沒有太多關(guān)于Google的數(shù)據(jù)庫真實大小的信息(Google一直能嚴守信息,這讓諾克斯堡軍事基地情何以堪。),但我們已知道Google所收集信息的數(shù)量和種類。編者注:文中提到的諾克斯堡軍事基地,是美國國庫黃金儲備地之一(還有一個是西點,至于紐約聯(lián)邦儲備銀行的地下金庫,主要是存放外國的黃金。)。該基地許多地方可以隨便開車進入,惟獨金庫用鐵絲網(wǎng)攔住,外人不得入內(nèi)。故原文作者這樣說。Google平均每天處理9100萬次查詢(Google的處理海量請求的能力是基于其龐大且強大的數(shù)據(jù)中心),這將近占整個互聯(lián)網(wǎng)每日查詢總量的50%。Google把用戶的每一次搜索保存在數(shù)據(jù)庫中。所以,Google平均一年要保存33萬億條查詢記錄。根據(jù)Google數(shù)據(jù)的結(jié)構(gòu)類型,一年的查詢總量將折合成數(shù)百TB。除了查詢記錄,Google還收集用戶的個人信息。(怎么收集?)Google把用戶的查詢請求和用戶電腦上Cookie保留的信息整合到一起,創(chuàng)建虛擬的個人信息。尤為重要的是,除了搜索,Google帝國的疆土還在不斷擴大,現(xiàn)有疆土已有數(shù)字媒體(Google視頻和YouTube)、廣告(GoogleAds)和郵箱等。歸根結(jié)底,Google的疆土越大,其數(shù)據(jù)庫處理的信息量就越大。就互聯(lián)網(wǎng)范圍內(nèi)的數(shù)據(jù)庫而言,Google是No1。Google數(shù)據(jù)庫概括:平均每天9100萬查詢請求;查詢數(shù)量占所有互聯(lián)網(wǎng)查詢量的50%;不計其數(shù)的用戶虛擬資料。AT&T美國電話電報公司和Sprint一樣,美國的老牌通信公司AT&T的數(shù)據(jù)庫也能進入排名。從結(jié)構(gòu)上來說,AT&T的最大數(shù)據(jù)庫是百里挑一的,因為它有2個重要“頭銜”,總量最大的獨立數(shù)據(jù)庫(312TB)和行數(shù)第二大的獨立數(shù)據(jù)庫(1.9萬億行,這個數(shù)據(jù)庫是處理呼叫記錄的)。1.9萬億條呼叫記錄,包括了主叫和被叫號碼、呼叫時間和通話時長以及其他各種賬單目錄信息。AT&T的工作做得非常細致,他們業(yè)保存了10年前的呼叫信息。要知道,10年前可沒有保存數(shù)百TB級數(shù)據(jù)的技術(shù)。(或者說技術(shù)還不成熟。)AT&T數(shù)據(jù)庫概括:信息量為323TB;1.9萬億的通話記錄。2.美國國家能源研究科學(xué)計算中心(簡稱NERSC)第二大的數(shù)據(jù)庫應(yīng)屬加州奧克蘭的NERSC。NERSC由“勞倫斯伯克利能源實驗室”和“美國能源部”共同運作。它數(shù)據(jù)庫保存的信息包括了原子能研究、高能物理實驗和早期宇宙模擬等數(shù)據(jù)。如果想看宇宙過去的模樣,啟動NERSC的超級計算機就可以觀看“大爆炸”時期的宇宙形態(tài)。www.jabBNATIONALENERGYRESEARCHSCIENTIFICCOMPUTINGCENTER編者注:NERSC有超級計算機群,其中最大的名為“富蘭克林”。2009年11月,全球超超級計算機Top500排行榜中,“富蘭克林”位列15。NERSC數(shù)據(jù)庫由2000多名計算機科學(xué)家操作和維護,其數(shù)據(jù)量高達2.8PB。注:1PB=1024TB;1TB=1024GB;)NERSC數(shù)據(jù)庫概括:信息量高達2.8PB;由2000多名計算機科學(xué)家共同運作;世界氣候數(shù)據(jù)中心(WDCC)如果你有一臺價值3500萬歐元的超級計算機,你會把它用來做什么?炒股?搭建自己的“因特網(wǎng)”?WDCC就有一臺這樣的機器,又逢全球變暖,正好用它來做氣候研究。WDCC由馬克思?普朗克氣象研究院和德國氣候計算機中心共同運作,其數(shù)據(jù)庫是全球最大的。WDCC有220TB的網(wǎng)絡(luò)數(shù)據(jù),包括氣候研究、預(yù)測氣候變化和110TB(24500張DVD)的氣候模擬數(shù)據(jù)。尤為重要的是,它還有保存在磁帶上的6PB的其他信息。你會問,這6PB的數(shù)據(jù)有多大呢?這個數(shù)據(jù)是全美所有學(xué)術(shù)研究圖書館內(nèi)容總和的3倍。WDCC數(shù)據(jù)庫概

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論