


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大型網站架構演變和知識體系之前也有一些介紹大型網站架構演變的文章,例如LiveJournal的、ebay的,都是非常值得參考的,不過感覺他們講的更多的是每次演變的結果,而沒有很 詳細的講為什么需要做這樣的演變,再加上近來感覺有不少同學都很難明白為 什么一個網站需要那么復雜的技術,于是有了寫這篇文章的想法,在這篇文章 中將闡述一個普通的網站發(fā)展成大型網站過程中的一種較為典型的架構演變 歷程和所需掌握的知識體系,希望能給想從事互聯(lián)網行業(yè)的同學一點初步的概 念,:,文中的不對之處也請各位多給點建議,讓本文真正起到拋磚引玉的效 果。架構演變第一步:物理分離webserver和數(shù)據(jù)庫最開始,因為某些想法
2、,于是在互聯(lián)網上搭建了一個網站,這個時候甚至有可 能主機都是租借的,但因為這篇文章我們只關注架構的演變歷程,因此就假設 這個時候已經是托管了一臺主機,并且有一定的帶寬了,這個時候因為網站具 備了一定的特色,吸引了部分人訪問,逐漸你發(fā)現(xiàn)系統(tǒng)的壓力越來越高,響應 速度越來越慢,而這個時候比較明顯的是數(shù)據(jù)庫和應用互相影響,應用出問題 了,數(shù)據(jù)庫也很容易出現(xiàn)問題,而數(shù)據(jù)庫出問題的時候,應用也容易出問題, 于是進入了第一步演變階段:將應用和數(shù)據(jù)庫從物理上分離,變成了兩臺機器, 這個時候技術上沒有什么新的要求,但你發(fā)現(xiàn)確實起到效果了,系統(tǒng)又恢復到 以前的響應速度了,并且支撐住了更高的流量,并且不會因為數(shù)據(jù)
3、庫和應用形 成互相的影響??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:這一步架構演變對技術上的知識體系基本沒有要求。架構演變第二步:增加頁面緩存好景不長,隨著訪問的人越來越多,你發(fā)現(xiàn)響應速度又開始變慢了,查找原因, 發(fā)現(xiàn)是訪問數(shù)據(jù)庫的操作太多,導致數(shù)據(jù)連接競爭激烈,所以響應變慢,但數(shù) 據(jù)庫連接又不能開太多,否則數(shù)據(jù)庫機器壓力會很高,因此考慮采用緩存機制 來減少數(shù)據(jù)庫連接資源的競爭和對數(shù)據(jù)庫讀的壓力,這個時候首先也許會選擇 采用squid 等類似的機制來將系統(tǒng)中相對靜態(tài)的頁面 例如一兩天才會有更新 的頁面)進行緩存 當然,也可以采用將頁面靜態(tài)化的方案),這樣程序上可以不做修改,就能夠
4、 很好的減少對webserver的壓力以及減少數(shù)據(jù)庫連接資源 的競爭,0K于是開始采用squid來做相對靜態(tài)的頁面的緩存??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:前端頁面緩存技術,例如squid,如想用好的話還得深入掌握下 squid的實現(xiàn) 方式以及緩存的失效算法等。架構演變第三步:增加頁面片段緩存增加了 squid做緩存后,整體系統(tǒng)的速度確實是提升了,webserver的壓力也開始下降了,但隨著訪問量的增加,發(fā)現(xiàn)系統(tǒng)又開始變的有些慢了,在嘗到了 squid之類的動態(tài)緩存帶來的好處后,開始想能不能讓現(xiàn)在那些動態(tài)頁面里 相對靜態(tài)的部分也緩存起來呢,因此考慮采用類似ESI之類的頁面
5、片段緩存策略,0K于是開始采用ESI來做動態(tài)頁面中相對靜態(tài)的片段部分的緩存。這一步涉及到了這些知識體系:頁面片段緩存技術,例如 ESI等,想用好的話同樣需要掌握 ESI的實現(xiàn)方式等;架構演變第四步:數(shù)據(jù)緩存在采用ESI之類的技術再次提高了系統(tǒng)的緩存效果后,系統(tǒng)的壓力確實進一步 降低了,但同樣,隨著訪問量的增加,系統(tǒng)還是開始變慢,經過查找,可能會 發(fā)現(xiàn)系 統(tǒng)中存在一些重復獲取數(shù)據(jù)信息的地方,像獲取用戶信息等,這個時 候開始考慮是不是可以將這些數(shù)據(jù)信息也緩存起來呢,于是將這些數(shù)據(jù)緩存到 本地內存,改變完畢后,完全符合預期,系統(tǒng)的響應速度又恢復了,數(shù)據(jù)庫的 壓力也再度降低了不少。這一步涉及到了這些知
6、識體系:緩存技術,包括像 Map數(shù)據(jù)結構、緩存算法、所選用的框架本身的實現(xiàn)機制等。架構演變第五步:增加webserver好景不長,發(fā)現(xiàn)隨著系統(tǒng)訪問量的再度增加,webserver機器的壓力在高峰期會上升到比較高,這個時候開始考慮增加一臺webserver,這也是為了同時解決可用性的問題,避免單臺的 webserver down機的話就沒法使用了,在做了這 些考慮后,決定增加一臺 webserver,增加一臺webserver時,會碰到一些問 題,典型的有:1如何讓訪問分配到這兩臺機器上,這個時候通常會考慮的方 案是Apache自帶的負載均衡方案,或LVS這類的軟件負載均衡方案;2、如何 保持狀
7、態(tài)信息的同步,例如用戶 session等,這個時候會考慮的方案有寫入數(shù) 據(jù)庫、寫入存儲、cookie或同步session信息等機制等;3、如何保持數(shù)據(jù)緩 存信息的同步,例如之前緩存的用戶數(shù)據(jù)等,這個時候通常會考慮的機制有緩 存同步或分布式緩存;4、如何讓上傳文件這些類似的功能繼續(xù)正常,這個時候 通常會考慮的機制是使用共享文件系統(tǒng)或存儲等;在解決了這些問題后,終于 是把webserver增加為了兩臺,系統(tǒng)終于是又恢復到了以往的速度??纯催@一步完成后系統(tǒng)的圖示:前端頁面緩存負載均衡技術 包括但不限于硬件負載均衡、軟件負載均衡、負載算法、linux轉發(fā)協(xié)議、所選用的技術的實現(xiàn)細節(jié)等)、主備技術包括但
8、不限于ARP欺騙、linux heart-beat 等)、狀態(tài)信息或緩存同步技術 包括但不限于Cookie技術 UDP協(xié)議、狀態(tài)信息廣播、所選用的緩存同步技術的實現(xiàn)細節(jié)等)、共享文件 技術 包括但不限于NFS等)、存儲技術 包括但不限于存儲設備等)。架構演變第六步:分庫享受了一段時間的系統(tǒng)訪問量高速增長的幸福后,發(fā)現(xiàn)系統(tǒng)又開始變慢了,這 次又是什么狀況呢,經過查找,發(fā)現(xiàn)數(shù)據(jù)庫寫入、更新的這些操作的部分數(shù)據(jù) 庫連接的資源競爭非常激烈,導致了系統(tǒng)變慢,這下怎么辦呢,此時可選的方 案有數(shù)據(jù)庫集群和分庫策略,集群方面像有些數(shù)據(jù)庫支持的并不是很好,因此 分庫會成為比較普遍的策略,分庫也就意味著要對原有程
9、序進行修改,一通修 改實現(xiàn)分庫后,不錯,目標達到了,系統(tǒng)恢復甚至速度比以前還快了??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系: 這一步更多的是需要從業(yè)務上做合理的劃分,以實現(xiàn)分庫,具體技術細節(jié)上沒 有其他的要求; 但同時隨著數(shù)據(jù)量的增大和分庫的進行,在數(shù)據(jù)庫的設計、調優(yōu)以及維護上需 要做的更好,因此對這些方面的技術還是提出了很高的要求的。架構演變第七步:分表、DAL和分布式緩存隨著系統(tǒng)的不斷運行,數(shù)據(jù) 量開始大幅度增長,這個時候發(fā)現(xiàn)分庫后查詢仍然會有些慢,于是按照分庫的 思想開始做分表的工作,當然,這不可避免的會需要對程序進行一些修改,也 許在這個時候就會發(fā)現(xiàn)應用自己要關心分庫分表
10、的規(guī)則等,還是有些復雜的, 于是萌生能否增加一個通用的框架來實現(xiàn)分庫分表的數(shù)據(jù)訪問,這個在ebay的架構中對應的就是 DAL這個演變的過程相對而言需要花費較長的時間,當然, 也有可能這個通用的框架會等到分表做完后才開始做,同時,在這個階段可能 會發(fā)現(xiàn)之前的緩存同步方案出現(xiàn)問題,因為數(shù)據(jù)量太大,導致現(xiàn)在不太可能將 緩存存在本地,然后同步的方式,需要采用分布式緩存方案了,于是,又是一 通考察和折磨,終于是將大量的數(shù)據(jù)緩存轉移到分布式緩存上了??纯催@一步完成后系統(tǒng)的圖示:前端頁面緩存Webserver頁面片段緩存數(shù)據(jù)緩存分布式緩存DALDatabase這一步涉及到了這些知識體系:分表更多的同樣是業(yè)務
11、上的劃分,技術上涉及到的會有動態(tài)hash算法、con siste nt hash算法等;DAL涉及到比較多的復雜技術,例如數(shù)據(jù)庫連接的管理 < 超時、異常)、數(shù)據(jù)庫 操作的控制 <超時、異常)、分庫分表規(guī)則的封裝等;架構演變第八步:增加更多的 webserver在做完分庫分表這些工作后,數(shù)據(jù)庫上的壓力已經降到比較低了,又開始過著 每天看著訪問量暴增的幸福生活了,突然有一天,發(fā)現(xiàn)系統(tǒng)的訪問又開始有變 慢的趨勢了,這個時候首先查看數(shù)據(jù)庫,壓力一切正常,之后查看webserver發(fā)現(xiàn)apache阻塞了很多的請求,而應用服務器對每個請求也是比較快的,看 來 是請求數(shù)太高導致需要排隊等待,響
12、應速度變慢,這還好辦,一般來說, 這個時候也會有些錢了,于是添加一些webserver服務器,在這個添加 webserver服務器的過程,有可能會出現(xiàn)幾種挑戰(zhàn):1、Apache的軟負載或 LVS軟負載等無法承擔巨大的 web訪問量 < 請求連接數(shù)、網絡流量等)的調度了, 這個時候如果經費允許的話,會采取的方案是購買硬件負載,例如F5、Netsclar、Athelon之類的,如經費不允許的話,會采取的方案是將應用從邏 輯上做一定的分類,然后分散到不同的軟負載集群中;2、原有的一些狀態(tài)信息同步、文件共享等方案可能會出現(xiàn)瓶頸,需要進行改進,也許這個時候會根據(jù) 情況編寫符合網站業(yè)務需求的分布式文
13、件系統(tǒng)等;在做完這些工作后,開始進 入一個看似完美的無限伸縮的時代,當網站流量增加時,應對的解決方案就是 不斷的添加 webserver??纯催@一步完成后系統(tǒng)的圖示:前端頁面緩存這一步涉及到了這些知識體系: 到了這一步,隨著機器數(shù)的不斷增長、數(shù)據(jù)量的不斷增長和對系統(tǒng)可用性的要 求越來越高,這個時候要求對所采用的技術都要有更為深入的理解,并需要根 據(jù)網站的需求來做更加定制性質的產品。架構演變第九步:數(shù)據(jù)讀寫分離和廉價存儲方案突然有一天,發(fā)現(xiàn)這個完美的時代也要結束了,數(shù)據(jù)庫的噩夢又一次出現(xiàn)在眼 前了,因為添加的webserver太多了,導致數(shù)據(jù)庫連接的資源還是不夠用,而 這個時候又已經分庫分表了,
14、開始分析數(shù)據(jù)庫的壓力狀況,可能會發(fā)現(xiàn)數(shù)據(jù)庫 的讀寫比很高,這個時候通常會想到數(shù)據(jù)讀寫分離的方案,當然,這個方案要 實現(xiàn)并不 容易,另外,可能會發(fā)現(xiàn)一些數(shù)據(jù)存儲在數(shù)據(jù)庫上有些浪費,或者 說過于占用數(shù)據(jù)庫資源,因此在這個階段可能會形成的架構演變是實現(xiàn)數(shù)據(jù)讀 寫分離,同時編寫一些更為廉價的存儲方案,例如BigTable這種??纯催@一步完成后系統(tǒng)的圖示:詢端頁面緩存這一步涉及到了這些知識體系:數(shù)據(jù)讀寫分離要求對數(shù)據(jù)庫的復制、standby等策略有深入的掌握和理解,同 時會要求具備自行實現(xiàn)的技術;廉價存儲方案要求對OS的文件存儲有深入的掌握和理解,同時要求對采用的語 言在文件這塊的實現(xiàn)有深入的掌握。架構
15、演變第十步:進入大型分布式應用時代和廉價服務器群夢想時經過上面這個漫長而痛苦的過程,終于是再度迎來了完美的時代,不斷的增加 webserver就可以支撐越來越高的訪問量了,對于大型網站而言,人氣的重要 毋庸置疑,隨著人氣的越來越高,各種各樣的功能需求也開始爆發(fā)性的增長, 這個時候突然發(fā)現(xiàn),原來部署在 webserver上的那個web應用已經非常龐 大 了,當多個團隊都開始對其進行改動時,可真是相當?shù)牟环奖悖瑥陀眯砸?相當糟糕,基本是每個團隊都做了或多或少重復的事情,而且部署和維護也是 相當?shù)穆闊?,因為龐大的應用包在N臺機器上復制、啟動都需要耗費不少的時間,出問題的時候也不是很好查,另外一個更糟
16、糕的狀況是很有可能會出現(xiàn) 某個應用上的bug就導 致了全站都不可用,還有其他的像調優(yōu)不好操作 因為 機器上部署的應用什么都要做,根本就無法進行針對性的調優(yōu))等因素,根據(jù) 這樣的分析,開始痛下決心,將系統(tǒng)根據(jù)職責進行拆分,于是一個大型的分布式應用就誕生了,通常,這個步驟需要耗費相當長的時間,因為會碰到很多 的挑戰(zhàn):1拆成分布式后需要提供一個高性能、穩(wěn)定的通信框架,并且需要支 持多種不同的通信和遠程調用方式;2、將一個龐大的應用拆分需要耗費很長的 時間,需要進行業(yè)務的整理和系統(tǒng)依賴關系的控制等;3、如何運維 依賴管理、運行狀況管理、錯誤追蹤、調優(yōu)、監(jiān)控和報警等)好這個龐大的分布式應用。經過這一步,
17、差不多系統(tǒng)的架構進入相對穩(wěn)定的階段,同時也能開始采用大量 的廉價機器來支撐著巨大的訪問量和數(shù)據(jù)量,結合這套架構以及這么多次演變 過程吸取的經驗來采用其他各種各樣的方法來支撐著越來越高的訪問量??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:這一步涉及的知識體系非常的多,要求對通信、遠程調用、消息機制等有深入 的理解和掌握,要求的都是從理論、硬件級、操作系統(tǒng)級以及所采用的語言的 實現(xiàn)都有清楚的理解。運維這塊涉及的知識體系也非常的多,多數(shù)情況下需要掌握分布式并行計算、 報表、監(jiān)控技術以及規(guī)則策略等等。說起來確實不怎么費力,整個網站架構的經典演變過程都和上面比較的類似, 當然,每步采取的方案,演變的步驟有可能有不同,另外,因為網站的業(yè)務不 同,會有不同的專業(yè)技術的需求,這篇 blog更多的是從架構的角度來講解演變 的過程,當然,其中還有很多的技術也未在此提及,像數(shù)據(jù)庫集群、數(shù)據(jù)挖掘、 搜索等,但在真實的演變過程中還會借助像提升硬件配置、網絡環(huán)境、改造操 作系統(tǒng)、CDN鏡像等來支撐更大的流量,因此在真實的發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大腳丫跳芭蕾教學設計
- 《財務分析的教學方法和流程》課件
- 《市場監(jiān)管法規(guī)與實踐》課件
- 射陽三中初一試卷及答案
- 陜西地生會考試卷及答案a卷
- 廈門二中體考試卷及答案
- 2025民間房屋買賣合同范本
- 2025商場電力供應合同模板
- 浙江國企招聘2025衢州古城文化旅游區(qū)運營管理有限公司招聘21人筆試參考題庫附帶答案詳解
- 石棉制品在油氣管道的保溫應用考核試卷
- 湖南省名校聯(lián)考聯(lián)合體2024-2025學年高一下學期期中考試數(shù)學試題 (A)含答案
- 海關AEO培訓法律法規(guī)
- 2025年的共同借款擔保合同范本
- 沖壓模具制作合同范例
- 學校會計崗位試題及答案
- 上海市金山區(qū)2025屆高三高考二模地理試卷(含答案)
- 期中測試(范圍:第1-4章)(A卷·夯實基礎)-北師大版七年級數(shù)學下冊(解析版)
- 木制品幼兒園課程
- 2024年四川宜賓五糧液股份有限公司招聘筆試真題
- 2024年初級會計實務考試真題及答案(5套)
- 垃圾焚燒飛灰處理行業(yè)深度調研及發(fā)展戰(zhàn)略咨詢報告
評論
0/150
提交評論