版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大型網(wǎng)站架構(gòu)演變和知識體系(整理/轉(zhuǎn))desperado之前也有一些介紹大型網(wǎng)站架構(gòu)演變的文章,例如livejournal的、ebay的,都是非常值得參考的,不過感覺他們講的更多的是每次演變的結(jié)果,而沒有很詳細(xì)的講為什么需要做這樣的演變,再加上近來感覺有不少同學(xué)都很難明白為什么一個網(wǎng)站需要那么復(fù)雜的技術(shù),于是有了寫這篇文章的想法,在這篇文章中 將闡述一個普通的網(wǎng)站發(fā)展成大型網(wǎng)站過程中的一種較為典型的架構(gòu)演變歷程和所需掌握的知識體系,希望能給想從事互聯(lián)網(wǎng)行業(yè)的同學(xué)一點(diǎn)初步的概念,:),文中的不對之處也請各位多給點(diǎn)建議,讓本文真正起到拋磚引玉的效果。架構(gòu)演變第一步:物理分離webserver和數(shù)據(jù)
2、庫/url最 開始,由于某些想法,于是在互聯(lián)網(wǎng)上搭建了一個網(wǎng)站,這個時候甚至有可能主機(jī)都是租借的,但由于這篇文章我們只關(guān)注架構(gòu)的演變歷程,因此就假設(shè)這個時候已 經(jīng)是托管了一臺主機(jī),并且有一定的帶寬了,這個時候由于網(wǎng)站具備了一定的特色,吸引了部分人訪問,逐漸你發(fā)現(xiàn)系統(tǒng)的壓力越來越高,響應(yīng)速度越來越慢,而這 個時候比較明顯的是數(shù)據(jù)庫和應(yīng)用互 相影響,應(yīng)用出問題了,數(shù)據(jù)庫也很容易出現(xiàn)問題,而數(shù)據(jù)庫出問題的時候,應(yīng)用也容易出問題,于是進(jìn)入了第一步演變階段:將應(yīng)用和數(shù)據(jù)庫從物理上分離,變成 了兩臺機(jī)器,這個時候技術(shù)上沒有什么新的要求,但你發(fā)現(xiàn)確實(shí)起到效果了,系統(tǒng)又恢復(fù)到以前的響應(yīng)速度了,并且支撐住了更高
3、的流量,并且不會因?yàn)閿?shù)據(jù)庫和應(yīng) 用形成互相的影響??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:這一步架構(gòu)演變對技術(shù)上的知識體系基本沒有要求。架構(gòu)演變第二步:增加頁面緩存好 景不長,隨著訪問的人越來越多,你發(fā)現(xiàn)響應(yīng)速度又開始變慢了,查找原因,發(fā)現(xiàn)是訪問數(shù)據(jù)庫的操作太多,導(dǎo)致數(shù)據(jù)連接競爭激烈,所以響應(yīng)變慢,但數(shù)據(jù)庫連接 又不能開太多,否則數(shù)據(jù)庫機(jī)器壓力會很高,因此考慮采用緩存機(jī)制來減少數(shù)據(jù)庫連接資源的競爭和對數(shù)據(jù)庫讀的壓力,這個時候首先也許會選擇采用squid 等類似的機(jī)制來將系統(tǒng)中相對靜態(tài)的頁面(例如一兩天才會有更新的頁面)進(jìn)行緩存(當(dāng)然,也可以采用將頁面靜態(tài)化的方案),這樣程序上可
4、以不做修改,就能夠 很好的減少對webserver的壓力以及減少數(shù)據(jù)庫連接資源的競爭,ok,于是開始采用squid來做相對靜態(tài)的頁面的緩存。看看這一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:前端頁面緩存技術(shù),例如squid,如想用好的話還得深入掌握下squid的實(shí)現(xiàn)方式以及緩存的失效算法等。架構(gòu)演變第三步:增加頁面片段緩存增 加了squid做緩存后,整體系統(tǒng)的速度確實(shí)是提升了,webserver的壓力也開始下降了,但隨著訪問量的增加,發(fā)現(xiàn)系統(tǒng)又開始變的有些慢了,在嘗 到了squid之類的動態(tài)緩存帶來的好處后,開始想能不能讓現(xiàn)在那些動態(tài)頁面里相對靜態(tài)的部分也緩存起來呢,因此考慮采用類似es
5、i之類的頁面片段緩存策 略,ok,于是開始采用esi來做動態(tài)頁面中相對靜態(tài)的片段部分的緩存??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:頁面片段緩存技術(shù),例如esi等,想用好的話同樣需要掌握esi的實(shí)現(xiàn)方式等;架構(gòu)演變第四步:數(shù)據(jù)緩存在 采用esi之類的技術(shù)再次提高了系統(tǒng)的緩存效果后,系統(tǒng)的壓力確實(shí)進(jìn)一步降低了,但同樣,隨著訪問量的增加,系統(tǒng)還是開始變慢,經(jīng)過查找,可能會發(fā)現(xiàn)系 統(tǒng)中存在一些重復(fù)獲取數(shù)據(jù)信息的地方,像獲取用戶信息等,這個時候開始考慮是不是可以將這些數(shù)據(jù)信息也緩存起來呢,于是將這些數(shù)據(jù)緩存到本地內(nèi)存,改變完 畢后,完全符合預(yù)期,系統(tǒng)的響應(yīng)速度又恢復(fù)了,數(shù)據(jù)庫的壓力也再
6、度降低了不少。看看這一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:緩存技術(shù),包括像map數(shù)據(jù)結(jié)構(gòu)、緩存算法、所選用的框架本身的實(shí)現(xiàn)機(jī)制等。架構(gòu)演變第五步: 增加webserver好 景不長,發(fā)現(xiàn)隨著系統(tǒng)訪問量的再度增加,webserver機(jī)器的壓力在高峰期會上升到比較高,這個時候開始考慮增加一臺webserver,這也是為了 同時解決可用性的問題,避免單臺的webserver down機(jī)的話就沒法使用了,在做了這些考慮后,決定增加一臺webserver,增加一臺webserver時,會碰到一些問題,典型的有:1、如何讓訪問分配到這兩臺機(jī)器上,這個時候通常會考慮的方案是apache自帶的負(fù)載
7、均衡方案,或lvs這類的軟件負(fù)載均衡方案;2、如何保持狀態(tài)信息的同步,例如用戶session等,這個時候會考慮的方案有寫入數(shù)據(jù)庫、寫入存儲、cookie或同步session信息等機(jī)制等;3、如何保持?jǐn)?shù)據(jù)緩存信息的同步,例如之前緩存的用戶數(shù)據(jù)等,這個時候通常會考慮的機(jī)制有緩存同步或分布式緩存;4、如何讓上傳文件這些類似的功能繼續(xù)正常,這個時候通常會考慮的機(jī)制是使用共享文件系統(tǒng)或存儲等;在解決了這些問題后,終于是把webserver增加為了兩臺,系統(tǒng)終于是又恢復(fù)到了以往的速度??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:負(fù)載均衡技術(shù)(包括但不限于硬件負(fù)載均衡、軟件負(fù)載均衡、負(fù)載算法、l
8、inux轉(zhuǎn) 發(fā)協(xié)議、所選用的技術(shù)的實(shí)現(xiàn)細(xì)節(jié)等)、主備技術(shù)(包括但不限于arp欺騙、linux heart-beat等)、狀態(tài)信息或緩存同步技術(shù)(包括但不限于cookie技術(shù)、udp協(xié)議、狀態(tài)信息廣播、所選用的緩存同步技術(shù)的實(shí)現(xiàn)細(xì)節(jié)等)、共 享文件技術(shù)(包括但不限于nfs等)、存儲技術(shù)(包括但不限于存儲設(shè)備等)。架構(gòu)演變第六步:分庫享 受了一段時間的系統(tǒng)訪問量高速增長的幸福后,發(fā)現(xiàn)系統(tǒng)又開始變慢了,這次又是什么狀況呢,經(jīng)過查找,發(fā)現(xiàn)數(shù)據(jù)庫寫入、更新的這些操作的部分?jǐn)?shù)據(jù)庫連接的資 源競爭非常激烈,導(dǎo)致了系統(tǒng)變慢,這下怎么辦呢,此時可選的方案有數(shù)據(jù)庫集群和分庫策略,集群方面像有些數(shù)據(jù)庫支持的并不是很
9、好,因此分庫會成為比較普遍 的策略,分庫也就意味著要對原有程序進(jìn)行修改,一通修改實(shí)現(xiàn)分庫后,不錯,目標(biāo)達(dá)到了,系統(tǒng)恢復(fù)甚至速度比以前還快了??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:這一步更多的是需要從業(yè)務(wù)上做合理的劃分,以實(shí)現(xiàn)分庫,具體技術(shù)細(xì)節(jié)上沒有其他的要求;但同時隨著數(shù)據(jù)量的增大和分庫的進(jìn)行,在數(shù)據(jù)庫的設(shè)計(jì)、調(diào)優(yōu)以及維護(hù)上需要做的更好,因此對這些方面的技術(shù)還是提出了很高的要求的。架構(gòu)演變第七步:分表、dal和分布式緩存隨著系統(tǒng)的不斷運(yùn)行,數(shù)據(jù)量開始大幅度增長,這個時候發(fā)現(xiàn)分庫后查詢?nèi)匀粫行┞?,于是按照分庫的思想開始做分表的工作, 當(dāng)然,這不可避免的會需要對程序進(jìn)行一些修改
10、,也許在這個時候就會發(fā)現(xiàn)應(yīng)用自己要關(guān)心分庫分表的規(guī)則等,還是有些復(fù)雜的,于是萌生能否增加一個通用的框架 來實(shí)現(xiàn)分庫分表的數(shù)據(jù)訪問,這個在ebay的架構(gòu)中對應(yīng)的就是dal,這個演變的過程相對而言需要花費(fèi)較長的時間,當(dāng)然,也有可能這個通用的框架會等到分 表做完后才開始做,同時,在這個階段可能會發(fā)現(xiàn)之前的緩存同步方案出現(xiàn)問題,因?yàn)閿?shù)據(jù)量太大,導(dǎo)致現(xiàn)在不太可能將緩存存在本地,然后同步的方式,需要采用 分布式緩存方案了,于是,又是一通考察和折磨,終于是將大量的數(shù)據(jù)緩存轉(zhuǎn)移到分布式緩存上了??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:分表更多的同樣是業(yè)務(wù)上的劃分,技術(shù)上涉及到的會有動態(tài)hash
11、算法、consistent hash算法等;dal涉及到比較多的復(fù)雜技術(shù),例如數(shù)據(jù)庫連接的管理(超時、異常)、數(shù)據(jù)庫操作的控制(超時、異常)、分庫分表規(guī)則的封裝等;架構(gòu)演變第八步:增加更多的webserver在做完分庫分表這些工作后,數(shù)據(jù)庫上的壓力已經(jīng)降到比較低了,又開始過著每天看著訪問量暴增的幸福生活了,突然有一天,發(fā)現(xiàn)系統(tǒng)的訪問又開始有變慢的趨勢了,這個時候首先查看數(shù)據(jù)庫,壓力一切正常,之后查看webserver,發(fā)現(xiàn)apache阻塞了很多的請求,而應(yīng)用服務(wù)器對每個請求也是比較快的,看來 是請求數(shù)太高導(dǎo)致需要排隊(duì)等待,響應(yīng)速度變慢,這還好辦,一般來說,這個時候也會有些錢了,于是添加一些we
12、bserver服務(wù)器,在這個添加 webserver服務(wù)器的過程,有可能會出現(xiàn)幾種挑戰(zhàn):1、 apache的軟負(fù)載或lvs軟負(fù)載等無法承擔(dān)巨大的web訪問量(請求連接數(shù)、網(wǎng)絡(luò)流量等)的調(diào)度了,這個時候如果經(jīng)費(fèi)允許的話,會采取的方案是購 買硬件負(fù)載,例如f5、netsclar、athelon之類的,如經(jīng)費(fèi)不允許的話,會采取的方案是將應(yīng)用從邏輯上做一定的分類,然后分散到不同的軟負(fù)載 集群中;2、原有的一些狀態(tài)信息同步、文件共享等方案可能會出現(xiàn)瓶頸,需要進(jìn)行改進(jìn),也許這個時候會根據(jù)情況編寫符合網(wǎng)站業(yè)務(wù)需求的分布式文件系統(tǒng)等;在做完這些工作后,開始進(jìn)入一個看似完美的無限伸縮的時代,當(dāng)網(wǎng)站流量增加時,應(yīng)
13、對的解決方案就是不斷的添加webserver。看看這一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:到了這一步,隨著機(jī)器數(shù)的不斷增長、數(shù)據(jù)量的不斷增長和對系統(tǒng)可用性的要求越來越高,這個時候要求對所采用的技術(shù)都要有更為深入的理解,并需要根據(jù)網(wǎng)站的需求來做更加定制性質(zhì)的產(chǎn)品。架構(gòu)演變第九步:數(shù)據(jù)讀寫分離和廉價存儲方案突 然有一天,發(fā)現(xiàn)這個完美的時代也要結(jié)束了,數(shù)據(jù)庫的噩夢又一次出現(xiàn)在眼前了,由于添加的webserver太多了,導(dǎo)致數(shù)據(jù)庫連接的資源還是不夠用,而這 個時候又已經(jīng)分庫分表了,開始分析數(shù)據(jù)庫的壓力狀況,可能會發(fā)現(xiàn)數(shù)據(jù)庫的讀寫比很高,這個時候通常會想到數(shù)據(jù)讀寫分離的方案,當(dāng)然,這個方案要
14、實(shí)現(xiàn)并不 容易,另外,可能會發(fā)現(xiàn)一些數(shù)據(jù)存儲在數(shù)據(jù)庫上有些浪費(fèi),或者說過于占用數(shù)據(jù)庫資源,因此在這個階段可能會形成的架構(gòu)演變是實(shí)現(xiàn)數(shù)據(jù)讀寫分離,同時編寫一 些更為廉價的存儲方案,例如bigtable這種。看看這一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:數(shù)據(jù)讀寫分離要求對數(shù)據(jù)庫的復(fù)制、standby等策略有深入的掌握和理解,同時會要求具備自行實(shí)現(xiàn)的技術(shù);廉價存儲方案要求對os的文件存儲有深入的掌握和理解,同時要求對采用的語言在文件這塊的實(shí)現(xiàn)有深入的掌握。架構(gòu)演變第十步:進(jìn)入大型分布式應(yīng)用時代和廉價服務(wù)器群夢想時代經(jīng) 過上面這個漫長而痛苦的過程,終于是再度迎來了完美的時代,不斷的增加web
15、server就可以支撐越來越高的訪問量了,對于大型網(wǎng)站而言,人氣的重要毋 庸置疑,隨著人氣的越來越高,各種各樣的功能需求也開始爆發(fā)性的增長,這個時候突然發(fā)現(xiàn),原來部署在webserver上的那個web應(yīng)用已經(jīng)非常龐大 了,當(dāng)多個團(tuán)隊(duì)都開始對其進(jìn)行改動時,可真是相當(dāng)?shù)牟环奖?,?fù)用性也相當(dāng)糟糕,基本是每個團(tuán)隊(duì)都做了或多或少重復(fù)的事情,而且部署和維護(hù)也是相當(dāng)?shù)穆闊?因?yàn)辇嫶蟮膽?yīng)用包在n臺機(jī)器上復(fù)制、啟動都需要耗費(fèi)不少的時間,出問題的時候也不是很好查,另外一個更糟糕的狀況是很有可能會出現(xiàn)某個應(yīng)用上的bug就導(dǎo) 致了全站都不可用,還有其他的像調(diào)優(yōu)不好操作(因?yàn)闄C(jī)器上部署的應(yīng)用什么都要做,根本就無法進(jìn)行
16、針對性的調(diào)優(yōu))等因素,根據(jù)這樣的分析,開始痛下決心,將 系統(tǒng)根據(jù)職責(zé)進(jìn)行拆分,于是一個大型的分布式應(yīng)用就誕生了,通常,這個步驟需要耗費(fèi)相當(dāng)長的時間,因?yàn)闀龅胶芏嗟奶魬?zhàn):1、拆成分布式后需要提供一個高性能、穩(wěn)定的通信框架,并且需要支持多種不同的通信和遠(yuǎn)程調(diào)用方式;2、將一個龐大的應(yīng)用拆分需要耗費(fèi)很長的時間,需要進(jìn)行業(yè)務(wù)的整理和系統(tǒng)依賴關(guān)系的控制等;3、如何運(yùn)維(依賴管理、運(yùn)行狀況管理、錯誤追蹤、調(diào)優(yōu)、監(jiān)控和報警等)好這個龐大的分布式應(yīng)用。經(jīng)過這一步,差不多系統(tǒng)的架構(gòu)進(jìn)入相對穩(wěn)定的階段,同時也能開始采用大量的廉價機(jī)器來支撐著巨大的訪問量和數(shù)據(jù)量,結(jié)合這套架構(gòu)以及這么多次演變過程吸取的經(jīng)驗(yàn)來采用其他各種各樣的方法來支撐著越來越高的訪問量??纯催@一步完成后系統(tǒng)的圖示:這一步涉及到了這些知識體系:這一步涉及的知識體系非常的多,要求對通信、遠(yuǎn)程調(diào)用、消息機(jī)制等有深入的理解和掌握,要求的都是從理論、硬件級、操作系統(tǒng)級以及所采用的語言的實(shí)現(xiàn)都有清楚的理解。運(yùn)維這塊涉及的知識體系也非常的多,多數(shù)情況下需要掌握分布式并行計(jì)算、報表、監(jiān)控技術(shù)以及規(guī)則策略等等。說 起來確實(shí)不怎么費(fèi)力,整個網(wǎng)站架構(gòu)的經(jīng)典演變過程都和上面比較的類似,當(dāng)然,每步采取
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇教版江蘇省徐州市2023-2024學(xué)年下學(xué)期高二年級第三次檢測數(shù)學(xué)試題
- 六年級數(shù)學(xué)上冊《高頻錯題訓(xùn)練》
- 西京學(xué)院《土木工程施工》2021-2022學(xué)年第一學(xué)期期末試卷
- 2024秋期國家開放大學(xué)本科《古代小說戲曲專題》一平臺在線形考(形考任務(wù)4)試題及答案
- 2025屆江西省高三語文試題及答案
- 西京學(xué)院《大數(shù)據(jù)存儲與管理技術(shù)》2022-2023學(xué)年期末試卷
- 西華師范大學(xué)《中國宗教史》2022-2023學(xué)年第一學(xué)期期末試卷
- 圖文《黃昏》課件
- 西華師范大學(xué)《外國歷史要籍研讀》2021-2022學(xué)年第一學(xué)期期末試卷
- 西華師范大學(xué)《數(shù)據(jù)結(jié)構(gòu)》2022-2023學(xué)年期末試卷
- 少先隊(duì)輔導(dǎo)員技能大賽考試題庫300題(含答案)
- 2024年全國企業(yè)員工全面質(zhì)量管理知識競賽考試原題庫(含答案)
- 2024年事業(yè)單位招聘人員體檢表
- 《計(jì)算機(jī)應(yīng)用基礎(chǔ)》課件-8.1 人工智能與機(jī)器學(xué)習(xí)
- 7中華民族一家親 第二課時(教學(xué)設(shè)計(jì)) 部編版道德與法治五年級上冊
- 4.2主動運(yùn)輸與胞吞胞吐教案高一上學(xué)期生物人教版必修1
- 《海濱小城》第二課時公開課一等獎創(chuàng)新教學(xué)設(shè)計(jì)
- 《溫室氣體自愿減排項(xiàng)目方法學(xué)造林碳匯(CCER-14-001-V01)》
- 2024年物業(yè)管理師(高級)考前必刷必練題庫500題(含真題、必會題)
- LTPS-CVD工藝設(shè)備介紹(超詳細(xì))
- 模擬法庭劇本贍養(yǎng)糾紛案
評論
0/150
提交評論