數(shù)據(jù)結(jié)構(gòu)_堆和棧的區(qū)別_第1頁
數(shù)據(jù)結(jié)構(gòu)_堆和棧的區(qū)別_第2頁
數(shù)據(jù)結(jié)構(gòu)_堆和棧的區(qū)別_第3頁
數(shù)據(jù)結(jié)構(gòu)_堆和棧的區(qū)別_第4頁
數(shù)據(jù)結(jié)構(gòu)_堆和棧的區(qū)別_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、堆和棧的區(qū)別一、預(yù)備知識程序的內(nèi)存分配一個(gè)由c/C+編譯的程序占用的內(nèi)存分為以下幾個(gè)部分1、棧區(qū)(stack) 由編譯器自動分配釋放 ,存放函數(shù)的參數(shù)值,局部變量的值等。其操作方式類似于數(shù)據(jù)結(jié)構(gòu)中的棧。2、堆區(qū)(heap) 一般由程序員分配釋放, 若程序員不釋放,程序結(jié)束時(shí)可能由OS回收 。注意它與數(shù)據(jù)結(jié)構(gòu)中的堆是兩回事,分配方式倒是類似于鏈表,呵呵。3、全局區(qū)(靜態(tài)區(qū))(static),全局變量和靜態(tài)變量的存儲是放在一塊的,初始化的全局變量和靜態(tài)變量在一塊區(qū)域, 未初始化的全局變量和未初始化的靜態(tài)變量在相鄰的另一塊區(qū)域。 - 程序結(jié)束后有系統(tǒng)釋放 4、文字常量區(qū)常量字符串就是放在這里的。 程

2、序結(jié)束后由系統(tǒng)釋放5、程序代碼區(qū)存放函數(shù)體的二進(jìn)制代碼。二、例子程序 這是一個(gè)前輩寫的,非常詳細(xì) /main.cpp int a = 0; 全局初始化區(qū) char *p1; 全局未初始化區(qū) main() int b; 棧 char s = "abc" 棧 char *p2; 棧 char *p3 = "123456" 1234560在常量區(qū),p3在棧上。 static int c =0; 全局(靜態(tài))初始化區(qū) p1 = (char *)malloc(10); p2 = (char *)malloc(20); 分配得來得10和20字節(jié)的區(qū)域就在堆區(qū)。 st

3、rcpy(p1, "123456"); 1234560放在常量區(qū),編譯器可能會將它與p3所指向的"123456"優(yōu)化成一個(gè)地方。 二、堆和棧的理論知識 2.1申請方式 stack: 由系統(tǒng)自動分配。 例如,聲明在函數(shù)中一個(gè)局部變量 int b; 系統(tǒng)自動在棧中為b開辟空間 heap: 需要程序員自己申請,并指明大小,在c中malloc函數(shù) 如p1 = (char *)malloc(10); 在C+中用new運(yùn)算符 如p2 = (char *)malloc(10); 但是注意p1、p2本身是在棧中的。2.2 申請后系統(tǒng)的響應(yīng) 棧:只要棧的剩余空間大于所申請

4、空間,系統(tǒng)將為程序提供內(nèi)存,否則將報(bào)異常提示棧溢出。 堆:首先應(yīng)該知道操作系統(tǒng)有一個(gè)記錄空閑內(nèi)存地址的鏈表,當(dāng)系統(tǒng)收到程序的申請時(shí), 會遍歷該鏈表,尋找第一個(gè)空間大于所申請空間的堆結(jié)點(diǎn),然后將該結(jié)點(diǎn)從空閑結(jié)點(diǎn)鏈表中刪除,并將該結(jié)點(diǎn)的空間分配給程序,另外,對于大多數(shù)系統(tǒng),會在這塊內(nèi)存空間中的首地址處記錄本次分配的大小,這樣,代碼中的delete語句才能正確的釋放本內(nèi)存空間。另外,由于找到的堆結(jié)點(diǎn)的大小不一定正好等于申請的大小,系統(tǒng)會自動的將多余的那部分重新放入空閑鏈表中。 2.3申請大小的限制 棧:在Windows下,棧是向低地址擴(kuò)展的數(shù)據(jù)結(jié)構(gòu),是一塊連續(xù)的內(nèi)存的區(qū)域。這句話的意思是棧頂?shù)牡刂泛?/p>

5、棧的最大容量是系統(tǒng)預(yù)先規(guī)定好的,在WINDOWS下,棧的大小是2M(也有的說是1M,總之是一個(gè)編譯時(shí)就確定的常數(shù)),如果申請的空間超過棧的剩余空間時(shí),將提示overflow。因此,能從棧獲得的空間較小。 堆:堆是向高地址擴(kuò)展的數(shù)據(jù)結(jié)構(gòu),是不連續(xù)的內(nèi)存區(qū)域。這是由于系統(tǒng)是用鏈表來存儲的空閑內(nèi)存地址的,自然是不連續(xù)的,而鏈表的遍歷方向是由低地址向高地址。堆的大小受限于計(jì)算機(jī)系統(tǒng)中有效的虛擬內(nèi)存。由此可見,堆獲得的空間比較靈活,也比較大。 2.4申請效率的比較: 棧由系統(tǒng)自動分配,速度較快。但程序員是無法控制的。 堆是由new分配的內(nèi)存,一般速度比較慢,而且容易產(chǎn)生內(nèi)存碎片,不過用起來最方便. 另外

6、,在WINDOWS下,最好的方式是用VirtualAlloc分配內(nèi)存,他不是在堆,也不是在棧是直接在進(jìn)程的地址空間中保留一快內(nèi)存,雖然用起來最不方便。但是速度快,也最靈活。 2.5堆和棧中的存儲內(nèi)容 棧: 在函數(shù)調(diào)用時(shí),第一個(gè)進(jìn)棧的是主函數(shù)中后的下一條指令(函數(shù)調(diào)用語句的下一條可執(zhí)行語句)的地址,然后是函數(shù)的各個(gè)參數(shù),在大多數(shù)的C編譯器中,參數(shù)是由右往左入棧的,然后是函數(shù)中的局部變量。注意靜態(tài)變量是不入棧的。 當(dāng)本次函數(shù)調(diào)用結(jié)束后,局部變量先出棧,然后是參數(shù),最后棧頂指針指向最開始存的地址,也就是主函數(shù)中的下一條指令,程序由該點(diǎn)繼續(xù)運(yùn)行。 堆:一般是在堆的頭部用一個(gè)字節(jié)存放堆的大小。堆中的具體

7、內(nèi)容有程序員安排。 2.6存取效率的比較 char s1 = "aaaaaaaaaaaaaaa" char *s2 = "bbbbbbbbbbbbbbbbb" aaaaaaaaaaa是在運(yùn)行時(shí)刻賦值的; 而bbbbbbbbbbb是在編譯時(shí)就確定的; 但是,在以后的存取中,在棧上的數(shù)組比指針?biāo)赶虻淖址?例如堆)快。 比如: #include void main() char a = 1; char c = "1234567890" char *p ="1234567890" a = c1; a = p1; ret

8、urn; 對應(yīng)的匯編代碼 10: a = c1; 00401067 8A 4D F1 mov cl,byte ptr ebp-0Fh 0040106A 88 4D FC mov byte ptr ebp-4,cl 11: a = p1; 0040106D 8B 55 EC mov edx,dword ptr ebp-14h 00401070 8A 42 01 mov al,byte ptr edx+1 00401073 88 45 FC mov byte ptr ebp-4,al 第一種在讀取時(shí)直接就把字符串中的元素讀到寄存器cl中,而第二種則要先把指針值讀到edx中,在根據(jù)edx讀取字符,顯

9、然慢了。 2.7小結(jié): 堆和棧的區(qū)別可以用如下的比喻來看出: 使用棧就象我們?nèi)ワ堭^里吃飯,只管點(diǎn)菜(發(fā)出申請)、付錢、和吃(使用),吃飽了就走,不必理會切菜、洗菜等準(zhǔn)備工作和洗碗、刷鍋等掃尾工作,他的好處是快捷,但是自由度小。 使用堆就象是自己動手做喜歡吃的菜肴,比較麻煩,但是比較符合自己的口味,而且自由度大。 windows進(jìn)程中的內(nèi)存結(jié)構(gòu)在閱讀本文之前,如果你連堆棧是什么多不知道的話,請先閱讀文章后面的基礎(chǔ)知識。 接觸過編程的人都知道,高級語言都能通過變量名來訪問內(nèi)存中的數(shù)據(jù)。那么這些變量在內(nèi)存中是如何存放的呢?程序又是如何使用這些變量的呢?下面就會對此進(jìn)行深入的討論。下文中的C語言代碼如

10、沒有特別聲明,默認(rèn)都使用VC編譯的release版。 首先,來了解一下 C 語言的變量是如何在內(nèi)存分部的。C 語言有全局變量(Global)、本地變量(Local),靜態(tài)變量(Static)、寄存器變量(Regeister)。每種變量都有不同的分配方式。先來看下面這段代碼: #include <stdio.h> int g1=0, g2=0, g3=0; int main() static int s1=0, s2=0, s3=0; int v1=0, v2=0, v3=0; /打印出各個(gè)變量的內(nèi)存地址 printf("0x%08xn",&v1); /打

11、印各本地變量的內(nèi)存地址 printf("0x%08xn",&v2); printf("0x%08xnn",&v3); printf("0x%08xn",&g1); /打印各全局變量的內(nèi)存地址 printf("0x%08xn",&g2); printf("0x%08xnn",&g3); printf("0x%08xn",&s1); /打印各靜態(tài)變量的內(nèi)存地址 printf("0x%08xn",&s2);

12、 printf("0x%08xnn",&s3); return 0; 編譯后的執(zhí)行結(jié)果是: 0x0012ff78 0x0012ff7c 0x0012ff80 0x004068d0 0x004068d4 0x004068d8 0x004068dc 0x004068e0 0x004068e4 輸出的結(jié)果就是變量的內(nèi)存地址。其中v1,v2,v3是本地變量,g1,g2,g3是全局變量,s1,s2,s3是靜態(tài)變量。你可以看到這些變量在內(nèi)存是連續(xù)分布的,但是本地變量和全局變量分配的內(nèi)存地址差了十萬八千里,而全局變量和靜態(tài)變量分配的內(nèi)存是連續(xù)的。這是因?yàn)楸镜刈兞亢腿?靜態(tài)變量是

13、分配在不同類型的內(nèi)存區(qū)域中的結(jié)果。對于一個(gè)進(jìn)程的內(nèi)存空間而言,可以在邏輯上分成3個(gè)部份:代碼區(qū),靜態(tài)數(shù)據(jù)區(qū)和動態(tài)數(shù)據(jù)區(qū)。動態(tài)數(shù)據(jù)區(qū)一般就是“堆?!?。“棧(stack)”和“堆(heap)”是兩種不同的動態(tài)數(shù)據(jù)區(qū),棧是一種線性結(jié)構(gòu),堆是一種鏈?zhǔn)浇Y(jié)構(gòu)。進(jìn)程的每個(gè)線程都有私有的“棧”,所以每個(gè)線程雖然代碼一樣,但本地變量的數(shù)據(jù)都是互不干擾。一個(gè)堆??梢酝ㄟ^“基地址”和“棧頂”地址來描述。全局變量和靜態(tài)變量分配在靜態(tài)數(shù)據(jù)區(qū),本地變量分配在動態(tài)數(shù)據(jù)區(qū),即堆棧中。程序通過堆棧的基地址和偏移量來訪問本地變量。 低端內(nèi)存區(qū)域 動態(tài)數(shù)據(jù)區(qū) 代碼區(qū) 靜態(tài)數(shù)據(jù)區(qū) 高端內(nèi)存區(qū)域 堆棧是一個(gè)先進(jìn)后出的數(shù)據(jù)結(jié)構(gòu),棧頂?shù)刂?/p>

14、總是小于等于棧的基地址。我們可以先了解一下函數(shù)調(diào)用的過程,以便對堆棧在程序中的作用有更深入的了解。不同的語言有不同的函數(shù)調(diào)用規(guī)定,這些因素有參數(shù)的壓入規(guī)則和堆棧的平衡。windows API的調(diào)用規(guī)則和ANSI C的函數(shù)調(diào)用規(guī)則是不一樣的,前者由被調(diào)函數(shù)調(diào)整堆棧,后者由調(diào)用者調(diào)整堆棧。兩者通過“_stdcall”和“_cdecl”前綴區(qū)分。先看下面這段代碼: #include <stdio.h> void _stdcall func(int param1,int param2,int param3) int var1=param1; int var2=param2; int var

15、3=param3; printf("0x%08xn",¶m1); /打印出各個(gè)變量的內(nèi)存地址 printf("0x%08xn",¶m2); printf("0x%08xnn",¶m3); printf("0x%08xn",&var1); printf("0x%08xn",&var2); printf("0x%08xnn",&var3); return; int main() func(1,2,3); return 0; 編

16、譯后的執(zhí)行結(jié)果是: 0x0012ff78 0x0012ff7c 0x0012ff80 0x0012ff68 0x0012ff6c 0x0012ff70 <函數(shù)執(zhí)行時(shí)的棧頂(ESP)、低端內(nèi)存區(qū)域 var 1 var 2 var 3 RET <“_cdecl”函數(shù)返回后的棧頂(ESP) parameter 1 parameter 2 parameter 3 <“_stdcall”函數(shù)返回后的棧頂(ESP) <棧底(基地址 EBP)、高端內(nèi)存區(qū)域 上圖就是函數(shù)調(diào)用過程中堆棧的樣子了。首先,三個(gè)參數(shù)以從又到左的次序壓入堆棧,先壓“param3”,再壓“param2”,最后壓入

17、“param1”;然后壓入函數(shù)的返回地址(RET),接著跳轉(zhuǎn)到函數(shù)地址接著執(zhí)行(這里要補(bǔ)充一點(diǎn),介紹UNIX下的緩沖溢出原理的文章中都提到在壓入RET后,繼續(xù)壓入當(dāng)前EBP,然后用當(dāng)前ESP代替EBP。然而,有一篇介紹windows下函數(shù)調(diào)用的文章中說,在windows下的函數(shù)調(diào)用也有這一步驟,但根據(jù)我的實(shí)際調(diào)試,并未發(fā)現(xiàn)這一步,這還可以從param3和var1之間只有4字節(jié)的間隙這點(diǎn)看出來);第三步,將棧頂(ESP)減去一個(gè)數(shù),為本地變量分配內(nèi)存空間,上例中是減去12字節(jié)(ESP=ESP-3*4,每個(gè)int變量占用4個(gè)字節(jié));接著就初始化本地變量的內(nèi)存空間。由于“_stdcall”調(diào)用由被調(diào)

18、函數(shù)調(diào)整堆棧,所以在函數(shù)返回前要恢復(fù)堆棧,先回收本地變量占用的內(nèi)存(ESP=ESP+3*4),然后取出返回地址,填入EIP寄存器,回收先前壓入?yún)?shù)占用的內(nèi)存(ESP=ESP+3*4),繼續(xù)執(zhí)行調(diào)用者的代碼。參見下列匯編代碼: ;-func 函數(shù)的匯編代碼- :00401000 83EC0C sub esp, 0000000C /創(chuàng)建本地變量的內(nèi)存空間 :00401003 8B442410 mov eax, dword ptr esp+10 :00401007 8B4C2414 mov ecx, dword ptr esp+14 :0040100B 8B542418 mov edx, dword

19、 ptr esp+18 :0040100F 89442400 mov dword ptr esp, eax :00401013 8D442410 lea eax, dword ptr esp+10 :00401017 894C2404 mov dword ptr esp+04, ecx (省略若干代碼) :00401075 83C43C add esp, 0000003C ;恢復(fù)堆棧,回收本地變量的內(nèi)存空間 :00401078 C3 ret 000C ;函數(shù)返回,恢復(fù)參數(shù)占用的內(nèi)存空間 ;如果是“_cdecl”的話,這里是“ret”,堆棧將由調(diào)用者恢復(fù) ;-函數(shù)結(jié)束- ;-主程序調(diào)用func函

20、數(shù)的代碼- :00401080 6A03 push 00000003 /壓入?yún)?shù)param3 :00401082 6A02 push 00000002 /壓入?yún)?shù)param2 :00401084 6A01 push 00000001 /壓入?yún)?shù)param1 :00401086 E875FFFFFF call 00401000 /調(diào)用func函數(shù) ;如果是“_cdecl”的話,將在這里恢復(fù)堆棧,“add esp, 0000000C” 聰明的讀者看到這里,差不多就明白緩沖溢出的原理了。先來看下面的代碼: #include <stdio.h> #include <string.h&

21、gt; void _stdcall func() char lpBuff8="0" strcat(lpBuff,"AAAAAAAAAAA"); return; int main() func(); return 0; 編譯后執(zhí)行一下回怎么樣?哈,“"0x00414141"指令引用的"0x00000000"內(nèi)存。該內(nèi)存不能為"read"?!?,“非法操作”嘍!"41"就是"A"的16進(jìn)制的ASCII碼了,那明顯就是strcat這句出的問題了。"lpB

22、uff"的大小只有8字節(jié),算進(jìn)結(jié)尾的0,那strcat最多只能寫入7個(gè)"A",但程序?qū)嶋H寫入了11個(gè)"A"外加1個(gè)0。再來看看上面那幅圖,多出來的4個(gè)字節(jié)正好覆蓋了RET的所在的內(nèi)存空間,導(dǎo)致函數(shù)返回到一個(gè)錯(cuò)誤的內(nèi)存地址,執(zhí)行了錯(cuò)誤的指令。如果能精心構(gòu)造這個(gè)字符串,使它分成三部分,前一部份僅僅是填充的無意義數(shù)據(jù)以達(dá)到溢出的目的,接著是一個(gè)覆蓋RET的數(shù)據(jù),緊接著是一段shellcode,那只要著個(gè)RET地址能指向這段shellcode的第一個(gè)指令,那函數(shù)返回時(shí)就能執(zhí)行shellcode了。但是軟件的不同版本和不同的運(yùn)行環(huán)境都可能影響這段shel

23、lcode在內(nèi)存中的位置,那么要構(gòu)造這個(gè)RET是十分困難的。一般都在RET和shellcode之間填充大量的NOP指令,使得exploit有更強(qiáng)的通用性。 <低端內(nèi)存區(qū)域 <由exploit填入數(shù)據(jù)的開始 buffer <填入無用的數(shù)據(jù) RET <指向shellcode,或NOP指令的范圍 NOP <填入的NOP指令,是RET可指向的范圍 NOP shellcode <由exploit填入數(shù)據(jù)的結(jié)束 <高端內(nèi)存區(qū)域 windows下的動態(tài)數(shù)據(jù)除了可存放在棧中,還可以存放在堆中。了解C+的朋友都知道,C+可以使用new關(guān)鍵字來動態(tài)分配內(nèi)存。來看下面的C+

24、代碼: #include <stdio.h> #include <iostream.h> #include <windows.h> void func() char *buffer=new char128; char bufflocal128; static char buffstatic128; printf("0x%08xn",buffer); /打印堆中變量的內(nèi)存地址 printf("0x%08xn",bufflocal); /打印本地變量的內(nèi)存地址 printf("0x%08xn",buff

25、static); /打印靜態(tài)變量的內(nèi)存地址 void main() func(); return; 程序執(zhí)行結(jié)果為: 0x004107d0 0x0012ff04 0x004068c0 可以發(fā)現(xiàn)用new關(guān)鍵字分配的內(nèi)存即不在棧中,也不在靜態(tài)數(shù)據(jù)區(qū)。VC編譯器是通過windows下的“堆(heap)”來實(shí)現(xiàn)new關(guān)鍵字的內(nèi)存動態(tài)分配。在講“堆”之前,先來了解一下和“堆”有關(guān)的幾個(gè)API函數(shù): HeapAlloc 在堆中申請內(nèi)存空間 HeapCreate 創(chuàng)建一個(gè)新的堆對象 HeapDestroy 銷毀一個(gè)堆對象 HeapFree 釋放申請的內(nèi)存 HeapWalk 枚舉堆對象的所有內(nèi)存塊 GetPr

26、ocessHeap 取得進(jìn)程的默認(rèn)堆對象 GetProcessHeaps 取得進(jìn)程所有的堆對象 LocalAlloc GlobalAlloc 當(dāng)進(jìn)程初始化時(shí),系統(tǒng)會自動為進(jìn)程創(chuàng)建一個(gè)默認(rèn)堆,這個(gè)堆默認(rèn)所占內(nèi)存的大小為1M。堆對象由系統(tǒng)進(jìn)行管理,它在內(nèi)存中以鏈?zhǔn)浇Y(jié)構(gòu)存在。通過下面的代碼可以通過堆動態(tài)申請內(nèi)存空間: HANDLE hHeap=GetProcessHeap(); char *buff=HeapAlloc(hHeap,0,8); 其中hHeap是堆對象的句柄,buff是指向申請的內(nèi)存空間的地址。那這個(gè)hHeap究竟是什么呢?它的值有什么意義嗎?看看下面這段代碼吧: #pragma co

27、mment(linker,"/entry:main") /定義程序的入口 #include <windows.h> _CRTIMP int (_cdecl *printf)(const char *, .); /定義STL函數(shù)printf /*- 寫到這里,我們順便來復(fù)習(xí)一下前面所講的知識: (*注)printf函數(shù)是C語言的標(biāo)準(zhǔn)函數(shù)庫中函數(shù),VC的標(biāo)準(zhǔn)函數(shù)庫由msvcrt.dll模塊實(shí)現(xiàn)。 由函數(shù)定義可見,printf的參數(shù)個(gè)數(shù)是可變的,函數(shù)內(nèi)部無法預(yù)先知道調(diào)用者壓入的參數(shù)個(gè)數(shù),函數(shù)只能通過分析第一個(gè)參數(shù)字符串的格式來獲得壓入?yún)?shù)的信息,由于這里參數(shù)的個(gè)數(shù)是動

28、態(tài)的,所以必須由調(diào)用者來平衡堆棧,這里便使用了_cdecl調(diào)用規(guī)則。BTW,Windows系統(tǒng)的API函數(shù)基本上是_stdcall調(diào)用形式,只有一個(gè)API例外,那就是wsprintf,它使用_cdecl調(diào)用規(guī)則,同printf函數(shù)一樣,這是由于它的參數(shù)個(gè)數(shù)是可變的緣故。 -*/ void main() HANDLE hHeap=GetProcessHeap(); char *buff=HeapAlloc(hHeap,0,0x10); char *buff2=HeapAlloc(hHeap,0,0x10); HMODULE hMsvcrt=LoadLibrary("msvcrt.dll

29、"); printf=(void *)GetProcAddress(hMsvcrt,"printf"); printf("0x%08xn",hHeap); printf("0x%08xn",buff); printf("0x%08xnn",buff2); 執(zhí)行結(jié)果為: 0x00130000 0x00133100 0x00133118 hHeap的值怎么和那個(gè)buff的值那么接近呢?其實(shí)hHeap這個(gè)句柄就是指向HEAP首部的地址。在進(jìn)程的用戶區(qū)存著一個(gè)叫PEB(進(jìn)程環(huán)境塊)的結(jié)構(gòu),這個(gè)結(jié)構(gòu)中存放著一些有關(guān)

30、進(jìn)程的重要信息,其中在PEB首地址偏移0x18處存放的ProcessHeap就是進(jìn)程默認(rèn)堆的地址,而偏移0x90處存放了指向進(jìn)程所有堆的地址列表的指針。windows有很多API都使用進(jìn)程的默認(rèn)堆來存放動態(tài)數(shù)據(jù),如windows 2000下的所有ANSI版本的函數(shù)都是在默認(rèn)堆中申請內(nèi)存來轉(zhuǎn)換ANSI字符串到Unicode字符串的。對一個(gè)堆的訪問是順序進(jìn)行的,同一時(shí)刻只能有一個(gè)線程訪問堆中的數(shù)據(jù),當(dāng)多個(gè)線程同時(shí)有訪問要求時(shí),只能排隊(duì)等待,這樣便造成程序執(zhí)行效率下降。 最后來說說內(nèi)存中的數(shù)據(jù)對齊。所位數(shù)據(jù)對齊,是指數(shù)據(jù)所在的內(nèi)存地址必須是該數(shù)據(jù)長度的整數(shù)倍,DWORD數(shù)據(jù)的內(nèi)存起始地址能被4除盡,

31、WORD數(shù)據(jù)的內(nèi)存起始地址能被2除盡,x86 CPU能直接訪問對齊的數(shù)據(jù),當(dāng)他試圖訪問一個(gè)未對齊的數(shù)據(jù)時(shí),會在內(nèi)部進(jìn)行一系列的調(diào)整,這些調(diào)整對于程序來說是透明的,但是會降低運(yùn)行速度,所以編譯器在編譯程序時(shí)會盡量保證數(shù)據(jù)對齊。同樣一段代碼,我們來看看用VC、Dev-C+和lcc三個(gè)不同編譯器編譯出來的程序的執(zhí)行結(jié)果: #include <stdio.h> int main() int a; char b; int c; printf("0x%08xn",&a); printf("0x%08xn",&b); printf(&quo

32、t;0x%08xn",&c); return 0; 這是用VC編譯后的執(zhí)行結(jié)果: 0x0012ff7c 0x0012ff7b 0x0012ff80 變量在內(nèi)存中的順序:b(1字節(jié))-a(4字節(jié))-c(4字節(jié))。 這是用Dev-C+編譯后的執(zhí)行結(jié)果: 0x0022ff7c 0x0022ff7b 0x0022ff74 變量在內(nèi)存中的順序:c(4字節(jié))-中間相隔3字節(jié)-b(占1字節(jié))-a(4字節(jié))。 這是用lcc編譯后的執(zhí)行結(jié)果: 0x0012ff6c 0x0012ff6b 0x0012ff64 變量在內(nèi)存中的順序:同上。 三個(gè)編譯器都做到了數(shù)據(jù)對齊,但是后兩個(gè)編譯器顯然沒VC“聰

33、明”,讓一個(gè)char占了4字節(jié),浪費(fèi)內(nèi)存哦。 基礎(chǔ)知識: 堆棧是一種簡單的數(shù)據(jù)結(jié)構(gòu),是一種只允許在其一端進(jìn)行插入或刪除的線性表。允許插入或刪除操作的一端稱為棧頂,另一端稱為棧底,對堆棧的插入和刪除操作被稱為入棧和出棧。有一組CPU指令可以實(shí)現(xiàn)對進(jìn)程的內(nèi)存實(shí)現(xiàn)堆棧訪問。其中,POP指令實(shí)現(xiàn)出棧操作,PUSH指令實(shí)現(xiàn)入棧操作。CPU的ESP寄存器存放當(dāng)前線程的棧頂指針,EBP寄存器中保存當(dāng)前線程的棧底指針。CPU的EIP寄存器存放下一個(gè)CPU指令存放的內(nèi)存地址,當(dāng)CPU執(zhí)行完當(dāng)前的指令后,從EIP寄存器中讀取下一條指令的內(nèi)存地址,然后繼續(xù)執(zhí)行。 參考:Windows下的HEAP溢出及其利用by:

34、isno windows核心編程by: Jeffrey Richter 摘要: 討論常見的堆性能問題以及如何防范它們。(共 9 頁)前言您是否是動態(tài)分配的 C/C+ 對象忠實(shí)且幸運(yùn)的用戶?您是否在模塊間的往返通信中頻繁地使用了“自動化”?您的程序是否因堆分配而運(yùn)行起來很慢?不僅僅您遇到這樣的問題。幾乎所有項(xiàng)目遲早都會遇到堆問題。大家都想說,“我的代碼真正好,只是堆太慢”。那只是部分正確。更深入理解堆及其用法、以及會發(fā)生什么問題,是很有用的。什么是堆?(如果您已經(jīng)知道什么是堆,可以跳到“什么是常見的堆性能問題?”部分)在程序中,使用堆來動態(tài)分配和釋放對象。在下列情況下,調(diào)用堆操作: 事先不知道程

35、序所需對象的數(shù)量和大小。對象太大而不適合堆棧分配程序。堆使用了在運(yùn)行時(shí)分配給代碼和堆棧的內(nèi)存之外的部分內(nèi)存。下圖給出了堆分配程序的不同層。GlobalAlloc/GlobalFree:Microsoft Win32 堆調(diào)用,這些調(diào)用直接與每個(gè)進(jìn)程的默認(rèn)堆進(jìn)行對話。LocalAlloc/LocalFree:Win32 堆調(diào)用(為了與 Microsoft Windows NT 兼容),這些調(diào)用直接與每個(gè)進(jìn)程的默認(rèn)堆進(jìn)行對話。COM 的 IMalloc 分配程序(或 CoTaskMemAlloc / CoTaskMemFree):函數(shù)使用每個(gè)進(jìn)程的默認(rèn)堆。自動化程序使用“組件對象模型 (COM)”的

36、分配程序,而申請的程序使用每個(gè)進(jìn)程堆。C/C+ 運(yùn)行時(shí) (CRT) 分配程序:提供了 malloc() 和 free() 以及 new 和 delete 操作符。如 Microsoft Visual Basic 和 Java 等語言也提供了新的操作符并使用垃圾收集來代替堆。CRT 創(chuàng)建自己的私有堆,駐留在 Win32 堆的頂部。Windows NT 中,Win32 堆是 Windows NT 運(yùn)行時(shí)分配程序周圍的薄層。所有 API 轉(zhuǎn)發(fā)它們的請求給 NTDLL。Windows NT 運(yùn)行時(shí)分配程序提供 Windows NT 內(nèi)的核心堆分配程序。它由具有 128 個(gè)大小從 8 到 1,024 字

37、節(jié)的空閑列表的前端分配程序組成。后端分配程序使用虛擬內(nèi)存來保留和提交頁。在圖表的底部是“虛擬內(nèi)存分配程序”,操作系統(tǒng)使用它來保留和提交頁。所有分配程序使用虛擬內(nèi)存進(jìn)行數(shù)據(jù)的存取。分配和釋放塊不就那么簡單嗎?為何花費(fèi)這么長時(shí)間?堆實(shí)現(xiàn)的注意事項(xiàng)傳統(tǒng)上,操作系統(tǒng)和運(yùn)行時(shí)庫是與堆的實(shí)現(xiàn)共存的。在一個(gè)進(jìn)程的開始,操作系統(tǒng)創(chuàng)建一個(gè)默認(rèn)堆,叫做“進(jìn)程堆”。如果沒有其他堆可使用,則塊的分配使用“進(jìn)程堆”。語言運(yùn)行時(shí)也能在進(jìn)程內(nèi)創(chuàng)建單獨(dú)的堆。(例如,C 運(yùn)行時(shí)創(chuàng)建它自己的堆。)除這些專用的堆外,應(yīng)用程序或許多已載入的動態(tài)鏈接庫 (DLL) 之一可以創(chuàng)建和使用單獨(dú)的堆。Win32 提供一整套 API 來創(chuàng)建和使

38、用私有堆。有關(guān)堆函數(shù)(英文)的詳盡指導(dǎo),請參見 MSDN。當(dāng)應(yīng)用程序或 DLL 創(chuàng)建私有堆時(shí),這些堆存在于進(jìn)程空間,并且在進(jìn)程內(nèi)是可訪問的。從給定堆分配的數(shù)據(jù)將在同一個(gè)堆上釋放。(不能從一個(gè)堆分配而在另一個(gè)堆釋放。)在所有虛擬內(nèi)存系統(tǒng)中,堆駐留在操作系統(tǒng)的“虛擬內(nèi)存管理器”的頂部。語言運(yùn)行時(shí)堆也駐留在虛擬內(nèi)存頂部。某些情況下,這些堆是操作系統(tǒng)堆中的層,而語言運(yùn)行時(shí)堆則通過大塊的分配來執(zhí)行自己的內(nèi)存管理。不使用操作系統(tǒng)堆,而使用虛擬內(nèi)存函數(shù)更利于堆的分配和塊的使用。典型的堆實(shí)現(xiàn)由前、后端分配程序組成。前端分配程序維持固定大小塊的空閑列表。對于一次分配調(diào)用,堆嘗試從前端列表找到一個(gè)自由塊。如果失敗

39、,堆被迫從后端(保留和提交虛擬內(nèi)存)分配一個(gè)大塊來滿足請求。通用的實(shí)現(xiàn)有每塊分配的開銷,這將耗費(fèi)執(zhí)行周期,也減少了可使用的存儲空間。Knowledge Base 文章 Q10758,“用 calloc() 和 malloc() 管理內(nèi)存” (搜索文章編號), 包含了有關(guān)這些主題的更多背景知識。另外,有關(guān)堆實(shí)現(xiàn)和設(shè)計(jì)的詳細(xì)討論也可在下列著作中找到:“Dynamic Storage Allocation: A Survey and Critical Review”,作者 Paul R. Wilson、Mark S. Johnstone、Michael Neely 和 David Boles;“In

40、ternational Workshop on Memory Management”, 作者 Kinross, Scotland, UK, 1995 年 9 月(/users/oops/papers.html)(英文)。Windows NT 的實(shí)現(xiàn)(Windows NT 版本 4.0 和更新版本) 使用了 127 個(gè)大小從 8 到 1,024 字節(jié)的 8 字節(jié)對齊塊空閑列表和一個(gè)“大塊”列表?!按髩K”列表(空閑列表0) 保存大于 1,024 字節(jié)的塊??臻e列表容納了用雙向鏈表鏈接在一起的對象。默認(rèn)情況下,“進(jìn)程堆”執(zhí)行收集操作。(收集是將相鄰空閑塊

41、合并成一個(gè)大塊的操作。)收集耗費(fèi)了額外的周期,但減少了堆塊的內(nèi)部碎片。單一全局鎖保護(hù)堆,防止多線程式的使用。(請參見“Server Performance and Scalability Killers”中的第一個(gè)注意事項(xiàng), George Reilly 所著,在 “MSDN Online Web Workshop”上(站點(diǎn):什么是常見的堆性能問題?以下是您使用堆時(shí)會遇到的最常見問題: 分配操作造成的速度減慢。光分配就耗費(fèi)很長時(shí)間。最可能導(dǎo)致運(yùn)行速度減慢原因是空閑列表沒有塊,所以運(yùn)行時(shí)分配程序代碼會耗費(fèi)周期尋找較大的空閑塊,或從后端分配程序分配新塊。釋放操作造成的速度減慢。釋放操作耗費(fèi)較多周期,

42、主要是啟用了收集操作。收集期間,每個(gè)釋放操作“查找”它的相鄰塊,取出它們并構(gòu)造成較大塊,然后再把此較大塊插入空閑列表。在查找期間,內(nèi)存可能會隨機(jī)碰到,從而導(dǎo)致高速緩存不能命中,性能降低。堆競爭造成的速度減慢。當(dāng)兩個(gè)或多個(gè)線程同時(shí)訪問數(shù)據(jù),而且一個(gè)線程繼續(xù)進(jìn)行之前必須等待另一個(gè)線程完成時(shí)就發(fā)生競爭。競爭總是導(dǎo)致麻煩;這也是目前多處理器系統(tǒng)遇到的最大問題。當(dāng)大量使用內(nèi)存塊的應(yīng)用程序或 DLL 以多線程方式運(yùn)行(或運(yùn)行于多處理器系統(tǒng)上)時(shí)將導(dǎo)致速度減慢。單一鎖定的使用常用的解決方案意味著使用堆的所有操作是序列化的。當(dāng)?shù)却i定時(shí)序列化會引起線程切換上下文??梢韵胂蠼徊媛房陂W爍的紅燈處走走停停導(dǎo)致的速度

43、減慢。 競爭通常會導(dǎo)致線程和進(jìn)程的上下文切換。上下文切換的開銷是很大的,但開銷更大的是數(shù)據(jù)從處理器高速緩存中丟失,以及后來線程復(fù)活時(shí)的數(shù)據(jù)重建。堆破壞造成的速度減慢。造成堆破壞的原因是應(yīng)用程序?qū)Χ褖K的不正確使用。通常情形包括釋放已釋放的堆塊或使用已釋放的堆塊,以及塊的越界重寫等明顯問題。(破壞不在本文討論范圍之內(nèi)。有關(guān)內(nèi)存重寫和泄漏等其他細(xì)節(jié),請參見 Microsoft Visual C+(R) 調(diào)試文檔 。)頻繁的分配和重分配造成的速度減慢。這是使用腳本語言時(shí)非常普遍的現(xiàn)象。如字符串被反復(fù)分配,隨重分配增長和釋放。不要這樣做,如果可能,盡量分配大字符串和使用緩沖區(qū)。另一種方法就是盡量少用連接

44、操作。競爭是在分配和釋放操作中導(dǎo)致速度減慢的問題。理想情況下,希望使用沒有競爭和快速分配/釋放的堆。可惜,現(xiàn)在還沒有這樣的通用堆,也許將來會有。在所有的服務(wù)器系統(tǒng)中(如 IIS、MSProxy、DatabaseStacks、網(wǎng)絡(luò)服務(wù)器、 Exchange 和其他), 堆鎖定實(shí)在是個(gè)大瓶頸。處理器數(shù)越多,競爭就越會惡化。盡量減少堆的使用現(xiàn)在您明白使用堆時(shí)存在的問題了,難道您不想擁有能解決這些問題的超級魔棒嗎?我可希望有。但沒有魔法能使堆運(yùn)行加快因此不要期望在產(chǎn)品出貨之前的最后一星期能夠大為改觀。如果提前規(guī)劃堆策略,情況將會大大好轉(zhuǎn)。調(diào)整使用堆的方法,減少對堆的操作是提高性能的良方。如何減少使用堆

45、操作?通過利用數(shù)據(jù)結(jié)構(gòu)內(nèi)的位置可減少堆操作的次數(shù)。請考慮下列實(shí)例:struct ObjectA     / objectA 的數(shù)據(jù) struct ObjectB     / objectB 的數(shù)據(jù) / 同時(shí)使用 objectA 和 objectB/ 使用指針 /struct ObjectB     struct ObjectA * pObjA;    / objectB 的數(shù)據(jù) / 使用嵌入/struct ObjectB     struct O

46、bjectA pObjA;    / objectB 的數(shù)據(jù) / 集合 在另一對象內(nèi)使用 objectA 和 objectB/struct ObjectX     struct ObjectA   objA;    struct ObjectB   objB;避免使用指針關(guān)聯(lián)兩個(gè)數(shù)據(jù)結(jié)構(gòu)。如果使用指針關(guān)聯(lián)兩個(gè)數(shù)據(jù)結(jié)構(gòu),前面實(shí)例中的對象 A 和 B 將被分別分配和釋放。這會增加額外開銷我們要避免這種做法。把帶指針的子對象嵌入父對象。當(dāng)對象中有指針時(shí),則意味著對象中有動

47、態(tài)元素(百分之八十)和沒有引用的新位置。嵌入增加了位置從而減少了進(jìn)一步分配/釋放的需求。這將提高應(yīng)用程序的性能。合并小對象形成大對象(聚合)。聚合減少分配和釋放的塊的數(shù)量。如果有幾個(gè)開發(fā)者,各自開發(fā)設(shè)計(jì)的不同部分,則最終會有許多小對象需要合并。集成的挑戰(zhàn)就是要找到正確的聚合邊界。內(nèi)聯(lián)緩沖區(qū)能夠滿足百分之八十的需要(aka 80-20 規(guī)則)。個(gè)別情況下,需要內(nèi)存緩沖區(qū)來保存字符串/二進(jìn)制數(shù)據(jù),但事先不知道總字節(jié)數(shù)。估計(jì)并內(nèi)聯(lián)一個(gè)大小能滿足百分之八十需要的緩沖區(qū)。對剩余的百分之二十,可以分配一個(gè)新的緩沖區(qū)和指向這個(gè)緩沖區(qū)的指針。這樣,就減少分配和釋放調(diào)用并增加數(shù)據(jù)的位置空間,從根本上提高代碼的性

48、能。在塊中分配對象(塊化)。塊化是以組的方式一次分配多個(gè)對象的方法。如果對列表的項(xiàng)連續(xù)跟蹤,例如對一個(gè) 名稱,值 對的列表,有兩種選擇:選擇一是為每一個(gè)“名稱-值”對分配一個(gè)節(jié)點(diǎn);選擇二是分配一個(gè)能容納(如五個(gè))“名稱-值”對的結(jié)構(gòu)。例如,一般情況下,如果存儲四對,就可減少節(jié)點(diǎn)的數(shù)量,如果需要額外的空間數(shù)量,則使用附加的鏈表指針。 塊化是友好的處理器高速緩存,特別是對于 L1-高速緩存,因?yàn)樗峁┝嗽黾拥奈恢?不用說對于塊分配,很多數(shù)據(jù)塊會在同一個(gè)虛擬頁中。正確使用 _amblksiz。C 運(yùn)行時(shí) (CRT) 有它的自定義前端分配程序,該分配程序從后端(Win32 堆)分配大小為 _amblksiz 的塊。將 _amblksiz 設(shè)置為較高的值能潛在地減少對后端的調(diào)用次數(shù)。這只對廣泛使用 CRT 的程序適用。使用上述技術(shù)將獲得的好處會因?qū)ο箢愋?、大小及工作量而有所不同。但總能在性能和可升縮性方面有所收獲。另一方面,代碼會有點(diǎn)特殊,但如果經(jīng)過深思熟慮,代碼還是很容易管理的。其他提高性能的技術(shù)下面是一些提高速度的技術(shù): 使用 Windows NT5 堆 由于幾個(gè)同事的努力和辛勤工作,1998 年

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論