指針對于C來說太重要。然而,想要全面理解指針,除了要對C語言有熟練的掌握外,還要有計算機硬件以及操作系統等方方面面的基本知識。所以本文盡可能的通過一篇文章完全講解指針。
為什么需要指針?
指針解決了一些編程中基本的問題。
第一,指針的使用使得不同區域的代碼可以輕易的共享內存數據。當然小伙伴們也可以通過數據的復制達到相同的效果,但是這樣往往效率不太好。
因為諸如結構體等大型數據,占用的字節數多,復制很消耗性能。
但使用指針就可以很好的避免這個問題,因為任何類型的指針占用的字節數都是一樣的(根據平臺不同,有4字節或者8字節或者其他可能)。
第二,指針使得一些復雜的鏈接性的數據結構的構建成為可能,比如鏈表,鏈式二叉樹等等。
第三,有些操作必須使用指針。如操作申請的堆內存。
還有:C語言中的一切函數調用中,值傳遞都是“按值傳遞”的。
如果我們要在函數中修改被傳遞過來的對象,就必須通過這個對象的指針來完成。
計算機是如何從內存中進行取指的?
計算機的總線可以分為3種:數據總線,地址總線和控制總線。這里不對控制總線進行描述。數據總線用于進行數據信息傳送。數據總線的位數一般與CPU的字長一致。一般而言,數據總線的位數跟當前機器int值的長度相等。例如在16位機器上,int的長度是16bit,32位機器則是32bit。這個計算機一條指令最多能夠讀取或者存取的數據長度。大于這個值,計算機將進行多次訪問。這也就是我們說的64位機器進行64位數據運算的效率比32位要高的原因,因為32位機要進行兩次取指和運行,而64位機卻只需要一次!
地址總線專門用于尋址,CPU通過該地址進行數據的訪問,然后把處于該地址處的數據通過數據總線進行傳送,傳送的長度就是數據總線的位數。地址總線的位數決定了CPU可直接尋址的內存空間大小,比如CPU總線長32位,其最大的直接尋址空間長232KB,也就是4G。這也就是我們常說的32位CPU最大支持的內存上限為4G(當然,實際上支持不到這個值,因為一部分尋址空間會被映射到外部的一些IO設備和虛擬內存上。現在通過一些新的技術,可以使32位機支持4G以上內存,但這個不在這里的討論范圍內)。
一般而言,計算機的地址總線和數據總線的寬度是一樣的,我們說32位的CPU,數據總線和地址總線的寬度都是32位。
計算機訪問某個數據的時候,首先要通過地址總線傳送數據存儲或者讀取的位置,然后在通過數據總線傳送需要存儲或者讀取的數據。一般地,int整型的位數等于數據總線的寬度,指針的位數等于地址總線的寬度。
計算機的基本訪問單元
學過C語言的人都知道,C語言的基本數據類型中,就屬char的位數最小,是8位。我們可以認為計算機以8位,即1個字節為基本訪問單元。小于一個字節的數據,必須通過位操作來進行訪問。
內存訪問方式
如圖1所示,計算機在進行數據訪問的時候,是以字節為基本單元進行訪問的,所以可以認為,計算每次都是從第p個字節開始訪問的。訪問的長度將由編譯器根據實際類型進行計算,這在后面將會進行講述。

內存訪問方式
想要了解更多,就去翻閱計算機組成原理和編譯原理吧。
sizeof關鍵字
sizeof關鍵字是編譯器用來計算某些類型的數據的長度的,以字節為基本單位。例如:
sizeof(char)=1; sizeof(int)=4;
sizeof(Type)的值是在編譯的時候就計算出來了的,可以認為這是一個常量!
指針是什么?
我們知道:C語言中的數組是指一類類型,數組具體區分為 int 類型數組,double類型數組,char數組 等等。
同樣指針這個概念也泛指一類數據類型,int指針類型,double指針類型,char指針類型等等。
通常,我們用int類型保存一些整型的數據,如 int num = 97 , 我們也會用char來存儲字符:char ch = 'a'。
我們也必須知道:任何程序數據載入內存后,在內存都有他們的地址,這就是指針。
而為了保存一個數據在內存中的地址,我們就需要指針變量。
因此:指針是程序數據在內存中的地址,而指針變量是用來保存這些地址的變量。

在我個人的理解中,可以將指針理解成int整型,只不過它存放的數據是內存地址,而不是普通數據,我們通過這個地址值進行數據的訪問,假設它的是p,意思就是該數據存放位置為內存的第p個字節。
當然,我們不能像對int類型的數據那樣進行各種加減乘除操作,這是編譯器不允許的,因為這樣錯是非常危險的!
圖2就是對指針的描述,指針的值是數據存放地址,因此,我們說,指針指向數據的存放位置。

指針的長度
我們使用這樣的方式來定義一個指針:
我們說p是指向type類型的指針,type可以是任意類型,除了可以是char,short, int, long等基本類型外,還可以是指針類型,例如int *, int **, 或者更多級的指針,也可是是結構體,類或者函數等。于是,我們說:
int * 是指向int類型的指針;
int **,也即(int *) *,是指向int *類型的指針,也就是指向指針的指針;
int ***,也即(int **) *,是指向int**類型的指針,也就是指向指針的指針的指針;
…我想你應該懂了
struct xxx *,是指向struct xxx類型的指針;
其實,說這么多,只是希望大家在看到指針的時候,不要被int ***這樣的東西嚇到,就像前面說的,指針就是指向某種類型的指針,我們只看最后一個*號,前面的只不過是type類型罷了。
細心一點的人應該發現了,在“什么是指針”這一小節當中,已經表明了:指針的長度跟CPU的位數相等,大部分的CPU是32位的,因此我們說,指針的長度是32bit,也就是4個字節!注意:任意指針的長度都是4個字節,不管是什么指針!(當然64位機自己去測一下,應該是8個字節吧。。。)
于是:
Type *p;izeof(p)的值是4,Type可以是任意類型,char,int, long, struct, class, int **…
以后大家看到什么sizeof(char*), sizeof(int *),sizeof(xxx *),不要理會,統統寫4,只要是指針,長度就是4個字節,絕對不要被type類型迷惑!
為什么程序中的數據會有自己的地址?
弄清這個問題我們需要從操作系統的角度去認知內存。
電腦維修師傅眼中的內存是這樣的:內存在物理上是由一組DRAM芯片組成的。

而作為一個程序員,我們不需要了解內存的物理結構,操作系統將RAM等硬件和軟件結合起來,給程序員提供的一種對內存使用的抽象。
這種抽象機制使得程序使用的是虛擬存儲器,而不是直接操作和使用真實存在的物理存儲器。
所有的虛擬地址形成的集合就是虛擬地址空間。

在程序員眼中的內存應該是下面這樣的。

也就是說,內存是一個很大的,線性的字節數組(平坦尋址)。每一個字節都是固定的大小,由8個二進制位組成。
最關鍵的是,每一個字節都有一個唯一的編號,編號從0開始,一直到最后一個字節。
如上圖中,這是一個256M的內存,他一共有256x1024x1024 = 268435456個字節,那么它的地址范圍就是 0 ~268435455 。
由于內存中的每一個字節都有一個唯一的編號。
因此,在程序中使用的變量,常量,甚至數函數等數據,當他們被載入到內存中后,都有自己唯一的一個編號,這個編號就是這個數據的地址。
指針就是這樣形成的。
下面用代碼說明
#include <stdio.h>int main(void){ char ch = 'a'; int num = 97; printf("ch 的地址:%p",&ch); //ch 的地址:0028FF47 printf("num的地址:%p",&num); //num的地址:0028FF40 return 0;}

指針的值實質是內存單元(即字節)的編號,所以指針單獨從數值上看,也是整數,他們一般用16進制表示。
指針的值(虛擬地址值)使用一個機器字的大小來存儲。
也就是說,對于一個機器字為w位的電腦而言,它的虛擬地址空間是0~2w - 1 ,程序最多能訪問2w個字節。
這就是為什么xp這種32位系統最大支持4GB內存的原因了。
我們可以大致畫出變量ch和num在內存模型中的存儲。(假設 char占1個字節,int占4字節)

變量和內存
為了簡單起見,這里就用上面例子中的 int num = 97 這個局部變量來分析變量在內存中的存儲模型。

已知:num的類型是int,占用了4個字節的內存空間,其值是97,地址是0028FF40。我們從以下幾個方面去分析。
1、內存的數據
內存的數據就是變量的值對應的二進制,一切都是二進制。
97的二進制是 : 00000000 00000000 00000000 0110000 , 但使用的小端模式存儲時,低位數據存放在低地址,所以圖中畫的時候是倒過來的。
2、內存數據的類型
內存的數據類型決定了這個數據占用的字節數,以及計算機將如何解釋這些字節。
num的類型是int,因此將被解釋為 一個整數。
3、內存數據的名稱
內存的名稱就是變量名。實質上,內存數據都是以地址來標識的,根本沒有內存的名稱這個說法,這只是高級語言提供的抽象機制 ,方便我們操作內存數據。
而且在C語言中,并不是所有的內存數據都有名稱,例如使用malloc申請的堆內存就沒有。
4、內存數據的地址
如果一個類型占用的字節數大于1,則其變量的地址就是地址值最小的那個字節的地址。
因此num的地址是 0028FF40。內存的地址用于標識這個內存塊。
5、內存數據的生命周期
num是main函數中的局部變量,因此當main函數被啟動時,它被分配于棧內存上,當main執行結束時,消亡。
如果一個數據一直占用著他的內存,那么我們就說他是“活著的”,如果他占用的內存被回收了,則這個數據就“消亡了”。
C語言中的程序數據會按照他們定義的位置,數據的種類,修飾的關鍵字等因素,決定他們的生命周期特性。
實質上我們程序使用的內存會被邏輯上劃分為:棧區,堆區,靜態數據區,方法區。
不同的區域的數據有不同的生命周期。
無論以后計算機硬件如何發展,內存容量都是有限的,因此清楚理解程序中每一個程序數據的生命周期是非常重要的。
指針運算
N多的面試會考這種東西了:
??????Type *p; p++;然后問你p的值變化了多少。
其實,也可以認為這是在考編譯器的基本知識。因此p的值并不像表面看到的+1那么簡單,編譯器實際上對p進行的是加sizeof(Type)的操作。
看一個一段代碼的測試結果:

這里注釋掉char一行的原因是因為cout<<(char*)會被當成字符串輸出,而不是char的地址)
執行結果:

觀察結果,可以看出,他們的增長結果分別是:
2(sizeof(short)) 4(sizeof(int)) 4(sizeof(long)) 8(sizeof(long long)) 4(sizeof(float)) 8(sizeof(double)) 12(sizeof(long double))
喏,增加的值是不是sizeof(Type)呢?別的什么struct,class之類的,就不驗證你,有興趣的自己去驗證。
我們再對這樣的一段代碼進行匯編,查看編譯器是如何進行指針的加法操作的:

匯編結果:


注意看注釋部分的結果,我們看到,piv的值顯示加了4(sizeof(int)),然后又加了16(4*sizeof(int))。
指針變量和指向關系
用來保存指針的變量,就是指針變量。
如果指針變量p1保存了變量 num的地址,則就說:p1指向了變量num,也可以說p1指向了num所在的內存塊 ,這種指向關系,在圖中一般用 箭頭表示。

上圖中,指針變量p1指向了num所在的內存塊 ,即從地址0028FF40開始的4個byte 的內存塊。
定義指針變量
C語言中,定義變量時,在變量名前寫一個 * 星號,這個變量就變成了對應變量類型的指針變量。必要時要加( ) 來避免優先級的問題。
引申:C語言中,定義變量時,在定義的最前面寫上typedef ,那么這個變量名就成了一種類型,即這個類型的同義詞。
int a ; //int類型變量 aint *a ; //int* 變量aint arr[3]; //arr是包含3個int元素的數組int (* arr )[3]; //arr是一個指向包含3個int元素的數組的指針變量 //-----------------各種類型的指針------------------------------ int* p_int; //指向int類型變量的指針 double* p_double; //指向idouble類型變量的指針 struct Student *p_struct; //結構體類型的指針 int(*p_func)(int,int); //指向返回類型為int,有2個int形參的函數的指針 int(*p_arr)[3]; //指向含有3個int元素的數組的指針 int** p_pointer; //指向 一個整形變量指針的指針
指針的2個重要屬性
指針也是一種數據,指針變量也是一種變量,因此指針 這種數據也符合前面變量和內存主題中的特性。
這里要強調2個屬性:指針的類型,指針的值。
int main(void){ int num = 97; int *p1 = # char* p2 = (char*)(&num); printf("%d",*p1); //輸出 97 putchar(*p2); //輸出 a return 0;}
指針的值:很好理解,如上面的num 變量 ,其地址的值就是0028FF40 ,因此 p1的值就是0028FF40。
數據的地址用于在內存中定位和標識這個數據,因為任何2個內存不重疊的不同數據的地址都是不同的。
指針的類型:指針的類型決定了這個指針指向的內存的字節數并如何解釋這些字節信息。
一般指針變量的類型要和它指向的數據的類型匹配。
由于num的地址是0028FF40,因此 p1 和 p2 的值都是0028FF40
*p1 : 將從地址0028FF40 開始解析,因為p1是int類型指針,int占4字節,因此向后連續取4個字節,并將這4個字節的二進制數據解析為一個整數 97。
*p2 : 將從地址0028FF40 開始解析,因為p2是char類型指針,char占1字節,因此向后連續取1個字節,并將這1個字節的二進制數據解析為一個字符,即'a'。
同樣的地址,因為指針的類型不同,對它指向的內存的解釋就不同,得到的就是不同的數據。
取地址
既然有了指針變量,那就得讓他保存其它變量的地址,使用& 運算符取得一個變量的地址。
int add(int a , int b){ return a + b;} int main(void){ int num = 97; float score = 10.00F; int arr[3] = {1,2,3}; //----------------------- int* p_num = # float* p_score = &score; int (*p_arr)[3] = &arr; int (*fp_add)(int ,int ) = add; //p_add是指向函數add的函數指針 return 0;}
特殊的情況,他們并不一定需要使用&取地址:
- 數組名的值就是這個數組的第一個元素的地址。
- 函數名的值就是這個函數的地址。
- 字符串字面值常量作為右值時,就是這個字符串對應的字符數組的名稱,也就是這個字符串在內存中的地址。
int add(int a , int b){ return a + b;}int main(void){ int arr[3] = {1,2,3}; //----------------------- int* p_first = arr; int (*fp_add)(int ,int ) = add; const char* msg = "Hello world"; return 0;}
解地址
我們需要一個數據的指針變量干什么?
當然使用通過它來操作(讀/寫)它指向的數據啦。
對一個指針解地址,就可以取到這個內存數據,解地址的寫法,就是在指針的前面加一個*號。
解指針的實質是:從指針指向的內存塊中取出這個內存數據。
int main(void){ int age = 19; int*p_age = &age; *p_age = 20; //通過指針修改指向的內存數據 printf("age = %d",*p_age); //通過指針讀取指向的內存數據 printf("age = %d",age); return 0;}
指針之間的賦值
指針賦值和int變量賦值一樣,就是將地址的值拷貝給另外一個。
指針之間的賦值是一種淺拷貝,是在多個編程單元之間共享內存數據的高效的方法。
//通過指針 p1 、 p3 都可以對內存數據 num 進行讀寫,如果2個函數分別使用了p1 和p3,那么這2個函數就共享了數據num。

空指針(NULL指針)
NULL是C語言標準定義的一個值,這個值其實就是0,只不過為了使得看起來更加具有意義,才定義了這樣的一個宏,中文的意思是空,表明不指向任何東西。你懂得。不過在此不討論空和零的區別。
在C語言中,我們讓指針變量賦值為NULL表示一個空指針,而C語言中,NULL實質是((void*)0),就像前面說的指針可以理解成特殊的int,它總是有值的,p=NULL,其實就是p的值等于0。對于不多數機器而言,0地址是不能直接訪問的,設置為0,就表示該指針哪里都沒指向。而在C++中,NULL實質是0。
換種說法:任何程序數據都不會存儲在地址為0的內存塊中,它是被操作系統預留的內存塊。
下面代碼摘自 stdlib.h
#ifdef __cplusplus #define NULL 0#else #define NULL ((void *)0)#endif
當然,就機器內部而言,NULL指針的實際值可能與此不同,這種情況下,編譯器將負責零值和內部值之間的翻譯轉換。
NULL指針的概念非常有用,它給了你一種方法,表示某個特定的指針目前并未指向任何東西。例如,一個用于在某個數組中查找某個特定值的函數可能返回一個指向查找到的數組元素的指針。如果沒找到,則返回一個NULL指針。
在內存的動態分配上,NULL的意義非同凡響,我們使用它來避免內存被多次釋放,造成經常性的段錯誤(segmentation fault)。一般,在free或者delete掉動態分配的內存后,都應該立即把指針置空,避免出現所以的懸掛指針,致使出現各種內存錯誤!例如:

free函數是不會也不可能把p置空的。像下面這樣的代碼就會出現內存段錯誤:

因為,第一次free操作之后,p指向的內存已經釋放了,但是p的值還沒有變化,free函數改不了這個值,再free一次的時候,p指向的內存區域已經被釋放了,這個地址已經變成了非法地址,這個操作將導致段錯誤的發生(此時,p指向的區域剛好又被分配出去了,但是這種概率非常低,而且對這樣一塊內存區域進行操作是非常危險的!)
但是下面這段代碼就不會出現這樣的問題:

因為p的值編程了NULL,free函數檢測到p為NULL,會直接返回,而不會發生錯誤。
這里順便告訴大家一個內存釋放的小竅門,可以有效的避免因為忘記對指針進行置空而出現各種內存問題。這個方法就是自定義一個內存釋放函數,但是傳入的參數不知指針,而是指針的地址,在這個函數里面置空,如下:

結果:

my_free調用了之后,p的值就變成了0(NULL),調用多少次free都不會報錯了!
另外一個方式也非常有效,那就是定義FREE宏,在宏里面對他進行置空。例如

執行結果同上面一樣,不會報段錯誤:

(關于內存的動態分配,這是個比較復雜的話題,有機會再專門開辟一章給各位講述一下吧,寫個帖子還是很花費時間和精力的,呵呵,寫過的童鞋應該都很清楚,所以順便插一句,轉帖可以,請注明出處,畢竟,大家都是本著共享的精神來討論問題的,寫的好壞都沒有向你所要什么,請尊重每個人的勞動成果。)
指向空,或者說不指向任何東西。
壞指針
指針變量的值是NULL,或者未知的地址值,或者是當前應用程序不可訪問的地址值,這樣的指針就是壞指針。
不能對他們做解指針操作,否則程序會出現運行時錯誤,導致程序意外終止。
任何一個指針變量在做解地址操作前,都必須保證它指向的是有效的,可用的內存塊,否則就會出錯。
壞指針是造成C語言Bug的最頻繁的原因之一。
void foo(){ int*p; *p = 10; //Oops! 不能對一個未知的地址解地址}
void bar(){ int*p = (int*)1000; *p =10; //Oops! 不能對一個可能不屬于本程序的內存的地址的指針解地址}