什么是逆向工程
先給大家出一道思考題
用C語言設計一個程序,驗證輸入的密碼是否是“12345678”,如果驗證成功,就輸出“success”,如果驗證失敗,則輸出“failed”。
我想,大部分新手小白估計會這么寫:
#include <stdio.h>
#include <string.h>
int main() {
char buf[10] = {0};
scanf("%s", buf);
if (strcmp(buf, "12345678") == 0) {
printf("success");
} else {
printf("failed");
}
return 0;
}
上面的代碼編譯后,會生成一個可執行程序,咱們來對這個可執行文件進行一下反編譯,看看能看到什么?
下圖是在反編譯神器IDA中,可執行文件反編譯出來的匯編指令圖:
可以非常清晰的看到一些字符串的信息:"success"、"failed"、"1234567。
再認真一看,main函數中有一個分支判斷,根據判斷的結果,走入左右兩個分支,分別輸出"success"和"failed"。
如果新手看不懂上面的反匯編圖,那可以再使用IDA的神級功能:F5反編譯高級語言功能,直接將上面的匯編程序再進一步還原成C語言。
可以對照一下上圖中的C函數代碼和原來我們的源代碼,還原度非常的高了,字符串比較的功能邏輯暴露無遺
可以看到,通過這種方式進行密碼匹配,非常不安全,對方拿到你的程序一反編譯,就能看到密碼是什么了。
不過咱們今天的文章主題不是探討如何進行安全地進行密碼比較,而是另一個主題:逆向工程。
什么是逆向工程,維基百科中的解釋如下:
逆向工程(Reverse Engineering),又稱反向工程,是一種技術過程,即對一項目標產品進行逆向分析及研究,從而演繹并得出該產品的處理流程、組織結構、功能性能規格等設計要素,以制作出功能相近,但又不完全一樣的產品。
逆向工程的概念起源于商業和軍事領域,后延伸到軟件領域。
在軟件領域,通過對程序文件進行逆向分析,推導出程序對源代碼設計的過程,稱為軟件逆向工程。比如上面通過分析可執行文件還原出C代碼,分析jar包/class文件還原出JAVA源碼,這都屬于軟件逆向工程。
軟件逆向工程是網絡安全領域中的一個重要分支,網絡黑客通過逆向工程可以獲得目標的程序原理,破解軟件的權限,這一般發生在商業軟件領域。另外一方面,黑客通過逆向分析也常用來發現軟件漏洞,用來對其發起攻擊,windows作為一個不開源的操作系統,就經常遭遇這樣的事情。
本文就來探討一下,逆向工程一般是怎么進行的,需要學習哪些東西?
程序反編譯
逆向的一開始,通過會對目標進行反編譯。
作為軟件開發者,對編譯這個詞應該不會陌生,我們寫好了程序代碼,然后使用編譯器將其轉換成可執行的程序,這個過程叫做編譯。
反編譯,自然就是這個過程的逆過程,那該選擇什么樣的程序進行反編譯呢?
對于C、C++、Golang等類型語言編寫的程序,我們一般使用IDA進行反匯編。
對于Java語言編寫的class文件和jar文件,我們一般使用jd-gui進行反編譯。
對于C#語言編寫的可執行程序,我們一般使用reflector進行反編譯。
所以學習上面三款反編譯工具的使用對學習逆向工程非常重要
可執行文件格式
不同的操作系統平臺具有不同的可執行文件格式,如Windows上的PE文件、linux平臺的ELF文件、macOS上的Mach-O文件
一個可執行文件中除了源代碼生成的匯編指令,還有靜態數據(如代碼中引用到的字符串),導入導出信息,文件屬性信息等等,掌握提取這些信息,會對咱們了解目標程序非常有幫助。
這就需要學習不同平臺上可執行文件的格式,尤其是PE文件和ELF文件,是逆向工程中最常打交道的文件格式。
CPU指令集
在逆向分析程序時,最主要的精力和時間就是在閱讀和分析反編譯出來的匯編指令。
所以CPU的指令集和匯編語言是搞逆向的同學必學的一門課。
常見的PC端CPU就是Intel的x86、x64和AMD64,移動端的就是ARM架構。建議先從最基本的x86開始學習,尤其要注意網絡上很多教程講的還是16位實模式下的匯編語言,非常容易誤導人。實模式當然要了解,但要把精力放在保護模式下32位匯編語言。
等x86入了門,可以擴展學習x64,到后期再擴展學習ARM。
學習匯編語言,不僅僅是學習匯編指令,更是在學習了解CPU,CPU有哪些寄存器,分別有什么用,它是如何訪問內存,如何進行尋址,如何進行運算等等。
高級語言特性
咱們逆向工程的目標大都是用C/C++/Java/C#這樣的高級語言編寫出來的程序,要想還原出程序的代碼邏輯,如果不懂高級語言本身那肯定是不行的。
當然,做逆向的同學,不必要像專業的開發同學那樣對這些語言的特性爛熟于心,掌握很多編程技能,這倒不用。
但掌握這些語言的基本編程技能還是有必要。拿C語言來說,C語言中函數調用原理,參數如何傳遞,函數中的局部變量如何分布,數組如何存儲,結構體成員如何內存布局,指針又是如何實現的等等,這些基礎概念咱們得知道,不然拿到反匯編代碼,也不知道如何與高級語言進行轉換。
像上面說到的這些C語言知識,學習的時候要自己對比源碼和編譯后的匯編指令長什么樣,反復對比學習,產生條件反射。除了這些,還要關注C++中面向對象實現原理,虛函數機制,this指針如何傳參,new和delete/delete []等等在匯編指令層如何實現。
有些人說,咱不是有F5大法嗎,直接一鍵搞定?當然F5功能非常強大,我也不反對使用工具,但我們不能過分依賴于工具,不然就變成一個徹底的工具人,尤其是對于初學者,自己嘗試從匯編指令轉換成高級語言,會讓自己對技術底層原理理解的更加透徹。而且,有很多時候F5功能用不了,那個時候還得靠自己的知識上!
軟件調試
很多時候,光靠靜態分析無法實現目標,比如程序進行了加殼等技術,在靜態分析下看到的全是錯誤的指令代碼,甚至讓反編譯工具無法分析。
這個時候,就需要結合動態分析技術一塊兒上,讓程序實際運行起來,再來對其進行分析,所以,掌握軟件調試技術,也是逆向工程中不可缺失的一環