網站首頁編程語言正文

C語言逆向分析語法超詳細分析_C 語言

作者：ch132 ? 更新時間： 2022-12-26 編程語言

基本數據類型

在c中基本數據類型分為：char，short，int，long，float，double

以上數據類型除float和double外均可以分為有符號（singed）和無符號（unsigned）兩類

有符號時最高位為符號位，用來表示數據的正負

無符號情況下最高位為正常的數據位不做特殊含義

類型	占位
Char	1
short	2
int	4
long	8
float	4
Double	8

浮點數類型的存儲

浮點數類型是比較特殊的，首先他是交給專門的cpu來處理的，比如在80386中就引入了8087協處理器來專門處理浮點數的計算

C中的浮點數存儲方式采用了浮點實數存儲方式，也就是在全部二進制位上選取一段用來表示實數另一段表示小數點的位置，如952.7可以分為9527和0.1

C的浮點數的編碼采用的是ieee標準編碼格式，

如float類型下將浮點數分為三部分：符號位（1bit）、小數位（8bit）、實數位（23bit）

double：符號位（1bit）、小數位（11bit）、實數位（52bit）

舉例：12.25f拆分：符號位：0

? 小數位：1000 0010

? 實數位：10001 后續均為0

字符類型的存儲

字符類型是根據字符的編碼格式將對應字符的數字表示存儲為二進制。

具體的字符編碼解析可以劃到底部

指針和引用類型

在C中用指針類型（TYPE*）來表示一個用來存儲一個地址的DWORD類型，用&符號來表示取一個變量的地址

如：int* a；此時a則會被認為是一個指針類型，在對a進行操作時則會被編譯器編譯為匯編中的間接操作

舉例：

int tmp = 10；
int* a = &tmp;
(*a)+=1;
對應的匯編簡單來寫如下：
mov dword ptr [esp],0Ah;           將10存在棧中
lea eax,[esp]						取得tmp所在的地址
mov dword ptr [esp-4],eax					將tmp所在的地址存儲到棧中
mov ecx,dword ptr [esp-4]					取出tmp所在的地址
mov ecx,dword ptr [eax]
add dword ptr ecx,1								將tmp所在地址所指向的內容加一
mov dword ptr[eax],ecx

在c中以引用類型（type&）來表示一個操作的集合，每次對這個引用類型的操作都是取變量的內容將內容作為地址修改此地址中的數據并寫回的一個操作的集合

舉例：

int tmp = 10；
int& a = &tmp;
a+=1;
對應的匯編簡單來寫如下：
mov dword ptr [esp],0Ah;           將10存在棧中
lea eax,[esp]						取得tmp所在的地址
mov dword ptr [esp-4],eax					將tmp所在的地址存儲到棧中
mov ecx,dword ptr [esp-4]					取出tmp所在的地址
mov ecx,dword ptr [eax]
add dword ptr ecx,1								將tmp所在地址所指向的內容加一
mov dword ptr[eax],ecx

可以看到引用類型和指針類型操作編譯為匯編其實是基本一樣的，區別就在于指針類型變量所存儲的地址也可以進行算術運算

舉例：

int tmp = 10；
int* a = &tmp;
a++；
對應的匯編簡單來寫如下：
mov dword ptr [esp],0Ah;           將10存在棧中
lea eax,[esp]						取得tmp所在的地址
mov dword ptr [esp-4],eax					將tmp所在的地址存儲到棧中
mov eax,dword ptr [esp-4]		
add eax,4												此時加的不在是1而是當前指針所表示類型的大小
mov dowrd ptr [esp-4],eax

常量數據類型

常量類型表示在程序運行前便已久可以確認的數據，一般存儲在只讀數據區，這塊內存在頁的屬性上便是不可寫只可讀，所以對這段內存的寫操作都會拋出內存訪問異常。

常量舉例：如define所定義的常量，或者char* str = “ABC”;這種方式所定義的字符串。

注意const修飾符所修飾的變量并不意味著是在內存層面上的常量，他僅僅是編譯器會在編譯過程中進行檢測，在程序運行中完全可以通過取地址并修改的間接修改方式對其內存數據進行修改。

函數

在內存的識圖中并沒有函數這一個說法只存在段的層級每個段都有自己的內存屬性可讀可寫可執行等待，函數的目的便是能夠將某一段內存明確的用一種概念來分開，而不至于將全部的代碼片段都混雜在一段內存中而沒有明確的一個分界和定義。

函數簡單的來看便是將一塊代碼封裝到一起。下面直接反匯編一個函數的調用看一下

首先要說明的是ebp代表了棧底指針，esp代表了棧頂指針

c代碼

int test(int a,int b){
	return a+b;
}
int _tmain(int argc, _TCHAR* argv[])
{
	int a=10,b=1;
	int res = test(a,b);
	printf("%d",res);
	return 0;
}
簡單匯編代碼：
int test(int a,int b){
009D1A50  push        ebp  								//同樣是保存和初始化堆棧
009D1A51  mov         ebp,esp 
009D1A53  sub         esp,0C0h 
009D1A59  push        ebx  
009D1A5A  push        esi  
009D1A5B  push        edi  
009D1A5C  lea         edi,[ebp-0C0h] 			
009D1A62  mov         ecx,30h 
009D1A67  mov         eax,0CCCCCCCCh 
009D1A6C  rep stos    dword ptr es:[edi] 
	return a+b;
009D1A6E  mov         eax,dword ptr [a] 		//取出將a，b做合
009D1A71  add         eax,dword ptr [b] 		//此處的a是ebp+4h，b是ebp+8h
}
009D1A74  pop         edi  
009D1A75  pop         esi  
009D1A76  pop         ebx  
009D1A77  mov         esp,ebp 
009D1A79  pop         ebp  									//回退堆棧
009D1A7A  ret     													//返回
int _tmain(int argc, _TCHAR* argv[])
{
009D1AF0  push        ebp  								//保存ebp
009D1AF1  mov         ebp,esp 						//將棧底指向當前棧頂
009D1AF3  sub         esp,0E4h 						//提升堆棧
009D1AF9  push        ebx  								//保存寄存器
009D1AFA  push        esi  
009D1AFB  push        edi  
009D1AFC  lea         edi,[ebp-0E4h] 			//初始化堆棧內容
009D1B02  mov         ecx,39h 
009D1B07  mov         eax,0CCCCCCCCh 
009D1B0C  rep stos    dword ptr es:[edi] 
	int a=10,b=1;														//這里開始進入我們在main中寫的代碼
009D1B0E  mov         dword ptr [a],0Ah 	//a其實是ebp-4h，這里將10存入到ebp-4，也就是棧底的第																							一個4字節內存
009D1B15  mov         dword ptr [b],1 		//這里同上b是ebp-8h，將1放入棧底開始的第二個4字節中
	int res = test(a,b);										//下面要注意，下面壓棧是從esp開始壓棧，前面的通過ebp																					所操作的賦值語句是將內容存放到開始提升堆棧所占有的內存
009D1B1C  mov         eax,dword ptr [b] 	//這里是取出1到eax
009D1B1F  push        eax  								//將eax壓棧
009D1B20  mov         ecx,dword ptr [a] 	//取出10到ecx
009D1B23  push        ecx  								//ecx壓棧
009D1B24  call        func (9D126Ch) 			//調用我們的test方法此時可以看做一個																														jmp詳細的后續再講
009D1B29  add         esp,8 							//平衡傳入參數時提升的堆棧
009D1B2C  mov         dword ptr [res],eax //eax便是返回值
	printf("%d",res);
009D1B2F  mov         esi,esp 
009D1B31  mov         eax,dword ptr [res] 
009D1B34  push        eax  
009D1B35  push        offset string "%d" (9D774Ch) 
009D1B3A  call        dword ptr [__imp__printf (9DA40Ch)] 
009D1B40  add         esp,8 
009D1B43  cmp         esi,esp 
009D1B45  call        @ILT+435(__RTC_CheckEsp) (9D11B8h) 
	return 0;
009D1B4A  xor         eax,eax 
}

從上面的例子可見函數的調用便是從代碼段中的一塊跳轉到另一塊去執行，在執行結束后再返回，

函數的參數是通過棧來傳遞的，在函數結束后要重新保證棧回退到調用函數之前的狀態。

其次call命令可以分為兩個部分

壓入當前地址作為函數調用結束后回退時用
jmp到對應的位置（如果是跨段調用則是jmp far）

函數調用的約定分為三類

stdcall：標準的winapi調用約定平棧操作交給函數自行處理，通過ret arg來實現
cdecl：c語言調用約定，平棧操作交給調用方實現，也就是上面例子中的調用
fastcall：參數通過寄存器傳遞，如eax，ebx

結構體和類

結構體就是將一系列數據整合到一起的一塊內存，下面通過例子來看一下

struct test_struct{
	int a;
	char b;
	int c;
};
int _tmain(int argc, _TCHAR* argv[])
{
	struct test_struct s;
	s.a = 10;
	s.b = 11;
	s.c = 12;
	test(&s);
	return 0;
}

首先建立了一個結構體有三個參數

先來看一下結構體在內存中的存儲方式

int _tmain(int argc, _TCHAR* argv[])
{
。。。。。。。
	struct test_struct s;
	s.a = 10;
00E524DE  mov         dword ptr [s],0Ah 			//這里的s可以簡單看為ebp-4
	s.b = 11;
00E524E5  mov         byte ptr [ebp-0Ch],0Bh 
	s.c = 12;
00E524E9  mov         dword ptr [ebp-8],0Ch 
	test(&s);
00E524F0  lea         eax,[s] 						//lea為取地址的指令，前面我們也遇到過
00E524F3  push        eax  								//將這個地址作為參數傳遞
00E524F4  call        test (0E511B8h) 
00E524F9  add         esp,4 
	return 0;
00E524FC  xor         eax,eax 
。。。。。
}

可以看出來結構體在內存中的存儲方式便是將數據按順序排放在內存中并根據字段類型的大小計算偏移量來取得對應的字段內容

如果我們直接將struct關鍵字改為class看看會不會出錯

class test_struct{
public:
	int a;
	char b;
	int c;
};
void test(test_struct* s){
	printf("%d",s->a);
}
int _tmain(int argc, _TCHAR* argv[])
{
	test_struct s;
	s.a = 10;
	s.b = 11;
	s.c = 12;
	test(&s);
	return 0;
}

改后的代碼，完全可以運行

并且如果看返匯編的話會發現匯編代碼也沒有變化

下面我們將函數放到class中看一下匯編是否會有變化

class test_struct{
public:
	int a;
	char b;
	int c;
	
	void test(test_struct* s){
	printf("%d",s->a);
}
};
int _tmain(int argc, _TCHAR* argv[])
{
	test_struct s;
	s.a = 10;
	s.b = 11;
	s.c = 12;
	s.test(&s);
	return 0;
}
匯編只看main這部分的代碼
  int _tmain(int argc, _TCHAR* argv[])
{
。。。。。
	test_struct s;
	s.a = 10;
00D3339E  mov         dword ptr [s],0Ah 
	s.b = 11;
00D333A5  mov         byte ptr [ebp-0Ch],0Bh 
	s.c = 12;
00D333A9  mov         dword ptr [ebp-8],0Ch 
	s.test(&s);
00D333B0  lea         eax,[s] 
00D333B3  push        eax  
00D333B4  lea         ecx,[s] 
00D333B7  call        test_struct::test (0D311D6h) 
	return 0;
00D333BC  xor         eax,eax 
  。。。。。。。。
}

注意 lea ecx,[s] 這段代碼，這個ecx便是所謂的this指針，通過編譯器將結構體自己的地址作為參數傳入函數這樣就可以通過this符號訪問結構體自己了。其余的部分完全沒有變化，調用class的函數時也是通過地址調用的。

注意：數據在內存中的存儲還取決于數據對齊，這部分的知識在我前面的筆記中有詳細解析

面向對象的特性

面向對象的特性有

封裝
繼承
多態

封裝在上一塊我們已經看過了，便是將操作數據的算法和存放數據的結構體封裝到一起來調用，真正的實現通過編譯器來實現。

下面說一下

繼承

結構體

異常處理

字符編碼

計算機中的存儲是以字節為單位的，能反映的也僅僅是數字而已，為了能夠用數字將文字信息反映出來人們設計出了各種字符編碼表，將數字與文字對應。

1、ASCI編碼

1.原始Ascii編碼

原始ASCI使用1到127（0X00~0X7F）來對應常用的一些字母等文本，127到255則是擴展到一些不常用的類似于=號這種內容。

但原始ASCI所支持的字符僅僅能夠反映英文國家的使用場景。

2.ASCI擴展編碼

對于某些地區是無法用原始ASCI編碼來反映當地的語言的，所以就有了ASCI擴展編碼的這種形式。

擴展ASIC編碼將不常用的127到255的（0x80~0xFF）位置采用兩個數字對應一個文字的方式

如：可能128和129代表一個中，129和130代表一個國

呢么中國對應的編碼就是：0x 8081 8182

例如國內常用的GBK、GB2312和臺灣的big5等編碼方式都是采取的此類

但是這種編碼方式有一個問題，就是他占用了ASCI表的127到255的位置并且不同的地區這部分的編碼均不一樣，呢么國內的中文文件發到國外采用了不同的編碼去讀取則會出現亂碼

2、Unicode編碼

Unicode編碼就是為了解決ASCii擴展碼在不同地區的實現下解碼后對應不同的文字這個問題

Unicode編碼將全世界常用的符合都構建到一個表中，這個表的范圍是：0x10 FF FF到0
Unicode僅僅提供了一個表，他并沒有對存儲做過多的要求，而下面所說的utf-8和utf-16以及現在的utf-32則是對Unicode編碼存儲方式的不同實現

1.unicode編碼實現(utf-8)

utf-8較之utf-16在存儲上更為復雜，但是所占空間是更小的，這也是網絡傳輸大多為utf-8的格式的原因

存儲規則：

如果目標符合在Unicode中為：0到00007F則會被編碼為：0xxx xxxx

如果目標符合在Unicode中為：80到00007FF則會被編碼為：110xx xxx 10xx xxxx

如果目標符合在Unicode中為：800到00FFFF則會被編碼為：1110 xxxx 10xx xxxx 10xx xxxx

如果目標符合在Unicode中為：10000到10FFFF則會被編碼為：1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxx

2.unicode編碼實現(utf-16)

utf-16名如其意，就是以兩個byte為單位進行存儲。

舉例：如果說在Unicode編碼中中對應0x10 61 62

那么采用utf-16存儲在文件中的byte就是 0x 0010 6162

原文鏈接：https://blog.csdn.net/qq_43147121/article/details/127999220

上一篇：python使用Pyinstaller如何打包整個項目_py
下一篇：C++逆向分析移除鏈表元素實現方法詳解_C 語言

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁編程語言正文

C語言逆向分析語法超詳細分析_C 語言

目錄

基本數據類型

浮點數類型的存儲

字符類型的存儲

指針和引用類型

常量數據類型

函數

結構體和類

面向對象的特性

字符編碼

1、ASCI編碼

1.原始Ascii編碼

2.ASCI擴展編碼

2、Unicode編碼

1.unicode編碼實現(utf-8)

2.unicode編碼實現(utf-16)

相關推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網站首頁 編程語言 正文

C語言逆向分析語法超詳細分析_C 語言

目錄

基本數據類型

浮點數類型的存儲

字符類型的存儲

指針和引用類型

常量數據類型

函數

結構體和類

面向對象的特性

字符編碼

1、ASCI編碼

1.原始Ascii編碼

2.ASCI擴展編碼

2、Unicode編碼

1.unicode編碼實現(utf-8)

2.unicode編碼實現(utf-16)

相關推薦

網站首頁編程語言正文