Windows/Linux上使用fopen相关函数读取大文件
在介紹讀取大文件之前,先了解下<cstdint>文件,標(biāo)準(zhǔn)頭文件,存放固定寬度整數(shù)類型,如int32_t, uint32_t,不管在32位上還是64位上,長(zhǎng)度都為4個(gè)字節(jié);int64_t, uint64_t,不管在32位上還是64位上,長(zhǎng)度都為4個(gè)字節(jié)。對(duì)于int,無(wú)論在32位上還是在64位上,長(zhǎng)度都為4個(gè)字節(jié)。
對(duì)于long, long long, size_t類型,在windows和linux上會(huì)有所不同。以下是匯總:
使用fopen讀取大文件相關(guān)函數(shù)聲明如下:注意它們的參數(shù)類型和返回類型
FILE* fopen(const char* filename, const char* mode);
int fseek(FILE* stream, long int offset, int origin);
long int ftell(FILE* stream);
size_t fread(void* ptr, size_t size, size_t count, FILE* stream);
size_t fwrite(const void* ptr, size_t size, size_t count, FILE* stream);
int fclose ( FILE * stream );// only windows, __int64 == long long
int _fseeki64(FILE *stream, __int64 offset, int origin);
__int64 _ftelli64(FILE *stream);
現(xiàn)代的應(yīng)用程序都運(yùn)行在一個(gè)內(nèi)存空間里,在32位的系統(tǒng)里,這個(gè)內(nèi)存空間擁有4GB(2的32次方)的尋址能力。應(yīng)用程序可以直接使用32位的地址進(jìn)行尋址,這被稱為平坦(flat)的內(nèi)存模型。在平坦的內(nèi)存模型中,整個(gè)內(nèi)存是一個(gè)統(tǒng)一的地址空間,用戶可以使用一個(gè)32位的指針訪問(wèn)任意內(nèi)存位置。大多數(shù)操作系統(tǒng)都會(huì)將4GB的內(nèi)存空間中的一部分挪給內(nèi)核使用,應(yīng)用程序無(wú)法直接訪問(wèn)這一段內(nèi)存,這一部分內(nèi)存地址被稱為內(nèi)核空間。Windows在默認(rèn)情況下會(huì)將高地址的2GB空間分配給內(nèi)核(也可配置為1GB),而Linux默認(rèn)情況下將高地址的1GB空間分配給內(nèi)核。用戶使用的剩下2GB或3GB的內(nèi)存空間稱為用戶空間。因此在32位系統(tǒng)里,一次性加載大于2G或3G的文件,使用普通的方法是行不通的。在64位系統(tǒng)里則可以。
在windows上,要使用_fseeki64和_ftelli64函數(shù)替代fseek和ftell函數(shù),否則得到的值是無(wú)效的,因?yàn)閒seek和ftell的參數(shù)類型或返回類型為long,在windows上,無(wú)論是32位還是64位,long的長(zhǎng)度都為4個(gè)字節(jié),超出了所能接受的最大值范圍。執(zhí)行結(jié)果如下圖所示:以vs2013.5_pro_enu.iso為例,第1個(gè)窗口顯示的是此文件的真實(shí)值大小;第2窗口為32位上的執(zhí)行結(jié)果,第3個(gè)窗口為64位上執(zhí)行結(jié)果,可見(jiàn)使用_fseeki64和_ftelli64后,均可獲取到真實(shí)值大小。
在linux上,當(dāng)文件大于2G時(shí),在32位上,調(diào)用fopen函數(shù)會(huì)直接返回空。執(zhí)行結(jié)果如下圖所示:以Ubuntu_14_04_3.rar為例,第1個(gè)窗口顯示的是此文件的真實(shí)值大小;第2窗口為64位上的執(zhí)行結(jié)果,可見(jiàn)與真實(shí)值大小一致;第3個(gè)窗口為32位上執(zhí)行結(jié)果,大于2G文件,在32位上不能正常調(diào)用fopen函數(shù)。
測(cè)試代碼如下所示:
int test_load_big_file()
{fprintf(stdout, "int32_t: %d, uint32_t: %d\n", sizeof(int32_t), sizeof(uint32_t));fprintf(stdout, "int64_t: %d, uint64_t: %d\n", sizeof(int64_t), sizeof(uint64_t));fprintf(stdout, "int: %d\n", sizeof(int));fprintf(stdout, "long: %d, long long: %d, size_t: %d\n", sizeof(long), sizeof(long long), sizeof(size_t));#ifdef _MSC_VERconst char* name = "E:/GitCode/Messy_Test/testdata/test.tar";
#elseconst char* name = "testdata/test.tar";
#endifFILE* file = fopen(name, "rb");if (!file) {fprintf(stderr, "fail to open file: %s\n", name);return -1;}#ifdef _MSC_VERauto ret = _fseeki64(file, 0, SEEK_END);if (ret != 0) {fprintf(stderr, "fail to _fseeki64: %d\n", ret);return -1;}auto length = _ftelli64(file);fprintf(stdout, "file length: %lld\n", length);
#elseauto ret = fseek(file, 0, SEEK_END);if (ret != 0) {fprintf(stderr, "fail to _fseeki64: %d\n", ret);return -1;}auto length = ftell(file);fprintf(stdout, "file length: %lld\n", length);
#endiffclose(file);return 0;
}
如果對(duì)大文件可分塊處理,也可通過(guò)反復(fù)調(diào)用fread函數(shù)對(duì)大文件進(jìn)行操作。
除了使用fopen還可以使用std::ifstream。
GitHub:https://github.com/fengbingchun/Messy_Test
總結(jié)
以上是生活随笔為你收集整理的Windows/Linux上使用fopen相关函数读取大文件的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 在Ubuntu上编译opencv 2.4
- 下一篇: PyTorch简介