日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > java >内容正文

java

多线程处理大文件_Java内存映射,上G大文件轻松处理

發布時間:2025/3/20 java 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多线程处理大文件_Java内存映射,上G大文件轻松处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? 免費CSDN資料幫下服務 | 免費加群 ?

內存映射文件(Memory-mapped File),指的是將一段虛擬內存逐字節映射于一個文件,使得應用程序處理文件如同訪問主內存(但在真正使用到這些數據前卻不會消耗物理內存,也不會有讀寫磁盤的操作),這要比直接文件讀寫快幾個數量級。

稍微解釋一下虛擬內存(很明顯,不是物理內存),它是計算機系統內存管理的一種技術。像施了妖法一樣使得應用程序認為它擁有連續的可用的內存,實際上呢,它通常是被分隔成多個物理內存的碎片,還有部分暫時存儲在外部磁盤存儲器上,在需要時進行數據交換。

內存映射文件主要的用處是增加 I/O 性能,特別是針對大文件。對于小文件,內存映射文件反而會導致碎片空間的浪費,因為內存映射總是要對齊頁邊界,最小單位是 4 KiB,一個 5 KiB 的文件將會映射占用 8 KiB 內存,也就會浪費 3 KiB 內存。

java.nio 包使得內存映射變得非常簡單,其中的核心類叫做 MappedByteBuffer,字面意思為映射的字節緩沖區。

01、使用 MappedByteBuffer 讀取文件

假設現在有一個文件,名叫 cmower.txt,里面的內容是:

沉默王二,一個有趣的程序員

PS:哎,改不了王婆賣瓜自賣自夸這個臭毛病了,因為文章被盜得都怕了。

這個文件放在 /resource 目錄下,我們可以通過下面的方法獲取到它:

ClassLoader?classLoader?=?Cmower.class.getClassLoader();
Path?path?=?Paths.get(classLoader.getResource("cmower.txt").getPath());

Path 既可以表示一個目錄,也可以表示一個文件,就像 File 那樣——當然了,Path 是用來取代 File 的。

然后,從文件中獲取一個 channel(通道,對磁盤文件的一種抽象)。

FileChannel?fileChannel?=?FileChannel.open(path);

緊接著,調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer,此類擴展了 ByteBuffer——提供了一些內存映射文件的基本操作方法。

MappedByteBuffer?mappedByteBuffer?=?fileChannel.map(mode,?position,?size);

稍微解釋一下 map 方法的三個參數。

1)mode 為文件映射模式,分為三種:

  • MapMode.READ_ONLY(只讀),任何試圖修改緩沖區的操作將導致拋出 ReadOnlyBufferException 異常。

  • MapMode.READ_WRITE(讀/寫),任何對緩沖區的更改都會在某個時刻寫入文件中。需要注意的是,其他映射同一個文件的程序可能不能立即看到這些修改,多個程序同時進行文件映射的行為依賴于操作系統。

  • MapMode.PRIVATE(私有), 對緩沖區的更改不會被寫入到該文件,任何修改對這個緩沖區來說都是私有的。

2)position 為文件映射時的起始位置。

3)size 為要映射的區域的大小,必須是非負數,不得大于Integer.MAX_VALUE。

一旦把文件映射到內存緩沖區,我們就可以把里面的數據讀入到 CharBuffer 中并打印出來。具體的代碼示例如下。

CharBuffer?charBuffer?=?null;
ClassLoader?classLoader?=?Cmower.class.getClassLoader();
Path?path?=?Paths.get(classLoader.getResource("cmower.txt").getPath());
try?(FileChannel?fileChannel?=?FileChannel.open(path))?{
????MappedByteBuffer?mappedByteBuffer?=?fileChannel.map(MapMode.READ_ONLY,?0,?fileChannel.size());

????if?(mappedByteBuffer?!=?null)?{
????????charBuffer?=?Charset.forName("UTF-8").decode(mappedByteBuffer);
????}

????System.out.println(charBuffer.toString());
}?catch?(IOException?e)?{
????e.printStackTrace();
}

由于 decode() 方法的參數是 MappedByteBuffer,這就意味著我們是從內存中而不是磁盤中讀入的文件內容,所以速度會非常快。

02、使用 MappedByteBuffer 寫入文件

假設現在要把下面的內容寫入到一個文件,名叫 cmower1.txt。

沉默王二,《Web全棧開發進階之路》作者

這個文件還沒有創建,計劃放在項目的 classpath 目錄下。

?Path?path?=?Paths.get("cmower1.txt");

具體位置見下圖所示。

然后,創建文件的通道。

FileChannel?fileChannel?=?FileChannel.open(path,?StandardOpenOption.READ,?StandardOpenOption.WRITE,
????????????????StandardOpenOption.TRUNCATE_EXISTING)

仍然使用的 open 方法,不過增加了 3 個參數,前 2 個很好理解,表示文件可讀(READ)、可寫(WRITE);第 3 個參數 TRUNCATE_EXISTING 的意思是如果文件已經存在,并且文件已經打開將要進行 WRITE 操作,則其長度被截斷為 0。

緊接著,仍然調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer。

?MappedByteBuffer?mappedByteBuffer?=?fileChannel.map(MapMode.READ_WRITE,?0,?1024);

這一次,我們把模式調整為 MapMode.READ_WRITE,并且指定文件大小為 1024,即 1KB 的大小。然后使用 MappedByteBuffer 中的 put() 方法將 CharBuffer 的內容保存到文件中。具體的代碼示例如下。

CharBuffer?charBuffer?=?CharBuffer.wrap("沉默王二,《Web全棧開發進階之路》作者");

Path?path?=?Paths.get("cmower1.txt");

try?(FileChannel?fileChannel?=?FileChannel.open(path,?StandardOpenOption.READ,?StandardOpenOption.WRITE,
????????StandardOpenOption.TRUNCATE_EXISTING))?{
????MappedByteBuffer?mappedByteBuffer?=?fileChannel.map(MapMode.READ_WRITE,?0,?1024);

????if?(mappedByteBuffer?!=?null)?{
????????mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer));
????}

}?catch?(IOException?e)?{
????e.printStackTrace();
}

可以打開 cmower1.txt 查看一下內容,確認預期的內容有沒有寫入成功。

03、MappedByteBuffer 的遺憾

據說,在 Java 中使用 MappedByteBuffer 是一件非常麻煩并且痛苦的事,主要表現有:

1)一次 map 的大小最好限制在 1.5G 左右,重復 map 會增加虛擬內存回收和重新分配的壓力。也就是說,如果文件大小不確定的話,就不太友好。

2)虛擬內存由操作系統來決定什么時候刷新到磁盤,這個時間不太容易被程序控制。

3)MappedByteBuffer 的回收方式比較詭異。

再次強調,這三種說法都是據說,我暫時能力有限,也不能確定這種說法的準確性,很遺憾。

04、比較文件操作的處理時間

嗨,朋友,閱讀完以上的內容之后,我想你一定對內存映射文件有了大致的了解。但我相信,如果你是一名負責任的程序員,你一定還想知道:內存映射文件的讀取速度究竟有多快。

為了得出結論,我叫了另外三名競賽的選手:InputStream(普通輸入流)、BufferedInputStream(帶緩沖的輸入流)、RandomAccessFile(隨機訪問文件)。

讀取的對象是加勒比海盜4驚濤怪浪.mkv,大小為 1.71G。

1)普通輸入流

public?static?void?inputStream(Path?filename)?{
????try?(InputStream?is?=?Files.newInputStream(filename))?{
????????int?c;
????????while((c?=?is.read())?!=?-1)?{

????????}
????}?catch?(IOException?e)?{
????????e.printStackTrace();
????}
}

2)帶緩沖的輸入流

public?static?void?bufferedInputStream(Path?filename)?{
????try?(InputStream?is?=?new?BufferedInputStream(Files.newInputStream(filename)))?{
????????int?c;
????????while((c?=?is.read())?!=?-1)?{

????????}
????}?catch?(IOException?e)?{
????????e.printStackTrace();
????}
}

3)隨機訪問文件

public?static?void?randomAccessFile(Path?filename)?{
????try?(RandomAccessFile?randomAccessFile??=?new?RandomAccessFile(filename.toFile(),?"r"))?{
????????for?(long?i?=?0;?i?????????????randomAccessFile.seek(i);
????????}
????}?catch?(IOException?e)?{
????????e.printStackTrace();
????}
}

4)內存映射文件

public?static?void?mappedFile(Path?filename)?{
????try?(FileChannel?fileChannel?=?FileChannel.open(filename))?{
????????long?size?=?fileChannel.size();
????????MappedByteBuffer?mappedByteBuffer?=?fileChannel.map(MapMode.READ_ONLY,?0,?size);
????????for?(int?i?=?0;?i?????????????mappedByteBuffer.get(i);
????????}
????}?catch?(IOException?e)?{
????????e.printStackTrace();
????}
}

測試程序也很簡單,大致如下:

long?start?=?System.currentTimeMillis();
bufferedInputStream(Paths.get("jialebi.mkv"));
long?end?=?System.currentTimeMillis();
System.out.println(end-start);

四名選手的結果如下表所示。

方法時間
普通輸入流龜速,沒有耐心等出結果
隨機訪問文件龜速,沒有耐心等下去
帶緩沖的輸入流29966
內存映射文件914

普通輸入流和隨機訪問文件都慢得要命,真的是龜速,我沒有耐心等待出結果;帶緩沖的輸入流的表現還不錯,但相比內存映射文件就遜色多了。由此得出的結論就是:內存映射文件,上G大文件輕松處理

05、最后

本篇文章主要介紹了 Java 的內存映射文件,MappedByteBuffer 是其靈魂,讀取速度快如火箭。另外,所有這些示例和代碼片段都可以在 GitHub(地址如下)上找到——這是一個 Maven 項目,所以它很容易導入和運行。

https://github.com/qinggee/java

精彩回顧:

Java 代碼界 3% 的王者?看我是如何解錯這 5 道題的

Java:控制反轉(IoC)與依賴注入(DI)

Java:前程似錦的 NIO 2.0

< END >

喜歡就點個在看 or 轉發朋友圈,這將是我最強的寫作動力。關注公眾號后回復「2048」,即可免費獲取「程序員進階必讀資料包」!!

沉默王二,一個有趣的程序員

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的多线程处理大文件_Java内存映射,上G大文件轻松处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。