[编程技巧] 巧用CPU缓存优化代码:数组 vs. 链表
生活随笔
收集整理的這篇文章主要介紹了
[编程技巧] 巧用CPU缓存优化代码:数组 vs. 链表
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
一個常見的編程問題: 遍歷同樣大小的數(shù)組和鏈表, 哪個比較快? 如果按照大學(xué)教科書上的算法分析方法,你會得出結(jié)論,這2者一樣快, 因為時間復(fù)雜度都是 O(n)。 但是在實踐中, 這2者卻有極大的差異。?? 通過下面的分析你會發(fā)現(xiàn), 其實數(shù)組比鏈表要快很多。 首先介紹一個概念:memory hierarchy (存儲層次結(jié)構(gòu)),電腦中存在多種不同的存儲器,如下表 CPU 寄存器 – immediate access (0-1個CPU時鐘周期)?
CPU L1 緩存? – fast access (3個CPU時鐘周期)?
CPU L2 緩存 – slightly slower access (10個CPU時鐘周期)?
內(nèi)存 (RAM)?? – slow access (100個CPU時鐘周期)?
硬盤 (file system) – very slow (10,000,000個CPU時鐘周期)?
????? (數(shù)據(jù)來自?http://www.answers.com/topic/locality-of-reference) 各級別的存儲器速度差異非常大,CPU寄存器速度是內(nèi)存速度的100倍! 這就是為什么CPU產(chǎn)商發(fā)明了CPU緩存。 而這個CPU緩存,就是數(shù)組和鏈表的區(qū)別的關(guān)鍵所在。 CPU緩存會把一片連續(xù)的內(nèi)存空間讀入, 因為數(shù)組結(jié)構(gòu)是連續(xù)的內(nèi)存地址,所以數(shù)組全部或者部分元素被連續(xù)存在CPU緩存里面, 平均讀取每個元素的時間只要3個CPU時鐘周期。?? 而鏈表的節(jié)點是分散在堆空間里面的,這時候CPU緩存幫不上忙,只能是去讀取內(nèi)存,平均讀取時間需要100個CPU時鐘周期。 這樣算下來,數(shù)組訪問的速度比鏈表快33倍! (這里只是介紹概念,具體的數(shù)字因CPU而異) 因此,程序中盡量使用連續(xù)的數(shù)據(jù)結(jié)構(gòu),這樣可以充分發(fā)揮CPU緩存的威力。 這種對緩存友好的算法稱為 Cache-oblivious algorithm, 有興趣可以參考相關(guān)資料。再舉一個簡單例子: 對比 for i in 0..n
? for j in 0..m
??? for k in 0..p
????? C[i][j] = C[i][j] + A[i][k] * B[k][j];
和 for i in 0..n for k in 0..p
??? for j in 0..m
????? C[i][j] = C[i][j] + A[i][k] * B[k][j]; 雖然兩者執(zhí)行結(jié)果一樣,算法復(fù)雜度也一樣,但是你會發(fā)現(xiàn)第二種寫法要快很多。 總結(jié)一下, 各種存儲器的速度差異很大,在編程中絕對有必要考慮這個因素。 比如,內(nèi)存速度比硬盤快1萬倍,所以程序中應(yīng)該盡量避免頻繁的硬盤讀寫;CPU緩存比內(nèi)存快幾十倍,在程序中盡量多加利用。
本文轉(zhuǎn)自 陳本峰 51CTO博客,原文鏈接:http://blog.51cto.com/wingeek/274006,如需轉(zhuǎn)載請自行聯(lián)系原作者
CPU L1 緩存? – fast access (3個CPU時鐘周期)?
CPU L2 緩存 – slightly slower access (10個CPU時鐘周期)?
內(nèi)存 (RAM)?? – slow access (100個CPU時鐘周期)?
硬盤 (file system) – very slow (10,000,000個CPU時鐘周期)?
????? (數(shù)據(jù)來自?http://www.answers.com/topic/locality-of-reference) 各級別的存儲器速度差異非常大,CPU寄存器速度是內(nèi)存速度的100倍! 這就是為什么CPU產(chǎn)商發(fā)明了CPU緩存。 而這個CPU緩存,就是數(shù)組和鏈表的區(qū)別的關(guān)鍵所在。 CPU緩存會把一片連續(xù)的內(nèi)存空間讀入, 因為數(shù)組結(jié)構(gòu)是連續(xù)的內(nèi)存地址,所以數(shù)組全部或者部分元素被連續(xù)存在CPU緩存里面, 平均讀取每個元素的時間只要3個CPU時鐘周期。?? 而鏈表的節(jié)點是分散在堆空間里面的,這時候CPU緩存幫不上忙,只能是去讀取內(nèi)存,平均讀取時間需要100個CPU時鐘周期。 這樣算下來,數(shù)組訪問的速度比鏈表快33倍! (這里只是介紹概念,具體的數(shù)字因CPU而異) 因此,程序中盡量使用連續(xù)的數(shù)據(jù)結(jié)構(gòu),這樣可以充分發(fā)揮CPU緩存的威力。 這種對緩存友好的算法稱為 Cache-oblivious algorithm, 有興趣可以參考相關(guān)資料。再舉一個簡單例子: 對比 for i in 0..n
? for j in 0..m
??? for k in 0..p
????? C[i][j] = C[i][j] + A[i][k] * B[k][j];
和 for i in 0..n for k in 0..p
??? for j in 0..m
????? C[i][j] = C[i][j] + A[i][k] * B[k][j]; 雖然兩者執(zhí)行結(jié)果一樣,算法復(fù)雜度也一樣,但是你會發(fā)現(xiàn)第二種寫法要快很多。 總結(jié)一下, 各種存儲器的速度差異很大,在編程中絕對有必要考慮這個因素。 比如,內(nèi)存速度比硬盤快1萬倍,所以程序中應(yīng)該盡量避免頻繁的硬盤讀寫;CPU緩存比內(nèi)存快幾十倍,在程序中盡量多加利用。
本文轉(zhuǎn)自 陳本峰 51CTO博客,原文鏈接:http://blog.51cto.com/wingeek/274006,如需轉(zhuǎn)載請自行聯(lián)系原作者
總結(jié)
以上是生活随笔為你收集整理的[编程技巧] 巧用CPU缓存优化代码:数组 vs. 链表的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 正态随机分布 C++实现
- 下一篇: 升级Win10后windows.old删