大数据量下的sort
生活随笔
收集整理的這篇文章主要介紹了
大数据量下的sort
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
http://blog.chinaunix.net/uid-23586172-id-3349317.html
sort在linux命令行下面是一個(gè)非常好用的工具,有人把它當(dāng)做每個(gè)程序員都應(yīng)該知道的8個(gè)Linux命令之一,http://news.cnblogs.com/n/157504/?。最近在處理大數(shù)據(jù)的時(shí)候發(fā)現(xiàn)兩點(diǎn)。
1. 用sort -u 而不是sort|uniq。? sort應(yīng)該是按照歸并的思想來(lái)的,先分成一個(gè)個(gè)小文件,排序后再組合成最后拍好序的文件。所以,sort -u 要比sort | uniq 快。因?yàn)樵皆缛コ切┫嗤脑?#xff0c;肯定是對(duì)后面歸并的速度有好處的。 具體的測(cè)試如下:
2.更換sort的臨時(shí)文件生成目錄。 上面所說(shuō)的sort的臨時(shí)小文件是默認(rèn)放在/tmp路徑下的,有時(shí)候/tmp的空間有限制,比如4G,那么,超過(guò)4G的文件就沒(méi)有辦法用sort了。可以用sort -T?Path?來(lái)臨時(shí)文件的目錄。不用擔(dān)心,歸并完以后小文件會(huì)自動(dòng)刪除的。
3. 按鍵值排序 這點(diǎn)其實(shí)跟大數(shù)據(jù)量有多大關(guān)系,而是很好用,sort -k 按照鍵值來(lái)排序。
總結(jié)
以上是生活随笔為你收集整理的大数据量下的sort的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: windows7出现MTP usb设备驱
- 下一篇: 如何设置win7 锁屏不断网