當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

海量数据处理分析(部分)

發(fā)布時間：2023/12/10 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了海量数据处理分析(部分) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019獨角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

1. 海量數(shù)據(jù)處理分析??? 原文地址：

http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx

筆者在實際工作中，有幸接觸到海量的數(shù)據(jù)處理問題，對其進行處理是一項艱巨而復(fù)雜的任務(wù)。原因有以

下幾個方面：
一、數(shù)據(jù)量過大，數(shù)據(jù)中什么情況都可能存在。如果說有10條數(shù)據(jù)，那么大不了每條去逐一檢查，人為處

理，如果有上百條數(shù)據(jù)，也可以考慮，如果數(shù)據(jù)上到千萬級別，甚至過億，那不是手工能解決的了，必須

通過工具或者程序進行處理，尤其海量的數(shù)據(jù)中，什么情況都可能存在，例如，數(shù)據(jù)中某處格式出了問題

，尤其在程序處理時，前面還能正常處理，突然到了某個地方問題出現(xiàn)了，程序終止了。
二、軟硬件要求高，系統(tǒng)資源占用率高。對海量的數(shù)據(jù)進行處理，除了好的方法，最重要的就是合理使用

工具，合理分配系統(tǒng)資源。一般情況，如果處理的數(shù)據(jù)過TB級，小型機是要考慮的，普通的機子如果有好

的方法可以考慮，不過也必須加大CPU和內(nèi)存，就象面對著千軍萬馬，光有勇氣沒有一兵一卒是很難取勝

的。
三、要求很高的處理方法和技巧。這也是本文的寫作目的所在，好的處理方法是一位工程師長期工作經(jīng)驗

的積累，也是個人的經(jīng)驗的總結(jié)。沒有通用的處理方法，但有通用的原理和規(guī)則。
那么處理海量數(shù)據(jù)有哪些經(jīng)驗和技巧呢，我把我所知道的羅列一下，以供大家參考：
一、選用優(yōu)秀的數(shù)據(jù)庫工具
現(xiàn)在的數(shù)據(jù)庫工具廠家比較多，對海量數(shù)據(jù)的處理對所使用的數(shù)據(jù)庫工具要求比較高，一般使用Oracle或

者DB2，微軟公司最近發(fā)布的SQL Server 2005性能也不錯。另外在BI領(lǐng)域：數(shù)據(jù)庫，數(shù)據(jù)倉庫，多維數(shù)據(jù)

庫，數(shù)據(jù)挖掘等相關(guān)工具也要進行選擇，象好的ETL工具和好的OLAP工具都十分必要，例如Informatic，

Eassbase等。筆者在實際數(shù)據(jù)分析項目中，對每天6000萬條的日志數(shù)據(jù)進行處理，使用SQL Server 2000

需要花費6小時，而使用SQL Server 2005則只需要花費3小時。
二、編寫優(yōu)良的程序代碼
處理數(shù)據(jù)離不開優(yōu)秀的程序代碼，尤其在進行復(fù)雜數(shù)據(jù)處理時，必須使用程序。好的程序代碼對數(shù)據(jù)的處

理至關(guān)重要，這不僅僅是數(shù)據(jù)處理準(zhǔn)確度的問題，更是數(shù)據(jù)處理效率的問題。良好的程序代碼應(yīng)該包含好

的算法，包含好的處理流程，包含好的效率，包含好的異常處理機制等。
三、對海量數(shù)據(jù)進行分區(qū)操作
對海量數(shù)據(jù)進行分區(qū)操作十分必要，例如針對按年份存取的數(shù)據(jù)，我們可以按年進行分區(qū)，不同的數(shù)據(jù)庫

有不同的分區(qū)方式，不過處理機制大體相同。例如SQL Server的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文

件組下，而不同的文件組存于不同的磁盤分區(qū)下，這樣將數(shù)據(jù)分散開，減小磁盤I/O，減小了系統(tǒng)負荷，

而且還可以將日志，索引等放于不同的分區(qū)下。
四、建立廣泛的索引
對海量的數(shù)據(jù)處理，對大表建立索引是必行的，建立索引要考慮到具體情況，例如針對大表的分組、排序

等字段，都要建立相應(yīng)索引，一般還可以建立復(fù)合索引，對經(jīng)常插入的表則建立索引時要小心，筆者在處

理數(shù)據(jù)時，曾經(jīng)在一個ETL流程中，當(dāng)插入表時，首先刪除索引，然后插入完畢，建立索引，并實施聚合

操作，聚合完成后，再次插入前還是刪除索引，所以索引要用到好的時機，索引的填充因子和聚集、非聚

集索引都要考慮。
五、建立緩存機制
當(dāng)數(shù)據(jù)量增加時，一般的處理工具都要考慮到緩存問題。緩存大小設(shè)置的好差也關(guān)系到數(shù)據(jù)處理的成敗，

例如，筆者在處理2億條數(shù)據(jù)聚合操作時，緩存設(shè)置為100000條/Buffer，這對于這個級別的數(shù)據(jù)量是可行

的。
六、加大虛擬內(nèi)存
如果系統(tǒng)資源有限，內(nèi)存提示不足，則可以靠增加虛擬內(nèi)存來解決。筆者在實際項目中曾經(jīng)遇到針對18億

條的數(shù)據(jù)進行處理，內(nèi)存為1GB，1個P4 2.4G的CPU，對這么大的數(shù)據(jù)量進行聚合操作是有問題的，提示內(nèi)

存不足，那么采用了加大虛擬內(nèi)存的方法來解決，在6塊磁盤分區(qū)上分別建立了6個4096M的磁盤分區(qū)，用

于虛擬內(nèi)存，這樣虛擬的內(nèi)存則增加為 4096*6 + 1024 = 25600 M，解決了數(shù)據(jù)處理中的內(nèi)存不足問題。
七、分批處理?
海量數(shù)據(jù)處理難因為數(shù)據(jù)量大，那么解決海量數(shù)據(jù)處理難的問題其中一個技巧是減少數(shù)據(jù)量。可以對海量

數(shù)據(jù)分批處理，然后處理后的數(shù)據(jù)再進行合并操作，這樣逐個擊破，有利于小數(shù)據(jù)量的處理，不至于面對

大數(shù)據(jù)量帶來的問題，不過這種方法也要因時因勢進行，如果不允許拆分數(shù)據(jù)，還需要另想辦法。不過一

般的數(shù)據(jù)按天、按月、按年等存儲的，都可以采用先分后合的方法，對數(shù)據(jù)進行分開處理。
八、使用臨時表和中間表
數(shù)據(jù)量增加時，處理中要考慮提前匯總。這樣做的目的是化整為零，大表變小表，分塊處理完成后，再利

用一定的規(guī)則進行合并，處理過程中的臨時表的使用和中間結(jié)果的保存都非常重要，如果對于超海量的數(shù)

據(jù)，大表處理不了，只能拆分為多個小表。如果處理過程中需要多步匯總操作，可按匯總步驟一步步來，

不要一條語句完成，一口氣吃掉一個胖子。
九、優(yōu)化查詢SQL語句
在對海量數(shù)據(jù)進行查詢處理過程中，查詢的SQL語句的性能對查詢效率的影響是非常大的，編寫高效優(yōu)良

的SQL腳本和存儲過程是數(shù)據(jù)庫工作人員的職責(zé)，也是檢驗數(shù)據(jù)庫工作人員水平的一個標(biāo)準(zhǔn)，在對SQL語句

的編寫過程中，例如減少關(guān)聯(lián)，少用或不用游標(biāo)，設(shè)計好高效的數(shù)據(jù)庫表結(jié)構(gòu)等都十分必要。筆者在工作

中試著對1億行的數(shù)據(jù)使用游標(biāo)，運行3個小時沒有出結(jié)果，這是一定要改用程序處理了。
十、使用文本格式進行處理
對一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫，如果對復(fù)雜的數(shù)據(jù)處理，必須借助程序，那么在程序操作數(shù)據(jù)庫和程

序操作文本之間選擇，是一定要選擇程序操作文本的，原因為：程序操作文本速度快；對文本進行處理不

容易出錯；文本的存儲不受限制等。例如一般的海量的網(wǎng)絡(luò)日志都是文本格式或者csv格式（文本格式）

，對它進行處理牽扯到數(shù)據(jù)清洗，是要利用程序進行處理的，而不建議導(dǎo)入數(shù)據(jù)庫再做清洗。
十一、?????? 定制強大的清洗規(guī)則和出錯處理機制
海量數(shù)據(jù)中存在著不一致性，極有可能出現(xiàn)某處的瑕疵。例如，同樣的數(shù)據(jù)中的時間字段，有的可能為非

標(biāo)準(zhǔn)的時間，出現(xiàn)的原因可能為應(yīng)用程序的錯誤，系統(tǒng)的錯誤等，這是在進行數(shù)據(jù)處理時，必須制定強大

的數(shù)據(jù)清洗規(guī)則和出錯處理機制。
十二、?????? 建立視圖或者物化視圖
視圖中的數(shù)據(jù)來源于基表，對海量數(shù)據(jù)的處理，可以將數(shù)據(jù)按一定的規(guī)則分散到各個基表中，查詢或處理

過程中可以基于視圖進行，這樣分散了磁盤I/O，正如10根繩子吊著一根柱子和一根吊著一根柱子的區(qū)別

。
十三、?????? 避免使用32位機子（極端情況）
目前的計算機很多都是32位的，那么編寫的程序?qū)?nèi)存的需要便受限制，而很多的海量數(shù)據(jù)處理是必須大

量消耗內(nèi)存的，這便要求更好性能的機子，其中對位數(shù)的限制也十分重要。
十四、?????? 考慮操作系統(tǒng)問題
海量數(shù)據(jù)處理過程中，除了對數(shù)據(jù)庫，處理程序等要求比較高以外，對操作系統(tǒng)的要求也放到了重要的位

置，一般是必須使用服務(wù)器的，而且對系統(tǒng)的安全性和穩(wěn)定性等要求也比較高。尤其對操作系統(tǒng)自身的緩

存機制，臨時空間的處理等問題都需要綜合考慮。
十五、?????? 使用數(shù)據(jù)倉庫和多維數(shù)據(jù)庫存儲
數(shù)據(jù)量加大是一定要考慮OLAP的，傳統(tǒng)的報表可能5、6個小時出來結(jié)果，而基于Cube的查詢可能只需要幾

分鐘，因此處理海量數(shù)據(jù)的利器是OLAP多維分析，即建立數(shù)據(jù)倉庫，建立多維數(shù)據(jù)集，基于多維數(shù)據(jù)集進

行報表展現(xiàn)和數(shù)據(jù)挖掘等。
十六、?????? 使用采樣數(shù)據(jù)，進行數(shù)據(jù)挖掘
基于海量數(shù)據(jù)的數(shù)據(jù)挖掘正在逐步興起，面對著超海量的數(shù)據(jù)，一般的挖掘軟件或算法往往采用數(shù)據(jù)抽樣

的方式進行處理，這樣的誤差不會很高，大大提高了處理效率和處理的成功率。一般采樣時要注意數(shù)據(jù)的

完整性和，防止過大的偏差。筆者曾經(jīng)對1億2千萬行的表數(shù)據(jù)進行采樣，抽取出400萬行，經(jīng)測試軟件測

試處理的誤差為千分之五，客戶可以接受。
還有一些方法，需要在不同的情況和場合下運用，例如使用代理鍵等操作，這樣的好處是加快了聚合時間

，因為對數(shù)值型的聚合比對字符型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數(shù)據(jù)是發(fā)展趨勢，對數(shù)據(jù)分析和挖掘也越來越重要，從海量數(shù)據(jù)中提取有用信息重要而緊迫，這便要

求處理要準(zhǔn)確，精度要高，而且處理時間要短，得到有價值信息要快，所以，對海量數(shù)據(jù)的研究很有前途

，也很值得進行廣泛深入的研究。

2.? 海量數(shù)據(jù)的查詢優(yōu)化及分頁算法方案

很多人不知道SQL語句在SQL SERVER中是如何執(zhí)行的,他們擔(dān)心自己所寫的SQL語句會被SQL SERVER誤解。中國自學(xué)編程網(wǎng)提供 www.zxbc.cn 比如：?
select * from table1 where name=’zhangsan’ and tID > 10000?
　和執(zhí)行:?
select * from table1 where tID > 10000 and name=’zhangsan’?
　　一些人不知道以上兩條語句的執(zhí)行效率是否一樣,因為如果簡單的從語句先后上看,這兩個語句的確是不一樣,如果tID是一個聚合索引,那么后一句僅僅從表的10000條以后的記錄中查找就行了；而前一句則要先從全表中查找看有幾個name=’zhangsan’的,而后再根據(jù)限制條件條件tID>10000來提出查詢結(jié)果。?
　　事實上,這樣的擔(dān)心是不必要的。SQL SERVER中有一個“查詢分析優(yōu)化器”,它可以計算出where子句中的搜索條件并確定哪個索引能縮小表掃描的搜索空間,也就是說,它能實現(xiàn)自動優(yōu)化。?
　　雖然查詢優(yōu)化器可以根據(jù)where子句自動的進行查詢優(yōu)化,但大家仍然有必要了解一下“查詢優(yōu)化器”的工作原理,如非這樣,有時查詢優(yōu)化器就會不按照您的本意進行快速查詢。?
　　在查詢分析階段,查詢優(yōu)化器查看查詢的每個階段并決定限制需要掃描的數(shù)據(jù)量是否有用。如果一個階段可以被用作一個掃描參數(shù)(SARG）,那么就稱之為可優(yōu)化的,并且可以利用索引快速獲得所需數(shù)據(jù)。?
　　SARG的定義：用于限制搜索的一個操作,因為它通常是指一個特定的匹配,一個值得范圍內(nèi)的匹配或者兩個以上條件的AND連接。形式如下：?
列名操作符 <常數(shù) 或變量>?
或?
<常數(shù) 或變量> 操作符列名?
　　列名可以出現(xiàn)在操作符的一邊,而常數(shù)或變量出現(xiàn)在操作符的另一邊。如：?
Name=’張三’?
價格>5000?
5000<價格?
Name=’張三’ and 價格>5000?
　　如果一個表達式不能滿足SARG的形式,那它就無法限制搜索的范圍了,也就是SQL SERVER必須對每一行都判斷它是否滿足WHERE子句中的所有條件。所以一個索引對于不滿足SARG形式的表達式來說是無用的。?
　　介紹完SARG后,我們來總結(jié)一下使用SARG以及在實踐中遇到的和某些資料上結(jié)論不同的經(jīng)驗：

　　1、Like語句是否屬于SARG取決于所使用的通配符的類型

　　如：name like ‘張%’ ,這就屬于SARG

　　而：name like ‘%張’ ,就不屬于SARG。

　　原因是通配符%在字符串的開通使得索引無法使用。

　　2、or 會引起全表掃描

Name=’張三’ and 價格>5000 符號SARG,而：Name=’張三’ or 價格>5000 則不符合SARG。使用or會引起全表掃描。

　　3、非操作符、函數(shù)引起的不滿足SARG形式的語句

　　不滿足SARG形式的語句最典型的情況就是包括非操作符的語句,如：NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等,另外還有函數(shù)。下面就是幾個不滿足SARG形式的例子：

ABS(價格)<5000

Name like ‘%三’

　　有些表達式,如：

WHERE 價格*2>5000

　　SQL SERVER也會認為是SARG,SQL SERVER會將此式轉(zhuǎn)化為：

WHERE 價格>2500/2 [Page]

　　但我們不推薦這樣使用,因為有時SQL SERVER不能保證這種轉(zhuǎn)化與原始表達式是完全等價的。

　　4、IN 的作用相當(dāng)與OR

　　語句：

Select * from table1 where tid in (2,3)

　　和

Select * from table1 where tid=2 or tid=3

　　是一樣的,都會引起全表掃描,如果tid上有索引,其索引也會失效。

　　5、盡量少用NOT

　　6、exists 和 in 的執(zhí)行效率是一樣的

　　很多資料上都顯示說,exists要比in的執(zhí)行效率要高,同時應(yīng)盡可能的用not exists來代替not in。但事實上,我試驗了一下,發(fā)現(xiàn)二者無論是前面帶不帶not,二者之間的執(zhí)行效率都是一樣的。因為涉及子查詢,我們試驗這次用SQL SERVER自帶的pubs數(shù)據(jù)庫。運行前我們可以把SQL SERVER的statistics I/O狀態(tài)打開。

　　(1）select title,price from titles where title_id in (select title_id from sales where qty>30)

　　該句的執(zhí)行結(jié)果為：

　　表 ’sales’。掃描計數(shù) 18,邏輯讀 56 次,物理讀 0 次,預(yù)讀 0 次。

　　表 ’titles’。掃描計數(shù) 1,邏輯讀 2 次,物理讀 0 次,預(yù)讀 0 次。

　　(2）select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)

　　第二句的執(zhí)行結(jié)果為：

　　表 ’sales’。掃描計數(shù) 18,邏輯讀 56 次,物理讀 0 次,預(yù)讀 0 次。

　　表 ’titles’。掃描計數(shù) 1,邏輯讀 2 次,物理讀 0 次,預(yù)讀 0 次。

　　我們從此可以看到用exists和用in的執(zhí)行效率是一樣的。

　　7、用函數(shù)charindex()和前面加通配符%的LIKE執(zhí)行效率一樣

　　前面,我們談到,如果在LIKE前面加上通配符%,那么將會引起全表掃描,所以其執(zhí)行效率是低下的。但有的資料介紹說,用函數(shù)charindex()來代替LIKE速度會有大的提升,經(jīng)我試驗,發(fā)現(xiàn)這種說明也是錯誤的：

select gid,title,fariqi,reader from tgongwen where charindex(’刑偵支隊’,reader)>0 and fariqi>’2004-5-5’

　　用時：7秒,另外：掃描計數(shù) 4,邏輯讀 7155 次,物理讀 0 次,預(yù)讀 0 次

select gid,title,fariqi,reader from tgongwen where reader like ’%’ + ’刑偵支隊’ + ’%’ and fariqi>’2004-5-5’

　　用時：7秒,另外：掃描計數(shù) 4,邏輯讀 7155 次,物理讀 0 次,預(yù)讀 0 次。

　　8、union并不絕對比or的執(zhí)行效率高

　　我們前面已經(jīng)談到了在where子句中使用or會引起全表掃描,一般的,我所見過的資料都是推薦這里用union來代替or。事實證明,這種說法對于大部分都是適用的。 [Page]

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or gid>9990000

　　用時：68秒。掃描計數(shù) 1,邏輯讀 404008 次,物理讀 283 次,預(yù)讀 392163 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’?

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

　　用時：9秒。掃描計數(shù) 8,邏輯讀 67489 次,物理讀 216 次,預(yù)讀 7499 次。

　　看來,用union在通常情況下比用or的效率要高的多。

　　但經(jīng)過試驗,筆者發(fā)現(xiàn)如果or兩邊的查詢列是一樣的話,那么用union則反倒和用or的執(zhí)行速度差很多,雖然這里union掃描的是索引,而or掃描的是全表。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or fariqi=’2004-2-5’

　　用時：6423毫秒。掃描計數(shù) 2,邏輯讀 14726 次,物理讀 1 次,預(yù)讀 7176 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’?

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where??? fariqi=’2004-2-5’

　　用時：11640毫秒。掃描計數(shù) 8,邏輯讀 14806 次,物理讀 108 次,預(yù)讀 1144 次。

　　9、字段提取要按照“需多少、提多少”的原則,避免“select *”

　　我們來做一個試驗：

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用時：4673毫秒

select top 10000 gid,fariqi,title from tgongwen order by gid desc

　　用時：1376毫秒

select top 10000 gid,fariqi from tgongwen order by gid desc

　　用時：80毫秒

　　由此看來,我們每少提取一個字段,數(shù)據(jù)的提取速度就會有相應(yīng)的提升。提升的速度還要看您舍棄的字段的大小來判斷。

　　10、count(*)不比count(字段)慢

　　某些資料上說：用*會統(tǒng)計所有列,顯然要比一個世界的列名效率低。這種說法其實是沒有根據(jù)的。我們來看：

select count(*) from Tgongwen

　　用時：1500毫秒

select count(gid) from Tgongwen?

　　用時：1483毫秒

select count(fariqi) from Tgongwen

　　用時：3140毫秒

select count(title) from Tgongwen

　　用時：52050毫秒

　　從以上可以看出,如果用count(*)和用count(主鍵)的速度是相當(dāng)?shù)?而count(*)卻比其他任何除主鍵以外的字段匯總速度要快,而且字段越長,匯總的速度就越慢。我想,如果用count(*), SQL SERVER可能會自動查找最小字段來匯總的。當(dāng)然,如果您直接寫count(主鍵)將會來的更直接些。 [Page]

　　11、order by按聚集索引列排序效率最高

　　我們來看：(gid是主鍵,fariqi是聚合索引列）

select top 10000 gid,fariqi,reader,title from tgongwen

　　用時：196 毫秒。掃描計數(shù) 1,邏輯讀 289 次,物理讀 1 次,預(yù)讀 1527 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

　　用時：4720毫秒。掃描計數(shù) 1,邏輯讀 41956 次,物理讀 0 次,預(yù)讀 1287 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用時：4736毫秒。掃描計數(shù) 1,邏輯讀 55350 次,物理讀 10 次,預(yù)讀 775 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

　　用時：173毫秒。掃描計數(shù) 1,邏輯讀 290 次,物理讀 0 次,預(yù)讀 0 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

　　用時：156毫秒。掃描計數(shù) 1,邏輯讀 289 次,物理讀 0 次,預(yù)讀 0 次。

　　從以上我們可以看出,不排序的速度以及邏輯讀次數(shù)都是和“order by 聚集索引列” 的速度是相當(dāng)?shù)?但這些都比“order by 非聚集索引列”的查詢速度是快得多的。

　　同時,按照某個字段進行排序的時候,無論是正序還是倒序,速度是基本相當(dāng)?shù)摹?

轉(zhuǎn)載于:https://my.oschina.net/xiufeng/blog/140969

總結(jié)

以上是生活随笔為你收集整理的海量数据处理分析(部分)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：动态规划初步--数字三角形
下一篇： ShardedJedisPool 中可用