日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

海量数据处理分析(部分)

發(fā)布時間:2023/12/10 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 海量数据处理分析(部分) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019獨角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

1. 海量數(shù)據(jù)處理分析??? 原文地址:

http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx

筆者在實際工作中,有幸接觸到海量的數(shù)據(jù)處理問題,對其進行處理是一項艱巨而復(fù)雜的任務(wù)。原因有以

下幾個方面:
一、數(shù)據(jù)量過大,數(shù)據(jù)中什么情況都可能存在。如果說有10條數(shù)據(jù),那么大不了每條去逐一檢查,人為處

理,如果有上百條數(shù)據(jù),也可以考慮,如果數(shù)據(jù)上到千萬級別,甚至過億,那不是手工能解決的了,必須

通過工具或者程序進行處理,尤其海量的數(shù)據(jù)中,什么情況都可能存在,例如,數(shù)據(jù)中某處格式出了問題

,尤其在程序處理時,前面還能正常處理,突然到了某個地方問題出現(xiàn)了,程序終止了。
二、軟硬件要求高,系統(tǒng)資源占用率高。對海量的數(shù)據(jù)進行處理,除了好的方法,最重要的就是合理使用

工具,合理分配系統(tǒng)資源。一般情況,如果處理的數(shù)據(jù)過TB級,小型機是要考慮的,普通的機子如果有好

的方法可以考慮,不過也必須加大CPU和內(nèi)存,就象面對著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝

的。
三、要求很高的處理方法和技巧。這也是本文的寫作目的所在,好的處理方法是一位工程師長期工作經(jīng)驗

的積累,也是個人的經(jīng)驗的總結(jié)。沒有通用的處理方法,但有通用的原理和規(guī)則。
那么處理海量數(shù)據(jù)有哪些經(jīng)驗和技巧呢,我把我所知道的羅列一下,以供大家參考:
一、選用優(yōu)秀的數(shù)據(jù)庫工具
現(xiàn)在的數(shù)據(jù)庫工具廠家比較多,對海量數(shù)據(jù)的處理對所使用的數(shù)據(jù)庫工具要求比較高,一般使用Oracle或

者DB2,微軟公司最近發(fā)布的SQL Server 2005性能也不錯。另外在BI領(lǐng)域:數(shù)據(jù)庫,數(shù)據(jù)倉庫,多維數(shù)據(jù)

庫,數(shù)據(jù)挖掘等相關(guān)工具也要進行選擇,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,

Eassbase等。筆者在實際數(shù)據(jù)分析項目中,對每天6000萬條的日志數(shù)據(jù)進行處理,使用SQL Server 2000

需要花費6小時,而使用SQL Server 2005則只需要花費3小時。
二、編寫優(yōu)良的程序代碼
處理數(shù)據(jù)離不開優(yōu)秀的程序代碼,尤其在進行復(fù)雜數(shù)據(jù)處理時,必須使用程序。好的程序代碼對數(shù)據(jù)的處

理至關(guān)重要,這不僅僅是數(shù)據(jù)處理準(zhǔn)確度的問題,更是數(shù)據(jù)處理效率的問題。良好的程序代碼應(yīng)該包含好

的算法,包含好的處理流程,包含好的效率,包含好的異常處理機制等。
三、對海量數(shù)據(jù)進行分區(qū)操作
對海量數(shù)據(jù)進行分區(qū)操作十分必要,例如針對按年份存取的數(shù)據(jù),我們可以按年進行分區(qū),不同的數(shù)據(jù)庫

有不同的分區(qū)方式,不過處理機制大體相同。例如SQL Server的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文

件組下,而不同的文件組存于不同的磁盤分區(qū)下,這樣將數(shù)據(jù)分散開,減小磁盤I/O,減小了系統(tǒng)負荷,

而且還可以將日志,索引等放于不同的分區(qū)下。
四、建立廣泛的索引
對海量的數(shù)據(jù)處理,對大表建立索引是必行的,建立索引要考慮到具體情況,例如針對大表的分組、排序

等字段,都要建立相應(yīng)索引,一般還可以建立復(fù)合索引,對經(jīng)常插入的表則建立索引時要小心,筆者在處

理數(shù)據(jù)時,曾經(jīng)在一個ETL流程中,當(dāng)插入表時,首先刪除索引,然后插入完畢,建立索引,并實施聚合

操作,聚合完成后,再次插入前還是刪除索引,所以索引要用到好的時機,索引的填充因子和聚集、非聚

集索引都要考慮。
五、建立緩存機制
當(dāng)數(shù)據(jù)量增加時,一般的處理工具都要考慮到緩存問題。緩存大小設(shè)置的好差也關(guān)系到數(shù)據(jù)處理的成敗,

例如,筆者在處理2億條數(shù)據(jù)聚合操作時,緩存設(shè)置為100000條/Buffer,這對于這個級別的數(shù)據(jù)量是可行

的。
六、加大虛擬內(nèi)存
如果系統(tǒng)資源有限,內(nèi)存提示不足,則可以靠增加虛擬內(nèi)存來解決。筆者在實際項目中曾經(jīng)遇到針對18億

條的數(shù)據(jù)進行處理,內(nèi)存為1GB,1個P4 2.4G的CPU,對這么大的數(shù)據(jù)量進行聚合操作是有問題的,提示內(nèi)

存不足,那么采用了加大虛擬內(nèi)存的方法來解決,在6塊磁盤分區(qū)上分別建立了6個4096M的磁盤分區(qū),用

于虛擬內(nèi)存,這樣虛擬的內(nèi)存則增加為 4096*6 + 1024 = 25600 M,解決了數(shù)據(jù)處理中的內(nèi)存不足問題。
七、分批處理?
海量數(shù)據(jù)處理難因為數(shù)據(jù)量大,那么解決海量數(shù)據(jù)處理難的問題其中一個技巧是減少數(shù)據(jù)量。可以對海量

數(shù)據(jù)分批處理,然后處理后的數(shù)據(jù)再進行合并操作,這樣逐個擊破,有利于小數(shù)據(jù)量的處理,不至于面對

大數(shù)據(jù)量帶來的問題,不過這種方法也要因時因勢進行,如果不允許拆分數(shù)據(jù),還需要另想辦法。不過一

般的數(shù)據(jù)按天、按月、按年等存儲的,都可以采用先分后合的方法,對數(shù)據(jù)進行分開處理。
八、使用臨時表和中間表
數(shù)據(jù)量增加時,處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成后,再利

用一定的規(guī)則進行合并,處理過程中的臨時表的使用和中間結(jié)果的保存都非常重要,如果對于超海量的數(shù)

據(jù),大表處理不了,只能拆分為多個小表。如果處理過程中需要多步匯總操作,可按匯總步驟一步步來,

不要一條語句完成,一口氣吃掉一個胖子。
九、優(yōu)化查詢SQL語句
在對海量數(shù)據(jù)進行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的,編寫高效優(yōu)良

的SQL腳本和存儲過程是數(shù)據(jù)庫工作人員的職責(zé),也是檢驗數(shù)據(jù)庫工作人員水平的一個標(biāo)準(zhǔn),在對SQL語句

的編寫過程中,例如減少關(guān)聯(lián),少用或不用游標(biāo),設(shè)計好高效的數(shù)據(jù)庫表結(jié)構(gòu)等都十分必要。筆者在工作

中試著對1億行的數(shù)據(jù)使用游標(biāo),運行3個小時沒有出結(jié)果,這是一定要改用程序處理了。
十、使用文本格式進行處理
對一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫,如果對復(fù)雜的數(shù)據(jù)處理,必須借助程序,那么在程序操作數(shù)據(jù)庫和程

序操作文本之間選擇,是一定要選擇程序操作文本的,原因為:程序操作文本速度快;對文本進行處理不

容易出錯;文本的存儲不受限制等。例如一般的海量的網(wǎng)絡(luò)日志都是文本格式或者csv格式(文本格式)

,對它進行處理牽扯到數(shù)據(jù)清洗,是要利用程序進行處理的,而不建議導(dǎo)入數(shù)據(jù)庫再做清洗。
十一、?????? 定制強大的清洗規(guī)則和出錯處理機制
海量數(shù)據(jù)中存在著不一致性,極有可能出現(xiàn)某處的瑕疵。例如,同樣的數(shù)據(jù)中的時間字段,有的可能為非

標(biāo)準(zhǔn)的時間,出現(xiàn)的原因可能為應(yīng)用程序的錯誤,系統(tǒng)的錯誤等,這是在進行數(shù)據(jù)處理時,必須制定強大

的數(shù)據(jù)清洗規(guī)則和出錯處理機制。
十二、?????? 建立視圖或者物化視圖
視圖中的數(shù)據(jù)來源于基表,對海量數(shù)據(jù)的處理,可以將數(shù)據(jù)按一定的規(guī)則分散到各個基表中,查詢或處理

過程中可以基于視圖進行,這樣分散了磁盤I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區(qū)別


十三、?????? 避免使用32位機子(極端情況)
目前的計算機很多都是32位的,那么編寫的程序?qū)?nèi)存的需要便受限制,而很多的海量數(shù)據(jù)處理是必須大

量消耗內(nèi)存的,這便要求更好性能的機子,其中對位數(shù)的限制也十分重要。
十四、?????? 考慮操作系統(tǒng)問題
海量數(shù)據(jù)處理過程中,除了對數(shù)據(jù)庫,處理程序等要求比較高以外,對操作系統(tǒng)的要求也放到了重要的位

置,一般是必須使用服務(wù)器的,而且對系統(tǒng)的安全性和穩(wěn)定性等要求也比較高。尤其對操作系統(tǒng)自身的緩

存機制,臨時空間的處理等問題都需要綜合考慮。
十五、?????? 使用數(shù)據(jù)倉庫和多維數(shù)據(jù)庫存儲
數(shù)據(jù)量加大是一定要考慮OLAP的,傳統(tǒng)的報表可能5、6個小時出來結(jié)果,而基于Cube的查詢可能只需要幾

分鐘,因此處理海量數(shù)據(jù)的利器是OLAP多維分析,即建立數(shù)據(jù)倉庫,建立多維數(shù)據(jù)集,基于多維數(shù)據(jù)集進

行報表展現(xiàn)和數(shù)據(jù)挖掘等。
十六、?????? 使用采樣數(shù)據(jù),進行數(shù)據(jù)挖掘
基于海量數(shù)據(jù)的數(shù)據(jù)挖掘正在逐步興起,面對著超海量的數(shù)據(jù),一般的挖掘軟件或算法往往采用數(shù)據(jù)抽樣

的方式進行處理,這樣的誤差不會很高,大大提高了處理效率和處理的成功率。一般采樣時要注意數(shù)據(jù)的

完整性和,防止過大的偏差。筆者曾經(jīng)對1億2千萬行的表數(shù)據(jù)進行采樣,抽取出400萬行,經(jīng)測試軟件測

試處理的誤差為千分之五,客戶可以接受。
還有一些方法,需要在不同的情況和場合下運用,例如使用代理鍵等操作,這樣的好處是加快了聚合時間

,因為對數(shù)值型的聚合比對字符型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數(shù)據(jù)是發(fā)展趨勢,對數(shù)據(jù)分析和挖掘也越來越重要,從海量數(shù)據(jù)中提取有用信息重要而緊迫,這便要

求處理要準(zhǔn)確,精度要高,而且處理時間要短,得到有價值信息要快,所以,對海量數(shù)據(jù)的研究很有前途

,也很值得進行廣泛深入的研究。

2.? 海量數(shù)據(jù)的查詢優(yōu)化及分頁算法方案

很多人不知道SQL語句在SQL SERVER中是如何執(zhí)行的,他們擔(dān)心自己所寫的SQL語句會被SQL SERVER誤解。中國自學(xué)編程網(wǎng)提供 www.zxbc.cn 比如:?
select * from table1 where name=’zhangsan’ and tID > 10000?
 和執(zhí)行:?
select * from table1 where tID > 10000 and name=’zhangsan’?
  一些人不知道以上兩條語句的執(zhí)行效率是否一樣,因為如果簡單的從語句先后上看,這兩個語句的確是不一樣,如果tID是一個聚合索引,那么后一句僅僅從表的10000條以后的記錄中查找就行了;而前一句則要先從全表中查找看有幾個name=’zhangsan’的,而后再根據(jù)限制條件條件tID>10000來提出查詢結(jié)果。?
  事實上,這樣的擔(dān)心是不必要的。SQL SERVER中有一個“查詢分析優(yōu)化器”,它可以計算出where子句中的搜索條件并確定哪個索引能縮小表掃描的搜索空間,也就是說,它能實現(xiàn)自動優(yōu)化。?
  雖然查詢優(yōu)化器可以根據(jù)where子句自動的進行查詢優(yōu)化,但大家仍然有必要了解一下“查詢優(yōu)化器”的工作原理,如非這樣,有時查詢優(yōu)化器就會不按照您的本意進行快速查詢。?
  在查詢分析階段,查詢優(yōu)化器查看查詢的每個階段并決定限制需要掃描的數(shù)據(jù)量是否有用。如果一個階段可以被用作一個掃描參數(shù)(SARG),那么就稱之為可優(yōu)化的,并且可以利用索引快速獲得所需數(shù)據(jù)。?
  SARG的定義:用于限制搜索的一個操作,因為它通常是指一個特定的匹配,一個值得范圍內(nèi)的匹配或者兩個以上條件的AND連接。形式如下:?
列名 操作符 <常數(shù) 或 變量>?
或?
<常數(shù) 或 變量> 操作符列名?
  列名可以出現(xiàn)在操作符的一邊,而常數(shù)或變量出現(xiàn)在操作符的另一邊。如:?
Name=’張三’?
價格>5000?
5000<價格?
Name=’張三’ and 價格>5000?
  如果一個表達式不能滿足SARG的形式,那它就無法限制搜索的范圍了,也就是SQL SERVER必須對每一行都判斷它是否滿足WHERE子句中的所有條件。所以一個索引對于不滿足SARG形式的表達式來說是無用的。?
  介紹完SARG后,我們來總結(jié)一下使用SARG以及在實踐中遇到的和某些資料上結(jié)論不同的經(jīng)驗:

  1、Like語句是否屬于SARG取決于所使用的通配符的類型

  如:name like ‘張%’ ,這就屬于SARG

  而:name like ‘%張’ ,就不屬于SARG。

  原因是通配符%在字符串的開通使得索引無法使用。

  2、or 會引起全表掃描

Name=’張三’ and 價格>5000 符號SARG,而:Name=’張三’ or 價格>5000 則不符合SARG。使用or會引起全表掃描。

  3、非操作符、函數(shù)引起的不滿足SARG形式的語句

  不滿足SARG形式的語句最典型的情況就是包括非操作符的語句,如:NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等,另外還有函數(shù)。下面就是幾個不滿足SARG形式的例子:

ABS(價格)<5000

Name like ‘%三’

  有些表達式,如:

WHERE 價格*2>5000

  SQL SERVER也會認為是SARG,SQL SERVER會將此式轉(zhuǎn)化為:

WHERE 價格>2500/2 [Page]

  但我們不推薦這樣使用,因為有時SQL SERVER不能保證這種轉(zhuǎn)化與原始表達式是完全等價的。

  4、IN 的作用相當(dāng)與OR

  語句:

Select * from table1 where tid in (2,3)

  和

Select * from table1 where tid=2 or tid=3

  是一樣的,都會引起全表掃描,如果tid上有索引,其索引也會失效。

  5、盡量少用NOT

  6、exists 和 in 的執(zhí)行效率是一樣的

  很多資料上都顯示說,exists要比in的執(zhí)行效率要高,同時應(yīng)盡可能的用not exists來代替not in。但事實上,我試驗了一下,發(fā)現(xiàn)二者無論是前面帶不帶not,二者之間的執(zhí)行效率都是一樣的。因為涉及子查詢,我們試驗這次用SQL SERVER自帶的pubs數(shù)據(jù)庫。運行前我們可以把SQL SERVER的statistics I/O狀態(tài)打開。

  (1)select title,price from titles where title_id in (select title_id from sales where qty>30)

  該句的執(zhí)行結(jié)果為:

  表 ’sales’。掃描計數(shù) 18,邏輯讀 56 次,物理讀 0 次,預(yù)讀 0 次。

  表 ’titles’。掃描計數(shù) 1,邏輯讀 2 次,物理讀 0 次,預(yù)讀 0 次。

  (2)select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)

  第二句的執(zhí)行結(jié)果為:

  表 ’sales’。掃描計數(shù) 18,邏輯讀 56 次,物理讀 0 次,預(yù)讀 0 次。

  表 ’titles’。掃描計數(shù) 1,邏輯讀 2 次,物理讀 0 次,預(yù)讀 0 次。

  我們從此可以看到用exists和用in的執(zhí)行效率是一樣的。

  7、用函數(shù)charindex()和前面加通配符%的LIKE執(zhí)行效率一樣

  前面,我們談到,如果在LIKE前面加上通配符%,那么將會引起全表掃描,所以其執(zhí)行效率是低下的。但有的資料介紹說,用函數(shù)charindex()來代替LIKE速度會有大的提升,經(jīng)我試驗,發(fā)現(xiàn)這種說明也是錯誤的:

select gid,title,fariqi,reader from tgongwen where charindex(’刑偵支隊’,reader)>0 and fariqi>’2004-5-5’

  用時:7秒,另外:掃描計數(shù) 4,邏輯讀 7155 次,物理讀 0 次,預(yù)讀 0 次

select gid,title,fariqi,reader from tgongwen where reader like ’%’ + ’刑偵支隊’ + ’%’ and fariqi>’2004-5-5’

  用時:7秒,另外:掃描計數(shù) 4,邏輯讀 7155 次,物理讀 0 次,預(yù)讀 0 次。

  8、union并不絕對比or的執(zhí)行效率高

  我們前面已經(jīng)談到了在where子句中使用or會引起全表掃描,一般的,我所見過的資料都是推薦這里用union來代替or。事實證明,這種說法對于大部分都是適用的。 [Page]

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or gid>9990000

  用時:68秒。掃描計數(shù) 1,邏輯讀 404008 次,物理讀 283 次,預(yù)讀 392163 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’?

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

  用時:9秒。掃描計數(shù) 8,邏輯讀 67489 次,物理讀 216 次,預(yù)讀 7499 次。

  看來,用union在通常情況下比用or的效率要高的多。

  但經(jīng)過試驗,筆者發(fā)現(xiàn)如果or兩邊的查詢列是一樣的話,那么用union則反倒和用or的執(zhí)行速度差很多,雖然這里union掃描的是索引,而or掃描的是全表。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or fariqi=’2004-2-5’

  用時:6423毫秒。掃描計數(shù) 2,邏輯讀 14726 次,物理讀 1 次,預(yù)讀 7176 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’?

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where??? fariqi=’2004-2-5’

  用時:11640毫秒。掃描計數(shù) 8,邏輯讀 14806 次,物理讀 108 次,預(yù)讀 1144 次。

  9、字段提取要按照“需多少、提多少”的原則,避免“select *”

  我們來做一個試驗:

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

  用時:4673毫秒

select top 10000 gid,fariqi,title from tgongwen order by gid desc

  用時:1376毫秒

select top 10000 gid,fariqi from tgongwen order by gid desc

  用時:80毫秒

  由此看來,我們每少提取一個字段,數(shù)據(jù)的提取速度就會有相應(yīng)的提升。提升的速度還要看您舍棄的字段的大小來判斷。

  10、count(*)不比count(字段)慢

  某些資料上說:用*會統(tǒng)計所有列,顯然要比一個世界的列名效率低。這種說法其實是沒有根據(jù)的。我們來看:

select count(*) from Tgongwen

  用時:1500毫秒

select count(gid) from Tgongwen?

  用時:1483毫秒

select count(fariqi) from Tgongwen

  用時:3140毫秒

select count(title) from Tgongwen

  用時:52050毫秒

  從以上可以看出,如果用count(*)和用count(主鍵)的速度是相當(dāng)?shù)?而count(*)卻比其他任何除主鍵以外的字段匯總速度要快,而且字段越長,匯總的速度就越慢。我想,如果用count(*), SQL SERVER可能會自動查找最小字段來匯總的。當(dāng)然,如果您直接寫count(主鍵)將會來的更直接些。 [Page]

  11、order by按聚集索引列排序效率最高

  我們來看:(gid是主鍵,fariqi是聚合索引列)

select top 10000 gid,fariqi,reader,title from tgongwen

  用時:196 毫秒。 掃描計數(shù) 1,邏輯讀 289 次,物理讀 1 次,預(yù)讀 1527 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

  用時:4720毫秒。 掃描計數(shù) 1,邏輯讀 41956 次,物理讀 0 次,預(yù)讀 1287 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

  用時:4736毫秒。 掃描計數(shù) 1,邏輯讀 55350 次,物理讀 10 次,預(yù)讀 775 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

  用時:173毫秒。 掃描計數(shù) 1,邏輯讀 290 次,物理讀 0 次,預(yù)讀 0 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

  用時:156毫秒。 掃描計數(shù) 1,邏輯讀 289 次,物理讀 0 次,預(yù)讀 0 次。

  從以上我們可以看出,不排序的速度以及邏輯讀次數(shù)都是和“order by 聚集索引列” 的速度是相當(dāng)?shù)?但這些都比“order by 非聚集索引列”的查詢速度是快得多的。

  同時,按照某個字段進行排序的時候,無論是正序還是倒序,速度是基本相當(dāng)?shù)摹?

轉(zhuǎn)載于:https://my.oschina.net/xiufeng/blog/140969

總結(jié)

以上是生活随笔為你收集整理的海量数据处理分析(部分)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。