日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于新型存储的大数据存储管理

發布時間:2025/3/15 编程问答 10 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于新型存储的大数据存储管理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基于新型存儲的大數據存儲管理

金培權1,2

1. 中國科學技術大學計算機科學與技術學院,安徽 合肥 230027

2. 中國科學院電磁空間信息重點實驗室,安徽 合肥 230027

摘要:如何高效地存儲大數據并支持實時大數據處理與分析是大數據技術發展面臨的首要問題。近年來,以相變存儲器、閃存等為代表的新型存儲為實現高效的大數據存儲和管理提供了新思路。以相變存儲器為代表的存儲級主存技術為切入點,針對大數據存儲與管理中的高效存儲、實時處理等存在的挑戰,討論了面向新型存儲的大數據存儲管理研究現狀,并對未來基于新型存儲的大數據研究進行了展望。

關鍵詞:相變存儲器;大數據管理;新型存儲;存儲管理

doi:10.11959/j.issn.2096-0271.2017053

論文引用格式:金培權. 基于新型存儲的大數據存儲管理[J]. 大數據, 2017, 3(5): 70-82.

JIN P Q. Big data storage management based on new storage[J]. Big Data Research, 2017, 3(5): 70-82.

1? 引言

大數據已經成為目前的一個研究熱點[1]。如何改進現有的數據存儲與管理技術或者設計全新的體系結構,以滿足大數據應用中的大數據量和高速數據流實時處理需求,是大數據技術中的核心問題之一。如果采用傳統數據庫管理系統(database management system, DBMS)的集中式數據存儲方式,大數據存取性能就會受到極大的影響。Hadoop技術雖然提供了對大規模數據的快速、低成本存儲和管理,但它是一個離線、批量的數據處理系統,對于實時數據處理與分析的支持較弱,難以滿足許多應用的要求。例如,在城市公共安全中,通常要求能夠對高達每秒幾千幀的高清監控視頻流進行實時處理與分析。但目前在傳統計算體系結構下,單臺計算機只能支持每秒150~300幀的低分辨率圖像實時異常事件檢測[2,3]。如果要做進一步的目標識別,根據目前的處理技術,性能將下降到每秒16幀左右[4,5],遠遠不能滿足每秒幾千幀高清圖像的實時處理要求。因此,迫切需要研究能夠滿足大數據高效存儲與實時處理的新型體系結構與新方法。

針對大數據高效存儲與管理問題,目前除了Hadoop技術之外,學術界和工業界也提出了一些其他的設計,包括以NoSQL數據庫為代表的大規模分布式數據庫系統設計[6]、基于動態隨機存取存儲器(dynamic random access memory, DRAM)的內存數據庫技術[7]等。但現有的NoSQL分布式數據庫技術仍以磁盤存儲或者“磁盤+閃存(flash memory)”混合存儲的方式存儲數據,本質上還是傳統的“CPU-DRAM-二級存儲”的存儲架構,依然存在著內存和磁盤之間的“存儲墻”問題,難以從本質上解決大數據實時存取的問題。此外,由于DRAM能耗和成本較高,也限制了其在大規模數據處理中的應用。

過去5年來,閃存作為新型存儲的代表性技術取得了快速發展,對現有的數據管理技術提出了極大的挑戰,同時也帶來了許多新的機遇[8]。但是,閃存由于其存取方式(按頁)、存取性能(1次存取通常需要約2[17個CPU時鐘周期)的限制,仍適合作為二級存儲器。基于閃存的數據管理只是優化了I/O延遲,并沒有從本質上改變計算架構。

除了閃存之外,近年來另一種新型存儲介質——相變存儲器(phase change memory,PCM)引起了學術界和工業界的廣泛關注[9]。與閃存相比,PCM可以被CPU直接按位存取,而且存取性能更高。因此PCM可以與DRAM一樣與CPU交互。但與DRAM相比,PCM存儲具有非易失性,能夠進行持久的數據存儲。傳統硬盤基于磁性存儲機理存儲數據,閃存基于微型電容儲存電荷的機理存儲數據,存儲密度都有理論上限,而PCM基于微型相變單元存儲數據的機理使其能夠迅速超越固態盤的存儲密度,并且在未來還有更大的提升空間。IBM公司把PCM這一類具有DRAM的存取性能,同時又具有持久存儲能力的介質稱為存儲級主存(storage class memory,SCM)[10,11]。PCM等存儲級主存以其非揮發存儲速度快易實現高密度等技術特點,在高速與海量存儲方面具有巨大的潛能,已被認為是下一代非易失存儲技術的發展方向。另外,因該技術兼有DRAM的高速隨機訪問和閃存的非易失特性,模糊了主存和外存的界限,有望突破原有的存儲架構,實現更高性能的存儲。

因此,如果能夠利用PCM等新型存儲器件設計出適合大數據存儲與管理的新型存儲架構(如圖1所示),同時設計新的分布式多節點存儲技術,則可以將大數據存取集中在DRAM和PCM上,充分發揮DRAM和PCM的高性能特性以及PCM的隨機存取和非易失優點,而且可以利用分布式多節點存儲的優勢建立高擴展的大數據存儲系統,從而有望徹底解決大數據存取中的性能與容量問題,為大規模的大數據分析與應用提供有力的支撐。

圖1 ?引入PCM等存儲級主存后的存儲體系結構

目前,公共安全、智能交通、物聯網等許多應用都要求實現大數據的實時存取。但是,現有的Hadoop等技術還很難達到這一目標,主要的困難在于無法提供低延遲、高吞吐的大數據實時存取能力。新型存儲的出現為解決這一難題提供了可能。首先,PCM等非易失內存的出現為實現大規模的內存計算奠定了基礎,使得人們有可能在內存中支持高并發的事務處理,而不需要傳統DRAM導致的大量I/O操作,從而實現低延遲的大數據存取。其次,借助基于新型存儲的分布式內存文件系統等技術[12],可以大規模提升外存和內存的寫吞吐速率。

本文綜述了基于新型存儲的大數據存儲管理技術,分析了現有大數據存儲技術的局限性,介紹了新型存儲的特點和發展概況,總結了基于新型存儲的大數據存儲架構、基于新型存儲的大數據存儲管理等方向的研究現狀,在此基礎上給出了基于新型存儲的大數據存儲與管理的若干未來研究方向。

2 ?大數據存儲技術

2.1 ?常見的大數據存儲技術

目前,大數據存儲一般采用分布式存儲技術,主要應用在NoSQL數據庫系統中。現有的主流的NoSQL數據庫系統,例如文檔數據庫系統MongoDB、列存儲數據庫系統HBase[13,14]、內存數據庫系統Redis等,均采用了分布式集群架構實現大數據的存儲。也有一些分布式數據庫系統在存儲架構設計上考慮了異構存儲的特性,例如RAMCloud[15]和RethinkDB,從而有效提升了系統的存取性能。

但是,現有的大數據存儲技術還存在著以下的局限性[16]。

● 以NoSQL數據庫為代表的大規模分布式數據庫系統設計了基于磁盤存儲的讀寫方式、索引結構、查詢執行、查詢優化、恢復策略,但是磁盤固有的讀寫性能差等弊端限制了大數據存取尤其是大數據分析性能的提升。

● 在以Hadoop分布式文件系統(Hadoop distributed file system,HDFS)為代表的大規模分布式文件系統中,雖然它們提供了大數據的存儲支持能力,但由于這些文件系統在設計時并沒有考慮對實時、高性能的數據處理的支持,因此無法滿足日益增長的大數據在線分析的需求。此外,隨著數據量的急劇增加,元數據的大小也急劇增加,傳統的元數據架構、元數據備份管理、元數據動態負載均衡等越來越難適應大數據應用需求。

基于DRAM的內存數據管理技術旨在通過海量的內存提高大數據的處理性能。但是,由于DRAM本身能耗高、價格相對昂貴,使得構建基于大內存的大數據存儲集群在環境支持、成本上存在較大的困難。此外,DRAM的掉電易失特性導致的大數據環境下的數據一致性也是一個棘手的問題。

2.2 ?新型存儲技術

鑒于磁盤存儲、內存存儲在面臨大數據管理與分析時的困難,學術界和工業界開始將目光轉向新型存儲技術。目前,從技術成熟度和應用前景上看,閃存和相變存儲器最有可能形成大規模應用,因此也吸引了國內外學者的關注[8,9,16,17]。

閃存是一種可以被電子化擦除和重寫的非易失性存儲設備[8]。基于閃存的固態盤(solid state drive,SSD)是目前市場上常見的閃存存儲設備。與傳統的磁存儲介質相比,閃存具有傳輸速率高、低延遲、低能耗、低噪音、抗震等優良特性。同時也有一些特殊性質:寫前擦除,對閃存的寫操作不是簡單地改變某個二進制位,而是需要將整個擦除塊的所有二進制位置改為1,這帶來了閃存的讀寫不對稱性,一般采用異地更新的方式緩解寫前擦除帶來的延遲,減少讀寫不對稱帶來的影響;壽命限制,目前企業級閃存能耐受3萬次寫循環,消費級閃存僅為3 000次;讀寫與擦除的單位不一致,一個擦除塊中包含若干個閃存頁,擦除的單位是一個閃存擦除塊,讀寫的單位是閃存頁。

相變存儲器是一種非易失類型的存儲器,由硫系玻璃材質構成[17]。由于這種材質的特質,通過施以電脈沖熱,它可以在非晶態和多晶態這兩種狀態之間進行切換。PCM兼具速度快、耐用、非揮發性和高密度性等多種優勢,其讀寫數據和恢復數據的速度是閃存的100倍[18]。

隨著云計算和物聯網等新一代信息技術的涌現,對海量存儲系統的低能耗、高速及高可靠性的需求日益凸顯,以新型存儲取代傳統存儲介質的呼聲越來越高,而PCM有望成為未來新型存儲的主要技術。與DRAM、閃存等存儲介質相比,PCM具有非易失性、存取速度快、節能、可字節尋址、寫壽命長等優點[19]。韓國三星(Samsung)公司與美國美光(Micron)公司是目前在PCM技術方面較為領先的兩家公司,其中三星公司開發出的65 nm制程、512 MB容量的PCM芯片已投入量產,并應用在三星公司的手機存儲卡中;同時三星公司已經推出了20 nm制程、8GB容量的相變內存顆粒。美光公司已經成功研制了45 nm制程、1GB容量的LPDDR2接口的PCM芯片產品,并已經量產[20]。我國中國科學院上海微系統與信息技術研究所近年來也研制了中國自主知識產權的PCM芯片(8 MB),為研制我國自主產權的新型存儲系統奠定了基礎[21]。此外,華中科技大學自2007年開始研究高密度低功耗的電阻式相變存儲器、相變存儲器功能芯片、相變存儲器芯片的關鍵材料以及相關專用測試設備等,已經自主研制出具有簡單讀、擦、寫功能的相變存儲器功能芯片[22]。

總體而言,傳統的磁盤存儲技術在大數據存儲與管理方面面臨著嚴重的性能瓶頸。內存數據管理技術由于價格、容量以及易失等特點難以作為PB級大數據存儲的最終解決方案,但在大數據存儲與管理中可以借鑒內存數據處理的一些思路。閃存、PCM等新型存儲器件提供了高性能、非易失的數據存儲支持。從目前的技術發展現狀看,PCM是現有最為成熟,且性能、容量與DRAM最為接近的存儲技術。PCM以其非揮發、存儲速度快、易實現高密度等技術特點以及與CMOS工藝兼容性好、易于與CPU集成形成片上系統(system on chip,SoC)芯片等優點,具有廣泛的應用前景。

3 大數據存儲架構

新型存儲的出現為構建新的大數據存儲架構提供了可能。目前,學術界針對基于新型存儲的大數據存儲架構提出了多種設計,包括基于PCM的主存架構、基于閃存的主存擴展架構、分布式存儲與緩存架構等。

3.1 ?基于PCM的主存架構

PCM與閃存相比,其存取延遲更短,而且可以直接按位存取,因此能夠被CPU直接存取,更適合作為DRAM的擴展。與DRAM相比,PCM具有非易失性特點,因此適合存儲文件等靜態數據。總而言之, PCM可以看作兼有DRAM和閃存的優點。從存儲架構設計的角度來看,PCM既可以作為主存使用,也可以作為外存使用。但由于PCM的可字節尋址特性(與閃存不同),目前學術界對基于PCM的主存架構研究相對較多。

在利用PCM替代DRAM方面,理論上可以有兩種架構,即PCM主存架構DRAM/PCM混合主存架構。在純PCM主存架構中,PCM完全替代DRAM作為唯一的主存,而在DRAM/PCM混合主存架構中,DRAM和PCM共同作為主存。在后一種架構中,又存在著兩種可能的設計:一是將DRAM作為PCM緩存的層次架構,另一種是DRAM和PCM并列的平等架構。目前,大多數的研究都假設DRAM/PCM的混合主存架構[10,11,23-25]。研究者針對DRAM/PCM的混合主存架構,提出了多種PCM寫操作優化[23]以及負載均衡算法[10,11,24]。由于PCM的寫次數有限制,因此如何在混合主存中減少PCM上的寫操作是目前的研究重點。

基于PCM的主存架構為實現大數據的實時處理提供了可能。首先,PCM的低能耗特性使得在集群系統中使用大量的PCM存儲代替DRAM成為可能,從而降低系統成本。其次,PCM的持久存儲特性可以通過設計有效的算法提高分布式存儲環境中的數據一致性。第三,PCM的高密度特性可以為內存計算提供有力的支持。

3.2 ?基于閃存的主存擴展架構

閃存是目前相對較成熟的新型存儲技術。基于閃存的SSD已經大量裝備在服務器上,成為企業級存儲解決方案中的重要組成。由于閃存的整體存取性能優于磁盤,因此理論上可以借助閃存提升大數據存儲和管理的性能。在早期的一些研究工作中,研究人員往往假設未來存儲系統中閃存可以完全替代磁盤作為外存,但是,由于閃存的讀寫不均衡特性以及壽命問題,目前實際的系統中往往是DRAM、閃存和磁盤共存。

在DRAM、閃存、磁盤共存的存儲架構下,閃存通常作為主存的擴展,即作為DRAM和磁盤之間的中間層,提升大數據存取的性能[26-28]。SSDAlloc[26]是基于閃存的主存擴展系統,它將閃存作為磁盤的緩存,實現了系統整體性能的提升。也有一些學者提出了將閃存作為虛擬內存,在DRAM容量不夠的情況下,將閃存作為虛擬內存設備進行頁面交換[27]。由于閃存性能總體優于磁盤,因此這種以閃存作為虛擬內存的架構理論上在大數據應用場景下性能優于傳統的DRAM+磁盤的架構。

對于大數據處理而言,基于PCM的主存擴展總體上比基于閃存的主存擴展更具可行性。這是因為大容量的閃存本身仍然采用按頁存取的方式,與CPU按位存取模式之間存在不一致性,而且在存取性能上PCM也高于閃存,因此更有望減小與CPU之間的性能差距,構建能夠充分發揮CPU、DRAM和PCM各自優勢的高性能數據處理系統。

3.3 ?分布式存儲與緩存架構

目前,基于分布式觀點的數據管理是大數據存儲與管理研究中的一個熱點。一種觀點是將閃存應用于分布式文件系統中進行元數據存儲。元數據對于整個大數據管理系統的性能起著決定性作用,對于大數據解析、大數據統計、大數據操作優化等起著重要作用。基于閃存的分布式文件系統元數據管理的基本思路是在元數據服務器(metadata server,MDS)上使用SSD作為存儲設備加速文件系統,如參考文獻[29]在Lustre分布式文件系統架構中的元數據服務器上使用閃存作為存儲介質,加速元數據的讀寫速度。此外,基于Memcached的內存分布式緩存技術也被廣泛用來加速大規模數據的訪問,而在更為復雜的大數據環境下,其局限性主要體現在:一方面內存分布式緩存受限于集群內存容量,只能服務容量較小的熱點數據,會造成性能下降;另一方面,如果采取擴大集群內存容量滿足更多數據緩存需求,會帶來高額的成本和巨大的能耗。現階段解決方法是將小容量、高I/O負載的緩存處理與大容量、中低等I/O負載的緩存處理分離,形成“熱緩存”與“冷緩存”的緩存策略,其中在“冷緩存”方面主要采用了閃存技術。例如,Facebook設計了基于閃存的鍵—值存儲系統McDipper,代替Memcached為大量訪問頻率較低的圖片提供緩存服務,降低成本和能耗,為了減少閃存I/O延遲,將閃存層分成兩個區域,一個區域存放數據,另一個區域配置散列桶存放鍵值數據的指針,并將散列桶元數據放入內存。

分布式存儲技術將是解決大數據存儲與管理問題的主要途徑之一。一方面是由于Hadoop分布式技術已經為現有的大數據管理提供了一種行之有效的存儲方案,而且已經在Google、Facebook等公司的實際應用中得到了驗證,為大數據未來研究提供了有用的借鑒;另一方面也是因為在大數據應用中數據來源、用戶等本身存在天然的分布特性,適合采用分布式存儲技術。

4 ?大數據存儲管理

閃存、PCM等新型存儲的物理特性、讀寫特性等均與磁盤有著非常顯著的不同,而目前已有的大數據數據庫,其設計理念均是基于磁盤存儲,在面對閃存、PCM等新型存儲時,并不能最大限度地發揮新型存儲的性能。目前,在基于新型存儲的大數據存儲管理方面也有一些研究工作。

在基于PCM的存儲管理方面,Ramos L E等人[30]提出了一種針對DRAM/PCM混合主存的硬件驅動的頁面置換策略。該策略依賴一個內存控制器(memory controller,MC)監控內存頁面的使用頻率和寫密集程度。MC在DRAM和PCM之間進行頁面遷移,保證性能攸關的頁面和頻繁寫的頁面保存在DRAM中,而性能不太敏感以及很少寫的頁面存儲在PCM中。Qureshi M K等人[23]提出了一個層次型混合主存系統。他們將DRAM設計為CPU和PCM之間的緩沖區。所有的數據頁都存儲在PCM中,只有當DRAM發生頁面置換或者需要訪問新的頁面時系統才存取PCM。Wu Z L等人[31,32]在PCM存儲管理方面也提出了動態桶列表(dynamic bucket list)以及寫敏感的混合時鐘存儲管理方法。

索引作為優化數據存取性能的重要技術,是數據存儲管理中的關鍵問題之一。傳統的B+樹索引在數據庫系統和文件系統中被廣泛應用,近年來在云計算[33-36]、位置服務[37,38]等應用中也有一些針對B+樹的優化工作。雖然B+樹具有很好的搜索性能,但它常常導致較高的更新代價。在面向閃存的數據庫領域,研究人員提出了多種針對B+樹的改進設計,例如μ*-Tree[39]、BF-Tree[40]、LA-Tree[41]、HashTree[42]、BloomTree[43]等。這些方法以減少對閃存的寫操作為主要目標,采用了利用溢出節點延遲更新、利用額外的緩存節點的更新等方法,最終減少B+樹葉節點的更新次數以及索引的合并和分裂操作。

雖然目前在基于閃存的索引設計方面已經有了不少的工作,但由于在大數據存儲中引入了PCM等其他類型的新型存儲介質,而且在計算架構上產生了根本性的變化(閃存定位在二級存儲,而PCM則可以用于直接的內存擴展),因此,近年來研究人員也探討了針對PCMB+樹索引優化問題。Chen S M等人[44]最早在2011年的國際創新數據庫研究會議(International Conference on Innovative Database Research,CIDR)上測試了B+樹在采用了PCM主存技術的服務器上的性能。其研究結果表明,當PCM技術應用到數據庫服務器上后,因其具備高速隨機訪問特性,傳統的索引技術應進行新的設計。他們在后續的工作中繼續研究了針對PCM等非易失內存的B+樹索引結構[45],類似的工作還有Hu W W等人[46]提出的BP-tree、Chi P等人[47]提出的寫優化B+樹以及Li L等人[48]提出的面向PCM的讀寫趨勢感知的CB+-tree索引。這些工作基本都采用了針對PCM特性優化傳統的B+樹的思路。

5 未來研究展望

5.1 基于新型存儲的大數據存儲架構

以PCM為代表的新型存儲技術進一步提升了非易失存儲的性能極限。PCM類似于DRAM的高速隨機訪問模式使其有機會直接與CPU連接,而其高密度潛力也使它能夠適應大數據時代的容量需求。當存儲靜態數據的非易失存儲允許CPU通過直接尋址的方式訪問時,存儲體系的進化不僅僅帶來性能的大幅提升,同時還將改變應用程序訪問數據的方式。由于PCM等存儲級主存能夠直接支持隨機讀寫,因此可以將其與DRAM共同連接于主存控制器上,與DRAM實現統一編址,CPU可直接尋址到PCM的任何地址。

由于計算機系統的系統集成度較高、構成復雜,不易完成架構改動,因此基于新型存儲的大數據存儲架構可以采用嵌入式系統方式構建驗證用的硬件平臺,在平臺上直接實現新存儲架構及相應軟件,從而能夠準確地評估新存儲架構帶來的性能優勢。通過搭建新型嵌入式存儲架構軟硬件驗證平臺,實現對存儲系統的硬件級訪問檢測,為驗證軟件系統性能提供準確的數據。

5.2? 基于新型存儲的分布式內存文件系統

PCM等存儲級主存的出現及應用打破了傳統的硬盤驅動器(hard disk drive,HDD)/SDD+DRAM的存儲架構,為適應PCM等存儲級主存PCM和DRAM共存的新存儲架構,需研究新型的可支持以內存訪問形式訪問各種文件數據的新型文件系統。同時,由于大數據時代數據一般需要分布式存儲與計算,因此在文件管理上還需要考慮對分布式環境的支持。因此,需要結合新型存儲架構和分布式環境的需求,研究新型的大數據文件系統。該方向的一些研究要點包括以下幾方面。

(1)支持新型存儲架構的單節點文件系統

單節點文件系統是研制分布式隨機訪問內存文件系統的基礎,具體包括新型存儲架構下的文件原位訪問技術、文件系統管理與控制技術、基于新型存儲架構的內存管理機制等。

(2)支持新型存儲架構的分布式文件系統

本地節點的數據訪問僅能夠提升應用程序訪問本地數據時的效率。分布式存儲技術可以基于新型存儲架構搭建支持海量數據存儲的分布式環境,從而滿足大數據存儲的容量需求。因此,將單節點文件系統向多節點擴充,完成支持新型存儲架構的分布式內存文件系統,是實現基于新型存儲的大數據存儲管理的關鍵,研究要點包括分布式文件系統虛擬訪問接口、基于統一尋址的分布式文件管理技術、存儲空間的全局劃分和尋址技術等。

5.3? 基于新型存儲的大數據管理

PCM等存儲級主存給存儲與計算架構帶來了極大的挑戰,包括異構存儲上的數據分配與調整機制、異質緩存管理機制、基于新型存儲的大數據索引技術等。

(1)基于新型存儲架構的數據存儲分配與調整機制

由于DRAM、PCM、SSD/HDD等多種存儲介質同時用于數據存儲,因此需要研究一種自適應的多粒度數據存儲分配機制。具體而言,該機制首先根據數據訪問頻度將數據劃分為3種狀態:熱(hot)、溫(warm)、冷(cold),然后根據數據的狀態進行存儲分配與調整。所謂多粒度是指在存儲分配時,同時采用文件和頁兩種粒度。在PCM與SSD/HDD之間進行數據分配時,PCM作為持久存儲介質,采用文件粒度進行數據分配;在DRAM與SSD/HDD之間進行數據分配時,DRAM作為緩存,采用頁粒度進行數據分配;在DRAM與PCM之間進行數據分配時,以鍵值記錄粒度進行數據遷移和交換。

數據存儲調整方面,一種可能的方法是基于應用對數據的訪問模式變化,自適應、動態地調整數據存儲策略。訪問模式的度量基于數據的訪問頻度以及存取方式(讀/寫)兩類因素,通過周期性考察的方法確定當前數據訪問模式的變化程度,并基于訪問模式的變化程度確定是否重新執行數據存儲分配。一旦確定了新的數據存儲分配策略,將對相應的數據進行介質之間的遷移操作。

(2)基于新型存儲架構的異質緩存管理

數據緩存是傳統數據庫領域中的核心技術之一,它對于提升系統存取性能有著非常重要的作用。在大數據環境下,由于數據量的急劇增加,數據緩存的重要性尤為突出,因為如果讓每個應用直接在全部的大數據上運行將很難保證訪問性能。目前一種普遍的觀點認為,雖然大數據環境下數據量很大,但對一個具體應用而言,涉及的只是大數據集合中的一部分(小數據)。但是,在新型存儲架構下,數據存儲涉及了DRAM、PCM、SSD等具有完全不同訪問特性的存儲介質,在緩存層也同樣面臨著多種介質共存的局面,例如數據既可以緩存在DRAM中,也可以緩存在PCM中,甚至也可以緩存在SSD中。這類異質緩存管理問題是傳統數據緩存研究中不曾面臨的新問題,也是構建基于新型存儲的高效大數據管理系統的關鍵所在,需要首先分析異質緩存管理中的普遍性問題,闡明異質緩存管理的一些新的準則,在此基礎上研究新的方法。

(3)基于新型存儲架構的大數據索引

在傳統的基于“DRAM+SSD/HDD”的存儲架構下,DRAM與外存之間的I/O是影響系統查詢處理性能的瓶頸。但在基于新型存儲架構的大數據應用系統中,索引的設計不僅要考慮內外存之間的I/O代價,還要考慮異質內存之間的數據遷移代價(從DRAM到PCM以及從PCM到DRAM),此外還要考慮PCM等新型存儲的器件特性(例如芯片寫次數有限制)。另一方面,大數據應用系統往往構建在分布式環境之上,由于數據的分布以及涉及的數據量過大,傳統的單一索引機制不能從根本上解決問題。因此,需要針對新型存儲和分布式查詢處理要求,設計相應的大數據索引結構以及操作算法。

6 結束語

高效的大數據存儲與管理如果僅從軟件體系結構考慮很難取得本質性突破,因為在大數據環境下內存與外存之間的I/O瓶頸很難克服。PCM為代表的新型存儲為大數據高效存儲與實時處理提供了可能。研究適合高效大數據存儲和管理的新型存儲架構,借助創新的系統軟件設計,改變大數據處理過程中對外存I/O的依賴,有望克服目前大數據存儲與管理中的性能瓶頸,并進一步帶動大數據技術的未來發展。本文討論了新型存儲的特點以及現有大數據存儲技術的局限性,在此基礎上綜述了基于新型存儲的大數據存儲管理領域的研究現狀,最后給出了未來研究展望,以期能對新型存儲與大數據管理的未來研究提供有價值的參考。

目前,由于非易失內存技術仍處于研發階段,工業界還沒有推出真正可用的新型存儲系統,因此目前的研究還只能在新型存儲模擬器[49]上展開。隨著非易失內存芯片工藝上的突破,預計幾年內會出現可用的新型存儲系統。屆時,可以基于實際的平臺開展理論和實驗,對基于新型存儲的理論研究成果進行驗證。

點擊下方?閱讀原文?即可獲取全文

作 者 簡 介

金培權(1975-),男,博士,中國科學技術大學計算機科學與技術學院和中國科學院電磁空間信息重點實驗室副教授、碩士生導師,目前主要從事大數據與數據庫領域的研究工作,近年來主持了20余項科研項目,包括5項國家自然科學基金項目和2項“863”計劃項目,在VLDB Journal、TKDE、TPDS、ICDE、WWW等本領域著名期刊和會議上發表論文20余篇,曾獲中國科學院院長獎、NPC 2014最佳論文獎、DASFAA 2015最佳海報獎、NDBC 2012最佳論文提名獎以及NDBC 2011最佳系統演示獎。


《大數據》期刊

《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。

關注《大數據》期刊微信公眾號,獲取更多內容

總結

以上是生活随笔為你收集整理的基于新型存储的大数据存储管理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。