专题导读:面向大数据处理的数据流计算技术
點擊上方藍字關注我們
專題導讀:面向大數據處理的數據流計算技術
數據流(data flow)是麻省理工學院(MIT)的Jack B.Dennis教授在20世紀70年代提出的一種計算機體系架構,這在當時是很大膽的想法。此前,馮?諾依曼在1946年提出的以存儲程序和順序執行為主要特征的體系結構是人們唯一的選擇。相對于數據流,傳統的體系結構被歸為控制流(control flow)一類。與控制流相比,數據流計算有天然的并行性,這使得它在早期超級計算機的發展歷史上產生了重要的影響。雖然數據流計算機至今沒有成為主流,但是在大數據時代,計算機有史以來的“以計算為中心”真正轉變成“以數據為中心”,數據流由于其自身的特點將重新煥發迷人的魅力。在我們承擔的國家重點研發計劃項目“面向異構體系結構的高性能分布式數據處理技術與系統”中,數據流是最重要的一個關鍵詞,從面向用戶的編程模型和工具到大數據處理的計算模型,再到GPU能力的充分發揮;從計算機集群資源管理到分布式緩存等數據管理,數據流計算的思想和技術是貫穿其中的一條主線。通過兩年來的深入研究和比較,尤其是在系統開發和應用實踐的過程中,項目組對于數據流在大數據處理中的應用有了較為深刻的認識,我們把涉及數據流計算關鍵技術的5篇文章匯集成“面向大數據處理的數據流計算技術”專題,以饗讀者,懇請批評指正。
湖南大學鄒驍鋒等人將傳統軟件工程的面向數據流分析設計方法與當前流行的大數據處理平臺的數據流編程模型的結構定義和模型參考進行了比較,給出了面向大數據處理的可視化數據流編程工具的基本框架和編程模式。
華東師范大學畢倪飛等人的文章介紹了大數據處理中的數據流計算模型,包括用以直觀描述復雜的數據處理邏輯的執行引擎層面的數據流圖,以及實現批、流統一處理的統一編程層面的數據流編程模型,分析了Spark批處理和Flink流計算中數據流圖和數據流編程模型的具體實現。
西北工業大學湯小春等人的文章討論了數據流編程模型在大數據處理領域應用帶來的計算作業類型復雜化的問題,探討了如何保證各種數據流計算作業對集群資源的共享使用,研究了數據流計算環境下的集群資源管理和調度。
東北大學袁旭初等人的文章討論了數據流計算環境下的數據緩存問題。在Google Dataflow、Flink、Spark、TensorFlow等異構/分布式數據流計算系統中,算子和數據不再統一存在于單機內存,容易造成數據堆積或者算子閑置等問題。設計面向數據流的緩存系統,通過消息隊列系統進行支持是未來的方向之一。
國防科技大學蘇華友等人的文章從數據流模型的角度分析了英偉達GPU的體系結構以及CUDA編程模型,闡述了數據流模型在GPU軟硬件系統中的應用,并分析了如何將數據流計算思想和GPU應用于大數據處理。
面向大數據處理的數據流計算技術具有廣闊的發展前景。以上5篇文章自頂向下系統地介紹了數據流計算的關鍵技術,可以建構支持大數據分布式處理的全棧式數據流計算框架。但由于本專題篇幅有限,難以涵蓋數據流計算技術的各個方面,期待通過分享我們的基本認識和實踐經驗,推動數據流計算技術在大數據應用領域更深入地開發和應用。
作者簡介
周傲英(1965-),男,博士,華東師范大學副校長、“智能+”研究院院長、數據科學與工程學院教授。現任第七屆國務院學位委員會學科評議組成員,中國計算機學會會士,上海市計算機學會副理事長,《計算機學報》《大數據》期刊副主編。曾入選“長江學者計劃”特聘教授,曾獲國家杰出青年基金項目資助,主要研究方向為數據庫、數據管理、數據驅動的計算教育學,以及教育科技(EduTech)、物流科技(LogTech)等基于數據的應用科技 。
于戈(1962-),男,博士,東北大學計算機學院教授、博士生導師,中國計算機學會會士。現任中國計算機學會信息系統專業委員會主任、數據庫專業委員會委員、系統軟件專業委員會委員,《計算機學報》《軟件學報》《計算機研究與發展》等期刊編委。曾獲得“教育部跨世紀人才基金”和“中國高校青年教師獎”。主要研究方向為分布式數據庫系統、數據科學與大數據管理、區塊鏈技術與應用等 。
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
《大數據》2020年第3期目次&摘要
專題導讀:數據資產化探索
數據資產化框架初探
基于利潤最大化的數據資產價值評估模型
基于區塊鏈的數據市場
數據資產標準研究進展與建議
面向價值實現的數據資產管理體系構建
總結
以上是生活随笔為你收集整理的专题导读:面向大数据处理的数据流计算技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CyberSecurityLearni
- 下一篇: 【CyberSecurityLearni