读书笔记:大数据清洗技术 02
讀書筆記:大數據清洗技術
作者:哈爾濱工業大學博導王宏志
第二章 大數據處理技術概述
? ? ? ?上一章我們主要從大數據的定義及特征,大數據的質量問題,大數據清洗技術的進展和本書的技術創新點四個方面對這本書有了初步的了解。本章我們來了解本書中會使用到的常見的大數據處理技術包括兩個部分。第一部分是基于大數據規模大和速度快的特點,講的是大數據并行計算平臺Hadoop平臺和Hyracks平臺以提高計算可拓展性,第二部分則是面對大數據多樣性的特點采取人機協同的策略,利用人的知識補充計算機處理能力的眾包技術。而我主要講一下MapReduce框架和眾包技術。
1.大數據并行計算平臺Hadoop
? ? ? ?MapReduce和HDFS二者共同構成了Hadoop平臺分布式系統的核心,缺一不可。MapReduce完成了集群上的任務處理和分布式計算,HDFS則實現了Hadoop集群上的分布式文件系統,二者共同作用,完成Hadoop平臺分布式集群的數據處理任務。
(1)MapReduce框架
? ? ? ?MapReduce可以直觀理解為“任務的分解與匯總”,通過Map和Reduce兩個過程來實現,能有效地幫助研究人員使用分布式系統來完成大規模數據集的并行運算,提高計算效率。通常由main函數先后調用Map函數和Reduce函數,其中Map過程主要是完成輸入與輸出之間的key/value對映射,而Reduce的計算過程則主要完成具有相同鍵值的ValueList的計算和輸出。具體工作流程如下:
- Input(輸入):從指定的文件中讀取數據。
? ? ? ?原始數據→<InputKey, InputValue>
- Map(映射):將原始數據映射成用于Reduce的數據。
? ? ? ?<InputKey, InputValue>→List<MapKey, MapValue>
- Reduce(合并):將相同Key值的中間數據合并成最終數據。
? ? ? ?<MapKey, List<MapValue>>→<OutputKey, OutputValue>
- Output(輸出):將最終處理結果輸出到文件。
? ? ? ?<OutputKey, OutputValue>→結果文件
? ? ? ?在Map前可能會根據想要得到的任務并行效果對輸入數據進行分割,數據分段越多,Map的并行度就越高,如果過分追求分段數量,每個分段中數據量太少,會對Map的并行度起到反作用,并且降低Reduce的運算效率。下圖為MapReduce任務處理流程圖。
(2)HDFS
? ? ? ?HDFS是Hadoop分布式文件系統,類似于一個普通的,傳統的,常見的文件系統,我們同樣可以在上面進行多種文件操作例如創建,刪除,復制粘貼等。
2. 眾包技術
? ? ? ?眾包技術的出現是基于最了解數據的還是用戶自己的原則,利用人力資源來修復數據能夠更好地減少數據偏離度,加強修復效果。眾包技術即將任務外包給分布式的一群人而并非專家,通過網絡登錄這些眾包平臺即可接受和完成任務。在眾包平臺上一個請求者提供任務,工人接受工作任務。后提交任務,經過審核評價后即可獲得報酬。一般這種任務不是特別困難,可以由一個人輕松完成。這個任務不是由計算機完成的,而是由此服務后臺的工作人員完成的,人類執行計算機提交的任務并反饋結果,因此把這個服務稱為“人工的人工智能”。例如我們常用的軟件作業幫,當我們有問題時將問題拍照上傳,系統受到任務后由后臺人員認領任務開始解題,解題結束后后臺人員同樣拍照進行上傳,由系統進行識別審核后反饋給我們,我們就可以馬上得到問題的解決方案。
? ? ? ?本書以領先的Amazon Mechanical Turk(AMT)眾包平臺為例將流程具體化。AMT平臺提供的基礎設施鏈接和付款機制,使成千上萬的人在互聯網上從事帶薪工作。AMT主要分為三部分:Amazon Mturk(AMT平臺)、Requester和Worker。
? ? ? ?Requester是指希望在AMT平臺上雇傭到人來完成一些任務。他會將任務通過指定的頁面發布到ATM平臺上。當任務被Worker完成后,Requester可以拿到相應的結果,分析這些結果是否來自Scam Worker,如果是,則有權不給這些用戶付費。
? ? ? Worker可以分成兩種: Serious Worker和Scammer。Serious Worker是指可以認真地完成任務,并希望拿到回報的Worker。而Scammer一般是指只為了賺錢而不看題目的人,因為他們有50%的概率猜中答案,相對于SeriousWorker來說他們的賺錢效率更高。
? ? ? ?AMT平臺的主要任務是制定交易規則和評級工作。例如,給Worker評級打分,當Requester發現他的Worker欺騙用戶時,他可以通過AMT平臺阻止該Worker的工作, AMT平臺可以對該Worker的表現做進一步的判斷,如果發現是ScamWorker,AMT有權暫?;蜃N用戶。
? ? ? ? 眾包平臺的特點:
- 生產力的快速進步,使得很多人都可以有大量的自由時間來從事工作外的事情,這些基于興趣的事情能夠極大地激發自身的積極性、主動性和創造性。
- 互聯網的普及以及互聯網經濟獨特的邊際成本趨向于零的特點,使得巨型在線交流平臺得以出現。
- 互聯網消除了參與障礙,將整個世界連成一張網,公司就可以充分利用全世界的人才。數量龐大而多樣化的人才隊伍無疑能提出更多、更好的解決方案。
- 消費者越來越追求多樣化,即小批量、多品種。
- 生產者、消費者、供應商之間的界限日漸模糊。
總結
以上是生活随笔為你收集整理的读书笔记:大数据清洗技术 02的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计量大学计算机学院,计算机科学与技术
- 下一篇: npoi获取合并单元格_NPOI合并单元