日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

读书笔记:大数据清洗技术 02

發布時間:2023/12/14 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 读书笔记:大数据清洗技术 02 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

讀書筆記:大數據清洗技術

作者:哈爾濱工業大學博導王宏志

第二章 大數據處理技術概述

? ? ? ?上一章我們主要從大數據的定義及特征,大數據的質量問題,大數據清洗技術的進展和本書的技術創新點四個方面對這本書有了初步的了解。本章我們來了解本書中會使用到的常見的大數據處理技術包括兩個部分。第一部分是基于大數據規模大和速度快的特點,講的是大數據并行計算平臺Hadoop平臺和Hyracks平臺以提高計算可拓展性,第二部分則是面對大數據多樣性的特點采取人機協同的策略,利用人的知識補充計算機處理能力的眾包技術。而我主要講一下MapReduce框架和眾包技術。

1.大數據并行計算平臺Hadoop

? ? ? ?MapReduce和HDFS二者共同構成了Hadoop平臺分布式系統的核心,缺一不可。MapReduce完成了集群上的任務處理和分布式計算,HDFS則實現了Hadoop集群上的分布式文件系統,二者共同作用,完成Hadoop平臺分布式集群的數據處理任務。

(1)MapReduce框架

? ? ? ?MapReduce可以直觀理解為“任務的分解與匯總”,通過Map和Reduce兩個過程來實現,能有效地幫助研究人員使用分布式系統來完成大規模數據集的并行運算,提高計算效率。通常由main函數先后調用Map函數和Reduce函數,其中Map過程主要是完成輸入與輸出之間的key/value對映射,而Reduce的計算過程則主要完成具有相同鍵值的ValueList的計算和輸出。具體工作流程如下:

  • Input(輸入):從指定的文件中讀取數據。

? ? ? ?原始數據→<InputKey, InputValue>

  • Map(映射):將原始數據映射成用于Reduce的數據。

? ? ? ?<InputKey, InputValue>→List<MapKey, MapValue>

  • Reduce(合并):將相同Key值的中間數據合并成最終數據。

? ? ? ?<MapKey, List<MapValue>>→<OutputKey, OutputValue>

  • Output(輸出):將最終處理結果輸出到文件。

? ? ? ?<OutputKey, OutputValue>→結果文件

? ? ? ?在Map前可能會根據想要得到的任務并行效果對輸入數據進行分割,數據分段越多,Map的并行度就越高,如果過分追求分段數量,每個分段中數據量太少,會對Map的并行度起到反作用,并且降低Reduce的運算效率。下圖為MapReduce任務處理流程圖。

(2)HDFS

? ? ? ?HDFS是Hadoop分布式文件系統,類似于一個普通的,傳統的,常見的文件系統,我們同樣可以在上面進行多種文件操作例如創建,刪除,復制粘貼等。

2. 眾包技術

? ? ? ?眾包技術的出現是基于最了解數據的還是用戶自己的原則,利用人力資源來修復數據能夠更好地減少數據偏離度,加強修復效果。眾包技術即將任務外包給分布式的一群人而并非專家,通過網絡登錄這些眾包平臺即可接受和完成任務。在眾包平臺上一個請求者提供任務,工人接受工作任務。后提交任務,經過審核評價后即可獲得報酬。一般這種任務不是特別困難,可以由一個人輕松完成。這個任務不是由計算機完成的,而是由此服務后臺的工作人員完成的,人類執行計算機提交的任務并反饋結果,因此把這個服務稱為“人工的人工智能”。例如我們常用的軟件作業幫,當我們有問題時將問題拍照上傳,系統受到任務后由后臺人員認領任務開始解題,解題結束后后臺人員同樣拍照進行上傳,由系統進行識別審核后反饋給我們,我們就可以馬上得到問題的解決方案。

? ? ? ?本書以領先的Amazon Mechanical Turk(AMT)眾包平臺為例將流程具體化。AMT平臺提供的基礎設施鏈接和付款機制,使成千上萬的人在互聯網上從事帶薪工作。AMT主要分為三部分:Amazon Mturk(AMT平臺)、Requester和Worker。

? ? ? ?Requester是指希望在AMT平臺上雇傭到人來完成一些任務。他會將任務通過指定的頁面發布到ATM平臺上。當任務被Worker完成后,Requester可以拿到相應的結果,分析這些結果是否來自Scam Worker,如果是,則有權不給這些用戶付費。

? ? ? Worker可以分成兩種: Serious Worker和Scammer。Serious Worker是指可以認真地完成任務,并希望拿到回報的Worker。而Scammer一般是指只為了賺錢而不看題目的人,因為他們有50%的概率猜中答案,相對于SeriousWorker來說他們的賺錢效率更高。

? ? ? ?AMT平臺的主要任務是制定交易規則和評級工作。例如,給Worker評級打分,當Requester發現他的Worker欺騙用戶時,他可以通過AMT平臺阻止該Worker的工作, AMT平臺可以對該Worker的表現做進一步的判斷,如果發現是ScamWorker,AMT有權暫?;蜃N用戶。

? ? ? ? 眾包平臺的特點:

  • 生產力的快速進步,使得很多人都可以有大量的自由時間來從事工作外的事情,這些基于興趣的事情能夠極大地激發自身的積極性、主動性和創造性。
  • 互聯網的普及以及互聯網經濟獨特的邊際成本趨向于零的特點,使得巨型在線交流平臺得以出現。
  • 互聯網消除了參與障礙,將整個世界連成一張網,公司就可以充分利用全世界的人才。數量龐大而多樣化的人才隊伍無疑能提出更多、更好的解決方案。
  • 消費者越來越追求多樣化,即小批量、多品種。
  • 生產者、消費者、供應商之間的界限日漸模糊。

總結

以上是生活随笔為你收集整理的读书笔记:大数据清洗技术 02的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 东京热毛片 | 亚洲精品美女 | 亚洲一区免费在线 | 午夜国产免费 | 欧美一区二区三区不卡视频 | 久草观看视频 | 国产一区2区 | 久久久久久久久久久网站 | 国产人成精品 | 欧美在线观看不卡 | 国产后入又长又硬 | 精品123区 | 欧美不卡三区 | 亚洲图片综合区 | 国产三级在线免费观看 | 久久久无码一区二区三区 | 伊人久久青青 | 久久激情小说 | 欧美性开放视频 | 日韩视频免费播放 | 国产精品久久久久久一区 | 自拍偷拍欧美视频 | 国精产品一品二品国精品69xx | 欧美精品一区二区三区四区五区 | 一本之道高清无码视频 | 久久久午夜视频 | 久久不雅视频 | 国产成人精品免高潮在线观看 | 日韩亚洲欧美综合 | 黄色成人毛片 | 成 年 人 黄 色 大 片大 全 | 宅男深夜视频 | 日本午夜激情视频 | 国产男女精品 | 秘密的基地| 成人在线视频网 | 美女被草 | 亚洲日本激情 | 国产精品网友自拍 | 亚洲人xxx日本人18 | 欧美看片 | 亚洲视频图片 | 亚洲专区一区 | jzzijzzij亚洲成熟少妇 | 成人一区二区在线观看 | 国产精品久久久久久久专区 | 岛国av中文字幕 | 先锋影视av| 在线观看视频一区 | 欧美一级影院 | 久久国产一级 | xxxwww18| 免费看女生隐私 | 欧美午夜精品一区二区 | 国产亚洲美女精品久久久2020 | 欧美韩国日本一区 | 日韩综合av | 欧美精品成人一区二区三区四区 | 亚洲天堂男人网 | 五月天综合社区 | 国产精品久久麻豆 | 欧美成人精品欧美一 | 成人涩涩软件 | 一卡二卡在线视频 | 成为性瘾网黄的yy对象后 | 四季av一区二区夜夜嗨 | 亚洲午夜av | 国产福利精品一区 | 色狠狠一区二区三区香蕉 | 激情五月激情 | 男男免费视频 | 欧美自拍色图 | 999热精品视频| 精品成人一区二区三区久久精品 | youjizzxxxxx| 久久久影院 | 久久亚洲一区二区三区四区 | 在线免费av播放 | 少妇高潮迭起 | 波多野结衣视频观看 | 一色道久久88加勒比一 | 国产青青视频 | 色呦呦呦呦 | av在线播放中文字幕 | 夜夜操影院 | 曰韩在线| 亚洲最大成人网色 | 免费欧美一区 | 少妇一级淫片免费放播放 | 亚洲天堂男人天堂 | 国产一区二区精彩视频 | 婷婷激情视频 | 韩国精品视频 | 国产美女精品视频国产 | 妓院一钑片免看黄大片 | 四季av一区二区凹凸精品 | 亚洲剧情av | 天堂а√在线中文在线 | 国产精品999久久久 在线青草 |