日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

50个最受欢迎的大数据面试问题

發布時間:2023/12/20 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 50个最受欢迎的大数据面试问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

50個最受歡迎的大數據面試問題

大數據時代才剛剛開始。隨著越來越多的公司傾向于大數據來運營他們的業務,對人才的需求空前高漲。這對您意味著什么?如果您想在任何大數據崗位上工作,它只會轉化為更好的機會。您可以選擇成為數據分析師,數據科學家,數據庫管理員,大數據工程師,Hadoop大數據工程師等。

50個最受歡迎的大數據面試問題

為了使您的事業有優勢,您應該為大數據面試做好充分的準備。在開始之前,重要的是要了解面試是一個您和面試官互動的地方,彼此之間只能了解對方,而不能互相了解。因此,您不必隱藏任何東西,只需誠實即可誠實地回答問題。如果您感到困惑或需要更多信息,請隨時向面試官提問。始終對您的回答誠實,并在需要時提出問題。

以下是大數據面試的主要問題,以及針對特定問題的詳細答案。對于更廣泛的問題,答案取決于您的經驗,我們將分享一些有關如何回答這些問題的提示。

基本的大數據面試問題

每當您去進行大數據面試時,面試官都會問一些基本的問題。無論您是大數據領域的新手還是經驗豐富的人,都需要具備基本知識。因此,讓我們涵蓋一些常見的基本大數據采訪問題和破解大數據采訪的答案。

1.您對“大數據”一詞有什么了解?
答: 大數據是與復雜和大型數據集相關的術語。關系數據庫無法處理大數據,這就是為什么使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,并幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。

2.大數據的五個V是什么?
答:大數據的五個V如下:

卷(Volume)-卷表示卷,即以高速率增長的數據量,即以PB為單位的數據量
速度(Velocity)–速度是數據增長的速度。社交媒體在增長數據的速度中起著重要作用。
多樣性(Variety)–多樣性是指不同的數據類型,即各種數據格式,例如文本,音頻,視頻等。
準確性(Veracity)–準確性是指可用數據的不確定性。由于大量數據帶來不完整和不一致,因此會出現準確性。
價值(Value)–價值是指將數據轉化為價值。通過將訪問的大數據轉化為價值,企業可以產生收入。

注意: 這是大數據采訪中提出的基本且重要的問題之一。如果您看到面試官有興趣了解更多信息,則可以選擇詳細解釋五個V。但是,如果有人詢問“大數據”一詞,甚至可以提及這些名稱。

3.告訴我們大數據和Hadoop之間的關系。
答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門用于大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據并幫助企業做出決策。

注意: 在大數據采訪中通常會問這個問題。 可以進一步去回答這個問題,并試圖解釋的Hadoop的主要組成部分。

4.大數據分析如何有助于增加業務收入?
答:大數據分析對于企業來說已經變得非常重要。它可以幫助企業與眾不同,并增加收入。通過預測分析,大數據分析為企業提供了定制的建議。此外,大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。

5.解釋部署大數據解決方案應遵循的步驟。
答:以下是部署大數據解決方案的三個步驟–

(1)資料擷取

部署大數據解決方案的第一步是數據攝取,即從各種來源提取數據。數據源可以是Salesforce之類的CRM,SAP之類的企業資源計劃系統,MySQL之類的RDBMS或任何其他日志文件,文檔,社交媒體源等。可以通過批處理作業或實時流來攝取數據。然后將提取的數據存儲在HDFS中。

(2)數據存儲

提取數據后,下一步是存儲提取的數據。數據可以存儲在HDFS或NoSQL數據庫(即HBase)中。HDFS存儲適用于順序訪問,而HBase適合隨機讀取/寫入訪問。

(3)數據處理

部署大數據解決方案的最后一步是數據處理。數據通過Spark,MapReduce,Pig等處理框架之一進行處理。

6.定義HDFS和YARN的各個組件
答: HDFS的兩個主要組成部分是-

NameNode –這是主節點,用于處理HDFS中數據塊的元數據信息
DataNode / Slave節點–這是一個充當從節點存儲數據,供NameNode處理和使用的節點
除了滿足客戶端請求之外,NameNode還執行以下兩個角色之一:

CheckpointNode –它在與NameNode不同的主機上運行
BackupNode-這是一個只讀的NameNode,其中包含文件系統元數據信息(不包括塊位置)

YARN的兩個主要組成部分是–

ResourceManager –此組件接收處理請求,并根據處理需要相應地分配給相應的NodeManager。
NodeManager –在每個數據節點上執行任務
7.為什么將Hadoop用于大數據分析?
答: 由于數據分析已成為業務的關鍵參數之一,因此,企業正在處理大量的結構化,非結構化和半結構化數據。在Hadoop以其以下功能為主要角色的情況下,分析非結構化數據非常困難

存儲
處理中
數據采集
此外,Hadoop是開源的,并在商品硬件上運行。因此,它是企業的成本效益解決方案。

8.什么是fsck?
答: fsck代表文件系統檢查。這是HDFS使用的命令。此命令用于檢查不一致以及文件中是否存在任何問題。例如,如果文件缺少任何塊,則HDFS將通過此命令得到通知。

  • NAS(網絡附加存儲)和HDFS之間的主要區別是什么?
    答: NAS(網絡附加存儲)和HDFS之間的主要區別–
  • HDFS在計算機集群上運行,而NAS在單臺計算機上運行。因此,數據冗余是HDFS中的常見問題。相反,對于NAS,復制協議是不同的。因此,數據冗余的機會要少得多。
    對于HDFS,數據將作為數據塊存儲在本地驅動器中。對于NAS,它存儲在專用硬件中。
    10.格式化NameNode的命令是什么?
    答案: $ hdfs namenode -format

    基于經驗的大數據面試問題
    如果您在大數據世界中有相當豐富的工作經驗,那么根據您以前的經驗,您將在大數據采訪中被問到許多問題。這些問題可能只是與您的經驗或場景有關。因此,請準備好這些最佳的大數據面試問題和答案

    11.您有大數據經驗嗎?如果是這樣,請與我們分享。
    處理方法: 由于該問題是主觀問題,因此沒有具體答案,并且答案取決于您以前的經驗。在大數據采訪中問這個問題時,采訪者想了解您以前的經驗,并且還試圖評估您是否適合項目要求。

    那么,您將如何處理這個問題?如果您以前有經驗,請從以前的職務開始,然后慢慢地在對話中添加細節。告訴他們您使項目成功的貢獻。這個問題通常 是面試中問到的第二個 或第三個問題。后面的問題基于此問題,因此請仔細回答。您還應注意不要過度處理以前的工作。保持簡單明了。

    12.您喜歡好的數據還是好的模型?為什么?
    如何處理: 這是一個棘手的問題,但通常在大數據采訪中會問到。它要求您在良好的數據或良好的模型之間進行選擇。作為候選人,您應該嘗試根據自己的經驗來回答。許多公司希望遵循嚴格的數據評估流程,這意味著他們已經選擇了數據模型。在這種情況下,擁有良好的數據可能會改變游戲規則。另一種方法是根據良好的數據選擇模型。

    如前所述,請根據您的經驗進行回答。但是,不要說擁有良好的數據和良好的模型很重要,因為在現實生活中很難同時擁有兩者。

    13.您是否會優化算法或代碼以使其運行更快?
    如何處理: 這個問題的答案應該始終是“是”。現實世界中的性能很重要,它并不取決于您在項目中使用的數據或模型。

    面試官也可能想知道您以前是否有代碼或算法優化方面的經驗。對于初學者而言,這顯然取決于他過去從事的項目。經驗豐富的候選人也可以相應地分享他們的經驗。但是,請誠實對待您的工作,如果您過去沒有優化代碼,那也很好。只要讓面試官知道您的實際經驗,您就可以破解大數據面試。

    14.您如何進行數據準備?
    如何進行: 數據準備是大數據項目中的關鍵步驟之一。大數據采訪可能涉及基于數據準備的至少一個問題。當面試官問您這個問題時,他想知道您在數據準備過程中采取了哪些步驟或預防措施。

    如您所知,需要進行數據準備才能獲得必要的數據,然后可以將這些數據進一步用于建模目的。您應該將此信息傳達給面試官。您還應該強調將要使用的模型的類型以及選擇該特定模型的原因。最后但并非最不重要的一點,您還應該討論重要的數據準備術語,例如轉換變量,離群值,非結構化數據,識別差距等。

    15.如何將非結構化數據轉換為結構化數據?
    如何處理: 非結構化數據在大數據中非常常見。應將非結構化數據轉換為結構化數據,以確保進行正確的數據分析。您可以通過簡要區分兩者來開始回答問題。完成后,您現在可以討論將一種形式轉換為另一種形式的方法。您也可能會分享實際情況。如果您剛畢業,則可以共享與您的學術項目有關的信息。

    通過正確回答此問題,您表示您已了解結構化和非結構化數據的類型,并且具有處理這些數據的實踐經驗。如果您具體回答該問題,那么您肯定可以破解大數據采訪。

    16.哪種硬件配置最適合Hadoop作業?
    配置4/8 GB RAM和ECC內存的雙處理器或核心計算機是運行Hadoop操作的理想選擇。但是,硬件配置會根據特定于項目的工作流和處理流程而有所不同,因此需要進行相應的自定義。

    17.當兩個用戶嘗試訪問HDFS中的同一文件時會發生什么?
    HDFS NameNode僅支持獨占寫入。因此,只有第一個用戶將獲得文件訪問許可,而第二個用戶將被拒絕。

    18.NameNode出現故障時如何恢復?
    需要執行以下步驟以使Hadoop集群正常運行:

    使用文件系統元數據副本FsImage來啟動新的NameNode。
    配置數據節點以及客戶端,使它們確認新啟動的名稱節點。
    一旦新的NameNode完成加載最后一個從DataNode接收到足夠阻止報告的檢查點FsImage,它將開始為客戶端提供服務。
    對于大型Hadoop集群,NameNode恢復過程會耗費大量時間,這對于例行維護來說是一個更大的挑戰。

    19.您對Hadoop中的Rack Awareness了解什么?
    這是應用于NameNode的算法,用于確定如何放置塊及其副本。根據機架定義,在同一機架內的DataNode之間將網絡流量最小化。例如,如果我們將復制因子設為3,則將兩個副本放在一個機架中,而將第三副本放在一個單獨的機架中。

    20.“ HDFS塊”和“輸入分割”之間有什么區別?
    HDFS將輸入數據物理上劃分為塊進行處理,這稱為HDFS塊。

    輸入拆分是映射器對數據的邏輯劃分,用于映射操作。

    基本大數據Hadoop面試問題
    Hadoop是最受歡迎的大數據框架之一,如果您要進行Hadoop面試,請準備好有關Big Data Hadoop的這些基本級別的面試問題。無論您打算進行Hadoop開發人員還是Hadoop管理員面試,這些問題都將對您有所幫助。

    21.解釋Hadoop和RDBMS之間的區別。
    答: Hadoop和RDBMS之間的區別如下

    22.Hadoop中常見的輸入格式是什么?
    答:以下是Hadoop中常見的輸入格式–

    文本輸入格式– Hadoop中定義的默認輸入格式是文本輸入格式。
    序列文件輸入格式–要讀取序列中的文件,請使用序列文件輸入格式。
    鍵值輸入格式–用于純文本文件(分成幾行的文件)的輸入格式是鍵值輸入格式。
    23.解釋Hadoop的一些重要功能。
    答: Hadoop支持大數據的存儲和處理。它是應對大數據挑戰的最佳解決方案。Hadoop的一些重要功能是–

    開源– Hadoop是一個開源框架,這意味著它是免費提供的。同樣,允許用戶根據他們的要求更改源代碼。
    分布式處理– Hadoop支持數據的分布式處理,即更快的處理。Hadoop HDFS中的數據以分布式方式存儲,而MapReduce負責數據的并行處理。
    容錯– Hadoop具有高度的容錯能力。默認情況下,它將為每個塊在不同節點上創建三個副本。該編號可以根據需要進行更改。因此,如果一個節點發生故障,我們可以從另一節點恢復數據。節點故障的檢測和數據恢復是自動完成的。
    可靠性– Hadoop以可靠的方式將數據存儲在群集上,而與計算機無關。因此,存儲在Hadoop環境中的數據不受計算機故障的影響。
    可伸縮性– Hadoop的另一個重要功能是可伸縮性。它與其他硬件兼容,我們可以輕松地將新硬件裝配到節點上。
    高可用性–即使在硬件出現故障之后,也可以訪問存儲在Hadoop中的數據。如果發生硬件故障,可以從其他路徑訪問數據。
    24.解釋Hadoop運行的不同模式。
    答: Apache Hadoop在以下三種模式下運行–

    獨立(本地)模式–默認情況下,Hadoop以本地模式運行,即在非分布式單節點上運行。此模式使用本地文件系統執行輸入和輸出操作。此模式不支持使用HDFS,因此用于調試。在此模式下,配置文件不需要自定義配置。
    偽分布式模式–在偽分布式模式下,Hadoop與獨立模式一樣在單個節點上運行。在這種模式下,每個守護程序都在單獨的Java進程中運行。由于所有守護程序都在單個節點上運行,因此主節點和從節點都存在相同的節點。
    完全分布式模式–在完全分布式模式下,所有守護程序都在單獨的單個節點上運行,因此形成了多節點集群。主節點和從節點有不同的節點。
    25.解釋Hadoop的核心組件。
    答: Hadoop是一個開源框架,旨在以分布式方式存儲和處理大數據。Hadoop的核心組件是–

    HDFS(Hadoop分布式文件系統)– HDFS是Hadoop的基本存儲系統。在商用硬件群集上運行的大型數據文件存儲在HDFS中。即使硬件出現故障,它也可以以可靠的方式存儲數據。

    Hadoop MapReduce – MapReduce是負責數據處理的Hadoop層。它編寫一個應用程序來處理存儲在HDFS中的非結構化和結構化數據。通過將數據劃分為獨立的任務,它負責并行處理大量數據。該處理過程分為Map和Reduce兩個階段。映射是指定復雜邏輯代碼的處理的第一階段,而精簡是指定輕量級操作的處理的第二階段。
    YARN – Hadoop中的處理框架是YARN。它用于資源管理,并提供多個數據處理引擎,即數據科學,實時流和批處理。

    26.“ MapReduce”程序中的配置參數是什么?
    “ MapReduce”框架中的主要配置參數為:

    作業在分布式文件系統中的輸入位置
    作業在分布式文件系統中的輸出位置
    數據輸入格式
    數據輸出格式
    包含map函數的類
    包含reduce函數的類
    JAR文件,其中包含映射器,reducer和驅動程序類
    27. HDFS中的塊是什么,在Hadoop 1和Hadoop 2中其默認大小是多少?我們可以更改塊大小嗎?
    塊是硬盤中最小的連續數據存儲。對于HDFS,塊跨Hadoop群集存儲。

    Hadoop 1中的默認塊大小為:64 MB
    Hadoop 2中的默認塊大小為:128 MB
    是的,我們可以使用hdfs-site.xml文件中的參數dfs.block.size 更改塊大小。

    28.什么是MapReduce框架中的分布式緩存
    分布式緩存是Hadoop MapReduce框架的一項功能,用于緩存應用程序的文件。Hadoop框架使緩存文件可用于數據節點上運行的每個映射/減少任務。因此,數據文件可以在指定作業中作為本地文件訪問緩存文件。

    29.Hadoop的三種運行模式是什么?
    Hadoop的三種運行模式如下:

    (1)獨立或本地:這是默認模式,不需要任何配置。在這種模式下,Hadoop的以下所有組件均使用本地文件系統,并在單個JVM上運行–

    名稱節點
    數據節點
    資源管理器
    節點管理器
    (2)偽分布式:在這種模式下,所有主和從Hadoop服務都在單個節點上部署和執行。

    (3)完全分布式:在這種模式下,Hadoop主服務和從服務在單獨的節點上部署和執行。

    30.在Hadoop中解釋JobTracker
    JobTracker是Hadoop中的JVM流程,用于提交和跟蹤MapReduce作業。

    JobTracker按順序在Hadoop中執行以下活動–

    JobTracker接收客戶端應用程序提交給作業跟蹤器的作業
    JobTracker通知NameNode確定數據節點
    JobTracker根據可用的插槽分配TaskTracker節點。
    它在分配的TaskTracker節點上提交工作,
    JobTracker監視TaskTracker節點。
    任務失敗時,將通知JobTracker并決定如何重新分配任務。
    Hadoop開發人員面試問題復習
    破解Hadoop開發人員面試并不容易,但是準備工作可以完成所有工作。如果您是新手,請學習Hadoop概念并進行適當的準備。對不同的文件系統,Hadoop版本,命令,系統安全性等有充分的了解。以下幾個問題可以幫助您通過Hadoop開發人員面試。

    31.Hadoop中有哪些不同的配置文件?
    答: Hadoop中的不同配置文件是–

    core-site.xml –此配置文件包含Hadoop核心配置設置,例如I / O設置,這對于MapReduce和HDFS非常常見。它使用主機名端口。

    mapred-site.xml –此配置文件通過設置mapreduce.framework.name為MapReduce指定框架名稱

    hdfs-site.xml –此配置文件包含HDFS守護程序配置設置。它還在HDFS上指定默認阻止權限和復制檢查。

    yarn-site.xml –此配置文件指定ResourceManager和NodeManager的配置設置。

    32.Hadoop 2和Hadoop 3有什么區別?
    答:以下是Hadoop 2和Hadoop 3之間的區別–

    33.如何在Hadoop中實現安全性?
    答: Kerberos用于在Hadoop中實現安全性。使用Kerberos時,共有3個步驟可以高層訪問服務。每個步驟都涉及與服務器的消息交換。

    身份驗證–第一步涉及到客戶端對身份驗證服務器的身份驗證,然后向客戶端提供帶時間戳的TGT(票證授予票證)。
    授權–在此步驟中,客戶端使用收到的TGT向TGS(票證授予服務器)請求服務票證。
    服務請求–這是在Hadoop中實現安全性的最后一步。然后,客戶端使用服務票證向服務器進行身份驗證。
    34.什么是商品硬件?
    答:商品硬件是一種可用性較低,質量較低的低成本系統。商品硬件由RAM組成,因為它執行許多需要RAM才能執行的服務。一個不需要高端硬件配置或超級計算機即可運行Hadoop,它可以在任何商用硬件上運行。

    35.NFS與HDFS有何不同?
    答:有許多分布式文件系統以它們自己的方式工作。NFS(網絡文件系統)是最古老和流行的分布式文件存儲系統之一,而HDFS(Hadoop分布式文件系統)是最近使用和流行的處理大數據的系統。 NFS和HDFS之間的主要區別如下:

    36.Hadoop MapReduce如何工作?
    MapReduce操作分為兩個階段。

    映射階段–在此階段,輸入數據由映射任務拆分。地圖任務并行運行。這些拆分數據用于分析目的。
    減少階段-在此階段,從整個集合中匯總相似的拆分數據并顯示結果。
    37.什么是MapReduce?您運行MapReduce程序使用的語法是什么?
    MapReduce是Hadoop中的一種編程模型,用于在計算機集群(通常稱為HDFS)上處理大型數據集。它是一個并行編程模型。

    運行MapReduce程序的語法為– hadoop_jar_file.jar / input_path / output_path 。

    38.NameNode,Task Tracker和Job Tracker的端口號是什么?
    NameNode –端口50070
    任務跟蹤器–端口50060
    作業跟蹤器–端口50030
    39.HDFS中文件或目錄級別的文件權限有哪些不同?
    Hadoop分布式文件系統(HDFS)對文件和目錄使用特定的權限模型。HDFS中使用了以下用戶級別–

    所有者

    其他。
    對于上述每個用戶,以下權限均適用–

    讀(r)
    寫(w)
    執行(x)。
    上面提到的權限對文件和目錄的作用不同。

    對于文件–

    在[R 權限是用于讀取文件
    該Wˉˉ 許可是寫一個文件。
    對于目錄–

    在[R 權限列出內容的特定目錄。
    該Wˉˉ 權限創建或刪除一個目錄。
    該X 許可是用于訪問子目錄。
    40. Mapper的基本參數是什么?
    映射器的基本參數是

    長寫和文本
    文字和可寫
    經驗豐富的Hadoop開發人員面試問題
    面試官對經驗豐富的Hadoop開發人員抱有更高的期望,因此他的問題是單一層次的。因此,如果您已獲得一些經驗,請不要忘記涵蓋基于命令,基于場景,基于真實經驗的問題。在這里,我們為經驗豐富的Hadoop開發人員帶來了一些樣本面試問題。

    41.如何重新啟動Hadoop中的所有守護程序?
    答:要重新啟動所有守護程序,需要首先停止所有守護程序。Hadoop目錄包含sbin目錄,該目錄存儲腳本文件以在Hadoop中停止和啟動守護程序。

    使用stop daemons命令/sbin/stop-all.sh停止所有守護程序,然后使用/sin/start-all.sh命令再次啟動所有守護程序。

    42.Hadoop中jps命令的用途是什么?
    答: jps命令用于檢查Hadoop守護程序是否正常運行。此命令顯示在計算機上運行的所有守護程序,即Datanode,Namenode,NodeManager,ResourceManager等。

    43.說明覆蓋HDFS中復制因子的過程。
    答:有兩種方法可以覆蓋HDFS中的復制因子–

    方法1:基于文件

    在此方法中,使用Hadoop FS Shell根據文件更改復制因子。用于此的命令是:

    $ hadoop fs – setrep –w2 / my / test_file

    在這里,test_file是復制因子將設置為2的文件名。

    方法2:基于目錄

    在這種方法中,復制因子將基于目錄進行更改,即,修改給定目錄下所有文件的復制因子。

    $ hadoop fs –setrep –w5 / my / test_dir

    在這里,test_dir是目錄的名稱,該目錄及其中所有文件的復制因子將設置為5。

    44.沒有任何數據的NameNode會發生什么?
    答:沒有任何數據的NameNode在Hadoop中不存在。如果存在NameNode,它將包含一些數據,否則將不存在。

    45.說明NameNode恢復過程。
    答: NameNode恢復過程涉及以下使Hadoop集群運行的步驟:

    在恢復過程的第一步中,文件系統元數據副本(FsImage)啟動一個新的NameNode。
    下一步是配置數據節點和客戶端。然后,這些DataNode和客戶端將確認新的NameNode。
    在最后一步中,新的NameNode在最后一個檢查點FsImage加載完成并從DataNode接收塊報告后開始為客戶端提供服務。
    注意:別忘了,在大型Hadoop集群上,此NameNode恢復過程會消耗大量時間。因此,這使得日常維護變得困難。因此,建議使用HDFS高可用性體系結構。

    46.Hadoop CLASSPATH對啟動或停止Hadoop守護程序有何必要?
    CLASSPATH包含必要的目錄,其中包含用于啟動或停止Hadoop守護程序的jar文件。因此,設置CLASSPATH對于啟動或停止Hadoop守護程序至關重要。

    但是,每次設置CLASSPATH都不是我們遵循的標準。通常,CLASSPATH是寫在/etc/hadoop/hadoop-env.sh文件中的。因此,一旦我們運行Hadoop,它將自動加載CLASSPATH。

    47.為什么HDFS僅適用于大型數據集,而不適用于許多小型文件的正確工具?
    這是由于NameNode的性能問題。通常,為NameNode分配了巨大的空間來存儲大型文件的元數據。為了獲得最佳的空間利用和成本效益,元數據應該來自單個文件。對于小文件,NameNode不會利用整個空間,這是性能優化的問題。

    48.為什么我們需要Hadoop中的數據局部性?說明。
    HDFS中的數據集在Hadoop集群的DataNodes中存儲為塊。在執行MapReduce作業期間,各個Mapper會處理塊(輸入拆分)。如果數據不在映射器執行作業的同一節點中,則需要通過網絡將數據從DataNode復制到映射器DataNode。

    現在,如果一個MapReduce作業具有100個以上的Mapper,并且每個Mapper嘗試同時復制集群中其他DataNode的數據,則將導致嚴重的網絡擁塞,這是整個系統的一個大性能問題。因此,數據接近計算是一種有效且具有成本效益的解決方案,在技術上被稱為Hadoop中的數據本地性。它有助于提高系統的整體吞吐量。

    數據局部性可以分為三種類型:

    本地數據– 這種類型的數據和映射器位于同一節點上。這是最接近的數據,也是最優選的方案。
    本地機架– 在這種情況下,映射器和數據位于同一機架上,但位于不同的數據節點上。
    不同的機架– 在這種情況下,映射器和數據位于不同的機架上。
    49. DFS可以處理大量數據,那么為什么我們需要Hadoop框架?
    Hadoop不僅用于存儲大數據,而且還用于處理這些大數據。雖然DFS(分布式文件系統)也可以存儲數據,但是它缺乏以下功能-

    它不是容錯的
    網絡上的數據移動取決于帶寬。
    50.什么是Sequencefileinputformat?
    Hadoop使用一種特定的文件格式,即序列文件。序列文件將數據存儲在序列化的鍵值對中。Sequencefileinputformat是用于讀取序列文件的輸入格式。

    總結

    以上是生活随笔為你收集整理的50个最受欢迎的大数据面试问题的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。