當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据技术基础了解

發布時間：2023/12/14 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据技术基础了解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據技術支撐：存儲，計算，網絡

大數據兩大核心技術：分布式存儲（集群存儲）和分布式處理

大數據的典型計算模式

1.批處理計算

mapreduce是批處理計算模式的典型代表

2.流計算

實時處理以及實時響應，S4+storm+flume為代表產品

3.圖計算

4.查詢分析計算

hive是查詢分析計算典型代表

云計算：通過網絡以服務的方式為用戶提供廉價的IT資源

三種云服務

1.IaaS，基礎設施即服務

2.PaaS，平臺即服務

3.SaaS，軟件即服務

物聯網的關鍵技術：識別技術（條形碼，二維碼）和感知技術（RFID公交卡）

大數據、云計算、物聯網三者關系密不可分。

Hadoop支持多種編程環境

Hadoop兩大核心：HDFS和MapReduce

HDFS采用集群分布式存儲完成海量數據的存儲，MapReduce采用集群分布式處理完成海量數據的處理

應用

facebook采用Hadoop集群用于日志處理，推薦系統和數據倉庫等方面。

主要用于數據分析（hive，MapReduce），數據實時查詢（Hbase），和數據挖掘（mahout）

版本

Hadoop2.0新增YARN框架用于資源調度，MapReduce僅用于數據分析。

hadoop項目結構

1.HDFS對集群進行分布式存儲

2.YARN進行底層資源（內存、cpu、帶寬）的調度

3.MapReduce進行離線的批處理（非實時計算）

3.Tez構成一個有向無環圖處理流程

4.Spark類似于MapReduce，spark是基于內存計算，MapReduce是基于磁盤計算，性能優于MapReduce

5.hive是hadoop的數據倉庫。將歷史數據保存在歷史倉庫中。hive把sql語句轉成MapReduce作業

6.pig進行流數據處理，一個基于hadoop的大規模數據分析平臺，提供類似sql的查詢語言pig latin

7.Oozie是作業流調度系統

8.Zookeeper進行分布式協調一致服務，集群管理。

9.Hbase是列族數據庫，是一個非關系型的分布式數據庫，進行實時處理

10.Flume進行日志收集

11.sqoop進行關系型數據庫與hadoop之間互導數據

12.Ambari是快速部署工具。

虛擬機上安裝linux

所需軟件安裝包資源如下：

鏈接: https://pan.baidu.com/s/1eJ9aBV41sPl-yYHD1DGRaQ

提取碼: q2ra?

1.先進行虛擬機安裝包下載與安裝

2.下載Ubuntukylin-16.04

3.在虛擬機中新建虛擬機

安裝Hadoop

SSH是什么

ssh是目前為遠程登錄服務提供安全性的協議，防止遠程登錄過程中信息泄露

Hadoop集群的部署和使用

MapReduce的兩大核心組件：JobTracker和TaskTracker

JobTracker對整個的用戶進行管理，把一個大作業拆分為很多小作業，分發到不同機器執行

不同機器上安裝TaskTracker，負責跟蹤小作業

HDFS

應該實現兼容廉價的硬件設備，實現流數據的讀寫，支持大數據集，支持簡單的文件模型，強大的跨平臺特性，局限性是不滿足實時讀取需求，無法高效存儲大量小文件，不支持多用戶寫入以及任意修改文件。

開源學習社區推薦：林子雨編著《大數據技術原理與應用（第3版）》教材官網_廈門大學數據庫實驗室 (xmu.edu.cn)

ps：學這個大數據我之前以為學學MYsql就行了，然后我把mysql學的一瓶子不滿半瓶子搖，去選大數據實踐相關的選修課也沒有堅持下來退選了，正好秋招季就去投了數據相關崗位，但是筆試真的就很難，真的是專業知識一點也不能馬虎，企業的筆試會讓你的無知無所遁形。大數據的學習就到此處吧，我覺得我自動化專業自己的專業都學不精，代碼能力也很差，就不在數據和代碼這些方向卷了。

總結

以上是生活随笔為你收集整理的大数据技术基础了解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：程序员专业英语词汇
下一篇：机械自动化与计算机专业,大学机械与自动化