大数据技术基础了解
大數據技術支撐:存儲,計算,網絡
大數據兩大核心技術:分布式存儲(集群存儲)和分布式處理
大數據的典型計算模式
1.批處理計算
mapreduce是批處理計算模式的典型代表
2.流計算
實時處理以及實時響應,S4+storm+flume為代表產品
3.圖計算
4.查詢分析計算
hive是查詢分析計算典型代表
云計算:通過網絡以服務的方式為用戶提供廉價的IT資源
三種云服務
1.IaaS,基礎設施即服務
2.PaaS,平臺即服務
3.SaaS,軟件即服務
物聯網的關鍵技術:識別技術(條形碼,二維碼)和感知技術(RFID公交卡)
大數據、云計算、物聯網三者關系密不可分。
Hadoop支持多種編程環境
Hadoop兩大核心:HDFS和MapReduce
HDFS采用集群分布式存儲完成海量數據的存儲,MapReduce采用集群分布式處理完成海量數據的處理
應用
facebook采用Hadoop集群用于日志處理,推薦系統和數據倉庫等方面。
主要用于數據分析(hive,MapReduce),數據實時查詢(Hbase),和數據挖掘(mahout)
版本
Hadoop2.0新增YARN框架用于資源調度,MapReduce僅用于數據分析。
hadoop項目結構
1.HDFS對集群進行分布式存儲
2.YARN進行底層資源(內存、cpu、帶寬)的調度
3.MapReduce進行離線的批處理(非實時計算)
3.Tez構成一個有向無環圖處理流程
4.Spark類似于MapReduce,spark是基于內存計算,MapReduce是基于磁盤計算,性能優于MapReduce
5.hive是hadoop的數據倉庫。將歷史數據保存在歷史倉庫中。hive把sql語句轉成MapReduce作業
6.pig進行流數據處理,一個基于hadoop的大規模數據分析平臺,提供類似sql的查詢語言pig latin
7.Oozie是作業流調度系統
8.Zookeeper進行分布式協調一致服務,集群管理。
9.Hbase是列 族數據庫,是一個非關系型的分布式數據庫,進行實時處理
10.Flume進行日志收集
11.sqoop進行關系型數據庫與hadoop之間互導數據
12.Ambari是快速部署工具。
虛擬機上安裝linux
所需軟件安裝包資源如下:
鏈接: https://pan.baidu.com/s/1eJ9aBV41sPl-yYHD1DGRaQ
提取碼: q2ra?
1.先進行虛擬機安裝包下載與安裝
2.下載Ubuntukylin-16.04
3.在虛擬機中新建虛擬機
安裝Hadoop
SSH是什么
ssh是目前為遠程登錄服務提供安全性的協議,防止遠程登錄過程中信息泄露
Hadoop集群的部署和使用
MapReduce的兩大核心組件:JobTracker和TaskTracker
JobTracker對整個的用戶進行管理,把一個大作業拆分為很多小作業,分發到不同機器執行
不同機器上安裝TaskTracker,負責跟蹤小作業
HDFS
應該實現兼容廉價的硬件設備,實現流數據的讀寫,支持大數據集,支持簡單的文件模型,強大的跨平臺特性,局限性是不滿足實時讀取需求,無法高效存儲大量小文件,不支持多用戶寫入以及任意修改文件。
開源學習社區推薦:林子雨編著《大數據技術原理與應用(第3版)》教材官網_廈門大學數據庫實驗室 (xmu.edu.cn)
ps:學這個大數據我之前以為學學MYsql就行了,然后我把mysql學的一瓶子不滿半瓶子搖,去選大數據實踐相關的選修課也沒有堅持下來退選了,正好秋招季就去投了數據相關崗位,但是筆試真的就很難,真的是專業知識一點也不能馬虎,企業的筆試會讓你的無知無所遁形。大數據的學習就到此處吧,我覺得我自動化專業自己的專業都學不精,代碼能力也很差,就不在數據和代碼這些方向卷了。
總結
- 上一篇: 程序员专业英语词汇
- 下一篇: 机械自动化与计算机专业,大学机械与自动化