什么是大数据?大数据用来干嘛?
1、何為大數(shù)據(jù)?
大數(shù)據(jù)是指很多很多的數(shù)據(jù),主要源于web2.0之后,數(shù)據(jù)庫中的數(shù)據(jù)量累計起來很龐大,在對數(shù)據(jù)進行操作(主要指查詢)會變得很慢,對機器的性能要求會很高,如果數(shù)據(jù)量達到足夠大(如十幾億),那服務(wù)器會崩潰的
2、大數(shù)據(jù)解決什么問題?
大數(shù)據(jù)解決對海量數(shù)據(jù)的存儲、查詢、分析計算等操作,主要應(yīng)用在利用龐大的數(shù)據(jù)歸類分析用戶的偏好,利用用戶的歷史信息得出相應(yīng)的統(tǒng)計賬單等,將同行業(yè)的大公司的數(shù)據(jù)進行計算分析,可以挖掘出一些隱含價值。
3、學習大數(shù)據(jù)的基礎(chǔ)
1)java SE,EE(SSM)?
因為90%的大數(shù)據(jù)框架都是java寫的?
2)SQL?
特別是sql語句中的查詢語句,因為對數(shù)據(jù)庫的操作最多的是查詢?
使用Hadoop作為大數(shù)據(jù)的分布式存儲、計算和分析 sql的操作會重要?
3)Linux?
大數(shù)據(jù)的框架安裝在Linux操作系統(tǒng)上
4、需要學什么
*第一方面:大數(shù)據(jù)離線分析*
一般處理T+1數(shù)據(jù)(T是指日、周、月、年),處理歷史數(shù)據(jù)?
模塊1:Hadoop?
包括四大塊(common、yarn、MapReduce、HDFS)?
主要掌握環(huán)境搭建、處理數(shù)據(jù)的思想?
模塊2:Hive?
大數(shù)據(jù)數(shù)據(jù)倉庫?
通過寫SQL對數(shù)據(jù)進行操作,類似于mysql數(shù)據(jù)庫中的sql?
模塊3:HBase?
基于HDFS的NOSQL數(shù)據(jù)庫?
面向列的存儲?
協(xié)作框架:?
sqoop(橋梁:HDFS 《==》RDBMS)?
flume:收集日志文件中信息?
調(diào)度框架anzkaban,?
了解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)?
擴展前沿框架:kylin、impala、ElasticSearch(ES)
第二方面:大數(shù)據(jù)離線分析
以spark框架為主?
Scala:OOP + FP?
sparkCore:類比MapReduce?
sparkSQL:類比hive?
sparkStreaming:實時數(shù)據(jù)處理?
kafka:消息隊列?
前沿框架擴展:flink?
阿里巴巴 blink
第三方面:大數(shù)據(jù)機器學習(擴展)?
spark MLlib:機器學習庫?
pyspark編程:Python和spark的結(jié)合?
推薦系統(tǒng)?
python數(shù)據(jù)分析?
Python機器學習
大數(shù)據(jù)框架安裝功能來劃分
1、海量數(shù)據(jù)存儲:
HDFS、Hive(本質(zhì)存儲數(shù)據(jù)還是hdfs)、HBASE、ES
2、海量數(shù)據(jù)分析:
MapReduce、Spark、SQL
最原始的Hadoop框架?
數(shù)據(jù)存儲:HDFS(Hadoop Distributed File System)?
數(shù)據(jù)分析:MapReduce
Hadoop的起源?
Google的三篇論文?
雖然Google沒有公布這三個產(chǎn)品的源碼,?
但是他發(fā)布了這三個產(chǎn)品的詳細設(shè)計論文,?
奠定了風靡全球的大數(shù)據(jù)算法的基礎(chǔ)!
Hadoop介紹?
大數(shù)據(jù)絕大多數(shù)框架,都屬于Apache頂級項目?
http://apache.org/?
hadoop官網(wǎng):?
http://hadoop.apache.org/
分布式?
相對于【集中式】?
需要多臺機器,進行協(xié)助完成。
- 1
- 2
- 3
- 4
- 5
- 6
Hadoop也是分布式架構(gòu)?
HDFS:?
主節(jié)點:NameNode?
決定著數(shù)據(jù)存儲到那個DataNode上?
從節(jié)點:DataNode?
存儲數(shù)據(jù)
總結(jié)
以上是生活随笔為你收集整理的什么是大数据?大数据用来干嘛?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: paddleocr的加速和部署
- 下一篇: bmp怎么转换成jpg格式?