了解大数据
了解大數據
一.大數據
1.大數據的定義
麥肯錫全球研究所:一種規模大到在獲取,存儲,管理,分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。
2.大數據的特點
大量,高速,多樣,價值
3.數據的結構
結構化的數據:
簡單來說就是數據庫,是由二維表結構來邏輯表達和實現的數據
非結構化的數據:
數據結構不規則或不完整,沒有預定義的數據模型
4.我們身邊有哪些是大數據
電信數據:通話數據,短信數據,手機瀏覽數據;銀行數據;微信聊天數據......
5.大數據帶來了什么
數據挖掘:
用戶畫像;知識圖譜
人工智能:
Google的 ‘ 阿爾法狗 ’;阿里巴巴的”ET“,百度的”無人駕駛汽車“
區塊鏈:
數字貨幣,物聯網
總結:
大數據就是互聯網發展到現今階段的一種表象或特征
二.人工智能
1.人工智能是什么
人工智能:英文縮寫為AI。它是研究,開發用于模擬,延伸和擴展的智能的理論,方法,技術及應用系統的一門新的技術科學
總結:大數據+深度學習=人工智能
2.人工智能三大發展要素
*計算機硬件
*算法
*數據
三.機器學習和深度學習
1.機器學習的定義
專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能
2.機器學習基本過程
機器學習是數據通過算法構建出模型并對模型進行評估,評估的性能如果達到要求就拿出這個模型來測試其他的數據,最終獲得滿意的經驗來處理其他的數據。
總結:數據導入—>數據清洗—>特征工程—>訓練模型—>評估模型—>預測新數據
3.機器學習的分類
監督學習,無監督學習,半監督學習,強化學習。
4.算法的分類
回歸算法(監督學習),聚類算法,分類算法,神經網絡,將維算法,SVM支持向量機,推薦算法(t特殊),其他算法
5.深度學習
深度學習是機器學習中一種基于數據進行表征學習的方法—含有多隱層的神經網絡
6.機器學習和深度學習的應用
廣泛用于數據挖掘,計算機視覺,自然語言處理,生物特征識別機器人領域等。
四.數據挖掘
1.什么是數據挖掘
從大量的數據中挖掘出隱含的,未知的,用戶可能感興趣的和對決策有潛在價值的知識和規則
簡單的說,數據挖掘就是從大量的數據中發現有用信息的過程
2.數據挖掘怎么挖數據
通過大數據(數據,分布式技術)和挖掘算法(機器學習算法)
3.挖掘能做什么
用戶可能感興趣的和對決策有潛在價值的知識和規則
五.大數據技術體系
1.大數據體系
開發語言:Java ,Python,Scala;
分布式存儲:Hdfs,Hbase,Redis,Mongedb;
分布式計算:Mapreducer,Sark Core,Storm;
數據倉庫技術:Hive ,Sqoop,Flume,Spark SQL
機器學習:Mahout,Scikit—lean,MLlib
2.分布式計算
分布式計算將該應用分解為許多小的部分,分配給多臺計算機進行處理。
六.學習大數據之前的準備
1.掌握一門大數據開發語言
-Java
必須掌握J2SE,jdbc,JS,sql語句,sevlet,jsp,spring框架等。
見百戰程序員Java1000集視頻
-Python
必須掌握Python語法,Python面向對象,Python數據庫等
見百戰程序員1000集視頻
-熟悉linux
-數列linux常用命令
七.大數據職位介紹
按需求排序:數據挖掘工程師;
Spark開發工程師,數據倉庫工程師,Hadoop開發工程師
工資
(大數據開發工程師)
(數據倉庫)
(數據倉庫)
(大數據開發工程師)
總結:數據挖掘,機器學習,算法工程師工資幾乎都超過兩萬
八.大數據簡歷怎么寫
個人資料
工資經歷
職業技能
期望薪資 填寫面議
項目經驗
自我評價
九.大數據的學習方法
·多寫代碼 (大數據偏向實戰)
—紙上得來終覺淺,絕知此事要躬行
—看再多的書,也比不上設計調試一個簡單的程序
—寫代碼和其它事情比例 7:3
·看優秀的書和視頻
—《程序員的數學》《大數據之美》等
—連續看視頻的時間不能超過30分鐘
·設計規劃
—多畫圖,數據流程圖
—多畫步驟圖。完成一個需求往往需要多個jop依次執行,每個jop做什么事情,每個jop的每個任務做什么事情
·多思考,歸納總結
—每個案例學完之后,每段代碼敲完之后,都要進行總結
—大數據編程比較靈活,一個需求往往有多種解決辦法
·多交流
—學習的時候為自己找一個“伴”
—不恥下問
·多看日志學會獨立解決問題
—解決問題只能靠日志信息
—先看日志,看不懂再問老師及其他人
·一份付出,一份回報
大數據重點課程介紹
Linux基礎
高并發集群(前兩個為后面3個做準備)
Hadoop離線計算體系
— HDFS
— Mapreduce
— Hive
— Hbase
— Sqoop,Flume,zookeeper,CDH,impala,oozie等
Sprak內存計算體系
—Spark core,Spark Sql,sprak streaming,Scala語言
機器學習
—R語言,Python機器學習,Spark MLlib
總結
- 上一篇: 豨签草的功效与作用 豨签草的药用价值_中
- 下一篇: 页面访问次数的统计