python写的hadoop实战_Hadoop实战
Hadoop實戰
1 Hadoop簡介
1.1 什么是Hadoop
1.1.1 Hadoop概述
1.1.2 Hadoop的歷史
1.1.3 Hadoop的功能與作用
1.1.4 Hadoop的優勢
1.1.5 Hadoop的應用現狀和發展趨勢
1.2 Hadoop項目及其結構
1.3 Hadoop的體系結構
1.3.1 HDFS的體系結構
1.3.2 MapReduce的體系結構
1.4 Hadoop與分布式開發
1.5 Hadoop計算模型—MapReduce
1.6 Hadoop的數據管理
1.6.1 HDFS的數據管理
1.6.2 HBase的數據管理
1.6.3 Hive的數據管理
1.7 小結
2 Hadoop的安裝與配置
2.1 在Linux上安裝與配置Hadoop
2.1.1 安裝JDK 1.6
2.1.2 配置SSH免密碼登錄
2.1.3 安裝并運行Hadoop
2.2 在Windows上安裝與配置Hadoop
2.2.1 安裝Cygwin
2.2.2 配置環境變量
2.2.3 安裝和啟動sshd服務
2.2.4 配置SSH免密碼登錄
2.3 安裝和配置Hadoop集群
2.3.1 網絡拓撲
2.3.2 定義集群拓撲
2.3.3 建立和安裝Cluster
2.4 日志分析及幾個小技巧
2.5 小結
3 Hadoop應用案例分析
3.1 Hadoop在Yahoo!的應用
3.2 Hadoop在eBay的應用
3.3 Hadoop在百度的應用
3.4 Hadoop在Facebook的應用
3.5 Hadoop平臺上的海量數據排序
3.6 小結
4 MapReduce計算模型
4.1 為什么要用MapReduce
4.2 MapReduce計算模型
4.2.1 MapReduce Job
4.2.2 Hadoop中的Hello World程序
4.2.3 MapReduce的數據流和控制流
4.3 MapReduce任務的優化
4.4 Hadoop流
4.4.1 Hadoop流的工作原理
4.4.2 Hadoop流的命令
4.4.3 實戰案例:添加Bash程序和Python程序到Hadoop流中
4.5 Hadoop Pipes
4.6 小結
5 開發MapReduce應用程序
5.1 系統參數的配置
5.2 配置開發環境
5.3 編寫MapReduce程序
5.3.1 Map處理
5.3.2 Reduce處理
5.4 本地測試
5.5 運行MapReduce程序
5.5.1 打包
5.5.2 在本地模式下運行
5.5.3 在集群上運行
5.6 網絡用戶界面
5.6.1 JobTracker頁面
5.6.2 工作頁面
5.6.3 返回結果
5.6.4 任務頁面
5.6.5 任務細節頁面
5.7 性能調優
5.8 MapReduce工作流
5.8.1 將問題分解成MapReduce工作
5.8.2 運行相互依賴的工作
5.9 小結
6 MapReduce應用案例
6.1 單詞計數
6.1.1 實例描述
6.1.2 設計思路
6.1.3 程序代碼
6.1.4 代碼解讀
6.1.5 程序執行
6.1.6 代碼結果
6.2 數據去重
6.2.1 實例描述
6.2.2 設計思路
6.2.3 程序代碼
6.3 排序
6.3.1 實例描述
6.3.2 設計思路
6.3.3 程序代碼
6.4 單表關聯
6.4.1 實例描述
6.4.2 設計思路
6.4.3 程序代碼
6.5 多表關聯
6.5.1 實例描述
6.5.2 設計思路
6.5.3 程序代碼
6.6 小結
7 MapReduce工作機制
7.1 MapReduce作業的執行流程
7.1.1 MapReduce任務的執行總流程
7.1.2 提交作業
7.1.3 初始化作業
7.1.4 分配任務
7.1.5 執行任務
7.1.6 更新任務執行進度和狀態
7.1.7 完成作業
7.2 錯誤處理機制
7.2.1 硬件故障
7.2.2 任務失敗
7.3 作業調度機制
7.4 shuffle和排序
7.4.1 map端
7.4.2 reduce端
7.4.3 shuffle過程的優化
7.5 任務執行
7.5.1 推測式執行
7.5.2 任務JVM重用
7.5.3 跳過壞記錄
7.5.4 任務執行環境
7.6 小結
8 Hadoop I/O操作
8.1 I/O操作中的數據檢查
8.2 數據的壓縮
8.2.1 Hadoop對壓縮工具的選擇
8.2.2 壓縮分割和輸入分割
8.2.3 在MapReduce程序中使用壓縮
8.3 數據的I/O中序列化操作
8.3.1 Writable類
8.3.2 實現自己的Hadoop數據類型
8.4 針對MapReduce的文件類
8.4.1 SequenceFile類
8.4.2 MapFile類
8.5 小結
9 HDFS詳解
9.1 Hadoop的文件系統
9.2 HDFS簡介
9.3 HDFS體系結構
9.3.1 HDFS的相關概念
9.3.2 HDFS的體系結構
9.4 HDFS的基本操作
9.4.1 HDFS的命令行操作
9.4.2 HDFS的Web界面
9.5 HDFS常用Java API詳解
9.5.1 使用Hadoop URL讀取數據
9.5.2 使用FileSystem API讀取數據
9.5.3 創建目錄
9.5.4 寫數據
9.5.5 刪除數據
9.5.6 文件系統查詢
9.6 HDFS中的讀寫數據流
9.6.1 文件的讀取
9.6.2 文件的寫入
9.6.3 一致性模型
9.7 HDFS命令詳解
9.7.1 通過distcp進行并行復制
9.7.2 HDFS的平衡
9.7.3 使用Hadoop歸檔文件
9.7.4 其他命令
9.8 小結
10 Hadoop的管理
10.1 HDFS文件結構
10.2 Hadoop的狀態監視和管理工具
10.2.1 審計日志
10.2.2 監控日志
10.2.3 Metrics
10.2.4 Java管理擴展
10.2.5 Ganglia
10.2.6 Hadoop管理命令
10.3 Hadoop集群的維護
10.3.1 安全模式
10.3.2 Hadoop的備份
10.3.3 Hadoop的節點管理
10.3.4 系統升級
10.4 小結
11 Hive詳解
11.1 Hive簡介
11.1.1 Hive的數據存儲
11.1.2 Hive的元數據存儲
11.2 Hive的基本操作
11.2.1 在集群上安裝Hive
11.2.2 配置Hive
11.3 Hive QL詳解
11.3.1 數據定義(DDL)操作
11.3.2 數據操作(DML)
11.3.3 SQL操作
11.3.4 Hive QL的使用實例
11.4 Hive的網絡(WebUI)接口
11.5 Hive的JDBC接口
11.6 Hive的優化
11.7 小結
12 HBase詳解
12.1 HBase簡介
12.2 HBase的基本操作
12.2.1 HBase的安裝
12.2.2 運行HBase
12.2.3 HBase Shell
12.2.4 HBase配置
12.3 HBase體系結構
12.4 HBase數據模型
12.4.1 數據模型
12.4.2 概念視圖
12.4.3 物理視圖
12.5 HBase與RDBMS
12.6 HBase與HDFS
12.7 HBase客戶端
12.8 Java API
12.9 HBase編程實例之MapReduce
12.10 模式設計
12.10.1 學生表
12.10.2 事件表
12.11 小結
13 Mahout詳解
13.1 Mahout簡介
13.2 Mahout的安裝和配置
13.3 Mahout API簡介
13.4 Mahout中的聚類和分類
13.4.1 什么是聚類和分類
13.4.2 Mahout中的數據表示
13.4.3 將文本轉化成向量
13.4.4 Mahout中的聚類、分類算法
13.4.5 算法應用實例
13.5 Mahout應用:建立一個推薦引擎
13.5.1 推薦引擎簡介
13.5.2 使用Taste構建一個簡單的推薦引擎
13.5.3 簡單分布式系統下基于產品的推薦系統簡介
13.6 小結
14 Pig詳解
14.1 Pig簡介
14.2 Pig的安裝和配置
14.2.1 Pig的安裝條件
14.2.2 Pig的下載、安裝和配置
14.2.3 Pig運行模式
14.3 Pig Latin語言
14.3.1 Pig Latin語言簡介
14.3.2 Pig Latin的使用
14.3.3 Pig Latin的數據類型
14.3.4 Pig Latin關鍵字
14.4 用戶定義函數
14.4.1 編寫用戶定義函數
14.4.2 使用用戶定義函數
14.5 Pig實例
14.5.1 Local模式
14.5.2 MapReduce模式
14.6 Pig進階
14.6.1 數據實例
14.6.2 Pig數據分析
14.7 小結
15 ZooKeeper詳解
15.1 ZooKeeper簡介
15.1.1 ZooKeeper的設計目標
15.1.2 數據模型和層次命名空間
15.1.3 ZooKeeper中的節點和臨時節點
15.1.4 ZooKeeper的應用
15.2 ZooKeeper的安裝和配置
15.2.1 在集群上安裝ZooKeeper
15.2.2 配置ZooKeeper
15.2.3 運行ZooKeeper
15.3 ZooKeeper的簡單操作
15.3.1 使用ZooKeeper命令的簡單操作步驟
15.3.2 ZooKeeper API的簡單使用
15.4 ZooKeeper的特性
15.4.1 ZooKeeper的數據模型
15.4.2 ZooKeeper會話及狀態
15.4.3 ZooKeeper Watches
15.4.4 ZooKeeper ACL
15.4.5 ZooKeeper的一致性保證
15.5 ZooKeeper的Leader選舉
15.6 ZooKeeper鎖服務
15.6.1 ZooKeeper中的鎖機制
15.6.2 ZooKeeper提供的一個寫鎖的實現
15.7 使用ZooKeeper創建應用程序
15.8 小結
16 Avro詳解
16.1 Avro簡介
16.1.1 模式聲明
16.1.2 數據序列化
16.1.3 數據排列順序
16.1.4 對象容器文件
16.1.5 協議聲明
16.1.6 協議傳輸格式
16.1.7 模式解析
16.2 Avro的C/C++實現
16.3 Avro的Java實現
16.4 GenAvro(Avro IDL)語言
16.5 Avro SASL概述
16.6 小結
17 Chukwa詳解
17.1 Chukwa簡介
17.2 Chukwa架構
17.2.1 客戶端(Agent)及其數據模型
17.2.2 收集器(Collector)和分離解析器(Demux)
17.2.3 HICC
17.3 Chukwa的可靠性
17.4 Chukwa集群搭建
17.4.1 基本配置要求
17.4.2 安裝Chukwa
17.5 Chukwa數據流的處理
17.6 Chukwa與其他監控系統比較
17.7 小結
18 Hadoop的常用插件與開發
18.1 Hadoop Studio簡介和使用
18.1.1 Hadoop Studio的安裝和配置
18.1.2 Hadoop Studio的使用舉例
18.2 Hadoop Eclipse簡介和使用
18.2.1 Hadoop Eclipse安裝和配置
18.2.2 Hadoop Eclipse的使用舉例
18.2.3 Hadoop Eclipse插件開發
18.3 Hadoop Streaming簡介和使用
18.3.1 Hadoop Streaming的使用舉例
18.3.2 使用Hadoop Streaming時常見的問題
18.4 Hadoop Libhdfs簡介和使用
18.4.1 Hadoop Libhdfs安裝和配置
18.4.2 Hadoop Libhdfs API簡介
18.4.3 Hadoop Libhdfs的使用舉例
18.5 小結
附錄A 云計算在線檢測平臺
A.1 平臺介紹
A.2 結構和功能
A.2.1 前臺用戶接口的結構和功能
A.2.2 后臺程序運行的結構和功能
A.3 檢測流程
A.4 使用
A.4.1 功能使用
A.4.2 返回結果介紹
A.4.3 使用注意事項
A.5 小結
思維導圖
防止博客圖床圖片失效,防止圖片源站外鏈:
思維導圖在線編輯鏈接:
總結
以上是生活随笔為你收集整理的python写的hadoop实战_Hadoop实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 忘记用英语怎么说 忘记的英语是什么
- 下一篇: python psycopg2使用_Py