什么是 AWS Data Pipeline
AWS Data Pipeline 是一項 Web 服務,您可用于自動處理數據的移動和轉換。使用 AWS Data Pipeline,您可以定義數據驅動的工作流,這樣任務就可以依賴于前面任務的成功執行。您可以定義數據轉換的參數,AWS Data Pipeline 將實施您設置的邏輯。
AWS Data Pipeline 的以下組件協同工作來管理您的數據:
-
管道定義?指定數據管理的業務邏輯。有關更多信息,請參閱管道定義文件語法。
-
管道通過創建 Amazon EC2 實例以執行定義的工作活動,來計劃和運行任務。您將管道定義上傳到管道,然后激活管道。您可以編輯正在運行的管道的管道定義,并重新激活管道以使其生效。您可以停用管道,修改數據源,然后重新激活管道。完成使用管道后可以將其刪除。
-
Task Runner?將輪詢任務,然后執行這些任務。例如,Task Runner 可以將日志文件復制到 Amazon S3,然后啟動 Amazon EMR 集群。Task Runner 已安裝,并將在管道定義所創建的資源上自動運行。您可以編寫自定義任務運行程序應用程序,也可以使用 AWS Data Pipeline 提供的 Task Runner 應用程序。有關更多信息,請參閱任務運行程序。
例如,您每天可使用 AWS Data Pipeline 將 Web 服務器的日志存檔到 Amazon Simple Storage Service (Amazon S3),然后每周對這些日志運行 Amazon EMR (Amazon EMR) 集群以生成流量報告。AWS Data Pipeline 計劃每日任務來復制數據,并計劃每周任務來啟動 Amazon EMR 集群。AWS Data Pipeline 還確保 Amazon EMR 在等待最后一天的數據上傳到 Amazon S3 后,再開始其分析,即使存在不可預知的日志上傳延遲。
轉載于:https://www.cnblogs.com/cloudrivers/p/11258614.html
總結
以上是生活随笔為你收集整理的什么是 AWS Data Pipeline的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpringBoot 多环境配置
- 下一篇: 数据结构与算法:动态数组(利用万能指针实