Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
生活随笔
收集整理的這篇文章主要介紹了
Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
前言
本文先通過源碼簡單過一下分區(qū)提交機(jī)制的兩個要素——即觸發(fā)(trigger)和策略(policy)的實現(xiàn),然后用合并小文件的實例說一下自定義分區(qū)提交策略的方法。
PartitionCommitTrigger
在最新的 Flink SQL 中,F(xiàn)ileSystem Connector 原生支持?jǐn)?shù)據(jù)分區(qū),并且寫入時采用標(biāo)準(zhǔn) Hive 分區(qū)格式,如下所示。
path└── datetime=2019-08-25 └── hour=11 ├── part-0.parquet ├── part-1.parquet └── hour=12 ├── part-0.parquet└── datetime=2019-08-26 └── hour=6 ├── part-0.parquet
那么,已經(jīng)寫入的分區(qū)數(shù)據(jù)何時才能對下游可見呢?這就涉及到如何觸發(fā)分區(qū)提交的問題。根據(jù)官方文檔,觸發(fā)參數(shù)有以下兩個:
-
sink.partition-commit.trigger:可選 process-time(根據(jù)處理時間觸發(fā))和 partition-time(根據(jù)從事件時間中提取的分區(qū)時間觸發(fā))。
-
sink.partition-commit.delay:分區(qū)提交的時延。如果 trigger 是 p
總結(jié)
以上是生活随笔為你收集整理的Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 说了这么久中台,那你知道中台是什么?在治
- 下一篇: Linux疑难杂症解决方案100篇(六)