Kettle抽取增量数据 , 适用于大数据量初次全量抽取后,每天或者每周对源数据做增量同步抽取。

增量数据同步分为两种:

同步第一种:如图 , 插入/更新 指的是 只同步 新增和修改的数据, 在源数据表中已经被物理删除的数据不同步。

同步第二种: 如图,数据同步 指的是 同步 新增和修改,物理删除的数据 。 

今天的需求:每周或者每天同步增量数据 , 这里同步的数据指的是 源数据表中新增,修改的数据,这次说 第一种同步方式,第二种下回说。

完整流程作业图如下:  (后续会拆解梳理每步流程)

 

 

 

 第一步: 查询源表数据中需要同步的字段,和时间范围的数据;

 第二步 : 连接目标数据源,选择目标表。 通过源表和目标表中id字段来做查询对比数据.

更新字段: 需要从源表更新到目标表的字段,表字段指的是目标表的字段 , 流字段指的是源表字段,需要一一对应起来, 在更新的时候选择了N,表示不更新该字段.

 直接运行即可同步

 

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐