一.数据表数据一致且翻倍

这里准备了两个测试表,表一为原表,表二为重复表

#1.ReplacingMergeTree引擎去重
CREATE TABLE salaries3
ENGINE = ReplacingMergeTree
ORDER BY (emp_no, salary, from_date, to_date) AS
SELECT *
FROM salaries2

#2.聚合去重,可以适用于字段较少的表
CREATE TABLE salaries4
ENGINE = MergeTree
ORDER BY emp_no AS
SELECT
    emp_no,
    salary,
    from_date,
    to_date
FROM salaries2
GROUP BY
    emp_no,
    salary,
    from_date,
    to_date

一般生产环境的表都会有更新字段,数据更新的话,如何去掉老数据可以参考我的另一篇

ClickHouse取最新值_clickhouse 怎么按最新时间取一系列数值-CSDN博客

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐