Sqark Sql 的percentile_approx计算中位数

percentile_approx` 聚合函数，用于计算指定列的近似分位数。具体来说，`percentile_approx` 函数的参数包括三个部分：- 第一个参数是要计算分位数的列，这里使用 `$"order_money"` 表示使用名为 "order_money" 的列进行计算。- 第二个参数是要计算的分位数的百分比，这里使用 `lit(0.5)` 表示计算中位数（50% 的分位数）。

小辉懂编程

2045人浏览 · 2023-09-28 11:22:20

小辉懂编程 · 2023-09-28 11:22:20 发布

`percentile_approx` 聚合函数，用于计算指定列的近似分位数。具体来说，`percentile_approx` 函数的参数包括三个部分：

- 第一个参数是要计算分位数的列，这里使用 `$"order_money"` 表示使用名为 "order_money" 的列进行计算。
- 第二个参数是要计算的分位数的百分比，这里使用 `lit(0.5)` 表示计算中位数（50% 的分位数）。
- 第三个参数是用于近似计算的样本大小，这里使用 `lit(10000)` 表示使用 10000 个样本进行计算。

dataframe.percentile_approx("进行聚合的列",lit(0.5),lit(10000))

类似地，你可以使用其他的聚合函数来计算其他统计指标

- 求和（Sum）：

```scala
val sumResult = df.agg(sum("order_money").as("total_sum"))
sumResult.show()
```

- 求平均值（Average）：
```scala
val avgResult = df.agg(avg("order_money").as("average"))
avgResult.show()
```

- 求众数（Mode）：
```scala
val modeResult = df.agg(expr("mode(order_money)").as("mode"))
modeResult.show()
```