Sqark Sql 的percentile_approx计算中位数
percentile_approx` 聚合函数,用于计算指定列的近似分位数。具体来说,`percentile_approx` 函数的参数包括三个部分:- 第一个参数是要计算分位数的列,这里使用 `$"order_money"` 表示使用名为 "order_money" 的列进行计算。- 第二个参数是要计算的分位数的百分比,这里使用 `lit(0.5)` 表示计算中位数(50% 的分位数)。
·
`percentile_approx` 聚合函数,用于计算指定列的近似分位数。具体来说,`percentile_approx` 函数的参数包括三个部分:
- 第一个参数是要计算分位数的列,这里使用 `$"order_money"` 表示使用名为 "order_money" 的列进行计算。
- 第二个参数是要计算的分位数的百分比,这里使用 `lit(0.5)` 表示计算中位数(50% 的分位数)。
- 第三个参数是用于近似计算的样本大小,这里使用 `lit(10000)` 表示使用 10000 个样本进行计算。
dataframe.percentile_approx("进行聚合的列",lit(0.5),lit(10000))
类似地,你可以使用其他的聚合函数来计算其他统计指标
- 求和(Sum):
```scala
val sumResult = df.agg(sum("order_money").as("total_sum"))
sumResult.show()
```
- 求平均值(Average):
```scala
val avgResult = df.agg(avg("order_money").as("average"))
avgResult.show()
```
- 求众数(Mode):
```scala
val modeResult = df.agg(expr("mode(order_money)").as("mode"))
modeResult.show()
```

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)