介绍
在做数据分析或者门户看板的时候,我们有时会有求大盘数据的分位数的需求,大部分场景在都可以通过Hive提供的分位数函数求解,但是在大数据量(几十亿+)的情况下,HIVE自带的分位数函数往往执行速度受限,极端情况需要需要执行十几小时或者在资源限制下得不到最终结果。
本文介绍几种方式,通过对sql的简单改造,更加快速执行出结果。
案例
案例一:计算过去30天内用户对主播的时长分(double类型的小数)10,25, 50,75,90分位数
案例背景:某时长优化实验需要确定策略阈值,因此需要探查下满足某个特征的用户群体对某类主播的时长分的分位数情况,以便对该人群的直播喜好属性做更精细化的划分
...大约 6 分钟