跳至主要內容
SQL分位数计算优化

介绍

在做数据分析或者门户看板的时候,我们有时会有求大盘数据的分位数的需求,大部分场景在都可以通过Hive提供的分位数函数求解,但是在大数据量(几十亿+)的情况下,HIVE自带的分位数函数往往执行速度受限,极端情况需要需要执行十几小时或者在资源限制下得不到最终结果。

本文介绍几种方式,通过对sql的简单改造,更加快速执行出结果。

案例

案例一:计算过去30天内用户对主播的时长分(double类型的小数)10,25, 50,75,90分位数

案例背景:某时长优化实验需要确定策略阈值,因此需要探查下满足某个特征的用户群体对某类主播的时长分的分位数情况,以便对该人群的直播喜好属性做更精细化的划分


Genhiy...大约 6 分钟CodingSQL
SQL学习笔记

有了大语言模型之后,学习和应用一个陌生的代码框架真的容易了太多,这样算法工程师就可以把更多心思放在如何设计算法上,用我个人今天的经验举个例子:

简单应用

下午15点左右,接到了一个任务,有一个数据库,其中关键信息为uid、aid、ts,分别为user用户id、author作者id、timestamp时间戳,需求:1.只保留一个ts下的数据,2.相同的(uid,aid)对,只保留一条数据。在此之前我没接触过SQL,但是,通过kimi:

任务一:筛选

提示

Prompt:写一段sql语句,用于从一个表格中读取ts列以及新的一列rk,rk列内容为ts从小到大排列的位次。


Genhiy...大约 6 分钟CodingSQL