分享好友 最新动态首页 最新动态分类 切换频道
2023.11.16 hivesql高阶函数之开窗函数
2024-12-27 00:57

目录

2023.11.16 hivesql高阶函数之开窗函数

1.开窗函数的定义

2.数据准备

3.开窗函数之排序

 需求:用三种排序方法查询学生的语文成绩排名,并降序显示

 4.开窗函数分组

需求:按照科目来分类,使用三种排序方式来排序学生的成绩

 5.聚合函数与分组配合使用

6.聚合函数同时和分组以及排序关键字配合使用

--需求1:求出每个用户的总pv数,展示所有信息  默认第一行到最后一行

--需求2:求出每个用户截止到当天,累积的总pv数  默认第一行到当前行

做题思路,开窗函数核心:保证输出结果的记录数和输入的数据记录数一致 

7.窗口范围控制

1.默认第一行到当前行

2.第一行到当前行,等效于rows between ..不写,默认就是第一行到当前行

3.向前3行到当前行

4.向前3行 向后1行

 5.当前行到最后一行,第一行到最后一行

8.其他函数

    1.ntile平分:

注意ntile规则:尽量平均分配 ,优先满足最小(编号1)的桶,彼此最多不相差1个。

--需求:统计每个用户pv数最多的前3分之1天。--理解:将数据根据cookieid分 根据pv倒序排序 排序之后分为3个部分 取第一部分


- 窗口:可以理解为操作数据的范围,窗口有大有小,本窗口中操作的数据有多有少。

- 可以简单地解释为类似于聚合函数的计算函数,但是通过GROUP BY子句组合的常规聚合会隐藏正在聚合的各个行,最终输出一行

-而窗口函数聚合后还可以访问当中的各个行,并且可以将这些行中的某些属性添加到结果集中。

开窗函数格式:  select ... 开窗函数 over(partition by 分组字段名 order by 排序字段名 asc|desc) ... from 表名; 

-- 如果有分组操作,select后的字段要么在聚合函数内,要么在group by 后出现

-- 开窗函数: hive和mysql8都能使用

-- 开窗函数本质在表后新增了一列

-- 聚合开窗函数: max min sum avg count

数据文件score.txt

 
 
 
 
 

-- 排序开窗函数: row_number  rank  dense_rank

-- 排序函数必须配合over(order by 排序字段 asc|desc)

row_number: 巧记: 1234   特点: 唯一且连续

dense_rank: 巧记: 1223   特点: 并列且连续

rank   : 巧记: 1224   特点: 并列不连续

 
 
 

-- 开窗函数分组

-- 注意不能用group by ,需要使用partition by,可以理解成partition by是group by的子句

-- 演示排序函数和分组配合使用: 先分组再组内排序

 
 
 
 

查询每个学生的信息,按照文理科分类,以及平均分

 

 
 
 

cookie是记住用户记录的一个文件,代表一个用户

 
 

--sum(...) over( partition by... order by ... ),在每个分组内,连续累积求和

 

做题思路,开窗函数核心:保证输出结果的记录数和输入的数据记录数一致 

rows between
   - preceding:往前
   - following:往后
   - current row:当前行
   - unbounded:起点
   - unbounded preceding 表示从前面的起点  第一行
   - unbounded following:表示到后面的终点  最后一行

 
 
 
 
 
 

1+5+7=13   ,    1+5+7+3=16   ,  5+7+3+2=17  ,   7+3+2+4=16     ,   3+2+4+4=13

相当于查询今天以及前三天的总浏览量,在现实中常称为网站的'最近3天访问量'.

 
 

1+5+7+3+2=18  ,   5+7+3+2+4=21

 
 
 
 

其他开窗函数: ntile   lag和lead   first_value和last_value

ntile(x)功能: 将分组排序之后的数据分成指定的x个部分(x个桶)   
        注意ntile规则:尽量平均分配 ,优先满足最小(编号1)的桶,彼此最多不相差1个。

lag: 用于统计窗口内往上第n行值
lead:用于统计窗口内往下第n行值

first_value: 取分组内排序后,截止到当前行,第一个值
last_value : 取分组内排序后,截止到当前行,最后一个值

注意: 窗口函数结果都是单独生成一列存储对应数据

 
 
 
 

 


最新文章
销售提成系统哪个好用?
在选择销售提成系统时,以下几个系统因其功能强大、用户体验良好而备受推荐:1、;2、Salesforce;3、Zoho ;4、HubSpot CRM;5、SAP。其中,简道云因其高度定制化、简单易用和强大的数据分析能力,成为许多企业的首选。简道云可以根据企业
一文讲清楚AI,以及AI的基础理论
科普,科普。AI大热。NVIDIA成为美股市值最高的公司,没有自动驾驶能力的汽车公司最终都成为诺基亚,AI是“人类”最后一项重要发明,机器学习、通用人工智能(AGI)、AI会取代80%的工作岗位,各种故事令人眼花缭乱。我想用一篇文章讲从头到
考研机器人工程就业方向及就业前景
随着科技的不断进步,机器人工程专业逐渐成为研究生们热衷追求的领域之一。那么,机器人工程专业的就业前景如何?未来的发展趋势又是怎样的呢?本文将从这两个方面进行探讨。机器人工程专业是一个充满挑战和机遇的领域。随着人工智能和自动
推荐12个AI免费一键生成PPT的网站【2024年最新】
制作PPT演示文稿是一项重要的技能,无论是在商务会议、教育培训还是各类演讲中。虽然PowerPoint本身提供了许多设计工具和模板,但有时我们还是需要一些额外的帮助来提升演示文稿的专业度和吸引力。幸运的是,随着人工智
高清美女写真一键生成!揭秘超火的AI绘画工具及使用攻略
DeepArt.io:利用深度学习技术,DeepArt允许用户将自己的照片转换为各种艺术风格的作品。虽然生成过程相对简单且效果抢眼,但对生成的美女写真要求较高的用户可能对细节把控感到不满足。DALL-E 2:这是最近大火的一个AI工具,具有极强的生
SEO整站建设提升用户体验
在当今数字化时代,网站的SEO整站建设不仅影响搜索引擎排名,更直接关系到用户体验。优化网站结构、内容和互动性是提升用户满意度的重要手段。本文将探讨SEO整站建设如何有效提高用户体验,包括网站速度、内容优化以及移动端适配等多个方面
濮阳企业在线曝光度提升攻略,SEO优化与网络推广全方位策略
濮阳SEO优化网络推广方法旨在全面提升企业在线曝光度。通过关键词优化、内容营销、链接建设等多渠道策略,精准触达目标用户,提高网站排名,实现企业品牌及产品的高效推广。随着互联网的普及,越来越多的企业开始重视网络推广,尤其是,SEO
高清美女写真生成工具推荐!超简单AI绘画神器,1分钟轻松掌握!
DALL-E 2:OpenAI推出的DALL-E 2因其强大的图像生成能力而受到广泛关注。它可以根据你的文本描述生成高质量的图像,甚至可以创造原本不存在的角色和场景。它的强大之处在于生成的结果往往很具创意和艺术感,但相对来说,操作上稍显复杂,需
经济与军事的关系的名言及其在现代社会的体现,全面应用分析数据_The37.83.49
摘要:名言指出经济与军事之间存在密切关系,在现代社会中这种关系愈发显现。经济为军事提供资源和支持,军事力量则保障经济发展的安全与稳定。通过应用分析数据,我们可以看到经济数据与军事投入的相关性,以及军事技术对经济领域的推动作
相关文章
推荐文章
发表评论
0评