大数据-Hadoop-基础篇-第六章-Hive (搜狗用户搜索词分析)

   日期:2024-12-26    作者:zhangkunqing1981 移动:http://3jjewl.riyuangf.com/mobile/quote/45025.html

大数据-Hadoop-基础篇-第六章-Hive (搜狗用户搜索词分析)

https://www.bilibili.com/video/BV1qC4y1Y7ye?p=74&spm_id_from=pageDriver&vd_source=2030c834d24fc054a345b6d54b05edbe

使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Hive,将数据封装到RDD中
进行业务数据处理分析。数据网址:http://www.sogou.com/labs/resource/q.php

  • 查询前10条数据
  • 查询前10个访问量最高的用户ID及访问数量,并按照访问量降序排列
  • 分析链接排名与用户点击的相关性
  • 分析一天中上网用户最多的时间段
  • 查询同一个域名用户的点击数量最高的前10个

(2)将数据文件 SogouQ.reduced 的编码改为“utf-8”,然后保存。
(3)将文件 SogouQ.reduced上传到 Hive 所在服务器,例如上传到目录home/hadoop.进入数据文件所在目录,执行以下命令,将文件中的制表符和空格全部替换为英文逗号

 

上述命令解析:

 

(4)查看文件的前10条数据

 
 
 
 
 
 
 
 
 
 

select page_rank,count(*) as num from activelog
group by page_rank order by num desc
排名 点击次数
1 5645
2 4578
3 3242

由此可见,排名靠前的,点击次数越多

只需要时间段和访问量


 

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号