博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Hive_9] Hive 的排序
阅读量:7223 次
发布时间:2019-06-29

本文共 846 字,大约阅读时间需要 2 分钟。


0. 说明

  全排序(order by) | 部分排序(sort by) | hash 分区(distribute by)  | cluster by

 


1. 前期准备

  1.1 建表

create table user_order(id int, name string, age int, province string, city string) row format delimited fields terminated by '\t';

 

  1.2 设置 reduce 个数

set mapreduce.job.reduces=2;

 

 

2. 全排序(order by)

   使用一个 reduce,在真实使用中,需要加 limit 限制。

truncate table user_order; insert into user_order select * from user_par order by id;

 


 

3. 部分排序(sort by )

  在每个 reduce 中分别排序

truncate table user_order;insert into user_order select * from user_par sort by id;

 


 

4. hash 分区(distribute by )

  未排序

truncate table user_order;insert into user_order select * from user_par distribute by id;

 


 5. cluster by

  cluster by = distribute by + sort by

truncate table user_order;insert into user_order select * from user_par cluster by id;

 

 


 

转载于:https://www.cnblogs.com/share23/p/10259896.html

你可能感兴趣的文章
Oracle 函数返回表实例2种写法实例
查看>>
mysql数据库主从复制
查看>>
Shell标准输出、标准错误 >/dev/null 2>&1
查看>>
Android自定义对话框(Dialog)位置,大小
查看>>
设置python的默认编码为utf8
查看>>
简易sqlhelper-java
查看>>
通过案例对SparkStreaming 透彻理解三板斧之一:解密SparkStreaming运行机制
查看>>
HBuilder 学习笔记
查看>>
利用OpenStreetMap(OSM)数据搭建一个地图服务
查看>>
TopN算法与排行榜
查看>>
lucene排序算法之向量空间模型(一)
查看>>
新浪微博数据Json格式解析
查看>>
WLAN 802.11 wifl区别
查看>>
oracle授权动态视图权限给用户
查看>>
Debian – 出现-bash: pip: command not found错误解决办法
查看>>
Zxing扫描二维码
查看>>
我的友情链接
查看>>
aspcms后台拿shell漏洞(非添加模块)及修复方法
查看>>
C语言冒泡排序法
查看>>
B2B行业门户网站群发邮件时间及发送频率
查看>>