[Hive_9] Hive 的排序-白红宇

[Hive_9] Hive 的排序

阅读量：7223 次

发布时间：2019-06-29

本文共 846 字，大约阅读时间需要 2 分钟。

0. 说明

　　全排序(order by) | 部分排序(sort by) | hash 分区(distribute by) | cluster by

1. 前期准备

　　1.1 建表

create table user_order(id int, name string, age int, province string, city string) row format delimited fields terminated by '\t';

　　1.2 设置 reduce 个数

set mapreduce.job.reduces=2;

2. 全排序（order by）

　　使用一个 reduce，在真实使用中，需要加 limit 限制。

truncate table user_order; insert into user_order select * from user_par order by id;

3. 部分排序（sort by ）

　　在每个 reduce 中分别排序

truncate table user_order;insert into user_order select * from user_par sort by id;

4. hash 分区（distribute by ）

　　未排序

truncate table user_order;insert into user_order select * from user_par distribute by id;

5. cluster by

　　cluster by = distribute by + sort by

truncate table user_order;insert into user_order select * from user_par cluster by id;

转载于:https://www.cnblogs.com/share23/p/10259896.html

你可能感兴趣的文章

Shell标准输出、标准错误 >/dev/null 2>&1

查看>>

Android自定义对话框(Dialog)位置,大小

通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming运行机制

查看>>

HBuilder 学习笔记

查看>>

利用OpenStreetMap（OSM）数据搭建一个地图服务

Debian – 出现-bash: pip: command not found错误解决办法

aspcms后台拿shell漏洞(非添加模块)及修复方法