Hive mapjoin使用

最新推荐文章于 2024-08-01 08:57:56 发布

原创最新推荐文章于 2024-08-01 08:57:56 发布 · 9.1k 阅读

27 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#hive

收录于

hive 专栏收录该内容

24 篇文章

订阅专栏

本文介绍了两种在Hive中优化查询性能的方法：通过设置参数hive.auto.convert.join和hive.mapjoin.smalltable.filesize实现自动MapJoin；以及使用注释方式指定特定表进行MapJoin，即使在hive.ignore.mapjoin.hint为true的情况下也能生效。正确应用MapJoin可以显著减少shuffle阶段的数据传输，提高查询效率。

方法一

set hive.auto.convert.join = true; --是否开自动mapjoin

set hive.mapjoin.smalltable.filesize; --mapjoin的表size大小

以上两个参数同时使用，在hive.auto.convert.join为true时，只要小表size小于hive.mapjoin.smalltable.filesize的设置值，并且小表不是关联操作的最后一张表，小表就会走mapjoin。

set hive.auto.convert.join = true;

set hive.mapjoin.smalltable.filesize = 6250000;

select * from table_1 --小表，size  5m

join table_2

on 1=1;

方法二

set hive.ignore.mapjoin.hint; --true 注释方式不生效 false 注释方式生效强行指定需要加入内存走mapjoin的表

set hive.ignore.mapjoin.hint=true;

select /*+ mapjoin(table_1) */ 

    * 

from table_2

join table_1 --小表，size  5m

on 1=1;

如果mapjoin生效会在mr日志中看到以下打印日志

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木给哇啦丶

关注关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Hive】性能调优 - Map JOIN

qq_40382400的博客

06-03

1167

map-side JOIN可以省掉reduce过程，从而提高Hive效率；Hive 0.11.0版本后，默认开启自动map-side JOIN优化，我们需要合理调整hive.auto.convert.join.noconditionaltask.size参数值。

Hive中的Map join 简单了解

Bruce_Selina的博客

10-13

700

Hive中的Map join 简单了解

参与评论您还未登录，请先登录后发表或查看评论

hive中Common Join 和Map Join的机制（例子详解）

dingchangxiu11的博客

12-25

2570

笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。一 .Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join. 整个过程包含Map、S...

hive 中的map join 操作（转载）

smile6868的博客

03-14

6769

今天遇到一个Hive的问题，如下hivesql： select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。为了解决用户的这个问题，考虑使用mapjoin,mapjoin的原理： MAPJION会把小表全部读入内存中，在map阶段...

什么是 Hive 的 Map Join？

热门推荐

Li_Jian_Hui_的博客

04-16

1万+

Hive mapjoin 与 Bucket mapjoin

ljq32的专栏

05-15

4774

今天研究了一下hive中的mapjoin和bucketmap

Hive MapJoin 优化

yuanyangsdo的博客

03-23

1953

hive中的mapjoin

hellojoy的博客

05-29

1650

在Hive中，common join是很慢的，如果我们是一张大表关联多张小表，可以使用mapjoin加快速度。 mapjoin主要有以下参数： hive.auto.convert.join ：是否自动转换为mapjoin hive.mapjoin.smalltable.filesize : 小表的最大文件大小，默认为25000000，即25M hive.auto.convert.join.noconditionaltask ：是否将多个mapjoin合并为一个 hive.auto.convert.jo

hive之Map Join使用方法

ImezZ

04-08

1万+

介绍 MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。接下来的Task B任务是一个没有Reduce的MapReduce，启动MapTasks扫描大表...

Hive Map Join 原理

hellojoy的博客

01-27

708

https://cloud.tencent.com/developer/article/1481780 1. Join如何运行首先，让我们讨论一下 Join 如何在Hive中运行。Common Join 操作如图1所示被编译为 MapReduce 任务。Common Join 任务涉及 Map 阶段和 Reduce 阶段。Mapper 从连接表中读取数据并将连接的 key 和连接的 value 键值对输出到中间文件中。Hadoop 在所谓的 shuffle 阶段对这些键值对进行排序和合并。Reduce

hive之mapjoin

weixin_36630761的博客

12-11

2700

hive 的mapjoin起作用了我们如何确定？只是inner join 的时候看日志吧，最为直观： 2021-12-10 12:05:41 Starting to launch local task to process map join; maximum memory = 954728448 2021-12-10 12:05:44 Processing rows: 200000 Hashtable size: 199999 Memory usage: 135058920 percentage:

[1218]hive之Map Join使用方法

周小董

08-08

1179

MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。

MapJoin 的使用方法

Taerge0110的博客

10-27

2172

在对大表和一个或多个小表执行join操作时，mapjoin会将您指定的小表全部加载到执行join操作的程序的内存中，在Map阶段完成表连接从而加快join的执行速度。要使MapJoin能够顺利进行，那就必须满足这样的条件：除了一份表的数据分布在不同的Map中外，其他连接的表的数据必须在每个Map中有完整的拷贝。mapjoin在Map阶段执行表连接，而非等到Reduce阶段才执行表连接，可以缩短大量数据传输时间，提升系统资源利用率，从而起到优化作业的作用。mapjoin中多个小表用英文逗号（,）分隔，例如/

Hive 3种map join

炼数成器

09-02

2448

3种map join

HIVE优化：语句、参数、表结构优化

me_to_007的博客

09-19

3714

HIVE优化相关：语句优化，参数优化（数据倾斜），表结构优化

Hive的三种Join方式

mojolang

02-09

4384

Hive中就是把Map，Reduce的Join拿过来，通过SQL来表示。参考链接：LanguageManual Joins - Apache Hive - Apache Software Foundation Common/Shuffle/Reduce Join Reduce Join在Hive中也叫Common Join或Shuffle Join 如果两边数据量都很大，它会进行把相同key的value合在一起，正好符合我们在sql中的join，然后再去组合，如图所示。 Map Join 1）

【hive】简单介绍hive的几种join

Mrerlou的博客

08-17

2740

common join 主要是针对数据/业务逻辑的join。Map joinSkew Join是hive 针对特殊数据、场景进行的优化。则是Sql语句的优化，并且也可以应用上面的优化方案。MAP JION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。