【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描（执行SparkSQL程序查询Hive数据时，开启动态资源分配导致分配资源过大，程序无法执行）

【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描（执行SparkSQL程序查询Hive数据时，开启动态资源分配导致分配资源过大，程序无法执行）SparkSQL 访问 Hive 分区数据时，会先对全表进行扫描，所以一旦 Hive 单表数据量过大，会导致申请的资源过多，程序一直请求不到资源，任务挂掉。

cyp努力努力再努力

891人浏览 · 2023-05-12 11:37:46

cyp努力努力再努力 · 2023-05-12 11:37:46 发布

问题描述：

SparkSQL 访问 Hive 分区数据时，会先对全表进行扫描，所以一旦 Hive 单表数据量过大，会导致申请的资源过多，程序一直请求不到资源，任务挂掉。

解决方式：（防止查询分区数据时对全表进行扫描）

SparkSession.sql("set spark.sql.hive.caseSensitiveInferenceMode=NEVER_INFER")

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

北大&智源研究院最新！RoboOS-NeXT：“记忆 + 分层架构” 实现通用多机器人协作

DAMO开发者矩阵

首个开源扩散VLA：Unified DVLA！实现SOTA性能+4倍加速

DAMO开发者矩阵

清华团队提出AirScape：动作意图可控的低空世界模型，全面开源！

DAMO开发者矩阵

所有评论(0)

查看更多评论

cyp努力努力再努力

@weixin_53543905

已为社区贡献2条内容