• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

使用地图连接的Hive查询优化

使用地图连接的Hive查询优化
我有一张11千兆位数据的表,另一位有130千兆数据,我正在执行更新操作,我可以在配置单元中使用映射连接来改进查询执行优化吗?请提供有关这方面的有用信息。使用地图连接的Hive查询优化 ===========解决方案如下: 首先请检查您的Hive版本是否支持更新功能。 地图连接肯定会帮助您提高查询性能 也在表上应用压缩技术,然后运行更新命令 – ……继续阅读 »

Hive On Tez自定义Job Name

Hive On Tez自定义Job Name
今天在使用Hive On Tez的时候发现一个问题,那就是我们无法设置Tez运行在Yarn上面的Job Name。按照设置MR正常的步骤来设置Job Name发现也是无效的。 这让我很迷惑,于是想了一下是不是因为TezSession的时候已经写死了导致的,然通过将Hive的源码下载下来(我用的是Hive-3.1.2的源码,下载地址:https://mirro……继续阅读 »

Hive SQL使用过程中的奇怪现象

Hive SQL使用过程中的奇怪现象
hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Hive SQL是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在……继续阅读 »

hive-rank()开窗函数系列

hive-rank()开窗函数系列
一、开窗函数简介 1、官方文档地址: https://cwiki.apache.org/conf… oracle,sqlserver都提供了窗口函数,但是在mysql5.5和5.6都没有提供窗口函数! 2、简介 窗口函数: 窗口+函数 窗口: 函数运行时计算的数据集的范围 函数: 运行的函数! 窗口函数和分组有什么区别?①如果是分组操作……继续阅读 »

使用Hive SQL窗口函数进行商务数据分析

使用Hive SQL窗口函数进行商务数据分析
本文会从一个商务分析案例入手,说明SQL窗口函数的使用方式。通过本文的5个需求分析,可以看出SQL窗口函数的功能十分强大,不仅能够使我们编写的SQL逻辑更加清晰,而且在某种程度上可以简化需求开发。 数据准备 本文主要分析只涉及一张订单表orders,操作过程在Hive中完成,具体数据如下: -- 建表 CREATE TABLE orders( ord……继续阅读 »

hive 常用函数与技巧

hive 常用函数与技巧
持续更新 1.NVL函数 NVL(expr1, expr2): 空值转换函数; 如果expr1为NULL,返回值为 expr2,否则返回expr1。 适用于数字型、字符型和日期型,但是 expr1和expr2的数据类型必须为同类型。 2.还有一个函数coalesce SELECT COALESCE(NULL, NULL, GETDATE()) coalesc……继续阅读 »

hive 变量和参数

hive 变量和参数
Hive中变量和属性命名空间: hivevar:用户自定义变量(Hive0.8及之后的版本)。可读可写。 hiveconf:Hive相关的配置属性。可读可写。 system:Java定义的配置属性。可读可写。 env:Shell环境定义的环境变量。只可读。 –defind key=value 等价于 —hivevar key=v……继续阅读 »

技本功|Hive优化之Spark执行引擎参数调优(二)

技本功|Hive优化之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要结合实际业务情况,在使用Spark作为底层引擎时,通……继续阅读 »

技本功|Hive优化之建表配置参数调优(一)

技本功|Hive优化之建表配置参数调优(一)
简介: Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进……继续阅读 »

元数据管理|Hive Hooks和Metastore监听器介绍

元数据管理|Hive Hooks和Metastore监听器介绍
元数据管理是数据仓库的核心,它不仅定义了数据仓库有什么,还指明了数据仓库中数据的内容和位置,刻画了数据的提取和转换规则,存储了与数据仓库主题有关的各种商业信息。本文主要介绍Hive Hook和MetaStore Listener,使用这些功能可以进行自动的元数据管理。通过本文你可以了解到: 元数据管理 Hive Hooks 和 Metastore List……继续阅读 »