一、.hive-staging_hive 产生的原因:

通过 spark-sql、hive-sql、hue 等提交 select 或者 insert overwrit e等 sql 到 hive 时,会产生该目录,用于临时存放执行结果,比如insert overwrite 会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。

当 hql 任务执行失败时,这些临时文件和目录不会被自动删除掉,直到有相关的 hql 执行成功时,才会自动删掉。

二、.hive-staging_hive 会导致的一些问题:

  1. 如果目标路径存在临时文件的话,datax 读取hdfs数据的时候会报错,因为 .hive-staging_hive 临时文件的数据也会被 datax 读到;

  2. 有的 .hive-staging_hive 可能会包含很多的临时文件,占用空间,同时也会造成 namenode 的压力;

三、解决办法(CDH):

进入hive配置页面,搜索 hive-site.xml ,找到服务高级配置代码段(安全阀)和 客户端高级配置代码段(安全阀),增加配置:

<property>
    <name>hive.insert.into.multilevel.dirs</name>
    <value>true</value>
    <description>允许生成多级目录</description>
</property>
<property>
    <name>hive.exec.stagingdir</name>
    <value>/tmp/hive/staging/.hive-staging</value>
    <description>临时文件暂放目录</description>
</property>
  • 1、hive-site.xml 的 Hive 服务高级配置代码段(安全阀)

image-20201021154009389

  • 2、hive-site.xml 的 Hive 客户端高级配置代码段(安全阀)

image-20201021154022322

四、历史遗留的 hive-staging 文件处理和定期维护

这边提供一个 python3.6 脚本,需要注意的是删除的时候,一般不要删除今天的临时文件,因为可能有作业正在使用。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Time : 2020/5/7 09:59
# @Author : way
# @Site : 
# @Describe: 清除hive昨日残留的staging垃圾文件

import time
import datetime
from hdfs import Client

class staging:

    def __init__(self, HDFS_ClIENT):
        """
        :param HDFS_ClIENT: hdfs客户端连接
        """
        self.client = Client(HDFS_ClIENT)
        self.today_timestamp = int(time.mktime(time.strptime(str(datetime.date.today()), '%Y-%m-%d')))*1000


    # 移动 hive 垃圾文件 foo >> staging_tmp_path
    def move(self, foo, staging_tmp_path):
        filemsg = self.client.status(foo, strict=False)
        if filemsg.get('type') == 'DIRECTORY':
            dirs = self.client.list(foo, status=False)
            for son in dirs:
                if '.hive-staging_hive' in son:
                    src = f'{foo}/{son}'
                    dst = f'{staging_tmp_path}/{son}'
                    # print(src, dst)
                    self.client.rename(src, dst)
                    print(f"{son} has moved to {dst} success")
                else:
                    self.move(foo + '/' + son, staging_tmp_path)


    # 移除 昨天的垃圾文件
    def delete(self, staging_tmp_path):
        dirs = self.client.list(staging_tmp_path, status=False)
        for dir in dirs:
            target = staging_tmp_path + '/' + dir
            modificationTime = self.client.status(target, strict=False).get('modificationTime')
            if '.hive-staging_hive' in dir and modificationTime < self.today_timestamp:
                # print(target)
                self.client.delete(target, recursive=True)
                print(f"{target} has been deleted success")


if __name__ == "__main__":
    HDFS_ClIENT = "http://172.16.122.21:50070;http://172.16.122.24:50070"
    staging_tmp_path = '/tmp/hive/staging'
    stag = staging(HDFS_ClIENT)
    # 移动 hive 垃圾文件 foo >> staging_tmp_path
    # foo = '/user/hive/warehouse'
    # stag.move(foo, staging_tmp_path)
    # 移除 昨天的垃圾文件
    stag.delete(staging_tmp_path)

版权声明:如无特殊说明,文章均为本站原创,转载请注明出处

本文链接:http://blog.turboway.top/article/staging_hive/

许可协议:署名-非商业性使用 4.0 国际许可协议