利用脚本定时获取HDFS空间目录的存储状况

最新推荐文章于 2023-03-02 20:04:29 发布

原创

最新推荐文章于 2023-03-02 20:04:29 发布 · 393 阅读

标签

#linux #运维 #hadoop

收录于

本文档介绍了如何通过脚本定时获取HDFS目录的存储状况，包括编写Python脚本解析数据，Shell脚本执行HDFS命令并入库操作，以及设置Linux定时任务实现15分钟一次的调度。

文档编写目的
利用脚本定时获取HDFS空间目录的存储状况
编写脚本前准备
1 利用管理员账户登录集群cm界面

2 进入cm界面，点击HDFS
3 点击实例，选一台装了datanode角色的主机，这里
我选择了cdh1.hadoop.com

4 进去cdh1.hadoop.com的交互界面

5 查看kerberos凭证

注意：因为集群是启用Kerberos，所以必须使用HDFS凭证，不然刷新脚本无法执行成功
登录凭证
编写python脚本解析数据

进入脚本编辑目录
Cd /root/myshell/catalog
因为我们生成的目标解析文件是用 hadoop fs -du- h /,文本格式如下
编辑python脚本
#!/usr/bin/python2

-- coding: utf-8 --

import json
import datetime
#— python2.7 中全局字符编码设置-----
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8’)
#--------------------------------
#集群名称，部署在不同集群的脚本，查完名称在这里写死
cluster=“YY01”
time = datetime.datetime.now().strftime(’%Y-%m-%d %H:%M:%S’)
#实际文件大小
fullsize=""
#备份大小
backupsize=""
#目录名称
catalog=""
sql=""
with open(’/root/myshell/c