-
文档编写目的
利用脚本定时获取HDFS空间目录的存储状况 -
编写脚本前准备
1 利用管理员账户登录集群cm界面
2 进入cm界面,点击HDFS
3 点击实例,选一台装了datanode角色的主机,这里
我选择了cdh1.hadoop.com
4 进去cdh1.hadoop.com的交互界面
5 查看kerberos凭证
注意:因为集群是启用Kerberos,所以必须使用HDFS凭证,不然刷新脚本无法执行成功
登录凭证
编写python脚本解析数据
-
进入脚本编辑目录
Cd /root/myshell/catalog -
因为我们生成的目标解析文件是用 hadoop fs -du- h /,文本格式如下
-
编辑python脚本
#!/usr/bin/python2
-- coding: utf-8 --
import json
import datetime
#— python2.7 中全局字符编码设置-----
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8’)
#--------------------------------
#集群名称,部署在不同集群的脚本,查完名称在这里写死
cluster=“YY01”
time = datetime.datetime.now().strftime(’%Y-%m-%d %H:%M:%S’)
#实际文件大小
fullsize=""
#备份大小
backupsize=""
#目录名称
catalog=""
sql=""
with open(’/root/myshell/c

本文档介绍了如何通过脚本定时获取HDFS目录的存储状况,包括编写Python脚本解析数据,Shell脚本执行HDFS命令并入库操作,以及设置Linux定时任务实现15分钟一次的调度。
2891

被折叠的 条评论
为什么被折叠?



