ceph-cursh规则实战及PGS unknown 问题处理

最新推荐文章于 2026-04-24 12:38:27 发布

原创

最新推荐文章于 2026-04-24 12:38:27 发布 · 2.9k 阅读

标签

#ceph

收录于

文章描述了在Ceph集群出现HEALTH_ERR状态，包括文件系统离线、数据可用性降低等问题时，如何通过检查OSD树、CRUSH映射、池的CRUSH规则，并修改CRUSH映射以优化数据分布，最终恢复pgs的正常状态。

问题描述：

[root@ceph-mon01 ~]# ceph -s

cluster:

id: 92d4f66b-94a6-4c40-8941-734f3c44eb4f

health: HEALTH_ERR

1 filesystem is offline

1 filesystem is online with fewer MDS than max_mds

1 pools have many more objects per pg than average

Reduced data availability: 256 pgs inactive

services:

mon: 3 daemons, quorum ceph-mon01,ceph-mon03,ceph-mon02 (age 5d)

mgr: ceph-mon03(active, since 5d), standbys: ceph-mon02, ceph-mon01

mds: cephfs:0

osd: 9 osds: 9 up (since 43h), 9 in (since 43h); 224 remapped pgs

rgw: 1 daemon active (ceph-mon01)

task status:

data:

pools: 9 pools, 480 pgs

objects: 34.60k objects, 8.5 GiB

usage: 128 GiB used, 142 GiB / 270 GiB avail

172995/103797 objects misplaced (166.667%)

256 unknown

224 active+clean+remapped

解决过程

ceph health detail

...

PG_AVAILABILITY Reduced data availability: 1024 pgs inactive

pg 4.3c8 is stuck inactive for 246794.767182, current state unknown, last acting []

pg 4.3ca is stuck inactive for 246794.767182, current state unknown, last acting []

1、检查 osd tree (本处有，datacenter0, default 两个pg副本入口点)

[root@ceph-mon01 ~]# ceph osd tree

ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF

-9 0.26367 datacenter datacenter0

-10 0.26367 room room0 &n

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小黑_深呼吸

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ceph操作备忘及问题解决

weixin_44946147的博客

11-23

1704

ceph操作备忘 ceph-deploy install client_2 # client_2 节点事先要准备好apt源 ceph-deploy disk list client_2 ceph-deploy disk zap client_2 /dev/sdb2 ceph-deploy osd create --data /dev/sdb2 client_2

ROOK 使用cephfs后状态为Warn的解决办法

gbopeng的专栏

06-30

808

ceph 中 have many more objects per pg than average 的处理

1 条评论您还未登录，请先登录后发表或查看评论

AI智能体技能库开发指南：从原理到实战集成

最新发布

weixin_33720956的博客

04-24

1243

AI智能体（Agent）作为当前人工智能应用的重要形态，其核心能力在于通过调用外部工具和技能来扩展功能边界。其工作原理通常基于大语言模型（LLM）的任务规划与工具调用能力，通过标准化接口将各种外部服务（如网络搜索、数据查询、事务处理）封装为可执行的“技能”。这种模块化设计的技术价值在于显著降低了智能体开发的复杂度与重复劳动，实现了功能的高效复用与组合。在实际应用场景中，开发者可以像搭积木一样，快速为智能体集成天气查询、邮件发送、文档处理等能力，从而构建出功能强大的对话助手或自动化工作流。本文聚焦于**开源智

OpenStack+Ceph集群清理pool池解决 pgs: xxx% pgs unknown的问题

喵呜

05-07

2823

昨天没有清空pool直接删除osd节点，导致今天ceph挂掉了… 执行 ceph -s 显示 2022-05-07 08:10:08.273 7f998ddeb700 -1 asok(0x7f9988000bf0) AdminSocketConfigObs::init: failed: AdminSocket::bind_and_listen: failed to bind the UNIX domain socket to '/var/run/ceph/guests/ceph-client.admin.

17-kubernetes集群中ceph集群使用

Neko的博客

03-29

1058

<文章感谢 xingdian > 文章目录kubernetes集群中ceph集群使用一:CephFS 创建和使用1.filesystem 配置2.查看资源配置3.创建相对应的storageclass4.kubernetes-dashboard查看结果5.cpch-cephFS测试6.创建数据验证共享性二:kubenetes 部署 Prometheus 监控 kubernetes集群中ceph集群使用一:CephFS 创建和使用 CephFS 允许用户挂载一个兼容posix的共享目录到多个主机

bclinux aarch64 ceph 14.2.10 文件存储 Ceph File System, 需要部署mds： ceph-deploy mds

hknaruto的专栏

11-13

1056

32cephfs_metadata 64 报错官方说明：元数据池通常最多可容纳几 GB 的数据。为因此，通常建议使用较小的PG计数。通常为 64 或 128 在实践中用于大型集群。

HEALTH_ERR 1 filesystem is degraded, 1 filesystem is offline , 1 mds daemon damaged - Monitors have

chenhongloves的博客

10-23

1505

HEALTH_ERR 1 filesystem is degraded, 1 filesystem is offline , 1 mds daemon damaged - Monitors have assigned me to become a standby ceph health detail ceph mds stat ceph fs dump ceph fs status ceph fs ls 修复不知其然，不知其所以然。。。

K8s——kubernetes集群中ceph集群使用【下】

weixin_55985097的博客

08-02

741

kubernetes集群中ceph集群使用一:CephFS 创建和使用 CephFS 允许用户挂载一个兼容posix的共享目录到多个主机，该存储和NFS共享存储以及CIFS共享目录相似 1.filesystem 配置 filesystem.yaml: 3份副本的生产环境配置，需要至少3个节点 filesystem-ec.yaml: 纠错码的生产环境配置，需要至少3个节点 filesystem-test.yaml: 1份副本的测试环境，只需要一个节点 [root@master ~]# cd /tmp/roo

【Ceph】1 pools have many more objects per pg than average

runzhliu大数据/容器日记

11-15

4047

公司 Ceph 集群从 v12 升级到 v14 后，今天某个 CephFS 的集群收到一个 HEALTH_WARN 的告警，具体的 Warning 的信息为 1 pools have many more objects per pg than average。很明显就是 pg 数目设置的过少，导致有些 pg 里的对象过多，估计是超过了默认的一个 Limit，所以产生了 Warning 的信息，解决的方法很简单，就是查看一下集群里所有 Pool 的 PG 数，看看哪个少的，按照公式大概加一下就好了。 ce

如何解决Ceph集群中的数据不一致性和PG过载问题

博然的宝藏库

05-23

1495

如何解决Ceph集群中的数据不一致性和PG过载问题

ceph的pg与pgs分析

weixin_45566022的博客

01-13

2843

1. 当pg与pgp数量一样都为6时由下图可见： pg数量为8.0~8.5总计6个，所有的object分布在这6个pg中，此时每个pg对应一个osd组合总计为6个组合类型同时观察到pg8.0和8.4对应的组合[3,5,9]和[5,9,3]虽然osd号相同，但是排列不同，ACTING说明主osd分别对应3和5，且没有重复的主osd 2. 设置pg数量大于pgp数量由下图可见： pg数量为8.0~8.5总计6个，所有的object分布在这6个pg中，此时这6个pg对应了[3,5,9]

pg state unknown状态

bpb_cx的博客

07-28

1134

pg state unknown状态

ceph掉电后无法启动osd，pgs unknown

sqlora的专栏

10-09

609

掉电后osdmap丢失无法启动osd的解决方案 - 武汉-磨渣 - 博客园https://zhuanlan.zhihu.com/p/74323736?from_voters_page=trueceph故障处理 - osd down处理 - 鸣昊 - 博客园故障：pg state unknown - 流年晕开时光 - 博客园

ceph报错整理

weixin_40548182的博客

06-06

914

可以冥想看出是ceph-01的mon进程挂了，不过还是靠命令查。操作系统根分区空间不足。

ceph分布式存储

weixin_69148277的博客

06-10

1328

Ceph 客户端向 monitor 请求集群的状态，并向 Pool 中写入数据，数据根据 PGs 的数量，通过 CRUSH 算法将其映射到不同的 OSD 节点上，实现数据的存储。BlueStore是一个特殊用途的存储后端，专门为OSD工作负载管理磁盘上的数据而设计。Ceph从Nautilus版本（14.2.0）开始，每年都会有一个新的稳定版发行，预计是每年的3月份发布，每年的新版本都会起一个新的名称（例如，“Mimic”）和一个主版本号（例如，13代表Mimic，因为“M”是字母表的第13个字母）。

分布式存储ceph采用CephFS方式共享文件和挂载

zrc_xiaoguo的博客

10-04

1306

cephfs挂载的常用方法，博主实战经验

PG常见故障及处理

DeamonXiao的博客

10-21

9743

PG异常状态详解及故障总结参考： https://www.jianshu.com/p/36c2d5682d87 https://blog.csdn.net/wylfengyujiancheng/article/details/89235241?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-1.no_search_link&spm=1001.2101.3001.42

ceph集群提示pgs: 100.000% pgs unknown的一个解决办法