| 服务 | 指标名称 (Metric Name) | 命名空间 (Namespace) | 描述 | 统计值建议 | 可用性相关性 |
| Direct Connect (DX) | ConnectionState | AWS/DX | 连接状态(1=up, 0=down) | Maximum | 高:0 表示连接不可用 |
| ConnectionBpsIngress | AWS/DX | 入口比特率(bps) | Average | 低:低值或0可能表示连接问题 | |
| ConnectionBpsEgress | AWS/DX | 出口比特率(bps) | Average | 低:低值或0可能表示连接问题 | |
| ConnectionErrorCount | AWS/DX | 错误计数 | Sum | 高:高值表示连接不稳定或不可用 | |
| EBS | VolumeReadOps/WriteOps | AWS/EBS | 读/写操作 | Sum | 低:操作失败表示卷不可用 |
| VolumeIdleTime | AWS/EBS | 空闲时间 | Average | 低:高空闲可能表示未挂载 | |
| EC2 | CPUUtilization | AWS/EC2 | CPU 使用率 | Average, Maximum | 低:高利用率可能导致可用性问题 |
| StatusCheckFailed | AWS/EC2 | 状态检查失败(Instance 和 System 总和) | Maximum | 高:直接表示实例不可用(>0 表示故障) | |
| StatusCheckFailed_Instance | AWS/EC2 | 实例状态检查失败 | Maximum | 高:实例级故障,如软件问题 | |
| StatusCheckFailed_System | AWS/EC2 | 系统状态检查失败 | Maximum | 高:主机级故障,如硬件问题 | |
| Network | NetworkIn/NetworkOut | AWS/EC2 | 网络流量 | Sum | 低:流量为 0 可能表示网络不可用 |
| ECS | CPUUtilization | AWS/ECS | 服务或集群 CPU 使用率 | Average, Maximum | 低:高利用率可能导致任务不可用 |
| MemoryUtilization | AWS/ECS | 服务或集群内存使用率 | Average, Maximum | 低:高利用率可能导致任务不可用 | |
| RunningTaskCount | AWS/ECS | 运行任务数 | Minimum | 高:低于预期值表示服务不可用 | |
| PendingTaskCount | AWS/ECS | 待处理任务数 | Maximum | 高:高值表示启动问题,可能影响可用性 | |
| EKS | cluster_failed_node_count | AWS/EKS | 失败节点数 | Maximum | 高:>0 表示集群节点不可用 |
| cluster_node_count | AWS/EKS | 总节点数 | Minimum | 高:低于预期值表示节点丢失 | |
| pod_ready_count | AWS/EKS | 就绪 Pod 数 | Minimum | 高:低于预期值表示 Pod 不可用 | |
| pod_pending_count | AWS/EKS | 待处理 Pod 数 | Maximum | 高:高值表示调度问题,可能影响可用性 | |
| node_cpu_utilization | ContainerInsights | 节点 CPU 使用率 | Average, Maximum | 低:高利用率可能导致节点不可用 | |
| node_memory_utilization | ContainerInsights | 节点内存使用率 | Average, Maximum | 低:高利用率可能导致节点不可用 | |
| ElastiCache Redis | CurrConnections | AWS/ElastiCache | 当前连接数 | Average | 高:异常低值表示服务不可用或连接问题 |
| ReplicationLag | AWS/ElastiCache | 主从复制延迟(秒) | Average, Maximum | 高:高延迟 (>60s) 表示从节点不可用或同步失败 | |
| EngineCPUUtilization | AWS/ElastiCache | Redis 引擎 CPU 使用率 | Average, Maximum | 低:高利用率 (>90%) 可能导致请求超时和可用性问题 | |
| Evictions | AWS/ElastiCache | 内存驱逐计数 | Sum | 低:高值表示内存不足,可能影响缓存可用性 | |
| CacheHitRate | AWS/ElastiCache | 缓存命中率 | Average | 高:低值 (<80%) 表示缓存无效,可能低影响应用可用性 | |
| SwapUsage | AWS/ElastiCache | 交换空间使用量 | Maximum | 低:>0 表示内存压力,可能导致性能下降和节点故障 | |
| ELB | HealthyHostCount | AWS/ELB | 健康主机数 | Minimum | 高:低值表示后端不可用 |
| UnHealthyHostCount | AWS/ELB | 不健康主机数 | Maximum | 高:>0 表示可用性故障 | |
| HTTPCode_ELB_5XX | AWS/ELB | ELB 5XX 错误计数 | Sum | 高:服务器错误影响可用性 | |
| BackendConnectionErrors | AWS/ELB | 后端连接错误 | Sum | 高:连接失败直接影响可用性 | |
| RequestCount | AWS/ELB | 请求计数 | Sum | 低:请求为 0 可能表示负载均衡器不可用 | |
| Lambda | Errors | AWS/Lambda | 函数错误数 | Sum | 高:执行失败表示不可用 |
| DeadLetterErrors | AWS/Lambda | 死信错误 | Sum | 高:重试失败 | |
| OpenSearch | ClusterStatus.red | AWS/ES | 集群红色状态(表示严重问题,如分片丢失) | Maximum | 高:>0 表示集群部分或完全不可用,可能导致查询失败 |
| ClusterStatus.yellow | AWS/ES | 集群黄色状态(表示警告,如副本丢失) | Maximum | 高:>0 表示潜在可用性风险 | |
| Nodes | AWS/ES | 活动节点数 | Minimum | 高:低于预期节点数表示节点故障或不可用 | |
| MasterReachableFromNode | AWS/ES | 从数据节点到主节点的连通性 | Minimum | 高:<1 表示主节点不可达,导致集群管理问题 | |
| CPUUtilization | AWS/ES | CPU 使用率 | Average, Maximum | 低:高利用率 (>80%) 可能导致节点响应缓慢或不可用 | |
| FreeStorageSpace | AWS/ES | 可用存储空间(MB) | Minimum | 低:空间不足可能导致写入失败和可用性下降 | |
| RDS | CPUUtilization | AWS/RDS | CPU 使用率 | Average, Maximum | 低:高负载可能影响可用性 |
| DatabaseConnections | AWS/RDS | 数据库连接数 | Average | 高:连接数异常低表示可用性问题 | |
| ReplicaLag | AWS/RDS | 主从复制延迟(秒) | Average | 高:高延迟表示读副本不可用 | |
| FreeStorageSpace | AWS/RDS | 可用存储空间 | Minimum | 低:空间不足导致服务中断 | |
| ReadIOPS/WriteIOPS | AWS/RDS | 读/写 IOPS | Sum | 低:IOPS 异常表示性能/可用性瓶颈 | |
| S3 | TotalRequestErrors | AWS/S3 | 总请求错误 | Sum | 高:错误率高表示桶不可用 |
| 5xxErrors | AWS/S3 | 5XX 服务器错误 | Sum | 高:服务端故障 | |
| 4xxErrors | AWS/S3 | 4XX 客户端错误 | Sum | 低:高值可能表示访问问题 | |
| BucketSizeBytes | AWS/S3 | 存储桶大小 | Average | 低:异常增长可能影响性能 | |
| Transit Gateway (TGW) | BytesIn | AWS/TransitGateway | 入口字节数 | Sum | 低:低值或0可能表示附件不可用 |
| BytesOut | AWS/TransitGateway | 出口字节数 | Sum | 低:低值或0可能表示附件不可用 | |
| PacketsIn | AWS/TransitGateway | 入口数据包数 | Sum | 低:异常值表示网络问题 | |
| PacketsOut | AWS/TransitGateway | 出口数据包数 | Sum | 低:异常值表示网络问题 | |
| PacketDropCountBlackhole | AWS/TransitGateway | 黑洞丢包计数 | Sum | 高:高值表示路由问题,导致不可用 | |
| PacketDropCountNoRoute | AWS/TransitGateway | 无路由丢包计数 | Sum | 高:高值表示路由缺失,导致不可用 | |
| CloudFormation | StackStatus | AWS/CloudFormation | 堆栈状态(CREATE_COMPLETE, UPDATE_FAILED 等) | N/A (事件驱动) | 高:状态如 ROLLBACK_FAILED 或 DELETE_FAILED 表示堆栈不可用或部署失败 |
| StackCount | AWS/CloudFormation | 堆栈数量 | Sum | 低:异常变化可能表示创建/删除问题 | |
| DynamoDB | ThrottledRequests | AWS/DynamoDB | 因超出吞吐量限制被限制的请求数 | Sum | 高:高值表示表或索引不可用或超载 |
| UserErrors | AWS/DynamoDB | HTTP 400 错误数(客户端错误) | Sum | 高:高错误率可能表示访问问题 | |
| SystemErrors | AWS/DynamoDB | HTTP 500 错误数(服务端错误) | Sum | 高:服务端故障直接影响可用性 | |
| ReadThrottleEvents | AWS/DynamoDB | 读请求被限制事件数 | Sum | 高:高值表示读操作不可用 | |
| WriteThrottleEvents | AWS/DynamoDB | 写请求被限制事件数 | Sum | 高:高值表示写操作不可用 | |
| AWS Backup | BackupJobsCompleted | AWS/Backup | 成功完成的备份作业数 | Sum | 高:低值可能表示备份失败或不可用 |
| BackupJobsFailed | AWS/Backup | 失败的备份作业数 | Sum | 高:>0 表示备份服务不可用或配置错误 | |
| RestoreJobsCompleted | AWS/Backup | 成功完成的恢复作业数 | Sum | 高:低值可能表示恢复功能不可用 | |
| RestoreJobsFailed | AWS/Backup | 失败的恢复作业数 | Sum | 高:>0 表示恢复服务不可用 | |
| API Gateway | 5XXError | AWS/ApiGateway | 服务端错误(HTTP 5XX)计数 | Sum | 高:高值表示 API 不可用 |
| 4XXError | AWS/ApiGateway | 客户端错误(HTTP 4XX)计数 | Sum | 低:高值可能表示访问权限或配置问题 | |
| Count | AWS/ApiGateway | 总请求数 | Sum | 低:请求数为 0 可能表示 API 不可用 | |
| Latency | AWS/ApiGateway | 请求延迟(毫秒) | Average, Maximum | 低:高延迟可能表示性能问题,影响可用性 | |
| WAF | BlockedRequests | AWS/WAFV2 | 被 WAF 阻止的请求数 | Sum | 高:异常值可能表示规则误配置或攻击导致可用性问题 |
| AllowedRequests | AWS/WAFV2 | 允许通过的请求数 | Sum | 低:低值可能表示 WAF 过于严格,影响正常访问 | |
| CountedRequests | AWS/WAFV2 | 总请求数 | Sum | 低:请求数为 0 可能表示 WAF 或关联资源不可用 | |
| SQS | NumberOfMessagesReceived | AWS/SQS | 队列接收的消息数 | Sum | 低:异常低值可能表示队列不可用或无消息流入 |
| NumberOfMessagesDeleted | AWS/SQS | 删除的消息数 | Sum | 低:与接收消息数不匹配可能表示处理问题 | |
| ApproximateNumberOfMessagesVisible | AWS/SQS | 队列中可见消息数 | Average | 低:持续高值可能表示消费者不可用 | |
| ApproximateAgeOfOldestMessage | AWS/SQS | 最旧消息的年龄(秒) | Maximum | 高:高值 (>预期阈值) 表示消息未被处理,可能消费者故障 | |
| SNS | NumberOfMessagesPublished | AWS/SNS | 发布的消息数 | Sum | 低:低值可能表示发布者不可用 |
| NumberOfNotificationsDelivered | AWS/SNS | 成功投递的通知数 | Sum | 高:低值表示订阅者不可用或投递失败 | |
| NumberOfNotificationsFailed | AWS/SNS | 失败的通知数 | Sum | 高:>0 表示通知服务不可用 | |
| Step Functions | ExecutionThrottled | AWS/States | 被限制的执行次数 | Sum | 高:高值表示状态机执行受限,影响可用性 |
| ExecutionsFailed | AWS/States | 失败的执行次数 | Sum | 高:>0 表示状态机不可用或逻辑错误 | |
| ExecutionsStarted | AWS/States | 开始的执行次数 | Sum | 低:低值可能表示触发器不可用 | |
| ExecutionsTimedOut | AWS/States | 超时的执行次数 | Sum | 高:>0 表示执行未完成,可能影响可用性 |
AWS INFR 可用性指标
最新推荐文章于 2026-07-03 16:56:22 发布
440

被折叠的 条评论
为什么被折叠?



