# 监控项说明

|监控指标类别|监控项|说明|
|--- |--- |--- |
|kafka指标|每秒流入消息个数（个/s）|所有的topic的消息速率（个/s），取一分钟的平均值|
|:::|每秒流入数据（B/s）|所有的topic的流入数据速率（B/s），取一分钟的平均值|
|:::|每秒流出数据（B/s）|所有的topic的流出数据速率（B/s），取一分钟的平均值|
|:::|消费者失败请求（次/s）|消费者失败的请求个数，取一分钟的平均值|
|:::|生产者失败请求（次/s）|生成者失败请求的个数，取一分钟的平均值|
|:::|Broker拒绝的消息（B/s）|Broker拒绝的消息量，取一分钟的平均值|
|:::|leader选举速率(ms)|Broker宕机时，集群应该在尽可能短的时间内完成leader选举|
|:::|controller存活数目(个)|集群同一时间有且最多只能有一个controller，与下述管理节点个数（个）指标相同|
|:::|生产者请求响应时间（ms）|生产者平均响应时间|
|:::|生产者QPS（次/s）|生产者QPS，取一分钟的平均值|
|:::|消费者请求响应时间（ms）|消费者平均响应时间|
|:::|消费者QPS（次/s）|消费者QPS，取一分钟的平均值|
|:::|Kafka存活节点个数(个)|集群节点存活数量统计，值应该与集群节点数相同|
|:::|Follower落后Leader最大消息量（个）|follower落后leader replica的最大的消息数量|
|:::|分布在该节点上的分区总数（个）|该节点上分区总数|
|:::|分布在该节点上的leader分区总数（个）|该节点上leader分区总数|
|:::|未复制的分区总数（个）|待做复制的分区的数量，正常值为0|
|:::|ISR收缩速率（个/s）|ISR的收缩(shrink)速率。<\br> 如果一个broker挂掉了，一些partition的ISR会收缩。<\br> 当那个broker重新起来时，一旦它的replica完全跟上，ISR会扩大(expand)。<\br> 除此之外，正常情况下，此值和下面的扩大速率都是0 |
|:::|ISR扩大速率（个/s）|ISR的扩大(expansion)速率，参见ISR的收缩(shrink)速率|
|:::|管理节点个数（个）|当前的broker是否为controller。<\br> 在集群中只有一个broker的这个值为1，其他值为0，如果都为0，集群有问题。|
|:::|离线分区总数（个）|离线的partition个数|
|节点指标|CPU使用率（%）|节点的CPU使用率|
|:::|磁盘读/写吞吐（Kb/s）|磁盘读写吞吐量|
|:::|磁盘读/写次数（次/s）|磁盘读写次数|
|:::|网卡出/入带宽（Kb/s）|网卡出入带宽值|
|:::|网卡出/入包量（个/s）|网卡出入包量|
|:::|内存使用率（%）|节点的内存使用率|
|:::|数据盘使用率（%）|节点数据盘使用率|
|:::|系统盘使用率（%）|节点系统盘使用率|
|zookeeper指标|zk当前活跃连接数(个)|zk当前活跃连接个数|
|:::|zk最大请求延时(ms)|zk最大请求延时|
|:::|zk平均请求延时(ms)|zk平均请求延时|
|:::|zk最小请求延时(ms)|zk最小请求延时|
|:::|zk总发送响应数(万个)|zk总发送响应数|
|:::|zk总接收响应数(万个)|zk总接收响应数|
|:::|zk待处理连接数(个)|zk待处理连接数|
|::|watcher数量（个）|watch机制用于数据变更时zookeeper的主动通知。<\br> watch可以被附加到每一个节点上，那么如果一个应用有10W个节点，<\br>那zookeeper中就可能有10W个watch（甚至更多）|
|:::|znode数量（个）|znode是zookeeper的节点，类似文件系统的目录或者文件|