# systemctl stop ceph-mds@pve04.service# cephfs-journal-tool --rank=cephfs:0 event recover_dentries summary# cephfs-journal-tool --rank=cephfs:0 journal reset# cephfs-table-tool all reset session# systemctl start ceph-mds@pve04.service# ceph mds repaired 0
% { {( E' \* h+ z2 ^7 ?4 t6 O! l5 O3 O! E; A' d
pgs not deep-scrubbed in time# ceph -s 47 pgs not deep-scrubbed in time应该是OSDs掉线后,CEPH自动进行数据恢复。再将相应的OSDs重新加入后,则需要将恢复的数据再擦除掉。于是提示相应的警告信息,正在进行删除相关的操作,且其pgs的数量会不断变少。等待一段时间后,则恢复正常,此时ceph文件系统性能很差。 4. MDS cache is too largeceph config set mds mds_cache_memory_limit 10GBceph config dump当MDS使用的缓存过高,比设定的阈值高很多时,则有此警告信息。使用如上命令设置更高的MDS缓存阈值,即可消除次警告信息,但会消耗更多的内存。使用config dump命令可以查看各项参数阈值信息。 此外,可能增大了mds_cache_memory_limit参数后,过了一段时间后仍然提示该警告,检测发现MDS缓存使用又超过新设定值的1.5倍大小了。此时,可以考虑设置多个活动状态的MDS服务。 # 先开启3台服务器的MDS服务,确保这3台服务器的内存是够用的,最好这3台服务器的内存更大。ceph orch apply mds cephfs ceph106,ceph107,ceph109ceph fs set cephfs max_mds 3# 由于激活了3台服务器的MDS,缺少备用的MDS服务。再增加一个备用的MDS服务主机。ceph orch apply mds cephfs ceph106,ceph107,ceph109,ceph1105. Client node18 failing to respond to cache pressure表示node18主机和MDS服务之前的响应较慢,若过一会儿就显示health_ok,则不用管它。若是长期显示该警告,则在对应的node18主机上卸载ceph文件系统后重新挂载即可。 客户端在使用相应数据时,MDS服务端则将其数据缓存到服务器的内存中。当MDS服务端需要减少缓存消耗时,则会给客户端发送相应的请求。此时,客户端响应过慢,则提示此警告信息。若一直如此,会导致MDS服务器缓存无法释放,内存消耗持续增加甚至导致宕机。 可以查询ceph客户端的ID号及其使用inode数(num_caps的值)。 ceph tell mds.0 session ls谨慎使用如下命令踢出目标客户端或全部客户端。 ceph tell mds.0 session evict id=11134635ceph tell mds.0 session evict踢出客户端是将客户端加入了黑名单,可以使用如下命令查看黑名单信息或移出黑名单。虽然移出黑名单,可能还不能让客户端正常挂载ceph文件系统,因此需要谨慎处理。 ceph osd blacklist lsceph osd blacklist rm 192.168.20.1:0/1498586492ceph osd blacklist clear6. Reduced data availability: 4 pgs inactive, 4 pgs incomplete当有pgs出现incomplete时,表明pgs对应的OSDs存活数量少于最小副本数。因此,其对应的数据无法读写,处于reduced状态,会导致MDS服务出问题,提示如下报错信息,示例: 3 MDSs report slow metadata IOs2 MDSs report slow requests2 MDSs behind on trimmingReduced data availability: 4 pgs inactive, 4 pgs incompletepg 5.6de is incomplete, acting [254,356,222,352,111,247,100,133,351,206] (reducing pool cephfs_data min_size from 8 may help; search ceph.com/docs for 'incomplete')pg 5.6e9 is incomplete, acting [276,244,357,358,221,321,311,229,314,351] (reducing pool cephfs_data min_size from 8 may help; search ceph.com/docs for 'incomplete')pg 5.73b is incomplete, acting [186,279,351,247,293,354,359,220,181,283] (reducing pool cephfs_data min_size from 8 may help; search ceph.com/docs for 'incomplete')pg 5.eda is incomplete, acting [164,157,120,227,353,351,295,269,95,354] (reducing pool cephfs_data min_size from 8 may help; search ceph.com/docs for 'incomplete')此时,需要修复pgs。 # 查询pg信息(pg id 为 5.6de)ceph pg 5.6de query# 强行重建pgceph osd force-create-pg 5.6de --yes-i-really-mean-it/ \7 ]/ E, Z. z" V% M" ?; q: J, {
9 p- j$ P, P0 D# {2 {6 M
+ Z4 Y. o7 G1 _' I4 J( s) N4 n: @6 b! o8 R' g
' H$ G8 p" ^2 C+ j9 b; J( H
|