cephfs 创建文件系统，已经恢复过程 1 filesystem is degraded

admin · 发表于 2022-8-8 13:59:28

1.创建 cephfs
一个cephfs至少要求两个librados存储池，一个为data，一个为metadata。

step 1.创建cephfs存储池fs_metadata，fs_data

# 元数据库存储池
ceph osd pool create cephfs_metadata 8 8
# 数据
ceph osd pool create cephfs_data 8 8
step 2.使用fs new命令enable 文件系统

ceph fs new cephfs cephfs_metadata cephfs_data
使用mds来观察

[root@ceph-stroage01 ~]# ceph fs ls
name: cephfs, metadata pool: fs_metadata, data pools: [fs_data ]
[root@ceph-stroage01 ~]#
文件系统创建完毕后， MDS 服务器就能达到 active 状态了，比如在一个单 MDS 系统中：

[root@ceph-stroage01 ~]# ceph mds stat
cephfs:0
[root@ceph-stroage01 ~]#
查看集群监控状态：

[root@ceph-stroage01 ~]# ceph -s
  cluster:
id:    db51539c-d566-11eb-a3e9-e6f1aaf957fd
health: HEALTH_ERR
         2 filesystems are offline
         2 filesystems are online with fewer MDS than max_mds

  services:
mon: 3 daemons, quorum ceph-stroage01,ceph-stroage02,ceph-stroage03 (age 9m)
mgr: ceph-stroage01.cdthyk(active, since 9m), standbys: ceph-stroage03.dtasrq
mds: cephfs:0 cephfs_k8s:0
osd: 6 osds: 6 up (since 9m), 6 in (since 2w)

  data:
pools: 8 pools, 201 pgs
objects: 68 objects, 87 MiB
usage: 6.6 GiB used, 593 GiB / 600 GiB avail
pgs:    201 active+clean
[root@ceph-stroage01 ~]#
[root@ceph-stroage01 ~]# ceph health detail
HEALTH_ERR 2 filesystems are offline; 2 filesystems are online with fewer MDS than max_mds
[ERR] MDS_ALL_DOWN: 2 filesystems are offline
fs cephfs is offline because no MDS is active for it.
fs cephfs_k8s is offline because no MDS is active for it.
[WRN] MDS_UP_LESS_THAN_MAX: 2 filesystems are online with fewer MDS than max_mds
fs cephfs has 0 MDS online, but wants 1
fs cephfs_k8s has 0 MDS online, but wants 1
[root@ceph-stroage01 ~]#
所有的mds都没有active的状态，造成元数据无法恢复，所以此时需要放弃原来的cephfs，重建构建基于原来data池生成新的cephfs.

2.元数据故障恢复
step 1.设置允许多文件系统

ceph fs flag set enable_multiple true --yes-i-really-mean-it
step 2.创建一个新的元数据池，以免损坏原来的元数据

ceph osd pool create recovery 8
step 3.将存储池fs_data和新的元数据池recovery关联创建一个新的recovery-fs

ceph fs new recovery-fs recovery fs_data --allow-dangerous-metadata-overlay
step 4.文件系统的初始化相关工作

cephfs-data-scan init --force-init --filesystem recovery-fs --alternate-pool recovery
step 5.reset fs

ceph fs reset recovery-fs --yes-i-really-mean-it

[root@ceph-1 ~]# ceph fs reset recovery-fs --yes-i-really-mean-it
Error EINVAL: all MDS daemons must be inactive before resetting filesystem: set the cluster_down flag and use `ceph mds fail` to make this so

若失败，要把所有mds fail掉或者stop掉，再快速执行上面命令。

cephfs-table-tool recovery-fs:all reset session
cephfs-table-tool recovery-fs:all reset snap
cephfs-table-tool recovery-fs:all reset inode

[root@ceph-1 ~]# cephfs-table-tool recovery-fs:all reset session
{
"0": {
      "data": {},
      "result": 0
}
}

[root@ceph-1 ~]# cephfs-table-tool recovery-fs:all reset snap
{
"result": 0
}

[root@ceph-1 ~]# cephfs-table-tool recovery-fs:all reset inode
{
"0": {
      "data": {},
      "result": 0
}
}

出现Address family not supported by protocol的错误忽略掉
[root@ceph-1 ~]# ceph fs reset recovery-fs --yes-i-really-mean-it
Error EINVAL: all MDS daemons must be inactive before resetting filesystem: set the cluster_down flag and use `ceph mds fail` to make this so

[root@ceph-1 ~]# ceph fs status
cephfs - 0 clients
======
+------+--------+--------+----------+-------+-------+
| Rank | State  |  MDS | Activity |  dns  |  inos |
+------+--------+--------+----------+-------+-------+
|  0 | replay | ceph-2 |       | 0  | 0  |
+------+--------+--------+----------+-------+-------+
+------------+----------+-------+-------+
| Pool | type |  used | avail |
+------------+----------+-------+-------+
|  metedata  | metadata |  569k |  275G |
| cephfsdata | data | 1273M |  275G |
+------------+----------+-------+-------+
recovery-fs - 0 clients
===========
+------+--------+--------+---------------+-------+-------+
| Rank | State  |  MDS | Activity |  dns  |  inos |
+------+--------+--------+---------------+-------+-------+
|  0 | active | ceph-1 | Reqs: 0 /s | 10  | 12  |
+------+--------+--------+---------------+-------+-------+
+------------+----------+-------+-------+
| Pool | type |  used | avail |
+------------+----------+-------+-------+
|  recovery  | metadata | 2138  |  275G |
| cephfsdata | data | 1273M |  275G |
+------------+----------+-------+-------+

+-------------+
| Standby MDS |
+-------------+
| ceph-3 |
+-------------+
MDS version: ceph version 12.2.8-52.el7 (3af3ca15b68572a357593c261f95038d02f46201) luminous (stable)

step 6.恢复相关

确保新建的recovery-fs没有active的mds,有则stop掉，不然该mds容易crashed。

cephfs-data-scan scan_extents --force-pool --alternate-pool recovery --filesystem cephfs fs_data
cephfs-data-scan scan_inodes --alternate-pool recovery --filesystem cephfs --force-corrupt --force-init fs_data
cephfs-data-scan scan_links --filesystem recovery-fs
[root@ceph-1 ~]# cephfs-data-scan scan_extents --force-pool --alternate-pool recovery --filesystem
[root@ceph-1 ~]# cephfs-data-scan scan_inodes --alternate-pool recovery --filesystem cephfs --force-corrupt --force-init cephfsdata
[root@ceph-1 ~]# cephfs-data-scan scan_links --filesystem recovery-fs
出现Address family not supported by protocol的错误忽略掉

systemctl start ceph-mds@node82
等待 mds active 以后再继续下面操作

ceph daemon mds.node82 scrub_path / recursive repair
设置成默认的fs

ceph fs set-default recovery-fs
[root@ceph-1 ~]# ceph fs set-default recovery-fs

可以看到在lost+found里面就有数据了这个生成的文件名称就是实际文件存储的数据的prifix，也就是通过原始inode进行的运算得到的。

备份原始的元数据信息

ceph daemon mds.node82 dump cache > /tmp/mdscache

[root@ceph-1 ~]# ceph daemon mds.ceph-1 dump cache  >/tmp/mdscache

[root@ceph-1 ~]# ceph-fuse -m 192.168.120.23:6789 /mnt/
2022-08-08 14:34:55.355051 7fa47e9940c0 -1 init, newargv = 0x5588a05e0720 newargc=9ceph-fuse[43889]: starting ceph client

ceph-fuse[43889]: starting fuse
[root@ceph-1 ~]# df -Th
Filesystem          Type          Size  Used Avail Use% Mounted on
devtmpfs             devtmpfs       1.9G    0  1.9G 0% /dev
tmpfs                tmpfs          1.9G    0  1.9G 0% /dev/shm
tmpfs                tmpfs          1.9G 25M  1.9G 2% /run
tmpfs                tmpfs          1.9G    0  1.9G 0% /sys/fs/cgroup
/dev/mapper/rhel-root xfs             50G  7.9G 42G  16% /
/dev/vda1          xfs          497M  143M  355M  29% /boot
/dev/vdb1          xfs             98G  529M 97G 1% /var/lib/ceph/osd/ceph-0
/dev/vdc1          xfs             98G  527M 97G 1% /var/lib/ceph/osd/ceph-1
tmpfs                tmpfs          379M    0  379M 0% /run/user/0
ceph-fuse          fuse.ceph-fuse  278G  1.3G  276G 1% /mnt
[root@ceph-1 ~]# cd /mnt/
[root@ceph-1 mnt]# ls
lost+found
[root@ceph-1 mnt]# cd lost+found/
[root@ceph-1 lost+found]# ls
10000000000  1000000000d  10000000019  10000000025  10000000031  1000000003d  10000000049
10000000002  1000000000e  1000000001a  10000000026  10000000032  1000000003e  1000000004a
10000000003  1000000000f  1000000001b  10000000027  10000000033  1000000003f  1000000004b
10000000004  10000000010  1000000001c  10000000028  10000000034  10000000040  1000000004c
10000000005  10000000011  1000000001d  10000000029  10000000035  10000000041  1000000004d
10000000006  10000000012  1000000001e  1000000002a  10000000036  10000000042  1000000004e
10000000007  10000000013  1000000001f  1000000002b  10000000037  10000000043  1000000004f
10000000008  10000000014  10000000020  1000000002c  10000000038  10000000044  10000000050
10000000009  10000000015  10000000021  1000000002d  10000000039  10000000045  10000000051
1000000000a  10000000016  10000000022  1000000002e  1000000003a  10000000046  10000000052
1000000000b  10000000017  10000000023  1000000002f  1000000003b  10000000047
1000000000c  10000000018  10000000024  10000000030  1000000003c  10000000048

元数据恢复原理
一般文件系统采用的fsck命令来维护文件系统一致性，但是fsck对cephfs的难度是非常大的，主要原因在于其机制存在根本的区别：

cephfs修复的是一个rados集群数据而非一块磁盘设备；
需要精确的识别数据的所有数据片，及这些数据片所属的inode
大量的元数据不可能全部保存到内存中
数据丢失原因可能在于
(1)系统bug导致；
(2)由于RADOS同步的灾难性故障——可能到时大量数据丢失；
(3)bit位翻转(bitrot)
cephfs-data-scan
cephfs-data-scan根据数据存储池中的内容重新生成丢失文件和目录的元数据对象。
step 1.初始化

cephfs-data-scan init

step 2.扫描所有对象以计算索引节点的尺寸和 mtime 元数据；

cephfs-data-scan scan_extents <datapool>

```bash
step 3.从每个文件的第一个对象扫描出元数据并注入元数据存储池。
```bash

cephfs-data-scan scan_inodes <datapool>

如果数据存储池内的文件很多、或者有很大的文件，这个命令就要花费很长时间。要加快处理，可以让这个工具多跑几个例程。先确定例程数量、再传递给每个例程一个数字 N ，此数字应大于 0 且小于 (N - 1) ，像这样

# Worker 0
cephfs-data-scan scan_extents <data pool> 0 1
# Worker 1
cephfs-data-scan scan_extents <data pool> 1 1
# Worker 0
cephfs-data-scan scan_inodes <data pool> 0 1
# Worker 1
cephfs-data-scan scan_inodes <data pool> 1 1

3.mds rank 0 is damaged
启动ceph后，出现如下错误：

[root@k8s-node2 ~]# ceph health detail
HEALTH_ERR mds rank 0 is damaged; mds cluster is degraded
mds.0 is damaged
mds cluster is degraded
提示 mds.0 不可用。
在部署ceph时，安装了3个mds, 分别运行在3台服务器上。并且参考官方的配置，使其中一个作为 master 对外提供服务，另外两个作为 standby。来预防单点故障。(max_mds 设置为 2)
http://docs.ceph.com/docs/jewel/cephfs/standby/#examples

该错误发生后，3 个mds，均为 standby 状态。按照官网的描述来看，当所有 mds 均处于 standby 状态时，其中一个 mds 会选举称为 master.
于是挨个停止mds, 随后又逐个启动并查看/var/log/ceph/ceph-mds.xx.log。发现 mds 在称为 master 时，出现了如下错误：

...
2017-09-26 11:30:48.976326 7f9ee3941700  0 mds.0.journaler(ro) _finish_read got less than expected (4194304)
2017-09-26 11:30:48.976354 7f9ee1734700  0 mds.0.log _replay journaler got error -22, aborting
2017-09-26 11:30:49.071230 7f9ee3941700  0 mds.0.journaler(ro) _finish_read got less than expected (4194304)
2017-09-26 11:30:49.071472 7f9ee1734700 -1 log_channel(cluster) log [ERR] : Error loading MDS rank 0: (22) Invalid argument
2017-09-26 11:30:49.076129 7f9ee1734700  1 mds.k8s-node1 respawn
...
2017-09-26 11:30:49.099291 7f99e58be180  0 pidfile_write: ignore empty --pid-file
2017-09-26 11:30:49.571643 7f99dfacf700  1 mds.k8s-node1 handle_mds_map standby
提示在读取 journal 的时候出现差错，因此可以确定问题出在 mds journal 上。

$ ceph mds repaire 0
参考官方的故障恢复
http://docs.ceph.com/docs/jewel/cephfs/disaster-recovery/

step 1.导出 journal
在执行有风险的操作之前，先将 journal 备份：

ceph-journal-tool journal export backup.bin
Note : 这个文件大小和ceph集群存储数据量成正比，会很大

step 2.从 journal 恢复
当 mds 因为 journal 损坏或者其他原因无法读取，为了恢复文件元数据可以执行：

ceph-journal-tool event recover_dentries summary
默认会从 mds.0 中恢复, 使用 –rank=<n> 来指定其他mds

这条指令会将 journal 中所有可回收的 inodes/dentries 写到后端存储，前提是要写入的 innodes/dentries 版本比后端存储里面的要高。如果某个区块的 journal 丢失或者损坏，那么就不会被写到后端存储中。

Note: 除了将inodes/dentries 写入之外，这条命令还会更新每个 MDS 的 InoTables, 标明被写入的 inodes 号在使用中，在一般情况下，会让后端存储恢复正常状态。

此操作不能保证后端存储的状态达到前后一致，而且在此之后有必要执行 MDS 在线 scrub。此命令不会更改日志内容，恢复了能恢复的部分后应该把journal截短。

Note : 然而在执行这个命令之后，集群并未恢复正常，因此还需要往下看

step 3. 截断日志

cephfs-journal-tool journal reset
重置journal 将会造成metadata丢失，除非你提前通过诸如 recover_dentries 的方式将metadata保存。该操作可能会在数据池里面产生一些孤儿对象。这会造成已写入的inodes再次被重新分配，权限规则可能因此被违反。

Note : 有个类似的 issue中也提到了上述步骤（link）,但执行到这一步后，就没往下走了。
And mds rejoined again and everything seems to work fine now. 这点我没验证过，担心会有隐患。于是按照文档步骤继续执行了。

step 4. 清除 MDS 表
在 journal 被 reset 之后，它可能不再符合MDS表的内容（包括：InoTable, SessionMap, SnapServer）. 重置 SessionMap (即擦除所有Session) , 通过命令：

cephfs-table-tool all reset session
这条命令会在所有mds中生效，可以将 all 替换为指定 mds 标号。
step 5.MDS MAP RESET
一旦文件系统底层的 RADOS 状态（即元数据存储池的内容）有所恢复，有必要更新 MDS 图以反映元数据存储池的内容。可以用下面的命令把 MDS MAP 重置到单个 MDS ：

ceph fs reset <fs name> --yes-i-really-mean-it
运行此命令之后， MDS rank 保存在 RADOS 上的任何不为 0 的状态都会被忽略：因此这有可能导致数据丢失。

Note : fs name 可通过 ceph fs ls 查看

step 6. RECOVERY FROM MISSONG METADATA OBJECT

# Session table
cephfs-table-tool 0 reset session
# SnapServer
cephfs-table-tool 0 reset snap
# InoTable
cephfs-table-tool 0 reset inode
# Journal
cephfs-journal-tool --rank=0 journal reset
# Root inodes ("/" and MDS directory)
cephfs-data-scan init
最后，会基于数据池中丢失的文件和目录来重新创建 METADATA OBJECT。分为2步。

扫描所有对象并计算出inodes 的大小和 mtime metadata

cephfs-data-scan scan_extents <data pool>
扫描每个文件中的第一个对象来收集METADATA，随后注入到 metadata pool

cephfs-data-scan scan_inodes <data pool>
Note : 这两个步骤太耗时了，应该考虑起多个workers来同步处理。data pool 可通过 ceph fs ls 查看

# Worker 0
cephfs-data-scan scan_extents <data pool> 0 1
# Worker 1
cephfs-data-scan scan_extents <data pool> 1 1
# Worker 0
cephfs-data-scan scan_inodes <data pool> 0 1
# Worker 1
cephfs-data-scan scan_inodes <data pool> 1 1
Note : 一定要确保在所有 workers 完成 scan_extents 之后再进行scan_inodes操作。==

待所有操作执行完毕之后：

[root@k8s-master ~]# ceph -s
cluster e61d687d-f43d-4f50-af66-da96e5856be9
   health HEALTH_OK
   monmap e5: 3 mons at {k8s-master=172.16.18.30:6789/0,k8s-node1=172.16.18.6:6789/0,k8s-node2=172.16.18.7:6789/0}
         election epoch 676, quorum 0,1,2 k8s-node1,k8s-node2,k8s-master
   fsmap e4970: 1/1/1 up {0=k8s-node1=up:active}, 2 up:standby
   osdmap e2914: 6 osds: 6 up, 6 in
         flags sortbitwise,require_jewel_osds
   pgmap v10110565: 256 pgs, 4 pools, 25575 MB data, 372 kobjects
         58730 MB used, 11115 GB / 11172 GB avail
               256 active+clean

		自动登录	找回密码
密码			注册