ceph 文件系统mds cephfs文件系统扩容

admin · 发表于 2022-7-27 02:00:01

cephfs扩容方案

需求描述

建立完善的cephfs的扩容方案，满足cephfs用户数据存储空间在各种场景下的扩容需求。目前扩容只涉及到用户的数据存储，元数据部分因为空间使用率较低所以不需要考虑扩容。

现有cephfs用户存储模型

目前单个用户会对应一个ceph集群里面的多个Dir目录，每个Dir目录底层会关联到两个pool，其中metadata_pool用来存储元数据，data_pool用来存储数据。

单集群扩容方案

通过filelayout进行扩容

基本原理

每个文件都有filelayout的xattr属性，其中包含一个关键的pool字段，用来指定存储文件底层用到哪个pool，因此利用该特性可以实现基于目录基本的扩容。

参考 https://docs.ceph.com/docs/maste ... ata-pool-to-the-mds

操作流程

root@host1:/mnt/cephfs1# ceph df RAW STORAGE: CLASS SIZE AVAIL USED RAW USED %RAW USED hdd 952 TiB 861 TiB 89 TiB 91 TiB 9.52 TOTAL 952 TiB 861 TiB 89 TiB 91 TiB 9.52 POOLS: POOL ID STORED OBJECTS USED %USED MAX AVAIL rbdtest-site1-ssd-img 1 8.7 TiB 2.34M 26 TiB 24.58 27 TiB rbdtest-site1-sas-img 2 8.8 TiB 2.31M 26 TiB 3.63 233 TiB cephfs_metadata 3 85 GiB 116.05k 86 GiB 0.10 27 TiB cephfs_data 4 12 TiB 198.68M 36 TiB 30.65 27 TiB cephfs_pool1 5 121 GiB 31.04k 364 GiB 0.44 27 TiB sym_cephfs_data 6 656 KiB 13 3.6 MiB 0 233 TiB sym_cephfs_metadata 7 0 B 0 0 B 0 233 TiB kubernetes 20 152 B 6 192 KiB 0 233 TiB root@host1:/mnt/cephfs1# setfattr -n ceph.dir.layout.pool -v cephfs_pool1 /mnt/cephfs1/extest1/ root@host1:/mnt/cephfs1# getfattr -n ceph.dir.layout /mnt/cephfs1/extest1 getfattr: Removing leading '/' from absolute path names # file: mnt/cephfs1/extest1 ceph.dir.layout="stripe_unit=4194304 stripe_count=1 object_size=4194304 pool=cephfs_pool1" root@host1:/mnt/cephfs1/extest1# touch file2 root@host1:/mnt/cephfs1/extest1# getfattr -n ceph.file.layout /mnt/cephfs1/extest1/file2 getfattr: Removing leading '/' from absolute path names # file: mnt/cephfs1/extest1/file2 ceph.file.layout="stripe_unit=4194304 stripe_count=1 object_size=4194304 pool=cephfs_pool1"

方案1. 同级目录扩容

如果业务侧能够按新增主目录方式进行扩容，则可以通过新增一个用户主目录，将新目录指向新的data_pool来实现扩容。

优点:新扩容的pool不会对现有存储服务造成影响。

缺点:业务需要能够适配这种新增子目录的扩容方式。

方案2. 子目录扩容

如果业务侧只能在原有主目录中进行操作，则可以通过在原有主目录下新增一个用户子目录，将新生成的子目录指向新的data_pool来实现扩容。

优点:新扩容的pool不会对现有存储服务造成影响。

缺点:业务需要能够适配这种新增子目录的扩容方式。

通过新增OSD进行扩容

基本原理

基于原生底层分布式存储的基本特性，可以在原有的pool里面新增OSD进行扩容，但是新增OSD会导致旧有数据重新平衡，造成性能波动，影响服务质量。

方案3. 原有data_pool扩容

通过在原有data_pool中新增OSD来实现扩容。

优点:业务和k8s层面不需要做任何变动，完全对上层透明。

缺点:旧集群在新增OSD的时候会发生性能抖动，同时为了兼顾扩容速率和减少业务影响，相对扩容周期会比较长。受限与机房机柜和网络设备环境，有物理层面的上限。

多集群扩容方案

方案4. 新增ceph集群

受限于单集群规模存储集群的规模有限(受限机柜、网络等)，单机房多集群、多机房多集群都会可能存在，因此这一块的存储扩容方案也会纳入设计范围。

优点:适配现有的单集群部署方案(1个集群跨3个机柜)，相对来讲容易做故障域隔离(鸡蛋不放一个篮子里).扩容新集群不会对现有存储服务造成影响。

缺点:需要业务能够适配这种跨集群模型(跨集群的目录数据不能互通)，单个docker里面最好不要同时挂载两个以上集群的目录。k8s的存储资源调度复杂度上升，需要支持多集群。

admin · 发表于 2022-7-27 13:41:27

[root@ceph-1 ~]# ceph fs get filefs
Filesystem 'filefs' (3)
fs_name filefs
epoch 53
flags c
created 2022-07-27 11:43:28.889488
modified 2022-07-27 11:52:06.236226
tableserver 0
root 0
session_timeout 60
session_autoclose 300
max_file_size 1099511627776
last_failure 0
last_failure_osd_epoch 308
compat compat={},rocompat={},incompat={1=base v0.20,2=client writeable ranges,3=default file layouts on dirs,4=dir inode in separate object,5=mds uses versioned encoding,6=dirfrag is stored in omap,8=no anchor table,9=file layout v2}
max_mds 1
in 0
up {0=6289}
failed
damaged
stopped
data_pools [7]
metadata_pool 6
inline_data disabled
balancer
standby_count_wanted 1
6289: 192.168.120.16:6800/3770900281 'ceph-2' mds.0.50 up:active seq 261

admin · 发表于 2022-7-27 13:43:43

恢复步骤

设置允许多文件系统
ceph fs flag set enable_multiple true –yes-i-really-mean-it
创建一个新的元数据池，这里是为了不去动原来的metadata的数据，以免损坏原来的元数据
ceph osd pool create recovery 8
将老的存储池data和新的元数据池recovery关联起来并且创建一个新的recovery-fs
ceph fs new recovery-fs recovery data_pool –allow-dangerous-metadata-overlay[root@ceph-2 ~]# ceph fs new recovery-fs recovery metadata --allow-dangerous-metadata-overlay
new fs with metadata pool 8 and data pool 6

做下新的文件系统的初始化相关工作
cephfs-data-scan init –force-init –filesystem recovery-fs –alternate-pool recovery
reset下新的fs
ceph fs reset recovery-fs –yes-i-really-mean-it
cephfs-table-tool recovery-fs:all reset session
cephfs-table-tool recovery-fs:all reset snap
cephfs-table-tool recovery-fs:all reset inode
做相关的恢复
cephfs-data-scan scan_extents –force-pool –alternate-pool recovery –filesystem cephfs data_pool
cephfs-data-scan scan_inodes –alternate-pool recovery –filesystem cephfs –force-corrupt –force-init data_pool
cephfs-data-scan scan_links –filesystem recovery-fs
systemctl start ceph-mds.target
等待mds active 以后再继续下面操作
ceph daemon mds.mon0 scrub_path / recursive repair
ceph fs set-default recovery-fs

		自动登录	找回密码
密码			注册