找回密码
 注册
查看: 1729|回复: 1

Ceph分布式存储 OSD从filestore 转换到 bluestore的方法

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2021-12-8 15:11:11 | 显示全部楼层 |阅读模式
获取代码并安装git clone https://github.com/ceph/ceph.gitcd cephgit submodule update --init --recursive./make-distrpm -bb ceph.spec
8 a9 @8 H- D* E7 h/ \' c! {; X$ w
! z. n8 o  m7 n
生成rpm安装包后进行安装,这个过程就不讲太多,根据各种文档安装上最新的版本即可,这个代码合进去时间并不久,大概是上个月才合进去的
配置集群
首先配置一个filestore的集群,这个也是很简单的,我的环境配置一个单主机三个OSD的集群
[root@lab8106 ceph]# ceph -s    cluster 3daaf51a-eeba-43a6-9f58-c26c5796f928     health HEALTH_WARN            mon.lab8106 low disk space     monmap e2: 1 mons at {lab8106=192.168.8.106:6789/0}            election epoch 4, quorum 0 lab8106        mgr active: lab8106      osdmap e16: 3 osds: 3 up, 3 in      pgmap v34: 64 pgs, 1 pools, 0 bytes data, 0 objects            323 MB used, 822 GB / 822 GB avail                  64 active+clean[root@lab8106 ceph]# ceph osd treeID WEIGHT  TYPE NAME        UP/DOWN REWEIGHT PRIMARY-AFFINITY -1 0.80338 root default                                       -2 0.80338     host lab8106                                    0 0.26779         osd.0         up  1.00000          1.00000  1 0.26779         osd.1         up  1.00000          1.00000  2 0.26779         osd.2         up  1.00000          1.00000) i0 K7 Z$ g: r& z
  x9 V# Z- p) A* {
写入少量数据[root@lab8106 ~]# rados -p rbd bench 10 write --no-cleanup1 \" d6 u! V+ r: T: a; t
0 e5 u: O0 q4 k" W2 }% o# k3 P
设置noout[root@lab8106 ~]# ceph osd set nooutnoout is set
/ V% r4 M* ^: V+ `: P
$ f8 m) o, T6 Q6 L3 V
停止OSD.0[root@lab8106 ~]# systemctl stop ceph-osd@0[root@lab8106 ~]# ceph osd down 0osd.0 is already down.
$ R) F2 J8 J) G9 f3 d, M, I

, u' F0 o8 ?7 k, ?- l" l5 f
将数据换个目录挂载,换个新盘挂载到原路径
[root@lab8106 ~]# mkdir /var/lib/ceph/osd/ceph-0.old/[root@lab8106 ~]# umount /var/lib/ceph/osd/ceph-0[root@lab8106 ~]# mount /dev/sdb1 /var/lib/ceph/osd/ceph-0.old/[root@lab8106 ~]# mount /dev/sde1 /var/lib/ceph/osd/ceph-0/[root@lab8106 ~]# df -h|grep osd/dev/sdc1       275G  833M  274G   1% /var/lib/ceph/osd/ceph-1/dev/sdd1       275G  833M  274G   1% /var/lib/ceph/osd/ceph-2/dev/sdb1       275G  759M  274G   1% /var/lib/ceph/osd/ceph-0.old/dev/sde1       280G   33M  280G   1% /var/lib/ceph/osd/ceph-0. b6 Q; u9 r+ J5 G6 T& \

2 u* h- _5 e1 E' S9 \; W
在配置文件/etc/ceph/ceph.conf中添加
enable_experimental_unrecoverable_data_corrupting_features = bluestore8 ^8 b  r5 K6 E8 @2 L
$ U; Z0 t' F( V' {( ^
如果需要指定osd的block的路径需要写配置文件
在做 ceph-objectstore-tool --type bluestore --data-path --op mkfs 这个操作之前,在配置文件的全局里面添加上
bluestore_block_path = /dev/sde2
然后再创建的时候就可以是链接到设备了,这个地方写全局变量,然后创建完了后就删除掉这项配置文件,写单独的配置文件的时候发现没读取成功,生成后应该是这样的
[root@lab8106 ceph]# ll /var/lib/ceph/osd/ceph-0total 20lrwxrwxrwx 1 root root  9 May  3 17:40 block -> /dev/sde2-rw-r--r-- 1 root root  2 May  3 17:40 bluefs-rw-r--r-- 1 root root 37 May  3 17:40 fsid-rw-r--r-- 1 root root  8 May  3 17:40 kv_backend-rw-r--r-- 1 root root  4 May  3 17:40 mkfs_done-rw-r--r-- 1 root root 10 May  3 17:40 type
8 L* u3 v" K3 z7 ]! w1 A
7 O( C( [' }; R; }9 P6 p7 ?
如果不增加这个就是以文件形式的存在
获取osd.0的fsid[root@lab8106 ~]# cat /var/lib/ceph/osd/ceph-0.old/fsid b2f73450-5c4a-45fb-9c24-8218a5803434
. F9 o8 a* V5 x) H  k! g

& M" B% m, W  K! I! z( F/ v) E创建一个bluestore的osd.0[root@lab8106 ~]# ceph-objectstore-tool --type bluestore --data-path /var/lib/ceph/osd/ceph-0 --fsid b2f73450-5c4a-45fb-9c24-8218a5803434 --op mkfs2 k. N4 c9 V- Q  ]5 x

( t8 e1 w* R$ H& ?& A" Q( i. I转移数据[root@lab8106 ~]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0.old --target-data-path /var/lib/ceph/osd/ceph-0 --op dup[root@lab8106 ~]# chown -R ceph:ceph /var/lib/ceph/osd/ceph-0
0 g$ T2 B, k; m; P
7 o0 B) Q% N! g9 ~
这个操作是将之前的filestore的数据转移到新的bluestore上了
启动OSD.0[root@lab8106 osd]# systemctl restart ceph-osd@02 Q, F1 u- B7 a/ Q& e% M
$ E2 }3 R4 {: s. {  {
检查状态
[root@lab8106 osd]# ceph -s2017-05-03 17:05:13.119492 7f20a501b700 -1 WARNING: the following dangerous and experimental features are enabled: bluestore2017-05-03 17:05:13.150181 7f20a501b700 -1 WARNING: the following dangerous and experimental features are enabled: bluestore    cluster 3daaf51a-eeba-43a6-9f58-c26c5796f928     health HEALTH_WARN            noout flag(s) set            mon.lab8106 low disk space     monmap e2: 1 mons at {lab8106=192.168.8.106:6789/0}            election epoch 4, quorum 0 lab8106        mgr active: lab8106      osdmap e25: 3 osds: 3 up, 3 in            flags noout      pgmap v80: 64 pgs, 1 pools, 724 MB data, 182 objects            3431 MB used, 555 GB / 558 GB avail                  64 active+clean
2 \3 z  C: W/ [  g
9 N9 e2 R# x+ A
成功转移
不同的block方式[root@lab8106 ceph]# ll /var/lib/ceph/osd/ceph-0/ -al|grep block-rw-r--r--  1 ceph ceph 10737418240 May  3 17:32 block[root@lab8106 ceph]# ll /var/lib/ceph/osd/ceph-4/ -al|grep blocklrwxrwxrwx  1 ceph ceph  58 May  3 17:16 block -> /dev/disk/by-partuuid/846e93a2-0f6d-47d4-8a90-85ab3cf4ec4e-rw-r--r--  1 ceph ceph  37 May  3 17:16 block_uuid# o6 x& a4 Z" y) k! h. R
- K4 s5 [" j& V% J
可以看到直接创建的时候的block是以链接的方式链接到一个分区的,而不改配置文件的转移的方式里面是一个文件的形式,根据需要进行选择

. x5 u+ P6 E  R6 d: D  K# z) F
转移 工具 的出现方便了以后从filestore到bluestore的转移,可以采取一个个osd的转移方式将整个集群进行转移,而免去了剔除osd,再添加的方式,减少了迁移量,可以一个个的离线进行操作
ceph的工具集越来越完整了
- ~' |# g# d2 P

- h4 D8 r- e" O, D- ^# y) e  b( m+ N! y  {0 Q; z4 U1 d
9 J& y9 g" D5 X/ ]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2021-12-8 15:13:40 | 显示全部楼层
迁移方式
8 N' o& X8 v0 K! t2 a数据清空——重建为Bluestore——回填均衡数据!
' ?& H7 B) \! b8 L) l# R从Filestore到Bluestore的转换不能在转换节点上有数据且提供服务的情况下进行,因此我们的方法是先将存储节点的数据清空,销毁OSD,然后使用重新准备Bluestore类型的OSD,再从群集中重新填充数据。对群集中的每个存储节点进行数据清空并重复此操作。根据您的Ceph架构,您可以并行地操作几个存储节点,以减少总的迁移时间。我们将一次迁移2-3个存储节点,每个节点位于不同的机架中(我们的故障域单位为机架),并在删除以及填充数据过程中尽量保持在20%的“misplaced objects”以下。( s: h) |( a: a7 q& I; v
为了使此操作成功,您必须确保集群有足够的可用空间,以应对当一个节点必须将其所有数据迁移到集群的其余节点时集群容量的可用以及安全。
/ w* B3 A2 l, K, a7 T6 b. T节点数据清空" x" c$ ]! W* R* g% h6 q
要清空节点,我们将该存储节点所有的OSD的crush weight修改为0。这将触发从该存储节点迁移出数据并将其分发到集群的其余节点(数据均衡)。
- G$ S- c/ ~1 X例如,要将OSD 720到OSD 755的数据清空,我们可以运行:+ Y, e1 p8 `: J; x' h
for i in $(seq 720 755); do ceph osd crush reweight osd.$i 0; done# F8 c2 r  I% N3 V
清空完成后,您可以检查Ceph的运行状况(ceph -s)以确认是否已完成数据清空。您还可以使用“ ceph osd df tree”来查看磁盘仍然还需要传输多少数据。我们的存储节点平均每台服务器需要24小时才能完全清空。根据您的OSD磁盘类型和群集上的负载,此指标可能会有很大差异。1 R2 p" ~8 T/ A% W
将OSD转换为Bluestore0 C! v+ I" P% I5 P1 ]/ d3 y
请按照以下步骤操作,安全的清理回收磁盘,然后重新部署为Bluestore类型的OSD。
) L5 A1 _% _( Y4 Q) Q) Y; `& f# Stop the OSD process
7 _3 m8 s2 @5 A, O) Xsystemctl stop ceph-osd@<osd-id>.service
* A: b) D/ j6 {5 P( i* f# Unmount the OSD6 J+ \0 H) j. {+ {2 z, S4 J3 p& K
umount /dev/<block-device>
1 |& t: v% _( _# Zap the disk
. l! _7 F3 [* w; lceph-disk zap <osd-id>) Z$ U8 n  R" ]
# Mark the OSD as destroyed( {$ y9 q- D$ W  e+ @8 s# Q
ceph osd destroy <osd-id> --yes-i-really-mean-it
/ A+ q! E6 _8 V9 t! P# Prepare the disk as Bluestore
/ g7 f1 q' z9 ~* S! f% _+ {3 oceph-disk prepare --bluestore /dev/<block-device> --osd-id <osd-id>
) |6 [7 u8 e' |' _0 O我们注意到,在比较转换前后的“ ceph osd tree”的输出时,类列现在可以指示您的OSD类型(SSD或HDD),对我们而言,此类型之前为空白。这可能只是新添加到Luminous的,而不是Bluestore所特有的。本次只是简单说明一下。: Y0 ]0 x9 Q  y1 F
Filestore ‘ceph osd tree’9 i, Z' n5 h( t
ID   CLASS WEIGHT     TYPE NAME               STATUS REWEIGHT PRI-AFF- U) V8 p+ h# I! c
-1       8503.16504 root default) H* I( s; ~- ?8 v
-84               0     rack 1
" ]9 B6 X; A6 V) \9 K9 C7 Z3 m-5       1306.07776     rack rack1
0 J  K, D6 ?. C3 @-83       388.79956         host storage1-r1                              
; [/ f0 k9 |* e& w5 I- {0 ?" b5 [* J720         10.79999             osd.720         up 1.00000 1.00000% \% I) M# S: T
721         10.79999             osd.721         up 1.00000 1.00000$ g& U- d# C' N$ S4 Z/ B: W7 `8 A+ d
Bluestore ‘ceph osd tree’
5 `- {0 s" `  p4 R# O5 d# r; \ID   CLASS WEIGHT     TYPE NAME               STATUS REWEIGHT PRI-AFF
$ I$ U+ f( P0 y& W9 }-1       8503.16504 root default. I+ k4 ?1 o1 |5 _0 t7 F! Z
-84               0     rack 1  |; Q3 C8 l6 r3 r. w
-5       1306.07776     rack rack1- N6 m  i! p: r# p
-83       388.79956         host storage1-r1
' q$ R1 m. _% c- D7 c6 R720   hdd   10.79999             osd.720         up 1.00000 1.00000
& ]. q( i$ [5 K  a5 i  M721   hdd   10.79999             osd.721         up 1.00000 1.00000( J6 |! w+ M  a5 _7 d
回填数据. j) w  I! g; H
现在是时候用数据填充Bluestore OSD了。就像清空OSD数据一样,我们将更改OSD 的crush weight值。
1 c  ?; }! E; D3 r! H0 \  W8 F* @例如,要填充OSD 720至OSD 755(12TB磁盘),我们将运行:" r( S8 w3 u7 p/ I+ d
for i in $(seq 720 755); do ceph osd crush reweight osd.$i 10.79999; done
5 O5 G4 U- X" E: d根据磁盘的大小,您需要配置适合OSD的 crush weight。这通常是磁盘的大小(以TB为单位)。Ceph官方可以阅读更多关于“ceph osd reweight”和“ceph osd crush reweight”的区别。
' `- _' n9 V: o; w5 |* v1 b" Z等待Ceph的运行状态恢复为HEALTH_OK。
5 @7 O  {" M4 ^- C4 D+ l) \跟踪与监控
' @' W- m  k& O5 b. D% r2 d1 W; g我们使用各种工具来监控和报告我们的OpenStack和Ceph集群。对于本次迁移,我们能够监控Filestore的XFS数据分区,并查看将数据复制到集群的其余部分。& N( q9 n% H" b

& e- o4 ?1 T: i5 ^一旦将OSD转换为Bluestore,我们就不再需要在Zabbix中监视Ceph系统的posix文件系统,因此我们不得不依靠ceph-mgr的输出来获取OSD上有多少数据。Grafana和graphite与ceph-mgr可以很好的集成在一起,因此我们仍然能够看到每个存储节点上数据分布的情况。
/ q% F  Q  `9 W) d' M6 y4 L) D
/ S/ {3 k& F. p1 o% }) T8 c随着37个存储节点的迁移,每个节点都需要数据清空,转换和数据回填,我们不得不以某种方式对其进行跟踪整个过程。我们是一个由两个人组成的团队,因此我们建立了一个共享的电子表格以此来跟踪进度。; ?: D* J5 ~- W

. V+ s# v, l# F花了多少时间?
9 B  P; }* I* V; B我们于2018年7月底开始迁移,并于9月初完成迁移。在此迁移期间,群集仍在生产环境中正常运行,我们记录了以下统计数据:
# u: _0 M% q4 [6 [2 Z, V5 }480 TB的基因组数据上传到集群
4 g' M9 `$ A# o! W* O2 F增加了1 PB的新存储容量
* R* m$ O7 q$ e) Z; q# l9 n+ C为Collaboratory的各个研究人员提供了188 TB的基因组数据。
3 a/ o  ^9 J" N. F2 J过程影响1 A' g" t9 Q- \
每个存储节点的清空和回填会导致群集上出现大量复制流量,但Ceph群集的前端仍然能够为环境提供服务。研究人员仍然能够从对象存储中获取数据,并且openstack卷可以继续正常工作。我们还每小时对从对象存储中下载100GB基因组文件进行基准测试,并且在此迁移项目期间未发现偏离正常速度的情况。+ D/ [1 A$ n$ ]8 S. @
2 W- T7 H9 _* t/ b6 o* |& T8 j
问题
6 i/ ?9 W6 C0 a8 V8 p8 N' b* \7 S在项目后期,我们开始收到Ceph健康警告,发现monmap太大。我们的集群已经使用了几年,所以我们的monmap是leveldb。在迁移期间,monmap已增长到20GB(通常低于1GB)。在大型数据移动事件期间,Leveldb的性能可能会很差,并导致一切变慢。为了解决这个问题,我们必须在/etc/ceph/ceph.conf中启用mon压缩,然后重新启动ceph-mon,最后等待压缩发生。% R2 B/ N. z% e6 `5 N/ c- T) w
[mon]
4 `; d- r5 a- w- g& i3 E7 amon compact on start = true" W/ g  ~6 p3 o) R; z
这不是什么大问题,因为我们已经为存储monmap的分区分配了100GB的空间,但是确实导致我们考虑迁移到使用Luminous的默认值“ rocksdb”的monmap后端,该默认值显然可以更好的处理诸如失败之类的数据迁移事件。! I8 y) H5 h) c- @- p5 }) @$ S2 r! c
若要确定您的monmap是leveldb还是rocksdb,请执行以下操作" Y5 L" j, X+ k! e1 p  ^" ~/ Y
# cat /var/lib/ceph/mon/ceph-<mon-name>/kv_backend" |6 [! X% P8 d8 O8 l+ n( N  W, @
leveldb8 m: v5 S: B) z' M# O' d
当前,从leveldb迁移到rockdb的唯一方法是删除/添加您的mons。例如,如果您有3个mon,则可以部署一个临时的第4个mon,然后删除/添加原始的3个mon,最后删除第4个mon。# y4 H3 ~- l- w; r
未来的改进6 t, C( j+ o. u; _0 s$ \5 I
Ceph Monmap后端更改为Rocksdb
- B% u* R" |+ S; f" e$ M* ^6 t增加PG以解决我们在迁移过程中添加到集群中的新OSD9 j  T4 m' z. h3 ~2 v$ F) e' k

2 o, G. h3 ?! t* @$ v/ X! V) J
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-12 01:01 , Processed in 0.016028 second(s), 23 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表