找回密码
 注册
查看: 490|回复: 2

HEALTH_WARN Reduced data availability: 23 pgs inactive; 23 pgs not deep-scrubbed

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2022-11-10 09:15:23 | 显示全部楼层 |阅读模式
购买主题 本主题需向作者支付 2 金钱 才能浏览

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2022-11-10 13:51:45 | 显示全部楼层
一般手动修复损坏的PG即可,使用ceph pg repair {pgid}
# b5 \5 h6 C7 }2 |8 j2 ~/ g. Z, V3 o+ U3 @6 r) U+ N' t
PG状态为inconsistent时,说明PG中存在对象不一致的情况。有可能时某个OSD磁盘损坏,或者磁盘上的数据发生静默错误。
# ]# y4 Y5 h( S6 u( a$ N
0 `+ q$ f( x; b% n7 V( i' O- R下面手动构造一个PG数据损坏的例子,并修复它。
* i9 [- c3 n/ d, d* E- i: z( d$ t4 _: s' P) d2 }( \8 I8 @
# 1.关闭OSD服务
/ X2 L  ^! S6 m* ^- m9 K1 q$ systemctl stop ceph-osd@{id}
& g0 L# T. h/ Y# N4 v2 H- e
1 C( R$ e" x! `  s# 2.使用ceph-objectstore-tool 挂载 /var/lib/ceph/osd/ceph-0 到 /mnt/ceph-osd@0" c& @# l4 p4 g! w) Y8 k
[root@node-1 ceph-objectstore-tool-test]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-0/ --op fuse --mountpoint /mnt/ceph-osd@0/1 H2 ^! a" R+ R! P3 h
mounting fuse at /mnt/ceph-osd@0/ ...: ?* _, Z$ C3 `1 x6 M

/ M3 m) Y: p4 ?, K7 ], R0 @9 \  J# 3.删除 /mnt/ceph-osd/@0/10.0_head/all文件夹中某个目录文件(即PG中的对象),即破坏了10.0pg的某个对象
0 Y! n' z7 M, h# G[root@node-1 all]# rm -rf \#10\:01ec679f\:\:\:10000011eba.00000000\:head#// A9 k+ X- [3 A; h( t
rm: 无法删除"#10:01ec679f:::10000011eba.00000000:head#/bitwise_hash": 不允许的操作
; G! {8 X: R, b0 A( H. [rm: 无法删除"#10:01ec679f:::10000011eba.00000000:head#/omap": 不允许的操作
: [* p4 ]5 x2 X, e1 Grm: 无法删除"#10:01ec679f:::10000011eba.00000000:head#/attr": 不允许的操作; M5 [! [1 q% H! k3 f
4 L% q' w! v4 p2 U6 C
# 4.卸载/mnt/ceph-osd@0,重启 OSD服务,等待集群恢复正常7 Y) W) x- Y' S1 c: }, U% }

* `, H- S4 W5 _# 5.手动对10.0 PG做scrub,命令:ceph pg scrub 10.0,等待后台scrub完成7 W$ E5 ~" N- ?! Y. W) I
[root@node-1 ~]# ceph pg scrub 10.0
; q" {" f7 r. P9 e0 P1 V4 Qinstructing pg 10.0 on osd.2 to scrub
8 M7 P8 d' e$ }9 i+ T
; L+ X5 H% f3 r' K7 R# 6.发现集群报错,PG id是10.0,状态为active+clean+inconsistent8 {4 c+ j6 U2 t# u7 q1 A: l6 g
[root@node-1 ~]# ceph health detail. y6 `7 o5 c  X4 x. n
HEALTH_ERR 2 scrub errors; Possible data damage: 1 pg inconsistent
1 T; p+ f/ V+ u1 K0 v" ^OSD_SCRUB_ERRORS 2 scrub errors! r3 }1 y3 J7 L( \% C0 ]6 d
PG_DAMAGED Possible data damage: 1 pg inconsistent
7 |0 u: Q! s3 T5 S: t: C% e, m6 }. C    pg 10.0 is active+clean+inconsistent, acting [2,1,0]
1 U' C( y4 f# i3 {7 w/ U
  [. H+ D: a" @% D) E# 7.执行修复操作,PG状态:active+clean+scrubbing+deep+inconsistent+repair
; V5 M) u1 `0 }" w[root@node-1 ~]# ceph pg repair 10.0
9 _* l3 N8 u- B# @) T4 winstructing pg 10.0 on osd.2 to repair
( w( q; x" c% Z( q4 E[root@node-1 ~]# ceph -s
6 U" F% ?$ E* q1 i4 i5 `  cluster:
8 ]! g) ^" i/ E% C2 u' b" M    id:     60e065f1-d992-4d1a-8f4e-f74419674f7e
+ B% E( y# d5 f0 m    health: HEALTH_ERR; J' u# e: l! S7 K3 p  v% N" R
            2 scrub errors0 J; g! B" t7 y& l6 F
            Possible data damage: 1 pg inconsistent# d/ W  p& K' L0 G
  。。。
0 k& A) K. \7 o$ t7 ?  data:
! h& U! A# E) s8 L4 c6 Y: Y2 A0 V    pools:   9 pools, 464 pgs
( v" i* ?% [$ ^    objects: 53.99k objects, 802 MiB( o' @9 O& [' B0 U$ V
    usage:   16 GiB used, 24 GiB / 40 GiB avail6 i# j7 v: u9 t/ d$ Z
    pgs:     463 active+clean( H$ v- B) l( M+ s8 k: B' z% K3 A
             1   active+clean+scrubbing+deep+inconsistent+repair
3 _9 p2 `0 F8 L7 g) i' R
7 Z+ P* b' [( C# 8.等待集群恢复健康. c" A8 y$ B3 V) s7 m* U& P
[root@node-1 ~]# ceph health detail
2 @6 j* \: N) F' Q4 J" n! vHEALTH_OK3 N8 Y9 B- e* K+ h9 v
: c, R* S8 `# i6 g

$ D/ u. u1 K9 Z; l  x2 O+ {如果ceph pg repair {pgid}命令无法修复PG,可以使用ceph-objectstore-tool导入整个PG的方式。; }( c. \2 F- Q7 K
+ c5 x# K0 D3 S7 {) H( `8 [, ~

* {, ]6 [0 F8 h- n0 S6 I9 x7 W8 w& E/ ?; ]
osd_recovery_max_single_start  #越大,OSD恢复速度越快,集群对外服务受到影响越大,默认为1
! A, E! a. W$ vosd_recovery_max_active        #越大,OSD恢复速度越快,集群对外服务受到影响越大,默认为3
3 d, j0 ~7 \8 W4 y5 Cosd_recovery_op_priority       #越大,OSD恢复速度越快,集群对外服务受到影响越大,默认为3
* C% ]- Z" x4 p2 E5 p" T7 }osd_max_backfills              #越大,OSD恢复速度越快,集群对外服务受到影响越大,默认为1
: ?" a& F& V& U9 @0 D- V6 `2 T- oosd_recovery_sleep             #越小,OSD恢复速度越快,集群对外服务受到影响越大,默认为0秒
  _0 ?* z7 a& w8 o& _! O" J" g/ k& |$ g6 ]
[root@node-2 ~]# ceph config set osd osd_recovery_max_single_start 32
; C: p4 S8 m) F' c4 D. t! m[root@node-2 ~]# ceph config set osd osd_max_backfills 32" u% R$ `/ F- Z& [* Y
[root@node-2 ~]# ceph config set osd osd_recovery_max_active 32
6 x0 E- h$ d+ p6 h: E0 {设置后,OSD恢复速度大大加快,注意这三个配置要同步增加,否则只增加其中一个,会由于其他短板而无法使得恢复速度加快
" K0 [' S0 j. Z) H/ d7 Y) c) f4 `: d& A* N1 G, d0 ]: X9 c  ?
# ceph -s 检查恢复速度,设置上述参数前,恢复速度只有6 objects/s。
, A) z3 k% T4 j; I  J
1 d8 |9 ]. H- G3 f
& E9 m) |  [- E) v9 ], [$ c; {" Q) ?, ]& `: L& {% E/ P$ o
一般来说,集群三副本的情况下不太可能出现PG丢失的情况,如果一旦出现了,那也就意味着这丢失的数据无法找回。: X9 W' X0 k& R- o

7 f9 I: ^; x! A4 s" B4 Y# 1.查找丢失的PG
6 {; H2 I+ r, }8 yroot@storage01-ib:~#  ceph pg dump_stuck unclean | grep unknown$ b( N& I! x/ Y6 r
20.37                         unknown     []         -1     []             -1
. }/ m! F  t8 g8 r5 b" D20.29                         unknown     []         -1     []             -1
1 k) l8 K9 @5 y# N- R- a20.16                         unknown     []         -1     []             -1
1 j# V1 r4 `0 N: T0 R9 E) Z4 }
% v! Q8 R& E7 [1 G: |: W, u9 C; S3 v# 2.创建PG
( h- P8 _; \4 R# {3 W6 ?8 z4 iroot@storage01-ib:~# ceph osd force-create-pg 20.37 --yes-i-really-mean-it
; O% j0 p4 ]3 Q" q2 J; qpg 20.37 now creating, ok/ B/ `& A' h& `  x9 o

/ R$ t* \1 M0 T; w注意:不要使用单副本的集群。
5 Y* J  `) @( {! U. h+ `
) ^. u! m- A. ]" e+ d; L
0 c3 m1 T  F( P: c7 S% H
出现“1 pools have many more objects per pg than average”警告时,说明集群中某个pool的PG数量配置过少,其每个PG承载的对象高于集群平均PG承载对象10倍以上,最简单的解决方法就是增加pool的pg数即可。" }7 ]) m) L) M' `" M- I0 M
) `8 U% @( n) `8 M
# }- }, ^$ _: ?  ]: H+ Z' {
# 告警:1 pools have many more objects per pg than average
/ Z" w- M$ I' u2 j- S[root@lab8106 ~]# ceph -s
6 b# q. j' u. P) _7 l6 @cluster fa7ec1a1-662a-4ba3-b478-7cb570482b62: U& a/ X6 B& A
health HEALTH_WARN
3 q! [% d, x. l- j3 M1 pools have many more objects per pg than average$ g% g$ Z8 _) T. W
' D% _4 z9 S% [7 x
0 s: E1 R# l( R
# 增加该pool的pg数,N版以后,只需要调整pg_num即可,pgp_num会自动调整。
3 z0 |/ R2 j# p/ iceph osd pool set  cephfs_metadata pg_num 643 }( j$ U6 E, R8 C/ e+ E' l& n
; h  i$ `) J  D

, [+ _1 \0 R& v7 H; B. n/ K5 P9 }' C) C7 u( B1 ^

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2022-11-10 13:51:53 | 显示全部楼层
情况& g" F. L3 L" A
ceph 在一次掉盘恢复后, 有 pg 出现 state unknown 的状况. 运行 ceph health detail, 显示:
: n! G' l* \. `$ }  m- r, ^
9 _  o: e1 C2 T  }1 K[root@storage02-ib ~]# ceph health detail( M3 d1 A  H" I1 ?) i* Y
HEALTH_WARN 211801/3035471 objects misplaced (6.978%); Reduced data availability: 4 pgs inactive9 ~, b# Z) ^# O+ o
OBJECT_MISPLACED 211801/3035471 objects misplaced (6.978%)
/ J- I$ h% B% o/ z9 Y. l" zPG_AVAILABILITY Reduced data availability: 4 pgs inactive8 U' ~& k- S5 O  {# m1 [% t
    pg 20.16 is stuck inactive for 12365.100778, current state unknown, last acting []
0 {9 ~( H' G1 @! ?& `( H    pg 20.29 is stuck inactive for 12365.100778, current state unknown, last acting []
3 g6 f1 R0 P' q2 u! r    pg 20.2d is stuck inactive for 12365.100778, current state unknown, last acting []
3 G* s4 r, q4 h% D    pg 20.37 is stuck inactive for 12365.100778, current state unknown, last acting []
, J( O- e" d0 b. w显示这4个 pg 卡住了.
6 h5 A* e8 k' o7 |& c
, x+ Z9 v; [0 _& Z9 y运行 pg query, 查看该 pg 的具体信息, 显示:
% n! {) y7 T1 i5 p/ P) M2 M5 N) x; r) U" I: V8 K% p
root@storage01-ib:~# ceph pg 20.16 query
) v6 n# A0 \, VError ENOENT: i don't have pgid 20.167 J5 m" Y) G& m
无法找到该 pg id.
4 R9 ^0 `" [6 j4 K9 |0 z
# a& w2 b% u) C9 [& L) i运行 pg dump_stuck unclean, 显示:) y0 h9 @9 i* {( L, d7 j5 Q' {

  T5 U( P+ }8 @1 x3 r7 [5 z% G0 Groot@storage01-ib:~#  ceph pg dump_stuck unclean
' ^" d" c+ [9 y- u- i" c% vok
& ?/ o$ `, U9 m' n- |0 VPG_STAT STATE                         UP     UP_PRIMARY ACTING ACTING_PRIMARY 1 J. P+ r! t& I7 x1 \* `- ~
21.f9   active+remapped+backfill_wait  [7,4]          7  [4,9]              4
# \) m! ?5 |4 Y, a# R' W: G21.f7     active+remapped+backfilling  [4,8]          4  [4,2]              4
1 C. N" V+ C9 i$ F6 h21.d9   active+remapped+backfill_wait [10,0]         10  [0,9]              0
+ R* \+ `/ X$ u5 X21.c9   active+remapped+backfill_wait  [8,4]          8  [4,7]              4 ' G5 R  C- ~5 A
21.b8     active+remapped+backfilling  [2,7]          2  [6,7]              6 & x! a$ v/ r$ g
21.af   active+remapped+backfill_wait  [0,5]          0  [0,8]              0
* s1 B' E) ?( P: I+ ?21.a3   active+remapped+backfill_wait  [4,8]          4  [4,9]              4
3 G0 W1 L+ S4 m, g" ?. `21.9c   active+remapped+backfill_wait [9,10]          9 [5,10]              5
3 p5 g+ _- c; i1 f. x% z4 z21.cb   active+remapped+backfill_wait  [5,3]          5  [2,3]              2 1 h2 P: i" g. I
21.95     active+remapped+backfilling [10,4]         10 [10,7]             10
1 A3 X: T6 s% \7 f, I+ `21.f3   active+remapped+backfill_wait [2,10]          2  [2,5]              2
8 }; A& r- z! z21.3f   active+remapped+backfill_wait  [4,2]          4  [2,6]              2
4 ^, [/ J9 H: c' S- u; O5 [, E21.3a   active+remapped+backfill_wait  [3,6]          3  [6,9]              6
0 f' {: k0 D$ |" s- f9 s* p8 h/ j20.37                         unknown     []         -1     []             -1 / E: c4 Z- u; p+ X4 Q! k
21.b4   active+remapped+backfill_wait  [2,7]          2 [2,10]              2 7 A" m# e6 `# Q, d8 M
21.56   active+remapped+backfill_wait  [8,7]          8  [8,5]              8 / R, X6 Z7 B- x9 [% |
21.68     active+remapped+backfilling  [7,2]          7  [0,2]              0 3 n' s$ Q7 Q( v' B$ h# T5 }
21.2e   active+remapped+backfill_wait [10,6]         10  [5,6]              5 $ Y2 ^6 W- [! Z* G
21.7f   active+remapped+backfill_wait  [9,8]          9  [9,7]              9
5 y4 ~  ?) L2 [4 E, [21.e9   active+remapped+backfill_wait  [4,9]          4 [9,10]              9 ! S$ d  C# W1 K" N0 `! C4 i, O( E# j8 K
21.55   active+remapped+backfill_wait  [9,4]          9  [9,6]              9 3 k& l/ i8 h# C6 T5 A( m9 y
21.5e   active+remapped+backfill_wait  [0,6]          0  [0,9]              0
% q! s4 [9 I+ f9 C+ v21.87   active+remapped+backfill_wait  [7,8]          7  [7,4]              7
4 H3 S- F) C4 H  _21.76   active+remapped+backfill_wait [10,8]         10  [4,8]              4
( A1 x7 p/ }/ p) F+ H. j- g21.a1   active+remapped+backfill_wait  [2,5]          2  [5,6]              5
, F+ H; ]; {) Y7 C5 `21.43   active+remapped+backfill_wait  [3,0]          3  [0,5]              0 + K6 H/ b% E5 R! E2 L+ R
21.82   active+remapped+backfill_wait  [7,3]          7  [7,9]              7
3 S4 ^" @5 w7 M7 H20.2d                         unknown     []         -1     []             -1 ( V# a) m- D; J) o5 U
21.2d   active+remapped+backfill_wait  [4,8]          4  [4,2]              4 - m6 `: ?2 ?% f0 k! k
21.1c   active+remapped+backfill_wait  [8,0]          8  [0,6]              0
" ~0 Q8 i; V8 ^3 c21.22   active+remapped+backfill_wait  [4,9]          4  [4,7]              4
8 ^2 H& z. C4 n2 `& j21.79   active+remapped+backfill_wait  [4,6]          4  [4,0]              4
4 r$ {0 r' G  d0 x. _  C7 _4 X+ h, v21.28   active+remapped+backfill_wait  [7,4]          7  [0,4]              0 2 Q$ }0 f( a& `( A- R5 D- i
20.29                         unknown     []         -1     []             -1 3 }/ O( J; |4 S1 c
20.16                         unknown     []         -1     []             -1 3 }6 w' x' U6 t$ N& c; K% ]8 ~0 [
29.4    active+remapped+backfill_wait  [6,1]          6  [6,4]              6
- \0 J1 [" a& A21.23   active+remapped+backfill_wait [10,0]         10  [0,3]              0
  M- s- A8 W1 x21.63   active+remapped+backfill_wait  [9,0]          9  [0,2]              0 + ~- |( l; m. }" K8 D4 }( j3 n
29.5    active+remapped+backfill_wait  [1,9]          1  [0,9]              0 ) U  U9 a! {/ w( ~1 }+ M3 w
21.6c   active+remapped+backfill_wait  [6,5]          6  [6,8]              6 : M8 F; F# _  v5 C" w, r
21.e    active+remapped+backfill_wait  [0,7]          0  [4,7]              4
% K! V9 C5 x2 t1 G分析
" U8 W" z! d0 G6 @  |看来是这几个 pgid 彻底找不到了. 我的 osd pool 有三个, 分别叫 l1 (1副本), l2 (2副本), l3 (3副本).: v4 z7 Q" g0 g# X
7 {7 h. y3 v7 r& E
估计可能是之前写入 1 副本的数据由于硬盘挂掉导致的数据丢失.0 [) P+ y' E- V3 v; f  u$ L
( H, C$ \- S2 p
既然是1副本, 也不要求数据可靠性了. 并且本身存储的也是一些下载到一半的数据, 也没什么关系.  p' R  T% S$ u% L& D8 Y

! {: d6 k  n4 ~9 T! |$ q修正4 A  E' n/ ~5 X: a. Z# ]
通过阅读 CEPH 官方 PG troubleshooting 文档 , 发现了解决方案:$ j) D" x7 J& ?8 V- e
/ K) Z0 W6 V2 o" ^
POOL SIZE = 1- I1 k3 {+ G+ G* E4 P1 N

9 |# F* z$ Z% Y! m2 NIf you have the osd pool default size set to 1, you will only have one copy of the object. OSDs rely on other OSDs to tell them which objects they should have. If a first OSD has a copy of an object and there is no second copy, then no second OSD can tell the first OSD that it should have that copy. For each placement group mapped to the first OSD (see ceph pg dump), you can force the first OSD to notice the placement groups it needs by running:
6 R  I, Y5 ~, Y# z6 s% P( I! I, O  O( S  D
ceph osd force-create-pg <pgid>5 |$ A6 j! b1 w8 P, W6 G- Y
& O% z' o( H$ d, i) X/ F' q  c. l
即, 多 osd 副本可以互相通知 pg 信息, 但是单副本就会丢, 为了恢复这个pg, 我们可以强行创建它.
$ H, z5 P( [- }2 T
1 _2 h, o; v( Q3 Q, e+ jroot@storage01-ib:~# ceph osd force-create-pg 20.37! x/ t: V) t  c& x/ {' V% X
Error EPERM: This command will recreate a lost (as in data lost) PG with data in it, such that the cluster will give up ever trying to recover the lost data.  Do this only if you are certain that all copies of the PG are in fact lost and you are willing to accept that the data is permanently destroyed.  Pass --yes-i-really-mean-it to proceed.; B) Q! p6 c8 I" m+ n
运行创建命令, 提示, 运行会永久的丢失该 pg 的数据, 需要加上 --yes-i-really-mean-it.
1 V& s$ t- x0 ?$ E  L) N3 n  X7 [
root@storage01-ib:~# ceph osd force-create-pg 20.37 --yes-i-really-mean-it
! H: U+ ~3 }  z$ Y- H7 ipg 20.37 now creating, ok5 n1 s5 ~) N) I* H/ P
执行成功.
" p- s4 J7 W3 d9 r+ U/ z
1 Z% B( t/ t, _, W1 n' T查看新创建的 pg.! G4 ]3 O+ _* ^1 q- N

7 p/ \0 @. ^& x- I' N2 Eroot@storage01-ib:~# ceph pg 20.37 query
( y1 Y* E: R' k: B) B. v& a{
8 X5 q( K7 y2 b% L    "state": "active+clean",  \7 H1 X( w. B! @; G/ r( M# W8 u! n
    "snap_trimq": "[]",
+ v( D& X; |) v; J7 H7 C    "snap_trimq_len": 0,
. Z; J( P: c0 }6 P    "epoch": 814,
7 h/ U; z8 T) M( x* O    "up": [5 C6 x9 R: |- q  n2 v) \1 G1 O! |
        69 b3 _0 C. w: J3 y5 e) @" O8 i
    ],6 L6 D; R2 z+ `
    "acting": [
0 x! N2 r( T$ X# G- r        6
0 C2 A  {: f! H% g5 I    ],, k* z5 U; z9 R
    "acting_recovery_backfill": [
/ M4 S& ^7 B+ v1 T7 i        "6"* J1 \8 M, S! D, Y" `
    ],8 f$ Z3 y# U! C# R1 y$ P' r% i
    "info": {5 T) Q. _) F1 p! w3 P6 l7 Z
        "pgid": "20.37",
/ N$ p" H! O; t( `        "last_update": "0'0",
/ s: B4 J8 F9 Y1 q9 h        "last_complete": "0'0",
2 w  s! j2 j( k1 u        "log_tail": "0'0",$ \4 A+ X/ k& N0 S
        "last_user_version": 0,/ o6 G- @, P+ `. _) X3 }" I
        "last_backfill": "MAX",
/ x$ v, L  @% c( h2 u        "last_backfill_bitwise": 0,2 K1 Y# e$ e2 o
        "purged_snaps": [],
0 i4 I2 T4 i9 S& p* e3 L4 f        "history": {
$ ~2 W* J* P+ C* Y$ t            "epoch_created": 795,
  A, W& V7 j3 J* q0 A- ]            "epoch_pool_created": 795,4 a0 w& N# o5 s9 m* e" l: R) F
            "last_epoch_started": 797,
3 c+ i" J, G: o/ x2 E            "last_interval_started": 795,
: D+ U- p! \7 P3 i, v' e            "last_epoch_clean": 797,3 {. K( `6 ~3 T2 p# D
            "last_interval_clean": 795,
  z) k7 E9 B# ]. O            "last_epoch_split": 0,& g% V8 }3 b9 D% [1 c
            "last_epoch_marked_full": 0,
0 l2 y1 }; K3 G! d/ w            "same_up_since": 795,
8 M: J% y' `& w) S, y$ n( }            "same_interval_since": 795,; H! ?9 Y: |: F2 ]: F
            "same_primary_since": 795,8 N2 X$ |5 {" D2 M
            "last_scrub": "0'0",
9 F4 u: @: \  R+ C$ L! k9 D            "last_scrub_stamp": "2019-03-05 03:02:04.611341",
' [4 {4 h  i5 |5 P            "last_deep_scrub": "0'0",1 b- A3 @0 g" h: z5 T+ w, @
            "last_deep_scrub_stamp": "2019-03-05 03:02:04.611341",
" ~- l& m( j" B+ @1 I. e0 z            "last_clean_scrub_stamp": "2019-03-05 03:02:04.611341"
  ]4 m" C$ ], t8 G6 m: z# `. r        },7 A# [4 x# ~- Q* ^
        "stats": {) V, }) [' }$ y) X" |
            "version": "0'0",
7 d7 B5 ~+ h6 R! F            "reported_seq": "25",' [  y3 Y. P: |
            "reported_epoch": "814",
7 C7 v$ T* Z, V$ P# I5 I+ q4 R0 }            "state": "active+clean",, Y( H7 [0 `: L$ Z
            "last_fresh": "2019-03-05 03:07:59.418140",6 o* C- B/ e, i' ]- [. C) \4 F: o
            "last_change": "2019-03-05 03:02:06.260474",
4 Z- F2 Z" z! i2 ^% a9 L            "last_active": "2019-03-05 03:07:59.418140",6 M  S( J% R% `, K
            "last_peered": "2019-03-05 03:07:59.418140",% K6 l% \+ G$ b6 b( b  H
            "last_clean": "2019-03-05 03:07:59.418140",
" N" X! [' [7 g- _6 z$ |( @( `            "last_became_active": "2019-03-05 03:02:06.260323",9 D: ]0 t0 G7 r. W
            "last_became_peered": "2019-03-05 03:02:06.260323",8 r6 I+ _: |' J* d
            "last_unstale": "2019-03-05 03:07:59.418140",
* V& Y9 v$ d" l. o8 Z$ |& H' A9 z7 O            "last_undegraded": "2019-03-05 03:07:59.418140",
6 ~4 ~0 J& ]5 g4 H4 e. W7 A            "last_fullsized": "2019-03-05 03:07:59.418140",
$ |. S/ g6 P  W' P            "mapping_epoch": 795,- J( T+ s0 a  I6 w
            "log_start": "0'0",
  E, X/ b. u) r# \            "ondisk_log_start": "0'0",
7 S* p% k$ y, d! X5 s; ?* q  G            "created": 795,
3 o; _9 Y0 T8 e  s9 J0 u  F            "last_epoch_clean": 797,
% w+ B  e& @0 k5 t2 ]; S, b            "parent": "0.0",0 [& n- _# O$ Q. s0 @% z1 c
            "parent_split_bits": 0,) Y+ Q( `% A' n! v! E( t& @$ t9 I. J
            "last_scrub": "0'0",
6 O; I, d/ l! j  ?            "last_scrub_stamp": "2019-03-05 03:02:04.611341",; b. O$ w1 b, J! [
            "last_deep_scrub": "0'0",$ N" C1 m9 q; S1 N  L" X7 n% U
            "last_deep_scrub_stamp": "2019-03-05 03:02:04.611341",& x0 I2 ^0 y+ a9 U1 ^
            "last_clean_scrub_stamp": "2019-03-05 03:02:04.611341",5 {6 n# {$ k0 j6 s3 j  H% B0 e
            "log_size": 0,% J, t4 j0 r6 I" u* K! i
            "ondisk_log_size": 0,
9 X) e1 f9 K2 k/ W6 G+ w            "stats_invalid": false,
6 p2 K8 i* ^* Q3 x, W% B/ Z            "dirty_stats_invalid": false,5 \2 y) P  S; v8 \+ X' ^# F
            "omap_stats_invalid": false,& m' a' a4 u) Q0 d+ s* V
            "hitset_stats_invalid": false,
9 C$ b7 |. j/ j  |1 O            "hitset_bytes_stats_invalid": false,
1 I  z$ s- y  M# ], W) m7 d* P            "pin_stats_invalid": false,
, z( Q3 B5 h/ s1 J/ c  {            "manifest_stats_invalid": false,
+ \7 j- C6 g8 a7 ]& g# s# v/ D            "snaptrimq_len": 0,
) `3 j  W0 O7 x$ m7 P            "stat_sum": {4 O0 e! P1 D( {6 L, [' }: N5 ~( ^3 T% ~
                "num_bytes": 0,5 e1 Z# C$ B. J5 R; C: h' n
                "num_objects": 0,3 d9 n1 D) ^4 Z% O
                "num_object_clones": 0,
& _- z' o- h' d; L                "num_object_copies": 0,; H" X, Z5 n; n5 x4 ~* L; I
                "num_objects_missing_on_primary": 0,
" F% T) U5 e4 h5 }- Q5 {( h                "num_objects_missing": 0,
4 g# P0 q1 [* f  |% j; G                "num_objects_degraded": 0,/ L4 F0 |# A2 K2 V
                "num_objects_misplaced": 0,
4 c  [7 R% B, P; n6 r                "num_objects_unfound": 0,
! R; [! c; n: L                "num_objects_dirty": 0,
" U% _! B5 Q- H                "num_whiteouts": 0,+ R' D+ n) i; p7 m0 [5 u! U" \2 f
                "num_read": 0,
: P* |% n  n4 G4 h                "num_read_kb": 0,: Y, h8 |, c2 ~6 C, v% i4 e
                "num_write": 0,! ~7 h' E* A8 a5 A& r- o# s
                "num_write_kb": 0,; E1 m# g) A9 e3 F* p6 O5 u
                "num_scrub_errors": 0,- c' X9 V0 C8 j# u
                "num_shallow_scrub_errors": 0,
. Q, m6 U: m, x                "num_deep_scrub_errors": 0,/ X2 t) F$ F1 g
                "num_objects_recovered": 0,3 q2 @8 u5 a) H3 C, M
                "num_bytes_recovered": 0,+ D$ L" p0 u/ |& g, G+ ^
                "num_keys_recovered": 0,
( a+ X4 T( Z8 B                "num_objects_omap": 0,
) ^. y2 g: k* e2 u! u9 b; U8 S& i                "num_objects_hit_set_archive": 0,! \- A7 t3 u' z, ^! E6 d
                "num_bytes_hit_set_archive": 0,9 z, X& V3 C4 A8 X& g9 ]6 _9 E  P
                "num_flush": 0,2 j; l% f2 r3 R2 d- U3 d
                "num_flush_kb": 0,0 o& A) W7 w9 V- Z: H* I
                "num_evict": 0,4 o! [# J4 e0 A
                "num_evict_kb": 0,
- p0 n* S- U: ]: K                "num_promote": 0,
6 ?6 x6 u# U: a( \# T- d                "num_flush_mode_high": 0,) D8 N' [, |# e: h- w3 O9 @! D  H7 }
                "num_flush_mode_low": 0,
! E7 [* z  G- N0 }                "num_evict_mode_some": 0,
1 w+ B. @* ^! c4 M                "num_evict_mode_full": 0,4 j6 N! x2 H+ }7 @8 u
                "num_objects_pinned": 0,. ^; b  v9 q7 z8 V7 Q( `6 J2 j8 T
                "num_legacy_snapsets": 0,7 E) a& d9 C8 \1 H0 T- r
                "num_large_omap_objects": 0,/ a, _9 L, }% i  P. Y3 n
                "num_objects_manifest": 0# Z% s* [2 j% i/ E& Q* G
            },
. W! n4 M* I9 Q: G$ X* i- d            "up": [. H9 b8 Y, y4 l' ^' E! o( J
                6
1 |4 ]# G$ j; o2 I) s            ],
" }) t1 ^; m8 [! r3 n8 u            "acting": [# f$ C! Q2 Z, l1 g- v) c3 [
                6' M  F# w; v) \
            ],6 G. @1 u9 ?" V: f: g
            "blocked_by": [],' u: P! l4 x- |9 D
            "up_primary": 6,
( l. y6 _. y5 w9 p3 Z0 I            "acting_primary": 6,/ J: ^9 O* g& ?
            "purged_snaps": []% A& M6 W4 O& H6 B; F3 i( o& t( J
        },
) @4 C" b2 j$ C        "empty": 1,3 B# y4 A) S$ Z* n0 D# u( C7 ^
        "dne": 0,$ n! r1 _/ n8 C# j. z% K$ S
        "incomplete": 0,
3 C+ C; C, M5 y& X5 j        "last_epoch_started": 797,& i" O2 J' e" T& I& n
        "hit_set_history": {# n2 @, B6 h- z+ O
            "current_last_update": "0'0",+ W6 v7 E% v) g: g$ P! W2 ]3 E
            "history": []
3 J: }6 l; h' O  \' B# c2 n; B8 K        }* N7 B; j# {8 Z% a9 x/ @$ K
    },
0 k# {1 G: S4 M" \9 I! b    "peer_info": [],
1 }) R( u$ z' }    "recovery_state": [4 u5 g  a4 Q/ L( L
        {1 ?6 {% e& f: G' X4 b: t- Q
            "name": "Started/Primary/Active",
1 u+ {, Z8 O. N0 S            "enter_time": "2019-03-05 03:02:06.252112",
5 U# W$ K  G9 K' ?+ T% K3 }            "might_have_unfound": [],
2 m. F$ A3 _5 R6 ~0 E: U' E            "recovery_progress": {/ e0 [9 S/ j' f4 j& `
                "backfill_targets": [],- o. v# P" r9 }! J% v7 D0 \
                "waiting_on_backfill": [],
* L' `/ {/ k+ P5 ~                "last_backfill_started": "MIN",
4 G/ H! I5 W( \                "backfill_info": {
/ J/ ^! |' ]) P+ N7 ]                    "begin": "MIN",
+ _5 p' ~# a" U' g5 z                    "end": "MIN",
6 n8 y; k; d+ u. e# {7 Q! n                    "objects": []
# }7 n" a: ]% `" G7 W                },5 P, l$ [" s6 v0 Q
                "peer_backfill_info": [],  I: x) z1 u/ v( m
                "backfills_in_flight": [],
) a) V6 b. ]- |/ |                "recovering": [],* f$ a$ O: Y' D  G- p1 G: _7 J
                "pg_backend": {
" I" U7 U( A2 A* T: {                    "pull_from_peer": [],
/ j. S' D% H% @4 m6 d/ y' Y/ M8 @# @                    "pushing": [], h( d; l6 W5 ^; l  d
                }
, h" D; e5 h% o" _' \" X& s            },7 o) ]" E6 G! A( I5 S5 l
            "scrub": {' l1 `9 w& O1 c) d
                "scrubber.epoch_start": "0",0 P) l& y+ O, M0 H8 Y) i
                "scrubber.active": false,
5 v: ~( Q8 J) Y& [5 c6 p- r4 d                "scrubber.state": "INACTIVE",8 r  A( T: H) U6 C1 q- J4 k. o# e
                "scrubber.start": "MIN",8 s+ z* T; g8 y5 x1 h1 @) r( N
                "scrubber.end": "MIN"," v& I# T. M6 m8 `1 C
                "scrubber.max_end": "MIN",* Q1 N% Z& j/ C4 i0 k
                "scrubber.subset_last_update": "0'0",
1 N3 j9 Y  U  s0 U! v1 N                "scrubber.deep": false,
/ v2 |3 N4 Q! `1 `                "scrubber.waiting_on_whom": []
& I/ R8 F* Y. p- H            }+ N6 w, g0 _5 ^# c6 r3 }6 `  H
        },
' a! @; E8 Y5 ^% @4 P5 i& H# y, U        {: Z: s; R8 c3 Q2 H3 Z  h4 e! s
            "name": "Started",
3 m( S4 w; |$ b. ~  j" ?3 m            "enter_time": "2019-03-05 03:02:05.356513"
, q0 w3 u6 U' M. J        }
! ?1 r* _& K5 [5 T4 E' v2 C4 j+ r    ],4 y  T& w8 n& [% W
    "agent_state": {}: ?! R# ]3 N! a4 z
}
: |) }* K1 W2 M3 u' D/ \* G
- v# x. g) M& Y' D& G8 Q" @. [2 ?$ {- x, o. E* f' d1 `. I
结论
& o7 H$ ~* y% r5 E2 C- S至此, 修复完毕.
8 q' Q* ~8 d8 M9 Y1 [9 r! T6 j: V, P" Q4 {; c0 V( b
后续检查, 1 副本的下载文件夹丢了几个小姐姐【手动滑稽】% T$ @* A# X% f' k; Z' g- K; ~
& i1 a* z5 V2 ~( E5 @7 }
建议在直到具体是什么问题的情况下才进行这样的操作. 如果是重要的数据, 请不要使用 1 副本, 并做好备份后再进行操作.
& n5 v* J- h2 l! ~
8 u( _1 N$ M: `/ [如果是2,3 副本情况下的 pg stat unknown, 建议做好心理准备... 很可能就是没了.: P! S  U: k# u3 r8 `# O

2 C1 a+ R; `: o/ Y: t如果是其他 pg stuck 的情况, 建议仔细分析再进行操作.' B: `" O' E% U/ ?
* r! @1 i9 C: w* ~# {# g" ~
以上.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-11 23:02 , Processed in 0.023634 second(s), 26 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表