找回密码
 注册
查看: 6025|回复: 0

网络问题引起的ceph异常

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2019-9-12 16:48:33 | 显示全部楼层 |阅读模式
通过rados bench写入
7 r$ H3 o# e  w3 S" A( N7 f: e6 Z! W
rados -p rbd bench 5 write
9 p1 M' T1 v4 ?( J! Y8 s9 l刚开始写入的时候没问题,但是写入了以后不久就会出现一只是0的情况,可以判断在写入某些对象的时候出现了异常
, M9 q" q% @, w6 a- s
3 K$ A6 s2 C) Y) F本地生成一些文件' M9 H, z& V" D+ }3 f, ]5 n% H
, W4 H* }' M& A
seq 0 30|xargs -i dd if=/dev/zero of=benchmarkzp{} bs=4M count=2
- Q# L) a6 q) I2 p  P. i4 w通过rados put 命令把对象put进去7 G7 q2 e1 S3 V4 S0 p" ^, Y* h
. r4 p5 U$ J3 Y
for a in `ls ./`;do time rados -p rbd put $a $a;echo $a;ceph osd map rbd $a;done* m6 G# T5 g5 [  z
得到的结果里面会有部分是好的,部分是非常长的时间,对结果进行过滤,分为bad 和good% }3 g% J5 @, r6 O+ h2 t
1 L& g& @4 X9 G) t3 I5 F- w: D/ `2 a
开始怀疑会不会是固定的盘符出了问题,首先把磁盘组合分出来,完全没问题的磁盘全部排除,结果最后都排除完了,所以磁盘本省是没问题的
% b: U) k1 ^& e6 G' u7 h+ r9 l4 `2 b! ^5 B
上面的编号是写入对象所在的pg对应的osd所在的主机,严格按照顺序写入,第一个主机为发送数据方,第二个和第三个为接收数据方,并且使用了cluster network
- X/ `' k& o8 p, P; {( k' n+ A+ O8 e9 W! X% V+ f; p( p8 X9 ~$ P3 \0 _
通过上面的结果发现了从3往2进行发送副本数据的时候出现了问题,然后去主机上排查网络
5 R0 ?6 J2 v6 d) ?$ r8 i) _8 g4 h( y  R8 O
在主机2上面做iperf -s3 [/ o1 K  N' Y: {( T" c. f
在主机3上面做iperf -c host2然后就发现了网络异常了
# p: G0 w$ N, |# q$ e9 q6 n; Q2 r( N' D
最终还是定位在了网络上面' w9 b) [. W' C. K( F/ L
  n) d7 d6 r/ J
已经在好几个环境上面发现没装可以监控实时网络流量dstat工具或者ifstat的动态监控,做操作的时候监控下网络,可以发现一些异常
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-12 00:01 , Processed in 0.024921 second(s), 24 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表