易陆发现互联网技术论坛

 找回密码
 开始注册
查看: 373|回复: 0
收起左侧

A start job is running for...n on device 8:2 (27s / no limit)[ 193.515773] NMI

[复制链接]
发表于 2023-7-25 15:00:35 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?开始注册

x
A start job is running for...n on device 8:2 (27s / no limit)[  193.515773] NMI watchdog: BUG: soft lockup - CPU#0 stuck for 23s! [systemd-udevd:554]
  ?$ H. t3 Z5 |
, u. @0 C- \: B" w. l2 H内核软死锁(soft lockup)
, a# V3 o: W5 W
7 Q  }& |+ n2 S$ r, f/ }) M. e+ Z" z) |Soft lockup:这个bug没有让系统彻底死机,但是若干个进程(或者kernel thread)被锁死在了某个状态(一般在内核区域),很多情况下这个是由于内核锁的使用的问题。         6 C) I- u$ \: ^* v) c# ~) _8 @
7 B0 G* v% u( b6 Q  U2 i9 Q
出现死锁原因
; `- K: H  S. D7 W0 C- H" n
) D/ h9 M5 R! o/ r: f5 ]) N1、CPU高负载时间过长
7 L6 P$ F3 E% R5 h/ _2、服务器电源供电不足,导致CPU电压不稳定# _+ G0 Y6 |$ ]! j0 v
3、vcpus超过物理cpu cores
5 D4 P  {- @' g$ a/ m& V4、虚机所在的宿主机的CPU太忙或磁盘IO太高
# x4 F: A4 C6 F5、虚机机的CPU太忙或磁盘IO太高2 {+ K/ {: D; N1 t0 |
6、VM网卡驱动存在bug,处理高水位流量时存在bug导致CPU死锁
9 y& c$ d, k+ J2 L  z6 X7、BIOS开启了超频,导致超频时电压不稳,容易出现CPU死锁% ^0 ]9 i4 h6 z$ ~* }2 I7 j
8、Linux kernel或KVM存在bug+ ]; Q: f! q1 ^# a: v8 O7 t: y
9、BIOS Intel C-State开启导致,关闭可解决& [5 Y) u" X( L5 {
10、BIOS spread spectrum开启导致
8 @- K% F! r6 g" x2 J% v4 t
3 r3 X' `6 L% }9 D+ f当主板上的时钟震荡发生器工作时,脉冲的尖峰会产生emi(电磁干扰)。spread spectrum(频展)设定功能可以降低脉冲发生器所产生的电磁干扰,脉冲波的尖峰会衰减为较为平滑的曲线。4 g! _- I' T4 z$ }8 w3 W# ~3 Y+ n
如果我们没有遇到电磁干扰问题,建议将此项设定为disabled,这栏可以优化系统的性能表现和稳定性;
" x9 Y1 {7 x* N7 V1 P. K7 y否则应该将此项设定为enabled。 如果对cpu进行超频,必须将此项禁用。因为即使是微小的脉冲值漂移也会导致超频运行的cpu锁死。CPU超频时,SPREAD SPECTRUM必须关闭,否则容易出现锁死cpu的情况。
1 `1 }8 D  [+ a1 u7 P# W
* O" N; x* @* L# r! ]1 T3 bLinux内核死锁检测机制8 H$ }8 w8 f3 I2 _9 j9 s$ z0 }

# }+ ~9 g3 [! H; h* @死锁就是多个进程(线程)因为等待别的进程已占有的自己所需要的资源而陷入阻塞的一种状态,死锁状态一旦形成,进程本身是解决不了的,需要外在的推动,才能解决,最重要的是死锁不仅仅影响进程业务,而且还会占用系统资源,影响其他进程。所以内核中设计了内核死锁检测机制,一旦发现死锁进程,就重启OS,快刀斩乱麻解决问题。之所以使用重启招数,还是在于分布式系统中可以容忍单点崩溃,不能容忍单点进程计算异常,否则进行死锁检测重启OS就得不偿失了。; @4 P% u1 C% ]% @; M# l. i: o
  Y+ b6 o$ j! e3 y( R
解决办法 7 Q  s) G: X8 x1 Z% K9 Y& X. v

1 I5 m( ~# W! x( j, L' }echo 30 > /proc/sys/kernel/watchdog_thresh3 i8 r  W8 M+ a- h8 S
echo "kernel.watchdog_thresh=30" >> /etc/sysctl.conf 2 ]9 @) w4 ]! |! d
sysctl -p  , y! ]9 N; t+ `
生效  
. @* [9 d" H( {6 csysctl -w kernel.watchdog_thresh=30
# ?+ Y1 m# L2 U7 hsysctl -q vm.swappiness
# d7 R3 q5 _" m' U9 ?sysctl -p8 \- L$ i& v5 v2 O& u
; K$ X4 s7 L1 a1 X  X" v$ E' N. D
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

北京云银创陇科技有限公司以云计算运维,代码开发

QQ|返回首页|Archiver|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )点击这里给我发消息

GMT+8, 2026-4-8 21:31 , Processed in 0.049980 second(s), 22 queries .

Powered by Discuz! X3.4 Licensed

© 2012-2025 Discuz! Team.

快速回复 返回顶部 返回列表