找回密码
 注册
查看: 4039|回复: 2

Linux内存中的Cache真的能被回收么?

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2018-4-23 10:01:33 | 显示全部楼层 |阅读模式
购买主题 本主题需向作者支付 3 金钱 才能浏览

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2018-4-23 10:07:41 | 显示全部楼层
1. 首先,弄清楚dentry_cache的概念及作用:目录项高速缓存,是Linux为了提高目录项对象的处理效率而设计的;它记录了目录项到inode的映射关系。因此,当应用程序发起stat系统调用时,就会创建对应的dentry_cache项(更进一步,如果每次stat的文件都是不存在的文件,那么总是会有大量新的dentry_cache项被创建)。: ?/ f0 c; w' \! V5 S) I
* v  z( I0 u7 s+ B4 u) G- d. R
2. 当前服务器是storm集群的节点,首先想到了storm相关的工作进程,strace一下storm的worker进程发现其中有非常频繁的stat系统调用发生,而且stat的文件总是新的文件名:) z- m0 }7 J. C) N( Q7 {8 u0 P7 ?

/ ?, K9 V* `* v2 l  Fsudo strace -fp <pid> -e trace=stat5 B5 c0 |5 f8 O- A9 a+ R; F
3. 进一步观察到storm的worker进程会在本地目录下频繁的创建、打开、关闭、删除心跳文件,每秒钟一个新的文件名:! {, Q* @! W' X5 y

1 E$ ^" V* i8 ]* L2 x$ Ksudo strace -fp <pid> -e trace=open,stat,close,unlink
2 p& h& e4 J! D7 \, x! f以上就是系统中为何有如此多的dentry_cache的原因所在。4 h" u+ U: E: E: w% F7 z
# H; D8 Z% R) |0 r) u
一个奇怪的现象9 ?7 P7 {2 O/ b6 g% F& p3 j* C
通过观察/proc/meminfo发现,slab内存分为两部分:+ {1 F1 O8 A+ o4 J

9 O0 |- {- a% R9 D6 uSReclaimable // 可回收的slab
& ]0 D' ], j7 k9 X1 gSUnreclaim // 不可回收的slab
' J  V3 @( y; P* k- s" Q当时服务器的现状是:slab部分占用的内存,大部分显示的都是SReclaimable,也就是说可以被回收的。
' [2 W0 M. ]0 z* y) z, [0 d8 T" {9 P* ?  |* [! _
但是通过slabtop观察到slab内存中最主要的部分(dentry_cache)的OBJS几乎都是ACTIVE的,显示100%处于被使用状态。: G& G7 b0 _- F

7 }* K  r/ u& o  OBJS ACTIVE  USE OBJ SIZE  SLABS OBJ/SLAB CACHE SIZE NAME                  
3 |8 W1 d$ w$ R0 |1 @$ n13926348 13926348 100%    0.21K 773686       18   3494744K dentry_cache
3 X. [' B* N7 g2 o8 {9 y; }0 B334040 262056  78%    0.09K   8351       40     33404K buffer_head4 `) f. k3 G2 ]; v$ D
151040 150537  99%    0.74K  30208        5    120832K ext3_inode_cache& E2 F+ |6 `2 H8 m( f
为什么显示可回收的,但是又处于ACTIVE状态呢?求Linux内核达人看到后热心解释下:(( |- J  P, ?) u' a% g
0 F# q6 O8 e3 [$ w: L
会不会由于是ACTIVE状态,导致dcache没有被自动回收释放掉呢?
! c: g4 C9 m; V
0 D3 |7 P% e6 i2 K3 g3 J让系统自动回收dcache5 Z+ y- ?+ V; D( b' I
上一小节,我们已经提到,服务器上大部分的slab内存是SReclaimable可回收状态的,那么,我们能不能交给操作系统让他在某个时机自动触发回收操作呢?答案是肯定的。
$ s5 J0 y- G% G; ?0 j' u' o; {" S( Y6 \
查了一些关于Linux dcache的相关资料,发现操作系统会在到了内存临界阈值后,触发kswapd内核进程工作才进行释放,这个阈值的计算方法如下:* A+ e5 I/ k" w5 j4 |
0 }( k7 m- F; @0 J) t0 {8 S$ C
1. 首先,grep low /proc/zoneinfo,得到如下结果:
5 b7 `) C& O. @/ r& |) |
3 n0 e; N+ X# @6 ]* N( e/ K        low      1
7 q3 X2 K0 d; l3 c& J3 ~, [: e5 |& C        low      380* H. h9 H2 ]( G# |7 t) z% ^. E6 J- V0 u
        low      12067* c: e; |, o, i- D$ ~% c$ ]
2. 将以上3列加起来,乘以4KB,就是这个阈值,通过这个方法计算后发现当前服务器的回收阈值只有48MB,因此很难看到这一现象,实际中可能等不到回收,操作系统就会hang住没响应了。
2 v3 j) |% _# ?, H
2 a, k1 g$ T5 e3. 可以通过以下方法调大这个阈值:将vm.extra_free_kbytes设置为vm.min_free_kbytes和一样大,则/proc/zoneinfo中对应的low阈值就会增大一倍,同时high阈值也会随之增长,以此类推。' l0 R! v! r3 J
# Q- G0 w6 t$ O/ a- D% j
$ sudo sysctl -a | grep free_kbytes      
/ S% C0 X% u. I6 B, x7 [4 wvm.min_free_kbytes = 39847/ H( p4 m- C  `; C" U
vm.extra_free_kbytes = 0- C: h; }0 O& Q# Q/ W
$ sudo sysctl -w vm.extra_free_kbytes=836787  ######1GB0 g9 s, U5 g* `7 l& _! S. R
4. 举个例子,当low阈值被设置为1GB的时候,当系统free的内存小于1GB时,观察到kswapd进程开始工作(进程状态从Sleeping变为Running),同时dcache开始被系统回收,直到系统free的内存介于low阈值和high阈值之间,停止回收。

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2018-4-23 10:15:54 | 显示全部楼层
如何运行 free
) N, J% [2 _. q8 k* d, t9 ]) e想要运行,只需在控制台输入free 即可。不带选项运行会显示一个以KB为单位的默认输出。
: f5 s+ E. P$ a* P8 O, I( Y& k- ^9 k
$ free
$ M) Z  k2 n' `# z) |( Yfree默认视图% h4 x( j# \2 }' G8 L
/ [6 m/ E! Q1 A: B8 d
从上面的截图我们看到:# u: D8 C* R6 Z
4 k# U" ~8 D7 }2 X2 z; g$ s& Y
内存 (以KB计)
2 p  R! g3 a. t/ L1 O9 ETotal(全部) : 1026740% ^1 ~; A! p3 g, [+ z
Used(已用) : 8433968 d6 M. K# k1 u
Free(可用) : 183344' b6 ~( J* _5 k% ?7 b' i
Shared(共享) : 03 {6 _" o9 ~, h4 b, {- F
Buffers(块设备缓存区) : 52704
; C( j. z0 m/ R  b. i8 fCached(文件缓存) : 376384: M6 m) d5 ^5 T) [
译注:关于Buffers和Cached的区别,来自 http://www.taobaotesting.com/blogs/qa?bid=2265 的一段解释如下:( n1 p1 H% M( @% L  _0 B# Y

  T- ^6 o' W+ ^" B4 @buffers是指用来给块设备做的缓冲大小,他只记录文件系统的metadata以及 tracking in-flight pages.# j! \. \/ y9 u5 p1 q9 c/ a9 j

" y* n$ P: M, c! C* C# w, V$ Jcached是用来给文件做缓冲。
3 o/ k& C! L" ^& _" D& _7 j, b& C" @- e, x
那就是说:buffers是用来存储,目录里面有什么内容,权限等等。而cached直接用来记忆我们打开的文件
7 T% C9 x1 ?3 U, L' g* f1 k$ r. t+ D/ P$ |" p4 O# [9 g6 M
Swap (以KB计)
" y: U8 `8 n" S: sTotal(全部) : 1045500
' _' \; ~& E+ f) {% aUsed(已用) : 3376  F" l+ e( l* M4 ]1 r* [
Free(可用) : 1042124- v2 z" |' }0 E! t3 O% k/ e
当你看见 buffer/cache 的空闲空间低或者 swap 的空闲空间低,说明内存需要升级了。这意味这内存利用率很高。请注意 shared(共享)内存列应该被忽略 ,因为它已经被废弃了。
. y/ k* l' m: {: L8 M$ _+ [" z, o/ h: z! U* [
以其它单元显示内存信息
# T+ }) d& r! N如我们先前提到的,默认 free 会以 KB 为单位显示信息。free 同样提供给我们 b (B), -k (KB), -m (MB), -g (GB) and –tera (TB)这些单位。要显示我们想要的单位,只要选择一个并在 free 后面跟上。下面一个是以 MB 为单位的输出样例。
5 M+ H6 p# Z/ w% R% N- U3 l
5 b" s4 A7 t* K$ free -m
+ O' f9 k% ?: x' }. k1 O/ e9 Hfree命令以MB为单位; O. q' p. h& [

7 U1 z; I) e( _) C这个技巧同样适用于-b, -k, -g 以及 –tera 选项。* Q; W  K$ @$ ]. o/ J& j! X8 ]4 @! l
* X% Q  O- m+ y* G& [+ p( ]
以适于人类可读方式显示内存信息
" B5 u( ?" N+ i8 E/ K# @free 同样提供了-h选项,这意味着适于人类可读(译注:系统上可能并不存在-h选项,已被-m取代)。那么这与其它的选项有什么不同呢,如-m(MB)选项? 可见的最大不同是-h选项会在数字后面加上适于人类可读的单位。让我们看一个例子。
6 C) o2 ^3 x* H  P  l, `4 U; E0 \) _2 ~7 R
( R% m3 u3 b( u/ Z* g# d$ free -h) a4 {/ `6 M, T5 ?) _# ^
人类可读的free9 b# F5 A% m+ o7 R* W

. ~# v# i, k9 o9 v4 x如我们一起看到的,在1,0数字后这里是G(GB)字母。当数字并没有达到GB时,free足够聪明来知道并在每个数字后面跟上合适的单位。后面的M - 数字929告诉我们它有929MB(译注: 原文为929 number tell us its 969 Megabytes,这里应该为输入错误)。9 c2 s' @6 N+ o0 R, x! f
4 ]) s2 ]% x3 X0 k) p% D# |
间隔显示 free. t/ S" e5 n: }
作为一个状态检查工具,最好的统计内存利用率的方法是使用延迟间隔。这么做的话,我们可以使用-s选项后面跟上我们想要间隔的N秒数。我们可以在后面合并几个选项来使输出满足我们的需求。假如我们想要每3秒统计一次内存利用率并且适于人类可读,那么就像这样做:. N! P2 p) M' ]$ ]
1 ]5 E, l7 a. k8 F) H
$ free -hs 3$ z( `  f0 {0 l# Y4 V# g1 E
间隔3s显示free
1 p+ F" J* ?% n# P8 R6 D/ E; |7 S5 y: b. k, o2 M9 N/ _
显示高低内存利用率
% B: i3 |1 F. l- Z% P如果我们想要知道高低内存统计,我们可以使用-l选项。下面是一个例子。; U* [4 N6 K' X! I" U7 Y
4 }5 _1 x0 D6 w$ A& e
$ free -l
' e8 |* t9 h' b5 YFree 的 低-高 统计0 w; u7 F9 ?5 w" E2 F
0 f& H# y! I3 F8 S; x4 v
显示 Linux 全部内存/ ^9 F- ]: a. c" e: w
如果我们需要每列的总计信息,我们可以在 free 命令后面跟上 -t 选项。这会在字底部额外加入一行显示。2 B( @9 d6 T% b/ K' Z

5 i* ~' Q1 x5 [/ V$ free -t  x1 D2 p4 [- x- ]6 P
free命令带总计内存) l; r4 G, r  l. Q( b3 ?
; E4 M6 z0 L; d/ o6 z* v9 G$ \( G! o7 W3 ^
总结- w  _3 V8 u' c; R1 O
除了vmstat以外,free 命令也是一个用于统计内存利用率的简单统计工具。用这个你可以快速查看你的 Linux 内存信息。free 命令使用 /proc/meminfo 作为基准来显示内存利用率信息。如往常一样,你可以在控制台下输入 man free 来获取更多关于 free 的信息。
! i  b2 m! |) H3 N- L4 I1 R" t* B  L: k; x7 M8 ?% X- \
6 C; D7 g* o4 Z: F* n

1 u. e( [( @$ q9 u; W7 X- Y
% E6 q& V3 T9 g
2 G$ D0 O6 }4 a   P4 R- R$ l( v# S
( u# @: o8 d. c% y6 c
前段时间有个项目的用C写的,性能测试时发现内存泄露问题。关于怎么观察内存使用问题,free是很好用的一个命令。- W9 y+ k4 v8 J( W

4 n% o/ T! O2 Q- f! P2 J4 e/ Y6 gbash-3.00$ free
7 ~% n8 p# s1 F( g( \& A" G$ @8 n" `0 B0 e+ ?5 s9 Y' y
total       used       free     shared    buffers     cached# J. w3 v+ K' n3 k- R
- V4 w. u" R' ]- b- {. Z8 _' X2 C8 h! U
Mem:       1572988    1509260      63728          0      62800     2778888 t6 l( i; b3 j* _+ @* _$ H' ^

7 s4 D  X$ A0 F" k3 ~-/+ buffers/cache:    1168572     404416; t7 p# m0 V1 d) J% l1 o/ I% @
6 Y1 L, k2 Z5 o2 W5 d& m  [0 Q
Swap:      2096472      16628    20798444 v4 a+ {% @. u5 o8 R  T4 Z, F
) S* F) g/ `9 i0 E$ i
$ z4 q8 T6 n& ^& U& A" t( {
. ^( w7 [4 Z3 p9 @" r& L0 k& [8 E
Mem:表示物理内存统计
0 E3 p# B( M' h" A$ C# D1 ^8 f! A. x
-/+ buffers/cached:表示物理内存的缓存统计
2 _) ]# H. A: z5 Y4 o+ C" g/ ^3 q+ {! T( ^; M
Swap:表示硬盘上交换分区的使用情况,这里我们不去关心。
8 d3 r' o! w9 a  U; ?- C$ p; N; k, z6 i  ]8 {
系统的总物理内存:255268Kb(256M),但系统当前真正可用的内存b并不是第一行free 标记的 16936Kb,它仅代表未被分配的内存。
2 w$ G; V7 N& Y% Y6 ]8 N& _9 N' ?) \- R/ M
第1行 Mem: total:表示物理内存总量。
# S; S% D9 v9 X1 ^: F0 s# B, ~
% M' C! w7 W) A: Pused:表示总计分配给缓存(包含buffers 与cache )使用的数量,但其中可能部分缓存并未实际使用。* d: u. Q  t% ]: B- w
' j# C' t2 U7 o4 D0 l- C
free:未被分配的内存。8 m+ C4 w# G: j: u8 D, a( m

" M: o4 \3 O# e0 H) ?8 ~5 `shared:共享内存,一般系统不会用到,这里也不讨论。8 X* p4 Y8 c" z- E
2 M7 p8 g8 x) C1 W- S
buffers:系统分配但未被使用的buffers 数量。
: Y! p+ [9 S4 f/ u1 z* y* U4 Y. B) Z" e3 x$ `- ~
cached:系统分配但未被使用的cache 数量。buffer 与cache 的区别见后面。 total = used + free 第2行 -/+ buffers/cached: used:也就是第一行中的used - buffers-cached 也是实际使用的内存总量。
% q: h( Q# [& j5 x
. H& h+ F' L3 D1 M7 |- _! ^free:未被使用的buffers 与cache 和未被分配的内存之和,这就是系统当前实际可用内存。 free 2= buffers1 + cached1 + free1 //free2为第二行、buffers1等为第一行* V1 v  f' K, ~/ A0 o3 E. u
5 }+ I; t( c* Y: ^$ V3 Y+ J
buffer 与cache 的区别# s& O1 f* E9 T* c3 n
3 \; q- ~! P# M7 G. D
A buffer is something that has yet to be “written” to disk. A cache is something that has been “read” from the disk and stored for later use 第3行: 第三行所指的是从应用程序角度来看,对于应用程序来说,buffers/cached 是等于可用的,因为buffer/cached是为了提高文件读取的性能,当应用程序需在用到内存的时候,buffer/cached会很快地被回收。
. i6 \9 A0 O+ ^6 W3 q3 f$ L3 ~: C
7 A. d* C, `8 n4 D) u% u$ r所以从应用程序的角度来说,可用内存=系统free memory+buffers+cached.
1 q0 A. R  f$ {
, t5 b  L1 u4 A" `% b3 x5 N* d$ \接下来解释什么时候内存会被交换,以及按什么方交换。# q+ C; S% r0 A, ^. l. C

8 P9 J2 J& `; z  z) }当可用内存少于额定值的时候,就会开会进行交换.
' k& d8 j8 I8 X9 p8 |1 u1 N& h  F% _% J/ g
如何看额定值(RHEL4.0):
( K) |4 N5 T) Q/ _) ~" L) K$ N( S7 J" F2 ]0 H+ y; |
#cat /proc/meminfo. @, Z" g0 F) K0 J1 v1 ^! H

0 H) o% C- b/ s# m& d交换将通过三个途径来减少系统中使用的物理页面的个数:1 ]0 S* J- l# s8 X2 R0 @
+ Y! e0 u: d. v  j4 f7 q
1.减少缓冲与页面cache的大小,
/ o( U9 T5 {0 S. D" ~
+ s+ W  F8 I+ R7 B9 \2.将系统V类型的内存页面交换出去,
. f$ b# i3 \" Y# b0 Z* n
2 M  n9 N* G8 a3.换出或者丢弃页面。(Application 占用的内存页,也就是物理内存不足)。
0 M) A' ?: ?; W. \* O/ p4 t2 [. I7 M" m1 V
事实上,少量地使用swap是不是影响到系统性能的。2 g& v# e. t  o& p$ T/ g

8 f5 u3 b6 }0 i! b/ N' d下面是buffers与cached的区别。
5 n1 G+ G7 [6 [' [0 K2 y
7 Y- M9 \6 Z0 X) {# Mbuffers是指用来给块设备做的缓冲大小,他只记录文件系统的metadata以及 tracking in-flight pages.
2 r( K* e, w1 z
" }* Z, U9 I' T; H* X, Qcached是用来给文件做缓冲。, O& Z8 ?3 _; h, r) `

. M/ Z& F) I% f4 s  I那就是说:buffers是用来存储,目录里面有什么内容,权限等等。4 f2 Q/ @6 ?# x2 R' J3 L8 ^
; [0 h5 N+ y! h9 |; o' V( C
而cached直接用来记忆我们打开的文件,如果你想知道他是不是真的生效,你可以试一下,先后执行两次命令#man X ,你就可以明显的感觉到第二次的开打的速度快很多。0 h& ^+ }$ y  u! E; N; I: }
" H2 X# E( A, a$ z- r3 ?. w
实验:在一台没有什么应用的机器上做会看得比较明显。记得实验只能做一次,如果想多做请换一个文件名。8 X& g5 \: S. G8 F$ K! K
: I+ }9 @% p3 w8 u' `- n
#free
& Z9 Q! ]3 P2 \& L& u7 ]9 p2 A, I' w, o, G" D3 \3 f1 I! I1 E
#man X
# U9 l4 Q- j  B4 y! t- Z5 h* _  {. e: R1 |+ |
#free% e3 ~# c8 [, M+ q' l
; o$ m9 J. y0 N  d( Z
#man X
- m" v- a% ?9 k" Q( b1 p
4 ]# C# E3 }% ^# D. K, n6 }" ?#free: H/ ^9 s: b2 P1 C
: e/ |' a4 l8 E% x
你可以先后比较一下free后显示buffers的大小。- i* a7 ]" [- @+ Y8 M, d
% u' r6 L7 @! h" {1 l# w$ z
另一个实验:& \$ G) @1 k7 D% ~
8 @2 w# S7 E( d) n2 V) J3 S
#free  j5 R# n1 `; e
# K" B$ T# D0 M
#ls /dev
# B' z( H  c3 n4 ]. ^
5 ?$ A" m( c' z) o0 @  }#free
) R4 b' J$ ?2 C. ^( q" B, N7 S! V. U" O- b, t* ]
你比较一下两个的大小,当然这个buffers随时都在增加,但你有ls过的话,增加的速度会变得快,这个就是buffers/chached的区别。# v; n9 @( {# V8 r3 E" u
$ X: K* M; [6 l7 @
因为Linux将你暂时不使用的内存作为文件和数据缓存,以提高系统性能,当你需要这些内存时,系统会自动释放(不像windows那样,即使你有很多空闲内存,他也要访问一下磁盘中的pagefiles)# _) \, ^) X7 h, {! ^9 C  t5 o

  M8 E$ a5 A) \% ?使用free命令
. Q7 J) q( r% e9 n; O- e* c
2 k. i) E& G- N8 h& w# j% g将used的值减去   buffer和cache的值就是你当前真实内存使用 ————– 对操作系统来讲是Mem的参数.buffers/cached 都是属于被使用,所以它认为free只有16936., I4 v: q! s6 @+ X' v
! B. {- \9 e6 A9 p+ d" z- q7 g
对应用程序来讲是(-/+ buffers/cach).buffers/cached 是等同可用的,因为buffer/cached是为了提高 程序执行的性能,当程序使用内存时,buffer/cached会很快地被使用。 所以,以应用来看看,以(-/+ buffers/cache)的free和used为主.所以我们看这个就好了.另外告诉大家 一些常识.Linux为了提高磁盘和内存存取效率, Linux做了很多精心的设计, 除了对dentry进行缓存(用于 VFS,加速文件路径名到inode的转换), 还采取了两种主要Cache方式:Buffer Cache和Page Cache。 前者针对磁盘块的读写,后者针对文件inode的读写。这些Cache能有效缩短了 I/O系统调用(比如read,write,getdents)的时间。 记住内存是拿来用的,不是拿来看的.不象windows,无论你的真实物理内存有多少,他都要拿硬盘交换 文件来读.这也就是windows为什么常常提示虚拟空间不足的原因.你们想想,多无聊,在内存还有大部分 的时候,拿出一部分硬盘空间来充当内存.硬盘怎么会快过内存.所以我们看linux,只要不用swap的交换 空间,就不用担心自己的内存太少.如果常常swap用很多,可能你就要考虑加物理内存了.这也是linux看 内存是否够用的标准哦.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-12 01:53 , Processed in 0.028458 second(s), 25 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表