|
概念:
# L( x7 r; x- Z/ S事務日誌或稱redo日誌,在mysql中默認以ib_logfile0,ib_logfile1名稱存在,可以手工修改參數,調節開啟幾組日誌來服務於當前mysql數據庫,mysql采用順序,循環寫方式,每開啟一個事務時,會把一些相關信息記錄事務日誌中(記錄對數據文件數據修改的物理位置或叫做偏移量);
1 K7 P! X. ~; a t' R; b這個系列文件個數由參數innodb_log_files_in_group控制,若設置為4,則命名為ib_logfile0~3。
# \3 n% i1 C- b0 ^5 \* c這些文件的寫入是順序、循環寫的,logfile0寫完從logfile1繼續,logfile3寫完則logfile0繼續。
/ c0 B. L; }9 {2 Q3 C1 y% j
- O5 o; _4 Y6 k& E* Q- E7 Z" k# G" f作用:/ U8 A# z4 w6 L* g9 F: `- c9 b
在系統崩潰重啟時,作事務重做;在系統正常時,每次checkpoint時間點,會將之前寫入事務應用到數據文件中。# n# `' [/ A6 V9 l, k" H
: I' E V Z$ d
Ib_logfile的checkpoint field
' x3 C, w, A b2 `$ K4 L1 h+ c0 e實際上不僅要記錄checkpoint做到哪兒(LOG_CHECKPOINT_LSN),還要記錄用到了哪個位置(LOG_CHECKPOINT_OFFSET)等其他信息。所以在ib_logfile0的頭部預留了空間,用於記錄這些信息。
' A5 U6 k8 E2 c: h8 P因此即使使用後面的logfile,每次checkpoint完成後,ib_logfile0都是要更新的。同時你會發現所謂的順序寫盤,也並不是絕對的7 H: J G. @& r+ |
相關的一些數字
4 i3 T+ S4 N! B, Ra) InnoDB留了兩個checkpoint filed,按照註釋的解釋,目的是為了能夠“write alternately”+ W6 L3 v# X) ^& e- T# ^. k
b) 每個checkpint field需要的大小空間為304字節。(相關定義在log0log.h) K3 m0 Z0 J' F3 X! c, T
c) 第一個checkpoint的起始位置在ib_logfile0的第512字節(OS_FILE_LOG_BLOCK_SIZE)處;
, p& s( b" Z0 z9 k! Z8 Cd) 第二個在1536 (3 * OS_FILE_LOG_BLOCK_SIZE)字節處。
2 H* X/ ~8 G) X- B
" H# ?7 ]& k9 @4 M3 [! R$ d# l* Q' u% e* g8 ?3 l% a0 z, ~
特點:+ R* R# W: M3 ^5 F0 ?+ ^
redo log只是記錄所有innodb表數據的變化。. p. q& O9 U! g! K
redo log只是記錄正在執行中的dml以及ddl語句。; K, B: Q8 w- o6 J9 a% f# J' A
redo log可以作為異常down機或者介質故障後的數據恢復使用 引入一個問題:在m/s環境中,innodb寫完ib_logfile後,服務異常關閉,會不會主庫能用ib_logfile恢復數據,而binlog沒寫導致從庫同步時少了這個事務?從而導致主從不一致;redo日誌寫入方式:1.ib_logfile寫入當前事務更新數據,並標上事務準備trx_prepare2.寫入bin-log3.ib_logfile當前事務提交提交trx_commit恢復方式:如果ib_logfile已經寫入事務準備,那麽在恢復過程中,會依據bin-log中該事務是否存在恢復數據。假設:1)結束後異常,因沒有寫入bin-log,從庫不會同步這個事務,主庫上,重啟時,在恢復日誌中這個事務沒有commit,即rollback這個事務.2)結束後異常,這會bin-log已經寫入,從庫會同步這個事務。主庫依據恢復日誌和bin-log,也正常恢復此事務綜上描述:bin-log寫入完成,主從會正常完成事務;bin-log沒有寫入,主從庫rollback事務;不會出現主從庫不一致問題.
# e% z$ O; i2 k* A& U0 l/ S% D相關參數(全局&靜態):innodb_log_buffer_sizeinnodb_log_file_sizeinnodb_log_files_in_groupinnodb_log_group_home_dirinnodb_flush_log_at_trx_commitinnodb_log_buffer_size:事務日誌緩存區,可設置1M~8M,默認8M,延遲事務日誌寫入磁盤,把事務日誌緩存區想象形如"漏鬥"狀,會不停向磁盤記錄緩存的日誌記錄,而何時寫入通過參數innodb_flush_log_at_trx_commit控制,稍後解釋,啟用大的事務日誌緩存,可以將完整運行大事務日誌,/ E: W. g3 {! W8 G3 R4 f$ C- ^
暫時存放在事務緩存區中,不必(事務提交前)寫入磁盤保存,同時也起到節約磁盤空間占用;innodb_log_file_size:控制事務日誌ib_logfile的大小,範圍5MB~4G;所有事務日誌ib_logfile0+ib_logfile1+..累加大小不能超過4G,事務日誌大,checkpoint會少,節省磁盤IO,但是大的事務日誌意味著數據庫crash時,恢復起來較慢.引入問題:修改該參數大小,導致ib_logfile文件的大小和之前存在的文件大小不匹配解決方式:在幹凈關閉數據庫情況下,刪除ib_logfile,而後重啟數據庫,會自行創建該文件;innodb_log_files_in_group:DB中設置幾組事務日誌,默認是2;innodb_log_group_home_dir:事務日誌存放目錄,不設置,ib_logfile0...存在在數據文件目錄下innodb_flush_log_at_trx_commit:控制事務日誌何時寫盤和刷盤,安全遞增:0,2,1事務緩存區:log_buffer;0:每秒一次事務緩存區刷新到文件系統,同時文件系統到磁盤同步,但是事務提交時,不會觸發log_buffer到文件系統同步;2:每次事務提交時,會把事務緩存區日誌刷新到文件系統中去,且每秒文件系統到磁盤同步;1:每次事務提交時刷新到磁盤,最安全;適用環境:0:磁盤IO能力有限,安全方便較差,無復制或復制延遲可以接受,如日誌性業務,mysql損壞丟失1s事務數據;2:數據安全性有要求,可以丟失一點事務日誌,復制延遲也可以接受,OS損壞時才可能丟失數據;1:數據安全性要求非常高,且磁盤IO能力足夠支持業務,如充值消費,敏感業務;
/ T4 h+ J, R, n" s. ^3 }. g; G1 x& Z% n# K0 t( c
引入ib_logfile的寫入策略 1、基本概念/ D- f5 E6 L: X% I" H
a)、ib_logfile文件個數由innodb_log_files_in_group配置決定,若為2,則在datadir目錄下有兩個文件,命令從0開始,分別為ib_logfile0和ib_logfile.9 {$ A* K6 I* g- z
b)、文件為順序寫入,當達到最後一個文件末尾時,會從第一個文件開始順序復用。
8 X- b- E% @- V# v" l O% g2 |$ b8 |% m0 Yc)、lsn: Log Sequence Number,是一個遞增的整數。 Ib_logfile中的每次寫入操作都包含至少1個log,每個log都帶有一個lsn。在內存page修復過程中,只有大於page_lsn的log才會被使用。
% e! W3 M& h3 z, p/ A- f5 k' B! rd)、lsn的保存在全局變量log_sys中。遞增數值等於每個log的實際內容長度。即如果新增的一個log長度是len,則log_sys->lsn += len.
, O0 I: n: B& A2 E$ U) fe)、ib_logfile每次寫入以512(OS_FILE_LOG_BLOCK_SIZE)字節為單位。實際寫入函數 log_group_write_buf (log/log0log.c)
7 b& G4 e7 M! G# X. z2 ef)、每次寫盤後是否flush,由參數innodb_flush_log_at_trx_commit控制。
* |2 p$ K# @9 V) U7 y8 W- g9 k* A; H1 s2 [' B7 }5 y7 w) [0 Q- h. C" c
* C6 ^. ?! O1 R; `% a# X' a: t2、log_sys介紹
3 [* F3 L+ C( h1 s: Olog_sys是一個全局內存結構。以下說明幾個成員的意義。; Z' b* \. p& q
| | | lsn | 表示已經分配的最後一個lsn的值。 | | written_to_all_lsn | n表示實際已經寫盤的lsn。需要這個值是因為並非每次生成log後就寫盤。 | | flushed_to_disk_lsn | 表示刷到磁盤的lsn。需要這個值是因為並非每次寫盤後就flush。 | | buf | 待寫入的內容保存在buf中 | | buf_size | buf的大小。由配置中innodb_log_buffer_size決定,實際大小為innodb_log_buffer_size /16k * 16k。 | | buf_next_to_write | buf中下一個要寫入磁盤的位置 | | buf_free | buf中實際內容的最後位置。當buf_free> buf_next_to_write時,說明內存中還有數據未寫盤。 |
: z9 k7 i; h( j7 i& _
/ U$ z2 B' D) K0 X8 G
5 a0 A2 ~7 p; Y. q9 q. T x! b3、相關更新) N: G$ f* E5 ^" Q6 I1 b
用一個簡單的更新語句來說明log_sys以及ib_logfile的更新內容的過程。假設我們的更新只涉及到非索引的固定長度字段。
3 @% U" p4 v" U( o9 G& ca) 在bufferpool中寫入undo log。 對於一個單一的語句,需要先創建一個undolog頭。
& r g' [3 S1 k% F, x I1 r' S& Rb) 在bufferpool中寫入undo log的實際內容。
! R3 [7 g2 [0 {; }c) 在log_sys->buf中寫入buffer page的更新內容。此處保存了更新的完整信息。: O$ X( }! f5 ?* p. M+ Z
d) 在log_sys->buf中寫入啟動事務(trx_prepare)的日誌7 V( }! t( @) B
e) 將c、d更新的log內容寫入ib_logfile中。) U8 Y- G6 N" ]6 p5 I2 l9 x
f) 在log_sys->buf中寫入事務結束(trx_commit)的日誌+ i8 Z# V' Q! u3 i# P3 {& l* R$ d
g) 將f步驟的log內容寫入ib_logfile中。' Z! y0 g/ O1 P, C
* d/ `8 m1 |# a) o6 M+ o5 W; k
4、說明
* O% G6 p$ w" m* N% V; la) 完成上述所有操作時,數據文件還沒有更新。/ Q7 W# F, R' y* C. H
b) 每次寫入log_sys->buf時同時更新lsn和buf_free。 每次寫ib_logfile時同時更新written_to_all_lsn和buf_next_to_write;
+ f3 O% D4 \' w. S4 E/ \c) 每次寫ib_logfile時以512字節為對齊,如需寫入600字節,則實際寫入1k。寫到最後一個文件末尾則從第一個文件重復使用。 r3 X2 V' Z% b( \; M F
d) 從上述流程看到,在a~d過程中若出現異常關閉,由於沒有寫入到磁盤中,因此整個事務放棄;若在e剛完成時出現異常關閉,雖然事務內容已經寫盤,但沒有提交。在重啟恢復的時候,發現這個事務還沒有提交,邏輯上整個事務放棄。 (重啟日誌中會有Found 1 prepared transaction(s) in InnoDB字樣)。在g完成後出現異常關閉,則能夠在重啟恢復中正常提交。. Z4 U2 f L$ o- d4 B
, A8 T% B7 p, p* L, O
在e和f之間會寫mysql的bin-log,若bin-log寫完前異常關閉,事務無效,bin-log寫入成功後,則異常重啟後能夠根據bin-log恢復事務的修改。
# n+ i" B/ `4 K, G1 U5 g' b$ H" j0 K" c( o8 m ~; g4 Q: O0 M* u
e) 若涉及到索引更新,在步驟c之後會增加索引更新的log。由於索引可能有merge過程,因此在merge過程中會另外增加寫入一個log。但事務完全提交仍在步驟g中。索引的更新由於已經寫盤,並不會因此丟失。
|