前言
說到MySQL,有兩塊日志一定繞不開,一個是InnoDB存儲引擎的redo log(重做日志),另一個是MySQL Servce層的 binlog(歸檔日志)。
只要是數(shù)據(jù)更新操作,就一定會涉及它們,今天就來聊聊redo log(重做日志)。
redo log
redo log(重做日志)是InnoDB存儲引擎獨有的,它讓MySQL擁有了崩潰恢復能力。
比如MySQL實例掛了或宕機了,重啟時,InnoDB存儲引擎會使用redo log恢復數(shù)據(jù),保證數(shù)據(jù)的持久性與完整性。
上一篇中阿星講過,MySQL中數(shù)據(jù)是以頁為單位,你查詢一條記錄,會從硬盤把一頁的數(shù)據(jù)加載出來,加載出來的數(shù)據(jù)叫數(shù)據(jù)頁,會放入到Buffer Pool中。
后續(xù)的查詢都是先從Buffer Pool中找,沒有命中再去硬盤加載,減少硬盤IO開銷,提升性能。
更新表數(shù)據(jù)的時候,也是如此,發(fā)現(xiàn)Buffer Pool里存在要更新的數(shù)據(jù),就直接在Buffer Pool里更新。
然后會把“在某個數(shù)據(jù)頁上做了什么修改”記錄到重做日志緩存(redo log buffer)里,接著刷盤到redo log文件里。
理想情況,事務一提交就會進行刷盤操作,但實際上,刷盤的時機是根據(jù)策略來進行的。
小貼士:每條redo記錄由“表空間號+數(shù)據(jù)頁號+偏移量+修改數(shù)據(jù)長度+具體修改的數(shù)據(jù)”組成
刷盤時機
InnoDB存儲引擎為redo log的刷盤策略提供了innodb_flush_log_at_trx_commit參數(shù),它支持三種策略
設置為0的時候,表示每次事務提交時不進行刷盤操作
設置為1的時候,表示每次事務提交時都將進行刷盤操作(默認值)
設置為2的時候,表示每次事務提交時都只把redo log buffer內(nèi)容寫入page cache
另外InnoDB存儲引擎有一個后臺線程,每隔1秒,就會把redo log buffer中的內(nèi)容寫到文件系統(tǒng)緩存(page cache),然后調(diào)用fsync刷盤。
也就是說,一個沒有提交事務的redo log記錄,也可能會刷盤。
為什么呢?
因為在事務執(zhí)行過程redo log記錄是會寫入redo log buffer中,這些redo log記錄會被后臺線程刷盤。
除了后臺線程每秒1次的輪詢操作,還有一種情況,當redo log buffer占用的空間即將達到innodb_log_buffer_size一半的時候,后臺線程會主動刷盤。
下面是不同刷盤策略的流程圖
innodb_flush_log_at_trx_commit=0
為0時,如果MySQL掛了或宕機可能會有1秒數(shù)據(jù)的丟失。
innodb_flush_log_at_trx_commit=1
為1時, 只要事務提交成功,redo log記錄就一定在硬盤里,不會有任何數(shù)據(jù)丟失。
如果事務執(zhí)行期間MySQL掛了或宕機,這部分日志丟了,但是事務并沒有提交,所以日志丟了也不會有損失。
innodb_flush_log_at_trx_commit=2
為2時, 只要事務提交成功,redo log buffer中的內(nèi)容只寫入文件系統(tǒng)緩存(page cache)。
如果僅僅只是MySQL掛了不會有任何數(shù)據(jù)丟失,但是宕機可能會有1秒數(shù)據(jù)的丟失。
日志文件組
硬盤上存儲的redo log日志文件不只一個,而是以一個日志文件組的形式出現(xiàn)的,每個的redo日志文件大小都是一樣的。
比如可以配置為一組4個文件,每個文件的大小是1GB,整個redo log日志文件組可以記錄4G的內(nèi)容。
它采用的是環(huán)形數(shù)組形式,從頭開始寫,寫到末尾又回到頭循環(huán)寫,如下圖所示。
在個日志文件組中還有兩個重要的屬性,分別是write pos、checkpoint
write pos是當前記錄的位置,一邊寫一邊后移
checkpoint是當前要擦除的位置,也是往后推移
每次刷盤redo log記錄到日志文件組中,write pos位置就會后移更新。
每次MySQL加載日志文件組恢復數(shù)據(jù)時,會清空加載過的redo log記錄,并把checkpoint后移更新。
write pos和checkpoint之間的還空著的部分可以用來寫入新的redo log記錄。
如果write pos追上checkpoint,表示日志文件組滿了,這時候不能再寫入新的redo log記錄,MySQL得停下來,清空一些記錄,把checkpoint推進一下。
本文到此就結(jié)束了,下篇會聊聊binlog(歸檔日志)。
小結(jié)
相信大家都知道redo log的作用和它的刷盤時機、存儲形式。
現(xiàn)在我們來思考一問題,只要每次把修改后的數(shù)據(jù)頁直接刷盤不就好了,還有redo log什么事。
它們不都是刷盤么?差別在哪里?
1 Byte = 8bit
1 KB = 1024 Byte
1 MB = 1024 KB
1 GB = 1024 MB
1 TB = 1024 GB
實際上,數(shù)據(jù)頁大小是16KB,刷盤比較耗時,可能就修改了數(shù)據(jù)頁里的幾Byte數(shù)據(jù),有必要把完整的數(shù)據(jù)頁刷盤嗎?
而且數(shù)據(jù)頁刷盤是隨機寫,因為一個數(shù)據(jù)頁對應的位置可能在硬盤文件的隨機位置,所以性能是很差。
如果是寫redo log,一行記錄可能就占幾十Byte,只包含表空間號、數(shù)據(jù)頁號、磁盤文件偏移量、更新值,再加上是順序?qū)懀运⒈P速度很快。
所以用redo log形式記錄修改內(nèi)容,性能會遠遠超過刷數(shù)據(jù)頁的方式,這也讓數(shù)據(jù)庫的并發(fā)能力更強。
其實內(nèi)存的數(shù)據(jù)頁在一定時機也會刷盤,我們把這稱為頁合并,講Buffer Pool的時候會對這塊細說
責任編輯:haq
-
數(shù)據(jù)
+關注
關注
8文章
7006瀏覽量
88951 -
存儲
+關注
關注
13文章
4298瀏覽量
85808 -
MySQL
+關注
關注
1文章
804瀏覽量
26542
原文標題:聊聊 redo log 是什么?
文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論