dba+開源工具:數據恢復搭把手!MySQL二進制日志解析轉換工具
工具簡介
reverse_sql是一個用于解析和轉換MySQL二進制日志(binlog)的工具。它可以將二進制日志文件中記錄的數據庫更改操作(如插入、更新、刪除)轉換為反向的SQL語句,以便進行數據恢復。其運行模式需二進制日志設置為ROW格式。
該工具的主要功能和特點包括:
1、解析二進制日志:reverse_sql能夠解析MySQL的二進制日志文件,并還原出其中的SQL語句。
2、生成可讀的SQL:生成原始SQL和反向SQL。
3、支持過濾和篩選:可以根據時間范圍、表、DML操作等條件來過濾出具體的誤操作SQL語句。
4、支持多線程并發解析binlog事件。
請注意!reverse_sql只是將二進制日志還原為SQL語句,而不會執行這些SQL語句來修改數據庫。
原理
調用官方(https://python-mysql-replication.readthedocs.io/)庫來實現,通過指定的時間范圍,轉換為timestamp時間戳,將整個時間范圍平均分配給每個線程。
由于BinLogStreamReader并不支持指定時間戳來進行遞增解析,固在每個任務開始之前,使用上一個任務處理過的binlog_file和binlog_pos,這樣后續的線程就可以獲取到上一個線程處理過的binlog文件名和position,然后進行后續的并發處理。
假設開始時間戳start_timestamp是1625558400,線程數量num_threads是4,整個時間范圍被平均分配給每個線程。那么,通過計算可以得到以下結果:
對于第一個線程(i=0),start_time是1625558400。
對于第二個線程(i=1),start_time是1625558400 + time_range。
對于第三個線程(i=2),start_time是1625558400 + 2 * time_range。
對于最后一個線程(i=3),start_time是1625558400 + 3 * time_range。
這樣,每個線程的開始時間都會有所偏移,確保處理的時間范圍沒有重疊,并且覆蓋了整個時間范圍。最后,將結果保存在一個列表里,并對列表做升序排序,取得最終結果。
使用
shell> chmod 755 reverse_sql
shell> ./reverse_sql --help
usage: reverse_sql [-h] [-ot ONLY_TABLES [ONLY_TABLES ...]] [-op ONLY_OPERATION] -H MYSQL_HOST
-P MYSQL_PORT -u MYSQL_USER -p MYSQL_PASSWD -d MYSQL_DATABASE
[-c MYSQL_CHARSET] --binlog-file BINLOG_FILE [--binlog-pos BINLOG_POS]
--start-time ST --end-time ET [--max-workers MAX_WORKERS] [--print]
Binlog數據恢復,生成反向SQL語句。
options:
-h, --help show this help message and exit
-ot ONLY_TABLES [ONLY_TABLES ...], --only-tables ONLY_TABLES [ONLY_TABLES ...]
設置要恢復的表,多張表用,逗號分隔
-op ONLY_OPERATION, --only-operation ONLY_OPERATION
設置誤操作時的命令(insert/update/delete)
-H MYSQL_HOST, --mysql-host MYSQL_HOST
MySQL主機名
-P MYSQL_PORT, --mysql-port MYSQL_PORT
MySQL端口號
-u MYSQL_USER, --mysql-user MYSQL_USER
MySQL用戶名
-p MYSQL_PASSWD, --mysql-passwd MYSQL_PASSWD
MySQL密碼
-d MYSQL_DATABASE, --mysql-database MYSQL_DATABASE
MySQL數據庫名
-c MYSQL_CHARSET, --mysql-charset MYSQL_CHARSET
MySQL字符集,默認utf8
--binlog-file BINLOG_FILE
Binlog文件
--binlog-pos BINLOG_POS
Binlog位置,默認4
--start-time ST 起始時間
--end-time ET 結束時間
--max-workers MAX_WORKERS
線程數,默認10
--print 將解析后的SQL輸出到終端
--replace 將update轉換為replace操作
Example usage:
shell> ./reverse_sql -ot table1 -op delete -H 192.168.198.239 -P 3336 -u admin -p hechunyang -d hcy --binlog-file mysql-bin.000124 --start-time "2023-07-06 10:00:00" --end-time "2023-07-06 22:00:00"
當出現誤操作時,只需指定誤操作的時間段,其對應的binlog文件(通常你可以通過show master status得到當前的binlog文件名)以及剛才誤操作的表,和具體的DML命令,比如update或者delete。
工具運行時,首先會進行MySQL的環境檢測(if binlog_format != 'ROW' and binlog_row_image != 'FULL'),如果不同時滿足這兩個條件,程序直接退出。
工具運行后,會在當前目錄下生成一個{db}_{table}_recover.sql文件,保存著原生SQL(原生SQL會加注釋)和反向SQL,如果想將結果輸出到前臺終端,可以指定--print選項。
如果你想把update操作轉換為replace,指定--replace選項即可,同時會在當前目錄下生成一個{db}_{table}_recover_replace.sql文件。
圖片
MySQL最小化用戶權限:
> GRANT REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO
`yourname`@`%`;
> GRANT SELECT ON `test`.* TO `yourname`@`%`;
恢復
在{db}_{table}_recover.sql文件中找到你剛才誤操作的DML語句,然后在MySQL數據庫中執行逆向工程后的SQL以恢復數據。
如果{db}_{table}_recover.sql文件的內容過多,也可以通過awk命令進行分割,以便更容易進行排查。
shell> awk '/^-- SQL執行時間/{filename = "output" ++count ".sql"; print > filename; next} {print > filename}' test_t1_recover.sql
不支持drop和truncate操作,因為這兩個操作屬于物理性刪除,需要通過歷史備份進行恢復。
注:reverse_sql支持MySQL 5.7/8.0和MariaDB,適用于CentOS 7系統。
2023年7月12日更新 - 分之版本:可實現進度條展示(處理binlog的event數量和耗時時間)。
工具研發者介紹
賀春旸,dbaplus社群金牌專家,凡普金科和愛錢進DBA團隊負責人,《MySQL管理之道:性能調優、高可用與監控》第一&二版、《MySQL運維進階指南》作者,曾任職于中國移動飛信、安卓機鋒網。五次榮獲dbaplus年度MVP,致力于MariaDB、MongoDB等開源技術的研究,主要負責數據庫性能調優、監控和架構設計。