數(shù)棧數(shù)據(jù)安全案例:混合云環(huán)境數(shù)據(jù)庫備份容災(zāi)實現(xiàn)
本文整理自:數(shù)棧研習(xí)社
數(shù)棧是云原生—站式數(shù)據(jù)中臺PaaS,我們在github上有一個有趣的開源項目:FlinkX,歡迎給我們點個star!star!star!
https://github.com/DTStack/flinkx
FlinkX是一個基于Flink的批流統(tǒng)一的數(shù)據(jù)同步工具,既可以采集靜態(tài)的數(shù)據(jù),比如MySQL,HDFS等,也可以采集實時變化的數(shù)據(jù),比如MySQL binlog,Kafka等,是全域、異構(gòu)、批流一體的數(shù)據(jù)同步引擎,大家如果有興趣,歡迎來github社區(qū)找我們玩~
近些年,數(shù)據(jù)安全事件頻發(fā)。

作為企業(yè)的核心資產(chǎn),數(shù)據(jù)的外泄、破壞都會導(dǎo)致不可挽回的經(jīng)濟損失和核心競爭力缺失。規(guī)范的制度建設(shè)、權(quán)限管理和變更流程是保證數(shù)據(jù)安全的重要落地措施。
袋鼠云DBA團隊承接多個客戶的容災(zāi)架構(gòu)設(shè)計需求,制定可靠、有效的容災(zāi)架構(gòu)方案并推動落地。備份重于一切。我們會優(yōu)先考慮數(shù)據(jù)庫備份集的容災(zāi)設(shè)計:兩地三中心VS混合云、權(quán)限分配&監(jiān)控告警&恢復(fù)演練。
基于混合云的備份容災(zāi)方案,已成功向多個客戶輸出。今天來談一下阿里云—IDC混合云場景下的備份容災(zāi)設(shè)計:
1. 阿里云RDS等數(shù)據(jù)庫產(chǎn)品,備份集、binlog保留在OSS對象存儲,下載后可見;同時提供備份/日志API接口,用于編程開發(fā);
2. 云環(huán)境和IDC容災(zāi)機房走了專線,帶寬根據(jù)備份、日志量,傳輸時間窗口來規(guī)劃;
3. IDC容災(zāi)機房重要是存儲的規(guī)劃:RAID&文件保留期限&容量&權(quán)限;
4. 備份集、日志文件的抽取、驗證程序;5. 運維監(jiān)控平臺,收集、分析IDC容災(zāi)機房程序日志,發(fā)現(xiàn)、告警,運維及時響應(yīng)。

具體實現(xiàn):
1. 元數(shù)據(jù)。阿里云RDS提供了兩個API:備份文件信息DescribeBackups、日志文件信息DescribeBinlogFiles,傳入?yún)?shù)instance_id即可獲取備份集、日志文件的基礎(chǔ)信息:下載路徑、大小、文件名、checksum值等。
袋鼠云智能運維中臺可以準(zhǔn)實時同步RDS元數(shù)據(jù)信息,確保備份集、日志文件的抽取時效。

2. 文件抽取。依賴元數(shù)據(jù)信息,分為備份集和日志文件兩個抽取程序,每個程序均配置有文件大小、checksum值雙重驗證。

對拉取進程超時、文件不完整等問題,會自動重新拉取。

控制抽取進程并發(fā)數(shù)量,避免專線擁擠。
3. 運維監(jiān)控平臺接入,分析同步任務(wù)運行日志,配置抽取失敗、傳輸超時等告警;同時接入IDC存儲空間使用量、使用率變化趨勢告警,對異常問題主動發(fā)現(xiàn)、及時處理。

4. 恢復(fù)演練。制定演練計劃,模擬以時間點恢復(fù)、數(shù)據(jù)誤操作等運維事件,收集操作過程,整理成冊。

5. IDC存儲管理由機房運維部門負(fù)責(zé),云平臺運維部門操作存儲需嚴(yán)格按照審批流程進行申請。
從架構(gòu)設(shè)計、權(quán)限管理到程序開發(fā)、告警響應(yīng)、異常處理、恢復(fù)演練,多環(huán)節(jié)無死角確保備份集安全。
只要備份安全,數(shù)據(jù)一定能恢復(fù)。