【服務(wù)器數(shù)據(jù)恢復(fù)】StorNext文件系統(tǒng)下raid5數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
昆騰系列存儲(chǔ),9個(gè)磁盤柜,每個(gè)磁盤柜配置24塊硬盤。其中8個(gè)磁盤柜用于存儲(chǔ)數(shù)據(jù),1個(gè)磁盤柜用于存儲(chǔ)元數(shù)據(jù)。上層使用的是StorNext文件系統(tǒng)。
存儲(chǔ)元數(shù)據(jù)的磁盤柜中24塊磁盤的分配情況:8組RAID1陣列+1組4盤RAID10陣列+4個(gè)全局熱備硬盤。
存儲(chǔ)數(shù)據(jù)的磁盤柜中磁盤的分配情況,每6塊硬盤設(shè)組建一組RAID5陣列,共32組RAID5陣列,32組RAID5陣列分為2個(gè)存儲(chǔ)系統(tǒng)。
存儲(chǔ)及文件系統(tǒng)架構(gòu)大致如下:

注:Meta_LUN(元數(shù)據(jù)卷)? ? Data_LUN(用戶數(shù)據(jù)卷)
服務(wù)器故障:
存儲(chǔ)數(shù)據(jù)的磁盤柜中由RAID5陣列組成的1個(gè)存儲(chǔ)系統(tǒng)中的一組RAID5陣列上的2塊磁盤由于故障先后離線,該組RAID5陣列癱瘓,導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)崩潰,無法使用。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、對(duì)用戶存儲(chǔ)環(huán)境以只讀方式做鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都在鏡像文件上進(jìn)行,避免誤操作對(duì)原始數(shù)據(jù)造成二次破壞。
2、在備份過程中發(fā)現(xiàn)故障RAID5陣列中的1塊離線硬盤存在大量壞道,無法繼續(xù)正常備份。由硬件工程師對(duì)故障硬盤進(jìn)行開盤更換固件并修復(fù),修復(fù)完成后該硬盤可以繼續(xù)備份,但壞道仍然存在。
部分鏡像文件:

3、分析故障RAID5陣列,獲取RAID相關(guān)信息,利用獲取到的RAID相關(guān)信息虛擬重組RAID陣列,將重組出來的RAID陣列中的LUN導(dǎo)出為鏡像文件。分析過程中發(fā)現(xiàn)損壞較嚴(yán)重的硬盤為后離線的硬盤,此硬盤存在大量壞道。
4、登錄昆騰存儲(chǔ)設(shè)備的管理界面,獲取StorNext文件系統(tǒng)中和卷相關(guān)的基本信息,如下圖:

5、分析StorNext文件系統(tǒng)中的Meta卷和Data卷。該StorNext文件系統(tǒng)包含2個(gè)Data卷,每一個(gè)完整的Data卷都是由多組RAID陣列中的LUN組成。北亞數(shù)據(jù)恢復(fù)工程師通過分析這些LUN研究出LUN之間組合的算法規(guī)律,然后虛擬重組出完整的Data卷。

6、分析Meta卷中的節(jié)點(diǎn)信息和目錄項(xiàng)信息以及Meta卷和Data之間的對(duì)應(yīng)關(guān)系,針對(duì)一個(gè)Meta卷管理多個(gè)Data卷的情況,北亞數(shù)據(jù)恢復(fù)工程師研究出Meta卷到Data卷的索引算法。
文件節(jié)點(diǎn):

目錄塊:

7、通過分析研究獲取到工作所需的全部信息后,北亞數(shù)據(jù)恢復(fù)工程師編寫程序掃描Meta卷中的節(jié)點(diǎn)信息和目錄項(xiàng)信息,解析目錄項(xiàng)和節(jié)點(diǎn),獲取到完整的文件系統(tǒng)目錄結(jié)構(gòu)并解析每一個(gè)節(jié)點(diǎn)中的指針信息,然后將這些信息記錄在數(shù)據(jù)庫(kù)中。
文件信息:

8、北亞數(shù)據(jù)恢復(fù)工程師編寫文件提取程序,讀取數(shù)據(jù)庫(kù),根據(jù)解析出的信息以及兩個(gè)Data卷之間的聚合算法提取數(shù)據(jù)。
9、對(duì)提取出來的數(shù)據(jù)進(jìn)行抽檢,沒有發(fā)現(xiàn)問題。
10、將用戶所需全部文件提取到本地,交付給用戶親自驗(yàn)證,經(jīng)用戶反復(fù)驗(yàn)證后確認(rèn)數(shù)據(jù)完整有效。